CN109247069A

CN109247069A - 通过使用音频频谱图上的结构张量来重构相位信息的编码

Info

Publication number: CN109247069A
Application number: CN201780030962.3A
Authority: CN
Inventors: 安德鲁斯·尼德梅尔; 理查德·福格; 萨沙·迪施
Original assignee: Fraunhofer Gesellschaft zur Forderung der Angewandten Forschung eV
Current assignee: Fraunhofer Gesellschaft zur Forderung der Angewandten Forschung eV
Priority date: 2016-03-18
Filing date: 2017-03-16
Publication date: 2019-01-18
Anticipated expiration: 2037-03-16
Also published as: CN109247069B; EP3430620A1; WO2017158105A1; JP6790114B2; EP3430620B1; BR112018068892A2; US10607630B2; JP2019512740A; RU2714579C1; US20190019529A1

Abstract

提供了一种用于根据音频信号的幅度频谱图进行相位重构的装置。该装置包括：频率改变确定器(110)，被配置为根据音频信号的幅度频谱图，来确定针对音频信号的幅度频谱图的多个时频段中的每个时频段的频率的改变；以及相位重构器(140)，被配置为根据针对多个时频段而确定的频率的改变来产生针对多个时频段的相位值。

Description

通过使用音频频谱图上的结构张量来重构相位信息的编码

技术领域

本发明涉及音频信号处理，具体地，涉及使用频谱图上的结构张量进行谐波-冲击-残差(harmonic-percussive-residual)声音分离的装置和方法。

背景技术

能够将声音分离成其谐波分量和冲击分量是许多应用的有效预处理步骤。

尽管“谐波-冲击(-残差)分离”是一个常用术语，但它具有误导性，因为它意味着谐波结构的正弦曲线的频率为基频的整数倍。尽管正确的术语应该是“音调-打击-(残差)分离”，但为了便于理解，下面使用术语“谐波”而不是“音调”。

例如，使用音乐录音的分离的冲击分量可以导致节拍跟踪(参见[1])、节奏分析和节奏乐器的转录的质量改善。分离的谐波分量适用于音高乐器和和弦检测的转录(参见[3])。此外，谐波-冲击分离可以用于重新混合目的，例如改变两个信号分量之间的水平比(参见[4])，这会使得实现“更平滑”或“更强”的整体声音感知。

用于谐波-冲击声音分离的一些方法依赖于这样的假设：在输入信号的幅度频谱图中，谐波声音具有水平结构(在时间方向上)，而冲击声音表现为垂直结构(在频率方向上)。Ono等人提出了一种方法，该方法首先通过在时间/频率方向上的扩散来产生谐波/冲击增强的频谱图(参见[5])。之后通过比较这些增强的表示，可以得到声音是谐波还是冲击的决定。

Fitzgerald发表了一种类似的方法，在该方法中，通过在垂直方向上使用中值滤波而不是扩散来计算增强的频谱图是(参见[6])，这产生了类似的结果，同时降低了计算复杂度。

受到正弦+瞬态+噪声(S+T+N)信号模型(参见[7]、[8]、[9])的启发，得到一种旨在借助于小的参数集来描述各个信号分量的框架。然后，Fitzgerald的方法扩展到[10]中的谐波-冲击-残差(HPR)分离。由于音频信号通常由既不明显地是谐波也不明显地是冲击的声音组成，因此该过程在第三残差分量中捕获这些声音。尽管这些残差信号中的一些明显具有各向同性的(既不是水平的也不是垂直的)结构(例如，如噪声一样)，但是存在不具有明显的水平结构但仍然携带音调信息并且可以被感知为声音的谐波部分的声音。一个示例是频率调制的音调，就像它们可以出现在小提琴演奏或声乐作品的录音中，据说它们具有“颤音”。由于识别水平结构或垂直结构的策略，上述方法并不总是能够在其谐波分量中捕获这样的声音。

在[11]中提出了一种基于非负矩阵因子分解的谐波-冲击分离过程，该分离过程能够在谐波分量中捕获具有非水平频谱结构的谐波声音。然而，它不包括第三残差分量。

综上所述，最近的方法依赖于以下观察：在频谱图表示中，谐波声音导致水平结构，而冲击声音导致垂直结构。此外，这些方法将既不水平也不垂直的结构(即，非谐波、非冲击声音)与残差类别相关联。然而，这种假设对于诸如频率调制音调等的信号不成立，这些信号显示波动的频谱结构，但仍然携带音调信息。

结构张量(一种用于图像处理的工具(参见[12]、[13]))应用于灰度图像以用于边缘和角落检测(参见[14])，或估计对象的取向。结构张量已经用于音频处理中的预处理和特征提取(参见[15]、[16])。

发明内容

本发明的目的是提供用于音频信号处理的改进的构思。通过根据权利要求1所述的装置、根据权利要求18所述的系统、根据权利要求19所述的编码器、根据权利要求20所述的方法、以及根据权利要求21所述的计算机程序来实现本发明的目的。

提供了一种用于根据音频信号的幅度频谱图进行相位重构的装置。该装置包括：频率改变确定器，被配置为根据音频信号的幅度频谱图，来确定针对音频信号的幅度频谱图的多个时频段中的每个时频段的频率的改变；以及相位重构器，被配置为根据针对多个时频段而确定的频率的改变来产生针对多个时频段的相位值。

此外，提供了一种编码器，其被配置为产生音频信号的幅度频谱图以供上述装置进行相位重构。

此外，提供了一种用于根据音频信号的幅度频谱图进行相位重构的方法。所述方法包括：

-根据音频信号的幅度频谱图，来确定针对音频信号的幅度频谱图的多个时频段中的每个时频段的频率的改变，以及

-根据针对多个时频段而确定的频率的改变来产生针对多个时频段的相位值。

此外，提供了一种计算机程序，其中所述计算机程序被配置为当在计算机或信号处理器上执行时实现上述方法。

附图说明

以下参考附图更详细地描述本发明的实施例，在附图中：

图1示出了根据实施例的用于分析音频信号的幅度频谱图的装置，

图2示出了根据实施例的歌声、响板和掌声的混合的频谱图，其中在某一区域中对该频谱图进行了放大，在该放大区域中，箭头的取向指示方向，并且箭头的长度指示各向异性度量，

图3示出了根据实施例的通过使用结构张量计算的取向/各向异性值的范围，

图4示出了用于合成输入信号的摘录的HPR-M和HPR-ST方法之间的比较，

图5示出了根据实施例的装置，其中该装置包括信号产生器，

图6示出了根据实施例的装置，其中该装置包括用于记录音频信号的一个或多个麦克风，

图7示出了根据另一实施例的用于相位重构的装置，

图8示出了根据实施例的用于相位重构的装置，该装置包括信号产生器，

图9示出了根据实施例的包括编码器和解码器在内的系统，其中解码器是根据实施例的用于相位重构的装置，以及

图10示出了根据实施例的音频编码器和音频解码器，其使用幅度频谱进行传输。

具体实施方式

图1示出了根据实施例的用于分析音频信号的幅度频谱图的装置。

该装置包括频率改变确定器110。频率改变确定器110被配置为根据音频信号的幅度频谱图，来确定针对音频信号的幅度频谱图的多个时频段(bin)中的每个时频段的频率的改变。

此外，该装置包括分类器120。分类器120被配置为根据针对所述时频段而确定的频率的改变，向两个或更多个信号分量组中的信号分量组指派多个时频段中的每个时频段。

根据实施例，频率改变确定器110可以例如被配置为根据针对多个时频段中的每个时频段的角度α(b，k)，来确定针对该时频段的频率的改变。针对所述时频段的角度α(b，k)取决于音频信号的幅度频谱图。

在实施例中，频率改变确定器110可以例如被配置为：进一步根据音频信号的采样频率f_s、根据分析窗口的长度N、以及根据分析窗口的跳大小H，来确定针对多个时频段中的每个时频段的频率的改变。

根据实施例，装置的频率改变确定器110被配置为根据下式来确定针对多个时频段中的每个时频段的频率的改变：

(b，k)指示多个时频段中的时频段，其中R(b，k)指示针对所述时频段(b，k)的频率的改变，其中b指示时间，其中k指示频率，其中f_s指示音频信号的采样频率，其中N指示分析窗口的长度，其中H指示分析窗口的跳大小，并且其中α(b，k)指示针对所述时频段(b，k)的角度，其中该角度α(b，k)取决于幅度频谱图。

在实施例中，频率改变确定器110可以例如被配置为确定音频信号的幅度频谱图S关于时间索引的偏导数S_b。在这样的实施例中，频率改变确定器110可以例如被配置为确定音频信号的幅度频谱图S关于时间索引的偏导数S_k。

此外，在这样的实施例中，频率改变确定器110被配置为：根据音频信号的幅度频谱图S关于时间索引的偏导数S_b、以及根据音频信号的幅度频谱图S关于频率索引的偏导数S_k，确定针对多个时频段中的每个时频段(b，k)的结构张量T(b，k)。

此外，在这样的实施例中，频率改变确定器110可以例如被配置为：根据针对多个时频段中的每个时频段(b，k)的结构张量T(b，k)，确定针对该时频段(b，k)的角度α(b，k)。

根据实施例，频率改变确定器110可以例如被配置为：通过确定多个时频段中的每个时频段(b，k)的结构张量T(b，k)的特征向量v(b，k)的两个分量v₁(b，k)和v₂(b，k)、以及通过根据下式确定针对所述时频段(b，k)的角度α(b，k)，来确定针对该时频段(b，k)的角度α(b，k)：

α(b，k)指示针对所述时频段(b，k)的角度，其中b指示时间，其中k指示频率，并且其中atan()指示反正切函数。

在实施例中，分类器120可以例如被配置为：根据下式中的至少一个，来确定针对多个时频段中的每个时频段(b，k)的各向异性的度量：

以及

μ(b，k)+λ(b，k)≥e，

μ(b，k)是所述时频段(b，k)的结构张量(T(b，k))的第一特征值，λ(b，k)是所述时频段(b，k)的结构张量(T(b，k))的第二特征值，并且

在这样的实施例中，分类器120可以例如被配置为：进一步根据各向异性的度量的改变，向两个或更多个信号分量组中的信号分量组指派多个时频段中的每个时频段。

根据实施例，分类器120可以例如被配置为：根据下式，来确定针对所述时频段(b，k)的各向异性的度量：

C(b，k)是取决于所述时频段(b，k)的各向异性的度量，并且其中分类器120被配置为如果各向异性的度量C(b，k)小于第一阈值c，则向两个或多个信号分量组中的残差分量组指派所述时频段(b，k)，或者其中分类器120被配置为如果各向异性的度量C(b，k)小于或等于第一阈值c，则向两个或更多个信号分量组中的残差分量组指派所述时频段(b，k)，其中

在实施例中，分类器120可以例如被配置为：根据针对多个时频段中的每个时频段而确定的频率的改变R(b，k)，向两个或更多个信号分量组中的信号分量组指派所述时频段(b，k)，使得分类器120根据针对所述多个时频段中的时频段而确定的频率的改变R(b，k)的绝对值|R(b，k)|是否小于第二阈值r_h，或者根据针对所述时频段(b，k)而确定的频率的改变R(b，k)的绝对值|R(b，k)|是否小于或等于第二阈值r_h(其中r_h )，向两个或更多个信号分量组中的谐波信号分量组指派所述时频段(b，k)。

根据实施例，分类器120可以例如被配置为：根据针对多个时频段中的时频段而确定的频率的改变R(b，k)，向两个或更多个信号分量组中的信号分量组指派所述时频段(b，k)，使得分类器120根据针对多个时频段中的时频段而确定的频率的改变R(b，k)的绝对值|R(b，k)|是否大于第三阈值r_p，或者根据针对所述时频段(b，k)而确定的频率的改变(R(b，k))的绝对值|R(b，k)|是否大于或等于第三阈值r_p(其中)，向两个或更多个信号分量组中的冲击信号分量组指派所述时频段(b，k)。

在下文中，提供了实施例的详细描述。

实施例提供基于结构张量的谐波-冲击-残差(HPR)声音分离的改进构思。一些实施例通过利用与由结构张量提供的频谱结构的取向有关的信息来捕获在谐波分量中保持音调信息的频率调制声音。

一些实施例基于以下发现：向水平和垂直的严格分类不适合于这些信号，并且可能导致音调信息泄漏到残差分量中。实施例涉及一种新颖的方法，其取而代之地使用结构张量这一数学工具来计算幅度频谱图中的主导取向角。即使在频率调制信号的情况下，实施例也采用该取向信息来区分谐波信号分量、冲击信号分量和残差信号分量。最后，借助于客观评价措施以及音频示例来验证实施例的构思的有效性。

此外，一些实施例基于以下发现：结构张量可以被认为是黑盒，其中输入是灰度图像，并且输出是针对每个像素的与最低改变的方向相对应的角度n以及针对每个像素的针对该方向的确定性或各向异性度量。附加地，结构张量提供了平滑的可能性，这减少了噪声的影响以增强鲁棒性。此外，确定性度量可以用于确定估计的角度的质量。该确定性度量的低值指示像素位于恒定亮度的区域中而没有任何明确的方向。

例如，可以从通过结构张量获得的角度中提取局部频率改变。通过这些角度，可以确定频谱图中的时频段是属于谐波(＝低局部频率改变)分量还是冲击(＝高或无限局部频率改变)分量。

提供了针对谐波-冲击-残差分类和分离的改进实施例。

谐波-冲击-残差声音分离是一种有用的预处理工具，其用于诸如音高乐器转录或节奏提取之类的应用。一些实施例不是仅搜索严格水平和垂直的结构，而是通过使用从图像处理中已知的结构张量来确定频谱图中的主导取向角以及局部各向异性。

在实施例中，然后可以使用所提供的与频谱结构的取向有关的信息以通过设置适当的阈值来区分谐波信号分量、冲击信号分量和残差信号分量，参见图2。

图2示出了歌声、响板和掌声的混合的频谱图，其中在某一区域中对该频谱图进行了放大，该放大区域附加地示出了通过结构张量获得的方向(箭头的取向)和各向异性度量(箭头的长度)。箭头的颜色指示基于取向和各向异性信息将相应的时频段指派给谐波分量(区域210)、冲击分量(区域230)还是残差分量(区域220)。

既没有高局部频率改变率也没有低局部频率改变率或指示恒定区域的确定性度量的所有段被指派为属于残差分量。在图2中可以看到频谱图中的该分离的示例。针对包括频率调制声音在内的音频信号，实施例比针对幅度频谱图的类似方法表现得更好。

首先，描述结构张量的构思，并且该一般构思扩展为适用于音频处理的上下文。

在下文中，为了便于标记，矩阵和向量被写为粗体字。此外，(.)运算符用于对特定元素编索引。在这种情况下，矩阵或向量被写为非粗体字以显示其标量用法。

首先，描述根据实施例的频谱图的计算。音频信号可以例如是(离散的)输入音频信号。

结构张量可以应用于采样频率为f_s的离散输入音频信号的频谱图表示。对于x的频谱分析，使用短时傅立叶变换(STFT)

其中b表示帧索引，k表示频率索引，并且是长度为N的窗口函数(换句话说：N是分析窗口的长度)。H≤N表示窗口的分析跳大小。应当注意，由于STFT频谱在奈奎斯特点附近具有一定的对称性，因此处理可以例如限制到这是因为可以在逆STFT期间重构对称性。

通过使用上面的公式(1)，可以获得频谱图。频谱图包括多个频谱，其中多个频谱在时间上彼此相继。如果存在至少一些第二时域样本，则多个频谱中的第二频谱在时间上相继于第一频谱，其中所述至少一些第二时域样本用于产生第二频谱而不用于产生第一频谱，并且是指作为比用于产生第一频谱的第一时域样本更晚的时间点的时域样本。用于及时产生相邻频谱的时域样本的窗口可以例如重叠。

在实施例中，分析窗口长度N可以例如被定义为：

256个样本≤N≤2048个样本。

在一些实施例中，分析窗口长度可以例如是2048。在其它实施例中，分析窗口长度可以例如是1024个样本。在另外的实施方案中，分析窗口长度可以是例如768个样本。在另外的实施例中，分析窗口长度可以是例如256个样本。

在实施例中，分析跳大小H可以例如在分析窗口的25％与75％之间的范围内。在这样的实施例中：

0.25N≤H≤0.75N。

因此，在这样的实施例中，如果分析窗口具有例如2048个样本(N＝2048)，则分析跳大小可以例如在以下范围内：

512个样本≤H≤1536个样本。

如果分析窗口具有例如256个样本(N＝256)，则分析跳大小可以例如在以下范围内：

64个样本≤H≤192个样本。

在优选实施例中，分析跳大小可以例如是分析窗口的50％。这与两个后续分析窗口的50％的窗口重叠相对应。

在一些实施例中，分析跳大小可以例如是分析窗口的25％。这与两个后续分析窗口的75％的窗口重叠相对应。

在其它实施例中，分析跳大小可以例如是分析窗口的75％。这与两个后续分析窗口的25％的窗口重叠相对应。

应当注意，本发明的构思适用于任何类型的时域到频谱域变换，例如适用于改进离散余弦变换(MDCT)、改进离散正弦变换(MDST)、离散短时傅里叶变换(DSTFT)等。

实值对数频谱图可以例如计算为：

S(b，k)＝20log₁₀|X(b，k)| (2)

音频信号的幅度频谱图可以被称为S，并且针对时频段(b，k)的幅度频谱图的值可以被称为S(b，k)。

在下文中，描述了根据实施例的结构张量的计算。

对于结构张量的计算，需要S的偏导数。通过下式给出关于时间索引b的偏导数：

S_b＝S*d (3)

而关于频率索引k的偏导数被定义为：

S_k＝S*d^T (4)

其中d是离散微分算子(例如，对于中心差异，可以选择d＝[-1，0，1]/2)，并且*表示二维卷积。

此外，可以定义：

T₁₁＝(S_b⊙S_b)*G (5)

T₂₁＝T₁₂＝(S_k⊙S_b)*G (6)

T₂₂＝(S_k⊙S_k)*G (7)

其中，⊙是逐点矩阵乘法，也称为Hadamard乘积，并且G是2维高斯平滑滤波器，其在时间索引方向上具有标准差σ_b并且在频率索引方向上具有标准差σ_k。然后，通过2×2对称的正半定矩阵给出结构张量T(b，k)：

结构张量包括与频谱图的位置(b，k)处的主导取向有关的信息。应当注意，在G是标量的特殊情况下，T(b，k)不包括除了频谱图中的该位置处的梯度之外的信息。然而，与梯度相比，可以通过G对结构张量进行平滑而没有抵消效果，这使得它对噪声更加鲁棒。

应注意，结构张量T(b，k)是针对多个时频段中的每个时频段(b，k)而定义的。因此，当考虑多个时频段(例如，时频段(0，0)；(0，1)；(0，2)；...(1，0)；(1，1)；(1，2)；...)时，存在多个结构张量T(0，0)；T(0，1)；T(0，2)；...T(1，0)；T(1，1)；T(1，2)；...。例如，针对多个时频段中的每个时频段(b，k)，确定一个结构张量T(b，k)。

在下文中，描述了根据实施例的角度和各向异性度量的计算。

通过计算结构张量T(b，k)的特征值λ(b，k)、μ(b，k)(其中λ(b，k)≤μ(b，k))和对应的特征向量v(b，k)＝[v₁(b，k)，v₂(b，k)]^T和w(b，k)＝[w₁(b，k)，w₂(b，k)]^T，来获得与针对频谱图中的每个段的取向有关的信息。应当注意，与较小特征值λ(b，k)相对应的特征向量v(b，k)指向频谱图中的索引(b，k)处的最低改变的方向，而w(b，k)指向最高改变的方向。因此，可以通过下式获得特定段处的取向角：

v₁(b，k)和v₂(b，k)是特征向量v(b，k)的分量。

atan()指示反正切函数。

此外，可以针对每个段确定各向异性的度量

其中应当注意，C(b，k)∈[0；1]。接近1的C(b，k)的值指示频谱图中的在索引(b，k)处的高各向异性，而恒定的邻域导致接近0的值。可以选择阈值e，以进一步增加对噪声的鲁棒性，其中阈值e定义应该被认为是各向异性的界限。

通过考虑在时间间隔Δt期间具有瞬时频率改变Δf的连续信号，可以理解角度α(b，k)的物理意义。因此，瞬时频率改变率R表示为：

例如，根据实施例，通过结构张量获得的角度(由图2中的箭头的方向指示)可以例如被转换为针对频谱图中的每个时频段的局部频率改变率

针对每个时频段的频率的改变可以例如被称为瞬时频率改变率。

考虑到所应用的STFT分析的采样率、长度和跳大小，可以通过下式导出频谱图中的角度与针对每个段的瞬时频率改变率R(b，k)之间的关系：

也可以通过下式将离散域中的平滑滤波器G的标准差σ_b和σ_k转换为连续的物理参数σ_t和σ_f：

在下文中，描述了使用结构张量的谐波-冲击-残差分离。

经由结构张量获得的信息可以应用于HPR分离的问题，例如，以将频谱图中的每个段分类为输入信号的谐波分量、冲击分量或残差分量的一部分。

实施例基于以下发现：指派给谐波分量的段应该属于相当水平的结构，而属于相当垂直的结构的段应该指派给冲击分量。此外，应向残差分量指派不属于任何类型的定向结构的段。

根据实施例，如果段(b，k)满足以下两个约束中的第一约束，则可以例如向谐波分量指派该段。

根据优选的实施例，如果段(b，k)满足以下两个约束，则可以例如向谐波分量指派该段：

-第一约束可以例如是角度α(b，k)的绝对值小于(或等于)阈值α_h。阈值α_h可以例如在范围α_h∈[0；π/2]内。这意味着，段应该是斜率不大于或小于α_h的某一频谱结构的一部分。这样，根据参数α_h，还可以将频率调制声音认为是谐波分量的一部分。

-第二约束可以是例如各向异性的度量C(b，k)支持段(b，k)是某一定向的各向异性结构的一部分，并因此超过另一阈值c。应当注意，对于给定的段(b，k)，角度α(b，k)和各向异性的度量C(b，k)一起定义了极坐标下给出的中的点。

类似地，在实施例中，指派另一角度阈值α_p以定义何时应将段指派给冲击分量(图3中具有垂直线的区域330)。

因此，根据实施例，如果段(b，k)满足以下两个约束中的第一约束，则可以例如向冲击分量指派该段。

根据优选实施例，如果段(b，k)满足以下两个约束，则可以例如向冲击分量指派该段：

-第一约束可以例如是角度α(b，k)的绝对值大于(或等于)阈值α_p。阈值α_p可以例如在范围α_p∈[0；π/2]内。这意味着，段应该是斜率不大于或小于α_p的某一频谱结构的一部分。这样，根据参数α_p，还可以将频率调制声音认为是谐波分量的一部分。

最后，在实施例中，可以向残差分量指派既不向谐波分量指派也不向冲击分量指派的所有段。

可以通过定义针对谐波分量的掩模M_b、针对冲击分量的掩模M_p、以及针对残差分量的掩模M_r来表示上述指派过程。

应当注意，在实施例中，替代使用阈值α_h和阈值α_p，可以例如定义关于最大绝对频率改变率的阈值(其中r_p≥r_h)，以对参数选择给出更好的物理解释。掩膜可以由下式给出：

M_r(b，k)＝1-M_h(b，k)-M_p(b，k) (16)

最后，通过下式获得谐波分量X_h、冲击分量X_p和残差分量X_r的STFT：

X_h＝M_h⊙X (17)

X_p＝M_p⊙X (18)

X_r＝M_r⊙X (19)

然后可以经由逆STFT计算对应的时间信号。

图3示出了通过结构张量计算的取向/各向异性值的范围。

具体地，图3描绘了导致向谐波分量进行指派的所有点的子集。具体地，具有波浪线的区域310中的值导致向谐波分量进行指派。

具有垂直线的区域330中的值导致向冲击分量进行指派。

点状区域320中的值导致向残差分量进行指派。

阈值α_h定义图3中的线301，并且阈值α_p定义图3中的线302。

图5示出了根据实施例的装置，其中该装置包括信号产生器130，其被配置为根据向两个或更多个信号分量组指派多个时频段来产生音频输出信号。

例如，信号产生器可以通过对不同信号分量组的时频段的幅度值应用不同的加权因子来对音频信号的不同分量进行滤波。例如，谐波信号分量组可以具有第一加权因子w_h，冲击信号分量组可以具有第二加权因子w_p，并且残差信号分量组可以具有第一加权因子w_r，并且多个时频段中的每个时频段的幅度值可以例如用向其指派该时频段的信号分量组的加权因子来加权。

例如，为了强调谐波信号分量，在实施例中，将加权因子与线性幅度值相乘，例如，

w_h＝1.3，w_p＝0.7，和w_r＝0.2。

例如，为了强调谐波信号分量，在实施例中，将加权因子与对数幅度值相加，例如，

w_h＝+0.26，w_p＝-0.35，和w_r＝-1.61。

例如，为了强调冲击信号分量，在实施例中，将加权因子与线性幅度值相乘，例如，

w_h＝0.7，w_p＝1.3，和w_r＝0.2。

例如，为了强调冲击信号分量，在实施例中，将加权因子与对数幅度值相加，例如，

w_h＝-0.35，w_p＝+0.26，和w_r＝-1.61。

因此，信号产生器130被配置为：对多个时频段中的每个时频段的幅度值应用加权因子以获得音频输出信号，其中，对所述时频段应用的加权因子取决于向其指派所述时频段的信号分量组。

在图5的特定实施例中，信号处理器130可以例如是上混频器(upmixer)，其被配置为对音频信号进行上混频以获得包括两个或更多个音频输出通道在内的音频输出信号。上混频器可以例如被配置为根据向两个或更多个信号分量组指派多个时频段来产生两个或更多个音频输出通道。

例如，如上所述，可以根据音频信号产生两个或更多个音频输出通道，以通过对不同信号分量组的时频段的幅度值应用不同的加权因子，来对音频信号的不同分量进行滤波。

然而，为了产生不同的音频通道，可以使用针对信号分量组的不同权重，所述权重可以例如特定于不同音频输出通道中的每一个。

例如，对于第一音频输出通道，要与对数幅度值相加的权重可以是例如

w_1h＝+0.26，w_1p＝-0.35，和w_1r＝-1.61。

例如，对于第二音频输出通道，要与对数幅度值相加的权重可以是例如

w_2h＝+0.35，w_2p＝-0.26，和w_2r＝-1.61。

例如，当对音频信号进行上混频以获得左前环绕、中环绕、右环绕、左环绕和右环绕这五个音频输出通道时：

-与用于产生左环绕和右环绕音频输出通道的谐波加权因子w_2h相比，用于产生左、中和右音频输出通道的谐波加权因子w_1h可以更大。

-与用于产生左环绕和右环绕音频输出通道的冲击加权因子w_2p相比，用于产生左、中和右音频输出通道的冲击加权因子w_1p可以更小。

针对要产生的每个音频输出通道可以使用单独的加权因子。

图6示出了根据实施例的装置，其中该装置包括用于记录音频信号的一个或多个麦克风171、172。

在图6中，第一麦克风171记录音频信号的第一音频通道。可选的第二麦克风172记录音频信号的可选的第二音频通道。

此外，图6的装置还包括幅度频谱图产生器180，其用于根据包括第一音频通道、并且可选地包括可选的第二音频通道在内的音频信号来产生音频信号的幅度频谱图。根据音频信号产生幅度频谱图是本领域技术人员公知的构思。

在下文中，考虑对实施例的评价。

为了说明实施例在从谐波分量中捕获频率调制声音中的有效性，将根据实施例的基于结构张量的HPR方法(HPR-ST)与[10]中提出的基于中值滤波的非迭代方法(HPR-M)进行比较。此外，还使用用作针对最大可实现分离质量的参考的理想二元掩模(IBM)针对分离结果计算度量。

考虑到系统测试参数，对于HPR-ST和HPR-M两者，使用针对w的正弦窗口，将STFT参数选择为f_s＝22050H、N＝1024和H＝256。如在[10]中执行的实验中那样选择针对HPR-M的分离参数。根据实施例，使用微分算子(例如，Scharr-算子[17]作为离散微分算子d)计算结构张量。使用9×9各向同性高斯滤波器执行平滑，该高斯滤波器具有标准差σ_b＝σ_k＝1.4，这使得σ_t≈16ms和σ_f≈30Hz。最后，用于分离的阈值被设置为e＝20，c＝0.2和r_h＝r_p＝10000Hz/s。

应当注意，通过根据实施例选择r_h和r_p，甚至向谐波分量指派频谱图中的非常陡的结构。实施例采用与现实世界颤音有关的观察(例如如图2所示)。这里，可以看到，在某些情况下，歌声中的颤音具有非常高的瞬时频率改变率。此外，应该注意，通过选择r_h＝r_p，向残差分量指派频谱图中的段完全取决于其各向异性度量。

通过借助于客观评价度量以及音频示例两者将根据实施例的HPR-ST与[10]中提出的现有的基于中值滤波的方法HPR-M进行比较，来评价根据实施例的HPR-ST的有效性。

为了将根据实施例的HPR-ST的性能与现有技术的HPR-M的性能进行比较，当应用于包括频率调制声音在内的信号以获得客观结果时，产生两个测试项。

测试项1由纯合成声音的叠加组成。将谐波源选择为颤音音调，其基频为1000Hz、颤音频率为3Hz、颤音范围为50Hz、且有4个泛音。对于冲击源，使用了若干个脉冲，而白噪声既不表示谐波源也不表示冲击残差源。

测试项2是通过将歌声的现实世界信号与颤音(谐波)、响板(冲击)和掌声(既不是谐波也不是冲击)进行叠加而产生的。

通过将这些项的HPR分离解释为源分离问题，已经计算了标准源分离评价度量(如[18]中所介绍的源失真比SDR、源干扰比SIR、以及源伪像比SAR)，以产生两种过程的分离结果。表1中示出了结果。

表1描述了客观评价度量，其中所有值均以dB为单位给出：

(表1)

对于项1，HPR-ST针对颤音音调产生21.25dB的SDR，因此与HPR-M的分离结果(11.51dR)相比，更接近IBM的最佳分离结果(29.43dB)。这指示与HPRM相比，HPR-ST在从谐波分量中捕获该频率调制声音方面得到改善。图4中也示出了这一点。

图4示出了用于合成输入信号(项1)的摘录的HPR-M和HPR-ST方法之间的比较。为了增强可见性，使用与用于分离算法的参数不同的STFT参数来计算频谱图。

图4中的(a)示出了输入信号的频率相对于时间的图。在图4中，绘制了针对两个过程计算的谐波分量的频谱图以及冲击分量和残差分量之和的频谱图。可以看出，对于HPR-M，颤音音调的陡峭斜率泄漏到残差分量中(图4中的(b)和图4中的(c))，而HPR-ST(图4中的(d)和图4中的(e))产生良好的分离。这也解释了与HPR-ST相比，HPRM针对残差分量的SIR值非常低(-11.99dB对14.12dB)。

应该注意，HPR-M针对谐波分量的高SIR值仅反映了来自其它分量的干扰声音很少，而没有反映整体上很好地捕获了颤音的声音。一般而言，针对项1的大多数观察不太明显，但对于项2中的现实世界声音的混合也有效。对于这个项，HPR-M针对人声的SIR值甚至超过了HPR-ST的SIR值(20.83dB对15.61dB)。同样，针对掌声的低SIR值支持人声中的颤音部分泄漏到针对HPR-M的残差分量中(1.11dB)，而HPR-ST的残差分量包括较少的干扰声音(6.34dB)。这指示与HPR-M相比，实施例能够远远更好地捕获人声的频率调制结构。

综上所述，对于包括频率调制音调在内的信号，与HPR-M相比，实施例的HPR-ST构思提供了远远更好的分离结果。

一些实施例采用结构张量来进行歌声检测。(在[2]中描述了根据现有技术的歌唱检测)。

在下文中，描述了实施例的另一方面。该另一方面涉及根据幅度频谱图的相位重构。

图7示出了根据实施例的用于根据音频信号的幅度频谱图进行相位重构的装置。

该装置包括频率改变确定器110，其被配置为根据音频信号的幅度频谱图，来确定针对音频信号的幅度频谱图的多个时频段中的每个时频段的频率的改变。

此外，该装置包括相位重构器140，其被配置为根据针对多个时频段而确定的频率的改变来产生针对多个时频段的相位值。

根据实施例，相位重构器140可以例如被配置为：通过对频率的改变进行两次积分(通过在时间上进行两次积分)，来产生针对多个时频段中的每个时频段的相位值。换句话说，在实施例中，相位重构器140被配置为：通过在时间上进行两次积分来产生针对多个时频段中的每个时频段的相位值。因此，换句话说，执行两次积分的间隔沿着频谱图的时间轴延伸。

根据其它实施例，相位重构器140被配置为：通过在频率上进行两次积分(通过在频谱上进行两次积分)来产生针对多个时频段中的每个时频段的相位值。因此，换句话说，执行两次积分的间隔沿着频谱图的频率轴延伸。例如，可以基于公式(30)和(31)执行在频率上进行了两次的积分。

在实施例中，相位重构器140可以例如被配置为根据下式产生针对多个时频段的相位值：

b₀可以例如是指示多个块中的分析块的索引。b可以例如是指示多个块中的另外的分析块的另外的索引。H可以例如指示跳大小。φ(bH)、φ_b(b₀)以及φ_bb(m)可以例如指示相位值。

在实施例中，频率改变确定器110可以例如被配置为：根据针对多个时频段中的每个时频段的角度α(b，k)，确定针对所述时频段的频率的改变，其中针对所述时频段的角度α(b，k)取决于音频信号的幅度频谱图。

根据实施例，频率改变确定器110可以例如被配置为：进一步根据音频信号的采样频率f_s、根据分析窗口的长度N、以及根据分析窗口的跳大小H，来确定针对多个时频段中的每个时频段的频率的改变。

在实施例中，装置的频率改变确定器110可以例如被配置为：根据下式来确定针对多个时频段中的每个时频段的频率的改变：

(b，k)指示多个时频段中的时频段，R(b，k)指示针对所述时频段(b，k)的频率的改变，b指示时间，k指示频率，f_s指示音频信号的采样频率，N指示分析窗口的长度，H指示分析窗口的跳大小，并且α(b，k)指示针对所述时频段(b，k)的角度，其中该角度α(b，k)取决于幅度频谱图。

根据实施例，频率改变确定器110可以例如被配置为确定音频信号的幅度频谱图S关于时间索引的偏导数S_b。此外，频率改变确定器110可以例如被配置为确定音频信号的幅度频谱图S关于时间索引的偏导数S_k。此外，频率改变确定器110可以例如被配置为：根据音频信号的幅度频谱图S关于时间索引的偏导数S_b、以及根据音频信号的幅度频谱图S关于频率索引的偏导数S_k，确定针对多个时频段中的每个时频段(b，k)的结构张量T(b，k)。此外，频率改变确定器110可以例如被配置为：根据针对多个时频段中的每个时频段(b，k)的结构张量T(b，k)，确定针对所述时频段(b，k)的角度α(b，k)。

在实施例中，频率改变确定器110可以例如被配置为：通过确定多个时频段中的每个时频段(b，k)的结构张量T(b，k)的特征向量v(b，k)的两个分量v₁(b，k)和v₂(b，k)、以及通过根据下式确定针对所述时频段(b，k)的角度α(b，k)，来确定针对所述时频段(b，k)的角度α(b，k)：

α(b，k)指示针对所述时频段(b，k)的角度；b指示时间，k指示频率，并且atan()指示反正切函数。

根据实施例，相位重构器140被配置为根据针对多个时频段而确定的频率的改变来产生针对多个时频段中的每个时频段的相位值。

在实施例中，相位重构器140可以例如被配置为：根据针对多个时频段中的每个时频段而确定的频率的改变，确定针对多个时频段中的每个时频段(b，k)的各向异性的度量。

根据实施例，相位重构器140可以例如被配置为：根据下式中的至少一个，来确定针对多个时频段中的每个时频段(b，k)的各向异性的度量：

以及

μ(b，k)+λ(b，k)≥e，

μ(b，k)是所述时频段(b，k)的结构张量(T(b，k))的第一特征值，λ(b，k)是所述时频段(b，k)的结构张量(T(b，k))的第二特征值，并且相位重构器140可以例如被配置为：进一步根据各向异性的度量的改变，向两个或更多个信号分量组中的信号分量组指派多个时频段中的每个时频段。

根据实施例，相位重构器140被配置为：根据下式，来确定针对所述时频段(b，k)的各向异性的度量：

C(b，k)是取决于所述时频段(b，k)的各向异性的度量。相位重构器140可以例如被配置为：如果各向异性的度量C(b，k)小于上阈值c，则向两个或更多个信号分量组中的残差分量组指派所述时频段(b，k)，或者其中相位重构器140可以例如被配置为：如果各向异性的度量C(b，k)小于或等于上阈值c，则向两个或更多个信号分量组中的残差分量组指派所述时频段(b，k)，其中

根据实施例，相位重构器140可以例如被配置为：根据各向异性的度量、是否应该执行相位重构，来确定针对多个时频段中的每个时频段的相位重构模式。

相位重构器140可以例如被配置为：如果相位重构器140针对多个时频段中的每个时频段所确定的相位重构模式指示第一模式，则通过对频率的改变进行两次积分，来产生针对所述时频段的相位值。此外，相位重构器140可以例如被配置为：如果相位重构器140针对多个时频段中的每个时频段所确定的相位重构模式指示与第一模式不同的第二模式，则通过对频率的改变进行两次积分，来确定针对所述时频段的相位。

在实施例中，相位重构器140可以例如被配置为：确定针对多个时频段中的每个时频段(b，k)的相位重构模式，使得如果各向异性的度量大于下阈值c，则相位重构模式指示第一模式；并且使得如果针对所述时频段(b，k)的各向异性的度量小于或等于下阈值c，则相位重构模式指示第二模式。

在实施例中，上阈值和下阈值c可以例如相等。

或者，相位重构器(140)被配置为：确定针对多个时频段中的每个时频段(b，k)的相位重构模式，使得如果针对所述时频段(b，k)的各向异性的度量大于或等于阈值c，则相位重构模式指示第一模式；并且使得如果各向异性的度量小于阈值c，则相位重构模式指示第二模式。

例如，第一模式可以指示时频段属于谐波或冲击信号分量组。

例如，第一模式可以指示时频段属于残差信号分量组。

在下文中，更详细地描述了根据特定实施例的相位估计。

在[19]和[20]中已经提出了用于根据给定的幅度频谱图来估计相位信息的任务的算法。然而，这些算法要么具有高计算复杂度，要么使得一般音频信号的可感知质量不令人满意。

根据幅度频谱图来估计相位信息是可以用于例如音频编码的任务，其中编码器可以仅传输幅度而在解码器处恢复相位。与现有技术的基于MDCT的编码器相比(其中频谱展示即使对于恒定的音调信号也随时间波动)，(例如，DFT或CMDCT(也称为MCLT)的)幅度频谱更加稳定，这允许随时间的比特率有效的差分编码(参见[21])和有效的多通道冗余减少。

在实施例中，基于通过结构张量而进行的局部频率改变估计，根据实施例的新算法基于考虑任意输入信号由若干线性调频脉冲(chirp)组成的信号模型。线性调频脉冲信号由下式给出

x(t)＝sin(φ(t))，φ(t)＝2πf₀t+πRt² (20)

其中t是时间变量，f₀[Hz]是恒定的起始频率，R[Hz/s]是恒定的频率改变率。通过关于t对相位自变量φ(t)进行两次求导，可以示出：

因此，可以通过对频率改变率进行两次积分来获得当前相位。对于工作在离散域中的该算法，这种积分变成求和。假设每个频谱图段与局部线性调频脉冲信号相对应，则通过结构张量估计的局部频率改变与针对每个局部线性调频脉冲的R相对应。此外，使用通过结构张量获得的各向异性度量，可以在没有任何显式信号模型或先前语义分类的情况下执行局部频率改变率的所需积分。

由于高各向异性度量与频谱图中的定向结构(如音调或冲击分量)相对应，因此与可以假设随机相位的各向同性噪声区域形成对比，高各向异性度量与可以重构相位的区域相对应。

现在对此进行更详细的描述：

如上所述，通过结构张量获得的角度(例如，由图2中的箭头方向所示)可以转换为针对频谱图中的每个时频段的局部频率改变率

其中α(b，k)是通过结构张量提取的针对每个段的角度。

在下文中，解释了使用例如结构张量的信息来根据幅度频谱图进行相位重构及其用于音频编码的构思。假设：

不仅是STFT而且是x(t)的任意时频表示。然后，可以将相位重构的问题描述为从幅度频谱图|X(b，k)|中提取估计的任务。通过如下逆变换：

然后可以再次产生对应的时域信号y(t)。

在实施例中，基于通过结构张量而进行的局部频率改变估计，提供了一种用于根据幅度频谱图进行相位重构的新算法。通过考虑由下式给出的离散线性调频脉冲信号，可以理解主要思想：

其中，是时间索引变量，f₀[Hz]是恒定的起始频率，R₀[Hz/s]是恒定的频率改变率，并且φ₀是初始相位。如果通过使用重叠块变换(例如，STFT)分别作为滤波器组的时频表示来分析该信号，则可以通过下式表示由于从先前分析块b-1到当前块b的窗口跳大小H引起的相位传播：

因此，φ_b(b)是相对于分析块索引b的有限差分，并且可以被解释为对x(t)的瞬时角频率的估计。通过使用φ_b(b)，当φ_b(b₀)已知时，可以在任何分析块b＞b₀处表示φ(bH)：

现在，考虑从先前分析块b-1到当前块b的φ_b(b)的改变：

φ_bb(b)对于线性调频脉冲而言是恒定的，并且包括固定常数以及频率改变率R₀。可以将其解释为从一个分析块到下一个块的角频率增加。如果φ_b(b₀)已知，则甚至可以进一步使用φ_bb(b)来表示公式(27)：

这意味着，如果知道先前分析块处的相位和瞬时频率、并且进一步知道恒定频率改变R₀，则可以计算分析块b处的相位φ(bH)。

注意，可以针对瞬态信号(例如，脉冲)计算这些表达式和公式的双重表达式(dual)。然而，必须相对于某个分析块b的频谱相位ψ(k)＝arg(X(b，k))中的频率索引k进行有限差分。

然后通过下式获得针对瞬态信号的时间重心：

ψ_k(k)＝ψ(k)-ψ(k-1) (30)

并且通过下式获得瞬态信号的时间重心随频率索引k的改变：

ψ_kk(k)＝ψ_k(k)-ψ_k(k-1) (31)

对于这种情况，可以导出公式(27)和公式(29)的双重表达式(dual expression)。

根据实施例，如上所述，使用通过结构张量获得的局部频率改变率的估计来提供用于根据幅度频谱进行相位重构的算法。

假设每个频谱图段与分别具有线性频率改变的局部线性调频脉冲信号相对应，则如在先前子部分中所说明的，通过结构张量估计的局部频率改变R(b，k)与调频脉冲率或者局部线性频率改变R₀相对应。这意味着：通过结构张量获得的主导方向可以被视为φ_bb(b)关于时间索引b的二阶导数的平滑鲁棒估计，并且高达一些乘法常数。

使用该估计，然后可以使用公式(29)来计算信号的当前相位。由于仅在一个段的范围内假设线性频率改变，因此即使对于具有更复杂频率调制的信号，也可以获得相位估计。必须注意，瞬时频率以及初始相位必需是事先已知(例如作为边信息传输)的，或者是用不同方法估计的。特别地，可以使用诸如QFFT之类的内插或幅度频谱的导数来估计瞬时频率。

必须注意，即使公式(29)显示严格求和为分析块方向b的和，在更先进的算法中，总和必须遵循频谱图中信号主瓣的轨迹。因此，可能有必要在求和方向上隐式地或显式地分别将通过结构张量获得的方向信息和局部频率改变率进行合并。这可以使得估计的相位是频率索引k方向和分析块索引b方向上的和的结果的叠加。

此外，必须注意，经由公式(29)计算的表达式与公式(25)中所示的正弦的自变量相对应。尽管这与在频谱表示中观察到的相位具有很强的对应关系，但可能有必要使用进一步的知识(例如，依赖于相位的频谱的解析表达)来正确合成针对每个段(例如，针对频谱的旁瓣)的相位。

此外，使用通过结构张量获得的各向异性度量，可以在没有任何显式信号模型或先前语义分类的情况下执行局部频率改变率的所需积分。由于高各向异性度量与频谱图中的定向结构(如音调或冲击分量)相对应，因此与可以假设随机相位的各向同性噪声区域形成对比，高各向异性度量与可以重构相位的区域相对应。

此外，没有必要将算法局限于单音信号。

实施例实现了优于现有技术的优点。例如，一些实施例表现出适度的计算复杂度(例如，小于[19]中的计算复杂度)。此外，针对频率调制信号，与[20]中的相位估计相比，一些实施例实现了更好的相位估计。

一些实施例实现了信号分量的固有分类：

例如，根据一些实施例，可以针对谐波信号分量进行相位估计；可以针对冲击信号分量进行相位估计；但不能针对残差信号分量和/或噪声信号分量进行相位估计。

在下文中，考虑音频编码应用。

滤波器组的选择是设计音频编解码器的关键步骤。现有的编解码器通常使用MDCT(改进离散余弦变换)，因为它在严格采样时提供50％的重叠，并且在没有量化的情况下能够进行完美重构。在编码应用中，这些属性减少了块伪像，同时使必须传输的频谱系数的数据量保持较低。MDCT的缺点在于：即使对于平稳信号，其也随时间存在频谱波动。这使得例如频谱系数的差分编码的编码增益损失，因为先前传输的MDCT频谱的信息在当前MDCT频谱的重构中仅有有限的用途。

因为频谱的幅度(例如，50％重叠MCLT(调制复合重叠变换)滤波器组的幅度)随时间更加稳定[21]，特别是对于平稳信号更是如此，因此实施例提供了基于上述针对相位重构的构思的编解码器的设计。

根据实施例，编码器使用分析滤波器组执行PCM输入信号x(t)的时频分解，以获得针对特定时间间隔(例如，一帧)的复合频谱X(f)。X(f)用于提取边信息。

在实施例中，边信息可以例如包括瞬态信号和/或初始化相位(例如，按规则间隔的)的基频和/或时间位置和/或关于当前信号类别的信息等。

然后，将X(f)的幅度量化为|Y(f)|，并且将其与边信息一起传输到解码器。然后，解码器使用边信息以及量化后的幅度频谱|Y(f)|来估计如上所述的原始复合频谱X(f)的相位。通过使用该估计相位，可以获得复合频谱Y(f)，其应该非常接近X(f)。然后，将Y(f)馈入合成滤波器组以获得时域输出信号y(t)。利用所提出的MCLT滤波器组，这样的编解码器仍将展示出诸如重叠和临界采样之类的期望特征，同时为平稳信号的差分编码提供更有效的可能性。

图8示出了根据上述实施例之一的用于相位重构的装置，其包括信号产生器150。信号产生器150被配置为根据音频信号的幅度频谱图并且根据针对多个时频段的相位值来产生音频输出信号。

例如，幅度频谱图提供针对特定时频段的幅度值，并且相位重构器140已经重构了针对该特定时频段的相位值。

图9示出了根据实施例的包括编码器210和解码器220在内的系统，其中解码器220是根据上述实施例之一的用于相位重构的装置。

编码器210被配置为对音频信号的幅度频谱图进行编码。

解码器220被配置为根据音频信号的幅度频谱图，来确定针对音频信号的幅度频谱图的多个时频段中的每个时频段的频率的改变。

此外，解码器220被配置为根据针对多个时频段而确定的频率的改变来产生针对多个时频段的相位值。

此外，解码器220被配置为使用音频信号的幅度频谱图并且使用针对多个时频段的相位值来对音频信号进行解码。

图10示出了根据实施例的音频编码器210和音频解码器220，其使用幅度频谱进行传输。

音频编码器210被配置为产生音频信号的幅度频谱图以供所述装置如上所述地进行相位重构。在图10中，解码器220可以是例如如上所述的用于相位重构的装置。

尽管已经在装置的上下文中描述了一些方面，但是将清楚的是，这些方面还表示对对应方法的描述，其中，块或设备对应于方法步骤或方法步骤的特征。类似地，在方法步骤的上下文中描述的方面也表示对对应块或者对应装置的项或特征的描述。可以由(或使用)硬件装置(比如，微处理器、可编程计算机或电子电路)来执行一些或全部方法步骤。在一些实施例中，可以由这种装置来执行最重要方法步骤中的一个或多个方法步骤。

根据某些实现要求，本发明的实施例可以以硬件或软件实现，或者至少部分地以硬件、或至少部分地以软件实现。可以使用其上存储有电子可读控制信号的数字存储介质(例如，软盘、DVD、蓝光、CD、ROM、PROM、EPROM、EEPROM或闪存)来执行实现，该电子可读控制信号与可编程计算机系统协作(或者能够与之协作)从而执行相应方法。因此，数字存储介质可以是计算机可读的。

根据本发明的一些实施例包括具有电子可读控制信号的数据载体，该电子可读控制信号能够与可编程计算机系统协作，从而执行本文所述的方法之一。

通常，本发明的实施例可以被实现为具有程序代码的计算机程序产品，程序代码可操作用于在计算机程序产品在计算机上运行时执行方法之一。程序代码可以例如存储在机器可读载体上。

其他实施例包括存储在机器可读载体上的计算机程序，该计算机程序用于执行本文所述的方法之一。

换言之，本发明方法的实施例因此是具有程序代码的计算机程序，该程序代码用于在计算机程序在计算机上运行时执行本文所述的方法之一。

因此，本发明方法的另一实施例是其上记录有计算机程序的数据载体(或者数字存储介质或计算机可读介质)，该计算机程序用于执行本文所述的方法之一。数据载体、数字存储介质或记录的介质通常是有形的和/或非暂时性的。

因此，本发明方法的另一实施例是表示计算机程序的数据流或信号序列，所述计算机程序用于执行本文所述的方法之一。数据流或信号序列可以例如被配置为经由数据通信连接(例如，经由互联网)传送。

另一实施例包括被配置为或适用于执行本文所述的方法之一的处理装置(例如，计算机或可编程逻辑器件)。

另一实施例包括其上安装有计算机程序的计算机，该计算机程序用于执行本文所述的方法之一。

根据本发明的另一实施例包括被配置为向接收机(例如，以电子方式或以光学方式)传送计算机程序的装置或系统，该计算机程序用于执行本文所述的方法之一。接收机可以是例如计算机、移动设备、存储设备等。装置或系统可以例如包括用于向接收机传送计算机程序的文件服务器。

在一些实施例中，可编程逻辑器件(例如，现场可编程门阵列)可以用于执行本文所述的方法的功能中的一些或全部。在一些实施例中，现场可编程门阵列可以与微处理器协作以执行本文所述的方法之一。通常，方法优选地由任意硬件装置来执行。

可以使用硬件装置、或者使用计算机、或者使用硬件装置和计算机的组合来实现本文描述的装置。

可以使用硬件装置、或者使用计算机、或者使用硬件装置和计算机的组合来执行本文描述的方法。

上述实施例对于本发明的原理仅是说明性的。应当理解的是：本文所述的布置和细节的修改和变形对于本领域其他技术人员将是显而易见的。因此，本发明旨在仅由所附专利权利要求的范围来限制而不是由借助对本文实施例的描述和解释所给出的具体细节来限制。

参考文献：

[1]Aggelos Gkiokas，Vassilios Katsouros，George Carayannis，and ThemosStafylakis，“Music tempo estimation and beat tracking by applying sourceseparation and metrical relations”，in Proceedings of the IEEE InternationalConference on Acoustics，Speech，and Signal Processing(ICASSP)，2012，pp.421-424.

[2]Bernhard Lehner，Gerhard Widmer，and Reinhard Sonnleitner，“On thereduction of false positives in singing voice detection”，in Proceedings ofthe IEEE International Conference on Acoustics，Speech，and Signal Processing(ICASSP)，Florence，Italy，2014，pp.7480-7484.

[3]Yushi Ueda，Yuuki Uchiyama，Takuya Nishimoto，Nobutaka Ono，andShigeki Sagayama，“HMM-based approach for automatic chord detection usingrefined acoustic features”，in Proceedings of the IEEE InternationalConference on Acoustics，Speech，and Signal Processing(ICASSP)，Dallas，Texas，USA，2010，pp.5518-5521.

[4]Nobutaka Ono，Kenichi Miyamoto，Hirokazu Kameoka，and ShigekiSagayama，“A real-time equalizer of harmonic and percussive components inmusic signals”，in Proceedings of the International Society for MusicInformation Retrieval Conference(ISMIR)，Philadelphia，Pennsylvania，USA，2008，pp.139-144.

[5]Nobutaka Ono，Kenichi Miyamoto，Jonathan LeRoux，Hirokazu Kameoka，andShigeki Sagayama，“Separation of a monaural audio signal into harmonic/percussive components by complementary diffusion on spectrogram”，in EuropeanSignal Processing Conference，Lausanne，Switzerland，2008，pp.240-244.

[6]Derry Fitzgerald，“Harmonic/percussive separation using medianfiltering”，in Proceedings of the International Conference on Digital AudioEffects(DAFX)，Graz，Austria，2010，pp.246-253.

[7]Scott N.Levine and Julius O.Smith III，“A sines+transients+noiseaudio representation for data compression and time/pitch scale modications”，in Proceedings of the AES Convention，1998.

[8]Tony S.Verma and Teresa H.Y.Meng，“An analysis/synthesis tool fortransient signals that allows a flexible sines+transients+noise model foraudio”，in Proceedings of the IEEE International Conference on Acoustics，Speech，and Signal Processing(ICASSP)，Seattle，Washington，USA，May 1998，pp.3573-3576.

[9]Laurent Daudet，“Sparse and structured decompositions of signalswith the molecular marching pursuit”，IEEE Transactions on Audio，Speech，andLanguage Precessing，vol.14，no.5，pp.1808-1816，September 2006.

[10]Jonathan Driedger，Meinard Müller，and Sascha Disch，“Extendingharmonic-percussive separation of audio signals”，in Proceedings of theInternational Conference on Music Information Retrieval(ISMIR)，Taipei，Taiwan，2014，pp.611-616.

[11]Jeongsoo Park and Kyogu Lee，“Harmonic-percussive sourceseparation using harmonicityand sparsity constraints”，in Proceedings of theInternational Conference on Music Information Retrieval(ISMIR)，Málaga，Spain，2015，pp.148-154.

[12]Josef Bigun andH.Granlund，“Optimal orientation detection oflinear symmetry”，in Proceedings of the IEEE First International Conference onComputer Vision，London，UK，1987，pp.433-438.

[13]Hans Knutsson，“Representing local structure using tensors”，in 6thScandinavian Conference on Image Analysis，Oulu，Finland，1989，pp.244-251.

[14]Chris Harris and Mike Stephens，“A combined corner and edgedetector”，in Proceedings of the 4th Alvey Vision Conference，Manchester，UK，1988，pp.147-151.

[15]Rolf Bardeli，“Similarity search in animal sound databases”，IEEETransactions on Multimedia，vol.11，no.1，pp.68-76，January 2009.

[16]Matthias Zeppelzauer，Angela S.and Christian Breiteneder，“Acoustic detection of elephant presence in noisy environments”，inProceedings of the 2nd ACM International Workshop on Multimedia Analysis forEcological Data，Barcelona，Spain，2013，pp4.3-8.

[17]Hanno Scharr，“Optimale Operatoren in der digitalenBildverarbeitung“，Dissertation，IWR，für Physik und Astronomie，Heidelberg，Heidelberg，Germany，2000.

[18]Emmanuel Vincent，Rémi Gribonval，and Cédric Févotte，“Performancemeasurement in blind audio source separation”，IEEE Transactions on Audio，Speech，and Language Processing，vol.14，no.4，pp.1462-1469，2006.

[19]Daniel W.Griffin and Jae S.Lim，“Signal estimation from modifiedshort-time Fourier tranfform”，IEEE Transactions on Acoustics，Speech，andSignal Processing，vol.32，no.2，pp.236-243，1984.

[20]Paul Magron，Roland Badeau，and Bertrand David，“Phasereconstruction of spectrograms with linear unwrapping：application to audiosignal restoration”，in Signal Processing Conference (EUSIPCO)，2015 23rdEuropean.IEEE，2015，pp.1-5.

[21]Byung-Jun Yoon and Henrique S Malvar，“Coding overcompleterepresentations of audio using the mclt”，in Data Compression Conference，2008.DCC 2008.IEEE，2008，pp.152-161。

Claims

1.一种用于根据音频信号的幅度频谱图进行相位重构的装置，包括：

频率改变确定器(110)，被配置为根据所述音频信号的幅度频谱图，来确定针对所述音频信号的幅度频谱图的多个时频段中的每个时频段的频率的改变；以及

相位重构器(140)，被配置为根据针对所述多个时频段而确定的频率的改变来产生针对所述多个时频段的相位值。

2.根据权利要求1所述的装置，

其中，所述相位重构器(140)被配置为：通过对所述频率的改变进行两次积分，来产生针对所述多个时频段中的每个时频段的相位值。

3.根据权利要求1或2所述的装置，

其中，所述相位重构器(140)被配置为：根据下式产生针对所述多个时频段的相位值：

其中，b₀是指示多个块中的分析块的索引，

其中，b是指示所述多个块中的另外的分析块的另外的索引，

其中，H指示跳大小，以及

其中，φ(bH)、φ_b(b₀)以及φ_bb(m)指示相位值。

4.根据前述权利要求中之一所述的装置，

其中，所述频率改变确定器(110)被配置为：根据针对所述多个时频段中的每个时频段的角度α(b，k)，确定针对所述时频段的频率的改变，其中针对所述时频段的角度α(b，k)取决于所述音频信号的幅度频谱图。

5.根据权利要求4所述的装置，

其中，所述频率改变确定器(110)被配置为：进一步根据所述音频信号的采样频率(f_s)、根据分析窗口的长度(N)、以及根据所述分析窗口的跳大小(H)，来确定针对所述多个时频段中的每个时频段的频率的改变。

6.根据权利要求5所述的装置，

其中，所述装置的频率改变确定器(110)被配置为：根据下式来确定针对所述多个时频段中的每个时频段的频率的改变：

其中，(b，k)指示所述多个时频段中的时频段，

其中，R(b，k)指示针对所述时频段(b，k)的频率的改变，

其中，b指示时间，

其中，k指示频率，

其中，f_s指示所述音频信号的采样频率，

其中，N指示所述分析窗口的长度，

其中，H指示所述分析窗口的跳大小，以及

其中，α(b，k)指示针对所述时频段(b，k)的角度，其中所述角度α(b，k)取决于所述幅度频谱图。

7.根据权利要求4至6之一所述的装置，

其中，所述频率改变确定器(110)被配置为：确定所述音频信号的幅度频谱图(S)关于时间索引的偏导数(S_b)，

其中，所述频率改变确定器(110)被配置为：确定所述音频信号的幅度频谱图(S)关于时间索引的偏导数(S_k)，以及

其中，所述频率改变确定器(110)被配置为：根据所述音频信号的幅度频谱图(S)关于所述时间索引的偏导数(S_b)、以及根据所述音频信号的幅度频谱图(S)关于频率索引的偏导数(S_k)，来确定针对所述多个时频段中的每个时频段((b，k))的结构张量(T(b，k))，以及

其中，所述频率改变确定器(110)被配置为：根据针对所述多个时频段中的每个时频段((b，k))的结构张量(T(b，k))，来确定针对所述时频段((b，k))的角度(α(b，k))。

8.根据权利要求7所述的装置，

其中，所述频率改变确定器(110)被配置为：通过确定所述多个时频段中的每个时频段((b，k))的结构张量(T(b，k))的特征向量v(b，k)的两个分量v₁(b，k)和v₂(b，k)、以及通过根据下式确定针对所述时频段((b，k))的角度(α(b，k))，来确定针对所述时频段((b，k))的角度(α(b，k))：

其中，α(b，k)指示针对所述时频段((b，k))的角度，

其中，b指示时间，

其中，k指示频率，以及

其中，atan()指示反正切函数。

9.根据前述权利要求之一所述的装置，其中，所述相位重构器(140)被配置为：根据针对所述多个时频段而确定的频率的改变，来产生针对所述多个时频段中的每个时频段的相位值。

10.根据权利要求7或8所述的装置，其中，所述相位重构器(140)被配置为：根据针对所述多个时频段中的每个时频段而确定的频率的改变，来确定针对所述多个时频段中的每个时频段(b，k)的各向异性的度量。

11.根据权利要求10所述的装置，

其中，所述相位重构器(140)被配置为：根据下式中的至少一个，来确定针对所述多个时频段中的每个时频段(b，k)的所述各向异性的度量：

以及

μ(b，k)+λ(b，k)≥e，

其中，μ(b，k)是所述时频段(b，k)的结构张量(T(b，k))的第一特征值，λ(b，k)是所述时频段(b，k)的结构张量(T(b，k))的第二特征值，并且

其中，所述相位重构器(140)被配置为：进一步根据所述各向异性的度量的改变，向两个或更多个信号分量组中的信号分量组指派所述多个时频段中的每个时频段。

12.根据权利要求11所述的装置，

其中，所述相位重构器(140)被配置为：根据下式，来确定针对所述时频段(b，k)的各向异性的度量：

其中，C(b，k)是针对所述时频段(b，k)的所述各向异性的度量，以及

其中，所述相位重构器(140)被配置为：如果所述各向异性的度量C(b，k)小于上阈值c，则向所述两个或更多个信号分量组中的残差分量组指派所述时频段(b，k)，或者所述相位重构器(140)被配置为：如果所述各向异性的度量C(b，k)小于或等于所述上阈值c，则向所述两个或更多个信号分量组中的残差分量组指派所述时频段(b，k)，

其中，

13.根据权利要求9至12之一所述的装置，

其中，所述相位重构器(140)被配置为：根据所述各向异性的度量、是否应该执行相位重构，来确定针对所述多个时频段中的每个时频段的相位重构模式，

其中，所述相位重构器(140)被配置为：如果所述相位重构器(140)针对所述多个时频段中的每个时频段而确定的所述相位重构模式指示第一模式，则通过对所述频率的改变进行两次积分，来产生针对所述时频段的相位值，以及

其中，所述相位重构器(140)被配置为：如果所述相位重构器(140)针对所述多个时频段中的每个时频段而确定的所述相位重构模式指示与所述第一模式不同的第二模式，则通过对所述频率的改变进行两次积分，来确定针对所述时频段的相位。

14.根据权利要求13所述的装置，

其中，所述相位重构器(140)被配置为：确定针对所述多个时频段中的每个时频段的所述相位重构模式，使得如果针对所述时频段((b，k))的所述各向异性的度量大于下阈值(c)，则所述相位重构模式指示所述第一模式；并且使得如果针对所述时频段((b，k))的所述各向异性的度量小于或等于所述下阈值(c)，则所述相位重构模式指示所述第二模式，或者

其中，所述相位重构器(140)被配置为：确定针对所述多个时频段中的每个时频段的所述相位重构模式，使得如果针对所述时频段((b，k))的所述各向异性的度量大于或等于所述下阈值(c)，则所述相位重构模式指示所述第一模式；并且使得如果针对所述时频段((b，k))的所述各向异性的度量小于所述下阈值(c)，则所述相位重构模式指示所述第二模式。

15.根据前述权利要求之一所述的装置，

其中，所述相位重构器(140)被配置为通过在频率上进行两次积分来产生针对所述多个时频段中的每个时频段的相位值。

16.根据前述权利要求之一所述的装置，

其中，所述相位重构器(140)被配置为：通过在时间上进行两次积分来产生针对所述多个时频段中的每个时频段的相位值。

17.根据前述权利要求之一所述的装置，其中，所述装置包括：信号产生器(150)，被配置为根据所述音频信号的幅度频谱图、以及根据针对所述多个时频段的相位值，来产生音频输出信号。

18.一种系统，包括：

编码器(210)，用于对音频信号的幅度频谱图进行编码，以及

解码器(220)，用于对所述音频信号进行解码，其中所述解码器(220)是根据前述权利要求之一所述的装置，

其中，所述解码器(220)被配置为：根据所述音频信号的幅度频谱图，来确定针对所述音频信号的幅度频谱图的多个时频段中的每个时频段的频率的改变，

其中，所述解码器(220)被配置为：根据针对所述多个时频段而确定的频率的改变，来产生针对所述多个时频段的相位值，以及

其中，所述解码器(220)被配置为：使用所述音频信号的幅度频谱图并且使用针对所述多个时频段的相位值来对所述音频信号进行解码。

19.一种编码器(210)，被配置为产生音频信号的幅度频谱图，以供根据权利要求1至17之一所述的装置进行相位重构。

20.一种用于根据音频信号的幅度频谱图进行相位重构的方法，包括：

根据所述音频信号的幅度频谱图，来确定针对所述音频信号的幅度频谱图的多个时频段中的每个时频段的频率的改变，以及

根据针对所述多个时频段而确定的频率的改变来产生针对所述多个时频段的相位值。

21.一种计算机程序，用于当在计算机或信号处理器上执行时实现根据权利要求20所述的方法。