CN109247030B - 使用频谱图上的结构张量进行谐波-打击乐-残余声音分离的装置和方法 - Google Patents

使用频谱图上的结构张量进行谐波-打击乐-残余声音分离的装置和方法 Download PDF

Info

Publication number
CN109247030B
CN109247030B CN201780030531.7A CN201780030531A CN109247030B CN 109247030 B CN109247030 B CN 109247030B CN 201780030531 A CN201780030531 A CN 201780030531A CN 109247030 B CN109247030 B CN 109247030B
Authority
CN
China
Prior art keywords
time
frequency
signal
interval
frequency interval
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201780030531.7A
Other languages
English (en)
Other versions
CN109247030A (zh
Inventor
安德鲁斯·尼德梅尔
理查德·福格
萨沙·迪施
梅纳德·穆勒
约翰·德里德格
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fraunhofer Gesellschaft zur Forderung der Angewandten Forschung eV
Original Assignee
Fraunhofer Gesellschaft zur Forderung der Angewandten Forschung eV
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fraunhofer Gesellschaft zur Forderung der Angewandten Forschung eV filed Critical Fraunhofer Gesellschaft zur Forderung der Angewandten Forschung eV
Publication of CN109247030A publication Critical patent/CN109247030A/zh
Application granted granted Critical
Publication of CN109247030B publication Critical patent/CN109247030B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10HELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
    • G10H1/00Details of electrophonic musical instruments
    • G10H1/36Accompaniment arrangements
    • G10H1/40Rhythm
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/60Information retrieval; Database structures therefor; File system structures therefor of audio data
    • G06F16/68Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/683Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F17/00Digital computing or data processing equipment or methods, specially adapted for specific functions
    • G06F17/10Complex mathematical operations
    • G06F17/16Matrix or vector computation, e.g. matrix-matrix or matrix-vector multiplication, matrix factorization
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10HELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
    • G10H2210/00Aspects or methods of musical processing having intrinsic musical character, i.e. involving musical theory or musical parameters or relying on musical knowledge, as applied in electrophonic musical tools or instruments
    • G10H2210/031Musical analysis, i.e. isolation, extraction or identification of musical elements or musical parameters from a raw acoustic signal or from an encoded audio signal
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10HELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
    • G10H2250/00Aspects of algorithms or signal processing methods without intrinsic musical character, yet specifically adapted for or used in electrophonic musical processing
    • G10H2250/025Envelope processing of music signals in, e.g. time domain, transform domain or cepstrum domain
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10HELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
    • G10H2250/00Aspects of algorithms or signal processing methods without intrinsic musical character, yet specifically adapted for or used in electrophonic musical processing
    • G10H2250/025Envelope processing of music signals in, e.g. time domain, transform domain or cepstrum domain
    • G10H2250/031Spectrum envelope processing
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10HELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
    • G10H2250/00Aspects of algorithms or signal processing methods without intrinsic musical character, yet specifically adapted for or used in electrophonic musical processing
    • G10H2250/131Mathematical functions for musical analysis, processing, synthesis or composition
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10HELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
    • G10H2250/00Aspects of algorithms or signal processing methods without intrinsic musical character, yet specifically adapted for or used in electrophonic musical processing
    • G10H2250/131Mathematical functions for musical analysis, processing, synthesis or composition
    • G10H2250/215Transforms, i.e. mathematical transforms into domains appropriate for musical signal processing, coding or compression
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10HELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
    • G10H2250/00Aspects of algorithms or signal processing methods without intrinsic musical character, yet specifically adapted for or used in electrophonic musical processing
    • G10H2250/131Mathematical functions for musical analysis, processing, synthesis or composition
    • G10H2250/215Transforms, i.e. mathematical transforms into domains appropriate for musical signal processing, coding or compression
    • G10H2250/221Cosine transform; DCT [discrete cosine transform], e.g. for use in lossy audio compression such as MP3
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10HELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
    • G10H2250/00Aspects of algorithms or signal processing methods without intrinsic musical character, yet specifically adapted for or used in electrophonic musical processing
    • G10H2250/131Mathematical functions for musical analysis, processing, synthesis or composition
    • G10H2250/215Transforms, i.e. mathematical transforms into domains appropriate for musical signal processing, coding or compression
    • G10H2250/235Fourier transform; Discrete Fourier Transform [DFT]; Fast Fourier Transform [FFT]
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10HELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
    • G10H2250/00Aspects of algorithms or signal processing methods without intrinsic musical character, yet specifically adapted for or used in electrophonic musical processing
    • G10H2250/131Mathematical functions for musical analysis, processing, synthesis or composition
    • G10H2250/261Window, i.e. apodization function or tapering function amounting to the selection and appropriate weighting of a group of samples in a digital signal within some chosen time interval, outside of which it is zero valued

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Data Mining & Analysis (AREA)
  • Mathematical Physics (AREA)
  • Acoustics & Sound (AREA)
  • Library & Information Science (AREA)
  • General Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Pure & Applied Mathematics (AREA)
  • Mathematical Optimization (AREA)
  • Mathematical Analysis (AREA)
  • Computational Mathematics (AREA)
  • Algebra (AREA)
  • Software Systems (AREA)
  • Computing Systems (AREA)
  • Measurement Of Mechanical Vibrations Or Ultrasonic Waves (AREA)
  • Auxiliary Devices For Music (AREA)

Abstract

提供了一种用于分析音频信号的幅度频谱图的装置。该装置包括瞬时频率变化率确定器(110),其用于音频信号的幅度频谱图的多个时频区间中的每个时频区间。此外,该装置包括分类器(120),其被配置为根据所确定的每个时频区间的瞬时频率变化率,将所述时频区间分配给两个或更多个信号分量组中的信号分量组。例如,在每个时频点(b,k)处确定结构张量T(b,k)和张量分量的角度a(b,k),以计算每个时频区间的局部各向异性度量,高的局部各向异性指示打击乐声音。

Description

使用频谱图上的结构张量进行谐波-打击乐-残余声音分离的 装置和方法
技术领域
本发明涉及音频信号处理,尤其涉及使用频谱图上的结构张量进行谐波-打击乐-残余声音分离的装置和方法。
背景技术
能够将声音分离成其谐波分量和打击乐分量的处理步骤是对许多应用有效的预处理步骤。
虽然“谐波一打击乐(-残余)分离”是常用的术语,但它具有误导性,因为它意味着具有频率为基频的整数倍的正弦波的谐波结构。尽管正确的术语应该是“音调-打击乐-(残余)分离”,但为了便于理解,下面使用术语“谐波”而不是“音调”。
例如,使用音乐录音的分离出的打击乐分量可以改进节拍跟踪(参见[1])、节奏分析和节奏乐器转录的质量。分离出的谐波分量适用于声调乐器的转录和和弦音检测(参见[3])。此外,谐波-打击乐分离可用于重新混音目的,例如改变两个信号分量之间的水平比(参见[4]),这会产生“更平滑”或“更有力”的整体声音感知。
用于谐波-打击乐声音分离的一些方法依赖于以下假设,即,谐波声音在输入信号的幅度频谱图中具有水平结构(在时间方向上),而打击乐声音表现为垂直结构(在频率方向上)。Ono等人提出了一种方法,该方法首先通过时间/频率方向上的扩散产生谐波/打击乐增强的频谱图(参见[5])。然后,通过比较这些增强的表示,可以导出声音是谐波还是打击乐的决定。
Fitzgerald发表了一种类似的方法,其中增强的频谱图是通过使用垂直方向上的中值滤波而不是扩散来计算的(参见[6]),这种方法在降低计算复杂度的同时产生类似的结果。
受到正弦+瞬态+噪声(S+T+N)信号模型(参见[7]、[8]、[9])的启发,提出了旨在通过一小组参数描述各个信号分量的框架。然后,在[10]中,将Fitzgerald的方法扩展到谐波-打击乐-残余(HPR)分离。由于音频信号通常包括既不明显是谐波也不明显是打击乐的声音,因此该过程在第三个残余分量中捕获这些声音。虽然这些残余信号中的一些明显具有各向同性(既非水平也非垂直)的结构(例如噪声),但是存在着以下声音,即,这种声音虽然不具有明显的水平结构,但仍然携带音调信息并可以被感知为声音的谐波部分。一个例子是频率调制的音调,它们可能出现在小提琴演奏或人声的录音中,可以说它们具有“颤音”。由于采用了识别水平结构或垂直结构的策略,上述方法并不总是能够在其谐波分量中捕获这样的声音。
在[11]中提出了一种基于非负矩阵分解的谐波-打击乐分离过程,该分离过程能够在谐波分量中捕获具有非水平频谱结构的谐波声音。但是它没有包括第三个残余分量。
综上所述,最近的方法依赖于以下观察:在频谱图表示中,谐波声音产生水平结构,而打击乐声音产生垂直结构。此外,这些方法将既非水平也非垂直的结构(即,非谐波声音,非打击乐声音)与残余类别相关联。然而,这种假设不适用于频率调制的音调等信号,这些信号虽然显示波动的频谱结构,但仍然携带音调信息。
结构张量是一种在图像处理中使用的工具(参见[12]、[13]),其在图像处理中应用于灰度图像,用来进行边缘和角点检测(参见[14])或估计物体的方向。结构张量已经用于音频处理中的预处理和特征提取(参见[15]、[16])。
发明内容
本发明的目的是提供用于音频信号处理的改进技术。本发明的目的通过根据权利要求1的装置、根据权利要求16的方法和根据权利要求17的计算机程序来实现。
提供了一种用于分析音频信号的幅度频谱图的装置。该装置包括频率变化确定器,该频率变化确定器被配置为根据音频信号的幅度频谱图,为音频信号的幅度频谱图的多个时频区间中的每个时频区间确定频率变化。此外,该装置包括分类器,该分类器被配置为根据为所述多个时频区间中的每个时频区间确定的频率变化,将所述时频区间分配给两个或更多个信号分量组中的信号分量组。
此外,提供了一种用于分析音频信号的幅度频谱图的方法。所述方法包括:
-根据音频信号的幅度频谱图,确定音频信号的幅度频谱图的多个时频区间中的每个时频区间的频率变化,以及:
-根据为所述多个时频区间中的每个时频区间确定的频率变化,将所述时频区间分配给两个或更多个信号分量组中的信号分量组。
此外,提供了一种计算机程序,该计算机程序被配置为当在计算机或信号处理器上被执行时实现上述方法。
附图说明
在下文中,将参考附图更详细地描述本发明的实施例,在附图中:
图1示出了根据一个实施例的用于分析音频信号的幅度频谱图的装置,
图2示出了根据一个实施例的具有放大区域的歌声、响板和掌声的混合声音的频谱图,其中箭头的方向指示方向,并且其中箭头的长度指示各向异性度量,
图3示出了根据一个实施例的通过使用结构张量计算的取向/各向异性值的范围,
图4示出了用于合成输入信号的摘录的HPR-M和HPR-ST方法之间的比较,
图5示出了根据一个实施例的装置,其中该装置包括信号发生器,以及
图6示出了根据一个实施例的装置,其中该装置包括用于记录音频信号的一个或多个麦克风。
具体实施方式
图1示出了根据实施例的用于分析音频信号的幅度谱图的装置。
该装置包括频率变化确定器110。频率变化确定器110被配置为根据音频信号的幅度频谱图来确定所述音频信号的幅度频谱图的多个时频区间中的每个时频区间的频率变化。
此外,该装置包括分类器120。分类器120被配置为根据所确定的所述多个时频区间中的每个时频区间的频率变化将所述时频区间分配给两个或更多个信号分量组中的信号分量组。
根据实施例,频率变化确定器110可以例如被配置为根据所述多个时频区间中的每个时频区间的角度α(b,k)确定所述时频区间的频率变化。所述时频区间的角度α(b,k)取决于所述音频信号的幅度频谱图。
在实施例中,频率变化确定器110可以例如被配置为还根据所述音频信号的采样频率fs,根据分析窗口的长度N,并且根据所述分析窗口的跳大小H,来确定所述多个时频区间中的每个时频区间的频率变化。
根据实施例,装置的频率变化确定器110被配置为根据以下公式来确定所述多个时频区间中的每个时频区间的频率变化。
Figure BDA0001868526750000041
(b,k)表示所述多个时频区间中的时频区间,其中R(b,k)表示所述时频区间(b,k)的频率变化,其中b表示时间,其中k表示频率,其中fs表示所述音频信号的采样频率,其中N表示所述分析窗口的长度,其中H表示所述分析窗口的跳大小,并且其中α(b,k)表示所述时频区间(b,k)的角度,其中该角度α(b,k)取决于幅度频谱图。
在实施例中,频率变化确定器110可以例如被配置为确定所述音频信号的幅度频谱图S相对于时间索引的偏导数Sb。在这样的实施例中,频率变化确定器110可以例如被配置为确定所述音频信号的幅度频谱图S相对于时间索引的偏导数Sk
此外,在这样的实施例中,频率变化确定器110被配置为根据所述音频信号的幅度频谱图S相对于时间索引的偏导数Sb,并根据所述音频信号的幅度频谱图S相对于频率索引的偏导数Sk,确定所述多个时频区间中的每个时频区间(b,k)的结构张量T(b,k)。
此外,在这样的实施例中,频率变化确定器110可以例如被配置为根据所述多个时频区间中的每个时频区间(b,k)的结构张量T(b,k)确定所述时频区间(b,k)的角度α(b,k)。
根据实施例,频率变化确定器110可以例如被配置为通过以下方式确定所述多个时频区间中的每个时频区间(b,k)的角度α(b,k):确定所述时频区间(b,k)的结构张量(T(b,k))的特征向量v(b,k)的两个分量v1(b,k)和v2(b,k),并根据以下公式来确定所述时频区间((b,k))的角度(α(b,k)):
Figure BDA0001868526750000051
α(b,k)表示所述时频区间((b,k))的角度,其中b表示时间,其中k表示频率,并且其中atan()表示反正切函数。
在实施例中,分类器120可以例如被配置为根据以下公式中的至少一个来确定多个时频区间中的每个时频区间(b,k)的各向异性的度量:
Figure BDA0001868526750000052
以及
μ(b,k)+λ(b,k)≥e,
μ(b,k)是所述时频区间(b,k)的结构张量(T(b,k))的第一特征值,λ(b,k)是所述时频区间(b,k)的结构张量(T(b,k))的第二特征值,并且
Figure BDA0001868526750000053
在这样的实施例中,分类器120可以例如被配置为还根据所述各向异性的度量的变化将多个时频区间中的每个时频区间分配给两个或更多个信号分量组中的信号分量组。
根据实施例,分类器120可以例如被配置为根据以下公式确定所述时频区间(b,k)的各向异性的度量:
Figure BDA0001868526750000061
C(b,k)是所述时频区间(b,k)的各向异性的量度,并且其中分类器120被配置为如果所述各向异性的度量C(b,k)小于第一阈值c,则将所述时频区间(b,k)分配给两个或更多个信号分量组中的残余分量组,或者其中分类器120被配置为如果所述各向异性的度量C(b,k)小于或等于所述第一阈值c,则将所述时频区间(b,k)分配给两个或更多个信号分量组中的残余分量组,其中
Figure BDA0001868526750000062
在实施例中,分类器120可以例如被配置为根据所确定的所述时频区间(b,k)的频率变化R(b,k)将所述多个时频区间中的每个时频区间分配给两个或更多个信号分量组中的信号分量组,使得分类器120根据所确定的所述时频区间(b,k)的频率变化R(b,k)的绝对值|R(b,k)|是否小于第二阈值rh,或者根据所确定的所述时频区间(b,k)的频率变化R(b,k)的绝对值|R(b,k)|是否小于或等于所述第二阈值rh,将所述多个时频区间中的时频区间分配给两个或更多个信号分量组中的谐波信号分量组,其中
Figure BDA0001868526750000063
根据实施例,分类器120可以例如被配置为根据所确定的所述时频区间(b,k)的频率变化R(b,k)将所述多个时频区间中的每个时频区间分配给两个或更多个信号分量组中的信号分量组,使得分类器120根据所确定的所述时频区间(b,k)的频率变化R(b,k)的绝对值|R(b,k)|是否大于第三阈值rp,或者根据所确定的所述时频区间(b,k)的频率变化(R(b,k))的绝对值|R(b,k)|是否大于或等于所述第三阈值rp,将所述多个时频区间中的时频区间分配给两个或更多个信号分量组中的打击乐信号分量组,其中
Figure BDA0001868526750000064
在下文中,提供对实施例的详细描述。
实施例提供用于基于结构张量分离谐波-打击乐-残余(HPR)声音的改进技术。一些实施例通过利用关于由结构张量提供的频谱结构的取向的信息,来在谐波分量中捕获保持音调信息的频率调制的声音。
一些实施例基于以下发现:严格分类为水平结构和垂直结构不适合于这些信号,并且可能导致音调信息被漏到残余分量中。实施例涉及一种新颖的方法,其改为使用结构张量(一种数学工具)来计算幅度频谱图中的主要取向角。实施例即使在频率调制信号的情况下也使用该取向信息来区分谐波、打击乐和残余信号分量。最后,通过客观评估测量以及音频示例来验证实施例技术的有效性。
此外,一些实施例基于以下发现:结构张量可以被认为是黑盒子,其输入是灰度图像,输出是每个像素的与最低变化方向相对应的角度n和每个像素的该方向的确定性或各向异性度量。结构张量还提供了平滑的可能性,这减少了噪声的影响,增强了鲁棒性。此外,确定性度量可用于确定所估计的角度的质量。该确定性度量的低值表示像素位于恒定亮度的区域中而没有任何明确的方向。
例如,根据由结构张量获得的角度,可以提取局部频率变化。根据这些角度,可以确定频谱图中的时频区间是属于谐波(=低局部频率变化)还是打击乐(=高或无限局部频率变化)分量。
提供用于谐波-打击乐-残余分类和分离的改进实施例。
谐波-打击乐-残余声音分离是对音调乐器转录或节奏提取等应用有用的预处理工具。一些实施例不是仅搜索严格水平结构和严格垂直结构,而是通过使用图像处理中已知的结构张量,来确定频谱图中的主要取向角以及局部各向异性。
在实施例中,然后可以使用所提供的关于频谱结构的取向的信息,通过设置适当的阈值来区分谐波、打击乐和残余信号分量,参见图2。
图2示出了歌声、响板和掌声的混合声音的频谱图,其中放大区域另外示出了由结构张量获得的方向(箭头的取向)和各向异性度量(箭头的长度)。箭头的颜色表示基于该取向和各向异性信息将相应的时频区间分配给谐波分量(区域210)、打击乐分量(区域230)还是残余分量(区域220)。
既不具有高局部频率变化率也不具有低局部频率变化率的所有区间、或者具有指示恒定区域的确定性度量的所有区间,都被分配为属于残余分量。在图2中可以看到频谱图的这种分离的一个示例。对于包含调频声音在内的音频信号,实施例比基于幅度频谱图工作的类似方法更好地执行。
首先,描述结构张量的概念,并且将该一般概念扩展为适用于音频处理的上下文。
在下文中,为了符号的方便起见,矩阵和向量被写为粗体字母。此外,(.)运算符用于索引特定元素。在这种情况下,矩阵或向量被写为非粗体字母以说明其标量用法。
首先,描述根据实施例的频谱图的计算。音频信号可以例如是(离散的)输入音频信号。
结构张量可以应用于具有采样频率fs的离散输入音频信号
Figure BDA0001868526750000081
的频谱图表示。对于x的频谱分析,使用短时傅立叶变换(STFT):
Figure BDA0001868526750000082
其中,
Figure BDA0001868526750000083
b表示帧索引,k表示频率索引,并且
Figure BDA0001868526750000084
是长度为N的窗口函数(换句话说:N是分析窗口的长度)。
Figure BDA0001868526750000085
H≤N表示窗口的分析跳大小。应当注意,由于STFT频谱在
Figure BDA0001868526750000086
处的奈奎斯特点附近具有一定的对称性,所以处理可以例如限制为
Figure BDA0001868526750000087
因为可以在逆STFT期间重建对称性。
通过使用上面的公式(1),可以获得频谱图。频谱图包括多个频谱,其中多个频谱在时间上彼此相继。如果至少存在一些具有以下性质的第二时域样本,则多个频谱中的第二频谱在时间上跟随在第一频谱之后:所述第二时域样本用于生成第二频谱并且不用于生成第一频谱,并且是涉及比用于生成第一频谱的第一时域样本更晚的时间点的时域样本。用于生成时间上相邻的频谱的时域样本的窗口可以例如进行重叠。
在实施例中,分析窗口长度N可以例如被定义为:
256个样本≤N≤2048个样本。
在一些实施例中,分析窗口长度可以例如是2048。在其他实施例中,分析窗口长度可以例如是1024个样本。在进一步的实施例中,分析窗口长度可以例如是768个样品。在更进一步的实施例中,分析窗口长度可以例如是256个样本。
在实施例中,分析跳大小H可以例如位于分析窗口的25%与75%之间的范围内。在这样的实施例中:
0.25N≤H≤0.75N。
因此,在这样的实施例中,如果分析窗口具有例如2048个样本(N=2048),则分析跳大小可以例如在以下范围内:
512个样本≤H≤1536个样本。
如果分析窗口具有例如256个样本(N=256),则分析跳大小可以例如在以下范围内:
64个样本≤H≤192个样本。
在优选实施例中,分析跳大小可以例如是分析窗口的50%。这对应于两个后续的分析窗口的50%的窗口重叠。
在一些实施例中,分析跳大小可以例如是分析窗口的25%。这对应于两个后续的分析窗口的75%的窗口重叠。
在其他实施例中,分析跳大小可以例如是分析窗口的75%。这对应于两个后续的分析窗口的25%的窗口重叠。
应当注意,本发明的技术适用于任何类型的时域到谱域变换,例如适用于MDCT(改进离散余弦变换)、MDST(改进离散正弦变换)、DSTFT(离散短时傅里叶变换)等。
实值对数谱频图可以例如计算为:
S(b,k)=20log10|X(b,k)| (2)
音频信号的幅度频谱图可以被称为S,并且时频区间(b,k)的幅度频谱图的值可以被称为S(b,k)。
在下文中,描述根据实施例的结构张量的计算。
为了计算结构张量,需要S的偏导数。关于时间索引b的偏导数由下式给出:
Sb=S*d (3)
而关于频率索引k的偏导数定义为:
Sk=S*dT (4)
其中d是离散微分算子(例如,对于中心差分,可以选择d=[-1,0,1]/2),并且*表示二维卷积。
此外,可以定义:
T11=(Sb⊙Sb)*G (5)
T21=T12=(Sk⊙Sb)*G (6)
T22=(Sk⊙Sk)*G (7)
其中⊙是逐点矩阵乘法,也称为阿达玛(Hadamard)积,G是2-D高斯平滑滤波器,具有时间索引方向上的标准偏差σb和频率索引方向上的标准偏差σk。结构张量T(b,k)然后通过2×2对称和正半定矩阵给出:
Figure BDA0001868526750000101
结构张量包含关于频谱图的位置(b,k)处的主要取向的信息。应当注意,在G是标量的特殊情况下,T(b,k)不包含比频谱图中该位置处的梯度更多的信息。然而,与梯度相比,结构张量可以通过G平滑而没有抵消效应,这使得它对噪声更加鲁棒。
应注意,结构张量T(b,k)为多个时频区间中的每个时频区间(b,k)定义。因此,当考虑多个时频区间(例如时频区间(0,0);(0,1);(0,2);...(1,0);(1,1);(1,2);...)时,则存在多个结构张量T(0,0);T(0,1);T(0,2);...T(1,0);T(1,1);T(1,2);...。例如,对于多个时频区间中的每个时频区间(b,k),确定一个结构张量T(b,k)。
在下文中,描述根据实施例的角度和各向异性度量的计算。
关于频谱图中每个区间的取向的信息通过计算结构张量T(b,k)的特征值λ(b,k),μ(b,k)(其中λ(b,k)≤μ(b,k))和对应的特征向量v(b,k)=[v1(b,k),v2(b,k)]T和w(b,k)=[w1(b,k),w2(b,k)]T来获得。应当注意,v(b,k)(与较小特征值λ(b,k)相对应的特征向量)指向频谱图中索引(b,k)处的最低变化的方向,而w(b,k)指向最高变化的方向。因此,特定区间处的取向角能够通过以下公式获得:
Figure BDA0001868526750000111
v1(b,k)和v2(b,k)是特征向量v(b,k)的分量。
atan()表示反正切函数。
另外,可以确定每个区间的各向异性的度量:
Figure BDA0001868526750000112
其中
Figure BDA0001868526750000113
应当注意C(b,k)∈[0;1]。接近1的C(b,k)的值表示频谱图的索引(b,k)处的高各向异性,而恒定的邻域使值接近0。可以选择阈值e(其定义应当被认为是各向异性的界限),以进一步增加对噪声的鲁棒性。
角度α(b,k)的物理意义可以通过考虑在时间间隔Δt期间具有Δf的瞬时频率变化的连续信号来理解。因此,瞬时频率变化率R表示为
Figure BDA0001868526750000114
例如,根据实施例,对于频谱图的每个时频区间,由结构张量获得的角度(由图2中的箭头的方向指示)可以例如被转换为局部频率变化率:
Figure BDA0001868526750000115
每个时频区间的频率变化可以例如称为瞬时频率变化率。
考虑所应用的STFT分析的采样率、长度和跳大小,可以通过以下公式得出频谱图中的角度与每个区间的瞬时频率变化率R(b,k)之间的关系:
Figure BDA0001868526750000121
平滑滤波器G在离散域中的标准偏差σb和σk也能够通过以下公式转换为连续的物理参数σt和σf
Figure BDA0001868526750000122
在下文中,描述使用结构张量进行的谐波-打击乐-残余分离。
通过结构张量获得的信息可以应用于HPR分离的问题,例如,将频谱图中的每个区间分类为输入信号的谐波、打击乐或残余分量的部分。
实施例基于以下发现:分配给谐波分量的区间应该属于相当水平的结构,而属于相当垂直的结构的区间应该被分配给打击乐分量。此外,不属于任何类型的取向结构的区间应当分配给残余分量。
根据实施例,如果区间(b,k)满足以下两个约束中的第一个,则它可以例如被分配给谐波分量。
根据优选实施例,如果区间(b,k)同时满足以下两个约束,则它可以例如被分配给谐波分量:
-第一个约束可以例如是角度α(b,k)的绝对值小于(或等于)阈值αh。阈值αh可以例如在范围αh∈[0;π/2]内。这意味着,该区间应该是某些频谱结构的一部分,所述频谱结构不具有大于或小于αh的斜率。这样,频率调制的声音也可以被认为是谐波分量的一部分,这取决于参数αh
-第二个约束可以例如是:各向异性的度量C(b,k)证明该区间(b,k)是某些定向的各向异性结构的一部分,并因此超过第二阈值c。应当注意,对于给定的区间(b,k),角度α(b,k)和各向异性的度量C(b,k)一起限定了极坐标中给定的
Figure BDA0001868526750000123
中的点。
类似地,在实施例中,分配另一角度阈值αp,以定义何时应将区间分配给打击乐分量(图3中具有垂直线的区域330)。
因此,根据实施例,如果区间(b,k)满足以下两个约束中的第一个,则它可以例如被分配给打击乐分量。
根据优选实施例,如果区间(b,k)同时满足以下两个约束,则它可以例如被分配给打击乐分量:
-第一个约束可以例如是角度α(b,k)的绝对值大于(或等于)阈值αp。阈值αp可以例如在范围αp∈[0;π/2]内。这意味着,该区间应该是某些频谱结构的一部分,所述频谱结构不具有大于或小于αp的斜率。这样,频率调制的声音也可以被认为是谐波分量的一部分,这取决于参数αp
-第二个约束可以例如是:各向异性的度量C(b,k)证明该区间(b,k)是某些定向的各向异性结构的一部分,并因此超过第二阈值c。应当注意,对于给定的区间(b,k),角度α(b,k)和各向异性的度量C(b,k)一起限定了极坐标中给定的
Figure BDA0001868526750000133
中的点。
最后,在实施例中,既未分配给谐波分量也未分配给打击乐分量的所有区间可以例如被分配给残余分量。
上述分配过程可以通过定义谐波分量Mh的掩蔽、打击乐分量Mp的掩蔽和残余分量Mr的掩蔽来表示。
应当注意,代替使用阈值αh和阈值αp,在实施例中,阈值可以例如针对最大绝对频率变化率rh
Figure BDA0001868526750000134
定义,其中rp≥rh,以使参数选择具有更好的物理解释。然后,掩蔽通过以下公式给出:
Figure BDA0001868526750000131
Figure BDA0001868526750000132
Mr(b,k)=1-Mh(b,k)-Mp(b,k) (16)
最后,通过以下公式获得谐波分量Xh、打击乐分量Xp和残余分量Xr的STFT:
Xh=Mh⊙X (17)
Xp=Mp⊙X (18)
Xr=Mr⊙X (19)
然后,可以通过逆STFT计算对应的时间信号。
图3示出了由结构张量计算的取向/各向异性值的范围。
具体地,图3描绘了导致向谐波分量的分配的所有点的子集。具体地,具有波浪线的区域310中的值导致向谐波分量的分配。
具有垂直线的区域330中的值导致向打击乐分量的分配。
点线的区域320中的值导致向残余分量的分配。
阈值αh定义图3中的线301,阈值αp定义图3中的线302。
图5示出了根据实施例的装置,其中该装置包括信号发生器130,信号发生器130被配置为根据多个时频区间向两个或更多个信号分量组的分配来生成音频输出信号。
例如,信号发生器可以通过对不同信号分量组的时频区间的幅度值应用不同的加权因子,来对音频信号的不同分量进行滤波。例如,谐波信号分量组可以具有第一加权因子wh,打击乐信号分量组可以具有第二加权因子wp,并且残余信号分量组可以具有第一加权因子wr,多个时频区间中的每个时频区间的幅度值可以例如利用该时频区间被分配给的信号分量组的加权因子进行加权。
例如,为了强调谐波信号分量,在加权因子与线性幅度值相乘的实施例中,例如,
wh=1.3,wp=0.7,并且wr=0.2。
例如,为了强调谐波信号分量,在加权因子与对数幅度值相加的实施例中,例如,
wh=+0.26,wp=-0.35,并且wr=-1.61。
例如,为了强调打击乐信号分量,在加权因子乘以线性幅度值的实施例中,例如,
wh=0.7,wp=1.3,并且wr=0.2。
例如,为了强调打击乐信号分量,在加权因子与对数幅度值相加的实施例中,例如,
wh=-0.35,wp=+0.26,并且wr=-1.61。
因此,信号发生器130被配置为对多个时频区间中的每个时频区间的幅度值应用加权因子以获得音频输出信号,其中,对所述时频区间应用的加权因子取决于所述时频区间被分配给的信号分量组。
在图5的具体实施例中,信号处理器130可以例如是上混音器,其被配置为对音频信号进行上混音,以获得包括两个或更多个音频输出通道在内的音频输出信号。上混音器可以例如被配置为根据多个时频区间向两个或更多个信号分量组的分配来生成两个或更多个音频输出信道。
例如,如上所述,可以通过对不同信号分量组的时频区间的幅度值应用不同的加权因子,来对音频信号的不同分量进行滤波,以从音频信号中生成两个或更多个音频输出通道。
然而,为了生成不同的音频通道,可以使用用于信号分量组的不同权重,其可以例如特定于每个不同的音频输出通道。
例如,对于第一音频输出通道,要与对数幅度值相加的权重可以例如是:
w1h=+0.26,w1p=-0.35,并且w1r=-1.61。
对于第二音频输出通道,要与对数幅度值相加的权重可以例如是:
w2h=+0.35,w2p=-0.26,并且w2r=-1.61。
例如,当对音频信号进行上混音以获得左前、中、右、左环绕和右环绕这五个音频输出通道时:
-与用于生成左环绕和右环绕音频输出声道的谐波加权因子w2h相比,用于生成左、中和右音频输出声道的谐波加权因子w1h可以较大。
-与用于生成左环绕和右环绕音频输出声道的打击乐加权因子w2p相比,用于生成左、中和右音频输出声道的打击乐加权因子w1p可以较小。
各个加权因子可以用于要生成的每个音频输出通道。
图6示出了根据实施例的装置,其中该装置包括用于记录音频信号的一个或多个麦克风171、172。
在图6中,第一麦克风171记录音频信号的第一音频通道。可选的第二麦克风172记录音频信号的可选的第二音频通道。
此外,图6的装置还包括幅度频谱图生成器180,用于根据音频信号生成音频信号的幅度频谱图,所述音频信号包括第一音频通道并且可选地包括可选的第二音频通道。根据音频信号生成幅度频谱图是本领域技术人员公知的技术。
在下文中,考虑对实施例的评估。
为了表明在谐波分量中捕获频率调制声音方面的实施例的有效性,将根据实施例的基于结构张量的HPR方法(HPR-ST)与[10]中提出的基于中值滤波的非迭代方法(HPR-M)进行比较。此外,还使用理想二元掩蔽(IBM)计算分离结果的度量,该二元掩蔽用作最大可实现分离质量的参考。
考虑被测系统参数,对于HPR-ST和HPR-M,使用w的正弦窗口,将STFT参数选择为fs=22050Hz,N=1024和H=256。如在[10]中进行的实验中那样选择HPR-M的分离参数。根据实施例,使用微分算子(例如,Scharr算子[17])作为离散微分算子d来计算结构张量。使用9×9各向同性高斯滤波器进行平滑,该滤波器具有标准偏差σb=σk=1.4,其导致σt≈16ms和σf≈30Hz。最后,将用于分离的阈值设置为e=20,c=0.2和rh=rp=10000Hz/s。
应当注意,根据实施例,通过rh和rp的选择,频谱图中甚至非常陡峭的结构也被分配给谐波分量。实施例采用关于现实世界颤音的观察,例如图2所示。这里,可以看到,在某些情况下,歌声中的颤音具有非常高的瞬时频率变化率。此外,应当注意,通过选择rh=rp,频谱图中的区间向残余分量的分配纯粹取决于其各向异性度量。
通过客观评估测量以及音频示例,将根据实施例的HPR-ST与[10]中提出的基于中值滤波的现有方法HPR-M进行比较,从而评估了HPR-ST的有效性。
当应用于包含频率调制声音在内的信号时,为了比较的根据实施例的HPR-ST和现有技术的HPR-M的行为以获得客观结果,生成两个测试项目。
测试项目1包括纯合成声音的叠加。将谐波源选择为颤音音调,其基频为1000Hz,颤音频率为3Hz,颤音范围为50Hz,有4个泛音。对于打击乐源,使用了若干个冲击音,而白噪声表示既不是谐波也不是打击乐的残余源。
测试项目2是通过将现实世界的歌声信号与颤音(谐波)、响板(打击乐)和掌声(既不是谐波也不是打击乐)叠加而生成的。
将这些项目的HPR分离解释为源分离问题,针对两种过程的分离结果,计算了标准源分离评估指标(如[18]中所介绍的源对失真比SDR、源对干扰比SIR和源对伪像比率SAR)。结果如表1所示。
表1描述了客观评估测量,其中所有值均以dB为单位:
Figure BDA0001868526750000171
(表1)
对于项目1,HPR-ST的颤音音调的SDR为21.25dB,因此更接近IBM的最佳分离结果(29.43dB),而不是更接近HPR-M的分离结果(11.51dB)。这表明与HPRM相比,HPR-ST在谐波分量中捕获此频率调制声音的性能得到改善。这也显示在图4中。
图4示出了用于合成输入信号(项目1)的摘录的HPR-M和HPR-ST方法之间的比较。为了增强可见性,使用与用于分离算法的STFT参数不同的STFT参数计算了频谱图。
图4(a)示出了输入信号相对于时间的频率。在图4中,绘制了针对两个过程所计算的谐波分量的频谱图以及打击乐分量与残余分量之和的频谱图。可以看出,对于HPR-M,颤音音调的陡峭斜率被漏到残余分量中(图4(b)和图4(c)),而HPR-ST(图4(d)和图4(e))产生良好的分离。这也解释了与HPR-ST相比的、HPRM的残余分量的非常低的SIR值(-11.99dB对14.12dB)。
应当注意,HPR-M的谐波分量的高SIR值仅反映了来自其他分量的干扰声音很少,而不是反映了整个上很好地捕获了颤音的声音。总体来说,项目1的大多数观察结果都不太明显,但对于项目2中的现实世界声音的混合声音也是有效的。对于此项目,人声的HPR-M的SIR值甚至超过了HPR-ST的SIR值(20.83dR对15.61dR)。同样,对于HPR-M,掌声的低SIR值证明了人声中的颤音部分被漏到残余分量中(1.11dB),而HPR-ST的残余分量包含较少的干扰声音(6.34dB)。这表明实施例能够比HPR-M更好地捕获人声的频率调制结构。
总结上述结果,对于包含频率调制音调在内的信号,与HPR-M相比,实施例的HPR-ST技术提供了更好的分离结果。
一些实施例采用结构张量来进行歌声检测。(根据现有技术的歌声检测在[2]中描述)。
虽然已经在装置的上下文中描述了一些方面,但是将清楚的是,这些方面还表示对应方法的描述,其中,块或设备对应于方法步骤或方法步骤的特征。类似地,在方法步骤的上下文中描述的方面也表示对对应块或者对应装置的项或特征的描述。可以由(或使用)硬件装置(诸如,微处理器、可编程计算机或电子电路)来执行一些或全部方法步骤。在一些实施例中,可以由这种装置来执行最重要方法步骤中的一个或多个方法步骤。
根据某些实现要求,本发明的实施例可以用硬件或软件实现,或者至少部分用硬件实现,或至少部分用软件实现。可以使用其上存储有电子可读控制信号的数字存储介质(例如,软盘、DVD、蓝光、CD、ROM、PROM、EPROM、EEPROM或闪存)来执行实现,该电子可读控制信号与可编程计算机系统协作(或者能够与之协作)从而执行相应方法。因此,数字存储介质可以是计算机可读的。
根据本发明的一些实施例包括具有电子可读控制信号的数据载体,该电子可读控制信号能够与可编程计算机系统协作从而执行本文所述的方法之一。
通常,本发明的实施例可以实现为具有程序代码的计算机程序产品,程序代码可操作以在计算机程序产品在计算机上运行时执行方法之一。程序代码可以例如存储在机器可读载体上。
其他实施例包括存储在机器可读载体上的计算机程序,该计算机程序用于执行本文所述的方法之一。
换言之,本发明方法的实施例因此是具有程序代码的计算机程序,该程序代码用于在计算机程序在计算机上运行时执行本文所述的方法之一。
因此,本发明方法的另一实施例是其上记录有计算机程序的数据载体(或者数字存储介质或计算机可读介质),该计算机程序用于执行本文所述的方法之一。数据载体、数字存储介质或记录的介质通常是有形的和/或非暂时性的。
因此,本发明方法的另一实施例是表示计算机程序的数据流或信号序列,所述计算机程序用于执行本文所述的方法之一。数据流或信号序列可以例如被配置为经由数据通信连接(例如,经由互联网)传送。
另一实施例包括处理装置,例如,计算机或可编程逻辑器件,所述处理装置被配置为或适于执行本文所述的方法之一。
另一实施例包括其上安装有计算机程序的计算机,该计算机程序用于执行本文所述的方法之一。
根据本发明的另一实施例包括被配置为向接收机(例如,以电子方式或以光学方式)传输计算机程序的装置或系统,该计算机程序用于执行本文所述的方法之一。接收机可以是例如计算机、移动设备、存储设备等。装置或系统可以例如包括用于向接收机传送计算机程序的文件服务器。
在一些实施例中,可编程逻辑器件(例如,现场可编程门阵列)可以用于执行本文所述的方法的功能中的一些或全部。在一些实施例中,现场可编程门阵列可以与微处理器协作以执行本文所述的方法之一。通常,方法优选地由任意硬件装置来执行。
本文描述的装置可以使用硬件装置、或者使用计算机、或者使用硬件装置和计算机的组合来实现。
本文描述的方法可以使用硬件装置、或者使用计算机、或者使用硬件装置和计算机的组合来执行。
上述实施例对于本发明的原理仅是说明性的。应当理解的是:本文所述的布置和细节的修改和变形对于本领域其他技术人员将是显而易见的。因此,旨在仅由所附专利权利要求的范围来限制而不是由借助对本文实施例的描述和解释所给出的具体细节来限制。
参考文献:
[1]Aggelos Gkiokas,Vassilios Katsouros,George Ca rayannis,and ThemosStafylakis,“Music tempo estimati on and beat tracking by applying sourceseparation and metrical relations”,in Proceedings of the IEEE Intern ationalConference on Acoustics,Speech,and Signal Pro cessing(ICASSP),2012,pp.421-424.
[2]Bernhard Lehner,Gerhard Widmer,and Reinhard Sonnleitner.“On thereduc tion of false positives in singing voice detection”,in Proceedings ofthe IEEE Int ernational Conference on Acoustics,Speech,and Signal Processing(ICASSP),Florence,Italy,2014,pp.7480-7484.
[3]Yushi Ueda,Yuuki Uchiyama,Takuya Nishimoto,Nobutaka Ono,andShigeki Sagayama,“HMM-based approach for automatic chord detection usingrefined acoustic features”,in Proceedings of the IEEE International Conference on Acoustics,Speech,and Signal Processing(ICA SSP),Dallas,Texas,USA,2010,pp.5518-5521.
[4]Nobutaka Ono,Kenichi Miyamoto,Hirokazu Kameok a,and ShigekiSagayama,“A real-time equalizer of har monic and percussive components inmusic signals”.in Proceedings of the International Society for Music Information Retrieval Conference(ISMIR),Philadelphia,Penn sylvania,USA,2008,pp.139-144.
[5]Nobutaka Ono,Kenichi Miyamoto,Jonathan LeRoux,Hirokazu Kameoka,andShigeki Sagayama,“Separation of a monaural audio signal into harmonic/percussive componen ts by complementary diffusion on spectrogram”,in EuropeanSignal Processing Conference,Lausanne,Switzerl and,2008,pp.240-244.
[6]Derry Fitzgerald,“Harmonic/percussive separation using medianfiltering”,in Proceedings of the International Conference on Digital AudioEffects(DAFX),Graz,Austria,2010,pp.246-253.
[7]Scott N.Levine and Julius 0.Smith III,“A sines+transients+noiseaudio represen tation for data compression and time/pitch scale modications”,in Proceedings of the AES Convention,1998.
[8]Tony S.Verma and Teresa H.Y.Meng,“An analys is/synthesis tool fortransient signals that allows a flexible sines+transients+noise model foraudio”,in Proceedings of the IEEE International Conference on Acous tics,Speech,and Signal Processing(ICASSP),Seattle,Washington,USA,May 1998,pp.3573-3576.
[9]Laurent Daudet,“Sparse and struc tured decompo sitions of signalswith the molecular matching pursuit”,IEEE Transactions on Audio,Speech,andLanguage Proces sing,vol.14,no.5,pp.1808-1816,September 2006.
[10]Jonathan Driedger,Meinard Müller,and Sascha Disch.“Extendingharmonic-percussive separation of au dio signals”,in Proceedings of theInternational Conf erence on Music Information Retrieval(ISMIR),Taipei,Taiwan,2014,pp.611-616.
[11]JeongSoo Park and Kyogu Lee,“Harmonic-percus sive sourceseparation using harmonicity and sparsity constraints”,in Proceedings of theInternational Confe rence on Music Information Retrieval(ISMIR),Málaga,Spain,2015,pp.148-154.
[12]Josef Bigun and
Figure BDA0001868526750000231
H.Granlund,“Optimal orientation detectionof linear symmetry”,in Proceedin gs of the IEEE First InternationalConference on Comput er Vision,London,UK,1987,pp.433-438.
[13]Hans Knutsson,“Representing local structure using tensors”.in 6thScandinavian Conference on Image Analysis,Oulu,Finland,1989,pp.244-251.
[14]Chris Harris and Mike Stephens,“A combined corner and edgedetector”,in Proceedings of the 4th Alvey Vision Conference,Manchester,UK,1988,pp.147-151.
[15]Rolf Bardeli,“Similarity search in animal sound databases”,IEEETransactions on Multimedia,vol.11,no.1,pp.68-76,January 2009.
[16]Matthias Zeppelzauer,Angela S.
Figure BDA0001868526750000232
and Christian Breiteneder,“Acoustic detection of elephant presence in noisy environments”,inProceedings of the 2 nd ACM International Workshop on Multimedia Analysis forEcological Data,Barcelona,Spain,2013,pp4.3-8.
[17]Hanno Scharr,“Optimale Operatoren in der dig italenBildverarbeitung“,Dissertation,IWR,
Figure BDA0001868526750000241
für Physik und Astronomie,
Figure BDA0001868526750000242
Heidelberg,Heide lberg,Germany,2000.
[18]Emmanuel Vincent,Rémi Gribonval,and Cédr ic Févotte,“Performancemeasurement in blind audio source separation”,IEEE Transactions on Audio,Speech,and Language Processing,vol.14,no.4,pp.1462-1469,2006。

Claims (17)

1.一种用于分析音频信号的幅度频谱图的装置,包括:
频率变化确定器(110),被配置为根据音频信号的幅度频谱图来确定所述音频信号的幅度频谱图的多个时频区间中的每个时频区间的频率变化;以及
分类器(120),被配置为根据所确定的所述多个时频区间中的每个时频区间的频率变化将所述时频区间分配给两个或更多个信号分量组中的信号分量组。
2.根据权利要求1所述的装置,
其中,所述频率变化确定器(110)被配置为根据所述多个时频区间中的每个时频区间的角度(α(b,k))确定所述时频区间的频率变化,其中,所述时频区间的角度(α(b,k))取决于所述音频信号的幅度频谱图。
3.根据权利要求2所述的装置,
其中,所述频率变化确定器(110)被配置为还根据所述音频信号的采样频率(fs)、根据分析窗口的长度(N)并且根据所述分析窗口的跳大小(H),来确定所述多个时频区间中的每个时频区间的频率变化。
4.根据权利要求3所述的装置,
其中,所述装置的频率变化确定器(110)被配置为根据以下公式确定所述多个时频区间中的每个时频区间的频率变化:
Figure FDA0001868526850000011
其中(b,k)表示所述多个时频区间中的时频区间,
其中R(b,k)表示所述时频区间(b,k)的频率变化,
其中b表示时间,
其中k表示频率,
其中fs表示所述音频信号的采样频率,
其中N表示所述分析窗口的长度,
其中H表示所述分析窗口的跳大小,以及
其中α(b,k)表示所述时频区间(b,k)的角度,其中该角度α(b,k)取决于所述幅度频谱图。
5.根据权利要求2所述的装置,
其中所述频率变化确定器(110)被配置为确定所述音频信号的幅度频谱图(S)相对于时间索引的偏导数(Sb),
其中所述频率变化确定器(110)被配置为确定所述音频信号的幅度频谱图(S)相对于时间索引的偏导数(Sk),以及
其中所述频率变化确定器(110)被配置为根据所述音频信号的幅度频谱图(S)相对于时间索引的偏导数(Sb),并根据所述音频信号的幅度频谱图(S)相对于频率索引的偏导数(Sk),确定所述多个时频区间中的每个时频区间((b,k))的结构张量(T(b,k)),以及
其中所述频率变化确定器(110)被配置为根据所述多个时频区间中的每个时频区间((b,k))的结构张量(T(b,k))确定所述时频区间((b,k))的角度(α(b,k))。
6.根据权利要求5所述的装置,
其中所述频率变化确定器(110)被配置为通过以下方式确定所述多个时频区间中的每个时频区间((b,k))的角度(α(b,k)):确定所述时频区间((b,k))的结构张量(T(b,k))的特征向量v(b,k)的两个分量v1(b,k)和v2(b,k),并根据以下公式来确定所述时频区间((b,k))的角度(α(b,k)):
Figure FDA0001868526850000021
其中α(b,k)表示所述时频区间((b,k))的角度,
其中b表示时间,
其中k表示频率,以及
其中atan()表示反正切函数。
7.根据权利要求5所述的装置,
其中所述分类器(120)被配置为根据以下公式中的至少一个来确定多个时频区间中的每个时频区间(b,k)的各向异性的度量:
Figure FDA0001868526850000031
以及
μ(b,k)+λ(b,k)≥e,
其中μ(b,k)是所述时频区间(b,k)的结构张量(T(b,k))的第一特征值,λ(b,k)是所述时频区间(b,k)的结构张量(T(b,k))的第二特征值,并且
Figure FDA0001868526850000032
其中所述分类器(120)被配置为还根据所述各向异性的度量的变化将所述多个时频区间中的每个时频区间分配给两个或更多个信号分量组中的信号分量组。
8.根据权利要求7所述的装置,
其中所述分类器(120)被配置为根据以下公式确定所述时频区间(b,k)的各向异性的度量:
Figure FDA0001868526850000033
其中C(b,k)是所述时频区间(b,k)的各向异性的量度,以及
其中所述分类器(120)被配置为:如果所述各向异性的度量C(b,k)小于第一阈值c,则将所述时频区间(b,k)分配给两个或更多个信号分量组中的残余分量组,或者其中所述分类器(120)被配置为:如果所述各向异性的度量C(b,k)小于或等于所述第一阈值c,则将所述时频区间(b,k)分配给两个或更多个信号分量组中的所述残余分量组,
其中
Figure FDA0001868526850000034
9.根据权利要求1所述的装置,其中,所述分类器(120)被配置为根据所确定的所述时频区间((b,k))的频率变化(R(b,k))将所述多个时频区间中的每个时频区间分配给两个或更多个信号分量组中的信号分量组,使得所述分类器(120)根据所确定的所述时频区间((b,k))的频率变化(R(b,k))的绝对值(|R(b,k)|)是否小于第二阈值rh、或者根据所确定的所述时频区间((b,k))的频率变化(R(b,k))的绝对值(|R(b,k)|)是否小于或等于所述第二阈值rh,将所述多个时频区间中的时频区间分配给两个或更多个信号分量组中的谐波信号分量组,
其中
Figure FDA0001868526850000041
10.根据权利要求1所述的装置,其中,所述分类器(120)被配置为根据所确定的所述时频区间((b,k))的频率变化(R(b,k))将所述多个时频区间中的每个时频区间分配给两个或更多个信号分量组中的信号分量组,使得所述分类器(120)根据所确定的所述时频区间((b,k))的频率变化(R(b,k))的绝对值(|R(b,k)|)是否大于第三阈值rp、或者根据所确定的所述时频区间((b,k))的频率变化(R(b,k))的绝对值(|R(b,k)|)是否大于或等于所述第三阈值rp,将所述多个时频区间中的时频区间分配给两个或更多个信号分量组中的打击乐信号分量组,
其中
Figure FDA0001868526850000042
11.根据权利要求9所述的装置,其中所述分类器(120)被配置为根据所确定的所述时频区间((b,k))的频率变化(R(b,k))将所述多个时频区间中的每个时频区间分配给两个或更多个信号分量组中的信号分量组,使得所述分类器(120)根据所确定的所述时频区间((b,k))的频率变化(R(b,k))的所述绝对值(|R(b,k)|)是否大于第三阈值rp,或者根据所确定的所述时频区间((b,k))的频率变化(R(b,k))的绝对值(|R(b,k)|)是否大于或等于所述第三阈值rp,将所述多个时频区间中的时频区间分配给两个或更多个信号分量组中的打击乐信号分量组,
其中
Figure FDA0001868526850000043
12.根据权利要求1所述的装置,其中,所述装置包括:信号发生器(130),被配置为根据所述多个时频区间向所述两个或更多个信号分量组的分配来产生音频输出信号。
13.根据权利要求12所述的装置,其中,所述信号发生器(130)被配置为对所述多个时频区间中的每个时频区间的幅度值(wh,wp,wr)应用加权因子以获得所述音频输出信号,其中对所述时频区间应用的所述加权因子(wh,wp,wr)取决于所述时频区间被分配给的信号分量组。
14.根据权利要求12所述的装置,
其中所述信号处理器(130)是上混音器,被配置为对所述音频信号进行上混音以获得包括两个或更多个音频输出通道在内的音频输出信号,
其中,所述上混音器被配置为根据所述多个时频区间向所述两个或更多个信号分量组的分配来生成所述两个或更多个音频输出通道。
15.根据权利要求1所述的装置,
其中所述装置包括一个或多个用于记录音频信号的麦克风(171,172),以及
其中所述装置还包括用于根据所述音频信号生成所述音频信号的幅度频谱图的幅度频谱图生成器(180)。
16.一种用于分析音频信号的幅度频谱图的方法,包括:
根据音频信号的幅度频谱图来确定音频信号的幅度频谱图的多个时频区间中的每个时频区间的频率变化,以及
根据所确定的所述多个时频区间中的每个时频区间的频率变化将所述时频区间分配给两个或更多个信号分量组中的信号分量组。
17.一种存储有计算机程序的计算机可读存储介质,所述计算机程序用于在计算机或信号处理器上执行时实现根据权利要求16所述的方法。
CN201780030531.7A 2016-03-18 2017-03-16 使用频谱图上的结构张量进行谐波-打击乐-残余声音分离的装置和方法 Active CN109247030B (zh)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
EP16161251.0 2016-03-18
EP16161251.0A EP3220386A1 (en) 2016-03-18 2016-03-18 Apparatus and method for harmonic-percussive-residual sound separation using a structure tensor on spectrograms
PCT/EP2017/056257 WO2017158102A1 (en) 2016-03-18 2017-03-16 Apparatus and method for harmonic-percussive-residual sound separation using a structure tensor on spectrograms

Publications (2)

Publication Number Publication Date
CN109247030A CN109247030A (zh) 2019-01-18
CN109247030B true CN109247030B (zh) 2023-03-10

Family

ID=55646318

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201780030531.7A Active CN109247030B (zh) 2016-03-18 2017-03-16 使用频谱图上的结构张量进行谐波-打击乐-残余声音分离的装置和方法

Country Status (11)

Country Link
US (1) US10770051B2 (zh)
EP (2) EP3220386A1 (zh)
JP (1) JP6800995B2 (zh)
KR (1) KR102250624B1 (zh)
CN (1) CN109247030B (zh)
BR (1) BR112018068852A2 (zh)
CA (1) CA3017558C (zh)
ES (1) ES2788682T3 (zh)
MX (1) MX2018011104A (zh)
RU (1) RU2712652C1 (zh)
WO (1) WO2017158102A1 (zh)

Families Citing this family (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109658951B (zh) * 2019-01-08 2021-03-26 北京雷石天地电子技术有限公司 混合信号检测方法及系统
TWI783215B (zh) * 2020-03-05 2022-11-11 緯創資通股份有限公司 信號處理系統及其信號降噪的判定方法與信號補償方法
CN112150386B (zh) * 2020-09-29 2023-03-21 西安工程大学 基于对比度均值的sar图像相干斑非局部平均抑制方法
CN113203992A (zh) * 2021-04-29 2021-08-03 电子科技大学 一种多基sar的抗欺骗性干扰方法
KR102475219B1 (ko) * 2022-09-21 2022-12-07 국방과학연구소 비디오 형태의 데이터 증강에 기반한 합성 개구면 레이다의 표적 분류 장치, 방법, 컴퓨터 판독 가능한 기록 매체 및 컴퓨터 프로그램

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101076849A (zh) * 2004-10-11 2007-11-21 弗劳恩霍夫应用研究促进协会 对构成音频信号基础的旋律的提取
US7521622B1 (en) * 2007-02-16 2009-04-21 Hewlett-Packard Development Company, L.P. Noise-resistant detection of harmonic segments of audio signals
JP2010054802A (ja) * 2008-08-28 2010-03-11 Univ Of Tokyo 音楽音響信号からの単位リズムパターン抽出法、該方法を用いた楽曲構造の推定法、及び、音楽音響信号中の打楽器パターンの置換法
JP2010210758A (ja) * 2009-03-09 2010-09-24 Univ Of Tokyo 音声を含む信号の処理方法及び装置
JP2013164584A (ja) * 2012-01-12 2013-08-22 Yamaha Corp 音響処理装置
CN103680517A (zh) * 2013-11-20 2014-03-26 华为技术有限公司 一种音频信号的处理方法、装置及设备
CN105165026A (zh) * 2012-12-21 2015-12-16 弗劳恩霍夫应用研究促进协会 使用多个瞬时到达方向估计的知情空间滤波的滤波器及方法

Family Cites Families (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS5950734A (ja) 1982-09-16 1984-03-23 スタンレー電気株式会社 磁石式交流発電機の電圧調整装置
JPS638698A (ja) * 1986-06-27 1988-01-14 松下電器産業株式会社 リズム表示装置
US5845241A (en) * 1996-09-04 1998-12-01 Hughes Electronics Corporation High-accuracy, low-distortion time-frequency analysis of signals using rotated-window spectrograms
DE10313875B3 (de) * 2003-03-21 2004-10-28 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Vorrichtung und Verfahren zum Analysieren eines Informationssignals
JP5294300B2 (ja) * 2008-03-05 2013-09-18 国立大学法人 東京大学 音信号の分離方法
JP5560861B2 (ja) 2010-04-07 2014-07-30 ヤマハ株式会社 楽曲解析装置
WO2013038459A1 (ja) * 2011-09-16 2013-03-21 パイオニア株式会社 音声処理装置、再生装置、音声処理方法およびプログラム
JP6763721B2 (ja) * 2016-08-05 2020-09-30 大学共同利用機関法人情報・システム研究機構 音源分離装置
US10354632B2 (en) * 2017-06-28 2019-07-16 Abu Dhabi University System and method for improving singing voice separation from monaural music recordings

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101076849A (zh) * 2004-10-11 2007-11-21 弗劳恩霍夫应用研究促进协会 对构成音频信号基础的旋律的提取
US7521622B1 (en) * 2007-02-16 2009-04-21 Hewlett-Packard Development Company, L.P. Noise-resistant detection of harmonic segments of audio signals
JP2010054802A (ja) * 2008-08-28 2010-03-11 Univ Of Tokyo 音楽音響信号からの単位リズムパターン抽出法、該方法を用いた楽曲構造の推定法、及び、音楽音響信号中の打楽器パターンの置換法
JP2010210758A (ja) * 2009-03-09 2010-09-24 Univ Of Tokyo 音声を含む信号の処理方法及び装置
JP2013164584A (ja) * 2012-01-12 2013-08-22 Yamaha Corp 音響処理装置
CN105165026A (zh) * 2012-12-21 2015-12-16 弗劳恩霍夫应用研究促进协会 使用多个瞬时到达方向估计的知情空间滤波的滤波器及方法
CN103680517A (zh) * 2013-11-20 2014-03-26 华为技术有限公司 一种音频信号的处理方法、装置及设备

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
Acoustic detection of elephant presence in noisy environments;Matthias Zeppelzauer等;《Proceedings of the 2nd ACM international workshop on Multimedia analysis for ecological data》;20131022;3-8 *
Harmonic/percussive sound separation based on anisotropic smoothness of spectrograms;Hideyuki Tachibana等;《IEEE/ACM Transactions on Audio, Speech and Language Processing》;20141201;第22卷(第12期);2059-2073 *
Similarity Search in Animal Sound Databases;Rolf Bardeli;《IEEE Transactions on Multimedia》;20081222;第11卷(第1期);68-76 *

Also Published As

Publication number Publication date
BR112018068852A2 (pt) 2019-01-22
US20190012999A1 (en) 2019-01-10
CA3017558C (en) 2021-03-16
JP6800995B2 (ja) 2020-12-16
KR20180121995A (ko) 2018-11-09
RU2712652C1 (ru) 2020-01-30
EP3430612A1 (en) 2019-01-23
JP2019515323A (ja) 2019-06-06
CN109247030A (zh) 2019-01-18
EP3430612B1 (en) 2020-03-25
EP3220386A1 (en) 2017-09-20
ES2788682T3 (es) 2020-10-22
US10770051B2 (en) 2020-09-08
MX2018011104A (es) 2019-01-10
WO2017158102A1 (en) 2017-09-21
KR102250624B1 (ko) 2021-05-12
CA3017558A1 (en) 2017-09-21

Similar Documents

Publication Publication Date Title
CN109247030B (zh) 使用频谱图上的结构张量进行谐波-打击乐-残余声音分离的装置和方法
US8175730B2 (en) Device and method for analyzing an information signal
US9111526B2 (en) Systems, method, apparatus, and computer-readable media for decomposition of a multichannel music signal
CN109247069B (zh) 通过使用音频频谱图上的结构张量来重构相位信息的编码
CN103999076A (zh) 包括将声音信号变换成频率调频域的处理声音信号的系统和方法
Füg et al. Harmonic-percussive-residual sound separation using the structure tensor on spectrograms
US9305570B2 (en) Systems, methods, apparatus, and computer-readable media for pitch trajectory analysis
JP2010210758A (ja) 音声を含む信号の処理方法及び装置
John et al. Classification of Indian classical carnatic music based on raga using deep learning
JP2014219607A (ja) 音楽信号処理装置および方法、並びに、プログラム
JP2012181475A (ja) 音響信号における特徴抽出方法及び当該特徴を用いた音響信号の処理方法
Olivero et al. Sound morphing strategies based on alterations of time-frequency representations by Gabor multipliers
Dittmar et al. An experimental approach to generalized Wiener filtering in music source separation
de León et al. A complex wavelet based fundamental frequency estimator in singlechannel polyphonic signals
McCallum Foreground Harmonic Noise Reduction for Robust Audio Fingerprinting
Bartkowiak Application of the fan-chirp transform to hybrid sinusoidal+ noise modeling of polyphonic audio
Allosh et al. Speech recognition of Arabic spoken digits
Chunghsin Multiple fundamental frequency estimation of polyphonic recordings
Molla et al. Robust voiced/unvoiced speech classification using empirical mode decomposition and periodic correlation model.
JP2007536587A (ja) 情報信号を解析するための装置および方法
MULTIPLES Chunghsin YEH

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant