CN1717576A - 用于将声音帧分离成为正弦分量和残余噪声的方法 - Google Patents

用于将声音帧分离成为正弦分量和残余噪声的方法 Download PDF

Info

Publication number
CN1717576A
CN1717576A CNA2003801041530A CN200380104153A CN1717576A CN 1717576 A CN1717576 A CN 1717576A CN A2003801041530 A CNA2003801041530 A CN A2003801041530A CN 200380104153 A CN200380104153 A CN 200380104153A CN 1717576 A CN1717576 A CN 1717576A
Authority
CN
China
Prior art keywords
voiced frame
importance
frame
sinusoidal
component
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CNA2003801041530A
Other languages
English (en)
Inventor
N·H·范施恩德
M·格梅滋富恩特斯
R·霍伊斯登斯
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Koninklijke Philips NV
Original Assignee
Koninklijke Philips Electronics NV
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Koninklijke Philips Electronics NV filed Critical Koninklijke Philips Electronics NV
Publication of CN1717576A publication Critical patent/CN1717576A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/08Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters
    • G10L19/093Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters using sinusoidal excitation models

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)
  • Measurement Of Mechanical Vibrations Or Ultrasonic Waves (AREA)

Abstract

本发明涉及一种从所提供的第一声音帧中确定(10)表示正弦分量的第二声音帧(20)以及可选的表示残余的第三声音帧(30)的方法,该方法包括步骤:在未提取的分量中确定第一声音帧中的正弦分量;为该第一声音帧确定重要性测量(40);从该第一声音帧提取正弦分量,并且将该正弦分量包括在第二声音帧中;和重复所述步骤,直到该重要性测量满足停止标准(50)。在该方法中,为第一声音帧确定重要性测量的步骤可以在所述第三步骤之前执行,或者其可以在所述第三与第四步骤之间执行。所述方法进一步包括步骤:当该重要性测量满足所述停止标准时,将第三声音帧设置为第一声音帧。这样就使得只提取在随后的压缩中所需要使用的正弦分量。

Description

用于将声音帧分离成为正弦分量和残余噪声的方法
技术领域
本发明涉及一种从所提供的第一声音帧来确定表示正弦分量的第二声音帧以及表示残余的可选的第三声音帧的方法。
本发明也涉及一种用于执行该方法的计算机系统。
本发明进一步涉及一种用于执行该方法的计算机程序产品。
另外,本发明涉及一种设备,其包括用于执行所述方法的步骤的装置。
背景技术
US6298322公开了一种使用主要音调信号和矢量量化的残余音调信号对音调音频信号进行编码和合成的方法。该编码器为所限制数目的音调音频信号的主要正弦分量确定时变频率、幅度和相位,以形成主要正弦参数序列。从音调音频信号中除去这些(主要)分量,以形成残余音调信号。使用所谓的残余音调信号编码器(RTSE)编码所述残余音调信号。
在对音频信号进行正弦加残余编码中,音频信号被分割,并且通过正弦部分加残余部分模拟每一帧,这是公知常识并且是上面所提到现有技术的常识。该正弦部分典型地是正弦分量之和。在大多数正弦编码器中,将该残余假定为随机信号,并可以通过噪声模拟。当是这种情况时,该信号的正弦部分应该构成原始帧的所有确定性(即音调)分量。
如果该正弦部分并不构成所有的音调分量,某些音调分量会通过噪声模拟。因为噪声并不适合模拟音调,这样就会引入假象。如果正弦部分不仅仅构成该确定性部分,正弦分量就对噪声进行模拟。由于两个原因,这并非所想要的。一方面,正弦并不适合于模拟噪声信号,并且会出现假象。另一方面,如果不通过噪声模拟这些分量,将会得到更多的压缩。
现有技术的现状给出某些解决这一问题的方法,即如何较好地划分成为正弦部分和残余部分。
S.N.Levine.Audio Representation for Data Compression andCompressed Domain Processing.Ph.D.Dissertation,StanfordUniversity,1998。
S.N.Levine,J.O.Smith,“Improvements to the switchedparametric&transform audio coder”,in Proc.1999 IEEE onApplications of Signal Processing to Audio and Acoustics,1999,pp.43-46。
S.N.Levine,and J.O.Smith III,“Improvements to theswitched parametric&transform audio coder”in Proc.1999 IEEEWorkshop on Applications of Signal Processing to Audio andAcoustics,New Paltz,New York,Oct.17-20,1999,pp.43-46。
G.Peeters,and X.Rodet,“Signal Characterisation in termsof Sinusoidal and Non-Sinusoidal Components”in Proc.DigitalAudio Effects,Barcelona,Spain,19-21 November 1998。
X.Rodet,“Musical Sound Signal Analysis/Synthesis:Sinusoidal+Residual and Elementary Waveform Models”in Proc.IEEE  Time-Frequency and Time-Scale Workshop (TFTS′97),University of Warwick,Coventry,UK,27th-29th August 1997。
某些方法完全是根据信号的特性。
G.Peeters,and X.Rodet,“Signal Characterisation in termsof Sinusoidal and Non-Sinusoidal Components”in Proc.DigitalAudio Effects,Barcelona,Spain,November 1998。
X.Rodet,“Muscial Sound Signal Analysis/Synthesis:Sinusoidal+Residual and Elementary Waveform Models”in Proc.IEEE Time-Frequency and Time-Scale Workshop(TFTS′97),University of Warwick,Coventry,UK,27th-29th August 1997。
其它的则更多的是基于心理声学的考虑。
S.N.Levine.Audio Representation for Data Compression andCompressed Domain Processing.Ph.D.Dissertation,StanfordUniversity,1998。
S.N.Levine,J.O.Smith,“Improvements to the switchedparametric&transform audio coder”in Proc.1999 IEEE onApplications of Signal Processing to Audio and Acoustics,1999,pp.43-46。
S.N.Levine,and J.O.Smith III,“Improvements to theswitched parametric&transform audio coder”in Proc.1999 IEEEWorkshop on Applications of Signal Processing to Audio andAcoustics,New Paltz,New York,Oct.17-20,1999,pp.43-46。
不幸的是,要分离成正弦部分和残余部分并不容易,并且这些方法没有一个能够给出完全满意的结果(例如参见G.Peeters,and x.Rodet,“Signal Characterisation in terms of Sinusoidal andNon-Sinusoidal Components”in Proc.Digital Audio Effects,Barcelona,Spain,November 1998)。因此当前发明的目的是在输入信号的确定性部分和随机部分之间具有较好的分离,以避免出现假象并为了在接下来对所分离的信号进行压缩中得到最优并高效的压缩或编码。
发明内容
所述目的的实现需要在开始段落中所提到的方法包括下面的步骤:
·在未提取的分量中确定第一声音帧中的正弦分量;
·为该第一声音帧确定重要性测量;
·从该第一声音帧提取正弦分量;并且将该正弦分量包括在第二声音帧中;和
·重复所述步骤,直到该重要性测量满足停止标准。
该所述方法具有多个高于上述现存方法的优点。引入到该编码阶段中的额外复杂度几乎为零。而且,该复杂度还可以降低,因为在最后步骤中该方法表明何时停止提取正弦分量。结果,在第三步骤中不提取多于所需的正弦。另外,容易包括对心理声学的考虑。最重要的是,该方法考虑输入帧的性质,即所述第一声音帧的性质,给出较好的随机与确定性之间的平衡。
在本发明优选的实施例中,可以在第三步骤之前执行,或者可以在第三与第四步骤之间执行第二步骤(确定重要性测量)。
在本发明优选的实施例中,该方法进一步包括步骤:
·当该重要性测量满足所述停止标准时,将第三声音帧设置为第一声音帧。
从而,也可以实现的是,将该残余(即第三声音帧)作为输入提供给随后对所分离信号进行(即第二和第三声音帧)的压缩。
在本发明优选的实施例中,从第一声音帧中提取正弦分量,并将该正弦分量包括在第二声音帧中的所述步骤进一步包括步骤:
·从该第一声音帧中除去该正弦分量。
从而其优点是,随后可以更准确地确定正弦分量和/或重要性测量。
在权利要求4至10中反映了本发明进一步的替换实施例。
附图说明
下面将结合优选实施例并参照附图更全面的描述本发明,其中:
图1所示为本发明的实施例,其中停止标准表明在正弦分析阶段中何时停止提取正弦分量,引入到正弦模型中的所提取分量以及残余信号;
图2所示为将该方法用于一段音乐的结果(上半部),在下半部中表示每一帧中所经历的正弦数目;
图3所示的方法为从所提供的第一声音帧中确定表示正弦分量的第二声音帧以及可选的表示残余的第三声音帧;和
图4所示为用于声音处理的设备。
在全部的附图中,相同的附图标记表示相同或对应的特征、功能、声音帧等。
具体实施方式
图1所示为在正弦提取中引入停止标准,以及如何将输入帧分离成为两个不同的信号:所提取的引入到正弦模型中的正弦分量,以及残余信号。
该图所示为本发明的实施例,其中在所述分离中应用了低复杂度的基于心理声学能量的停止标准。该图所示为该系统的方框图。输入帧的附图标记为10,将其输入到提取方法。该提取方法在每一迭代中提取一个正弦分量。在每次提取之后,获得两个不同的信号:所提取的分量,将其引入、即添加或附加到附图标记为20的该正弦模型中,以及残余信号,其附图标记为30。然后从该残余信号计算心理声学测量或能量测量——其通常并一般称为重要性测量,附图标记为40。从由所述测量提供的信息,根据在附图标记5 0中表示的停止标准作出判决,即其之中是否还可能有某些重要音调分量。在后一种情况下,该提取方法必须停止并且反之亦然。
给出该信息的测量称为残余信号的可检测性和可检测性减少。该可检测性测量是基于在S.vande Par,A.Kohlrausch,M.Charestan,R.Heusdens,“A new psychoacoustical masking model for audiocoding applications”in Proc.IEEE Int.Conf.Acoust.,Speechand Signal Process.,Orlando,USA,May 13-17,2002中所提出的心理声学模型的可检测性。
残余的可检测性的值表示在该残余中还剩下多少心理声学相关的功率。如果其在迭代m时达到一或更低的值,表明剩下的能量听不见。可检测性减少表示在对提取之前的功率剩余进行一次提取之后减少了多少相关功率。方框“重要性测量计算”的附图标记为40,其可以根据下面的等式计算残余的可检测性以及其减少:
D m = Σ f R m ( f ) a ( f ) = Σ f R m ( f ) msk ( f ) - - - ( 1 )
reductio n Dm ( m ) = 100 - 100 * D m D m - 1 ( % ) = 100 ( 1 - D m D m - 1 ) = 100 ( ΔD D m - 1 )
其中Rm(f)表示残余信号的功率谱,a(f)为输入信号(以功率计算)的掩蔽阈值ms k(f)的反函数,f为频率组,m为迭代次数,并且ΔD为可检测性的递减量。
该可检测性表示剩下的能量是否可听见,并且其减少值给出在输入帧的确定性部分与随机部分之间如何区分。原因就是当所提取的峰值是音调分量时可检测性的减少通常多于其是噪声分量时。然后,当该可检测性的值等于或低于一,或者当其减少达到某一值(假设对应于当提取噪声分量时的减少值)时,该提取算法应该停止提取分量。
可以注意到,所引入的测量应该只与心理声学提取方法结合,例如在R.Heusdens and S.van de Par(2001),“Rate-distortionoptimal sinusoidal modelling of audio and speech usingpsychoacoustical matching pursuits”in Proc.IEEE Int.Conf.Acoust.,Speech and Signal Process.,Orlando,USA,May 13-17,2002中提供的心理声学匹配研究。其原因就是,如果该提取方法不使用心理声学,该测量可以给出较差的表示。例如,如果该提取方法是基于能量的提取方法而不考虑心理声学(诸如普通的匹配研究),在每次迭代将减去减少能量最多的峰值。如果是这种情况,如果该峰值在心理声学上并不重要,则能量减少将很高,而可检测性减少可以很低。结果,该提取方法将被停止,而在该信号中仍然还留有感知相关的音调分量。然后,如果所使用的提取方法并不包括心理声学,则推荐使用停止标准的变形。在这种情况下,推荐使用能量减少作为确定性随机平衡的指示符,而代替可检测性减少。
不同于前面所提到的方案,该方案在提取期间进行判决。因此,唯一向系统引入复杂度的就是在每次迭代m时测量的计算。然而,如果该方法与心理声学提取方法结合,所引入的复杂度可以忽略,由于已经通过该提取方法计算了掩蔽阈值。
作为所述测量的替换形式,即到目前所讨论的作为重要性测量的心理声学测量和能量测量为止,可以考虑使用其它替换测量作为重要性测量。
所述心理声学是听觉感知(=人类听觉系统对声音的响应)的另一个词语。在该心理声学测量中要考虑人类响应。于是,该心理声学测量是包括人类对声音响应的重要性测量的范例。然而这是一个具体的实施例。当然,也有可能进行听觉感知的更加高级的实现方式。另外,没有考虑人类对声音响应的重要性测量也是有用的。这种重要性测量的范例是所提到的能量测量。图2所示为应用到一段音乐的停止标准的结果(上半部)。每一帧中所经历的正弦数表示在下半部中。
为了检查该测量的可使用性,以在(输入)信号的随机与确定性部分之间进行区分,在正弦编码器中实施并测试附图标记为50的该停止标准。该编码器选择为SiCAS编码器(音频和语音的正弦编码)。在其默认情况下,在每一帧提取固定数目的峰值。
所使用的提取方法为在R.Heusdens and S.van de Par(2001),“Rate-distortion optimal sinusoidal modelling of audio andspeech using psychoacoustical matching pursuits”in Proc.IEEEInt.Conf.Acoust.,Speech and Signal Process.,Orlando,USA,May 13-17,2002中提供的心理声学匹配研究。
在每次迭代时,其根据输入信号的掩蔽阈值提取心理声学最相关的峰值。因此并不需要计算表达式(1)中的掩蔽阈值,因为其已经通过该提取方法计算了。
减少的阈值并不设置为一个唯一值。相反,选择值的范围(在0.25的步骤中从3.5至5.5)。然后,使用每一个这些值编码一组语音和一个音频信号。相同的信号也以每帧固定数目的正弦(从12至20)进行编码,以比较这些情况。
非正式收听试验所得出的结果在下面的部分中进行解释。
为了比较两种不同的情况(具有根据本发明的停止标准和具有固定数目正弦的),选择一对编码-解码信号,使它们的质量相同。然后得到两个结果。首先,当使用停止标准时,正弦的分配优于提取每帧固定(正弦)数目的情况。换言之,该正弦的分配给出更好的确定性-随机平衡。该图所示为如何在一段编码的范例歌曲中分配正弦,随机地选择。在附图中可以看到的趋势是,在(输入)信号更加谐波的地方,则经历更高数目的正弦,即当其噪音更多时在中间部分的浊音部分,即在开始和结束处的清音部分。
收听该编码信号的正弦部分可以很容易地就注意到正弦的这种更好的分配。然后浊音部分可以很清楚地听见(于是被模型化),而清音部分听不见(因为它们没有通过正弦模型来模型化)。
其次,在整段音乐中所使用的正弦的总数目通常会减少,并且作为结果比特率也减少。
在全部该申请中提到了词语“声音”,当其想要表示人类语音、音频、音乐、音调和非音调分量、或者任何组合中的有色或无色噪声时,并且其可以作为输入应用到所述提取方法,并且其也可以应用到下面所讨论的方法中。
图3所示的方法为从所提供的第一声音帧中确定表示正弦分量的第二声音帧以及可选的表示残余的第三声音帧。
该第一声音帧对应于前面所提到的输入信号并且表示正弦和残余,第二声音帧表示正弦,并且第三声音帧表示残余。第二和第三声音帧开始可以为空,或者包含对前一(第一)声音帧应用该方法得到的内容。
在步骤90中,根据本发明所示的实施例启动该方法。变量、标志、缓冲器等记住输入(第一)和输出(第二和第三)声音帧、分量、重要性测量等,其对应于正被处理的声音信号,将它们初始化或设置为默认值。当该方法第二次迭代时,只是将破坏的变量、标志、缓冲器等复位到默认值。
在步骤100中,可以确定第一声音帧中的正弦分量。所述分量典型地会表示某些重要的声音信号,即其主要包括音调、非噪声信息。
最简单的确定技术(用于所述分量确定)包括:拾取输入信号,即第一声音帧的频谱中最主要的峰值。将该原始音频信号乘以分析窗,并为每一帧计算快速傅立叶变化:
X l ( k ) = Σ n = 0 N - 1 w ( n ) x ( n + lH ) e - j w k n , 1=0,1,2…
其中x(n)是原始音频信号(的帧),w(n)是分析窗,wk是单位为弧度的第k组2πk/N的频率,N是样本中帧的长度,1是帧的编号,并且H窗的提前时间。
在下面的文献中描述了峰值拾取方法:X.Serra,“A system forsound analysis/transformation/synthesis based on adeterministic plus stochastic decomposition”,Ph.D.Dissertation,Stanford University,1990。
X.Serra,J.O.Smith,“A system for SoundAnalysis/Transformation/Synthesis based on a Deterministicplus Stochastic Decomposition”,SIGNAL PROCESSING V:Theoriesand Applications,1990。
M.Goodwin,“ADAPTIVE SIGNAL MODELS.Theory,Algorithmsand Audio Applications”,Kluwer Academic Publishers,1998。
M.Goodwin,“Residual modelling in music analysis-synthesis”,in Proc..IEEE Int.Conf.on Acoustics,Speech,and signal Processing,1996,pp.1005-1008。
X.Rodet,“Musical Sound Signal Analysis/Synt hesis:Sinusoidal+Residual and Elementary Waveform Models”,Proc.of2nd IEEE symp.on applications of time-frequency and time-scale methods,1997.pp.111-120。
X.Rodet,“Musical Sound Signal Analysis/Synthesis:Sinusoidal+Residual and Elementary Waveform Models”,Proc.of2nd IEEE symp.on applications of time-frequency and time-scale methods,1997.pp.111-120以及G.Peeters,X.Rodet,“Signal Characterization in terms of Sinusoidal and Non-Sinusoidal Components”,Digital Audio Effects,1998。B.Doval,X.Rodet,“Fundamental frequency estimation and tracking usingmaximum likelihood”,in Proc.Of ICASSP′93,1993,pp.221-224。
在R.Heusdens and S.van de Par(2001),“Rate-distortionoptimal sinusoidal modelling of audio and speech usingpsychoacoustical matching pursuits”in Proc.IEEE Int.Conf.Acoust.,Speech and Signal Process.,Orlando,USA,May13-17,2002中所提供的心理声学匹配研究是另一种有用的确定技术。该方法迭代地确定最感知相关的正弦分量。
在步骤200中,可以为第一声音帧确定重要性测量。该第一声音帧是该方法的输入,并且如在该方法的末尾将要讨论的,该方法可以应用于包括歌曲或另一逻辑相连在一起的声音内容的声音帧。重要性测量通常用于判决接下来所确定的剩余信号或残余、即没有最终确定正弦分量的第一声音帧,以及在下面的步骤中所提取的正弦分量,是否不包含重要性音调分量,或者确定(在所述第一声音帧中)是否可能还存在某些重要性音调(正弦)分量。在第一种情况下,该方法必须停止,或者在第二种情况下,该方法可以继续。
重要的需要注意到,在步骤100和300的迭代期间,当前的第一声音帧可以包括更少的正弦分量,由于每次在步骤100中确定正弦分量,并且接着在步骤300将其(从第一声音帧中)去除。
所述重要性测量可以基于听觉感知,即人类对声音的响应。这种测量的一种可能实施方式是心理声学能量级测量,其至少包括如下之一:
det ectability , D m = Σ f R m ( f ) a ( f ) = Σ f R m ( f ) msk ( f )
reductio n Dm ( m ) = 100 - 100 * D m D m - 1 ( % ) = 100 ( 1 - D m D m - 1 ) = 100 ( ΔD D m - 1 )
Rm(f)是具有可能去除分量的第一声音帧的功率谱,a(f)是msk(f)的反函数,其是第一声音帧的掩蔽阈值,但是不具有从其自身去除的分量,以功率计算,f是频率组,m是当前迭代号,表示该步骤以及接下来的步骤300和400当前执行了多少次,m在迭代的开始设置为0,并且ΔD是所述可检测性的增量。可以在该方法开始之前计算第一声音帧的掩蔽阈值即所述msk(f),由于其认为所述第一声音帧位于起始点,即位于其中没有去除分量的点。相反,第一声音帧的功率谱Rm(f)可以缺少分量,由于它们可以在接下来的步骤300被去除;并且在该方法执行期间当时计算,其从而反映了前面提到的残余中的当前心理声学能量级。
作为所述感知测量的替换形式,可替换地可以考虑其它更高级的感知测量。这些高级感知测量例如可以考虑声音的时间特征。另外,没有考虑听觉感知的重要性测量也是有用的。
在步骤300中,可以从第一声音帧中提取该正弦分量,并且将其包括在第二声音帧中。这里可以有多个实施方式。在一个实施例中,简单地只通过其参数(即幅度、相位等)从第一声音帧中提取所述正弦分量,即其并没有物理地去除,然而该方法在这种情况下需要(通过标志、提示等)记住它(正弦分量)实际上已经被提取,以避免在随后的迭代中提取相同的正弦分量。
可替换地或相反地,在可选步骤600中如所申明的“从第一声音帧中去除(600)正弦分量”;将所述正弦分量从该第一声音帧中去除,即实际上是物理的去除,然而这样需要更多的处理能力。
在任何这些情况下,所述第二声音帧当时会包括所提取的正弦分量。由于这种原因,其只包括正弦分量。
当所述可检测性等于或低于1时,所述重要性测量可以满足所述停止标准。可替换地,当所述减少低于预定值时,所述重要性测量可以满足所述停止标准。
在该方法的执行期间可以考虑在从可检测性到减少标准之间切换,或者相反。
在步骤400中,可以判决重复所述步骤(100-300)以及可选的重复所述步骤600(从所述第一声音帧中实际地去除该正弦分量),直至该重要性测量满足所述停止标准。其可能的情况是,该第一声音帧还是包括多个正弦分量,通过迭代步骤(100-300),(使用m作为当前迭代号,表示该步骤以及随后步骤200和300当前被执行了多少次),可以在每次遍历中发现新的未提取的正弦分量。结果,剩下的第一声音帧每次具有的提取分量更少。可选地作为步骤600,该第一声音帧每次物理剩下来具有的正弦分量就更少。进一步,其会相应地影响所述重要性测量,尤其是当在可选的所述步骤600中从所述第一声音帧中去除该正弦分量时。
并不重要的是,为第一声音帧确定重要性测量的步骤200可以在步骤300之前执行,或者可以在步骤300与400之间执行。可以这样是因为步骤200可以独立地计算。
在步骤500中,作为可选步骤,当该重要性测量满足前述停止标准其中之一时可以将第三声音帧设置为第一声音帧。由于在步骤100-400中已经去除了重要的正弦分量,在这一点的第一声音帧只包括不重要的分量。换言之,在这一点的第一声音帧包括主要表示非音调分量或假定为不重要的音调分量的残余。换言之,作为剩余第一声音帧的拷贝,所述第三声音帧这里可以被理解为前面提到的残余或剩余部分或信号,其中如步骤300中所讨论的所有重要分量、即例如峰值等都被物理地提取,或者至少具有提示或标记,表明它们(重要分量)不再属于所述第三声音帧。
到目前为止所讨论的步骤可以归纳如下:
在第一迭代步骤中,即在步骤100中,将该(原始)输入帧、即第一声音帧输入到该方法。然后,(根据某个标准,例如能量最大)确定正弦分量,并将其从该帧中提取出来,即在这一点还是只考虑第一声音帧。这样就得到残余信号(原始输入帧减去该分量)。然后,确定(没有最终提取的正弦分量的)所述第一声音帧的重要性,即重要性测量。如果该重要性足够高,即通过所述重要性测量表示,现在就不是停止的时间,并且将进行另一个迭代。在步骤300中将该正弦分量(即被提取并被去除的)加到所述第二声音帧。如果该重要性并不够高,就停止该方法。在下一迭代步骤中,将残余(还是第一声音帧,但是其中已经提取了某些正弦分量)放入该方法。再次在未提取的分量中确定并提取正弦分量。通过所述重要性测量(根据第一声音帧(没有最终提取正弦分量的))确定其重要性。如果其重要性、即所述重要性测量其中之一足够高,就重复该方法,等等,对应于步骤400中所述。
因此,该第一声音帧等于第一迭代步骤中的输入帧,并且等于其它迭代步骤中的输入帧减去作为残余的已提取分量。在每一迭代步骤中,提取新的正弦分量。结果就是新的残余。该新残余是对应于在步骤500可选执行的第三声音帧。该新残余或该第三声音帧是当该方法结束其任务时,所述第一声音帧与新提取的正弦分量之间的差。
第二声音帧是目前所提取的分量之和。因此其表示正弦。
在步骤200确定重要性测量等,其可以在步骤300之前执行,或者在步骤300与400之间执行。
可以进一步为一个或多个声音帧、即为一组新的所述第一、第二和第三声音帧执行步骤100-400,对应地为每一所述声音帧应用新的迭代号等。相应地,进一步可以应用可选步骤500和600。例如,歌曲可以继续划分成多个帧,并且通过应用步骤100-500等,这些帧的每一帧开始作为第一声音帧,都会被分离成为对应的表示正弦或音调分量的第二声音帧以及可选的表示残余的第三声音帧。
结果,该歌曲被分离分量别为正弦或音调分量和残余的帧。它们然后随后将准备用于压缩所分离的帧。由此,就可以对所述歌曲进行优化和高效的压缩或编码。
通常,只要该设备上电,该方法会全部重复启动。否则,该方法会终止于步骤400(或可选地终止于步骤500或600),然而当该设备再次上电等时,该方法可以从步骤100处理。
图4所示为用于声音处理的设备。该设备可以用于执行在前面的附图中所讨论的方法。
该设备通过附图标记410表示,并且可以包括声音信号的输入,其附图标记为10,例如作为第一声音帧。相应地,其可以进一步包括输出,其附图标记为20和30,用于将所述第一声音帧分离成为所述第二和第三声音帧。所有这些所述声音帧可以与处理器连接,其附图标记为401。在典型的应用中,该处理器可以如前面的附图中所讨论的分离(成为声音信号)。
所述声音信号可以表示人类语音、音频、音乐、音调和非音调分量、或者在对它们进行处理期间的任何组合中的有色或无色噪声。
该设备可以是级联,其与相似或相同的用于串行耦合声音信号的设备耦合。另外或可替换地,可以并行耦合设备以并行处理声音信号。
计算机可读介质可以是磁带、光盘、数字视频盘(DVD)、压缩盘(可记录CD或可写入CD)、微型盘、硬盘、软盘、智能盘、PCMCIA卡等。
权利要求中,圆括号之间的任何附图标记不限制该权利要求。词语“包括”并不排除存在未列入权利要求中的元件或步骤。元件前面的词语“一”或“一个”并不排除存在多个这种元件。
可以通过包括几个分离元件的硬件和通过适当编程的计算机实施本发明。在列举了几个装置的器件权利要求中,可以通过一个以及相同项的硬件实施多个这些装置。某些测量在不同的独立权利要求中相互引用,这一事实并不表示不能有利地使用这些测量的组合。

Claims (13)

1.一种从所提供的第一声音帧中确定表示正弦分量的第二声音帧以及可选的表示残余的第三声音帧的方法,该方法包括步骤:
·在未提取的分量中确定第一声音帧中的正弦分量;
·为该第一声音帧确定重要性测量;
·从该第一声音帧提取正弦分量,并且将该正弦分量结合在第二声音帧中;和
·重复所述步骤,直到该重要性测量满足停止标准;
其中在步骤300之前、或者在步骤300与400之间执行为第一声音帧确定重要性测量的步骤。
2.根据权利要求1的方法,其特征在于该方法进一步包括步骤:
·当该重要性测量满足所述停止标准时,将第三声音帧设置为第一声音帧。
3.根据权利要求1或2的方法,其特征在于从该第一声音帧提取正弦分量、并将该正弦分量结合在第二声音帧中的步骤进一步包括步骤:
·从该第一声音帧中除去该正弦分量。
4.根据权利要求1至3中任一的方法,其特征在于该重要性测量是能量测量。
5.根据权利要求1至4中任一的方法,其特征在于该重要性测量考虑了心理声学信息,诸如人类对声音的响应。
6.根据权利要求1至5中任一的方法,其特征在于当感知测量认为第一声音帧不重要时,该重要性测量满足所述停止标准,并且其中所述感知测量表示耳朵对声音的感知。
7.根据权利要求1至6中任一的方法,其特征在于该重要性测量是心理声学能量级测量,其至少包括如下其中之一:
det ectability , D m = Σ f R m ( f ) a ( f ) = Σ f R m ( f ) msk ( f ) ,
reduction Dm ( m ) = 100 - 100 * D m D m - 1 ( % ) = 100 ( 1 - D m D m - 1 ) = 100 ( ΔD D m - 1 )
其中Rm(f)是具有可能去除的分量的第一声音帧的功率谱,a(f)是msk(f)的反函数,其是以功率计算的第一声音帧的掩蔽阈值,f是频率组,m是当前迭代次数,表示当前执行了多少次步骤100-300,m在迭代的开始设置为0,并且ΔD是所述可检测性的增量。
8.根据权利要求1至7中任一的方法,其特征在于当所述可检测性等于或低于一时,该重要性测量满足所述停止标准。
9.根据权利要求1至8中任一的方法,其特征在于当所述减少低于预定值时,该重要性测量满足所述停止标准。
10.根据权利要求1至7中任一的方法,其特征在于对于至少再一个声音帧进一步执行具有可选步骤500和600的所述步骤,其中相应地应用并产生一组新的所述第一、第二和第三声音帧。
11.一种用于执行根据权利要求1-10中任一的方法的计算机系统。
12.一种计算机程序产品,包括存储在计算机可读介质上的程序代码装置,用于当该计算机程序在计算机上运行时执行权利要求1-10中任一的方法。
13.一种设备,包括用于执行所述方法的步骤的装置。
CNA2003801041530A 2002-11-27 2003-10-29 用于将声音帧分离成为正弦分量和残余噪声的方法 Pending CN1717576A (zh)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
EP02079940.9 2002-11-27
EP02079940 2002-11-27

Publications (1)

Publication Number Publication Date
CN1717576A true CN1717576A (zh) 2006-01-04

Family

ID=32338111

Family Applications (1)

Application Number Title Priority Date Filing Date
CNA2003801041530A Pending CN1717576A (zh) 2002-11-27 2003-10-29 用于将声音帧分离成为正弦分量和残余噪声的方法

Country Status (7)

Country Link
US (1) US20060149539A1 (zh)
EP (1) EP1568011A1 (zh)
JP (1) JP2006508386A (zh)
KR (1) KR20050086761A (zh)
CN (1) CN1717576A (zh)
AU (1) AU2003274526A1 (zh)
WO (1) WO2004049310A1 (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105489225A (zh) * 2015-11-27 2016-04-13 哈尔滨工业大学 一种含次级通道在线辨识的前馈型窄带主动噪声控制系统

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7548853B2 (en) * 2005-06-17 2009-06-16 Shmunk Dmitry V Scalable compressed audio bit stream and codec using a hierarchical filterbank and multichannel joint coding
FR3020732A1 (fr) * 2014-04-30 2015-11-06 Orange Correction de perte de trame perfectionnee avec information de voisement

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5812737A (en) * 1995-01-09 1998-09-22 The Board Of Trustees Of The Leland Stanford Junior University Harmonic and frequency-locked loop pitch tracker and sound separation system
US5834672A (en) * 1995-11-09 1998-11-10 Chromatic Research, Inc. Non-linear tone generator
US6868163B1 (en) * 1998-09-22 2005-03-15 Becs Technology, Inc. Hearing aids based on models of cochlear compression
US6298322B1 (en) * 1999-05-06 2001-10-02 Eric Lindemann Encoding and synthesis of tonal audio signals using dominant sinusoids and a vector-quantized residual tonal signal
CA2349041A1 (en) * 2001-05-28 2002-11-28 Alireza Karimi Ziarani System and method of extraction of sinusoids of time-varying characteristics

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105489225A (zh) * 2015-11-27 2016-04-13 哈尔滨工业大学 一种含次级通道在线辨识的前馈型窄带主动噪声控制系统
CN105489225B (zh) * 2015-11-27 2019-07-16 哈尔滨工业大学 一种含次级通道在线辨识的前馈型窄带主动噪声控制系统

Also Published As

Publication number Publication date
WO2004049310A1 (en) 2004-06-10
EP1568011A1 (en) 2005-08-31
JP2006508386A (ja) 2006-03-09
AU2003274526A1 (en) 2004-06-18
US20060149539A1 (en) 2006-07-06
KR20050086761A (ko) 2005-08-30

Similar Documents

Publication Publication Date Title
CN1272911C (zh) 音频信号解码装置及音频信号编码装置
JP7387634B2 (ja) 機械学習に基づく音声符号化及び復号のための知覚に基づく損失関数
CN1185626C (zh) 修改语音信号的系统和方法
CN110265064B (zh) 音频爆音检测方法、装置和存储介质
CN1154975C (zh) 用于声频编码的拉盖尔函数
CN1265217A (zh) 在语音通信系统中语音增强的方法和装置
CN1584984A (zh) 使用瞬时信噪比作为最优估计的主量的降噪方法
JP6371516B2 (ja) 音響信号処理装置および方法
US8687818B2 (en) Method for dynamically adjusting the spectral content of an audio signal
Wu et al. Increasing compactness of deep learning based speech enhancement models with parameter pruning and quantization techniques
EP1782419A1 (en) Scalable audio coding
CN109637509B (zh) 一种音乐自动生成方法、装置及计算机可读存储介质
CN1717576A (zh) 用于将声音帧分离成为正弦分量和残余噪声的方法
CN1258752C (zh) 用于音乐试听的流行歌曲关键段提取方法
KR102198597B1 (ko) 뉴럴 보코더 및 화자 적응형 모델을 구현하기 위한 뉴럴 보코더의 훈련 방법
KR102198598B1 (ko) 합성 음성 신호 생성 방법, 뉴럴 보코더 및 뉴럴 보코더의 훈련 방법
CN1624765A (zh) 使用分段线性逼近的连续值声道共振跟踪方法和装置
JPH07199997A (ja) 音声信号の処理システムにおける音声信号の処理方法およびその処理における処理時間の短縮方法
CN1932974A (zh) 说话者识别设备、说话者识别程序、和说话者识别方法
JP4645869B2 (ja) ディジタル信号処理方法、学習方法及びそれらの装置並びにプログラム格納媒体
CN112164387A (zh) 音频合成方法、装置及电子设备和计算机可读存储介质
JP4538705B2 (ja) ディジタル信号処理方法、学習方法及びそれらの装置並びにプログラム格納媒体
JP2004053891A5 (zh)
CN1708785A (zh) 带宽扩展装置及方法
Aichinger et al. Assessment and psychoacoustic modelling of auditory streams in diplophonic voice

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C02 Deemed withdrawal of patent application after publication (patent law 2001)
WD01 Invention patent application deemed withdrawn after publication