CN1361941A - 频谱建模 - Google Patents
频谱建模 Download PDFInfo
- Publication number
- CN1361941A CN1361941A CN00810468A CN00810468A CN1361941A CN 1361941 A CN1361941 A CN 1361941A CN 00810468 A CN00810468 A CN 00810468A CN 00810468 A CN00810468 A CN 00810468A CN 1361941 A CN1361941 A CN 1361941A
- Authority
- CN
- China
- Prior art keywords
- parameter
- modeling
- draw
- filtering
- spectrum
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000001228 spectrum Methods 0.000 title claims abstract description 83
- 230000004044 response Effects 0.000 claims abstract description 12
- 230000005236 sound signal Effects 0.000 claims description 53
- 238000001914 filtration Methods 0.000 claims description 44
- 238000000034 method Methods 0.000 claims description 41
- 230000011218 segmentation Effects 0.000 claims description 5
- 230000009466 transformation Effects 0.000 claims description 5
- 230000001131 transforming effect Effects 0.000 claims description 4
- 230000006870 function Effects 0.000 description 36
- 241001123248 Arma Species 0.000 description 24
- 230000003595 spectral effect Effects 0.000 description 19
- 230000008569 process Effects 0.000 description 13
- 238000013459 approach Methods 0.000 description 7
- 238000004891 communication Methods 0.000 description 6
- 238000012546 transfer Methods 0.000 description 6
- 230000003044 adaptive effect Effects 0.000 description 4
- 230000001629 suppression Effects 0.000 description 4
- 230000008901 benefit Effects 0.000 description 3
- 238000012804 iterative process Methods 0.000 description 3
- 238000005457 optimization Methods 0.000 description 3
- 238000012856 packing Methods 0.000 description 3
- 230000006978 adaptation Effects 0.000 description 2
- 230000015572 biosynthetic process Effects 0.000 description 2
- 230000000903 blocking effect Effects 0.000 description 2
- 238000006243 chemical reaction Methods 0.000 description 2
- 238000013461 design Methods 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 230000002093 peripheral effect Effects 0.000 description 2
- 238000010183 spectrum analysis Methods 0.000 description 2
- 238000003786 synthesis reaction Methods 0.000 description 2
- 238000004458 analytical method Methods 0.000 description 1
- 238000005311 autocorrelation function Methods 0.000 description 1
- 230000033228 biological regulation Effects 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 239000007795 chemical reaction product Substances 0.000 description 1
- 230000006835 compression Effects 0.000 description 1
- 238000007906 compression Methods 0.000 description 1
- 230000002596 correlated effect Effects 0.000 description 1
- 230000000875 corresponding effect Effects 0.000 description 1
- 230000003247 decreasing effect Effects 0.000 description 1
- 230000007812 deficiency Effects 0.000 description 1
- 230000001419 dependent effect Effects 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000011156 evaluation Methods 0.000 description 1
- 238000009499 grossing Methods 0.000 description 1
- 239000011159 matrix material Substances 0.000 description 1
- 238000005259 measurement Methods 0.000 description 1
- 238000010606 normalization Methods 0.000 description 1
- 238000012545 processing Methods 0.000 description 1
- 238000005070 sampling Methods 0.000 description 1
- 230000001052 transient effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G11—INFORMATION STORAGE
- G11B—INFORMATION STORAGE BASED ON RELATIVE MOVEMENT BETWEEN RECORD CARRIER AND TRANSDUCER
- G11B20/00—Signal processing not specific to the method of recording or reproducing; Circuits therefor
- G11B20/10—Digital recording or reproducing
- G11B20/10009—Improvement or modification of read or write signals
- G11B20/10046—Improvement or modification of read or write signals filtering or equalising, e.g. setting the tap weights of an FIR filter
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/04—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
- G10L19/06—Determination or coding of the spectral characteristics, e.g. of the short-term prediction coefficients
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
-
- G—PHYSICS
- G11—INFORMATION STORAGE
- G11B—INFORMATION STORAGE BASED ON RELATIVE MOVEMENT BETWEEN RECORD CARRIER AND TRANSDUCER
- G11B20/00—Signal processing not specific to the method of recording or reproducing; Circuits therefor
- G11B20/10—Digital recording or reproducing
- G11B20/10009—Improvement or modification of read or write signals
- G11B20/10305—Improvement or modification of read or write signals signal quality assessment
- G11B20/10398—Improvement or modification of read or write signals signal quality assessment jitter, timing deviations or phase and frequency errors
-
- G—PHYSICS
- G11—INFORMATION STORAGE
- G11B—INFORMATION STORAGE BASED ON RELATIVE MOVEMENT BETWEEN RECORD CARRIER AND TRANSDUCER
- G11B20/00—Signal processing not specific to the method of recording or reproducing; Circuits therefor
- G11B20/24—Signal processing not specific to the method of recording or reproducing; Circuits therefor for reducing noise
-
- H—ELECTRICITY
- H03—ELECTRONIC CIRCUITRY
- H03H—IMPEDANCE NETWORKS, e.g. RESONANT CIRCUITS; RESONATORS
- H03H17/00—Networks using digital techniques
- H03H17/02—Frequency selective networks
- H03H17/0248—Filters characterised by a particular frequency response or filtering method
- H03H17/0255—Filters based on statistics
- H03H17/0258—ARMA filters
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/03—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
- G10L25/12—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being prediction coefficients
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/03—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
- G10L25/18—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being spectral information of each sub-band
-
- G—PHYSICS
- G11—INFORMATION STORAGE
- G11B—INFORMATION STORAGE BASED ON RELATIVE MOVEMENT BETWEEN RECORD CARRIER AND TRANSDUCER
- G11B20/00—Signal processing not specific to the method of recording or reproducing; Circuits therefor
- G11B20/00007—Time or data compression or expansion
- G11B2020/00014—Time or data compression or expansion the compressed signal being an audio signal
-
- G—PHYSICS
- G11—INFORMATION STORAGE
- G11B—INFORMATION STORAGE BASED ON RELATIVE MOVEMENT BETWEEN RECORD CARRIER AND TRANSDUCER
- G11B20/00—Signal processing not specific to the method of recording or reproducing; Circuits therefor
- G11B20/10—Digital recording or reproducing
- G11B20/10527—Audio or video recording; Data buffering arrangements
- G11B2020/10537—Audio or video recording
- G11B2020/10546—Audio or video recording specifically adapted for audio data
- G11B2020/10555—Audio or video recording specifically adapted for audio data wherein the frequency, the amplitude, or other characteristics of the audio signal is taken into account
- G11B2020/10583—Audio or video recording specifically adapted for audio data wherein the frequency, the amplitude, or other characteristics of the audio signal is taken into account parameters controlling audio interpolation processes
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Signal Processing (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Computational Linguistics (AREA)
- Quality & Reliability (AREA)
- Spectroscopy & Molecular Physics (AREA)
- Probability & Statistics with Applications (AREA)
- Computer Hardware Design (AREA)
- Mathematical Physics (AREA)
- Compression, Expansion, Code Conversion, And Decoders (AREA)
- Measurement Of Mechanical Vibrations Or Ultrasonic Waves (AREA)
- Signal Processing For Digital Recording And Reproducing (AREA)
- Noise Elimination (AREA)
Abstract
通过确定(21)具有近似于目标频谱(S)的频率响应的滤波器的滤波参量(pi,qi),提供了目标频谱(S)的建模,其中目标频谱被分割成至少第一部分和第二部分,第一建模运行被使用于目标频谱的第一部分上,得出自回归参量,第二建模运行被使用于目标频谱的第二部分上,得出运动平均参量,以及自回归参量和运动平均参量被组合来得出滤波参量。本发明优选地应用于音频编码,其中对信号(A)中的噪声分量(S)的频谱进行建模。
Description
本发明涉及通过确定具有近似于目标频谱的频率响应的滤波器的滤波参量而建立目标频谱的模型。
P.Stoica和R.L.Moses,在“Introduction to spectral analysis(频谱分析导论)”,Prentice Hall,New Jersey,1997,pp.101-108,中公开了用于建立合理的频谱模型的参量方法。通常,运动平均(MA)信号是通过用全零点滤波器滤波白色噪声而得到的。由于这个全零点结构,不可能使用MA方程来建立带有尖的峰值的频谱的模型,除非MA阶数被选择为“足够大”。这与自回归(AR)的能力,或通过使用相当低的模型阶数建立窄带频谱的模型的、全极点的方程,成为对比。MA模型提供对于其特征为宽的峰值和尖的零点的那些频谱的良好的近似。这样的频谱在应用中比起窄带频谱更不经常遇到,因此,使用MA信号模型用于频谱估值在工程上的兴趣,多少是有限的。这种有限的兴趣的另一个原因在于,MA参量估值问题基本上是非线性问题,它的求解方法比起AR参量估值问题难得多。无论如何,MA和ARMA估值问题的困难的类型相当类似。
具有尖的峰值和深的零点的频谱不能通过合理的小的阶数的AR或MA方程来建立模型。正是在这些情形下,其中更一般的ARMA模型,也被称为极点-零点模型,是有价值的。然而,ARMA频谱估值的很大的初始约定减小到某个程度,因为从理论和实践观点看来,对于ARMA参量估值还没有很好地建立的算法。“理论上最佳ARMA估值器”是基于其总的收敛不能保证的迭代程序过程。“实践的ARMA估值器”是计算上简单的以及常常是可靠的,但它们的统计精度在某些情形下可能是差的。现有技术公开了两级的模型,其中首先执行AR估值,然后执行MA估值。两个方法都给出不精确的估值,或在其中ARMA模型描述的极点和零点一起接近于单位圆附近的位置处的情形下需要高的计算工作量。这样的ARMA模型,具有接近于一的、几乎重合的模数的极点和零点,相应于窄带信号。在两个方法中,零点的估值转换为非线性最优化问题。
本发明的一个目的是提供不太复杂的ARMA频谱建模。为此,本发明提供如在独立的权利要求中规定的、用于建立目标频谱的模型的方法和设备,编码音频信号的方法,译码编码的音频信号的方法,音频编码器,音频单放机,音频系统,编码的音频信号,和存储媒体。在所附的权利要求中限定了独到的实施例。
在本发明的第一实施例中,要被建模的频谱被分割成第一部分和第二部分,其中第一部分由第一模型被建模,得到自回归参量,以及第二部分由第二模型被建模,得到运动平均参量。构成的处理过程的组合提供精确的ARMA模型。分割优选地是以迭代处理过程来执行的。在按照本发明的方法中,非线性最优化问题可被省略。
本发明提供适合于实时实施的ARMA模型估值。本发明认识到,AR或MA模型在输送功率谱估值的信息时不总是精确的或非常节俭的。在对数尺度上,用线性预测编码(LPC)方法(全极点建模),函数的峰值常常被很好地建模,但谷底是欠估值的。在全零点模型中出现相反的结果。在音频和语音编码中,这是本发明最想要的应用领域,对数尺度比起线性尺度是更适当的。所以,最好是在对数尺度上很好地适配于功率谱。按照本发明的模型给出在复杂性与精度之间的较好的折衷。在本模型中的误差可以在对数尺度上被评估。
在本发明的优选实施例中,第二建模运行包括对目标频谱的第二部分的倒数使用第一建模运行的步骤。在本实施例中,只需要规定一个建模运行,其中自回归参量是通过频谱的第一部分的建模而得到的,以及运动平均参量是通过由同样的运行(即,第一建模运行)对频谱的第二部分的倒数建模而得到的。虽然不太好,但也有可能使用第二建模运行,它产生第二部分的运动平均参量,以及也有可能通过对频谱的第一部分的倒数使用同样的第二建模运行,而得到自回归参量。
本发明优选地被使用于对音频信号中的噪声分量的参量建模。音频信号可包括声音,通常像音乐,但也可以是语音。除了上述的优点以外,按照本发明的ARMA模型具有另外的优点:对于噪声分量的精确的建模,它比起在全AR或MA建模时的情形下在可比较的精度下需要较少的参量。较少的参量是指较好的压缩。
虽然本发明优选地被使用于音频信号中噪声分量的参量建模,但本发明也可使用于噪声抑制方案,其中噪声频谱的估值从信号中被减去。
在按照Stoica和Moses的现有技术方法中,计算负担在于矩阵求逆。而且,不清楚AR模型的阶数应当被设置为什么数值,除了需要零点高度接近于单位圆。所以,计算复杂性很难接近。在按照本发明的方法中,计算负担在于分割处理过程的迭代性质以及到频域的变换(Stoica和Moses主要在时域上进行计算)。本发明在零点接近于单位圆的情形下,提供更好的结果。而且,到频域的变换开创操作的可能性。例子是根据现有的和测量的数据进行分割的频率。另一个优点是对于频率数据的可应用性。正如下面说明的。为了保证实时ARMA建模,应当应用到频域的快速变换,例如,技术上熟知的、Welch平均周期图方法。
自回归和运动平均参量可以用多项式、多项式的零点(连同增益因子)、反射系数或对数(区域)比值,以不同的方式被表示。在音频编码应用中,自回归和运动平均参量的代表法优选地是以对数(区域)比值。在按照本发明的ARMA建模中确定的自回归和运动平均参量被组合来得出被发送的滤波器参量。
WO 97/28527公开了通过确定背景噪声PSD估值、确定具有噪声的语音参量、从语音参量确定具有噪声的语音PSD估值、从具有噪声的语音PSD估值中减去背景噪声PSD估值、以及从增强的语音PSD估值来估计增强的语音参量,而增强语音参量。增强的参量可被使用于滤波具有噪声的语音,以便抑制噪声,或在语音编码时被直接使用作为语音参量。PSD的估值可通过自回归模型而被得到。应当指出,在本文件中,这样的估值并不是统计上一致的估值,但在语音信号处理中这不是严重的问题。
美国专利5,943,429公开了在基于帧的数字通信系统中的频谱相减噪声抑制方法。方法是通过基于非语音帧的背景噪声的功率谱密度的估值和语音帧的背景噪声的功率谱密度的估值的频谱相减功能被执行的。每个语音帧通过减小自由度的数目的参量模型被近似。每个语音帧的功率谱密度的估值根据近似的参量模型被估值。另外,在这种情形下,参量模型是AR模型。
美国专利4,188,667公开了ARMA滤波器和用于得出对于这样的滤波器的参量的方法。这个方法的第一步骤包括执行任意选择的幅度频谱的离散富立叶逆变换,得出稳定的纯运动平均滤波器模型的截断的系数序列,即,非回归滤波器模型的参量。截断的系数序列,具有N+1项,然后与随机序列进行卷积,得出与随机序列有关的输出。然后,执行时域收敛参量识别,以使得整个误差函数范数最小化,得出具有想要的幅度和相位频率响应的模型的接近最小阶数的自回归和运动平均参量。参量是离线地识别的。本实施例的目的是提供最小的或接近最小的稳定的ARMA滤波器。参量是在分批滤波程序中被确定的。
总之,估值功率谱密度函数不同于表征一个线性系统在于尤其是在这样的特征中,输入和输出信号是可提供和被使用的,而在估值功率谱密度函数时,仅仅功率谱密度函数是可提供的(不是相关的输入信号)。
参照此后描述的实施例将了解和说明本发明的上述的和其它的方面。
在附图上:
图1显示按照本发明的、包括音频编码器的说明性实施例;
图2显示按照本发明的、包括音频单放机的说明性实施例;
图3显示按照本发明的、音频系统的说明性实施例;
图4显示示例性映射函数m;以及
图5显示按照本发明的、噪声抑制装置的实施例。
附图只示出了对于了解本发明必须的那些单元。
本发明优选地应用于其中利用合成的噪声生成的音频和语音编码方案。典型地,音频信号按逐帧的原则被编码。在一帧中的噪声的功率谱密度函数(或是它的可能非均匀采样的版本)被估值,以及找到来自某个类型的滤波器的一组平方幅度响应的函数的最好的近似。在本发明的一个实施例中,使用迭代程序过程来根据用于使AR和MA模型适合于功率谱密度函数的、现有的低复杂性的技术估值ARMA模型。
图1显示按照本发明的、示例的音频编码器2。音频信号A是从音频源1,诸如话筒、存储媒体、网络等得出的。音频信号A被输入到音频编码器2。音频信号A在音频编码器2中逐帧地被参量地建模。编码单元20包括分析单元(AU)200和合成单元(SU)201。AU 200执行音频信号的分析,以及确定在音频信号A中的基本波形。而且,AU 200产生表示基本波形的波形参量或系数Ci。波形参量Ci被提供给SU 201,以便得出重新构建的音频信号,它包含合成的基本波形。这个重新构建的音频信号被提供给减法器21,从原先的音频信号A中被减去。这个剩余的信号S被看作为是音频信号A的噪声分量。在优选的实施例中,编码单元20包括两级:执行瞬时建模的一级,以及在减去建模的瞬时分量以后对音频信号执行正弦建模的另一级。
按照本发明的一个方面,音频信号A中的噪声分量S的功率谱密度函数被ARMA建模,导致自回归参量pi和运动平均参量qi。噪声分量S的频谱在噪声分析器(NA)22中按照本发明被建模,得出滤波器参量(pi,qi)。参量(pi,qi)的估值通过确定在NA 22中具有转移函数H-1的滤波器的滤波参量而被执行,该转移函数使得函数S在滤波(即,H-1(S))后频谱尽可能平坦,即,“使得频谱白化”。在译码器中,重新构建的噪声分量可以通过用具有与在编码器中使用的滤波器相反的转移函数H的滤波器滤除白色噪声而被产生为近似地具有与噪声分量S相同的性质。这个相反的滤波器的滤波运行是由ARMA参量pi和qi确定的。滤波器参量(pi,qi)连同波形参量Ci一起在复接器23中被包括在编码的音频信号A’。音频信号A’在通信信道3上从音频编码器被提供到音频单放机,该通信信道可以是无线连接,数据总线或贮存媒体等等。
按照本发明的、包括音频单放机4的实施例被显示于图2。音频信号A’从通信信道3得出,以及在分接器40中被分接,得出被包括在编码的音频信号A’中的参量(pi,qi)和波形参量Ci。参量(pi,qi)被提供给噪声分析器(NS)41。NS 41主要是具有转移函数H的滤波器。白色噪声信号y被输入到NS 41。NS 41的滤波运行由ARMA参量(pi,qi)被确定。通过用与在编码器2中使用的滤波器(NA)22相反的NS 41滤波白色噪声y,噪声分量S’被产生为近似具有与在原先的音频信号A中的噪声分量S相同的随机性质。噪声分量S’在加法器43中被加到从合成单元(SU)42得到的、其它的重新构建的音频信号,以便得出重新构建的音频信号(A”)。SU 42类似于SU 201。重新构建的音频信号A”被提供到输出端5,它可以是扬声器等等。
图3显示按照本发明的音频系统,包括图1所示的音频编码器2和图2所示的音频单放机4。这样的系统提供重放和记录特性。通信信道3可以是音频系统的一部分,但常常是在音频系统以外。万一通信信道3是贮存媒体,则贮存媒体可被固定在系统中,或是可移动的软盘,存储器棒,磁带等等。
下面,进一步描述S的频谱的建模。假设S是离散时间实时数值信号的功率谱密度函数。而且,S是被定义在间隔I=(-π,π)上的实数函数。S被假设为对称的,具有min(S)>0和max(S)<∞。为了方便起见,假定S的对数平均值等于零,即
扩展到在对数尺度上的平均值不等于零的情形是直接了当的,但可以以各种方式来处理。应当指出,S可以通过适当的内插和归一化从实际测量的功率谱密度函数得出。
令H是按照H=B/A的、具有A=∏i=1 N(1-z-1pi)和B=∏i=1 M(1-z-1qi)的分式转移函数。这里,pi和qi分别是转移函数H的极点和零点。应当指出,|H|2的对数平均值也等于零。
目标函数用H的平方模来近似,即,S≈|H|2。
对于近似的正确性的度量通过下式给出:
这意味着,在最佳解的相邻区域中,准则(2)和(4)实际上是相同的。
众所周知,在H=1/A(即,B=1)的情形下,(4)与前向线性预测(FLP)有关,这是LPC方法的例子。所以,多项式A可以通过计算(或至少近似)与S有关的自相关函数以及求解Wiener-Hopf方程而找到。这样的程序过程的定量结果也是熟知的。以上概述的程序过程将给出对S的峰值的良好的近似(当在对数尺度上被测量或被看出),但通常对S的谷底值提供差的适配值。为了作出以上的结论,标准的程序过程可供使用于从功率谱密度函数估值全极点模型,它通过(2)提供最佳解的近似,以及它在S的峰值建模时基本上是良好的。
应当指出,lnS的峰值和谷底基本上具有相同的特性,除了符号相反以外:峰值是正的振幅,而低谷是负的振幅。因此,取=1/S,全零模型可以通过使用以使得概述的程序过程而被估值。根据这个程序过程的结果,可以预期对S的谷底的良好的适配,但对S的峰值只是差的或至多相当适配。
本发明的目的是提供对于峰值和谷底时S的良好的代表。在本发明的实施例中,提供了ARMA模型,其中全极点模型和全零点模型按以下的方式被组合。S被分割成两个部分,作为S=SA/SB。从SA,估值全极点模型,产生多项式A,以及从SB,估值全零点模型,产生多项式B。组合|H|2=|B|2/|A|2被认为是S的近似式。
按照本发明的优选的方面,S的分割按迭代过程被执行。迭代步骤被称为l。在每个迭代步骤,产生新的分割SA,l和SB,l以及计算Al和Bl。在SA和SB中的S的再划分被使用来开始,此后,没有被精确地建模的SB的部分贡献给SA,反之亦然。在迭代方案的步骤l-1中,Hl-1=Bl-1/Al-1。此后,考虑部分函数SA,l=S/|Bl-1|2和SB,l=1/S|Al-1|2。这样,可以由全极点模型来建模的S的那些部分被排除在提供贡献给SB。同样地,可以由全零点滤波器来建模的S的那些部分被排除在提供贡献给SA。从SA,l和SB,l,估值函数Al和Bl。这样,在以前的迭代中不能被近似地建模的部分被交换。
下一个步骤,优选地,考虑以下的四个可能的组合:
G0=Bl-1/Al-1 G1=Bl-1/Al
G2=Bl/Al-1 G3=Bl/Al
这四个候选滤波器的S的最好的适配被规定为具有最小误差的那个;相关的滤波器是步骤l的最后结果。优选地,Hl(以及从而是Al和Bl)被选择为候选者Gi(i=0,1,2,3)中对于按照下式的对数准则来说最好的一个:由此,程序过程进到步骤l+1,取SA,l+1=S/|Bl|2和SB,l+1=1/S|Al|2。
任何通常的停止过程可被使用,例如,最大数目的迭代,当前的估值的足够的精度,或在从一个步骤进行到另一个步骤时不足的进展。
替换地,稍微不同的程序过程执行AR和MA建模。如果以前的步骤返回分母Bl-1的改进的估值,则SA,l=S/|Bl-1|2以及计算Al。Bl被取作为Bl-1。
如果以前的步骤返回分母Al-1的改进的估值,则SB,l=1/S|Al-1|2以及计算Bl。Al被取作为Al-1。
从Al和Bl,构建Hl,以及估值误差(例如,在对数尺度上的均方差值)。
有许多进行初始化迭代方案的替换例。不作为限制,提及以下的可能性:
首先,通过取SA,0=S和SB,0=1以及SA,0=1和1/SB,0=S,提供初始化的简单的方法。接着,计算A0和B0。从这两个初始的估值,选择最好的适配值(按照某个准则)。这样,第一猜测或者是全极点或全零点。
第二,S可以按照
被分割为相等的部分。
第三,由于SA应当包含峰值以及SB包含谷底,所以最好的分割是把在平均对数电平以上的每个项贡献给SA,0,以及在所述电平以下的任何项贡献给SB,0。这种划分可以按总的对数平均值作出,但也可以按某个本地对数平均值作出。
第四,进一步的分割处理过程考虑到,在对数尺度的功率谱密度函数中,接近于单位圆的极点和零点分别引起显著的峰值和谷底。数据S是在logS中的峰值和谷底分别由全极点和全零点模型更适当地被处理的概念上被分割的。定义:
P=logS
PA=logSA
PB=logSB
考虑变换函数m,m:R→[-1,1]。从对数尺度上的极点和零点的对称性看来,变换函数典型地将是非递减的、点对称的S形函数。然而,也可以使用非对称函数,它具有给予极点或零点建模更大的权重的效果。图4上显示示例的变换函数。
考虑以下的产生分割:
这样,P的正的振幅(峰值)占优势地贡献给PA,因此,它由全极点滤波器建模。P的负的振幅(谷底)是大多数贡献给PB,因此,它由全零点滤波器建模。从PA和PB,构建SA和SB,以及计算下一个A0和B0。
M有两个限制的情形(它类似于上面讨论的第二和第三初始化):
-m=0,则
所提出的频谱建模在建模峰值和谷底是非常合适的,因为,基本上,这些方法构成通过由极点和零点提供的自由度产生的图案。因此,程序过程对于外围事物很敏感:而不是平滑化,这些将在近似式中出现。所以,输入数据S必须是精确的估值(在每个频率样本的标准偏差与平均值的小的比值的意义上)或S必须被预处理(例如,被平滑),以便压缩不想要的外围事物建模。如果模型中自由度的数目相对于作为功率谱密度函数的依据的数据点的数目是相当大的,则这种看法特别被保持。
不知道实际的最佳化步骤A和B依据选择的准则,就不能建立收敛。不能保证,在迭代过程的每个步骤中误差减小。
在许多情形下,希望在对数尺度的频率轴上具有功率谱密度函数的良好的近似。例如,通常的实践是以Bode图的形式视觉地估值频谱的适配的结果。同样地,对于音频和语音应用项,最好的尺度是Bark或等价的矩形带宽(ERB)尺度,它或多或少是对数尺度。按照本发明的方法适合于频率打包建模。频谱密度度量值无论如何可以在任意的频率栅格上被计算。在频率打包接近于一阶全通段的打包的条件下,这可以被重新打包,而同时保持ARMA模型的阶数。
本发明的应用领域包括音频编码,嵌入数据技术,噪声成形和快速滤波器设计。图5上显示本发明的另一个示例性实施例。在图5上,音频信号A以与图1相同的方式从源1被得出。音频信号A在噪声抑制装置6中被处理。噪声抑制装置包括噪声分析器(NA)60和噪声合成器(NS)61。在本实施例中,NA 60直接分析音频信号中的噪声。噪声的频谱是通过按照本发明确定ARMA测量而被建模的。NS 61,主要是滤波器,具有近似于噪声频谱的频率响应。NS 61通过滤波白色噪声y而产生重新构建的噪声,其中NS 61的滤波性质由ARMA参量(pi,qi)确定。在加法器61中,从音频信号(A)中减去重新构建的噪声,得出噪声滤波的音频信号({A})。优选地,噪声频谱在一个或多个(以前的)帧中被建模,它除了噪声外不包含很多信号,例如在语音编码时的无语音的帧。重新构建的噪声可以在包含更多的信号的帧(例如,在语音编码时的语音帧)中被减去。
应当指出,上述的实施例是说明而不是限制本发明,本领域技术人员将能够设计许多替换的实施例而不背离所附权利要求的范围。在权利要求中,在括号内放置的任何标号不打算限制权利要求。词组“包括”并不排除存在除了在权利要求中所列出的以外的其它的单元或步骤。本发明可以通过包括几种不同的单元的硬件,和通过适当地编程的计算机来实施。在列举的几个装置的设备权利要求中,几个这样的装置可以由同一个硬件元件来实施。某些度量是在互相不同的从属权利要求中被阐述的事实,并不表示这些度量的组合不能被用来利用。
总之,通过确定具有近似于目标频谱的频率响应的滤波器的滤波参量,提供了目标频谱的建模,其中目标频谱被分割成至少第一部分和第二部分,第一建模运行被使用于目标频谱的第一部分上,得出自回归参量,第二建模运行被使用于目标频谱的第二部分上,得出运动平均参量,以及自回归参量和运动平均参量被组合来得出滤波参量。本发明优选地应用于音频编码,其中对信号中的噪声分量的频谱进行建模。
说明了用于从功率谱密度数据进行快速ARMA估值的模型。它使用了用于估值多项式的分子和分母的FLP技术,和迭代程序,用来对功率谱密度数据进行最适当的分割,以便把一部分数据贡献给全极点模型和把另一部分数据贡献给全零点模型。
Claims (17)
1.一种通过确定具有近似于目标频谱(S)的频率响应(S’)的滤波器(41)的滤波参量(pi,qi),进行目标频谱(S)建模(2,22)的方法,
其特征在于,方法包括以下步骤:
把目标频谱分割(22)成至少第一部分和第二部分;
使用第一建模运行于目标频谱(S)的第一部分上,得出自回归参量(pi);
使用第二建模运行于目标频谱的第二部分上,得出运动平均参量(qi);以及
把自回归参量(pi)和运动平均参量(qi)相组合,得出滤波参量(pi,qi)。
2.如权利要求1的方法,其中第二建模运行(22)包括以下步骤:
使用第一建模运行于目标频谱的第二部分的倒数上。
3.如权利要求1的方法,其中分割(22)的步骤包括:
进行初始分割为初始的第一部分和初始的第二部分;
使用迭代程序,得出比初始分割更好的分割,直至满足某个停止准则为止。
4.如权利要求3中要求的方法,其中迭代程序包括:
使用第一建模运行于先前的分割的第一部分,得出新的自回归参量;
使用第二建模运行于先前的分割的第二部分,得出新的运动平均参量;以及
把通过第一建模运行而不能精确地建模的先前分割的第一部分的部分重新贡献给先前分割的第二部分,和把通过第二建模运行而不能精确地建模的先前分割的第二部分的部分重新贡献给先前分割的第一部分,得出新的分割。
5.如权利要求4的方法,其中重新贡献的步骤包括:
把先前的分割的第一部分除以基于运动平均参量的目标频谱的估值;以及
把先前的分割的第二部分除以基于自回归参量的目标频谱的估值。
6.如权利要求2的方法,其中初始的第一部分至少包括平均倒数电平以上的、目标频谱的重要的部分以及初始的第二部分至少包括所述电平以下的、目标频谱的重要的部分。
7.如权利要求2的方法,其中初始分割由下式确定:
其中:
P=log(目标频谱)
PA=log(目标频谱的第一部分)
PB=log(目标频谱的第二部分)
以及m是变换函数,m:R→[-1,1]。
8.一个设备(2),包括:
用于确定具有近似于目标频谱的频率响应(S’)的滤波器(41)的滤波参量(pi,qi)的装置(22);
其特征在于,设备还包括:
用于把目标频谱(S)分割成至少第一部分和第二部分的装置(22);
用于使用第一建模运行于目标频谱(S)的第一部分上,得出自回归参量(pi)的装置(22);
用于使用第二建模运行于目标频谱(S)的第二部分上,得出运动平均参量(qi)的装置(22);以及
用于把自回归参量(pi)和运动平均参量(qi)相组合,得出滤波参量(pi,qi)的装置(22)。
9.一种抑制音频信号(A)中的噪声(6)的方法,该方法包括:
通过确定具有近似于噪声频谱的频率响应的滤波器(61)的滤波参量(pi,qi),进行噪声频谱建模(60);
通过用其性质由滤波参量(pi,qi)确定的滤波器(61)来滤波白色噪声(y)而得出(61)重新构建的噪声;以及
从音频信号(A)中减去(62)重新构建的噪声,得出噪声滤除的音频信号({A});
建模(60)的步骤包括:
把频谱分割(60)成至少第一部分和第二部分;
使用(60)第一建模运行于频谱的第一部分上,得出自回归参量(pi);
使用(60)第二建模运行于频谱的第二部分上,得出运动平均参量(qi);以及
把自回归参量(pi)和运动平均参量(qi)相组合(60),得出滤波参量(pi,qi)。
10.一种抑制音频信号(A)中的噪声的设备(6),设备包括:
用于通过确定具有近似于噪声频谱的频率响应的滤波器(61)的滤波参量(pi,qi),进行噪声频谱建模的装置(60);
用于通过用其性质由滤波参量(pi,qi)确定的滤波器(61)来滤波(61)白色噪声(y)而得出重新构建的噪声的装置(61);以及
用于从音频信号(A)中减去(62)重新构建的噪声,得出噪声滤除的音频信号({A})的装置(62);
用于建模(60)的装置包括:
用于把频谱分割成至少第一部分和第二部分的装置(60);
用于使用第一建模运行于频谱的第一部分上,得出自回归参量(pi)的装置(60);
用于使用第二建模运行于频谱的第二部分上,得出运动平均参量(qi)的装置(60);以及
用于把自回归参量(pi)和运动平均参量(qi)相组合,得出滤波参量(pi,qi)的装置(60)。
11.一种编码(2,21)音频信号(A)的方法,包括以下步骤:
确定(200)音频信号(A)中的基本波形;
通过从音频信号(A)中减去基本波形,得出来自音频信号(A)的噪声分量(S);
通过确定具有近似于噪声分量(S)的频谱的频率响应(S’)的滤波器(41)的滤波参量(pi,qi),进行噪声分量(S)的频谱建模(22);以及
把滤波参量(pi,qi)和代表基本波形的波形参量(Ci)包括(23)在编码的音频信号(A’)中;
建模的步骤包括:
把频谱(S)分割(22)成至少第一部分和第二部分;
使用(22)第一建模运行于频谱(S)的第一部分上,得出自回归参量(pi);
使用(22)第二建模运行于频谱(S)的第二部分上,得出运动平均参量(qi);以及
把自回归参量(pi)和运动平均参量(qi)相组合(60),得出滤波参量(pi,qi)。
12.一种译码(4)编码的音频信号(A’)的方法,包括以下步骤:
接收(40)包括代表基本波形的波形参量(Ci)和滤波参量(pi,qi)的编码的音频信号(A’),滤波参量(pi,qi)是按照权利要求11的方法得到的、自回归参量(pi)和运动平均参量(qi)的组合;
滤波(41)白色噪声信号(y),得出重新构建的噪声分量(S’),该滤波是通过滤波参量(pi,qi)被确定的;
根据波形参量(Ci)合成(42)基本波形;以及
把重新构建的噪声分量(S’)加到(43)合成的基本波形,得出译码的音频信号(A”)。
13.一种音频编码器(2),包括:
用于确定音频信号(A)中的基本波形的装置(200);
用于通过从音频信号(A)中减去(21)基本波形,得出来自音频信号(A)的噪声分量(S)的装置(21);
用于通过确定具有近似于噪声分量(S)的频谱的频率响应(S’)的滤波器(41)的滤波参量(pi,qi),进行噪声分量(S)的频谱建模(22)的装置(22);以及
用于把滤波参量(pi,qi)和代表基本波形的波形参量(Ci)包括在编码的音频信号(A’)中的装置(23);
用于建模的装置(22)包括:
用于把频谱(S)分割成至少第一部分和第二部分的装置(22);
用于使用第一建模运行于频谱(S)的第一部分上,得出自回归参量(pi)的装置(22);
用于使用第二建模运行于频谱(S)的第二部分上,得出运动平均参量(qi)的装置(22);以及
用于把自回归参量(pi)和运动平均参量(qi)相组合,得出滤波参量(pi,qi)的装置(22)。
14.一种音频单放机(4),包括:
用于接收包括代表基本波形的波形参量(Ci)和滤波参量(pi,qi)的编码的音频信号(A’)的装置(40),滤波参量(pi,qi)是按照权利要求11的方法得到的、自回归参量(pi)和运动平均参量(qi)的组合;
用于滤波白色噪声信号(y),得出重新构建的噪声分量(S’)的装置(41),该滤波是通过滤波参量(pi,qi)被确定的;
用于根据波形参量(Ci)合成基本波形的装置(42);以及
用于把重新构建的噪声分量(S’)加到合成的基本波形,得出译码的音频信号(A”)的装置(43)。
15.包括如权利要求13中要求的音频编码器(2)和如 14中要求的音频单放机(4)的音频系统。
16.一种编码的音频信号(A’)包括:
代表基本波形的波形参量(Ci);以及
由按照权利要求11的方法得到的、自回归参量(pi)和运动平均参量(qi)的组合代表的噪声分量(S)。
17.一种存储媒体(3),其上存储如权利要求16中要求的编码的音频信号(A’)。
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
PCT/EP2000/004599 WO2001089086A1 (en) | 2000-05-17 | 2000-05-17 | Spectrum modeling |
Publications (2)
Publication Number | Publication Date |
---|---|
CN1361941A true CN1361941A (zh) | 2002-07-31 |
CN1223087C CN1223087C (zh) | 2005-10-12 |
Family
ID=8163950
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CNB008104689A Expired - Fee Related CN1223087C (zh) | 2000-05-17 | 2000-05-17 | 频谱建模 |
Country Status (8)
Country | Link |
---|---|
US (1) | US20060129389A1 (zh) |
EP (1) | EP1216504A1 (zh) |
JP (1) | JP2003533753A (zh) |
KR (1) | KR100701452B1 (zh) |
CN (1) | CN1223087C (zh) |
BR (1) | BR0012519A (zh) |
TR (1) | TR200200103T1 (zh) |
WO (1) | WO2001089086A1 (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103918028A (zh) * | 2011-11-02 | 2014-07-09 | 瑞典爱立信有限公司 | 基于自回归系数的有效表示的音频编码/解码 |
Families Citing this family (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
EP1523863A1 (en) | 2002-07-16 | 2005-04-20 | Koninklijke Philips Electronics N.V. | Audio coding |
WO2005036529A1 (en) | 2003-10-13 | 2005-04-21 | Koninklijke Philips Electronics N.V. | Audio encoding |
KR100703265B1 (ko) * | 2004-05-12 | 2007-04-03 | 삼성전자주식회사 | 멀티캐리어 변조 방식의 통신 시스템에서 피크-대-평균전력비를 감소시키는 송신기 및 수신기와 적응적피크-대-평균 전력비 제어 방법 |
GB0704622D0 (en) * | 2007-03-09 | 2007-04-18 | Skype Ltd | Speech coding system and method |
JP4735711B2 (ja) * | 2008-12-17 | 2011-07-27 | ソニー株式会社 | 情報符号化装置 |
JP5884338B2 (ja) * | 2011-08-26 | 2016-03-15 | ヤマハ株式会社 | 信号処理装置 |
CN102620807A (zh) * | 2012-03-22 | 2012-08-01 | 内蒙古科技大学 | 风力发电机状态监测系统及方法 |
CN102750956B (zh) * | 2012-06-18 | 2014-07-16 | 歌尔声学股份有限公司 | 一种单通道语音去混响的方法和装置 |
US9159336B1 (en) * | 2013-01-21 | 2015-10-13 | Rawles Llc | Cross-domain filtering for audio noise reduction |
CN108226636B (zh) * | 2016-12-15 | 2021-06-11 | 欧姆龙株式会社 | 自动滤波方法和装置 |
CN106762472B (zh) * | 2017-01-03 | 2019-02-22 | 国网福建省电力有限公司 | 一种基于时变增强虚拟现实技术风电机组检修系统 |
US10481831B2 (en) * | 2017-10-02 | 2019-11-19 | Nuance Communications, Inc. | System and method for combined non-linear and late echo suppression |
-
2000
- 2000-05-17 JP JP2001585399A patent/JP2003533753A/ja not_active Withdrawn
- 2000-05-17 WO PCT/EP2000/004599 patent/WO2001089086A1/en not_active Application Discontinuation
- 2000-05-17 EP EP00938664A patent/EP1216504A1/en not_active Withdrawn
- 2000-05-17 CN CNB008104689A patent/CN1223087C/zh not_active Expired - Fee Related
- 2000-05-17 KR KR1020027000641A patent/KR100701452B1/ko not_active IP Right Cessation
- 2000-05-17 TR TR2002/00103T patent/TR200200103T1/xx unknown
- 2000-05-17 BR BR0012519-9A patent/BR0012519A/pt not_active IP Right Cessation
-
2006
- 2006-02-02 US US11/345,993 patent/US20060129389A1/en not_active Abandoned
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103918028A (zh) * | 2011-11-02 | 2014-07-09 | 瑞典爱立信有限公司 | 基于自回归系数的有效表示的音频编码/解码 |
Also Published As
Publication number | Publication date |
---|---|
BR0012519A (pt) | 2002-04-02 |
US20060129389A1 (en) | 2006-06-15 |
JP2003533753A (ja) | 2003-11-11 |
CN1223087C (zh) | 2005-10-12 |
WO2001089086A1 (en) | 2001-11-22 |
KR100701452B1 (ko) | 2007-03-29 |
EP1216504A1 (en) | 2002-06-26 |
TR200200103T1 (tr) | 2002-06-21 |
KR20020015377A (ko) | 2002-02-27 |
WO2001089086A8 (en) | 2002-05-30 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US11895477B2 (en) | Methods and apparatus for compressing and decompressing a higher order ambisonics representation | |
US8412526B2 (en) | Restoration of high-order Mel frequency cepstral coefficients | |
EP3996090A1 (en) | Method and apparatus for decompressing a higher order ambi-sonics representation for a sound field | |
CN1223087C (zh) | 频谱建模 | |
RU2337414C2 (ru) | Устройство и способ определения оценочного значения | |
US7921007B2 (en) | Scalable audio coding | |
EP2374123A1 (fr) | Codage perfectionne de signaux audionumeriques multicanaux | |
US6223151B1 (en) | Method and apparatus for pre-processing speech signals prior to coding by transform-based speech coders | |
WO2005041169A2 (en) | Method and system for speech coding | |
US7305339B2 (en) | Restoration of high-order Mel Frequency Cepstral Coefficients | |
US20090063158A1 (en) | Efficient audio coding using signal properties | |
JP2008519308A5 (zh) | ||
CN111899748B (zh) | 基于神经网络的音频编码方法及装置、编码器 | |
KR20140000260A (ko) | 왜곡 스펙트럼 및 정밀 추정 오디오 인코딩 | |
US20030149559A1 (en) | Audio coding and transcoding using perceptual distortion templates | |
CN100343895C (zh) | 音频编码方法和装置,音频解码方法和装置 | |
CN107919136B (zh) | 一种基于高斯混合模型的数字语音采样频率估计方法 | |
US20020184018A1 (en) | Digital signal processing method, learning method,apparatuses for them ,and program storage medium | |
JP2011009860A (ja) | 符号化方法、復号方法、符号化器、復号器、プログラム | |
CN1179325C (zh) | 音频编码 | |
JP2002049384A (ja) | ディジタル信号処理方法及びディジタル信号処理装置並びにプログラム格納媒体 | |
CN1245326A (zh) | 声频信号特征波形的合成方法 | |
CN114556470A (zh) | 利用生成模型对音频信号进行波形编码的方法和系统 | |
JPH0990998A (ja) | 音響信号変換復号化方法 | |
Haddad et al. | Speech coding using the matrix pencil. |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
C14 | Grant of patent or utility model | ||
GR01 | Patent grant | ||
C19 | Lapse of patent right due to non-payment of the annual fee | ||
CF01 | Termination of patent right due to non-payment of annual fee |