CN101460998A - 音频信号的线性预测编码 - Google Patents

音频信号的线性预测编码 Download PDF

Info

Publication number
CN101460998A
CN101460998A CNA2007800203451A CN200780020345A CN101460998A CN 101460998 A CN101460998 A CN 101460998A CN A2007800203451 A CNA2007800203451 A CN A2007800203451A CN 200780020345 A CN200780020345 A CN 200780020345A CN 101460998 A CN101460998 A CN 101460998A
Authority
CN
China
Prior art keywords
autocorrelation sequence
signal
linear
response
autocorrelation
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CNA2007800203451A
Other languages
English (en)
Inventor
A·C·登布林克
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Koninklijke Philips NV
Original Assignee
Koninklijke Philips Electronics NV
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Koninklijke Philips Electronics NV filed Critical Koninklijke Philips Electronics NV
Publication of CN101460998A publication Critical patent/CN101460998A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/06Determination or coding of the spectral characteristics, e.g. of the short-term prediction coefficients
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L21/0264Noise filtering characterised by the type of parameter measurement, e.g. correlation techniques, zero crossing techniques or predictive techniques

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)
  • Transmission Systems Not Characterized By The Medium Used For Transmission (AREA)

Abstract

一种用于音频信号的线性预测编码的设备包括为该音频信号产生信号段的分割处理器(201)。自相关处理器(401)为每个信号段产生第一自相关序列,修改处理器(403)通过响应于至少一个心理声学特性而修改第一自相关序列来为每个信号段产生第二自相关序列。预测系数处理器(405)响应于第二自相关序列而为每个信号段确定线性预测编码系数。本发明允许实现低复杂度的线性编码,其考虑了心理声学因素,从而针对给定的数据率允许获得改进的感知编码质量。

Description

音频信号的线性预测编码
技术领域
本发明涉及音频信号的线性预测编码。
背景技术
各种源信号的数字编码在过去几十年来已经变得越来越重要了,因为数字信号的表示和通信已经逐渐替换了模拟的表示和通信。例如,诸如全球移动通信系统之类的移动电话系统基于数字语音编码。此外,诸如视频和音乐之类的媒体内容的分发也更多地基于数字内容编码。
在内容编码中以及特别地在音频和语音编码中,线性预测编码是一种经常采用的工具,因为它针对低数据率提供了高质量。线性预测编码过去主要应用于单独的信号,但是也可以用于多通道信号,例如立体音频信号。
线性预测编码通过降低信号中的冗余并且在预测参数中捕获这些冗余来实现有效的数据率。这些预测参数包含在编码的信号中,并且所述冗余在解码器中通过线性预测合成滤波器来复原。
此外,线性预测还作为预处理工具而提出,以用于包括非语音编码应用的音频编码。特别地,根据建议,最佳的线性预测方案应当反映心理声学知识以便更精确地反映听众的感知。特别地,已经提出了卷曲(warped)线性预测(WLP)和纯线性预测(PLP)技术。两种技术都包括依照心理声学对频率尺度进行卷曲,从而使得建模能力集中在最关键的频带处。特别地,WLP和PLP允许以类似于基底膜上的带宽分布的方式着重于较低的频率。这也意味着在WLP和PLP中谱峰加宽可以在心理声学相关尺度上有效地实现。
此外,根据建议,预测系数可以从像响度谱或掩蔽阈值(或掩蔽误差功率)那样的感知激发的频谱中导出。因此,在所提出的系统中,将待编码的信号馈送到心理声学模型中,所述心理声学模型为特定信号段产生反映感兴趣的心理声学量的频谱(例如掩蔽阈值)。这个频谱然后用于为所述线性预测滤波器产生预测系数。
然而,尽管该方法允许将线性预测用于考虑了心理声学掩蔽效应的音频编码,但是它也具有许多缺点。特别地,该方法要求为每个信号段执行心理声学模型,这是复杂且计算昂贵的。此外,该方法倾向于不灵活,并且特别地要求预测滤波器是卷曲的或拉盖尔(Laguerre)滤波器以便工作于心理声学相关频率尺度上。
因此,改进的线性预测编码将是有利的,特别地,允许灵活性增加、复杂度降低、实现方式易化、编码质量和/或性能提高的方法将是有利的。
发明内容
相应地,本发明寻求优选地单独或以任意组合缓解、减轻或消除上述缺点中的一个或多个。
依照本发明的一个方面,提供了用于音频信号的线性预测编码的设备,该设备包括:用于为该音频信号产生信号段的装置;用于为每个信号段产生第一自相关序列的装置;用于通过响应于至少一个心理声学特性而修改第一自相关序列来为每个信号段产生第二自相关序列的修改装置;以及用于响应于第二自相关序列而为每个信号段确定线性预测编码系数的确定装置。
本发明允许实现改进的线性预测编码,其反映了听众的感知,从而针对给定编码率提供了改进的编码质量。本发明可以允许获得降低的复杂度、降低的计算资源要求和/或易化的实现方式。此外,本发明还可以允许将心理声学因素与各种不同的线性预测编码方法一起使用。
特别地,本发明可以允许计算根据第一自相关序列确定的心理声学加权自相关序列。该计算可能复杂度较低,但是提供了对于心理声学性质的有效适应。
所述设备此外还可以包括用于产生包含线性预测编码系数的编码数据流的装置。该设备还可以包括用于将编码的数据流例如作为数据文件来发送的装置。此外,该设备还可以包括采用线性预测编码系数的线性预测滤波器以及用于产生误差信号的装置。该设备还可以包括用于编码误差信号并且用于将其包含于编码的数据流中的装置。
依照本发明的一个可选特征,修改装置被设置成执行对第一自相关序列的加窗。
这可以允许获得改进的性能、更高的质量、降低的复杂度和/或易化的实现方式。特别地,所述加窗可以允许实现与心理声学知识一致的频谱扩展。所述加窗可以通过将第一自相关序列与时域窗序列相乘来实现。
依照本发明的一个可选特征,所述加窗相应于与巴克(Bark)带宽相应的心理声学带宽。
这可以允许获得改进的性能和/或更高的质量。
依照本发明的一个可选特征,所述加窗相应于与等效矩形带宽(ERB)相应的心理声学带宽。
这可以允许获得改进的性能和/或更高的质量。
依照本发明的一个可选特征,修改装置被设置成通过最小值自相关序列来界定第二自相关序列。
这可以允许获得改进的性能、更高的质量、降低的复杂度和/或易化的实现方式。特别地,该特征可以允许获得一种以低信号量提供改进质量的线性预测编码的低复杂度方式。
依照本发明的一个可选特征,修改装置被设置成将第二自相关序列确定为至少第一项与第二项之和,所述第一项与最小值自相关序列相应,所述第二项响应于第一自相关序列而被确定。
这可以允许获得改进的性能、更高的质量、降低的复杂度和/或易化的实现方式。
依照本发明的一个可选特征,修改装置被设置成按照缩放因子缩放第一项和第二项中的至少一个,所述缩放因子与第一项相对于第二项的心理声学显著性相应。
这可以允许获得改进的性能、更高的质量、降低的复杂度和/或易化的实现方式。特别地,所述缩放因子允许获得一种加权所述不同心理声学效应的低复杂度方式。
依照本发明的一个可选特征,最小值自相关序列与安静阈值(threshold-in-quiet)曲线相应。
这可以允许获得改进的性能、更高的质量、降低的复杂度和/或易化的实现方式。
依照本发明的一个可选特征,线性预测编码为拉盖尔线性预测编码,并且所述确定装置被设置成响应于第二自相关序列而确定音频信号和该音频信号的拉盖尔滤波版本之间的协方差序列。
这可以允许获得拉盖尔线性预测编码的改进的性能、更高的质量、降低的复杂度和/或易化的实现方式。
依照本发明的一个可选特征,第一自相关序列是卷曲自相关序列。
这可以允许获得改进的性能、更高的质量、降低的复杂度和/或易化的实现方式。所述线性预测编码可以是卷曲线性预测编码。
依照本发明的一个可选特征,第一自相关序列是滤波的卷曲自相关序列。
这可以允许获得改进的性能、更高的质量、降低的复杂度和/或易化的实现方式。所述线性预测编码可以是拉盖尔线性预测编码。
依照本发明的一个可选特征,所述确定装置被设置成通过最小化与采用线性预测编码系数的线性预测滤波器的输入信号关联的误差信号的信号功率度量来确定这些线性预测系数,所述输入信号由第二自相关序列表征。
这可以允许获得改进的性能、更高的质量、降低的复杂度和/或易化的实现方式。所述输入信号可以是具有与第二自相关序列相应的自相关序列的输入信号,并且所述误差信号可以确定为线性预测分析滤波器的输出。
依照本发明的一个可选特征,所述确定装置被设置成通过求解下式给出的线性方程来确定线性预测系数:
Q·α=P
式中,Q为包含响应于第二自相关序列而确定的系数的矩阵,P为包含响应于第二自相关序列而确定的系数的矢量,α为包含所述线性预测系数的矢量。
这可以允许获得改进的性能、更高的质量、降低的复杂度和/或易化的实现方式。
依照本发明的一个可选特征,所述修改装置被设置成基本上依照下式来确定第二自相关序列:
r(k)=t(k)+βr(k)w(k)
式中,r(k)为第二自相关序列,β为缩放因子,w(k)为加窗序列,t(k)为安静阈值自相关序列。
这可以允许获得改进的性能、更高的质量、降低的复杂度和/或易化的实现方式。
依照本发明的另一个方面,提供了用于编码音频信号的线性预测编码器,该编码器包括:用于为该音频信号产生信号段的装置;用于为每个信号段产生第一自相关序列的装置;用于通过响应于至少一个心理声学特性而修改第一自相关序列来为每个信号段产生第二自相关序列的修改装置;以及用于响应于第二自相关序列而为每个信号段确定线性预测编码系数的确定装置。
依照本发明的另一个方面,提供了包括如上所述的编码器的音频记录设备。
依照本发明的另一个方面,提供了用于发送音频信号的发送器,该发送器包括:用于接收该音频信号的装置;用于为该音频信号产生信号段的装置;用于为每个信号段产生第一自相关序列的装置;用于通过响应于至少一个心理声学特性而修改第一自相关序列来为每个信号段产生第二自相关序列的修改装置;用于响应于第二自相关序列而为每个信号段确定线性预测编码系数的线性预测编码装置;用于为该音频信号产生编码的数据的装置,所述编码的数据包含所述线性预测编码系数;以及用于发送该编码的数据的装置。
依照本发明的另一个方面,提供了用于传输音频信号的传输系统,该传输系统包括:发送器,该发送器包括用于接收该音频信号的装置,用于为该音频信号产生信号段的装置,用于为每个信号段产生第一自相关序列的装置,用于通过响应于至少一个心理声学特性而修改第一自相关序列来为每个信号段产生第二自相关序列的修改装置,用于响应于第二自相关序列而为每个信号段确定线性预测编码系数的线性预测编码装置,用于为该音频信号产生编码的数据的装置,所述编码的数据包含所述线性预测编码系数,以及用于向接收器发送该编码的数据的装置;以及接收器,该接收器包括用于接收所述编码的数据的装置,用于产生解码的信号的线性预测滤波器,以及用于响应于所述编码的数据的线性预测编码系数而设置线性预测合成滤波器的系数的装置。
依照本发明的另一个方面,提供了音频信号的线性预测编码方法,该方法包括:为该音频信号产生信号段;为每个信号段产生第一自相关序列;通过响应于至少一个心理声学特性而修改第一自相关序列来为每个信号段产生第二自相关序列;以及响应于第二自相关序列而为每个信号段确定线性预测编码系数。
依照本发明的另一个方面,提供了发送音频信号的方法,该方法包括:接收该音频信号;为该音频信号产生信号段;为每个信号段产生第一自相关序列;通过响应于至少一个心理声学特性而修改第一自相关序列来为每个信号段产生第二自相关序列;响应于第二自相关序列而为每个信号段确定线性预测编码系数;为该音频信号产生编码的数据,所述编码的数据包含所述线性预测编码系数;以及发送该编码的数据。
依照本发明的另一个方面,提供了发送和接收音频信号的方法,该方法包括:发送器执行步骤:接收该音频信号,为该音频信号产生信号段,为每个信号段产生第一自相关序列,通过响应于至少一个心理声学特性而修改第一自相关序列来为每个信号段产生第二自相关序列,响应于第二自相关序列而为每个信号段确定线性预测编码系数,为该音频信号产生编码的数据,所述编码的数据包含所述线性预测编码系数,以及向接收器发送该编码的数据;以及接收器执行步骤:接收所述编码的数据,使用线性预测滤波器产生解码的信号,以及响应于所述编码的数据的线性预测编码系数而设置线性预测合成滤波器的系数。
本发明的这些和其他方面、特征和优点根据以下描述的实施例将是清楚明白的,并且将参照这些实施例来进行阐述。
附图说明
现在将仅通过举例的方式参照附图来描述本发明的实施例,在附图中:
图1示出了依照本发明一些实施例的用于音频信号通信的传输系统;
图2示出了依照本发明一些实施例的线性预测编码器;
图3示出了线性预测解码器;
图4示出了依照本发明一些实施例的线性预测编码器的元件;以及
图5示出了依照本发明一些实施例的音频信号线性预测编码方法。
具体实施方式
图1示出了依照本发明一些实施例的用于音频信号通信的传输系统100。传输系统100包括通过网络105耦合到接收器103的发送器101,所述网络105特别地可以为因特网。
在这个特定的实例中,发送器101为信号记录设备,并且接收器为信号播放设备103,但是应当理解的是,在其他实施例中,发送器和接收器可以用于其他应用中以及用于其他目的。例如,发送器101和/或接收器103可以是译码功能的一部分,并且可以例如提供到其他信号源或目的地的接口。
在其中支持信号记录功能的这个特定的实例中,发送器101包括接收模拟信号的数字化器107,所述模拟信号通过采样和模数转换被转换成数字PCM信号。
数字化器107耦合到图1的线性预测(LP)编码器109,该线性预测编码器109依照线性预测编码算法对该PCM信号进行编码。LP编码器109耦合到接收编码的信号并且通过接口连接到因特网105的网络发送器111。该网络发送器可以通过因特网105向接收器103发送所述编码的信号。
图2更加详细地示出了该LP编码器109。
编码器109接收数字化的(采样的)音频信号。为了清楚且简洁起见,假设输入信号仅仅包含实值,但是应当理解的是,在一些实施例中所述值可以为复数。
所述编码器包括分段处理器201,其将接收的信号分割成单独的段帧。特别地,将输入信号分割成若干例如相应于20毫秒间隔的给定尺寸的样本块。然后,所述编码器接着为每个单独的帧产生预测数据和残余信号。
特别地,这些段被馈送到预测控制器203,该预测控制器为预测滤波器确定要在编码和解码过程期间应用的参数。特别地,预测控制器203为结合了线性预测分析(LPA)滤波器的线性预测分析器205确定滤波器系数。
线性预测分析器205此外还接收输入信号样本并且确定预测值和实际输入样本之间的误差信号。
这些误差信号被馈送到编码单元207,该编码单元207编码和量化所述误差信号并且产生相应的比特流。
编码单元207和预测控制器203耦合到将由所述编码器产生的数据组合成组合的编码信号的复用器209。
接收器103包括网络接收器113,该网络接收器113通过接口连接到因特网105并且被设置成接收来自发送器101的编码的信号。
网络接收器111耦合到线性预测(LP)解码器115。LP解码器115接收所述编码的信号并且依照线性预测解码算法对它进行解码。
图3更加详细地示出了LP解码器115。LP解码器115包括解复用器301,该解复用器将线性预测系数和编码的误差信号样本从接收的比特流中分离出来。这些误差信号样本被馈送到重新产生误差信号的解码处理器303。解复用器301和解码处理器303耦合到包含线性预测合成(LPS)滤波器的线性预测合成器(305)。将该LPS滤波器的系数设置成接收的系数值,并且向该滤波器馈送重新产生的误差信号,从而(基本上)重新创建原始的音频信号。
在其中支持信号播放功能的这个特定的实例中,接收器103还包括信号播放器117,该信号播放器从解码器115处接收解码的音频信号并且将其呈现给用户。特别地,信号播放器113可以包括输出解码的音频信号所需的数模转换器、放大器和扬声器。
不同的线性预测编码算法可以用于图1的系统中。特别地,可以采用标准的线性预测、卷曲线性预测或拉盖尔线性预测编码技术。所述LPA滤波器的传递函数H(z)为
H ( z ) = 1 - Σ k = 1 K α k G k ( z )
其中在这些实例中,Gk(z)如下给定:
标准线性预测:
Gk(z)=z-k
并且因此 H ( z ) = 1 - Σ k = 1 K α k z - k
卷曲线性预测(WLP):
G k ( z ) = ( - λ + z - 1 1 - λz - 1 ) k
并且因此
H ( z ) = 1 - Σ k = 1 K α k ( - λ + z - 1 1 - λz - 1 ) k
基于拉盖尔的线性预测:
G k ( z ) = z - 1 1 - λ 2 1 - λz - 1 ( - λ + z - 1 1 - λz - 1 ) k - 1
并且因此
H ( z ) = 1 - z - 1 1 - λ 2 1 - λz - 1 Σ k = 1 K α k ( - λ + z - 1 1 - λz - 1 ) k - 1
参数λ称为卷曲或拉盖尔参数,允许依照不同频率的心理声学相关性来对频率尺度进行卷曲。K称为预测滤波器的阶。所述LPS滤波器具有的传递函数是LPA滤波器的传递函数的倒数,即1/H(z)。在该滤波器内,部分传递Gk(z)通过Yk(z)=Gk(z)X(z)给出的z变换耦合到信号yk,其中X(z)是输入信号x的z变换。
在所述系统中,LPA滤波器因此设法根据在先的样本估计当前的样本值。特别地,记输入样本为x,那么用于简单的标准线性预测的LPA滤波器内部产生样本:
x ^ ( n ) = Σ k = 1 K α k x ( n - k )
式中,αk为预测系数。LPA滤波器的输出为该估计产生的误差样本e(n),并且等于
e ( n ) = x ( n ) - x ^ ( n )
式中,x(n)为输入信号样本值。
预测控制器203确定预测系数αk,以便对于给定的信号段而言,最小化针对误差信号e(n)的信号功率度量。
特别地,预测控制器203被设置成确定预测系数αk,以便最小化所述段中的样本的最小均方误差被最小化。本领域技术人员应当理解,所述最小值可以通过确定误差信号度量函数(特别地为最小均方误差)并且将预测系数αk的偏导数置为零来找到。本领域技术人员还应当理解的是,这导致下式表示的K个线性方程:
Q·α=P
式中,Q为K×K矩阵,其包含与来自所述信号的自相关序列的自相关值相应的系数,P为K元素矢量,其包含来自所述信号的自相关序列的自相关值,α为包含线性预测系数的矢量。
特别地,Q可以由下式给出:
Figure A200780020345D00144
并且P可以如下给出:
P = r ( 1 ) r ( 2 ) r ( 3 ) · · · r ( K )
式中,r(k)为适当的自相关序列。
在常规的标准线性预测中,r(k)表示输入信号的自相关序列,其可以根据输入信号直接地测量出来。在常规的卷曲线性预测中,序列r(k)表示所谓的卷曲自相关序列,其也可以根据输入信号来确定。
为了包括心理声学因素,已经提出了为输入信号确定像掩蔽阈值那样的感知激发的频谱,并且在Q和P中使用与该频谱关联的自相关来确定线性预测系数。然而,这是极端复杂的,因为它要求为每段计算心理声学模型并且将该心理声学模型产生的频谱变换成关联的自相关序列。
在图1的系统中,预测控制器203确定心理声学加权自相关序列并且使用该序列来确定线性预测系数。心理声学加权自相关序列是通过直接而非常简单的运算从所述信号的自相关序列确定的。因此,图2的LP编码器允许使用心理声学因素来改进线性预测编码,同时维持低复杂度和计算资源要求,特别地不必为每个段计算心理声学模型。
图4更加详细地示出了预测控制器203。
预测控制器203包括根据接收的输入信号确定自相关序列r′(k)的自相关处理器401。新的自相关序列针对信号的每个段来确定。
自相关处理器401耦合到根据信号的自相关序列r′(k)确定心理声学加权自相关序列
Figure A200780020345D00152
的修改处理器403。
然后,将所述心理声学加权自相关序列发送到为LPA(以及LPS)滤波器确定预测系数的预测系数处理器405。在标准线性预测的实例中,预测系数处理器405使用输入信号的心理声学加权自相关序列求解线性方程:
Q·α=P
这样,在这个实例中, r ( k ) = r ~ ( k ) 。应当理解,可以使用任何用于求解这些方程的适当算法,例如本领域技术人员众所周知的莱文森(Levinson)递归算法。
应当理解,可以使用任何用于心理声学加权所述自相关序列的适当运算或函数。
特别地,可以在每个信号段中将加窗运算应用到自相关序列。例如,输入信号的自相关序列可以通过与预定窗口w(k)的时域乘法来修改。时域中的这个乘法将相应于频域中的卷积,从而提供了可以反映人的声觉的频谱扩展。
特别地,可能有利的是,将自相关序列与具有反映心理声学相关距离的频谱带宽的窗函数相乘,特别是可以将该窗口选择成在某个特定频率下具有巴克或等效矩形带宽(ERB)频带的带宽。特别地,这可以允许实现反映心理声学特性的频谱成形。
此外或者可替换地,修改处理器403可以对心理声学加权自相关序列的值施加下限。例如,可以确定与较低信号幅度下的人类感知相应的自相关序列。这种特性一般称为安静阈值曲线。于是,安静阈值曲线相应于被认为可由用户察觉的最小信号水平。可以确定相应于该安静阈值曲线的自相关序列,并且将其用作心理声学加权自相关序列的最小值。
例如,在对信号的自相关序列执行加窗运算之后,可以将每个得到的样本与相应于安静阈值的序列进行比较,如果任何确定的值低于安静阈值的相应值,那么就改为使用该安静阈值。举另一个实例而言,可以在确定心理声学加权自相关序列时将安静阈值自相关序列作为一项添加进来。
通过最小值自相关序列来界定心理声学加权自相关序列确保了得到的自相关序列更密切地与根据心理声学模型导出的自相关序列相应,并且尤其是对于低幅度水平的输入信号而言,实现了编码增益的提高。
举一个特定的实例而言,修改处理器403可以将心理声学加权自相关序列基本上确定为:
r ~ ( k ) = t ( k ) + βr ′ ( k ) w ( k )
式中,
Figure A200780020345D00162
为心理声学加权自相关序列,β为缩放因子,w(k)为加窗序列,t(k)为特别地可以是安静阈值自相关序列的最小值自相关序列。
在这个实例中,缩放因子β为允许对所述加窗和安静阈值自相关序列的相对影响进行调节的设计参数。
这种方法特别地可以基于以下认识:高能量强度下的掩蔽曲线按照一阶近似在形状上是与水平无关的。因此,在高强度水平下,当使用适当的线性预测系统(例如WLP或PLP)并且使用适当的频谱平滑时,线性预测应当能够给出对于掩蔽曲线形状的相当良好的近似。此外,在低强度水平下,安静阈值是掩蔽曲线的重要部分。
用于确定线性预测系数的自相关序列的心理声学加权允许实现大为改进的线性预测,其能够更加精确地反映出编码的信号如何被用户所感知。此外,该方法要求非常少且简单的运算,并且能够易于实现,而没有任何明显的复杂度或计算资源的增加。
以额外的计算复杂度为代价,可以结合许多精心的改进。例如,可以对自相关序列进行滤波以便强调特定频率区域;可以使得因子β与输入水平有关,等等。
上面的实例着重于使用标准线性预测的实例。然而,应当理解,所描述的原理同样很好地适用于其他以及更复杂的线性预测,例如卷曲线性预测和拉盖尔线性预测。
特别地,对于卷曲线性预测而言,自相关序列将是卷曲自相关序列。因此,初始时自相关处理器401可以确定该卷曲自相关序列,然后,可以如上所述处理该卷曲自相关序列以便产生卷曲的心理声学加权自相关序列。该卷曲自相关序列定义为
r ( 0 ) = Σ n x ( n ) x ( n )
并且
r ( k ) = Σ n x ( n ) y k ( n )
其中k=1,...,K,并且yk为输入信号x的卷曲线性预测器中的滤波器Gk(z)的响应。然后,使用该序列来确定线性预测系数。特别地,应当理解,所执行的卷曲相当于通过一系列全通滤波器对到来的信号进行滤波,并且卷曲自相关序列被确定为这些全通滤波器的输出的协方差。
在拉盖尔线性预测的情况下,序列r(k)如下给出
r ( k ) = Σ n y 1 ( n ) y k ( n )
k=1,...,K-1,yk为输入信号x的拉盖尔线性预测器中的滤波器Gk(z)的响应。将卷曲线性预测器的Gk和拉盖尔线性预测器的Gk进行比较可知,拉盖尔情况下的r(k)可以认为是x的滤波版本的卷曲自相关序列,其中滤波器G0(z)由下式给出
G 0 ( z ) = z - 1 1 - λ 2 1 - λz - 1
对于拉盖尔线性预测而言,Q因此变成特普利茨(Toeplitz)矩阵,其包括拉盖尔滤波信号的心理声学加权自相关的值。然而,P和Q之间的关系稍微更复杂一些,因为P包含若干值,这些值是输入信号以及音频信号的拉盖尔滤波版本的协方差序列的值。因此,
P = p ( 1 ) p ( 2 ) p ( 3 ) · · · p ( K )
式中
p ( k ) = Σ n x ( n ) y k ( n )
k=1,...,K,yk为输入信号x的拉盖尔线性预测器中的滤波器Gk(z)的响应。
对于k>1,Q和P的值之间的关系由下式给出:
r(k)=C2p(k)+C1p(k+1)
式中
C 1 = λ 1 - λ 2
并且
C 2 = 1 1 - λ 2
其中λ为拉盖尔参数。此外:
r(0)=p(0)+2C1p(1)
式中,p(0)相应于输入信号的能量:
p ( 0 ) = Σ n x ( n ) x ( n ) .
特别地,对于拉盖尔线性预测而言,预测控制器203能够执行以下步骤。
初始时,确定序列p(k),k=0...K。
将p(K+1)设为零。
使用上面的方程根据p(k)确定第一自相关r’(k)。
根据下式确定心理声学加权自相关
Figure A200780020345D0018084754QIETU
r ~ ( k ) = t ( k ) + βr ′ ( k ) w ( k )
可以例如将w(k)确定为
Figure A200780020345D00191
其中,给定采样频率和拉盖尔参数λ,确定δ,使得w(k)的频谱表示具有例如1巴克的带宽。像汉宁(Hanning)、汉明(Hamming)那样的其他窗口选择也是可行的。
然后,使用上面给出的p(k)和r(k)之间的关系根据
Figure A200780020345D0018084754QIETU
计算补偿的协方差序列
Figure A200780020345D0018084754QIETU
然后,预测系数处理器405根据下式为LPA滤波器确定预测系数
Q·α=P
式中,Q和P的系数取自
Figure A200780020345D0018084754QIETU
Figure A200780020345D0019084914QIETU
图5示出了音频信号的线性预测编码方法。
该方法在步骤501中启动,其中为音频信号产生信号段。
步骤501之后是步骤503,其中为每个信号段产生第一自相关序列。
步骤503之后是步骤505,其中通过响应于至少一个心理声学特性而修改第一自相关序列来为每个信号段产生第二自相关序列。
步骤505之后是步骤507,其中响应于第二自相关序列而为每个信号段确定线性预测编码系数。
应当理解,为了清楚起见,上面的描述参照了不同的功能单元和处理器来描述本发明的实施例。然而,显然可以使用不同功能单元或处理器之间的任何适当的功能分布,而不会脱离于本发明。例如,被说明由单独的处理器或控制器实现的功能可以由相同的处理器或控制器来实现。因此,对特定功能单元的引用应当仅被看作对用于提供所描述的功能的适当装置的引用,而不表示严格的逻辑或物理的结构或组织。
本发明可以以包括硬件、软件、固件或其任意组合的任何适当的形式来实现。可选地,本发明可以至少部分地实现为运行在一个或多个数据处理器和/或数字信号处理器上的计算机软件。本发明实施例的元件和部件可以以任何适当的方式来在物理上、功能上以及逻辑上实现。事实上,所述功能可以在单个单元中、在多个单元中或者作为其他功能单元的一部分来实现。同样地,本发明可以在单个单元中实现或者可以在物理上和功能上分布于不同的单元和处理器之间。
尽管已经结合一些实施例描述了本发明,但是本发明并非意在限于本文给出的特定形式。相反,本发明的范围仅由随附的权利要求所限制。此外,尽管看起来特征是结合特定的实施例来进行描述的,但是本领域技术人员应当认识到,依照本发明,可以对所描述的实施例的各种特征进行组合。在权利要求中,措词“包括”并没有排除其他元件或步骤的存在。
此外,尽管单独地列举出来,但是多个装置、元件或方法步骤可以通过例如单个单元或处理器来实现。另外,尽管单独的特征可能包含于不同的权利要求中,但是可以对这些特征进行有利的组合,并且包含于不同的权利要求中并不意味着特征的组合不是可行的和/或有利的。同样,特征包含于一类权利要求中并不意味着限于该类别,而是表明该特征同样可以在合适时应用于其他权利要求类别。此外,权利要求中特征的顺序并不意味着其中特征发挥作用必须遵循的任何特定顺序,并且特别地,方法权利要求中单独的步骤的顺序并不意味着这些步骤必须按照该顺序来执行。相反,这些步骤可以以任何适当的顺序来执行。此外,单数引用并没有排除复数。因此,对于“一”、“一个”、“第一”、“第二”等等的引用并没有排除复数。权利要求中的附图标记仅仅提供来清楚阐明实例,绝不应当不应当视为限制了权利要求的范围。

Claims (22)

1.一种用于音频信号的线性预测编码的设备,该设备包括:
-用于为该音频信号产生信号段的装置(201);
-用于为每个信号段产生第一自相关序列的装置(401);
-用于通过响应于至少一个心理声学特性而修改第一自相关序列来为每个信号段产生第二自相关序列的修改装置(403);以及
-用于响应于第二自相关序列而为每个信号段确定线性预测编码系数的确定装置(405)。
2.权利要求1的设备,其中修改装置(403)被设置成执行对第一自相关序列的加窗。
3.权利要求2的设备,其中所述加窗相应于与巴克带宽相应的心理声学带宽。
4.权利要求2的设备,其中所述加窗相应于与等效矩形带宽(ERB)相应的心理声学带宽。
5.权利要求1的设备,其中修改装置(403)被设置成通过最小值自相关序列来界定第二自相关序列。
6.权利要求5的设备,其中修改装置(403)被设置成将第二自相关序列确定为至少第一项与第二项之和,所述第一项与最小值自相关序列相应,所述第二项响应于第一自相关序列而被确定。
7.权利要求6的设备,其中修改装置(403)被设置成按照缩放因子缩放所述第一项和第二项中的至少一个,所述缩放因子与第一项相对于第二项的心理声学显著性相应。
8.权利要求4的设备,其中最小值自相关序列与安静阈值曲线相应。
9.权利要求1的设备,其中所述线性预测编码为拉盖尔线性预测编码,并且所述确定装置被设置成响应于第二自相关序列而确定所述音频信号和该音频信号的拉盖尔滤波版本之间的协方差序列。
10.权利要求1的设备,其中第一自相关序列是卷曲自相关序列。
11.权利要求1的设备,其中第一自相关序列是滤波的卷曲自相关序列。
12.权利要求1的设备,其中所述确定装置(405)被设置成通过最小化与采用线性预测编码系数的线性预测滤波器的输入信号关联的误差信号的信号功率度量来确定这些线性预测系数,所述输入信号由第二自相关序列表征。
13.权利要求1的设备,其中所述确定装置(405)被设置成通过求解下式给出的线性方程来确定线性预测系数:
Q·α=P
式中,Q为包含响应于第二自相关序列而确定的系数的矩阵,P为包含响应于第二自相关序列而确定的系数的矢量,α为包含所述线性预测系数的矢量。
14.权利要求1的设备,其中所述修改装置(405)被设置成基本上依照下式来确定第二自相关序列:
r ~ ( k ) = t ( k ) + βr ( k ) w ( k )
式中,r(k)为第二自相关序列,β为缩放因子,w(k)为加窗序列,t(k)为安静阈值自相关序列。
15.一种用于编码音频信号的线性预测编码器,该编码器包括:
-用于为该音频信号产生信号段的装置(201);
-用于为每个信号段产生第一自相关序列的装置(401);
-用于通过响应于至少一个心理声学特性而修改第一自相关序列来为每个信号段产生第二自相关序列的修改装置(403);以及
-用于响应于第二自相关序列而为每个信号段确定线性预测编码系数的确定装置(405)。
16.一种音频记录设备,包括依照权利要求15的编码器。
17.一种用于发送音频信号的发送器(101),该发送器包括:
-用于接收该音频信号的装置(107);
-用于为该音频信号产生信号段的装置(201);
-用于为每个信号段产生第一自相关序列的装置(401);
-用于通过响应于至少一个心理声学特性而修改第一自相关序列来为每个信号段产生第二自相关序列的修改装置(403);
-用于响应于第二自相关序列而为每个信号段确定线性预测编码系数的线性预测编码装置(405);
-用于为该音频信号产生编码的数据的装置(209),所述编码的数据包含所述线性预测编码系数;以及
-用于发送该编码的数据的装置(111)。
18.一种用于传输音频信号的传输系统,该传输系统包括:
-发送器(101),包括:
-用于接收该音频信号的装置(107),
-用于为该音频信号产生信号段的装置(201),
-用于为每个信号段产生第一自相关序列的装置(401),
-用于通过响应于至少一个心理声学特性而修改第一自相关序列来为每个信号段产生第二自相关序列的修改装置(403),
-用于响应于第二自相关序列而为每个信号段确定线性预测编码系数的线性预测编码装置(405),
-用于为该音频信号产生编码的数据的装置(209),所述编码的数据包含所述线性预测编码系数,以及
-用于向接收器发送(111)该编码的数据的装置;以及
-接收器(103),包括:
-用于接收所述编码的数据的装置(113),
-用于产生解码的信号的线性预测滤波器(305),以及
-用于响应于所述编码的数据的线性预测编码系数而设置线性预测合成滤波器(305)的系数的装置(301)。
19.一种音频信号的线性预测编码方法,该方法包括:
-为该音频信号产生(501)信号段;
-为每个信号段产生(503)第一自相关序列;
-通过响应于至少一个心理声学特性而修改第一自相关序列来为每个信号段产生(505)第二自相关序列;以及
-响应于第二自相关序列而为每个信号段确定(507)线性预测编码系数。
20.一种发送音频信号的方法,该方法包括:
-接收该音频信号;
-为该音频信号产生(501)信号段;
-为每个信号段产生(503)第一自相关序列;
-通过响应于至少一个心理声学特性而修改第一自相关序列来为每个信号段产生(505)第二自相关序列;
-响应于第二自相关序列而为每个信号段确定(507)线性预测编码系数;
-为该音频信号产生编码的数据,所述编码的数据包含所述线性预测编码系数;以及
-发送该编码的数据。
21.一种发送和接收音频信号的方法,该方法包括:
发送器(901)执行步骤:
-接收该音频信号,
-为该音频信号产生(501)信号段,
-为每个信号段产生(503)第一自相关序列,
-通过响应于至少一个心理声学特性而修改第一自相关序列来为每个信号段产生(505)第二自相关序列,
-响应于第二自相关序列而为每个信号段确定(507)线性预测编码系数,
-为该音频信号产生编码的数据,所述编码的数据包含所述线性预测编码系数,以及
-向接收器发送该编码的数据;以及
-接收器执行步骤:
-接收所述编码的数据,
-使用线性预测滤波器产生解码的信号,以及
-响应于所述编码的数据的线性预测编码系数而设置线性预测合成滤波器的系数。
22.一种计算机程序产品,用于执行权利要求19-21中任何一项的方法。
CNA2007800203451A 2006-05-30 2007-05-15 音频信号的线性预测编码 Pending CN101460998A (zh)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
EP06114670.0 2006-05-30
EP06114670 2006-05-30

Publications (1)

Publication Number Publication Date
CN101460998A true CN101460998A (zh) 2009-06-17

Family

ID=38566813

Family Applications (1)

Application Number Title Priority Date Filing Date
CNA2007800203451A Pending CN101460998A (zh) 2006-05-30 2007-05-15 音频信号的线性预测编码

Country Status (7)

Country Link
US (1) US20090204397A1 (zh)
EP (1) EP2030199B1 (zh)
JP (1) JP2009539132A (zh)
CN (1) CN101460998A (zh)
AT (1) ATE447227T1 (zh)
DE (1) DE602007003023D1 (zh)
WO (1) WO2007138511A1 (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103477387A (zh) * 2011-02-14 2013-12-25 弗兰霍菲尔运输应用研究公司 使用频谱域噪声整形的基于线性预测的编码方案
CN105378836A (zh) * 2013-07-18 2016-03-02 日本电信电话株式会社 线性预测分析装置、方法、程序以及记录介质

Families Citing this family (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
MY159444A (en) 2011-02-14 2017-01-13 Fraunhofer-Gesellschaft Zur Forderung Der Angewandten Forschung E V Encoding and decoding of pulse positions of tracks of an audio signal
RU2586838C2 (ru) 2011-02-14 2016-06-10 Фраунхофер-Гезелльшафт Цур Фердерунг Дер Ангевандтен Форшунг Е.Ф. Аудиокодек, использующий синтез шума в течение неактивной фазы
US9928850B2 (en) * 2014-01-24 2018-03-27 Nippon Telegraph And Telephone Corporation Linear predictive analysis apparatus, method, program and recording medium
PL3462453T3 (pl) * 2014-01-24 2020-10-19 Nippon Telegraph And Telephone Corporation Urządzenie, sposób i program do analizy liniowo-predykcyjnej oraz nośnik zapisu
EP2980796A1 (en) 2014-07-28 2016-02-03 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Method and apparatus for processing an audio signal, audio decoder, and audio encoder
CN110113998B (zh) * 2016-12-28 2022-05-13 皇家飞利浦有限公司 表征睡眠呼吸障碍的方法
US11517256B2 (en) 2016-12-28 2022-12-06 Koninklijke Philips N.V. Method of characterizing sleep disordered breathing
EP3483882A1 (en) 2017-11-10 2019-05-15 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Controlling bandwidth in encoders and/or decoders
WO2019091576A1 (en) 2017-11-10 2019-05-16 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Audio encoders, audio decoders, methods and computer programs adapting an encoding and decoding of least significant bits
EP3483880A1 (en) 2017-11-10 2019-05-15 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Temporal noise shaping
EP3483878A1 (en) 2017-11-10 2019-05-15 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Audio decoder supporting a set of different loss concealment tools
EP3483886A1 (en) 2017-11-10 2019-05-15 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Selecting pitch lag
EP3483883A1 (en) 2017-11-10 2019-05-15 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Audio coding and decoding with selective postfiltering
EP3483884A1 (en) 2017-11-10 2019-05-15 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Signal filtering
WO2019091573A1 (en) 2017-11-10 2019-05-16 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus and method for encoding and decoding an audio signal using downsampling or interpolation of scale parameters
EP3483879A1 (en) * 2017-11-10 2019-05-15 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Analysis/synthesis windowing function for modulated lapped transformation

Family Cites Families (19)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4544919A (en) * 1982-01-03 1985-10-01 Motorola, Inc. Method and means of determining coefficients for linear predictive coding
JPH02294699A (ja) * 1989-05-10 1990-12-05 Hitachi Ltd 音声分析合成方式
JP2770581B2 (ja) * 1991-02-19 1998-07-02 日本電気株式会社 音声信号のスペクトル分析方法とその装置
JP2776050B2 (ja) * 1991-02-26 1998-07-16 日本電気株式会社 音声符号化方式
CA2084323C (en) * 1991-12-03 1996-12-03 Tetsu Taguchi Speech signal encoding system capable of transmitting a speech signal at a low bit rate
US5339384A (en) 1992-02-18 1994-08-16 At&T Bell Laboratories Code-excited linear predictive coding with low delay for speech or audio signals
US5774846A (en) * 1994-12-19 1998-06-30 Matsushita Electric Industrial Co., Ltd. Speech coding apparatus, linear prediction coefficient analyzing apparatus and noise reducing apparatus
JP3522012B2 (ja) * 1995-08-23 2004-04-26 沖電気工業株式会社 コード励振線形予測符号化装置
US5790759A (en) * 1995-09-19 1998-08-04 Lucent Technologies Inc. Perceptual noise masking measure based on synthesis filter frequency response
US6047254A (en) * 1996-05-15 2000-04-04 Advanced Micro Devices, Inc. System and method for determining a first formant analysis filter and prefiltering a speech signal for improved pitch estimation
KR100361883B1 (ko) * 1997-10-03 2003-01-24 마츠시타 덴끼 산교 가부시키가이샤 오디오신호압축방법,오디오신호압축장치,음성신호압축방법,음성신호압축장치,음성인식방법및음성인식장치
KR100304092B1 (ko) * 1998-03-11 2001-09-26 마츠시타 덴끼 산교 가부시키가이샤 오디오 신호 부호화 장치, 오디오 신호 복호화 장치 및 오디오 신호 부호화/복호화 장치
JP3552201B2 (ja) * 1999-06-30 2004-08-11 株式会社東芝 音声符号化方法および装置
JP2001265398A (ja) * 2000-03-16 2001-09-28 Matsushita Electric Ind Co Ltd 適応型雑音抑圧音声符号化装置及び符号化方法
JP2001273000A (ja) * 2000-03-23 2001-10-05 Matsushita Electric Ind Co Ltd 適応型雑音抑圧音声符号化装置
US20030028386A1 (en) * 2001-04-02 2003-02-06 Zinser Richard L. Compressed domain universal transcoder
US20030235243A1 (en) * 2002-06-25 2003-12-25 Shousheng He Method for windowed noise auto-correlation
US7676362B2 (en) * 2004-12-31 2010-03-09 Motorola, Inc. Method and apparatus for enhancing loudness of a speech signal
WO2007080211A1 (en) * 2006-01-09 2007-07-19 Nokia Corporation Decoding of binaural audio signals

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103477387A (zh) * 2011-02-14 2013-12-25 弗兰霍菲尔运输应用研究公司 使用频谱域噪声整形的基于线性预测的编码方案
CN103477387B (zh) * 2011-02-14 2015-11-25 弗兰霍菲尔运输应用研究公司 使用频谱域噪声整形的基于线性预测的编码方案
CN105378836A (zh) * 2013-07-18 2016-03-02 日本电信电话株式会社 线性预测分析装置、方法、程序以及记录介质

Also Published As

Publication number Publication date
ATE447227T1 (de) 2009-11-15
EP2030199B1 (en) 2009-10-28
US20090204397A1 (en) 2009-08-13
DE602007003023D1 (de) 2009-12-10
JP2009539132A (ja) 2009-11-12
WO2007138511A1 (en) 2007-12-06
EP2030199A1 (en) 2009-03-04

Similar Documents

Publication Publication Date Title
CN101460998A (zh) 音频信号的线性预测编码
JP5688852B2 (ja) オーディオコーデックポストフィルタ
JP4662673B2 (ja) 広帯域音声及びオーディオ信号復号器における利得平滑化
US8634577B2 (en) Audio decoder
US6681204B2 (en) Apparatus and method for encoding a signal as well as apparatus and method for decoding a signal
JP5773124B2 (ja) 信号分析制御及び信号制御のシステム、装置、方法及びプログラム
WO2004097796A1 (ja) 音声符号化装置、音声復号化装置及びこれらの方法
WO2009142466A2 (ko) 오디오 신호 처리 방법 및 장치
US8909539B2 (en) Method and device for extending bandwidth of speech signal
US8036390B2 (en) Scalable encoding device and scalable encoding method
CN114550732B (zh) 一种高频音频信号的编解码方法和相关装置
WO2014190649A1 (zh) 信号解码方法及设备
CN115171709B (zh) 语音编码、解码方法、装置、计算机设备和存储介质
Kornagel Techniques for artificial bandwidth extension of telephone speech
JP2000155597A (ja) デジタル音声符号器において使用するための音声符号化方法
TWI785753B (zh) 多聲道信號產生器、多聲道信號產生方法及電腦程式
CN106716528A (zh) 用于对音频信号中的噪声进行估计的方法、噪声估计器、音频编码器、音频解码器、以及用于传输音频信号的系统
JP4281131B2 (ja) 信号符号化装置及び方法、並びに信号復号装置及び方法
JP4578145B2 (ja) 音声符号化装置、音声復号化装置及びこれらの方法
JP4618823B2 (ja) 信号符号化装置及び方法
Park et al. Unsupervised noise reduction scheme for voice-based information retrieval in mobile environments
JP3863706B2 (ja) 音声符号化方法
Oh Recursively Adaptive Randomized Multi-Tree Coding (RAR MTC) of Speech with VAD/CNG
Chilton Factors affecting the quality of linear predictive coding of speech at low bit-rates
CN116110424A (zh) 一种语音带宽扩展方法及相关装置

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C02 Deemed withdrawal of patent application after publication (patent law 2001)
WD01 Invention patent application deemed withdrawn after publication

Open date: 20090617