CN104854656B - 在自相关域中利用acelp编码语音信号的装置 - Google Patents

在自相关域中利用acelp编码语音信号的装置 Download PDF

Info

Publication number
CN104854656B
CN104854656B CN201380063912.7A CN201380063912A CN104854656B CN 104854656 B CN104854656 B CN 104854656B CN 201380063912 A CN201380063912 A CN 201380063912A CN 104854656 B CN104854656 B CN 104854656B
Authority
CN
China
Prior art keywords
matrix
codebook vectors
autocorrelation matrix
determiner
determining
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201380063912.7A
Other languages
English (en)
Other versions
CN104854656A (zh
Inventor
汤姆·贝克斯特伦
马库斯·穆赖特鲁斯
纪尧姆·福奇斯
克里斯蒂安·赫尔姆里希
马丁·迪茨
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fraunhofer Gesellschaft zur Forderung der Angewandten Forschung eV
Original Assignee
Fraunhofer Gesellschaft zur Forderung der Angewandten Forschung eV
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fraunhofer Gesellschaft zur Forderung der Angewandten Forschung eV filed Critical Fraunhofer Gesellschaft zur Forderung der Angewandten Forschung eV
Publication of CN104854656A publication Critical patent/CN104854656A/zh
Application granted granted Critical
Publication of CN104854656B publication Critical patent/CN104854656B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • G10L19/032Quantisation or dequantisation of spectral components
    • G10L19/038Vector quantisation, e.g. TwinVQ audio
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/08Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters
    • G10L19/10Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters the excitation function being a multipulse excitation
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/08Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters
    • G10L19/10Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters the excitation function being a multipulse excitation
    • G10L19/107Sparse pulse excitation, e.g. by using algebraic codebook
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L2019/0001Codebooks

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Computational Linguistics (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Algebra (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Analysis (AREA)
  • Mathematical Optimization (AREA)
  • Mathematical Physics (AREA)
  • Pure & Applied Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)

Abstract

提供一种用于通过确定语音编码算法的码本向量来编码语音信号的装置。该装置包含用于确定自相关矩阵R的矩阵确定器(110),以及用于根据自相关矩阵R来确定码本向量的码本向量确定器(120)。矩阵确定器(110)被配置为通过确定向量r的向量系数来确定自相关矩阵R,其中,自相关矩阵R包含多个行及多个列,其中,向量r表示自相关矩阵R的列中的一个或行中的一个,其中R(i,j)=r(|i‑j|),其中R(i,j)指示自相关矩阵R的系数,其中,i是第一索引,其指示自相关矩阵R的多个行中的一个,且其中j是第二索引,其指示自相关矩阵R的多个列中的一个。

Description

在自相关域中利用ACELP编码语音信号的装置
技术领域
本发明涉及音频信号编码,且具体地,涉及在自相关域中利用ACELP编码语音信号的装置。
背景技术
在通过码激励线性预测(CELP)的语音编码中,通过线性预测(LP)模型来描述语音信号的频谱包络(或等效地,短时时间结构),且通过长时预测器(LTP,亦称为自适应码本(codebook))将预测残余模型化,且通过码本(亦称为固定码本)来表示残余信号。后者,即固定码本,通常应用为代数码本,其中通过代数公式或算法来表示码本,因此不需要储存整个码本,而仅需储存算法,同时允许一种快速搜寻算法。针对残余应用代数码本的CELP编码译码器被称为代数码激励线性预测(ACELP)编码译码器(见[1]、[2]、[3]、4])。
在语音编码中,利用代数残余码本是在诸如[17]、[13]、[18]的主流编码译码器中选择的方法。ACELP基于:通过线性预测(LP)滤波器将频谱包络模型化、通过长时预测器(LTP)将浊音的基频模型化以及通过代数码本将预测残余模型化。在感知域中通过最小平方算法来优化LTP参数及代数码本参数,其中该感知域由滤波器指定。
ACELP式算法中计算起来最为复杂的部分(即瓶颈)是残余码本的优化。目前唯一已知的最佳算法将是针对每个子图框对大小为Np的空间的穷举式搜寻,其中在每个点上,需要复杂性为的评估。因为典型值为子图框长度N=64(亦即,5ms),其中,p=8个脉冲,所以此意味每秒有超过1020次的运算。显然此并非可行选择。为保持在硬件需求所设定的复杂性限制内,码本优化方法必须使用非最佳反复算法来操作。过去已提出许多此类算法以及对优化过程的改良,例如[17]、[19]、[20]、[21]、[22]。
明确而言,ACELP优化是基于将语音信号x(n)描述为线性预测模型的输出,以使得所评估的语音信号为
其中,a(k)为LP系数且为残余信号。此等式可以向量的形式表示为
其中,矩阵H被定义为具有对角线h(0)及较低对角线h(1),...,h(39)的下三角Toeplitz卷积矩阵,且向量h(k)是LP模型的脉冲响应。应注意,在此表示法中,省略了感知模型(其通常对应于加权的LP模型),但是假定感知模型包括在脉冲响应h(k)中。此省略不影响结果的一般性,但是简化了表示法。如在[1]中,应用对感知模型的包括。
通过平方误差来量测模型的适合度。亦即,
此平方误差用来找到最佳的模型参数。此处,假定LTP及脉冲码本均用来将向量e模型化。实际应用可在相关出版物(见[1-4])中找到。
在实践中,可将上述适合度量测简化如下。假设矩阵B=HTH包含h(n)的相关,假设ck是第k个固定码本向量,且设定其中,g是增益因子。通过假定g是最佳选择,则通过使搜寻准则最大化来搜寻码本
其中,d=HTx是包含目标向量与脉冲响应h(n)之间的相关的向量,目上标T表示转置。在码本搜寻之前计算向量d及矩阵B。此公式通常用于LTP及脉冲码本的优化中。
已投入大量的研究来优化上述公式的使用。例如,
1)仅计算矩阵B中实际上由搜寻算法取用的元素。或:
2)基于先前筛选(见例如[1,5]),减少脉冲搜寻的试误算法以便仅尝试具有高成功机率的这种码本向量。
ACELP算法的实际细节与零脉冲响应(ZIR)的概念相关。当相较于合成残余来考虑原始域合成信号时,该概念出现。将残余编码于对应于图框(frame)大小或子图框大小的区块中。然而,当将原始域信号与等式1的LP模型合成时,固定长度残余将具有无限长度的「尾端」,其对应于LP滤波器的脉冲响应。亦即,尽管残余码本向量的长度有限,但其对合成信号的影响将远远超出当前的图框或子图框。可通过用零扩展该码本向量以及针对此扩展信号计算等式1的合成输出来计算图框进入未来的影响。合成信号的扩展被称为零脉冲响应。然后,为在编码当前图框时将先前图框的影响考虑在内,自当前图框的目标中减去前一个图框的ZIR。因此,在编码当前图框时仅考虑该信号尚未被前一个图框模型化的部分。
在实践中,将ZIR考虑如下:当(子)图框N-1已经编码时,用零将量化残余扩展至下一个(子)图框N的长度。通过LP对经扩展的量化残余进列滤波来获得量化信号的ZIR。然后自原始(未量化的)信号中减去量化信号的ZIR,且此修改后的信号形成在编码(子)图框N时的目标信号。以此方式,在量化(子)图框N时,在(子)图框N-1中形成的所有量化误差都将考虑在内。此实践大大改良了输出信号的感知质量。
然而,若能提供用于音频编码的进一步改良的概念将受到高度赞赏。
发明内容
本发明的目的在于提供用于音频对象编码的这种改良的概念。通过以下各者来解决本发明的目的:如权利要求1所述的装置、如权利要求15所述的编码方法、如权利要求16所述的译码器、如权利要求17所述的解码方法、如权利要求18所述的系统、如权利要求19所述的方法以及如权利要求20所述的计算机程序。
提供一种用于通过确定语音编码算法的码本向量来编码语音信号的装置。该装置包含用于确定自相关矩阵R的矩阵确定器(determiner),以及用于根据自相关矩阵R来确定码本向量的码本向量确定器。矩阵确定器被配置为通过确定向量r的向量系数来确定自相关矩阵R,其中自相关矩阵R包含多个行及多个列,其中向量r表示自相关矩阵R的列中的一个或行中的一个,其中,R(i,j)=r(|i-j|),其中R(i,j)表示自相关矩阵R的系数,其中i是第一索引,其指示自相关矩阵R的多个行中的一个,且其中j是第二索引,其指示自相关矩阵R的多个列中的一个。
该装置被配置为使用该码本向量来编码该语音信号。例如,该装置可产生经编码的语音信号以使得经编码的语音信号包含多个线性预测系数、浊音的基频的指示(例如音高参数)以及码本向的指示(例如该码本向量的索引)。
另外,提供一种用于译码经编码的语音信号来获得经译码的语音信号的译码器,该经编码的语音信号是通过根据上述实施例的装置来编码的。
此外,提供一种系统。该系统包含根据上述实施例的用于编码输入语音信号来获得经编码的语音信号的装置。另外,该系统包含根据上述实施例的用于译码经编码的语音信号来获得经译码的语音信号的译码器。
提供用于语音编码算法ACELP的目标函数的改良的概念,当优化当前图框的参数时,该概念不仅考虑前一个图框的脉冲响应对当前图框的影响,而且考虑当前图框(frame)的脉冲响应对下一个图框的影响。一些实施例通过改变相关矩阵来实现改良,这是至自相关矩阵的常规ACELP优化的核心,该自相关矩阵具有Hermitian Toeplitz结构。通过利用此结构,有可能使ACELP优化在计算复杂性以及内存需求方面更高效。同时,所应用的感知模型亦变得更一致,且可避免图框间相依性,从而改良在数据包丢失的影响下的性能。
在感知域(perceptual)中使用ACELP范例的语音编码是基于最小平方算法,其中该感知域由滤波器指定。根据实施例,可通过考虑进入下一个图框的零脉冲响应的影响来降低最小平方问题的常规定义的计算复杂性。所提供的修改将Toeplitz结构引入至目标函数中出现的相关矩阵,此简化了该结构且减少计算。所提出的概念在不降低感知质量的情况下使计算复杂性降低了17%之多。
实施例是基于以下发现:通过稍微修改该目标函数,可进一步降低该残余码本的优化的复杂性。此复杂性降低在不降低感知质量的情况下发生。作为替代,因为就所提出的修改而言,ACELP残余优化是基于反复搜寻算法,所以有可能在不增加复杂性的情况下增加反复次数,且以此方式获得改良的感知质量。
常规目标函数模型感知以及修改后的目标函数模型感知均力图将感知失真最小化。然而,常规方法的最佳解决方案相对于修改后的目标函数不一定是最佳的,且反之亦然。此本身并不意味一种方法将优于另一种方法,但是分析性论证确实显示修改后的目标函数是更一致的。具体而言,与常规目标函数相比,所提供的概念使用一致的且定义良好的感知模型及信号模型来均等地处理子图框内的所有样本。
在实施例中,可应用所提出的修改以使得其仅改变残余码本的优化。因此,其不改变位串流结构且可以回溯兼容的方式应用于现有的ACELP编码译码器。
另外,提供一种用于通过确定语音编码算法的码本向量来编码语音信号的方法。该方法包含:
-确定自相关矩阵R。以及:
-根据该自相关矩阵R来确定该码本向量。
确定自相关矩阵R包含确定向量r的向量系数。该自相关矩阵R包含多个行及多个列。该向量r指示该自相关矩阵R的列中的一个或行中的一个,其中
R(i,j)=r(|i-j|)。
R(i,j)指示该自相关矩阵R的系数,其中i是第一索引,其指示自相关矩阵R的多个行中的一个,且其中j是第二索引,其指示自相关矩阵R的多个列中的一个。
此外,提供一种用于译码经编码的语音信号来获得经译码的语音信号的方法,该经编码的语音信号是根据用于根据上述实施例来编码语音信号之方法来编码的。
另外,提供一种方法。该方法包含:
-根据用于编码一语音信号以便获得经编码的语音信号的上述方法来编码一输入语音信号。以及:
-根据用于译码一语音信号的上述方法来译码该经编码的语音信号以便获得一经译码的语音信号。
此外,提供一种计算机程序,其用于在计算机或信号处理器上执列时实施上述方法。
在附属权利要求中将提供较佳实施例。
附图说明
在下文中,将参照附图更详细地描述本发明的实施例,其中:
图1例示根据一个实施例的用于通过确定语音编码算法的码本向量来编码语音信号的装置,
图2例示根据一个实施例的译码器及译码器,且
图3例示一种系统,该系统包含根据一个实施例的用于译码语音信号之装置及译码器。
具体实施方式
图1例示根据一个实施例的用于通过确定语音编码算法的码本向量来编码语音信号的装置。
该装置包含用于确定自相关矩阵R的矩阵确定器(110),以及用于根据自相关矩阵R来确定码本向量的码本向量确定器(120)。
矩阵确定器(110)被配置为通过确定向量r的向量系数来确定自相关矩阵R。
自相关矩阵R包含多个行及多个列,其中向量r指示自相关矩阵R的多个列中的一个或多个行中的一个,其中R(i,j)=r(|i-j|)。
R(i,j)指示自相关矩阵R的系数,其中i是第一索引,其指示自相关矩阵R的多个行中的一个,且其中j是第二索引,其指示自相关矩阵R的多个列中的一个。
该装置被配置为使用码本向量来编码语音信号。例如,该装置可产生经编码的语音信号以使得经编码的语音信号包含多个线性预测系数、浊音的基频的指示(例如,音高参数)以及码本向量的指示。
例如,根据用于编码语音信号的特定实施例,该装置可被配置为根据语音信号来确定多个线性预测系数(a(k))。另外,该装置被配置为根据多个线性预测系数(a(k))来确定残余信号。此外,矩阵确定器110可被配置为根据残余信号来确定自相关矩阵R。
在下文中描述本发明的另一些实施例。
返回至等式3及等式4,其中等式3将指示感知模型适合度的平方误差定义为:
且其中等式4
指示搜寻准则,该搜寻准则将要被最大化。
ACELP算法以等式4为中心,等式4又基于等式3。
实施例是基于以下发现:此等等式的分析显示,取决于索引k,量化残余值e(k)对于误差能量∈2具有非常不同的影响。例如,当考虑索引k=1及k=N时,若在k=1时仅出现残余码本的非零值,则误差能量∈2的结果为:
而就k=N而言,误差能量∈2的结果为:
换言之,使用在范围1至N上的脉冲响应h(k)来加权e(1),而仅使用h(1)来加权e(N)。就频谱加权而言,此意味使用不同的频谱加权函数来加权每一个e(k),以使得在极端情况下线性加权e(N)。自感知模型化的观点来看,针对图框内的所有样本应用相同的感知权重是可列的。因此,应扩展等式3以使得其将进入下一个图框的ZIR考虑在内。应主意,此处,尤其不同于先前技术的是,来自前一个图框的ZIR及进入下一个图框的ZIR均被考虑在内。
假设e(k)为原始的、未经量化的残余且为量化残余。此外,假设两个残余在1至N的范围中均为非零且在其他范围中为零。则
等效地,可以矩阵的形式将相同的关系表示为:
其中是对应于脉冲响应h(k)的无限维度卷积矩阵。插入等式3中得出
其中为有限大小,Hermitian Toeplitz矩阵对应于h(n)的自相关。通过对于等式4的类似推导,得到目标函数:
此目标函数于等式4非常类似。主要的区别在于,此处在分母中的是HermitianToeplitz矩阵R而不是相关矩阵B。
如上文所阐述,此新颖的公式化具有如下益处:图框内的残余e的所有样本将受到相同的感知加权。然而,重要的是,此公式化给计算复杂性以及内存需求带来相当多的益处。因为R为Hermitian Toeplitz矩阵,所以第一列r(0)..r(N-1)完全定义了该矩阵。换言之,代替储存整个N×N的矩阵,仅需储存N×1的向量r(k),因此在内存分配中产生相当多的节约。另外,亦降低了计算复杂性,因为不必确定所有N×N个元素,而仅需确定第一个N×1的列。在矩阵内编索引也是简单的,因为可通过R(i,j)=r(|i-j|)找到元素(i,j)。
因为等式10中的目标函数与等式4中的目标函数如此的相似,所以可保留一般ACELP的结构。具体而言,可使用两者中的任一目标函数来执列以下操作中的任一个,其中仅需对算法稍作修改:
1.优化LTP滞后(自适应码本)
2.优化用于将残余模型化的脉冲码本(固定码本)
3.分开地或联合地优化LTP及脉冲的增益
4.优化可通过等式3的平方误差来量测其性能的任何其他参数。
在常规ACELP应用中唯一必须修改的部分是相关矩阵B的处置以及目标,该相关矩阵B被矩阵R替换,该目标必须包括进入下一个图框的ZIR。
一些实施例通过用自相关矩阵R替换ACELP算法中的任何地方出现的相关矩阵B来利用本发明的概念。若省略矩阵B的所有实例,则可避免计算矩阵B的值。
例如,通过确定自相关矩阵R的第一列r(0),..,r(N-1)的系数来确定自相关矩阵R。
在等式9中通过R=HTH来定义矩阵R,其中可通过以下方程序来计算矩阵R的元素Rij=r(i-j)
亦即,序行r(k)是h(k)的自相关。
然而,通常可通过更高效的手段获得r(k)。具体而言,在诸如AMR及G.718的语音编码标准中,序列h(k)是通过感知加权函数W(z)进列滤波后的线性预测滤波器A(z)的脉冲响应,该脉冲响应被视为包括预强调。换言之,h(k)指示线性预测模型的感知加权脉冲响应。
通常根据语音信号的自相关rX(k)来估计滤波器A(z),亦即,rX(k)是已知的。因为H(z)=A-1(u)W(z),所以可通过使用于下等式计算w(k)的自相关来确定自相关序列r(k)
因此h(k)的自相关为
r(k)=rx(k)*rw(k)=∑lrw(l)rx(l-k) (9c)
在一些实施例中,可根据整个系统的设计来相应地修改此等等式。
例如,随后可基于自相关矩阵R来确定码本的码本向量。译言之,根据一些实施例,可使用等式10来确定码本的码本向量。
在此情境下,等式10以的形式定义目标函数,该形式与语音编码标准AMR及G.718中的形式相同,但使得矩阵R此时具有对称的Toeplitz结构。目标函数基本上是目标向量d与码本向量之间的正规化相关,且最可能的码本向量是给出正规化相关的最高值的那一个,例如,使正规化相关最大化的那一个。
因此可使用与所提及的标准相同的方法来优化码本向量。具体而言,例如,可应用非常简单的算法来找到用于残余的最佳代数码本(亦即,固定码本)向量如下所述。然而应注意,高效搜寻算法(参见AMR及G.718)的设计中已投入大量努力,且此搜寻算法仅是应用的例示性实例。
1.定义初始码本向量且将脉冲的数目设定为p=0。
2.将初始码本质量量测设定为f0=0。
3.将临时码本质量量测设定为
4.就码本向量中的每一个位置k而言:
(i)将p加上1。
(ii)若位置k已含有负脉冲,则继续步骤vii。
(iii)创建临时码本向量且在位置k中添加一个正脉冲。
(iv)通过来评估临时码本向量的质量。
(v)若临时码本向量优于先前任何一个,则保存此码本向量,设定且继续下一个反复。
(vi)若位置k已含有正脉冲,则继续下一个反复。
(vii)创建临时码本向量且在位置k中添加一个负脉冲。
(viii)通过来评估临时码本向量的质量。
(ix)若临时码本向量胜于先前任何一个,则保存此码本向量,设定且继续下一个反复。
5.将码本向量定义为所保存的码本向量中的最后一个(亦即,最佳的)。
6.若脉冲p的数目已达到所需的脉冲数目,则将输出向量定义为且停止。否则,继续步骤4。
如已指出,相较于常规ACELP应用,在一些实施例中,修改目标以使得其包括进入下一个图框的ZIR。
等式1描述ACELP型编码译码器中所使用的线性预测模型。零脉冲响应(ZIR,有时亦称为零输入响应)是指在当前图框(及所有未来的图框)的残余被设定为零时,线性预测模型的输出。可通过将自位置N向前为零的残余定义为如下方程序来容易地计算ZIR
因此可将ZIR定义为
通过自输入信号中减去此ZIR,获得一信号,其取决于仅自当前图框向前的残余。
等效地,可通过对过去的输入信号进列滤波来将ZIR确定为
通常将已移除了ZIR的输入信号称为目标,且可针对在位置K处开始的图框将该输入信号定义为d(n)=r(n)-zIRK(n)。原则上此目标与AMR及G.718标准中的目标完全相等。在量化信号时,在图框K≤n<K+N.的持续时间内将量化信号与d(n)相比较。
相反地,当前图框的残余会影响后续的图框,因此在量化信号时考虑其影响是有用的,亦即,因此可能亦想要评估超出当前图框(n>K+N)之差然而,为此,可能想要仅通过将后续图框的残余设定为零来考虑当前图框的残余的影响。因此,可比较进入下一个图框的ZIR。换言之,获得修改后的目标。
等效地,使用A(z)的脉冲响应h(n),则
此公式可以简易矩阵形式写成d′=He,其中如等式2中那样定义H及e。可以看出,修改后的目标恰好为公式2的x。
在矩阵R的计算中请注意,理论上,脉冲响应h(k)是无限序行,但是在实际系统中不可能实现。
然而,
1)将脉冲响应截断或定窗为有限长度且确定经截断的脉冲响应的自相关,或
2)使用相关的LP及感知滤波器的傅立叶(Fourier)频谱来计算脉冲响应的功率谱,且通过傅立叶(Fourier)逆变换来获得自相关是可能的。
现在描述利用LTP的扩展。
长时预测器(LTP)实际上亦是线性预测器。
根据一个实施例,矩阵确定器110可被配置为根据感知加权的线性预测器,例如根据长时预测器,来确定自相关矩阵R。
可将LP及LTP卷积至一个联合预测器中,该联合预测器包括频谱包络形状以及谐波结构。此预测器的脉冲响应将会非常长,因此更难以用先前技术处置。然而,若已知线性预测器的自相关,则可通过使用向前及向后的LTP或使用频域中的类似过程简单地对自相关进列滤波来计算联合预测器的自相关。
请注意,利用LTP的先前方法在LTP滞后短于图框长度时出现问题,因为LTP将导致图框内的回馈回路。将LTP包括在目标函数中的益处为,当LTP的滞后短于图框长度时,则在优化中将此回馈明确考虑在内。
在下文中,描述用于不相关域中的快速优化的扩展。
ACELP系统的设计中的核心挑战是降低计算复杂性。ACELP系统是复杂的,因为通过LP进列的滤波导致残余样本的间的复杂相关,通过矩阵B或在当前情境下通过矩阵R来描述该等复杂相关。因为e(n)的样本是相关的,所以不可能正好用所需的精度来量化e(n),而是必须使用试误法来尝试不同量化的许多组合,以使分别相对于等式3或等式10的目标函数找到最佳量化。
通过引入矩阵R,获得对此等相关的新观点亦即,因为R具有Hermitian Toeplitz结构,所以可应用若干高效的矩阵分解,诸如Hankel矩阵的奇异值分解、Cholesky分解或Vandermonde分解(Hankel矩阵是Toeplitz矩阵的倒置,因此可将相同的分解应用于Toeplitz矩阵及Hankel矩阵)(见[6及[7])。假设R=E D EH为R的分解,以使得D为大小及秩与R相同的对角矩阵。于是可将等式9修改如下:
其中因为D为对角矩阵,所以f(k)的每一个样本的残余与其他样本f(i)无关。在等式10中,假定通过最佳增益来缩放码本向量,因此新的目标函数为
此处,样本再次相关(因为改变一条线的量化改变了所有线的最佳增益),但是相较于等式10,此处相关的效果有限。然而,即使将相关考虑在内,此目标函数的优化相较于等式3或等式10的优化仍简单得多。
使用此分解方法,有可能
1.应用具有所需精度的常规纯量量化技术或向量量化技术,或
2.使用任何常规ACELP脉冲搜寻算法来将等式12用作目标函数。
上述两种方法给出了相对于等式12的近似最佳量化。因为常规量化技术通常不要求任何蛮力方法(除可能的速率回路之外),且因为矩阵D比B或R简单,所以两种量化方法的复杂性均小于常规ACELP脉冲搜寻算法。因此,此方法中计算复杂性的主要来源是矩阵分解的计算。
一些实施例利用等式12来确定码本的码本向量。
例如,存在针对形式为R=EHDE的R的若干矩阵分解。例如,
(a)例如可通过使用GNU科学图书馆(http://www.gnu.org/software/gsl/manual/html_node/Rea-Symmetric-Matrices.html)来计算固有值分解。矩阵R是真实的且对称的(以及Toeplitz),因此可使用函数「gsl_eigen_symm()」来确定矩阵E及D。相同固有值分解的其他实列方案容易在文献[6]中获得。
(b)可使用[8]中所描述的算法来使用Toeplitz矩阵的Vandermonde分解[7]。此算法返回矩阵E及D以使得E为Vandermonde矩阵,其等效于具有非均匀频率分布的离散傅立叶(Fourier)变换。
使用此分解,可通过f=EHe或f′=D1/2EHe将残余向量e变换至变换域。在此域中可应用任何常见的量化方法,例如,
1.可通过代数码本来量化向量f′,与在ACELP的常见实列方案中完全一样。然而,因为f′的元素是不相关的,所以不需要如在ACELP中的复杂的搜寻功能,而是可应用简单的算法,诸如
(a)将初始增益设定为g=1
(b)通过f′=round(gf′)量化f’。
(c)若f′中的脉冲数目大于预定义数量p,则增加增益g且返回至步骤b。
(d)否则,若中的脉冲数目小于预定义数量p,则减少增益g且返回至步骤b。
(e)否则,中的脉冲数目等于预定义数量p,且可停止处理。
2.可使用算术编码器,其类似于在标准AMR-WB+或MPEG USAC中的TCX的频谱线的量化中所使用的编码器。
应主意,因为f’的元素是正交的(如自等式12可看出)且其在等式12的目标函数中具有相同的权重,所以可分开地且使用相同的量化步长对其进列量化。该量化将自动找到等式12中的目标函数的最佳(最大)值,此是在该量化精度下可能的。换言之,以上呈现的量化算法均将返回相对于等式12的最佳量化。
优化的此优势与可分开地处理f’的元素的事实相关联。若使用码本方法,其中码本向量ck是非平凡向量具有一个以上的非零元素),则此等码本向量将不再具有独立的元素且丧失矩阵分解的优势。
注意,可选择Toeplitz矩阵的Vandermonde分解以使得Vandermonde矩阵为傅立叶(Fourier)变换矩阵但是频率分布不均匀。换言之,Vandermonde矩阵对应于经频率变形的傅立叶(Fourier)变换。因此在此情况下,向量f对应于残余信号在变形频率尺度上的频域表示(见[8]中的「根交换性质」)。
重要的是,请注意此结果并非众所周知的。在实践中,此结果表明,若使用卷积矩阵C对信号x进列滤波,则
||Cx||2=||DVx||2 (13)
其中V为(例如经变形的)傅立叶(Fourier)变换(其为具有在单位圆上的元素的Vandermonde矩阵)且D为对角矩阵。亦即,若需要量测经滤波信号的能量,则可等效地量测经频率变形的信号的能量。相反地,将在经变形的傅立叶(Fourier)域中做出的任何评估可在经滤波的时域中等效地做出。由于时间及频率的对偶性,时域定窗与时间变形之间亦存在等效性。然而,实际问题是,找到满足上述关系的卷积矩阵C为数值敏感问题,因此通常更容易替代地找到近似解
可利用关系||Cx||2=||DVx||2来确定码本的码本向量。
为此,首先应注意,此处将通过H来表示如等式2中的卷积矩阵而不是C。若想要将量化噪声最小化,则可量测其能量:
现在描述用于图框独立的扩展。
当经编码的语音信号在诸如无线电波的非理想传输在线传输时,数据数据包必定有时将会丢失。若图框彼此相依,以使得需要数据包N来完全译码N-1,则丢失数据包N-1将破坏数据包N-1的合成及数据包N的合成。另一方面,若图框是独立的,则丢失数据包N-1将仅破坏数据包N-1的合成。因此,对于不存在图框间相依性的设备及方法而言,这是重要的。
在常规ACELP系统中,图框间相依性的主要来源是LTP且在某种程度上亦是LP。具体而言,因为两者均为无限脉冲响应(IIR)滤波器,所以受到破坏的图框将导致受到破坏的样本的「无限」尾端。在实践中,此尾端的长度可能为若干图框,这是令人计厌的。
使用本发明的框架,实现可通过自当前图框进入下一个图框的ZIR来量化图框间相依性藉以产生的路径。为避免此图框间相依性,需要对常规ACELP作出式个修改。
1.当计算自前一个图框进入当前(子)图框的ZIR时,应自用零扩展后的原始(未经量化的)残余计算ZIR,而不是自量化残余计算。以此方式,来自前一个(子)图框的量化误差将不会传播至当前(子)图框中。
2.当量化当前图框时,必须将在原始信号与量化信号之间进入下一个图框的ZIR中的误差考虑在内。此可通过用自相关矩阵R替换相关矩阵B来完成,如上方所阐述。此确保将进入下一个图框的ZIR中的误差与当前图框内的误差一起最小化。
3.因为误差传播是由于LP及LTP,所以两个组件都必须包括在ZIR中。此与常规方法不同,常规方法中仅针对LP计算ZIR。
若在量化当前图框时不将前一个图框的量化误差考虑在内,则会丧失输出的感知质量中的效率。因此,当不存在误差传播的风险时,有可能选择将误差考虑在内。例如,常规ACELP系统应用每20ms图框被细分为4个或5个子图框的定框。针对每一个子图框分开地量化并编码LTP及残余,但是将整个图框作为一个数据区块来传输。因此,不可能丢失个别子图框,而是仅可能丢失完整的图框。因此,仅需要在图框边界处使用图框独立的ZIR,但是可在剩余子图框之间使用具有图框间相依性的ZIR。
实施例通过将当前图框进入下一个图框的脉冲响应的影响包含在当前图框的目标函数中来修改常规ACELP算法。在优化问题的目标函数中,此修改对应于用具有Hermitian Toeplitz结构的自相关矩阵来替换相关矩阵。此修改具有以下益处:
1.由于添加了自相关矩阵的Hermitian Toeplitz结构,计算复杂性及内存需求得以降低。
2.相同的感知模型将应用于所用样本,使得感知模型的设计及调谐更简单且其应用更高效且更一致。
3.通过仅将来自前一个图框的未经量化的脉冲响应及进入下一个图框的量化脉冲响应考虑在内,在当前图框的量化中可完全避免图框间相关。此改良了预计会发生数据包丢失的系统的稳健性。
图2例示用于译码经编码的语音信号来获得经译码的语音信号的译码器220,该经编码的语音信号是通过根据上述实施例的装置来编码的。译码器220被配置为接收经编码的语音信号,其中该经编码的语音信号包含码本向量的指示,该码本向量是通过根据上述实施例中的一个的用于编码语音信号的装置来确定,例如,所确定的码本向量的索引。此外,译码器220被配置为译码经编码的语音信号以便根据码本向量来获得经译码的语音信号。
图3例示根据一个实施例的系统。该系统包含根据上述实施例中的一个的用于编码输入语音信号来获得经编码的语音信号的装置210。经编码的语音信号包含所确定的码本向量的指示,该码本向量是通过用于编码语音信号的装置210来确定,例如,经编码的语音信号包含该码本向量的索引。另外,该系统包含根据上述实施例的用于译码经编码的语音信号来获得经译码的语音信号的译码器220。译码器220被配置为接收经编码的语音信号。另外,译码器220被配置为译码经编码的语音信号以便根据经确定的码本向量来获得经译码的语音信号。
尽管已在装置的情境下描述一些方面,但是这些方面也表示对应的方法的描述,其中区块或设备对应于方法步骤或方法步骤的特征件。类似地,在方法步骤的情境下描述的方面亦表示对应的区块或项目或对应的装置的特征件的描述。
本发明的分解信号可储存在数字储存媒体上或可在诸如无线传输媒体或有线传输媒体(诸如因特网)的传输媒体上传输。
取决于特定实行方案的需求,可在硬件中或软件中实施本发明的实施例。可使用数字储存媒体,例如软盘片、DVD、CD、ROM、PROM、EPROM、EEPROM或闪存,来执行实施方案,该数字储存媒体上储存有电子可读控制信号,该等信号与可编程计算机系统协作(或能够协作)来执行相应的方法。
根据本发明的一些实施例包含具有电子可读控制信号的非暂时性数据载体,该等信号能够与可编程计算机系统协作以便执行本文所述的方法中的一种。
大体而言,可将本发明的实施例实施为具有程序代码的计算机程序产品,当该计算机程序产品在计算机上运行时,该程序代码可操作来执行该等方法中的一种。该程序代码可例如储存在机器可读载体上。
其他实施例包含用于执行本方所述的方法中的一种的计算机程序,其储存在机器可读载体上。
换言之,因此,本发明的方法的一个实施例为具有程序代码的计算机程序,当该计算机程序在计算机上运行时,该程序代码用于执行本文所述的方法中的一种。
因此,本发明的方法的另一实施例为数据载体(或数字储存媒体,或计算机可读媒体),其包含记录在其上的计算机程序,该计算机程序用于执行本文所述的方法中的一种。
因此,本发明的方法的另一实施例为数据流或信号序列,其表示用于执行本文所述的方法中的一种的的计算机程序。该数据串流或信号序行可例如被配置为经由数据通讯连接被传递,例如经由因特网。
另一实施例包含处理构件,例如计算机或可编程逻辑设备,其被配置为执列或适于执行本文所述的方法中的一种。
另一实施例包含安装有计算机程序的计算机,该计算机程序用于执行本文所述的方法中的一种。
在一些实施例中,可使用可编程逻辑设备(例如现场可编程门阵列)来执行本方所述的方法的功能性的一些或全部。在一些实施例中,现场可编程门阵列可与微处理器协作来执行本文所述的方法中的一种。大体而言,较佳地通过任何硬件装置来执行该等方法。
上述实施例仅仅例示出本发明的原理。应理解,本文所述的配置及细节上的修改及变化对于本领域技术人员而言将显而易见。因此,本发明意在仅受待审专利权利要求的范围的限制,且不受特定细节的限制,这些细节是通过本文中对实施例的描述及阐述来呈现的。
参考文献
[1]Salami,R.and Laflamme,C.and Bessette,B.and Adoul,J.P.,“ITU-TG.729Annex A:reduced complexity 8kb/s CS-ACELP codec for digital simultaneousvoice and data“,Communications Magazine,IEEE,vol 35,no 9,pp 56-63,1997.
[2]3GPP TS 26.190V7.0.0,“Adaptive Multi-Rate(AMR-WB)speech codec“,2007.
[3]ITU-T G.718,“Frame error robust narrow-band and wideband embeddedvariable bit-rate coding of speech and audio from 8-32kbit/s“,2008.
[4]Schroeder,M.and Atal,B.,“Code-excited linear prediction(CELP):High-quality speech at very low bit rates“,Acoustics,Speech,and SignalProcessing,IEEE Iht Conf,pp 937-940,1985.
[5]Byun,K.J.and Jung,H.B.and Hahn,M.and Kim,K.S.,“A fast ACELPcodebook search method“,Signal Processing,2002 6th International Conferenceon,vol 1,pp 422-425,2002.
[6]G.H.Golub and C.F.van Loan,“Matrix Computations“,3rd Edition,JohnHopkins University Press,1996.
[7]Boley,D.L.and Luk,F.T.and Vandevoorde,D.,“Vandermondefactorization of a Hankel matrix“,Scientific computing,pp 27-39,1997.
[8]T.and Magi,C.,“Properties of line spectrum pairpolynomials-A review”,Signal processing,vol.86,no.11,pp.3286-3298,2006.
[9]A.M.Karjalainen,L.Savioja,V.U.Laine,andJ.Huopaniemi,“Frequencywarped signal processing for audio applications,”J.Audio Eng.Soc,vol.48,no.11,pp.1011-1031,2000.
[10]T.Laakso,V.M.Karjalainen,and U.Laine,“Splitting the unitdelay[FIR/all pass filters design],”IEEE Signal Process.Mag.,vol.13,no.1,pp.30-60,1996.
[11]J.Smith 111 and J.Abel,“Bark and ERB bilinear transforms,”IEEETrans.Speech Audio Process.,vol.7,no.6,pp.697-708,1999.
[12]R.Schappelle,“The inverse of the confluent Vandenmonde matrix,”1EEE Trans.Autom.Control,vol.17,no.5,pp.724-725,1972.
[13]B.Bessette,R.Salami,R.Lefebvre,M.Jelinek,J.Rotola-Pukkila,J.Vainio,H.Mikkola,and K.Jarvinen,The adaptive multirate wideband speechcodec(AMR-WB),”Speech and Audio Processing,IEEE Transactions on,vol.10,no.8,pp.620-636,2002.
[14]M.Bosi and R E.Goldberg,Introduction to Digital Audio Coding andStandards.Dordrecht,The Netherlands:Kluwer Academic Publishers,2003.
[15]B.Edler,S.Disch,S.Bayer,G.Fuchs,and R.Geiger,“A time-warped MDCTapproach to speech transform coding,”in Proc 126th AES Convention,Munich,Germany,May 2009.
[16]J.Makhoul,“Linear prediction:A tutorial review,”Proc.IEEE,vol.63,no.4,pp.561-580,April 1975.
[17]J.-P.Adoul,P.Mabilleau,M.Delprat,and S.Morissette,“Fast CELPcoding based on algebraic codes,”in Acoustics,Speech,and Signal Processing,IEEE lnt Conf(ICASSP’87),April 1987,pp.1957-1960.
[18]ISO/1EC 23003-3:2012,“MPEG-D(MPEG audio technologies),Part 3:Unified speech and audio coding,”2012.
[19]F.-K.Chen and J.-F.Yang,“Maximum-take-precedence ACELP:a lowcomplexity search method,”in Acoustics,Speech,and Signal Processing,2001.Proceedings.(ICASSP’01).2001 IEEE International Conference on,vol.2.IEEE,2001,pp.693-696.
[20]R.P.Kumar,“High computational performance in code exited linearprediction speech model using faster codebook sea`h techniques,”inProceedings of the International Conference on Computing:Theory andApplications.IEEE Computer Society,2007,pp.458-462.
[21]N.K.Ha,“A fast search method of algebraic codebook by reorderingsearch sequence,”`Acoustics,Speech,and Signal Processing,1999.Proceedings.,1999 IEEE International Conference on,vol.1.IEEE,1999,pp.21-24.
[22]M.A.Ramirez and M.Gerken,“Efficient algebraic multipulse search,”in Telecommunications Symposium,1998.ITS’98 Proceedings.SBT/IEEEInternational.IEEE,1998,pp.231-236.
[23]ITU-T Recommendation G.191,“Software tool library 2009 user’smanual,”2009.
[24]ITU-T Recommendation P.863,“Perceptual objective listeningquality assessment,”2011.
[25]T.Thiede,W.Treurniet,R.Bitto,C.Schmidmer,T.Sporer,J.Beerends,C.Colomes,M.Keyhl,G.Stoll,K.Brandeburg et al.,“PEAQ-the ITU standard forobjective measurement of perceived audio quality,”Journal of the AudioEngineering Society,vol.48,2012.
[26]ITU-R Recommendation BS.1534-1,“Method for the subjectiveassessment of intermediate quality level of coding systems,”2003.

Claims (21)

1.一种用于通过确定语音编码算法的码本向量来编码语音信号的装置,其中,所述装置包括:
矩阵确定器(110),用于确定自相关矩阵R,以及
码本向量确定器(120),用于根据所述自相关矩阵R来确定所述码本向量,
其中,所述矩阵确定器(110)被配置为通过确定向量r的向量系数来确定所述自相关矩阵R,其中,所述自相关矩阵R包括多个行及多个列,其中,所述向量r表示所述自相关矩阵R的所述列中的一个或所述行中的一个,其中
R(i,j)=r(∣i-j∣),
其中,R(i,j)表示所述自相关矩阵R的系数,其中,i是表示所述自相关矩阵R的所述多个行中的一个的第一索引,并且其中,j是表示所述自相关矩阵R的所述多个列中的一个的第二索引,
其中,所述码本向量确定器(120)被配置为通过应用以下公式来确定所述码本向量
其中,R是所述自相关矩阵,并且其中,是所述语音编码算法的所述码本向量中的一个,并且其中,是归一化相关,并且其中,dT根据以下公式定义
其中,e是原始的、未经量化的残余信号。
2.根据权利要求1所述的装置,
其中,所述码本向量确定器(120)被配置为确定所述语音编码算法的所述码本向量所述码本向量将以下归一化相关最大化
3.根据权利要求1所述的装置,
其中,所述矩阵确定器(110)被配置为通过应用以下公式来确定所述向量r的所述向量系数:
其中,h(k)表示线性预测模型的感知加权脉冲响应,并且其中,k是为整数的索引,并且其中,l是为整数的索引。
4.根据权利要求1所述的装置,
其中,所述矩阵确定器(110)被配置为根据感知加权线性预测器来确定所述自相关矩阵R。
5.根据权利要求1所述的装置,其中,所述码本向量确定器(120)被配置为通过进行矩阵分解来分解所述自相关矩阵R。
6.根据权利要求5所述的装置,其中,所述码本向量确定器(120)被配置为进行所述矩阵分解以便确定对角矩阵D,以确定所述码本向量。
7.根据权利要求6所述的装置,
其中,所述码本向量确定器(120)被配置为通过利用以下公式来确定所述码本向量
其中,D是对角矩阵,其中,f是第一向量,并且其中,是第二向量。
8.根据权利要求6所述的装置,其中,所述码本向量确定器(120)被配置为对所述自相关矩阵R进行Vandermonde分解来分解所述自相关矩阵R,以便进行所述矩阵分解来确定所述对角矩阵D,以确定所述码本向量。
9.根据权利要求6所述的装置,其中,所述码本向量确定器(120)被配置为利用以下等式
||Cx||2=||DVx||2
来确定所述码本向量,其中,C表示卷积矩阵,其中,V表示傅立叶变换,并且其中,x表示所述语音信号。
10.根据权利要求6所述的装置,其中,所述码本向量确定器(120)被配置为对所述自相关矩阵R进行奇异值分解来分解所述自相关矩阵R,以便进行所述矩阵分解来确定所述对角矩阵D,以确定所述码本向量。
11.根据权利要求6所述的装置,其中,所述码本向量确定器(120)被配置为对所述自相关矩阵R进行Cholesky分解来分解所述自相关矩阵R,以便进行所述矩阵分解来确定所述对角矩阵D,以确定所述码本向量。
12.根据权利要求1所述的装置,其中,所述码本向量确定器(120)被配置为根据所述语音信号的零脉冲响应来确定所述码本向量。
13.根据权利要求1所述的装置,
其中,所述装置是用于通过利用代数码激励线性预测语音编码来编码所述语音信号的编码器,并且
其中,所述码本向量确定器(120)被配置为基于所述自相关矩阵R将所述码本向量确定为代数码本的码本向量。
14.一种用于通过确定语音编码算法的码本向量来编码语音信号的装置,其中,所述装置包括:
矩阵确定器(110),用于确定自相关矩阵R,以及
码本向量确定器(120),用于根据所述自相关矩阵R来确定所述码本向量,
其中,所述矩阵确定器(110)被配置为通过确定向量r的向量系数来确定自相关矩阵R,其中,所述自相关矩阵R包括多个行及多个列,其中,所述向量r表示所述自相关矩阵R的所述列中的一个或所述行中的一个,其中
R(i,j)=r(∣i-j∣),
其中,R(i,j)表示所述自相关矩阵R的系数,其中,i是表示所述自相关矩阵R的所述多个行中的一个的第一索引,并且其中,j是表示所述自相关矩阵R的所述多个列中的一个的第二索引,
其中,所述码本向量确定器(120)被配置为通过进行矩阵分解来分解所述自相关矩阵R,
其中,所述码本向量确定器(120)被配置为进行所述矩阵分解以便确定对角矩阵D,以确定所述码本向量,并且
其中,所述码本向量确定器(120)被配置为通过利用以下公式来确定所述码本向量
其中,D是对角矩阵,其中,f是第一向量,并且其中,是第二向量。
15.一种用于通过确定语音编码算法的码本向量来编码语音信号的装置,其中,所述装置包括:
矩阵确定器(110),用于确定自相关矩阵R,以及
码本向量确定器(120),用于根据所述自相关矩阵R来确定所述码本向量,
其中,所述矩阵确定器(110)被配置为通过确定向量r的向量系数来确定自相关矩阵R,其中,所述自相关矩阵R包括多个行及多个列,其中,所述向量r表示所述自相关矩阵R的所述列中的一个或所述行中的一个,其中
R(i,j)=r(∣i-j∣),
其中,R(i,j)表示所述自相关矩阵R的系数,其中,i是表示所述自相关矩阵R的所述多个行中的一个的第一索引,并且其中,j是表示所述自相关矩阵R的所述多个列中的一个的第二索引,
其中,所述码本向量确定器(120)被配置为通过进行矩阵分解来分解所述自相关矩阵R,
其中,所述码本向量确定器(120)被配置为进行所述矩阵分解以便确定对角矩阵D,以确定所述码本向量,并且
其中,所述码本向量确定器(120)被配置为对所述自相关矩阵R进行Vandermonde分解来分解所述自相关矩阵R,以便进行所述矩阵分解来确定所述对角矩阵D,以确定所述码本向量。
16.一种用于编码语音信号和译码经编码的语音信号的系统,其中,所述系统包括:
根据权利要1至15中任一项所述的用于通过确定语音编码算法的码本向量来编码所述语音信号的装置(210),其中,根据权利要1至15中任一项所述的装置(210)被配置为编码所述语音信号,以获得经编码的语音信号,以及
用于译码所述经编码的语音信号以获得经译码的语音信号的译码器(220),
其中,所述译码器(220)被配置为接收所述经编码的语音信号,其中,所述经编码的语音信号包括通过根据权利要求1至15中任一项所述的装置确定的码本向量的指示,
其中,所述译码器(220)被配置为根据所述码本向量译码所述经编码的语音信号以获得所述经译码的语音信号。
17.一种用于通过确定语音编码算法的码本向量来编码语音信号的方法,其中,所述方法包括:
确定自相关矩阵R,以及
根据所述自相关矩阵R来确定所述码本向量,
其中,确定自相关矩阵R包括确定向量r的向量系数,其中,所述自相关矩阵R包括多个行及多个列,其中,所述向量r表示所述自相关矩阵R的所述列中的一个或所述行中的一个,其中
R(i,j)=r(∣i-j∣),
其中,R(i,j)表示所述自相关矩阵R的系数,其中,i是表示所述自相关矩阵R的所述多个行中的一个的第一索引,并且其中,j是表示所述自相关矩阵R的所述多个列中的一个的第二索引,
其中,确定所述码本向量通过应用以下公式来进行
其中,R是所述自相关矩阵,并且其中,是所述语音编码算法的所述码本向量中的一个,并且其中,是归一化相关,并且其中,dT根据以下公式定义
其中,e是原始的、未经量化的残余信号。
18.一种用于通过确定语音编码算法的码本向量来编码语音信号的方法,其中,所述方法包括:
确定自相关矩阵R,以及
根据所述自相关矩阵R来确定所述码本向量,
其中,确定自相关矩阵R包括确定向量r的向量系数,其中,所述自相关矩阵R包括多个行及多个列,其中,所述向量r表示所述自相关矩阵R的所述列中的一个或所述行中的一个,其中
R(i,j)=r(∣i-j∣),
其中,R(i,j)表示所述自相关矩阵R的系数,其中,i是表示所述自相关矩阵R的所述多个行中的一个的第一索引,并且其中,j是表示所述自相关矩阵R的所述多个列中的一个的第二索引,
其中,通过进行矩阵分解来进行分解所述自相关矩阵R,
其中,进行所述矩阵分解以便确定对角矩阵D,以确定所述码本向量,并且
其中,通过利用以下公式来确定所述码本向量
其中,D是对角矩阵,其中,f是第一向量,并且其中,是第二向量。
19.一种用于通过确定语音编码算法的码本向量来编码语音信号的方法,其中,所述方法包括:
确定自相关矩阵R,以及
根据所述自相关矩阵R来确定所述码本向量,
其中,确定自相关矩阵R包括确定向量r的向量系数,其中,所述自相关矩阵R包括多个行及多个列,其中,所述向量r表示所述自相关矩阵R的所述列中的一个或所述行中的一个,其中
R(i,j)=r(∣i-j∣),
其中,R(i,j)表示所述自相关矩阵R的系数,其中,i是表示所述自相关矩阵R的所述多个行中的一个的第一索引,并且其中,j是表示所述自相关矩阵R的所述多个列中的一个的第二索引,
其中,通过进行矩阵分解来进行分解所述自相关矩阵R,
其中,进行所述矩阵分解以便确定对角矩阵D,以确定所述码本向量,并且
其中,通过对所述自相关矩阵R进行Vandermonde分解来分解所述自相关矩阵R,进行所述矩阵分解来确定所述对角矩阵D,以确定所述码本向量。
20.一种用于编码语音信号和译码经编码的语音信号的方法,其中,所述方法包括:
根据权利要求17至19中任一项所述的方法来编码输入语音信号以获得经编码的语音信号,其中,所述经编码的语音信号包括码本向量的指示,以及
根据所述码本向量来译码所述经编码的语音信号以获得经译码的语音信号。
21.一种计算机可读介质,包括计算机程序,当在计算机或信号处理器上执行时,实施权利要求17至20中任一项所述的方法。
CN201380063912.7A 2012-10-05 2013-07-31 在自相关域中利用acelp编码语音信号的装置 Active CN104854656B (zh)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US201261710137P 2012-10-05 2012-10-05
US61/710,137 2012-10-05
PCT/EP2013/066074 WO2014053261A1 (en) 2012-10-05 2013-07-31 An apparatus for encoding a speech signal employing acelp in the autocorrelation domain

Publications (2)

Publication Number Publication Date
CN104854656A CN104854656A (zh) 2015-08-19
CN104854656B true CN104854656B (zh) 2017-12-19

Family

ID=48906260

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201380063912.7A Active CN104854656B (zh) 2012-10-05 2013-07-31 在自相关域中利用acelp编码语音信号的装置

Country Status (22)

Country Link
US (3) US10170129B2 (zh)
EP (3) EP2904612B1 (zh)
JP (1) JP6122961B2 (zh)
KR (1) KR101691549B1 (zh)
CN (1) CN104854656B (zh)
AR (1) AR092875A1 (zh)
AU (1) AU2013327192B2 (zh)
BR (1) BR112015007137B1 (zh)
CA (3) CA2979857C (zh)
ES (2) ES2701402T3 (zh)
FI (1) FI3444818T3 (zh)
HK (1) HK1213359A1 (zh)
MX (1) MX347921B (zh)
MY (1) MY194208A (zh)
PL (2) PL3444818T3 (zh)
PT (2) PT3444818T (zh)
RU (1) RU2636126C2 (zh)
SG (1) SG11201502613XA (zh)
TR (1) TR201818834T4 (zh)
TW (1) TWI529702B (zh)
WO (1) WO2014053261A1 (zh)
ZA (1) ZA201503025B (zh)

Families Citing this family (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
ES2701402T3 (es) * 2012-10-05 2019-02-22 Fraunhofer Ges Forschung Aparato para codificar una señal de voz empleando ACELP en el dominio de autocorrelación
EP2919232A1 (en) * 2014-03-14 2015-09-16 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Encoder, decoder and method for encoding and decoding
ES2827278T3 (es) * 2014-04-17 2021-05-20 Voiceage Corp Método, dispositivo y memoria no transitoria legible por ordenador para codificación y decodificación predictiva linealde señales sonoras en la transición entre tramas que tienen diferentes tasas de muestreo
EP3696816B1 (en) 2014-05-01 2021-05-12 Nippon Telegraph and Telephone Corporation Periodic-combined-envelope-sequence generation device, periodic-combined-envelope-sequence generation method, periodic-combined-envelope-sequence generation program and recording medium
JP6797187B2 (ja) * 2015-08-25 2020-12-09 ドルビー ラボラトリーズ ライセンシング コーポレイション オーディオ・デコーダおよびデコード方法

Family Cites Families (42)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4815135A (en) * 1984-07-10 1989-03-21 Nec Corporation Speech signal processor
US4868867A (en) * 1987-04-06 1989-09-19 Voicecraft Inc. Vector excitation speech or audio coder for transmission or storage
US4910781A (en) * 1987-06-26 1990-03-20 At&T Bell Laboratories Code excited linear predictive vocoder using virtual searching
DE69029120T2 (de) * 1989-04-25 1997-04-30 Toshiba Kawasaki Kk Stimmenkodierer
CA2010830C (en) * 1990-02-23 1996-06-25 Jean-Pierre Adoul Dynamic codebook for efficient speech coding based on algebraic codes
US5495555A (en) * 1992-06-01 1996-02-27 Hughes Aircraft Company High quality low bit rate celp-based speech codec
FR2700632B1 (fr) * 1993-01-21 1995-03-24 France Telecom Système de codage-décodage prédictif d'un signal numérique de parole par transformée adaptative à codes imbriqués.
JP3209248B2 (ja) * 1993-07-05 2001-09-17 日本電信電話株式会社 音声の励振信号符号化法
US5854998A (en) * 1994-04-29 1998-12-29 Audiocodes Ltd. Speech processing system quantizer of single-gain pulse excitation in speech coder
FR2729245B1 (fr) * 1995-01-06 1997-04-11 Lamblin Claude Procede de codage de parole a prediction lineaire et excitation par codes algebriques
FR2729247A1 (fr) * 1995-01-06 1996-07-12 Matra Communication Procede de codage de parole a analyse par synthese
US5751901A (en) * 1996-07-31 1998-05-12 Qualcomm Incorporated Method for searching an excitation codebook in a code excited linear prediction (CELP) coder
US6226604B1 (en) * 1996-08-02 2001-05-01 Matsushita Electric Industrial Co., Ltd. Voice encoder, voice decoder, recording medium on which program for realizing voice encoding/decoding is recorded and mobile communication apparatus
EP1085504B1 (en) * 1996-11-07 2002-05-29 Matsushita Electric Industrial Co., Ltd. CELP-Codec
US6055496A (en) * 1997-03-19 2000-04-25 Nokia Mobile Phones, Ltd. Vector quantization in celp speech coder
US5924062A (en) * 1997-07-01 1999-07-13 Nokia Mobile Phones ACLEP codec with modified autocorrelation matrix storage and search
KR100319924B1 (ko) * 1999-05-20 2002-01-09 윤종용 음성 부호화시에 대수코드북에서의 대수코드 탐색방법
GB9915842D0 (en) * 1999-07-06 1999-09-08 Btg Int Ltd Methods and apparatus for analysing a signal
US6704703B2 (en) * 2000-02-04 2004-03-09 Scansoft, Inc. Recursively excited linear prediction speech coder
US7103537B2 (en) * 2000-10-13 2006-09-05 Science Applications International Corporation System and method for linear prediction
US7206739B2 (en) * 2001-05-23 2007-04-17 Samsung Electronics Co., Ltd. Excitation codebook search method in a speech coding system
US6766289B2 (en) * 2001-06-04 2004-07-20 Qualcomm Incorporated Fast code-vector searching
DE10140507A1 (de) * 2001-08-17 2003-02-27 Philips Corp Intellectual Pty Verfahren für die algebraische Codebook-Suche eines Sprachsignalkodierers
US7003461B2 (en) * 2002-07-09 2006-02-21 Renesas Technology Corporation Method and apparatus for an adaptive codebook search in a speech processing system
US7243064B2 (en) * 2002-11-14 2007-07-10 Verizon Business Global Llc Signal processing of multi-channel data
WO2006089055A1 (en) * 2005-02-15 2006-08-24 Bbn Technologies Corp. Speech analyzing system with adaptive noise codebook
WO2006126115A2 (en) * 2005-05-25 2006-11-30 Koninklijke Philips Electronics N.V. Predictive encoding of a multi channel signal
JP3981399B1 (ja) * 2006-03-10 2007-09-26 松下電器産業株式会社 固定符号帳探索装置および固定符号帳探索方法
EP1994531B1 (fr) * 2006-02-22 2011-08-10 France Telecom Codage ou decodage perfectionnes d'un signal audionumerique, en technique celp
WO2009033288A1 (en) * 2007-09-11 2009-03-19 Voiceage Corporation Method and device for fast algebraic codebook search in speech and audio coding
EP2293292B1 (en) * 2008-06-19 2013-06-05 Panasonic Corporation Quantizing apparatus, quantizing method and encoding apparatus
US20100011041A1 (en) * 2008-07-11 2010-01-14 James Vannucci Device and method for determining signals
US8315396B2 (en) * 2008-07-17 2012-11-20 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. Apparatus and method for generating audio output signals using object based metadata
US20100153100A1 (en) * 2008-12-11 2010-06-17 Electronics And Telecommunications Research Institute Address generator for searching algebraic codebook
EP2211335A1 (en) * 2009-01-21 2010-07-28 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus, method and computer program for obtaining a parameter describing a variation of a signal characteristic of a signal
US8315204B2 (en) * 2009-07-06 2012-11-20 Intel Corporation Beamforming using base and differential codebooks
WO2011026231A1 (en) * 2009-09-02 2011-03-10 Nortel Networks Limited Systems and methods of encoding using a reduced codebook with adaptive resetting
US9112591B2 (en) 2010-04-16 2015-08-18 Samsung Electronics Co., Ltd. Apparatus for encoding/decoding multichannel signal and method thereof
ES2701402T3 (es) * 2012-10-05 2019-02-22 Fraunhofer Ges Forschung Aparato para codificar una señal de voz empleando ACELP en el dominio de autocorrelación
EP3503095A1 (en) * 2013-08-28 2019-06-26 Dolby Laboratories Licensing Corp. Hybrid waveform-coded and parametric-coded speech enhancement
EP2916319A1 (en) * 2014-03-07 2015-09-09 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Concept for encoding of information
EP2919232A1 (en) * 2014-03-14 2015-09-16 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Encoder, decoder and method for encoding and decoding

Also Published As

Publication number Publication date
US20150213810A1 (en) 2015-07-30
PT3444818T (pt) 2023-06-30
AU2013327192B2 (en) 2016-06-09
CA2979948A1 (en) 2014-04-10
MY194208A (en) 2022-11-21
CA2979857A1 (en) 2014-04-10
MX347921B (es) 2017-05-17
FI3444818T3 (fi) 2023-06-22
KR20150070200A (ko) 2015-06-24
CA2979857C (en) 2019-10-15
EP3444818B1 (en) 2023-04-19
MX2015003927A (es) 2015-07-23
PL3444818T3 (pl) 2023-08-21
BR112015007137A2 (pt) 2017-07-04
TW201415457A (zh) 2014-04-16
EP2904612B1 (en) 2018-09-19
BR112015007137B1 (pt) 2021-07-13
US20190115035A1 (en) 2019-04-18
EP2904612A1 (en) 2015-08-12
HK1213359A1 (zh) 2016-06-30
US12002481B2 (en) 2024-06-04
PL2904612T3 (pl) 2019-05-31
CA2979948C (en) 2019-10-22
JP2015532456A (ja) 2015-11-09
SG11201502613XA (en) 2015-05-28
JP6122961B2 (ja) 2017-04-26
EP3444818A1 (en) 2019-02-20
AU2013327192A1 (en) 2015-04-30
TWI529702B (zh) 2016-04-11
KR101691549B1 (ko) 2016-12-30
CN104854656A (zh) 2015-08-19
CA2887009C (en) 2019-12-17
AR092875A1 (es) 2015-05-06
PT2904612T (pt) 2018-12-17
CA2887009A1 (en) 2014-04-10
ZA201503025B (en) 2016-01-27
US11264043B2 (en) 2022-03-01
ES2948895T3 (es) 2023-09-21
US20220223163A1 (en) 2022-07-14
RU2636126C2 (ru) 2017-11-20
TR201818834T4 (tr) 2019-01-21
US10170129B2 (en) 2019-01-01
ES2701402T3 (es) 2019-02-22
US20180218743A9 (en) 2018-08-02
RU2015116458A (ru) 2016-11-27
EP4213146A1 (en) 2023-07-19
WO2014053261A1 (en) 2014-04-10

Similar Documents

Publication Publication Date Title
CN106415716B (zh) 编码器、解码器以及用于编码和解码的方法
US12002481B2 (en) Apparatus for encoding a speech signal employing ACELP in the autocorrelation domain
JP4539988B2 (ja) 音声符号化のための方法と装置
Bäckström et al. Spectral Envelope and Perceptual Masking Models

Legal Events

Date Code Title Description
PB01 Publication
EXSB Decision made by sipo to initiate substantive examination
SE01 Entry into force of request for substantive examination
CB02 Change of applicant information

Address after: Munich, Germany

Applicant after: Fraunhofer Application and Research Promotion Association

Address before: Munich, Germany

Applicant before: Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V.

COR Change of bibliographic data
GR01 Patent grant
GR01 Patent grant