CN101023472A - 可扩展编码装置和可扩展编码方法 - Google Patents
可扩展编码装置和可扩展编码方法 Download PDFInfo
- Publication number
- CN101023472A CN101023472A CNA2005800316906A CN200580031690A CN101023472A CN 101023472 A CN101023472 A CN 101023472A CN A2005800316906 A CNA2005800316906 A CN A2005800316906A CN 200580031690 A CN200580031690 A CN 200580031690A CN 101023472 A CN101023472 A CN 101023472A
- Authority
- CN
- China
- Prior art keywords
- autocorrelation
- lsp
- coefficient
- sampling
- unit
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/04—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
- G10L19/06—Determination or coding of the spectral characteristics, e.g. of the short-term prediction coefficients
- G10L19/07—Line spectrum pair [LSP] vocoders
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/04—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
- G10L19/16—Vocoder architecture
- G10L19/18—Vocoders using multiple modes
- G10L19/24—Variable rate codecs, e.g. for generating different qualities using a scalable representation such as hierarchical encoding or layered encoding
Abstract
公开能够提高从窄带LSP到宽带LSP的变换性能,实现高性能的频带可扩展LSP编码的可扩展编码装置。在此装置中,自相关系数变换单元(301)将Mn次的窄带LSP变换为Mn次的自相关系数,反向滞后窗单元(302)设置与设置在自相关系数的滞后窗相反特性的窗(反向滞后窗),外推单元(303)对被设置反向滞后窗的自相关系数进行外推处理,将自相关系数的次数扩展为(Mn+Mi)次,上采样单元(304)对(Mn+Mi)次的自相关系数进行与在时域的上采样处理等价的在自相关域的上采样处理,求出Mw次的自相关系数,滞后窗单元(305)对Mw次的自相关系数设置滞后窗,LSP变换单元(306)将被设置了滞后窗的自相关系数变换为LSP。
Description
技术领域
本发明涉及在移动通信系统或使用因特网协议的分组通信系统等中,进行语音通信时所使用的可扩展编码装置和可扩展编码方法。
背景技术
在如VoIP(Voice over IP)等使用分组的语音通信中,在语音数据的编码上期望具有抗帧丢失性的编码方式。这是因为在以因特网通信为代表的分组通信中,有时因拥塞等而使得分组在传输路径上丢失。
作为提高抗帧丢失性的方法之一,有以下方法:即使传输信息的一部分丢失,通过以其他的一部分进行解码处理来尽量减少帧丢失的影响(例如,参照专利文献1)。在专利文献1中,公开了使用可扩展编码而将核心层编码信息和增强层的编码信息装入不同的分组进行传输的方法。另外,作为分组通信的应用,可举出使用了宽的线路(宽频线路)和窄的线路(传输率低的线路)混合的网络的组播通信(一对多的通信)。即使在这样不均匀的网络上进行多地点间的通信的情况,只要编码信息对应于各个网络被分层,就不必对每个网络发送不同的编码信息,因此可扩展编码是有效的。
例如有专利文献2公开的技术,即,以能够对语音信号进行高效编码的CELP方式为基础,在信号带宽(在频率轴方向)具有扩展性(scalability)的频带可扩展编码技术。在专利文献2中,表示出以LSP(线谱对)参数表示语音信号的频谱包络信息的CELP方式的例子。在此,通过使用下面的式(1)将在窄带语音用的编码部(核心层)获得的量化LSP参数(窄带编码LSP)变换为宽带语音编码用的LSP参数,并在宽带语音用的编码部(增强层)使用经变换的LSP参数,由此实现频带可扩展的LSP编码方法。
fw(i)=0.5×fn(i) [其中、i=0,...,Pn-1]
=0.0 [其中、i=Pn,...,Pw-1]...
(1)
并且,fw(i)表示宽带信号中i次的LSP参数,fn(i)表示窄带信号中i次的LSP参数,Pn表示窄带信号的LSP分析次数,Pw表示宽带信号的LSP分析次数。
在专利文献2中,是以下面的情况为例进行说明,即,作为窄带信号,采样频率为8kHz,作为宽带信号,采样频率为16kHz,宽带LSP的分析次数为窄带LSP的分析次数的两倍,因此能够以式(1)所表示的单纯式子进行从窄带LSP到宽带LSP的变换。然而,宽带LSP的低次端的Pn次的LSP参数的存在位置是相对于包含高次端的(Pw-Pn)次的宽带信号全体而决定,并不是一定对应于窄带LSP的Pn次的LSP参数。因此,以(式1)表示的变换无法获得高变换效率(如果视为从窄带LSP预测宽带LSP,也可说是预测精度)。因此,根据式(1)设计的宽带LSP编码器具有改善编码性能的空间。
例如,在非专利文献1中,公开了如下面的式(2)所示,使用变换系数的最佳化算法对每个次数求最佳的变换系数β(i)的方法,以取代使与式(1)的i次的窄带LSP参数相乘的变换系数为0.5的方法。
fw_n(i)=α(i)×L(i)+β(i)×fn_n(i)...(2)
其中,fw_n(i)表示第n个帧的i次的宽带量化LSP参数,α(i)×L(i)表示将预测误差信号量化的向量的i次的元素(α(i)表示i次的加权系数),L(i)表示LSP预测残差向量,β(i)表示对预测宽带LSP的加权系数,fn_n(i)表示第n个帧的窄带LSP参数。通过这样的变换系数的最佳化,虽然是与专利文献2相同结构的LSP编码器,却实现了更高的编码性能。
在此,例如根据非专利文献2,对于频率范围为3~4kHz的窄带的语音信号,LSP参数的分析次数为8~10次左右较适宜,并且,对于频率范围为5~8kHz的宽带的语音信号,LSP参数的分析次数为12~16次左右较适宜。
[专利文献1]特开2003-241799号公报
[专利文献2]专利第3134817号公报
[非专利文献1]K.Koishida et al,“Enhancing MPEG-4 CELP by jointlyoptimized inter/intra-frame LSP predictors,”IEEE Speech Coding Workshop2000,Proceeding,pp.90-92,2000
[非专利文献2]斎藤収三·中田和男共著、「音声情報処理の基礎」、オ一ム社、1981年11月30日、p.91
发明内容
发明需要解决的问题
然而,由于是相对于宽带信号整体来决定宽带LSP的低次端的Pn次的LSP参数的位置,例如,如非专利文献2,使窄带LSP的分析次数为10次,宽带LSP的分析次数为16次时,存在于宽带LSP16次中低次端(相当于窄带LSP参数的1~10次存在的频带)的LSP参数的数目为8个以下的情况变多。因此,在使用式(2)的变换中,在宽带LSP参数(16次)的低次端,与窄带LSP参数(10次)之间的对应关系不再为一对一。也就是说,即使在宽带LSP的10次的分量存在于超过4kHz的频带的情况下,变得使该宽带LSP的10次的分量与存在于4kHz以下的频带的窄带LSP的10次的分量相对应,其结果,宽带LSP和窄带LSP的对应变得不适宜。因此,根据式(2)设计的宽带LSP编码器仍然具有改善编码性能的空间。
本发明的目的在于提供一种提高从窄带LSP到宽带LSP的变换性能(从窄带LSP预测宽带LSP时的预测精度),能够实现高性能的频带可扩展LSP编码的可扩展编码装置和可扩展编码方法。
解决该问题的方案
本发明的可扩展编码装置是由窄带LSP参数获得宽带LSP参数的可扩展编码装置,采用的结构包括:第一变换单元,将窄带LSP参数变换为自相关系数;上采样单元,上采样所述自相关系数;第二变换单元,将上采样后的所述自相关系数变换为LSP参数;以及第三变换单元,将所述LSP参数的频带变换为宽带,获得宽带LSP参数。
发明的有益效果
根据本发明,能够提高从窄带LSP到宽带LSP的变换性能,实现高性能的频带可扩展LSP编码。
附图说明
图1是表示本发明一实施方式的可扩展编码装置的主要结构的方框图。
图2是表示上述实施方式的宽带LSP编码单元的主要结构的方框图。
图3是表示上述实施方式的变换单元的主要结构的方框图。
图4是表示上述实施方式的可扩展编码装置的动作流程图。
图5是表示扩展Mn次的自相关系数而获得的(Mn+Mi)次的自相关系数的图。
图6是表示由对图5的各个结果进行上采样处理而获得的自相关系数求出的LPC的图。
图7表示LSP的模拟结果(以12次分析Fs:8kHz的窄带语音信号的LSP)。
图8是LSP的模拟结果(由图1所示的可扩展编码装置将以12次分析窄带语音信号的LSP变换为Fs:16kHz的18次的LSP的情况)。
图9表示LSP的模拟结果(以18次分析宽带语音信号的LSP)。
具体实施方式
以下,参照附图详细说明本发明的实施方式。
图1是表示本发明一实施方式的可扩展编码装置的主要结构的方框图。
本实施方式的可扩展编码装置包括:下采样单元101、LSP分析单元(窄带用)102、窄带LSP编码单元103、声源编码单元(窄带用)104、相位校正单元105、LSP分析单元(宽带用)106、宽带LSP编码单元107、声源编码单元(宽带用)108、上采样单元109、加法器110以及复用单元111。
下采样单元101对输入语音信号进行下采样处理,将窄带信号输出到LSP分析单元(窄带用)102和声源编码单元(窄带用)104。另外,输入语音信号是已数字化的信号,视需要而被施以HPF或背景噪声抑制处理等预处理。
LSP分析单元(窄带用)102对从下采样单元101输入的窄带信号计算LSP(线谱对)参数,并将结果输出到窄带LSP编码单元103。更具体地说,LSP分析单元(窄带用)102从窄带信号求出自相关系数,将该自相关系数变换为LPC(线性预测系数)后,通过将LPC变换为LSP来计算窄带LSP参数(关于从自相关系数到LPC、从LPC到LSP的具体变换过程,例如已公开在ITU-T建议G.729(3.2.3节LP to LSP conversion))。此时,LSP分析单元(窄带用)102为减少自相关系数的截断误差,对自相关系数进行开窗,而该窗被称为滞后窗(lag window)(关于滞后窗例如可参照中沟高好“现代制御シリ一ズ信号解析とシステム同定”,コロナ社,p.36、2.5.2章)。
窄带LSP编码单元103将对从LSP分析单元(窄带用)102输入的窄带LSP参数进行编码而获得的窄带的量化LSP参数输出到宽带LSP编码单元107和声源编码单元(窄带用)104。另外,窄带LSP编码单元103将编码数据输出到复用单元111。
声源编码单元(窄带用)104将从窄带LSP编码单元103输入的窄带的量化LSP参数变换为线性预测系数,使用所获得的线性预测系数构筑线性预测合成滤波器。声源编码单元104求使用此线性预测合成滤波器合成的合成信号和另外从下采样单元101输入的窄带输入信号之间的听觉加权误差,进行使该听觉加权误差为最小的声源参数的编码。将获得的代码信息输出到复用单元111。另外,声源编码单元104生成窄带解码语音信号并输出到上采样单元109。
另外,关于窄带LSP编码单元103或声源编码单元(窄带用)104,可应用在使用LSP参数的CELP型语音编码装置中普遍使用的电路,例如可利用记载于专利文献2或ITU-T建议G.729等技术。
在声源编码单元104合成的窄带解码语音信号输入上采样单元109,上采样单元109对该窄带解码语音信号进行上采样处理后输出到加法器110。
在加法器110分别从相位校正单元105输入相位校正后的输入信号,从上采样单元109输入经过上采样的窄带解码语音信号,求两信号的差分信号并输出到声源编码单元(宽带用)108。
相位校正单元105是用于对下采样单元101和上采样单元109产生的相位偏差(延迟)进行校正。相位校正单元105在下采样处理和上采样处理是以线性相位低通滤波器和采样稀疏处理/插零处理(zero insertion)等进行时,进行使输入信号延迟相当于由线性相位低通滤波器产生的延迟的处理,并输出到LSP分析单元(宽带用)106和加法器110。
LSP分析单元(宽带用)106对从相位校正单元105输出的宽带信号进行LSP分析,将获得的宽带LSP参数输出到宽带LSP编码单元107。更具体地说,LSP分析单元(宽带用)106从宽带信号求自相关系数,将该自相关系数变换为LPC后,将LPC变换为LSP来计算宽带LSP参数。此时,LSP分析单元(宽带用)106与LSP分析单元(窄带用)102同样地,为减少自相关系数的截断误差,对自相关系数进行滞后窗的加窗。
如图2所示,宽带LSP编码单元107具备变换单元201和量化单元202。变换单元201对从窄带LSP编码单元103输入的窄带的量化LSP进行变换,求预测宽带LSP,并输出到量化单元202。变换单元201的详细结构及动作将后述。量化单元202使用向量量化等方法对从LSP分析单元(宽带用)106输入的宽带LSP和从LSP变换单元输入的预测宽带LSP的误差信号进行编码,将获得的宽带的量化LSP输出到声源编码单元(宽带用)108,同时将获得的代码信息输出到复用单元111。
声源编码单元(宽带用)108将从宽带LSP编码单元107输入的、被量化的宽带LSP参数变换为线性预测系数,使用所获得的线性预测系数构筑线性预测合成滤波器。然后,声源编码单元108求使用该线性预测合成滤波器合成的合成信号和经相位校正的输入信号之间的听觉加权误差,决定使这个听觉加权误差为最小的声源参数。更详细地说,宽带输入信号和上采样后的窄带解码信号的误差信号另外从加法器110输入声源编码单元108,求该误差信号和声源编码单元108生成的解码信号之间的误差,并决定声源参数,以使对该误差施以听觉加权后的误差最小。将获得的声源参数的代码信息输出到复用单元111。关于这个声源编码,例如公开在「K.Koishidaet al,“A16-kbit/s bandwidth scalable audio coder based on the G.729 standard,”IEEE Proc.ICASSP 2000,PP.1149-1152,2000 」。
在复用单元111,从窄带LSP编码单元103输入窄带LSP的编码信息,从声源编码单元(窄带用)104输入窄带信号的声源编码信息,从宽带LSP编码单元107输入宽带LSP的编码信息,并且从声源编码单元(宽带用)108输入宽带信号的声源编码信息。复用单元111对这些信息进行复用,并作为比特流送到传输路径。另外,比特流根据传输路径的规格,被帧化为传输信道帧或被分组化。另外,为了提高对传输路径差错的抗性,附加差错保护或差错检测码,或采用交织处理等。
图3是表示上述变换单元201的主要结构的方框图。变换单元201包括:自相关系数变换单元301、反向滞后窗(inverse lag window)单元302、外推(extrapolation)单元303、上采样单元304、滞后窗单元305、LSP变换单元306、乘法单元307以及变换系数表308。
自相关系数变换单元301将Mn次的窄带LSP变换为Mn次的自相关系数并输出到反向滞后窗单元302。更具体地说,自相关系数变换单元301将从窄带LSP编码单元103输入的窄带的量化LSP参数变换为LPC(线性预测系数)后,将LPC变换为自相关系数。
从LSP到LPC的变换,例如已公开在P.Kabal and R.P.Ramachandran,“The Computation of Line Spectral Frequencies Using ChevyshevPolynomials,”IEEE Trans.on Acoustics,Speech,and Signal Processing,vol.ASSP-34,no.6,December1986(此文献中的LSF与本实施方式中的LSP意思相同)。另外,例如在ITU-T建议G.729(3.2.6节LSP to LP conversion)也公开了从LSP到LPC的具体变换过程。
再有,关于从LPC到自相关系数的变换是使用Levinson-Durbin的算法(例如参照中沟高好“现代制御シリ一ズ信号解析とシステム同定”,コロナ社,p.71、3.6.3章)进行。具体是基于式(3)进行。
Rm:m次的自相关函数
σm 2:m次线性预测的残差功率(残差的均方值(square mean value))
Km:m次的反射系数
ai (m):m次线性预测的i次(第i个)线性预测系数
反向滞后窗单元302对输入的自相关系数设置与设置在该自相关系数的滞后窗相反特性的窗(反向滞后窗)。如上所述,在LSP分析单元(窄带用)102中,由于在从自相关系数到LPC的变换时在自相关系数设置滞后窗,在从自相关系数变换单元301输入到反向滞后窗单元302的自相关系数仍然设置有滞后窗。因此,反向滞后窗单元302为提供后述的外推处理的精度,对输入的自相关系数设置反向滞后窗,恢复成在LSP分析单元(窄带用)102设置滞后窗之前的自相关系数,并输出到外推单元303。
在窄带的编码层中超过Mn次的次数的自相关系数不被编码,因此必须仅从到Mn次为止的信息求出超过Mn次的次数的自相关系数。因此,外推单元303对从反向滞后窗单元302输入的自相关系数进行外推处理,扩展自相关系数的次数,将次数扩展后的自相关系数输出到上采样单元304。也就是说,外推单元303将Mn次的自相关系数扩展为(Mn+Mi)次。这是因为在后述的上采样处理中需要比Mn次高次的自相关系数,所以进行该外推处理。另外,为减少在后述的上采样处理时的截断误差,在本实施方式中,使窄带LSP参数的分析次数为宽带LSP参数的分析次数的二分之一以上。也就是说,使(Mn+Mi)次低于Mn次的两倍。外推单元303在Levinson-Durbin的算法(式(3))中使超过Mn次的部分的反射系数为0,由此递归地求出(Mn+1)次~(Mn+Mi)次的自相关系数。使在式(3)中超过Mn次的部分的反射系数为0时,可获得式(4)。
式(4)可展开为式(5)。如式(5)所示,可知使反射系数为0而获得的自相关系数Rm+1是由线性预测从输入信号时间波形xt+m+1-i(i=1~m)获得的预测值[x^t+m+1]与输入信号时间波形xt之间的互相关。也就是说,在外推单元303使用线性预测进行自相关系数的外推处理。通过进行这样的外推处理,能够通过后述的上采样处理获得能变换为稳定的LPC的自相关系数。
上采样单元304对从外推单元输入的自相关系数,也就是将次数扩展为(Mn+Mi)次的自相关系数进行与在时域的上采样处理等价的在自相关域(autocorrelation domain)的上采样处理,获得Mw次的自相关系数。该上采样后的自相关系数被输出到滞后窗单元305。使用对sinc函数进行卷积的插值滤波器(多相滤波器、FIR滤波器等)进行上采样处理。下面,说明自相关系数的上采样处理的具体过程。
使用sinc函数以离散的信号x(nΔt)对连续信号u(t)进行插值时,表示为式(6)。因此,将u(t)的采样频率上采样为两倍时,成为如式(7)和式(8)所示。
式(7)是上采样后成为偶数样本的点,上采样前的x(i)直接成为u(2i)。
并且,式(8)是上采样后成为奇数样本的点,通过将sinc函数卷积成x(i)来求出u(2i+1)。该卷积处理由反转x(i)的时间轴后的结果与sinc函数的乘积之和表示。乘积求和处理使用x(i)前后的点进行,因此乘积求和所需要的数据数例如为2N+1时,需要x(i-N)~x(i+N)来求出u(2i+1)的点。因此,在该上采样处理中,上采样前的数据的时间长度必须大于上采样后的数据的时间长度。因此,在本实施方式中,相对于对窄带信号的每个带宽的分析次数,使对宽带信号的每个带宽的分析次数较小。
另外,上采样后的自相关函数R(j)使用将x(i)上采样的u(i),表示如式(9)。
将式(7)和式(8)代入式(9)并化简后,获得式(10)和式(11)。式(10)表示成为偶数样本的点,式(11)表示成为奇数样本的点。
其中,在式(10)和式(11),r(j)是上采样前的x(i)的自相关系数。因此,可知如果使用式(10)和式(11)将上采样前的自相关系数r(j)上采样到R(j),则相当于进行在时域的从x(i)到u(i)的上采样后求得自相关系数。这样,通过由上采样单元304进行与在时域的上采样处理等价的在自相关域的上采样处理,能够将上采样造成的误差的产生抑制到最小限度。
另外,上采样处理除了式(6)~式(11)所示的处理之外,例如也能够使用ITU-T建议G.729(3.7节)记载的处理近似地进行。在ITU-T建议G.729中,以在音调分析中进行分数精度音调搜索(fractional-accuracy pitch search)为目的来执行互相关系数的上采样。例如,以1/3精度对归一化互相关系数进行插值(相当于三倍的上采样)。
滞后窗单元305对从上采样单元304输入的上采样后的Mw次的自相关系数设置宽带用(高采样率用)的滞后窗,输出到LSP变换单元306。
LSP变换单元306将设置了滞后窗的Mw次的自相关系数(分析次数为低于窄带LSP参数的分析次数的两倍的自相关系数)变换为LPC后,将LPC变换为LSP求出Mw次的LSP参数。由此可获得Mw次的窄带LSP。Mw次的窄带LSP被输出到乘法单元307。
乘法单元307将从LSP变换单元306输入的Mw次的窄带LSP与存储在变换系数表308的变换系数相乘,将Mw次的窄带LSP的频带变换为宽带。通过这个变换,乘法单元307由Mw次的窄带LSP求出Mw次的预测宽带LSP并输出到量化单元202。另外,这里虽然使变换系数事先存储在变换系数表308,但也可以使用自适应地计算出的变换系数。例如,可以使用紧前的帧的宽带量化LSP对窄带量化LSP的比值作为变换系数。
如上述,变换单元201对从窄带LSP编码单元103输入的窄带LSP进行变换,求出预测宽带LSP。
接着使用图4说明本实施方式的可扩展编码装置的动作流程。在图4中,示出对窄带语音信号(8kHz采样,Fs:8kHz)进行1 2次的LSP分析,对宽带语音信号(16kHz采样,Fs:16kHz)进行18次的LSP分析的情况作为一个例子。
首先,在Fs:8kHz(窄带)中,将窄带语音信号(401)变换为12次的自相关系数(402),将12次的自相关系数(402)变换为12次的LPC(403),然后将12次的LPC(403)变换为12次的LSP(404)。
在此,12次的LSP(404)可反向变换(恢复)为12次的LPC(403),12次的LPC(403)可反向变换(恢复)为12次的自相关系数(402)。另一方面,不能将12次的自相关系数(402)恢复成原本的语音信号(401)。
因此,本实施方式的可扩展编码装置通过在自相关域进行与在时域的上采样等价的上采样,求出Fs:16kHz(宽带)的自相关系数(405)。换言之,对Fs:8kHz的12次的自相关系数(402)进行上采样,求出Fs:16kHz的18次的自相关系数(405)。
然后,在Fs:16kHz(宽带)中,将18次的自相关系数(405)变换为18次的LPC(406),将18次的LPC(406)变换为18次的LSP(407)。该18次的LSP(407)被使用为预测宽带LSP。
另外,在Fs:16kHz(宽带)中,由于需要进行与基于宽带语音信号求出自相关系数模拟等价的处理,在进行自相关域的上采样时,如上述,进行自相关系数的外推处理,使Fs:8kHz的自相关系数的次数:12次扩展为18次。
接着,使用图5和图6说明反向滞后窗单元302进行的反向滞后窗的设置和外推单元303进行外推处理的效果。
图5是表示扩展Mn次的自相关系数而获得的(Mn+Mi)次的自相关系数的图。在图5中,501是从实际的窄带输入语音信号(低采样率)求出的自相关系数,此为理想的自相关系数。与此相对,如本实施方式所示,502是在自相关系数设置反向滞后窗后进行外推处理求得的自相关系数。并且,503是不在自相关系数设置反向滞后窗而直接进行外推处理求得的自相关系数。另外,在503,为使规模一致,在进行外推处理后设置反向滞后窗。由图5的结果可知,在外推的部分(Mi=5的部分),503比502更歪曲。换言之,如本实施方式所示,通过在自相关系数设置反向滞后窗后进行外推处理,能够提高自相关系数的外推处理的精度。另外,504是不进行如本实施方式所示的外推处理,将自相关系数的Mi次填0扩展而求得的自相关系数。
图6是表示由对图5的各个结果进行上采样处理而获得的自相关系数求出的LPC频谱包络的图。601是从包含4kHz以上的频带的宽带信号求出的LPC频谱包络。并且,602和502、603和503、604和504分别对应。由图6所示的结果,通过从对自相关系数(504)进行上采样处理而获得的自相关系数求出LPC时,频谱特性会如604所示的陷入振荡状态,该自相关系数(504)通过将Mi次填0扩展而求得。这样,如果将Mi次(扩展部分)填0扩展的话,由于不能进行自相关系数的适宜的插值(上采样),将自相关系数变换为LPC时会振荡,而无法获得稳定的滤波器。如果像这样LPC陷入振荡状态的话,会变得无法进行从LPC到LSP的变换处理。与此相对,可知如果像本实施方式一样,从对进行外推处理扩展Mi次的自相关系数进行上采样后的自相关系数求出LPC的话,变得像602和603一样,能够精度良好的求出宽带信号的低于4kHz的窄带分量。这样,根据本实施方式,能够精度良好地进行自相关系数的上采样。换言之,根据本实施方式,通过进行如式(4)和式(5)所示的外推处理,能够对自相关系数进行适宜的上采样处理,获得稳定的LPC。
接着,将LSP的模拟结果示于图7~图9。图7表示以12次分析Fs:8kHz的窄带语音信号的LSP,图8表示由图1所示的可扩展编码装置将以12次分析窄带语音信号的LSP变换为Fs:16kHz的18次的LSP时的情况,图9表示以18次分析宽带语音信号的LSP。在图7~图9中,实线表示输入语音信号(宽带)的频谱包络,虚线表示LSP。该频谱包络为女声的“kanrisisutemu(日文的管理系统)”的“kanri(日文的管理)”的“n”的部分。然而,在近年来的CELP方式中,由于使用窄带用的分析次数为10~14次、宽带用的分析次数为16~20次左右的CELP方式的情况较多,使图7的窄带的分析次数为12次,图8和图9的宽带的分析次数为18次。
首先比较图7和图9。在图7和图9中,若着眼于相同次数的LSP之间的对应关系,例如图7的LSP(L1~L12)中8次的LSP(L8)虽然位于频谱峰值701(左边数来的第二个频谱峰值)的附近,图9的8次的LSP(L8)位于频谱峰值702(左边数来的第三个频谱峰值)的附近。换言之,图7和图9的相同次数的LSP位于完全不同的位置。因此,可以说将以12次分析窄带语音信号的LSP和以18次分析宽带语音信号的LSP直接相对应并不适宜。
与此相对,比较图8和图9时,可知相同次数的LSP之间的对应从整体看来较佳。尤其在3.5kHz以下的低频中,可知其对应关系良好。如上所述,根据本实施方式,能够精度良好地将任意次数的窄带(低采样频率)LSP参数变换为任意次数的宽带(高采样频率)LSP参数。
如上述说明,本实施方式的可扩展编码装置获得在频率轴方向具有可扩展性的窄带和宽带的量化LSP参数。
本发明的可扩展编码装置可以装载在移动通信系统中的通信终端装置和基站装置中。据此,可以提供具有上述作用和效果的通信终端装置和基站装置。
然而,在上述实施方式中,将上采样单元304进行使采样频率成为两倍的上采样处理的情况作为一个例子进行了说明。可是,本发明的上采样处理不被限定于使采样频率成为两倍的处理。换言之,只要是使采样频率成为n倍(n为2以上的自然数)的上采样处理即可。并且,在使采样频率成为n倍的上采样的情况,本发明使窄带LSP参数的分析次数为宽带LSP参数的分析次数的1/n以上,亦即,使(Mn+Mi)次低于Mn次的n倍。
另外,在上述实施方式中虽然说明了对LSP参数进行编码的情况,但本发明也可适用于ISP(Immittance Spectrum Pairs)参数。
再有,在上述实施方式中以频带可扩展编码的层为两个的情况,也就是由窄带和宽带的两个频带构成的频带可扩展编码为例进行了说明,但本发明也可适用于由三个以上的频带(层)构成的频带可扩展编码或频带可扩展解码。
另外,一般对自相关系数进行与设置滞后窗不同的被称为White-noiseCorrection的处理(作为与将输入语音信号和微弱的背景噪声(noise floor)相加等价的处理,对0次的自相关系数乘以稍微比1大的数目(例如1.0001)的处理,或是以比1稍微大的数目(例如1.0001)除以0次以外的所有的自相关系数的处理)。在本实施方式中虽然没有有关White-noise Correction的记载,但一般将White-noise Correction包含在设置滞后窗的处理中(换言之,将对滞后窗的系数施以White-noise Correction后的结果作为实际的滞后窗的系数加以使用)。因此,本发明也可以将White-noise Correction包含在设置滞后窗的处理中。
再有,在上述实施方式中以硬件构成本发明的情况为例进行了说明,但本发明也能够以软件实现。
并且,上述各实施方式的说明中使用的各功能块可实现为一般作为集成电路的LSI。这些块既可是每个块分别集成到一个芯片,或者可以是部分或所有块集成到一个芯片。
虽然此处称为LSI,但根据集成程度,可以称为IC、系统LSI、高级LSI(Super LSI)、或超级LSI(Ultra LSI)。
另外,实现集成电路化的方法不仅限于LSI,也可使用专用电路或通用处理器来实现。在LSI制造后可利用可编程的FPGA(Field ProgrammableGate Array),或者可以使用可重构LSI内部的电路单元的连接或设定的可重构处理器。
再有,随着半导体的技术进步或随之派生的其他技术的出现,如果能够出现替代LSI集成回路化的新技术,当然可利用此技术进行功能块的集成化。并且存在着适用生物技术等的可能性。
本说明书基于2004年9月6日申请的日本专利申请特愿第2004-258924号。该全部内容包含于此。
工业实用性
本发明的可扩展编码装置和可扩展编码方法适用于移动通信系统和使用因特网协议的分组通信系统等的通信装置的用途。
Claims (8)
1、一种由窄带LSP参数获得宽带LSP参数的可扩展编码装置,包括:
第一变换单元,将窄带LSP参数变换为自相关系数;
上采样单元,上采样所述自相关系数;
第二变换单元,将上采样后的所述自相关系数变换为LSP参数;以及
第三变换单元,将所述LSP参数的频带变换为宽带,获得宽带LSP参数。
2、如权利要求1所述的可扩展编码装置,其中
所述上采样单元使所述自相关系数的采样频率为n倍(n为2以上的自然数),
所述第二变换单元将低于所述窄带LSP参数的分析次数的n倍的分析次数的所述自相关系数变换为所述LSP参数。
3、如权利要求1所述的可扩展编码装置,其中,还包括:
外推单元,进行将所述自相关系数的次数扩展的外推处理。
4、如权利要求1所述的可扩展编码装置,其中,还包括:
开窗单元,对所述自相关系数设置与设置在所述窄带LSP参数的滞后窗为相反特性的窗。
5、如权利要求1所述的可扩展编码装置,其中
所述上采样单元进行与在时域的上采样等价的在自相关域的上采样。
6、一种通信终端装置,包括如权利要求1所述的可扩展编码装置。
7、一种基站装置,包括如权利要求1所述的可扩展编码装置。
8、一种由窄带LSP参数获得宽带LSP参数的可扩展编码方法,包括:
第一变换步骤,将窄带LSP参数变换为自相关系数;
上采样步骤,上采样所述自相关系数;
第二变换步骤,将上采样后的所述自相关系数变换为LSP参数;以及
第三变换步骤,将所述LSP参数的频带变换为宽带,获得宽带LSP参数。
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP258924/2004 | 2004-09-06 | ||
JP2004258924 | 2004-09-06 | ||
PCT/JP2005/016099 WO2006028010A1 (ja) | 2004-09-06 | 2005-09-02 | スケーラブル符号化装置およびスケーラブル符号化方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN101023472A true CN101023472A (zh) | 2007-08-22 |
CN101023472B CN101023472B (zh) | 2010-06-23 |
Family
ID=36036295
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN2005800316906A Expired - Fee Related CN101023472B (zh) | 2004-09-06 | 2005-09-02 | 可扩展编码装置和可扩展编码方法 |
Country Status (10)
Country | Link |
---|---|
US (1) | US8024181B2 (zh) |
EP (1) | EP1785985B1 (zh) |
JP (1) | JP4937753B2 (zh) |
KR (1) | KR20070051878A (zh) |
CN (1) | CN101023472B (zh) |
AT (1) | ATE406652T1 (zh) |
BR (1) | BRPI0514940A (zh) |
DE (1) | DE602005009374D1 (zh) |
RU (1) | RU2007108288A (zh) |
WO (1) | WO2006028010A1 (zh) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2010000179A1 (zh) * | 2008-06-30 | 2010-01-07 | 华为技术有限公司 | 频带扩展的方法、系统和设备 |
CN102783034A (zh) * | 2011-02-01 | 2012-11-14 | 华为技术有限公司 | 用于提供信号处理系数的方法和设备 |
CN103915101A (zh) * | 2012-12-31 | 2014-07-09 | Nxp股份有限公司 | 信号处理装置及其操作方法 |
Families Citing this family (22)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
ATE534990T1 (de) * | 2004-09-17 | 2011-12-15 | Panasonic Corp | Skalierbare sprachcodierungsvorrichtung, skalierbare sprachdecodierungsvorrichtung, skalierbares sprachcodierungsverfahren, skalierbares sprachdecodierungsverfahren, kommunikationsendgerät und basisstationsgerät |
WO2006062202A1 (ja) * | 2004-12-10 | 2006-06-15 | Matsushita Electric Industrial Co., Ltd. | 広帯域符号化装置、広帯域lsp予測装置、帯域スケーラブル符号化装置及び広帯域符号化方法 |
DE602006015461D1 (de) * | 2005-05-31 | 2010-08-26 | Panasonic Corp | Einrichtung und verfahren zur skalierbaren codierung |
WO2007000988A1 (ja) * | 2005-06-29 | 2007-01-04 | Matsushita Electric Industrial Co., Ltd. | スケーラブル復号装置および消失データ補間方法 |
FR2888699A1 (fr) * | 2005-07-13 | 2007-01-19 | France Telecom | Dispositif de codage/decodage hierachique |
US8069035B2 (en) * | 2005-10-14 | 2011-11-29 | Panasonic Corporation | Scalable encoding apparatus, scalable decoding apparatus, and methods of them |
EP1959431B1 (en) * | 2005-11-30 | 2010-06-23 | Panasonic Corporation | Scalable coding apparatus and scalable coding method |
US8352254B2 (en) * | 2005-12-09 | 2013-01-08 | Panasonic Corporation | Fixed code book search device and fixed code book search method |
WO2007119368A1 (ja) * | 2006-03-17 | 2007-10-25 | Matsushita Electric Industrial Co., Ltd. | スケーラブル符号化装置およびスケーラブル符号化方法 |
US20090240494A1 (en) * | 2006-06-29 | 2009-09-24 | Panasonic Corporation | Voice encoding device and voice encoding method |
RU2009136436A (ru) * | 2007-03-02 | 2011-04-10 | Панасоник Корпорэйшн (Jp) | Кодирующее устройство и способ кодирования |
KR100921867B1 (ko) * | 2007-10-17 | 2009-10-13 | 광주과학기술원 | 광대역 오디오 신호 부호화 복호화 장치 및 그 방법 |
BR122021007798B1 (pt) | 2008-07-11 | 2021-10-26 | Fraunhofer-Gesellschaft Zur Forderung Der Angewandten Forschung E. V. | Codificador de áudio e decodificador de áudio |
CN101609678B (zh) * | 2008-12-30 | 2011-07-27 | 华为技术有限公司 | 信号压缩方法及其压缩装置 |
WO2012053149A1 (ja) * | 2010-10-22 | 2012-04-26 | パナソニック株式会社 | 音声分析装置、量子化装置、逆量子化装置、及びこれらの方法 |
EP3279895B1 (en) | 2011-11-02 | 2019-07-10 | Telefonaktiebolaget LM Ericsson (publ) | Audio encoding based on an efficient representation of auto-regressive coefficients |
ES2575693T3 (es) | 2011-11-10 | 2016-06-30 | Nokia Technologies Oy | Un método y un aparato para detectar tasa de muestreo de audio |
US9396734B2 (en) | 2013-03-08 | 2016-07-19 | Google Technology Holdings LLC | Conversion of linear predictive coefficients using auto-regressive extension of correlation coefficients in sub-band audio codecs |
EP3511935B1 (en) | 2014-04-17 | 2020-10-07 | VoiceAge EVS LLC | Method, device and computer-readable non-transitory memory for linear predictive encoding and decoding of sound signals upon transition between frames having different sampling rates |
JP6018724B2 (ja) * | 2014-04-25 | 2016-11-02 | 株式会社Nttドコモ | 線形予測係数変換装置および線形予測係数変換方法 |
KR20180026528A (ko) | 2015-07-06 | 2018-03-12 | 노키아 테크놀로지스 오와이 | 오디오 신호 디코더를 위한 비트 에러 검출기 |
US10824917B2 (en) | 2018-12-03 | 2020-11-03 | Bank Of America Corporation | Transformation of electronic documents by low-resolution intelligent up-sampling |
Family Cites Families (24)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US93279A (en) * | 1869-08-03 | Gustav cramer and julius gross | ||
US539355A (en) * | 1895-05-14 | Cushion-stamp | ||
JP3483958B2 (ja) * | 1994-10-28 | 2004-01-06 | 三菱電機株式会社 | 広帯域音声復元装置及び広帯域音声復元方法及び音声伝送システム及び音声伝送方法 |
JP2956548B2 (ja) * | 1995-10-05 | 1999-10-04 | 松下電器産業株式会社 | 音声帯域拡大装置 |
JP3747492B2 (ja) * | 1995-06-20 | 2006-02-22 | ソニー株式会社 | 音声信号の再生方法及び再生装置 |
US5710863A (en) * | 1995-09-19 | 1998-01-20 | Chen; Juin-Hwey | Speech signal quantization using human auditory models in predictive coding systems |
JPH09127985A (ja) * | 1995-10-26 | 1997-05-16 | Sony Corp | 信号符号化方法及び装置 |
TW321810B (zh) * | 1995-10-26 | 1997-12-01 | Sony Co Ltd | |
EP0878790A1 (en) * | 1997-05-15 | 1998-11-18 | Hewlett-Packard Company | Voice coding system and method |
JP3134817B2 (ja) * | 1997-07-11 | 2001-02-13 | 日本電気株式会社 | 音声符号化復号装置 |
EP1002312B1 (en) * | 1997-07-11 | 2006-10-04 | Philips Electronics N.V. | Transmitter with an improved harmonic speech encoder |
US6539355B1 (en) * | 1998-10-15 | 2003-03-25 | Sony Corporation | Signal band expanding method and apparatus and signal synthesis method and apparatus |
JP2000122679A (ja) * | 1998-10-15 | 2000-04-28 | Sony Corp | 音声帯域拡張方法及び装置、音声合成方法及び装置 |
CA2252170A1 (en) * | 1998-10-27 | 2000-04-27 | Bruno Bessette | A method and device for high quality coding of wideband speech and audio signals |
US6732070B1 (en) * | 2000-02-16 | 2004-05-04 | Nokia Mobile Phones, Ltd. | Wideband speech codec using a higher sampling rate in analysis and synthesis filtering than in excitation searching |
FI119576B (fi) * | 2000-03-07 | 2008-12-31 | Nokia Corp | Puheenkäsittelylaite ja menetelmä puheen käsittelemiseksi, sekä digitaalinen radiopuhelin |
US7013269B1 (en) * | 2001-02-13 | 2006-03-14 | Hughes Electronics Corporation | Voicing measure for a speech CODEC system |
DE60120504T2 (de) * | 2001-06-26 | 2006-12-07 | Nokia Corp. | Verfahren zur transcodierung von audiosignalen, netzwerkelement, drahtloses kommunikationsnetzwerk und kommunikationssystem |
US6895375B2 (en) * | 2001-10-04 | 2005-05-17 | At&T Corp. | System for bandwidth extension of Narrow-band speech |
JP2003241799A (ja) | 2002-02-15 | 2003-08-29 | Nippon Telegr & Teleph Corp <Ntt> | 音響符号化方法、復号化方法、符号化装置、復号化装置及び符号化プログラム、復号化プログラム |
JP4433668B2 (ja) * | 2002-10-31 | 2010-03-17 | 日本電気株式会社 | 帯域拡張装置及び方法 |
US7272567B2 (en) * | 2004-03-25 | 2007-09-18 | Zoran Fejzo | Scalable lossless audio codec and authoring tool |
KR20070009644A (ko) * | 2004-04-27 | 2007-01-18 | 마츠시타 덴끼 산교 가부시키가이샤 | 스케일러블 부호화 장치, 스케일러블 복호화 장치 및 그방법 |
WO2005106848A1 (ja) * | 2004-04-30 | 2005-11-10 | Matsushita Electric Industrial Co., Ltd. | スケーラブル復号化装置および拡張レイヤ消失隠蔽方法 |
-
2005
- 2005-09-02 AT AT05776912T patent/ATE406652T1/de not_active IP Right Cessation
- 2005-09-02 RU RU2007108288/09A patent/RU2007108288A/ru not_active Application Discontinuation
- 2005-09-02 US US11/573,761 patent/US8024181B2/en active Active
- 2005-09-02 JP JP2006535719A patent/JP4937753B2/ja not_active Expired - Fee Related
- 2005-09-02 CN CN2005800316906A patent/CN101023472B/zh not_active Expired - Fee Related
- 2005-09-02 BR BRPI0514940-1A patent/BRPI0514940A/pt not_active Application Discontinuation
- 2005-09-02 WO PCT/JP2005/016099 patent/WO2006028010A1/ja active IP Right Grant
- 2005-09-02 EP EP05776912A patent/EP1785985B1/en not_active Not-in-force
- 2005-09-02 DE DE602005009374T patent/DE602005009374D1/de active Active
- 2005-09-02 KR KR1020077005226A patent/KR20070051878A/ko not_active Application Discontinuation
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2010000179A1 (zh) * | 2008-06-30 | 2010-01-07 | 华为技术有限公司 | 频带扩展的方法、系统和设备 |
CN102783034A (zh) * | 2011-02-01 | 2012-11-14 | 华为技术有限公司 | 用于提供信号处理系数的方法和设备 |
CN102783034B (zh) * | 2011-02-01 | 2014-12-17 | 华为技术有限公司 | 用于提供信号处理系数的方法和设备 |
US9800453B2 (en) | 2011-02-01 | 2017-10-24 | Huawei Technologies Co., Ltd. | Method and apparatus for providing speech coding coefficients using re-sampled coefficients |
CN103915101A (zh) * | 2012-12-31 | 2014-07-09 | Nxp股份有限公司 | 信号处理装置及其操作方法 |
Also Published As
Publication number | Publication date |
---|---|
JP4937753B2 (ja) | 2012-05-23 |
KR20070051878A (ko) | 2007-05-18 |
EP1785985A1 (en) | 2007-05-16 |
EP1785985A4 (en) | 2007-11-07 |
US8024181B2 (en) | 2011-09-20 |
RU2007108288A (ru) | 2008-09-10 |
DE602005009374D1 (de) | 2008-10-09 |
EP1785985B1 (en) | 2008-08-27 |
ATE406652T1 (de) | 2008-09-15 |
CN101023472B (zh) | 2010-06-23 |
WO2006028010A1 (ja) | 2006-03-16 |
JPWO2006028010A1 (ja) | 2008-05-08 |
US20070271092A1 (en) | 2007-11-22 |
BRPI0514940A (pt) | 2008-07-01 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN101023472B (zh) | 可扩展编码装置和可扩展编码方法 | |
CN102103860B (zh) | 频谱包络信息量化装置及方法、频谱包络信息解码装置及方法 | |
JP3528258B2 (ja) | 符号化音声信号の復号化方法及び装置 | |
CN103384900B (zh) | 在预测编码与变换编码之间交替的低延迟声音编码 | |
JP4879748B2 (ja) | 最適化された複合的符号化方法 | |
EP3751566B1 (en) | Methods, encoder and decoder for linear predictive encoding and decoding of sound signals upon transition between frames having different sampling rates | |
CN102318004B (zh) | 改进的谐波转置 | |
JP2001222297A (ja) | マルチバンドハーモニック変換コーダ | |
TW200816716A (en) | Systems and methods for including an identifier with a packet associated with a speech signal | |
JP2008536170A (ja) | 帯域幅拡張音声予測励振信号の反疎性フィルタリングのための方法及び装置 | |
EP2128858B1 (en) | Encoding device and encoding method | |
CN101086845A (zh) | 声音编码装置及方法以及声音解码装置及方法 | |
KR20130069821A (ko) | 오디오 신호를 처리하고 결합된 통합형 음성 및 오디오 코덱(usac)을 위한 보다 높은 시간적 입도를 제공하기 위한 장치 및 방법 | |
CN103918028A (zh) | 基于自回归系数的有效表示的音频编码/解码 | |
CN106133832A (zh) | 在装置处切换译码技术的设备及方法 | |
JPWO2009125588A1 (ja) | 符号化装置および符号化方法 | |
KR101452666B1 (ko) | Celp 기반 음성 코더에서의 오디오 신호 대역폭 확장 | |
EP2407964A2 (en) | Speech encoding device, speech decoding device, speech encoding method, and speech decoding method | |
CN101496097A (zh) | 用于在与语音信号相关联的包中包含识别符的系统及方法 | |
JPH05297895A (ja) | 高能率符号化方法 | |
JP3362471B2 (ja) | 音声信号の符号化方法及び復号化方法 | |
JP3731575B2 (ja) | 符号化装置及び復号装置 | |
WO2011048810A1 (ja) | ベクトル量子化装置及びベクトル量子化方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
C14 | Grant of patent or utility model | ||
GR01 | Patent grant | ||
TR01 | Transfer of patent right | ||
TR01 | Transfer of patent right |
Effective date of registration: 20170522 Address after: Delaware Patentee after: III Holding 12 limited liability company Address before: Osaka Japan Patentee before: Matsushita Electric Industrial Co., Ltd. |
|
CF01 | Termination of patent right due to non-payment of annual fee | ||
CF01 | Termination of patent right due to non-payment of annual fee |
Granted publication date: 20100623 Termination date: 20180902 |