CN101213590B - 可扩展解码装置及丢失数据插值方法 - Google Patents
可扩展解码装置及丢失数据插值方法 Download PDFInfo
- Publication number
- CN101213590B CN101213590B CN200680023585.2A CN200680023585A CN101213590B CN 101213590 B CN101213590 B CN 101213590B CN 200680023585 A CN200680023585 A CN 200680023585A CN 101213590 B CN101213590 B CN 101213590B
- Authority
- CN
- China
- Prior art keywords
- gain
- narrow band
- coded data
- signal
- extension layer
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
- 238000000034 method Methods 0.000 title claims description 16
- 238000001228 spectrum Methods 0.000 claims abstract description 82
- 238000004891 communication Methods 0.000 claims description 7
- 239000010410 layer Substances 0.000 abstract description 140
- 239000012792 core layer Substances 0.000 abstract description 45
- 238000001514 detection method Methods 0.000 abstract description 6
- 230000015556 catabolic process Effects 0.000 abstract 1
- 238000006731 degradation reaction Methods 0.000 abstract 1
- 230000008034 disappearance Effects 0.000 abstract 1
- 238000004364 calculation method Methods 0.000 description 19
- 230000009467 reduction Effects 0.000 description 18
- 238000005516 engineering process Methods 0.000 description 11
- 239000000203 mixture Substances 0.000 description 11
- 238000012545 processing Methods 0.000 description 9
- 230000008859 change Effects 0.000 description 8
- 238000005070 sampling Methods 0.000 description 6
- 230000003044 adaptive effect Effects 0.000 description 5
- 239000002131 composite material Substances 0.000 description 5
- 230000006866 deterioration Effects 0.000 description 5
- 230000009471 action Effects 0.000 description 3
- 238000004458 analytical method Methods 0.000 description 3
- 230000005540 biological transmission Effects 0.000 description 3
- 238000006243 chemical reaction Methods 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 238000001914 filtration Methods 0.000 description 2
- 230000006870 function Effects 0.000 description 2
- 238000010295 mobile communication Methods 0.000 description 2
- 230000008569 process Effects 0.000 description 2
- 241001269238 Data Species 0.000 description 1
- 230000033228 biological regulation Effects 0.000 description 1
- 238000004422 calculation algorithm Methods 0.000 description 1
- 238000012937 correction Methods 0.000 description 1
- 230000008878 coupling Effects 0.000 description 1
- 238000010168 coupling process Methods 0.000 description 1
- 238000005859 coupling reaction Methods 0.000 description 1
- 238000013016 damping Methods 0.000 description 1
- 238000009795 derivation Methods 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 238000013213 extrapolation Methods 0.000 description 1
- 230000014759 maintenance of location Effects 0.000 description 1
- 230000000737 periodic effect Effects 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 229920006395 saturated elastomer Polymers 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
- 238000000926 separation method Methods 0.000 description 1
- 230000003595 spectral effect Effects 0.000 description 1
- 238000003860 storage Methods 0.000 description 1
- 238000005728 strengthening Methods 0.000 description 1
- 238000012360 testing method Methods 0.000 description 1
- 230000007704 transition Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/005—Correction of errors induced by the transmission channel, if related to the coding algorithm
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/04—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
- G10L19/16—Vocoder architecture
- G10L19/18—Vocoders using multiple modes
- G10L19/24—Variable rate codecs, e.g. for generating different qualities using a scalable representation such as hierarchical encoding or layered encoding
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Signal Processing (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Quality & Reliability (AREA)
- Compression, Expansion, Code Conversion, And Decoders (AREA)
Abstract
公开了在频带可扩展编码的丢失数据插值处理中,能够防止解码信号的质量恶化的可扩展解码装置。在该装置中,核心层解码单元(101)通过解码得到核心层解码信号和窄带频谱信息。窄带谱斜率计算单元(103)基于窄带频谱信息,计算窄带谱的衰减直线的斜率。扩展层丢失检测单元(104)检测扩展层编码数据是否丢失。扩展层解码单元(105)一般对扩展层编码数据进行解码,而且,在扩展层丢失时,对解码所需的参数进行插值,以插值后的参数合成插值解码信号。这里,插值数据的增益基于窄带谱斜率计算单元(103)的计算结果被控制。
Description
技术领域
本发明涉及可扩展解码装置及丢失数据插值方法。
背景技术
可扩展语音编码具有如下特征:由于分层地对语音信号进行编码,所以即使丢失了某些分层(层:layer)的编码数据(编码信息),也能够基于其它的分层的编码数据解码出语音信号。在可扩展语音编码中,将分层地对窄带语音信号和宽带语音信号进行编码的技术称为“频带可扩展语音编码”。
一般而言,在频带可扩展语音编码中,在最基本的分层对窄带信号进行处理,而且随着分层的增加,将下位分层的信号以上的宽带信号作为对象。因此,在本说明书中,将最基本(核心)的编码/解码处理层称为“核心层(corelayer)”,而将进行比核心层更高质量化和宽带化的编码/解码处理层称为“扩展层(enhancement layer)”。
另外,因为具有即使丢失了一部分的层的编码数据也能够进行解码的特征,在可扩展编码中使用的语音编解码器(codec)适合于使用像IP网那样的分组通信路径,作为数据交换语音信号的VoIP(Voice over IP)用的编码。
但是,在尽力(best effort)型的分组通信中,传输频带一般不被保证,有因一部分的分组丢失或延迟等的原因而欠缺一部分的编码数据的可能性。例如,如果通信路径的业务量缘于拥塞等饱和,编码数据因分组的丢弃而在传输路径的中途失去。由于这样的编码数据的欠缺,在解码装置中发生各种各样的状况,诸如,完全不能进行解码、只接收核心层的编码信息、以及接收直到扩展层的所有信息。而且,由于这样的状况随时间的经过而连续不断地发生,所以例如也会发生需要对只接收核心层的编码信息的帧和接收包括直到扩展层的编码信息的帧,在时间上切换且交替地进行解码的状况。在这样的情况下,层的切换的发生会使声音大小和频带扩展感(band spread)变得不连续,从而导致解码信号的音质恶化。
例如,在非专利文献1中公开了在使用单层的CELP(Code Excited Linear Prediction)的语音编解码器中的帧丢失补偿处理中,在帧丢失时,基于过去的信息对信号的合成所需的各个参数进行插值的技术。在该丢失数据插值技术中,尤其对于增益,以基于过去的被正常接收的帧的增益为基础,通过对该增益使用单调减少的函数来表示对插值数据使用的增益。另外,对于从帧丢失时到编码数据接收时为止的增益控制,作为音调增益使用解码后的音调增益,而且关于代码增益,对在丢失期间中的插值后的插值代码增益和解码后的当前的代码增益进行比较,使用更小的值的代码增益。
非专利文献1:“AMR Speech Codec;Error Concealment of lost frames”TS26.091
发明内容
发明要解决的问题
在非专利文献1中所公开的技术为关于在一般的CELP中的丢失数据的插值的技术,其在数据丢失期间,基本上仅基于过去的信息而减少插值增益。随着插值期间的延长,解码插值语音与原来的解码语音相差越多,所以这是为了防止异音(noise)的发生所需的动作。
但是,如果研究非专利文献1的技术对可扩展语音编解码器的扩展层的丢失数据插值处理的适用,则在扩展层的数据丢失的期间中,根据核心层的解码语音功率变动和扩展层的增益衰减量的状况,插值数据有可能对正常解码的核心层的解码语音的质量造成坏影响,而且给收听者带来异音感和变动感。也就是说,在扩展层丢失时核心层的解码语音功率急剧减少,而且扩展层的插值增益的衰减缓慢的情况下,有时通过进行插值反而导致扩展层的解码信号的质量的恶化。此时,如果恶化了的扩展层的解码语音明显,其结果是给收听者带来异音感。另外,如果在核心层的解码语音功率的变动不大的情况下增大扩展层的插值增益的衰减量,则扩展层的解码语音会急剧地衰减,其结果是给收听者带来变动感。
因此,本发明的目的为提供可扩展解码装置和丢失数据插值方法,在频带可扩展编码的丢失数据插值处理中,防止解码信号的质量恶化,而且不会给收听者带来异音感和变动感。
解决问题的方案
本发明的可扩展解码装置采用的结构包括:窄带解码单元,对窄带信号的编码数据进行解码;宽带解码单元,对宽带信号的编码数据进行解码,并且在该编码数据不存在时,生成代替的插值数据;计算单元,基于所述窄带信号的编码数据中包含的窄带频谱信息,计算所述窄带信号的频谱在频域的衰减程度;以及控制单元,基于所述衰减程度对所述插值数据的增益进行控制。
发明效果
根据本发明,在频带可扩展编码的丢失数据插值处理中,能够防止解码信号的质量恶化,并能够防止给收听者带来异音感和变动感。
附图说明
图1是表示实施方式1的可扩展解码装置的主要结构的方框图;
图2是用于说明窄带谱的斜率的计算处理的图;
图3是用于说明窄带谱的斜率的计算处理的图;
图4是表示实施方式1的窄带谱斜率计算单元内部的主要结构的方框图;
图5是表示实施方式1的扩展层解码单元内部的主要结构的方框图;
图6是表示实施方式1的扩展层增益解码单元内部的主要结构的方框图;
图7是用于说明频谱功率的偏差的示意图;
图8是表示解码出的扩展层的音源信号的功率的变化(transition)的图;以及
图9是表示解码出的扩展层的音源信号的功率的变化的图。
具体实施方式
以下,参照附图详细说明本发明的实施方式。另外,虽然在本说明书中以由两个层构成的分层结构为例进行说明,但是本发明并不限于两个层。
(实施方式1)
图1是表示本发明的实施方式1的可扩展解码装置的主要结构的方框图。这里,以在扩展层对比核心层更宽的频带的信号进行基于CELP(Code ExcitedLinear Prediction)方式的语音编码的情况为例进行说明。
本实施方式的可扩展解码装置包括核心层解码单元101、上采样/相位调整单元102、窄带谱斜率计算单元103、扩展层丢失检测单元104、扩展层解码单元105以及解码信号加法单元106,而且对从编码器(未图示)发送的核心层编码数据和扩展层编码数据进行解码。
本实施方式的可扩展解码装置的各个部分进行以下的动作。
核心层解码单元101对接收到的核心层编码数据进行解码,并将得到的窄带信号即核心层解码信号输出到核心层解码信号分析单元(未图示)和上采样/相位调整单元102。另外,核心层解码单元101将在上述核心层编码数据中包含的窄带频谱信息(关于窄带谱的包络和能源分布等的信息)输出到窄带谱斜率计算单元103。
上采样/相位调整单元102进行调整(校正)核心层解码信号和扩展层解码信号之间的采样速率、延迟和相位的偏离的处理。这里,使核心层解码信号与扩展层解码信号匹配而进行变换。但是,如果核心层解码信号和扩展层解码信号之间的采样速率和相位等相同的话,则不需要校正偏离,根据必要使核心层解码信号成常数倍并将其输出。输出信号被输出到解码信号加法单元106。
窄带谱斜率计算单元103基于从核心层解码单元101输出的窄带频谱信息,计算窄带谱在频域的衰减直线的斜率,并将该计算结果输出到扩展层解码单元105。计算出的窄带谱的衰减直线的斜率,在对扩展层的丢失数据的插值数据的增益(扩展层插值增益)进行控制时使用。
扩展层丢失检测单元104基于与编码数据独立地被发送的差错信息,检测扩展层编码数据是否丢失,即是否能够对扩展层编码数据进行解码。所得到的扩展层的帧差错检测结果(扩展层丢失信息)被输出到扩展层解码单元105。另外,作为数据丢失的检测方法,也可以对附加到编码数据的CRC等的检错码进行检查,对到开始解码的时间为止编码数据是否未到达进行判断,或者检测分组丢失和分组未到达。另外,在扩展层解码单元105所接收的编码数据的解码过程中,在基于包含在扩展层编码数据内的检错码等检测出重大的差错的情况下,也可以由扩展层解码单元105将该差错信息输入到扩展层丢失检测单元104。
扩展层解码单元105一般对接收到的扩展层编码数据进行解码,并将得到的扩展层解码信号输出到解码信号加法单元106。另外,在由扩展层丢失检测单元104通知扩展层丢失信息(帧差错)的情况下,也就是在扩展层的数据丢失时,扩展层解码单元105对解码所需的参数进行插值,利用插值后的参数合成插值解码信号,并将其作为扩展层解码信号输出到解码信号加法单元106。这里,插值数据的增益基于窄带谱斜率计算单元103的计算结果被控制。
解码信号加法单元106将从上采样/相位调整单元102输出的核心层解码信号和从扩展层解码单元105输出的扩展层解码信号相加,并将得到的解码信号输出。
图2和图3是用于说明在窄带谱斜率计算单元103进行的窄带谱的斜率的计算处理的图。窄带谱斜率计算单元103使用线性预测系数之一的LSP(Line Spectrum Pair)系数,如下所示,近似性地计算窄带谱的衰减直线的斜率。
图2和图3的上部的频谱表示窄带谱和宽带谱的例子。在这些图中,以横轴表示频率,纵轴表示功率,而且作为核心层处理4kHz以下的窄带信号,作为扩展层处理8kHz以下的宽带信号的情况为例。在这些图中,以虚线表示的曲线S1和S4为宽带信号的频率包络,而以实线表示的曲线S2和S5为窄带信号的频率包络。一般而言,奈奎斯特频率(Nyquist frequency)附近的窄带信号会与宽带信号乖离,但是奈奎斯特频率以下的频带的频率功率分布会近似。另外,以实线表示的直线S3和S6为窄带谱在频域的衰减直线。该衰减直线为表示了窄带谱的衰减程度的特性曲线,例如通过求各个采样点的回归线而能够得到。
图2的上部的频谱表示窄带谱的衰减直线的斜率(以下简称为“窄带谱的斜率”)较缓的情况的例子,而图3的上部的频谱表示窄带谱的斜率较陡的情况的例子。另外,图2和图3的下部的信号表示在图2和图3的上部所示的窄带谱的LSP系数(将分析次数M设为10次的情况)。
一般而言,LSP系数的各个次数成分,在像共振峰(formant)那样频谱功率集中的地方,有相邻的次数成分相互接近地被配置(LSP系数的各个次数成分密集)的趋向,而在能量不集中的共振峰之间的谷的部分,有相邻的次数成分互相分开地被配置的倾向。这里,LSP系数的相邻的次数意味着例如对次数i的次数i+1那样互相连续的次数。
而且,实际上,在图2和图3的例子中,也呈现在频率f0、f1、f2、f3、f4和f5的附近LSP系数的各个次数成分密集,尤其在功率最集中的第一共振峰附近,LSP系数的各个次数成分之间的距离最小的趋向。而且,在图2的例子中,宽带信号直到高频带都存在,在中频带也呈现共振峰。在这样的情况下,f1和f2附近的LSP系数的各个次数成分之间的距离也相近。另一方面,在图3的例子中,不但在宽带信号中高频带信号的强度较弱,也在中频带未 呈现明显的共振峰。在这样的情况下,与f1和f2相比,f4和f5附近的LSP系数的各个次数成分之间的距离大。因此,反过来说,在LSP系数的各个次数成分之间的距离较小时,在该地方存在更高的能量的可能性较高。
于是,窄带谱斜率计算单元103基于LSP系数的上述特征,将LSP系数的相邻的次数成分之间的距离的平方的倒数之和作为判断功率的大小时的指标。然后,求整个窄带(窄带LSP系数的所有次数成分)的虚拟功率(dummypower)和窄带的高频带部分(以后称为“中频带”)的虚拟功率,并将中频带的虚拟功率与整个窄带的虚拟功率的比视为表示窄带谱的衰减程度的参数。具体而言,可以认为计算出的比相当于窄带谱的斜率,在该斜率较大时,可以说窄带谱在急剧地衰减。
图4是表示实现上述处理的窄带谱斜率计算单元103内部的主要结构的方框图。
窄带谱斜率计算单元103包括全窄带功率计算单元121、中频带功率计算单元122以及除法单元123,而且被输入表示核心层谱包络信息的M次的LSP系数,使用该LSP系数计算窄带谱的斜率并将其输出。
全窄带功率计算单元121基于以下的式(1),从所输入的窄带LSP系数Nlsp[t]计算全窄带的虚拟功率NLSPpowALL[t],并输出到除法单元123。
其中,t表示帧号,M表示窄带LSP系数的分析次数,i表示LSP系数的次数(1≤i≤M)。
中频带功率计算单元122将窄带LSP系数作为输入,计算中频带的虚拟功率,并输出到除法单元123。这里,为了计算中频带的虚拟功率,只使用窄带LSP系数的高频带部分的系数而计算虚拟功率。基于以下的式(2)计算中频带功率NLSPpowMID[t]。
除法单元123基于以下的式(3)将中频带功率除以全窄带功率,从而计算窄带谱的斜率Ntilt[t]。
计算出的窄带谱的斜率被输出到后述的扩展层增益解码单元112。
如上所述,通过使用窄带LSP系数的特征,能够计算窄带谱的斜率。
另外,由于LSP系数的位置会根据窄带谱的分布而发生变化,而且中频带的频带也随此发生变化,所以有时窄带谱的斜率的精确度会降低。但是,该精确度的降低几乎不影响扩展层的插值增益的衰减速度的听觉上的质量。
图5是表示扩展层解码单元105内部的主要结构的方框图。编码数据分离单元111将从编码器(未图示)发送的扩展层编码数据作为输入,并按各个码本分离编码数据。分离后的编码数据被输出到扩展层增益解码单元112、扩展层自适应码本解码单元113、扩展层噪声码本解码单元114以及扩展层LPC解码单元115。
扩展层增益解码单元112解码出提供给音调增益放大单元116和代码增益放大单元117的增益量(gain amount)。具体而言,扩展层增益解码单元112基于扩展层丢失信息和窄带谱斜率信息,控制通过对编码数据进行解码而得到的增益。得到的增益量被分别输出到音调增益放大单元116和代码增益放大单元117。另外,在未能接收编码数据的情况下,使用过去的解码信息和核心层解码信号分析信息而进行丢失数据的插值。
在扩展层自适应码本解码单元113,在扩展层自适应码本中存储着过去的扩展层音源信号,基于从编码器发送的编码数据确定延迟(lag),并且截取相当于该延迟的音调周期分量的信号。输出信号被输出到音调增益放大单元116。另外,在未能接收编码数据的情况下,使用过去的延迟和核心层的信息而进行丢失数据的插值。
扩展层噪声码本解码单元114生成用于表现通过上述的扩展层自适应码本不能完全表现的、即不属于周期分量的噪声性的信号分量的信号。在近年的编解码器中,以代数方式表现该信号的情况较多。输出信号被输出到代码增益放大单元117。另外,在未能接收编码数据的情况下,使用扩展层的过去的解码信息、核心层的解码信息、或者随机数的值等而进行丢失数据的插值。
扩展层LPC解码单元115对从编码器发送的编码数据进行解码,并将得到的线性预测系数输出到扩展层合成滤波器119,作为用于合成滤波器的滤 波系数。另外,在未能接收编码数据的情况下,使用过去接收的编码数据进行丢失数据的插值,或者进一步使用核心层的LPC信息而进行丢失数据的解码。此时,在核心层和扩展层的线性预测的分析次数不同的情况下,先对核心层的LPC进行次数扩张之后再用于插值。
音调增益放大单元116将扩展层自适应码本解码单元113的输出信号,乘以从扩展层增益解码单元112输出的音调增益而进行放大,并输出到音源加法单元118。
代码增益放大单元117将扩展层噪声码本解码单元114的输出信号,乘以从扩展层增益解码单元112输出的代码增益而进行放大,并输出到音源加法单元118。
音源加法单元118通过将从音调增益放大单元116和代码增益放大单元117输出的信号相加而生成扩展层音源信号,并将其输出到扩展层合成滤波器119。
扩展层合成滤波器119由从扩展层LPC解码单元115输出的LPC系数形成合成滤波器,并将从音源加法单元118输出的扩展层音源信号作为输入而驱动,从而得到扩展层解码信号。该扩展层解码信号被输出到解码信号加法单元106。另外,也可以对该扩展层解码信号进一步进行后置滤波(post-filtering)处理。
图6是表示扩展层增益解码单元112内部的主要结构的方框图。扩展层增益解码单元112包括扩展层增益码本解码单元131、增益选择单元132、增益衰减单元134、过去增益存储单元135以及增益衰减率计算单元133,而且在扩展层的数据丢失时,基于过去的扩展层的增益值和窄带谱的斜率的信息,对扩展层的插值增益进行控制。具体而言,它被输入编码数据、扩展层丢失信息以及窄带谱的斜率,而且输出音调增益Gep[t]和代码增益Gec[t]的两种增益。
扩展层增益码本解码单元131接收编码数据之后将其解码,并将得到的解码增益DGep[t]和DGec[t]输出到增益选择元132。
增益选择单元132被输入扩展层丢失信息、解码增益(DGep[t]和DGec[t])以及从过去增益存储单元135输出的过去增益。增益选择单元132基于扩展层丢失信息选择是使用解码增益还是使用过去增益,并将所选择的增益输出到增益衰减单元134。具体而言,在接收到编码数据时输出解码增益,而在 数据丢失时输出过去增益。
增益衰减率计算单元133基于扩展层丢失信息和窄带谱的斜率信息计算增益衰减率,并输出到增益衰减单元134。
增益衰减单元134通过将来自增益选择单元132的输出乘以在增益衰减率计算单元133计算的增益衰减率而求衰减后的增益,并将其输出。
过去增益存储单元135存储由增益衰减单元134衰减后的增益作为过去增益。所存储的过去增益被输出到增益选择单元132。
接着,使用算式具体说明本实施方式的增益控制方法。
在窄带谱的斜率较缓时,增益衰减率计算单元133将增益衰减率设定为较弱,以使增益缓慢地衰减。而且,在窄带谱的斜率较大时,增益衰减率计算单元133将增益衰减率设定为较强,以使增益大幅衰减。增益衰减率可基于以下的式(4)计算。
Gatt[t]=(β*Ntilt[t])*α+(1-α)...(4)
这里,Gatt[t]是增益衰减率,β是用于校正斜率的系数,而且是大于0.0的正数,α是用于控制衰减率的幅度的系数,而且取0.0<α<1.0的值。也可以变更音调增益和代码增益的各个系数。
增益衰减单元134根据以下的式(5)和(6),使音调增益Gep[t]和代码增益Gec[t]衰减。
Gep[t]=Gep[t-1]*Gatt[t] ...(5)
Gec[t]=Gec[t-1]*Gatt[t] ...(6)
接着,对由本实施方式的可扩展解码装置解码后的扩展层的音源信号,使用具体例子进行说明。
图7是表示语音信号的频谱功率的偏差的一例的图。横轴表示时间,而纵轴表示频率。该图中表示功率集中在以斜线表示的频带。
首先,在语音的开始部分,子音分量的大部分分布在约4kHz以上的高频带。然后,大约在T1之后母音分量将持续,而且该母音分量在高频带还带有高谐波分量,直到T3附近为止存在高谐波。另一方面,在从T3到T4之 间,在大约为4kHz以下的低频带中,基本频率附近的约2kHz以下的高谐波分量衰减程度较小,而中频带(3kHz附近)以上的高谐波急剧地衰减,从而不存在高谐波。在该图中所示的状况下,扩展层音源功率也急剧地减少。
图8和图9是表示对呈现图7的频谱功率分布的语音信号进行音源插值处理时的、解码出的扩展层的音源信号的功率的变化的图。横轴表示时间,纵轴表示功率,而且在表示扩展层的音源信号的功率S12的同时表示核心层解码信号的功率S11。另外,S12和S11表示正常接收时的功率。
而且,在这些图中,同时表示扩展层丢失信息(接收/非接收信息)。在图8的例子中,到时刻T1为止为正常接收状态,从T1到T2为因数据丢失而引起的不可接收状态(非接收状态),T2以后为正常接收状态。另外,在图9的例子中,到T3为止为正常接收状态,从T3到T4为非接收状态,T4以后为正常接收状态。
在图8的例子中,表示增益的衰减速度通过本实施方式的可扩展解码装置而被减缓的情况(L2相当于该情况)。在该例子中,在T1丢失扩展层,在扩展层开始音源的插值。例如,在以规定的比率降低增益的方法中设定一个值(L1相当于该值),所示值能够对通过较弱的衰减而维持频带感(band quality)以及通过较强的衰减而避免发生异音的两个相反的要求保持均衡。
另一方面,在图8的例子中,由于高谐波直到高频带都存在,而且在核心层的中频带也存在高谐波,所以存在共振峰的可能性非常高。在这样的情况下,由于窄带谱的斜率较缓,所以本实施方式的可扩展解码装置将扩展层增益的衰减系数设定得较低(L2)。由此,高频带的音源与过去和窄带信号之间具有较强的相关性而容易进行外插,从而能够进行自然的插值。
在图9的例子中,表示增益的衰减速度通过本实施方式的可扩展解码装置而被加快的情况(L4相当于该情况)。在该例子中,在T3丢失扩展层,在扩展层开始音源的插值。例如,在以定率降低增益的方法中,由于与图8的例子同样地只能衰减到高于原来的扩展层的音源功率电平(S14)的增益(L3),所以即使对原来没有信号的频带的信号也进行过度强调而成为发生异音的原因。另一方面,本实施方式的可扩展解码装置将扩展层增益的衰减系数设定得较高(L4)。由此能够衰减到低于原来的扩展层的音源功率电平(S14)的增益,从而能够进行更自然的插值。
在图9的例子(T4附近)中,在中频带以上的高频带端不存在高谐波,信 号功率偏重于低频带。在这样的情况下,根据本实施方式的可扩展解码装置,由于窄带谱的斜率较陡,所以将扩展层插值增益的衰减速度设定得较高。由此,能够避免对原来不存在信号的高频带进行过度强调,从而能够避免发生异音。
如上所述,根据本实施方式,在扩展层的编码数据丢失时,通过使用窄带语音谱的斜率而适当地估计扩展层的插值数据的增益,从而生成自然的插值语音。也就是说,在扩展层丢失时,基于由窄带谱斜率计算单元103得到的窄带谱斜率的结果,根据该斜率对扩展层的插值增益的衰减速度进行控制。具体而言,在窄带谱往高频带端的方向缓慢地减少的情况下,通过减弱扩展层插值增益的衰减而维持频带感。另一方面,在窄带谱往高频带端的方向急剧地减少的情况下,通过加强扩展层插值增益的衰减而防止增益的过大估计,从而防止异音的发生。
更详细地,基于低层的窄带语音的频率信息(包络信息)计算窄带信号的频谱的斜率,在该斜率较大时,即在接近高频带端的方向上功率减少较大时,抑制扩展层的插值增益,而在上述的斜率较小时,使扩展层的插值增益的衰减缓慢。
由于一般基于窄带的信号难以正确地估计更高频带的信号,所以随着扩展层的丢失的延长,被插值的宽带信号变得不正确而会成为音质恶化的原因。因此,可以认为随着扩展层丢失期间的延长衰减扩展层插值信号并切换到窄带信号较为理想,上述窄带信号为虽然没有频带感但是(由于正常接收)正确的解码信号。于是,在本实施方式中,在实现上述操作的扩展层的增益估计中使用以下所示的语音,尤其是母音等的有声音的频率特征。
也就是说,作为第一特征,在核心层的频带(窄带)的谱分布(具体而言为斜率)和包括直到扩展层的频带(宽带)的谱分布之间存在相关性。换而言之,在斜率往高频带的方向缓慢地减少的情况下,有在高频带也继续存在基本频率的高谐波的可能性,因此可以认为高频带端的信号也有功率。另一方面,在斜率往高频带的方向急剧地减少的情况下,在高频带存在高谐波的可能性较低,因此可以认为高频带端的信号的功率较小。
作为第二特征,核心层频带的斜率较缓的信号与过去的信号之间具有相关性。在为母音等的有声音的情况下,由于高谐波直到高频带都存在,所以斜率较缓。由于高谐波容易基于窄带的信号进行估计,而且被认为与低频带 端的信号同样缓慢地变化,所以与过去的信号之间的相关性也较高。另一方面,在核心层频带的斜率急剧减少的情况下,可以认为在高频带端存在高谐波的可能性较低而在高频带端几乎没有信号,或者存在与过去的信号的相关性较低的信号。
根据以上的语音的特征,在核心层频带的斜率较缓时,由于高频带端的信号的功率变动也缓慢而且与过去的信号之间的相关性也较高,所以通过将扩展层增益的衰减设定得较弱,能够得到自然的补偿语音。另一方面,在核心层频带的斜率较陡时,可以认为在高频带端本来不存在功率或者存在与过去的相关性较低的信号,通过将扩展层增益的衰减设定得较强,能够防止异音的发生。
也就是说,通过由本实施方式的可扩展解码装置适当地估计扩展层增益,能够维持扩展层解码信号的频带感,同时能够抑制异音的发生。因此,能够抑制扩展层丢失所带来的异音感,而且能够维持频带感。
另外,虽然在本实施方式中,以在帧丢失时基于窄带谱的斜率对扩展层增益的衰减速度进行控制的情况为例进行了说明,但是也可以通过核心层解码信号的功率或对核心层的增益的相对值来表示扩展层增益,并基于窄带谱斜率对该相对值进行控制。
另外,虽然在本实施方式中,以插值的处理单位为语音编码的处理单位(帧)的情况,也就是对每个帧进行插值的情况为例进行了说明,但是也可以将例如子帧等短于帧的一定时间作为插值的处理单位。
再者,虽然在本实施方式中,以在计算窄带谱的斜率时使用通过对窄带信号的编码数据进行解码而得到的频谱信息的情况为例进行了说明,但是也可以使用在核心层得到的解码信号来代替窄带信号的频谱信息。也就是说,可以对该核心层解码信号通过FFT(快速傅利叶变换)而进行变频,并基于其频率分布计算窄带谱的斜率,而且,在传输线性预测系数或等效的频率包络信息的情况下,也可以基于这些参数得到频率包络信息,并使用该信息计算窄带谱的斜率。
以上说明了本发明的实施方式。
本发明的可扩展解码装置和丢失数据插值方法并不限于上述实施方式,可以施加各种各样的变更而实施。
本发明的可扩展解码装置可以安装在移动通信系统中的通信终端装置以 及基站装置,由此能够提供具有与以上说明同样的作用效果的通信终端装置、基站装置以及移动通信系统。
另外,虽然这里以由硬件构成本发明的情况为例进行了说明,但本发明也可以由软件实现。例如,将本发明所涉及的丢失数据插值方法的算法使用编程语言记述,将该程序存储于存储器并由信息处理单元实行,由此能够实现与本发明所涉及的可扩展解码装置同样的功能。
另外,在上述各实施方式的说明中所使用的各功能块典型地通过集成电路的LSI来实现。这些既可以单独地实行单芯片化,也可以包含其中一部分或者是全部而实行单芯片化。
另外,每个功能块在此虽然称作LSI,但是根据集成度的不同,有时也称为IC、系统LSI、超级LSI(Super LSI)、或超大LSI(Ultra LSI)等。
另外,集成电路化的方法不只限于LSI,也可以使用专用电路或通用处理器来实现。也可以利用能够在LSI制造后编程的FPGA(Field ProgrammableGate Array),或可以利用可对LSI内部的电路单元的连接或设定进行重新配置的可重配置处理器(Reconfigurable Processor)。
再者,如果由半导体技术的进步或者派生的其他技术,出现取代LSI的集成电路化的技术,当然也可以利用该技术来实现功能块的集成化。也有适用生物技术等的可能性。
本说明书基于2005年6月29日提交的日本专利申请特愿2005-189532号。其内容全部包含于此。
工业实用性
本发明的可扩展解码装置和丢失数据插值方法能够适用于移动通信系统中的通信终端装置和基站装置等的用途。
Claims (9)
1.一种可扩展解码装置,包括:
窄带解码单元,对窄带信号的编码数据进行解码;
宽带解码单元,对宽带信号的编码数据进行解码,并且在该编码数据不存在时,生成代替的插值数据;
计算单元,基于所述窄带信号的编码数据中包含的窄带频谱信息,计算所述窄带信号的频谱在频域的衰减程度;以及
控制单元,基于所述衰减程度对所述插值数据的增益进行控制。
2.如权利要求1所述的可扩展解码装置,其中,
所述控制单元基于所述衰减程度对所述增益的衰减速度进行控制。
3.如权利要求1所述的可扩展解码装置,其中,
所述衰减程度为所述窄带信号的频谱的衰减直线的斜率。
4.如权利要求3所述的可扩展解码装置,其中,
所述斜率越陡,所述控制单元就越加快所述增益的衰减速度。
5.如权利要求1所述的可扩展解码装置,其中,
所述窄带信号的编码数据包括所述窄带信号的频谱信息的编码数据。
6.如权利要求1所述的可扩展解码装置,其中,
所述计算单元对所述窄带信号的编码数据进行解码而得到所述窄带信号的频谱,并基于该频谱计算所述衰减程度。
7.一种通信终端装置,具有权利要求1所述的可扩展解码装置。
8.一种基站装置,具有权利要求1所述的可扩展解码装置。
9.一种丢失数据插值方法,包括以下步骤:
对窄带信号的编码数据进行解码;
对宽带信号的编码数据进行解码;
在所述宽带信号的编码数据不存在时,生成代替的插值数据;
基于所述窄带信号的编码数据中包含的窄带频谱信息,计算所述窄带信号的频谱在频域的衰减程度;以及
基于所述衰减程度对所述插值数据的增益进行控制。
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2005189532 | 2005-06-29 | ||
JP189532/2005 | 2005-06-29 | ||
PCT/JP2006/312779 WO2007000988A1 (ja) | 2005-06-29 | 2006-06-27 | スケーラブル復号装置および消失データ補間方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN101213590A CN101213590A (zh) | 2008-07-02 |
CN101213590B true CN101213590B (zh) | 2011-09-21 |
Family
ID=37595238
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN200680023585.2A Expired - Fee Related CN101213590B (zh) | 2005-06-29 | 2006-06-27 | 可扩展解码装置及丢失数据插值方法 |
Country Status (6)
Country | Link |
---|---|
US (1) | US8150684B2 (zh) |
EP (1) | EP1898397B1 (zh) |
JP (1) | JP5100380B2 (zh) |
CN (1) | CN101213590B (zh) |
DE (1) | DE602006009931D1 (zh) |
WO (1) | WO2007000988A1 (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US11792416B2 (en) | 2012-12-21 | 2023-10-17 | Dolby Laboratories Licensing Corporation | High precision up-sampling in scalable coding of high bit-depth video |
Families Citing this family (26)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
FR2897977A1 (fr) * | 2006-02-28 | 2007-08-31 | France Telecom | Procede de limitation de gain d'excitation adaptative dans un decodeur audio |
KR100906766B1 (ko) * | 2007-06-18 | 2009-07-09 | 한국전자통신연구원 | 키 재동기 구간의 음성 데이터 예측을 위한 음성 데이터송수신 장치 및 방법 |
WO2009008220A1 (ja) * | 2007-07-09 | 2009-01-15 | Nec Corporation | 音声パケット受信装置、音声パケット受信方法、およびプログラム |
CN100524462C (zh) * | 2007-09-15 | 2009-08-05 | 华为技术有限公司 | 对高带信号进行帧错误隐藏的方法及装置 |
BRPI0818927A2 (pt) * | 2007-11-02 | 2015-06-16 | Huawei Tech Co Ltd | Método e aparelho para a decodificação de áudio |
CN101308660B (zh) * | 2008-07-07 | 2011-07-20 | 浙江大学 | 一种音频压缩流的解码端错误恢复方法 |
WO2010031003A1 (en) * | 2008-09-15 | 2010-03-18 | Huawei Technologies Co., Ltd. | Adding second enhancement layer to celp based core layer |
CN101964189B (zh) * | 2010-04-28 | 2012-08-08 | 华为技术有限公司 | 语音频信号切换方法及装置 |
EP2581904B1 (en) | 2010-06-11 | 2015-10-07 | Panasonic Intellectual Property Corporation of America | Audio (de)coding apparatus and method |
US9047875B2 (en) * | 2010-07-19 | 2015-06-02 | Futurewei Technologies, Inc. | Spectrum flatness control for bandwidth extension |
KR101747917B1 (ko) | 2010-10-18 | 2017-06-15 | 삼성전자주식회사 | 선형 예측 계수를 양자화하기 위한 저복잡도를 가지는 가중치 함수 결정 장치 및 방법 |
EP3518234B1 (en) * | 2010-11-22 | 2023-11-29 | NTT DoCoMo, Inc. | Audio encoding device and method |
DK3518234T3 (da) | 2010-11-22 | 2024-01-02 | Ntt Docomo Inc | Audiokodningsindretning og fremgangsmåde |
JP5724338B2 (ja) * | 2010-12-03 | 2015-05-27 | ソニー株式会社 | 符号化装置および符号化方法、復号装置および復号方法、並びにプログラム |
US9536534B2 (en) | 2011-04-20 | 2017-01-03 | Panasonic Intellectual Property Corporation Of America | Speech/audio encoding apparatus, speech/audio decoding apparatus, and methods thereof |
CN105469805B (zh) * | 2012-03-01 | 2018-01-12 | 华为技术有限公司 | 一种语音频信号处理方法和装置 |
US10034013B2 (en) * | 2012-12-05 | 2018-07-24 | Intel Corporation | Recovering motion vectors from lost spatial scalability layers |
US9711156B2 (en) * | 2013-02-08 | 2017-07-18 | Qualcomm Incorporated | Systems and methods of performing filtering for gain determination |
CA2915001C (en) * | 2013-06-21 | 2019-04-02 | Fraunhofer-Gesellschaft Zur Forderung Der Angewandten Forschung E.V. | Audio decoder having a bandwidth extension module with an energy adjusting module |
CN104301064B (zh) | 2013-07-16 | 2018-05-04 | 华为技术有限公司 | 处理丢失帧的方法和解码器 |
CN107818789B (zh) * | 2013-07-16 | 2020-11-17 | 华为技术有限公司 | 解码方法和解码装置 |
CN104517611B (zh) * | 2013-09-26 | 2016-05-25 | 华为技术有限公司 | 一种高频激励信号预测方法及装置 |
CN106683681B (zh) * | 2014-06-25 | 2020-09-25 | 华为技术有限公司 | 处理丢失帧的方法和装置 |
KR102298767B1 (ko) * | 2014-11-17 | 2021-09-06 | 삼성전자주식회사 | 음성 인식 시스템, 서버, 디스플레이 장치 및 그 제어 방법 |
US10825467B2 (en) * | 2017-04-21 | 2020-11-03 | Qualcomm Incorporated | Non-harmonic speech detection and bandwidth extension in a multi-source environment |
CN113792185B (zh) * | 2021-07-30 | 2023-07-14 | 中国电子产品可靠性与环境试验研究所((工业和信息化部电子第五研究所)(中国赛宝实验室)) | 估计缺失信号方法、装置、计算机设备和存储介质 |
Family Cites Families (18)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH06125361A (ja) * | 1992-10-09 | 1994-05-06 | Nippon Telegr & Teleph Corp <Ntt> | 音声パケット通信方式 |
US5894473A (en) * | 1996-02-29 | 1999-04-13 | Ericsson Inc. | Multiple access communications system and method using code and time division |
EP1071081B1 (en) * | 1996-11-07 | 2002-05-08 | Matsushita Electric Industrial Co., Ltd. | Vector quantization codebook generation method |
EP1746583B1 (en) * | 1997-10-22 | 2008-09-17 | Matsushita Electric Industrial Co., Ltd. | Sound encoder and sound decoder |
US6252915B1 (en) * | 1998-09-09 | 2001-06-26 | Qualcomm Incorporated | System and method for gaining control of individual narrowband channels using a wideband power measurement |
JP2000352999A (ja) | 1999-06-11 | 2000-12-19 | Nec Corp | 音声切替装置 |
US7315815B1 (en) * | 1999-09-22 | 2008-01-01 | Microsoft Corporation | LPC-harmonic vocoder with superframe structure |
US6445696B1 (en) * | 2000-02-25 | 2002-09-03 | Network Equipment Technologies, Inc. | Efficient variable rate coding of voice over asynchronous transfer mode |
EP1199709A1 (en) * | 2000-10-20 | 2002-04-24 | Telefonaktiebolaget Lm Ericsson | Error Concealment in relation to decoding of encoded acoustic signals |
KR100830857B1 (ko) * | 2001-01-19 | 2008-05-22 | 코닌클리케 필립스 일렉트로닉스 엔.브이. | 오디오 전송 시스템, 오디오 수신기, 전송 방법, 수신 방법 및 음성 디코더 |
DE60110934T2 (de) * | 2001-01-31 | 2006-04-27 | Teldix Gmbh | Modularer und skalierbarer switch und verfahren zum verteilen schneller ethernet-datenrahmen |
US7647223B2 (en) * | 2001-08-16 | 2010-01-12 | Broadcom Corporation | Robust composite quantization with sub-quantizers and inverse sub-quantizers using illegal space |
US7610198B2 (en) * | 2001-08-16 | 2009-10-27 | Broadcom Corporation | Robust quantization with efficient WMSE search of a sign-shape codebook using illegal space |
US7617096B2 (en) * | 2001-08-16 | 2009-11-10 | Broadcom Corporation | Robust quantization and inverse quantization using illegal space |
JP2003241799A (ja) * | 2002-02-15 | 2003-08-29 | Nippon Telegr & Teleph Corp <Ntt> | 音響符号化方法、復号化方法、符号化装置、復号化装置及び符号化プログラム、復号化プログラム |
JP2005189532A (ja) | 2003-12-25 | 2005-07-14 | Konica Minolta Photo Imaging Inc | 撮像装置 |
US7668712B2 (en) * | 2004-03-31 | 2010-02-23 | Microsoft Corporation | Audio encoding and decoding with intra frames and adaptive forward error correction |
EP1785985B1 (en) * | 2004-09-06 | 2008-08-27 | Matsushita Electric Industrial Co., Ltd. | Scalable encoding device and scalable encoding method |
-
2006
- 2006-06-27 WO PCT/JP2006/312779 patent/WO2007000988A1/ja active Application Filing
- 2006-06-27 CN CN200680023585.2A patent/CN101213590B/zh not_active Expired - Fee Related
- 2006-06-27 US US11/994,140 patent/US8150684B2/en active Active
- 2006-06-27 EP EP06767396A patent/EP1898397B1/en not_active Not-in-force
- 2006-06-27 JP JP2007523948A patent/JP5100380B2/ja not_active Expired - Fee Related
- 2006-06-27 DE DE602006009931T patent/DE602006009931D1/de active Active
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US11792416B2 (en) | 2012-12-21 | 2023-10-17 | Dolby Laboratories Licensing Corporation | High precision up-sampling in scalable coding of high bit-depth video |
Also Published As
Publication number | Publication date |
---|---|
EP1898397B1 (en) | 2009-10-21 |
JPWO2007000988A1 (ja) | 2009-01-22 |
JP5100380B2 (ja) | 2012-12-19 |
US8150684B2 (en) | 2012-04-03 |
DE602006009931D1 (de) | 2009-12-03 |
US20090141790A1 (en) | 2009-06-04 |
EP1898397A1 (en) | 2008-03-12 |
EP1898397A4 (en) | 2009-01-14 |
WO2007000988A1 (ja) | 2007-01-04 |
CN101213590A (zh) | 2008-07-02 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN101213590B (zh) | 可扩展解码装置及丢失数据插值方法 | |
CN101180676B (zh) | 用于谱包络表示的向量量化的方法和设备 | |
KR101344174B1 (ko) | 오디오 신호 처리 방법 및 오디오 디코더 장치 | |
RU2420817C2 (ru) | Системы, способы и устройство для ограничения коэффициента усиления | |
RU2376657C2 (ru) | Системы, способы и устройства для высокополосного предыскажения шкалы времени | |
TWI362031B (en) | Methods, apparatus and computer program product for obtaining frames of a decoded speech signal | |
RU2421828C2 (ru) | Системы и способы для включения идентификатора в пакет, ассоциативно связанный с речевым сигналом | |
JP4546464B2 (ja) | スケーラブル符号化装置、スケーラブル復号化装置、およびこれらの方法 | |
US6795805B1 (en) | Periodicity enhancement in decoding wideband signals | |
ES2705589T3 (es) | Sistemas, procedimientos y aparatos para el suavizado del factor de ganancia | |
US9153237B2 (en) | Audio signal processing method and device | |
US20130030798A1 (en) | Method and apparatus for audio coding and decoding | |
JPH09127996A (ja) | 音声復号化方法及び装置 | |
CN103262161A (zh) | 确定用于线性预测编码(lpc)系数量化的具有低复杂度的加权函数的设备和方法 | |
KR101891388B1 (ko) | 선형 예측 코딩에서 적응적 포먼트 선명화를 위한 시스템들, 방법들, 장치들, 및 컴퓨터 판독가능 매체들 | |
US20150170662A1 (en) | High-band signal modeling | |
KR20180002907A (ko) | 오디오 신호 디코더에서의 개선된 주파수 대역 확장 | |
EP3079151A1 (en) | Audio encoder and method for encoding an audio signal | |
JP6082126B2 (ja) | 音声信号を合成するための装置及び方法、デコーダ、エンコーダ、システム及びコンピュータプログラム |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
C14 | Grant of patent or utility model | ||
GR01 | Patent grant | ||
TR01 | Transfer of patent right |
Effective date of registration: 20170526 Address after: Delaware Patentee after: III Holdings 12 LLC Address before: Osaka Japan Patentee before: Matsushita Electric Industrial Co.,Ltd. |
|
CF01 | Termination of patent right due to non-payment of annual fee |
Granted publication date: 20110921 |
|
CF01 | Termination of patent right due to non-payment of annual fee |