CN103946918B - 语音信号编码方法、语音信号解码方法及使用其的装置 - Google Patents
语音信号编码方法、语音信号解码方法及使用其的装置 Download PDFInfo
- Publication number
- CN103946918B CN103946918B CN201280057514.XA CN201280057514A CN103946918B CN 103946918 B CN103946918 B CN 103946918B CN 201280057514 A CN201280057514 A CN 201280057514A CN 103946918 B CN103946918 B CN 103946918B
- Authority
- CN
- China
- Prior art keywords
- conversion coefficient
- adjacent
- sinusoidal
- information
- coefficient
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
- 238000000034 method Methods 0.000 title claims abstract description 102
- 238000006243 chemical reaction Methods 0.000 claims abstract description 166
- 230000009466 transformation Effects 0.000 claims description 30
- 230000007717 exclusion Effects 0.000 claims description 8
- 230000005540 biological transmission Effects 0.000 abstract description 9
- 238000012545 processing Methods 0.000 abstract description 5
- 239000000284 extract Substances 0.000 description 23
- 238000005070 sampling Methods 0.000 description 22
- 238000012805 post-processing Methods 0.000 description 16
- 230000015572 biosynthetic process Effects 0.000 description 14
- 238000003786 synthesis reaction Methods 0.000 description 14
- 238000011002 quantification Methods 0.000 description 9
- 238000001514 detection method Methods 0.000 description 8
- 238000005086 pumping Methods 0.000 description 7
- 238000000605 extraction Methods 0.000 description 6
- 238000007689 inspection Methods 0.000 description 6
- 238000013139 quantization Methods 0.000 description 6
- 238000001228 spectrum Methods 0.000 description 6
- 101000630267 Homo sapiens Probable glutamate-tRNA ligase, mitochondrial Proteins 0.000 description 4
- 102100026125 Probable glutamate-tRNA ligase, mitochondrial Human genes 0.000 description 4
- 230000003044 adaptive effect Effects 0.000 description 4
- 239000002131 composite material Substances 0.000 description 4
- 230000006870 function Effects 0.000 description 3
- 230000006978 adaptation Effects 0.000 description 2
- 210000001367 artery Anatomy 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 2
- 238000004891 communication Methods 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 230000002708 enhancing effect Effects 0.000 description 2
- 238000001914 filtration Methods 0.000 description 2
- 238000004080 punching Methods 0.000 description 2
- 230000005236 sound signal Effects 0.000 description 2
- 210000003462 vein Anatomy 0.000 description 2
- 238000004458 analytical method Methods 0.000 description 1
- 238000005311 autocorrelation function Methods 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 238000010219 correlation analysis Methods 0.000 description 1
- 238000002372 labelling Methods 0.000 description 1
- 230000000737 periodic effect Effects 0.000 description 1
- 238000003672 processing method Methods 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 230000001568 sexual effect Effects 0.000 description 1
- 230000001629 suppression Effects 0.000 description 1
- 230000002194 synthesizing effect Effects 0.000 description 1
- 238000012360 testing method Methods 0.000 description 1
- 238000012795 verification Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/02—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/02—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
- G10L19/032—Quantisation or dequantisation of spectral components
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/02—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
- G10L19/0212—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders using orthogonal transformation
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/04—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
- G10L19/16—Vocoder architecture
- G10L19/18—Vocoders using multiple modes
- G10L19/24—Variable rate codecs, e.g. for generating different qualities using a scalable representation such as hierarchical encoding or layered encoding
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Spectroscopy & Molecular Physics (AREA)
- Computational Linguistics (AREA)
- Signal Processing (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Compression, Expansion, Code Conversion, And Decoders (AREA)
Abstract
本发明涉及一种用于处理语音信号的方法和装置,并且根据本发明的语音信号编码方法包括以下步骤:通过变换正弦波分量生成形成输入语音信号的正弦波分量的变换系数;根据所生成的变换系数确定将要编码的变换系数;以及发送指示所确定的变换系数的指示信息,其中,指示信息可以包括变换系数的位置信息、量级信息和符号信息。
Description
技术领域
本发明涉及语音信号的编码和解码,并且更具体地,涉及编码和解码正弦语音信号的方法和使用该方法的装置。
背景技术
通常,音频信号包括各种频率的信号,人类可听见的频率范围是从20Hz至20kHz,并且人类语音存在的范围大约是200Hz至3kHz。除了其中存在人类语音的频带之外,输入音频信号可以包括其中几乎不存在人类语音的7kHz或更高的高频率区域的分量。
近年来,对网络进步和高质量服务的用户需求越来越多。经由诸如窄带(下文称为“NB”)、宽带(下文称为“WB”)和超宽带(下文称为“SWB”)的宽的频带可以发送音频信号。
关于这点,当适于NB的编译方法(具有高达约8kHz的采样率)被应用到WB信号(具有高达约16kHz的采样率)时,存在声音质量下降的问题。
当适于NB的编译方法(具有高达约8kHz的采样率)或适于WB的编译方法(具有高达约16kHz的采样率)的编译方法被应用到SWB信号(具有高达约32kHz的采样率),也存在声音质量下降的问题。
因此,已经进行语音和音频编码器/解码器的开发,其可以用于NB至WB或SWB的各种频带中,或者包括各种频带之间的通信环境的各种环境中。
发明内容
技术问题
本发明的一个目标是提供编码/解码方法和在应用正弦模式中可以减少量化噪声而不需要使用附加比特的编码器/解码器。
本发明的另一目标是提供用于在正弦模式中发送附加信息而不增加比特率并且处理语音信号的方法和设备。
本发明的另一目标是提供通过发送附加信息而不改变比特流结构能够增强编译效率并且减少量化噪声的方法和设备。
问题的解决方案
根据本发明的一个方面,提供了一种语音信号编码方法,包括以下步骤:对构成输入语音信号的正弦分量进行转换,并且生成正弦分量的变换系数;确定生成的变换系数中的将要编码的变换系数;以及发送指示所确定的变换系数的索引信息,其中,索引信息包括变换系数的位置信息、振幅信息和符号信息,以及其中,当将要编码的变换系数是邻近的变换系数时,位置信息重复指示相同的位置。
确定将要编码的变换系数的步骤包括:考虑到变换系数的振幅,搜索具有最大振幅的第一变换系数和具有第二大振幅的第二变换系数,以及将第一变换系数和第二变换系数、第一变换系数和与第一变换系数相邻的变换系数、以及第二变换系数和与第二变换系数相邻的变换系数的三种组合之一,确定为将要编码的变换系数。
在该情形下,第一变换系数和第二变换系数的均方误差(MSE)、第一变换系数和与第一变换系数相邻的变换系数的MSE、以及第二变换系数和与第二变换系数相邻的变换系数的MSE进行相互比较,并且将具有最小MSE的变换系数的组合确定为将要编码的变换系数。
可替选地,第一变换系数和第二变换系数的残差系数的和、第一变换系数和与第一变换系数相邻的变换系数的残差系数的和、以及第二变换系数和与第二变换系数相邻的变换系数的残差系数的和进行相互比较,并且将具有最小的残差系数的和的变换系数的组合确定为将要编码的变换系数。
当与第一变换系数相邻的两个变换系数的符号彼此不相等时,从将要编码的变换系数排除与第一变换系数相邻的变换系数,并且当与第二变换系数相邻的两个变换系数的符号彼此不相等时,从将要编码的变换系数排除与第二变换系数相邻的变换系数。
发送索引信息的步骤包括关于将要编码的变换系数的符号,发送指示将要编码的第一变换系数的符号的信息。
其中,当第一变换系数和与第一变换系数相邻的变换系数被确定为将要编码的变换系数时,位置信息重复指示第一变换系数;并且,当第二变换系数和与第二变换系数相邻的变换系数被确定为将要编码的变换系数时,位置信息重复指示第二变换系数。
将要编码的正弦分量可以是属于超宽带的信号。
根据本发明的另一方面,提供了一种语音信号解码方法,包括以下步骤:接收包括语音信息的比特流;基于在比特流中包括的索引信息,重建构成语音信号的正弦分量的变换系数;以及对重建的变换系数进行逆变换,以重建语音信号。
重建变换系数的步骤包括当索引信息重复指示相同的位置时,在所指示的位置和与所指示的位置相邻的位置处,重建变换系数。
索引信息包括变换系数的位置信息、振幅信息和符号信息,以及其中,位置信息可以指示在轨迹中具有最大振幅的第一变换系数和在轨迹中具有第二大振幅的第二变换系数,或者可以重复指示第一变换系数,或者可以重复指示第二变换系数。
当位置信息重复指示第一变换系数时,第一变换系数和与第一变换系数相邻的两个变换系数被重建,以及当位置信息重复指示第二变换系数时,第二变换系数和与第二变换系数相邻的两个变换系数被重建。
当位置信息重复指示第一变换系数时,第一变换系数和与第一变换系数相邻的两个变换系数被重建以具有相同的振幅,以及当位置信息重复指示第二变换系数时,第二变换系数和与第二变换系数相邻的两个变换系数被重建,以具有相同的振幅。当位置信息重复指示第一变换系数时,第一变换系数和与第一变换系数相邻的两个变换系数被重建以具有相同的符号,以及当位置信息重复指示第二变换系数时,第二变换系数和与第二变换系数相邻的两个变换系数被重建以具有相同的符号。
在该情形下,被重建的语音信号可以是超宽带语音信号。
有益效果
根据本发明,在应用正弦模式中不使用附加比特的情形下,通过使用更加有效信息执行编码/解码操作可以减少量化噪声。
根据本发明,在正弦模式中通过在不增加比特率的情形下发送附加信息并且处理语音信号,可以增强编译效率和减少发送开销。
根据本发明,通过发送附加信息可以增强编译效率、减少量化噪声、并且保持具有较低兼容性的比特流结构。
根据本发明,可以提供高质量语音和音频通信服务,以及使用其可以提供各种附加服务。
附图说明
图1是示意地示出编码器的配置的示例的图,该编码器可以用于使用带宽扩展方法处理超宽带信号。
图2是示出聚焦于核心编码器的配置的编码器的配置的示例的图。
图3是示意地示出解码器的配置的示例的图,该解码器用于使用带宽扩展方法处理超宽带信号。
图4是示出聚焦于核心解码器的配置的解码器的配置的示例的图。
图5是示意地示出在正弦模式中编码正弦曲线的方法的图。
图6是示意地示出在作为第一SWB层的层6中在正弦模式中的轨迹信息的示例的图。
图7是示意地示出选择第一正弦曲线和第二正弦曲线的方法的图。
图8是示意地示出根据本发明确定在正弦模式中要发送的信息的方法的示例的流程图。
图9是示出了其中与具有最大振幅的两个正弦曲线中的仅一个正弦曲线相邻的正弦曲线的符号的情形的示例的图。
图10是示意地示出在其中与具有最大振幅的两个正弦曲线中的每一个相邻的两个正弦曲线的符号相互相等的情形下选择将要发送的信息的方法的图。
图11是示意地示出在量化之前使用MDCT系数的绝对值确定将要发送的信息的方法的示例的流程图。
具体实施方式
在下文,将参考附图详细描述本发明的实施例。当确定涉及本发明的已知配置或功能的详细描述使得本发明的要点模糊时,将不对其进行详细描述。
如果提及要素被“连接至”或“耦合至”其它要素,则应该理解的是,仍有另一要素可以插入其间,以及该要素可以被直接连接至或耦合至另一要素。
诸如术语“第一”和“第二”可以用于描述各种要素,但是这些要素不限于这些术语。这些术语可以仅用于区分一个要素与另一要素。
独立地示出本发明的实施例中所描述的构成单元,以表示不同的特色功能。每个构成单元不是由独立硬件或软件单元构成。即,为了解释方便,构成单元被独立排列,并且可以将至少两个构成单元组合成一个单一构成单元,或者一个单一构成单元可以被划分成多个构成单元以执行功能。
为了满足网络进步和高质量服务所需要的满意度,已经研究在从NB至WB或者SWB的宽带中的音频信号处理方法。例如,已经将码激励线性预测(CELP)编译方法、变换编译方法和带宽和信道扩展方法作为语音和音频编码/解码技术研究。
可以将编码器划分成基线编译器和增强层。增强层可以被划分成下频带增强(LBE)层、带宽扩展(BWE)层和高频带增强(HBE)层。
通过编码/解码通过核心编码器/核心解码器所处理的声源和诸如激励信号的原声之间的差分信号,LBE层改善低频带音质。由于高频信号与低频信号相似,所以使用低频带利用高带宽扩展方法以低比特率可以重建高频信号。
根据扩展和编码高频信号和通过使用解码处理重建被编码的信号的方法,可以考虑伸缩扩展和处理SWB信号的方法。在修正的离散余弦变换(MDCT)域中可以执行扩展SWB信号的带宽的方法。
在通用模式和正弦模式中可以处理扩展层。例如,当三个扩展层被使用时,在通用模式和正弦模式中可以处理第一扩展层,并且在正弦模式中可以处理第二和第三扩展层。
在本说明书中,正弦曲线包括正弦波和通过将该正弦波相位偏移半个波长而得到的余弦波。因此,在本发明中的正弦曲线可以表示正弦波或可以表示余弦波。当输入正弦曲线是余弦波时,可以在编码/解码过程中将余弦波转换成正弦波或余弦波,并且该转换是基于对输入信号执行转换的转换方法。当输入正弦曲线是正弦波时,可以在编码/解码过程中将正弦波转换成余弦波或正弦波,并且该转换是基于对该输入信号执行的转换方法。
在通用模式中,基于被编译的带宽信号子带的自适应复制执行编译。在正弦模式中的编译中,正弦曲线被添加到高频内容。正弦模式是具有很强周期性的信号或具有音调的信号的有效编码技术,并且能够编码每个正弦分量的符号、振幅和位置信息。针对每层可以编码MDCT系数,例如十的预定数目。
图1是示意地示出编码器的配置的示例的图,该编码器在使用带宽扩展方法处理超宽带信号时被使用。
参考图1,编码器100包括下采样单元105、核心编码器110、MDCT单元115、音调估计单元120、音调确定单元125、SWB编码单元130。SWB编码单元130包括通用模式单元135、正弦模式单元140和附加正弦模式单元145和150。
当SWB信号被输入时,下采样单元105下采样输入信号,并且生成通过核心编码器所处理的WB信号。
在MDCT域中执行SWB编码。核心编码器110对通过编码WB信号合成的WB信号执行MDCT操作并且输出MDCT系数。
MDCT单元115对SWB信号执行MDCT操作,并且音调估计单元120估计经受MDCT操作的信号的音调。在音调的基础上可以确定选择通用模式和正弦模式的哪一个。例如,当在可伸缩SWB带宽扩展方法中使用三层时,在音调估计的基础上可以选择第一层,即,层6mo(层7mo)。通用模式和/或正弦模式可以用于三层中的层6mo,并且正弦模式可以用于上层(层7mo和层8mo)。
在当前帧和过去帧的频谱峰值之间的相关分析的基础上,可以执行音调的估计。
音调估计单元120将被估计的音调值输出到音调确定单元125。
音调确定单元125在音调级的基础上确定经受MDCT的信号何时是音调的,并且将确定的结果发送到SWB编码单元130。例如,音调确定单元125将从音调估计单元120输入的被估计的音调值与预定参考值进行比较,并且确定经受MDCT的信号是否为音调信号。
如附图中所示,SWB编码单元130处理经受MDCT的SWB信号的MDCT系数。此时,SWB编码单元130使用从核心编码器110输入的合成WB信号的MDCT系数,可以处理SWB信号的MDCT系数。
当通过音调确定单元125确定经受MDCT的信号不是音调的时,该信号将被发送到通用模式单元135。当确定经受MDCT的信号是音调的时,该信号被发送到正弦模式单元140。
当确定输入帧不是音调的时可以使用通用模式。低频频谱直接转置到高频频谱,并且使得参数遵循初始高频的包络。此时,更加粗略地将该参数与初始高频的情形进行比较。通过应用通用模式,以低比特率编译高频内容是可能的。
例如,在通用模式中,高频带可以被划分成子带,并且根据预定相似确定准则选择被编码和包络标准化的带宽内容的最相似内容。将被选择的内容缩放并且随后输出作为合成的高频内容。
当输入帧是音调的时可以使用正弦模式单元140。在正弦模式中,正弦分量的有限集被添加到高频(HF)频谱,以生成SWB信号。此时,使用合成的SW信号的MDCT系数生成HF频谱。
附加的正弦模式单元145和150将附加的正弦曲线添加到通用模式中输出的信号和正弦模式中输出的信号,以增强被生成的信号。例如,当附加比特被分配时,附加正弦模式单元145和150确定将要发送的附加正弦曲线(脉冲),并且扩展用于量化的正弦模式,以增强信号。
另一方面,如附图中所示,将核心编码器110、音调确定单元125、通用模式单元135、正弦模式单元140和附加正弦模式单元145和150的输出作为比特流被发送到解码器。
图2是示出聚焦于核心编码器的配置的编码器的配置的示例的图。参考图2,编码器200包括带宽检查单元205、采样和转换单元210、MDCT单元215、核心编码单元220和重要MDCT系数提取和量化单元265。
带宽检查单元205可以检查输入信号(语音信号)是否是窄带(NB)信号、宽带(WB)信号、或者超宽带(SWB)信号。NB信号的采样率可以是8kHz,WB信号的采样率可以是16kHz,并且SWB信号的采样率可以是32kHz。
带宽检查单元205可以将输入信号转换到频域,并且检查上频带段(bin)的存在和分量。
当输入信号被固定时,例如,当输入信号被固定成NB时,编码器200不包括带宽检查单元205。
带宽检查单元205确定输入信号,将NB或WB信号输出到采样和转换单元210,并且将SWB信号输出到采样和转换单元210或MDCT单元215。
采样和转换单元210执行将输入信号变换成将要输入到核心编码器220的WB信号的采样操作。例如,采样和转换单元210执行上采样操作,以便当输入信号是NB信号时获得具有12.8kHz的采样率的信号,并且执行下采样操作,以便当输入信号是WB信号时获得具有12.8kHz的采样率的信号,从而生成12.8kHz的下频带信号。当输入信号是SWB信号时,采样和转换单元210执行下采样操作以便获得具有12.8kHz的采样率的信号,并且生成将要输入到核心编码器220的输入信号。
核心编码器220包括预处理单元225、线性预测和分析单元230、量化单元235、CELP模式单元、量化单元245、去量化单元250、合成和后处理单元255和MDCT单元260。
预处理单元225可以滤波输入到核心编码器220的下频带信号的低频分量,并且仅将期望的频带信号发送到线性预测和分析单元。
线性预测和分析单元230可以从由预处理单元225所处理的信号提取线性预测系数(LPC)。例如,线性预测和分析单元230可以从输入信号提取16-阶线性预测系数,并且可以将被提取的线性预测系数发送到量化单元235。
量化单元235量化从线性预测和分析单元230发送的线性预测系数。使用以低频带量化的线性预测系数通过利用初始下频带信号过滤生成线性预测残差信号。
通过量化单元235生成的线性预测残差信号被输入到CELP模式单元240。
CELP模式单元240使用自相关功能检测输入线性预测残差信号的基音。此时,第一开环基音搜索法、第一闭环基音搜索法、合成分析(AbS)方法等可以被使用。
在被检测的基音的信息的基础上CELP模式单元240可以提取自适应码本索引和增益信息。在除了有利于自适应码本索引的分量之外的线性预测残差信号中的分量的基础上,CELP模式单元240可以提取固定的码本索引和增益。
CELP模式单元240将与通过基音搜索、自适应码本搜索和固定码本搜索所提取的线性预测残差信号相关的参数(基音、自适应码本索引和增益、以及固定码本索引和增益)发送到量化单元245。
量化单元245量化从CELP模式单元240发送的参数。
可以将通过量化单元245所量化的线性预测残差信号相关的参数输出作为比特流,并且可以被发送到解码器。可以将与通过量化单元245所量化的线性预测残差信号相关的参数发送到去量化单元250。
去量化单元250使用在CELP模式中提取和量化的参数,生成被重建的激励信号。将被生成的激励信号发送到合成和后处理单元255。
合成和后处理单元255合成被重建的激励信号和量化的线性预测系数,生成12.8kHz的合成信号并且通过上采样重建16kHz的WB信号。
MDCT单元260使用修正的离散余弦变换(MDCT)方法变换被重建的WB信号。经受MDCT的WB信号被输出到重要的MDCT系数提取和量化单元265。
重要的MDCT系数提取和量化单元265与图1中示出的SWB编码单元相对应。重要的MDCT系数提取和量化单元265从MDCT单元215接收SWB的MDCT变换系数,并且从MDCT单元260接收被合成的WB的MDCT变换系数。
重要的MDCT系数提取和量化单元265使用MDCT变换系数,提取将要量化的变换系数。导致重要的MDCT系数提取和量化单元265提取MDCT系数的细节与对于图1的SWB编码单元的描述相同。
重要的MDCT系数提取和量化单元265量化MDCT系数,并且将被量化的MDCT系数作为比特流输出和发送到解码器。
图3是示意地示出解码器的配置的示例的图,该解码器用于使用带宽扩展方法处理SWB信号。
参考图3,解码器300包括核心解码器305、第一后处理单元310、上采样单元315、SWB解码单元320、IMDCT单元350、第二后处理单元355和加法器单元360。SWB解码单元320包括通用模式单元325、正弦模式单元330和附加正弦模式单元335和340。
如附图中所示,将要处理的目标信息和/或用于该处理的辅助信息可以从比特流输入到核心解码器305、通用模式单元325、正弦模式单元330和附加正弦模式单元335。
核心解码器305解码WB信号并且合成WB信号。被合成的WB信号被输入到第一后处理单元310,并且被合成的WB信号的MDCT变换系数被输入到SWB解码单元320。
第一后处理单元310在时域中增强被合成的WB信号。
上采样单元315上采样WB信号,以构造SWB信号。
SWB解码单元320解码从比特流输入的SWB信号的MDCT变换系数。此时,从核心解码器305输入的被合成WB信号的MDCT系数可以被使用。主要在MDCT域中执行SWB信号的解码。
通用模式单元325和正弦模式单元330解码扩展层的第一层,并且上层可以通过附加的正弦模式单元335和340解码。
SWB解码单元320按照针对SWB编码单元所描述的编码处理的逆序执行解码处理。此时,SWB解码单元320确定从比特流输入的信息是音调的,当确定该信息是音调的时,正弦模式单元330或正弦模式单元330和附加正弦模式单元340执行解码处理;当确定该信息不是音调的时,通用模式单元325或通用模式单元325和附加正弦模式单元335执行解码处理。
例如,通用模式单元325通过自适应子带复制构造HF信号。随后,两个正弦分量被添加到第一SWB扩展层的频谱。通用模式和正弦模式使用用作正弦模式编译的基础的相似增强层。
在正弦分量的有限集的基础上正弦模式单元330生成高频(HF)信号。附加正弦单元335和340将正弦曲线添加到上SWB层,以改善高频内容的质量。
在时域中IMDCT单元350执行逆MDCT和输出信号,并且第二后处理单元355增强在时域中经受逆MDCT处理的信号。
加法器单元360将通过核心解码器解码和上采样的SWB信号和从SWB解码单元320输出的SWB信号相加,并且输出被重建的信号。
图4是示出聚焦于核心解码器的配置的解码器的配置的示例的图。参考图4,解码器400包括核心解码器410、后处理/采样和转换单元450、去量化单元460、上MDCT系数生成单元470、逆MDCT单元480和后处理和滤波单元490。
包括NB信号的比特流或从编码器发送的WB信号被输出到核心解码器410。
核心解码器410包括逆变换单元420、线性预测和合成单元430和IMDCT单元440。
逆变换单元420可以逆变换在CELP模式中编码的语音信息,并且在从编码器接收的参数的基础上可以重建激励信号。逆变换单元420可以将被重建的激励信号发送到线性预测和合成单元430。
线性预测和合成单元430使用从逆变换单元420发送的激励信号和从编码器发送的线性预测系数,可以重建下频带信号(诸如NB信号和WB信号)。
通过线性预测和合成单元430所重建的下频带信号(12.8kHz)可以被下采样到NB,或者可以被上采样到WB。可以将WB信号输出到后处理/采样和转换单元450,或者可以被输出到MDCT单元440。
后处理/采样和转换单元450可以上采样NB信号或者WB信号,并且可以生成用于重建SWB信号的合成信号。
MDCT单元440对被重建的下频带信号执行MDCT操作,并且将结果信号发送到上MDCT系数生成单元470。
去量化单元460和上MDCT系数生成单元470与图3中示出的解码器的SWB解码单元相对应。
去量化单元460使用比特流从编码器接收被量化的SWB信号和参数,并且去量化被接收的信息。
将被去量化的SWB信号和参数发送到上MDCT系数生成单元470。
上MDCT系数生成单元470从核心解码器410接收合成NB信号或WB信号的MDCT系数,从SWB信号的比特流接收必需的参数,并且生成去量化的SWB信号的MDCT系数。如图3中所示,上MDCT系数生成单元470根据该信号是否是音调的,可以应用通用模式或正弦模式,并且可以将附加正弦模式应用到扩展层的信号。
逆MDCT单元480通过逆变换被生成的MDCT系数来重建信号。
后处理和滤波单元490可以对重建的信号执行滤波操作。诸如减少量化错误、强调峰值和抑制谷值的后处理可以通过滤波执行。
可以将通过后处理和滤波单元490重建的信号和通过后处理/采样和转换单元450重建的信号合成以重建SWB信号。
在带宽扩展方法中,如图1至图4中所示,通过核心编码器和增强层处理单元(SWB编码单元)处理SWB输入信号,以便编码SWB输入信号。为了解码SWB信号,通过核心解码器和增强层处理单元(SWB解码单元)处理SWB信号。
为了编码与SWB输入信号中的WB相对应的信号信息,SWB信号以与WB相对应的采样率下采样,并且通过WB编码器(核心编码器)编码。
为了在编码SWB信号中使用,编码的WB信号被合成,并且随后经受MDCT,并且WB的MDCT系数被输入到SWB编码单元。根据MDCT系数域中的音调的等级,以通用模式和正弦模式编码SWB输入信号。为了增强编译效率,可以使用附加正弦曲线附加地编码该增强层。
通过WB解码器(核心解码器)解码与SWB信号中的WB相对应的信号信息。将解码的WB信号合成并且随后经受MDCT,并且将WB的MDCT系数输入到SWB解码单元。根据编码模式以通用模式和正弦模式解码被编码的SWB信号,并且使用附加的正弦曲线可以附加地编码增强层。逆变换SWB信号和WB信号通过诸如上采样的附加后处理可以被合成,并且随后被重建为SWB信号。
将在下文描述根据本发明的正弦模式。
正弦模式是仅编码具有构成语音信号的正弦曲线中的大能量的正弦曲线而非编码构成该语音信号的所有正弦曲线(也称为构成语音信号的正弦分量)的模式。因此,与所有正弦曲线的编码不同,正弦模式中的编码器编码被选择的正弦曲线的位置信息以及被选择的正弦曲线的振幅信息和符号信息,并且将被编码的信息发送到解码器。
此时,构成语音信号的“正弦曲线”表示通过对构成语音信号的正弦曲线执行MDCT操作所获得的MDCT系数X(k)。因此,在本说明书中,当描述正弦模式中的正弦曲线的特征时,应该注意的是,正弦曲线的振幅表示通过对相对应的正弦分量执行MDCT操作所获得的MDCT系数的振幅(C)、相对应正弦分量的符号(sign)和相对应正弦分量的位置(pos)。正弦曲线的位置是频域中的位置,并且可以是用于指定构成语音信号的每一个正弦曲线的波数k,或者可以是与波数(k)相对应的索引。
在本说明书中,为了解释的目的,应该注意的是,构成语音信号的每一个正弦分量的MDCT系数简称为“正弦曲线”或“脉冲”。因此,在本说明书中,只要未特别不同地提及,“正弦曲线”或“脉冲”可以表示构成输入语音信号的每一个正弦分量的MDCT系数。
在该说明书中,为了解释的目的,通过正弦曲线的波数指定正弦曲线的位置。此处,这是为了解释方便但是本发明不限于该假定。即使当用于频域中指定的正弦曲线的位置的特定信息可以被用为正弦曲线的位置时,也可以相似地应用本发明的细节。
正弦模式不适于编码所有正弦曲线,因为正弦曲线的位置信息应该被发送,但是当使用少数量的正弦曲线确保声音质量或者应使用低比特率发送正弦曲线时是有效的。因此,正弦模式可以利用低比特率在带宽扩展技术或语音编解编码器中使用。
图5是示意地示出在正弦模式中编码正弦曲线的方法的图。
参考图5,构成输入语音信号的正弦曲线位于与正弦曲线的波数(k)相对应。
面向上侧的正弦曲线表示具有正值的MDCT系数,并且面向下侧的正弦曲线表示具有负值的MDCT系数。正弦曲线(MDCT系数)的振幅与正弦曲线的长度相对应。
图5示出其中具有126的振幅的正的正弦曲线位于位置4处并且具有74的振幅的负的正弦曲线位于位置18处的示例。在正弦模式中,如上所述,发送正弦曲线的振幅信息、符号信息和位置信息。
当假定具有最大振幅的两个正弦曲线被检索并且相对应的信息被编码时,位于位置4处的第一正弦曲线的信息(振幅:126、符号:+、位置:4)和第二正弦曲线的信息(振幅:74、符号:-、位置:18)可以被编码。
图6是示意地示出在作为第一SWB层的层6中关于正弦模式的轨迹信息的示例的图。
在图6中示出的示例中,在与正弦曲线的波数相对应的位置处,标记在频域中构成语音信号的正弦曲线(MDCT系数)。
轨迹0是位于280至342的频段中,并且包括具有以位置单元为单位的2的间隔的正弦曲线(例如,波数或频率)。轨迹1位于281至343的频段中,并且包括具有2的间隔的正弦曲线。轨迹2位于344至406的频段中,并且包括具有2的间隔的正弦曲线。轨迹3位于345至407的频段中,并且包括具有2的间隔的正弦曲线。轨迹4位于408至471的频段中,并且包括具有1的间隔的正弦曲线。轨迹5位于472至503的频段中,并且包括具有1的间隔的正弦曲线。
在正弦模式中,按照轨迹顺序针对每一个轨迹检索满足预定条件的预定数量的正弦曲线,并且被检索的正弦曲线被量化。应该理解的是,被检索和被量化的正弦曲线是如上所述的正弦曲线的MDCT系数。
在层6中,根据比特分配在轨迹0至轨迹3的四个轨迹中的每一个中检索和量化两个正弦曲线,并且在轨迹4和轨迹5中的每一个中检索和量化一个正弦曲线。
每个轨迹中的检索将要在该轨迹中检索最大的正弦曲线,即,具有最大振幅的正弦曲线,以与分配到每个轨迹的正弦曲线的编号相对应。因此,在图5中示出的示例中,在轨迹0、轨迹1、轨迹2和轨迹3中检索具有最大振幅的两个正弦曲线,并且在轨迹4和轨迹5中检索具有最大振幅的正弦曲线。
在作为第一SWB层的层6中,可以通过图1和图3中示出的正弦模式单元执行正弦模式。
通过从HF信号提取10个脉冲(正弦曲线)可以编码正弦模式。第一个四个脉冲可以从7000Hz至8600Hz的频带提取,并且下一个四个脉冲可以从8600Hz至10200Hz的频带提取,并且下一个脉冲可以从10200Hz至11800Hz的频带提取,并且最后脉冲可以从11800Hz至12699Hz的频带提取。
被检索的脉冲可以被量化。
使用当前层中的初始信号M32(k)和先前层中的HF合成信号之间的差可以确定被检索脉冲的位置,即,最大脉冲的位置。表达式1示出了确定差值的方法的示例。
<表达式1>
在表达式1中,M表示MDCT系数的振幅,并且k表示作为脉冲(正弦曲线)的位置的波数。因此,M32(k)表示在SWB的位置k处的脉冲的振幅直至32kHz。
层6的正弦模式可以设置为0作为初始值,因为HF合成信号不存在。据说在层6中使用表达式1计算的差值的过程可以计算M32(k)的最大值。
关于D(k),将频带划分成五个子频带,以形成Dj(k)(其中,0≤j≤4或1≤j≤5)。在每个子频带中的脉冲数量具有Nj的预定值(其中,N是整数)。
表1示出了针对每个子频带检索Nj最大脉冲的方法的示例。
<表1>
使用表1中示出的布置方法检索最大值N,并且将N的检索值存储在参数input_data中。
表2示出针对每个子频带Dj(k)提取的脉冲数量和在层6中的其范围。
<表2>
轨迹 | 正弦曲线的数目 | 开始位置 | 位置步长 | 长度 |
0 | 2 | 280 | 2 | 32 |
1 | 2 | 281 | 2 | 32 |
2 | 2 | 344 | 2 | 32 |
3 | 2 | 345 | 2 | 32 |
4 | 1 | 408 | 1 | 64 |
5 | 1 | 472 | 1 | 32 |
表2示出被提取为通过针对每个轨迹的检索、每个轨迹的开始位置(检索开始位置)、每个轨迹中的位置步长和每个轨迹中的脉冲数目要编码的正弦曲线的正弦曲线(脉冲)的数目。
针对每个轨迹所提取的Nj脉冲具有位置信息posj(l)(其中,l=0,…,Nj),并且位置信息与每个轨迹的开始位置相关联。
被提取的脉冲的振幅cj(l)可以被编码如下。
<表达式2>
cj(l)=log(|Dj(posj(l))|)
在表达式2中,振幅值被编码但是符号信号丢失。因此,使用表达式3可以特别编码脉冲的符号值。
<表达式3>
当Nj等于2时,被检索的两个脉冲的符号值未被发送,但是每个轨迹的第一脉冲的信号值被发送。在编码第一脉冲的符号值时使用表3,可以导出其它脉冲的符号值。
<表3>
在表3中,posj(0)、Sign_sinj(0)和cj(0)分别表示较大脉冲的位置、符号和振幅,并且posj(1)、Sign_sinj(1)和cj(1)分别表示较小脉冲的位置、符号和振幅。
根据表3中示出的方法,当在频率轴上较大脉冲位于较小脉冲之前时,两个脉冲的符号被导出为相互相等,当在频率轴上较大脉冲位于较小脉冲之后时,两个脉冲的符号被导出为相互不同。因此,当解码器接收通过编码器使用表3中示出的方法排列的信息时,可以导出两个脉冲的符号。
在层6中,在表达式1中使用作为目标信号的原始信号执行编码。然而,在层6的上层中,即,在层7或层8中,使用在先前层中的初始信号和作为目标信号的在上层中的合成信号之间的差,执行编码,如表达式1中所示。
层6的上层中执行的编码方法与层6中的上述的编码方法相似。
在作为SWB增强层的第一层的层7的编码中,从HF(7kHz至14kHz)信号附加地提取10个脉冲。在层7中,根据通用模式和正弦模式,要编码的频带被设置成不同。
在通用模式中输出的HF信号被划分成总共8个子频带,并且针对每个子频带计算能量。每个子频带包括32个MDCT系数,如表2中所示,并且针对每个子频带计算能量的方法与表达式4所示的相同。
<表达式4>
在表达式4中,表示在通用模式中再一次合成的HF信号。
在层7中,考虑子频带的能量值从具有最高能量的子频带按照能量量级的顺序连续地排列8个子频带。在被排列的子频带中选择具有最高能量的5个子频带,并且使用针对层6所描述的正弦编译方法,为每个子频带提取5个脉冲。此时,在正弦编译方法中定义的轨迹的位置根据用于每个帧的HF信号的能量特征而变化。
通过提取4个脉冲的处理和提取6个脉冲的处理的两个处理,提取从在正弦模式中输出的HF信号提取的总共10个脉冲。在与9400Hz至11000Hz的频带相对应的位置处提取四个脉冲,并且在与11000Hz至13400Hz的频带相对应的位置处提取六个脉冲。
表4示出在层7的正弦模式(正弦模式帧)中的轨迹信息。
<表4>
轨迹 | 正弦曲线的数目 | 开始位置 | 位置步长 | 长度 |
0 | 2 | 376 | 2 | 32 |
1 | 2 | 377 | 2 | 32 |
2 | 2 | 440 | 3 | 32 |
3 | 2 | 441 | 3 | 32 |
4 | 2 | 442 | 3 | 32 |
表4示出通过针对层7的每一个轨迹的检索、每个轨迹的开始位置(检索开始位置)、在每个轨迹中的位置步长和每个轨迹中的脉冲数目,将作为要被编码的正弦曲线提取的正弦曲线的数目。
另一方面,在层8中,20个脉冲被附加地提取,并且将稍微的差别添加到与层7相似的层6的模式。
在通用模式(通用模式帧)中,执行提取10个脉冲的两个不同处理。
关于第一10个脉冲中的6个脉冲,可以从三个脉冲中的每一个提取两个脉冲,以及其中提取脉冲的频带范围为9750Hz至12150Hz。关于第一10个脉冲中的其它4个脉冲,从两个轨迹中的每一个提取两个脉冲,并且其中提取脉冲的频带范围为12150Hz至13750Hz。
提取20个脉冲中的其它10个脉冲的方法是相似的。关于10个脉冲中的6个脉冲,从三个轨迹中的每一个提取两个脉冲,并且其中提取脉冲的频带范围为8600Hz至11000Hz。关于10个脉冲中的其它4个脉冲,从两个轨迹中的每一个提取两个脉冲,并且其中提取脉冲的频带范围为11000Hz至12600Hz。
表5示出了层8的通用模式帧中的正弦曲线轨迹结构的示例。
<表5>
轨迹 | 正弦曲线的数目 | 第一开始位置 | 第二开始位置 | 位置步长 | 长度 |
0 | 2 | 390 | 344 | 3 | 32 |
1 | 2 | 391 | 345 | 3 | 32 |
2 | 2 | 392 | 346 | 3 | 32 |
3 | 2 | 486 | 440 | 2 | 32 |
4 | 2 | 487 | 441 | 2 | 32 |
表6示出在层8的正弦模式帧中用于提取20个脉冲的第一10个脉冲
的第一集合的正弦曲线轨迹结构的示例。
<表6>
轨迹 | 正弦曲线的数目 | 开始位置 | 位置步长 | 长度 |
0 | 2 | 280 | 2 | 32 |
1 | 2 | 281 | 2 | 32 |
2 | 2 | 282 | 3 | 32 |
3 | 2 | 440 | 2 | 32 |
4 | 2 | 441 | 2 | 32 |
表7示出在层8的正弦模式帧中用于提取20个脉冲中的第二10个脉
冲的第二集合的正弦曲线轨迹结构的示例。
<表7>
轨迹 | 正弦曲线的数目 | 开始位置 | 位置步长 | 长度 |
0 | 2 | 376 | 2 | 32 |
1 | 2 | 377 | 2 | 32 |
2 | 2 | 440 | 3 | 32 |
3 | 2 | 441 | 3 | 32 |
4 | 2 | 442 | 3 | 32 |
根据示出正弦曲线轨迹结构的示例的表,可以看出针对每个轨迹通常编码两个正弦曲线。例如,在关于层7的表4的示例中,32个位置,即,5比特被分配到每个正弦曲线,以便针对5个轨迹中的每一个轨迹编码两个正弦曲线。当5比特被使用时,所有位置信息通过25=32个检索空间表达,并且因此难以发送除了位置信息之外的附加信息。
在现有正弦模式中,针对32个检索空间发送两个索引,并且5比特用于索引的发送。即,在正弦模式中,通过第一正弦曲线的检测提取作为具有最大绝对值的正弦曲线的第一正弦曲线的位置信息、符号信息和振幅信息,作为具有第二大的绝对值的正弦曲线的第二正弦曲线被检索,并且提取其的位置信息、符号信息和振幅信息。当检测第二正弦曲线时,将第一正弦曲线的振幅设置成0,以便不再检测被检测的第一正弦曲线。
因为在检测第二正弦曲线时第一正弦曲线的振幅被设置成0,所以在检测第二正弦曲线的步骤中,不选择与第一正弦曲线的位置相同的位置。
图7是示意地示出选择第一正弦曲线和第二正弦曲线的方法的图。在图7中示出的示例中,在位置4处存在的脉冲的振幅是最大的126。因此,在位置4处的脉冲被检索作为第一正弦曲线,并且其位置、符号和振幅信息被提取。
当在检测第二正弦曲线时被检测的第一正弦曲线的振幅未被设置成0时,可以将在位置4处的脉冲检索为第二正弦曲线。因此,在正弦模式中,第一正弦曲线的振幅被设置成0,并且随后第二正弦曲线被检索。
因此,其中使用5比特在脉冲的位置处表达两个脉冲的位置的组合的数目是25x25=1024,但是在正弦模式中存在不用于检索第二正弦曲线的情形的数目。因此,在正弦模式中实际使用的组合的数目是25x(25-1)=992。
结果,10比特被使用,但是未被使用的32种情形存在其中。换言之,在图7中示出的示例中,其中在检索第一正弦曲线的步骤中选择位置4处的正弦曲线和在检索第二正弦曲线的步骤中选择位置4处的正弦曲线的情形不被使用,但是存在作为被分配到发送比特的情形。
因此,存在但是未被使用的情形被定义成指示表达语音信号的特征的正弦曲线的新组合,并且指示新定义的正弦曲线的组合的信息可以被发送。
例如,当指示两个正弦曲线的位置的被发送信息重复地指示第一正弦曲线的位置或者重复地指示第二正弦曲线的位置时,该信息可以被定义成指示重复指示的正弦曲线和与重复执行的正弦曲线相邻的的正弦曲线。在图7中示出的示例中,当指示正弦曲线的位置的信息重复指示位置4时,可以将该信息定义成指示位置4处的正弦曲线和位置5处的正弦曲线。
在该情形下,与被指示的正弦曲线相邻的两个正弦曲线与被指示的正弦曲线一起被提取作为将要编码的正弦曲线。被发送的信息可以是(1)重复指示的正弦曲线和(2)两个相邻的正弦曲线中的任何一个。解码器可以分析在被接收的信息中的关于相邻的正弦曲线的信息与该正弦曲线的重复指示位置之前和之后的相同,并且可以重建相对应的正弦曲线。
例如,当指示两个正弦曲线(脉冲)的位置的位置索引相互相等时,例如,当两个位置索引是15时,解码器可以确定具有14的位置索引或16的位置索引的正弦曲线以及具有15的位置索引的正弦曲线被提取作为将要编码的正弦曲线。因此,在被接收的信息的基础上解码器可以重建具有15的位置索引的正弦曲线,并且在相同信息的基础上可以重建具有14的位置索引和16的位置索引的正弦曲线。
因此,参考表2至7,当针对每个轨迹发送两个正弦曲线时,即,关于在层6中正弦模式被应用到的帧的预定轨迹(图6中示出的示例中的轨迹0至轨迹3)、在层7中正弦模式被应用到的帧的轨迹、在层8中通用模式被应用到的帧和正弦模式被应用到的帧的轨迹、以及在层6中通用模式被应用到的和在层8中附加正弦模式被应用到的帧的轨迹,反映输入语音信号的特征良好的两个正弦曲线(例如,两个相邻的正弦曲线)可以被选择,而不是最大正弦曲线。当重复指示相同正弦曲线位置时,可以发送被选择的两个正弦曲线的信息。
当两个相邻的的正弦曲线的信息被发送时,发送信息的方法与发送两个最大正弦曲线的信息的方法相同。例如,指示正弦曲线的位置的信息、指示正弦曲线的振幅的信息和指示正弦曲线的符号的信息被发送。此处,“正弦曲线”表示如上所述的正弦曲线的MDCT系数,并且正弦曲线的位置可以是与该正弦曲线(MDCT系数)相对应的波数。使用1比特可以发送两个相邻的正弦曲线的符号。为了使用1比特发送指示两个相邻的的正弦曲线的符号的信息,仅当两个相邻的正弦曲线的符号相互相等时发送信息的方法可以被使用。
在本发明中,在编码位置信息中,相同的发送比特被使用,但是通过使得附加信息与不用于发送的情形的数目相对应,与现有正弦模式相比较使要编码的分量数目,即,将要发送的信息片的数目增加。因此,在不使用附加比特的情形下降低量化错误是可能的。基于量化,考虑噪音,通过自适应地使用(1)发送两个最大正弦曲线的信息的方法和(2)选择性地发送两个最大正弦曲线的信息和两个相邻的正弦曲线的信息中的更有效信息的方法,防止量化错误增加和改善音质是可能的。
在下文将参考附图,详细描述发送两个最大正弦曲线的信息和两个相邻的正弦曲线的信息中更有效信息的方法。
当在轨迹中的两个正弦曲线的信息被发送时,假定通过检索将第一正弦曲线和第二正弦曲线检测为两个最大的正弦曲线。第一正弦曲线是在轨迹中具有最大振幅的正弦曲线,并且第二正弦曲线是在轨迹中具有第二大振幅的正弦曲线。
在本发明中,(1)第一正弦曲线和第二正弦曲线的信息、(2)第一正弦曲线和与第一正弦曲线相邻的正弦曲线的信息和(3)第二正弦曲线和与第二正弦曲线相邻的正弦曲线的信息中的任何一个被选择和被发送。
当两个相邻的正弦曲线的信息被发送时(即,(2)和(3)的情形),指示相同正弦曲线位置的两个索引的信息被发送。例如,在(2)的情形下,指示第一正弦曲线的位置的两个索引可以被发送。在(3)的情形下,指示第二正弦曲线的位置的两个索引可以被发送。
通过这些情形的均方误差(MSE)的比较,可以确定要发送(1)第一正弦曲线和第二正弦曲线的信息、(2)第一正弦曲线和与第一正弦曲线相邻的正弦曲线的信息和(3)第二正弦曲线和与第二正弦曲线相邻的正弦曲线的信息中的哪一个。
当轨迹中第n大的正弦曲线的位置被定义为posn MAX时,第一正弦曲线的位置可以由pos1 MAX表示并且第二正弦曲线的位置可以由pos2 MAX表示。与第一正弦曲线相邻的两个正弦曲线的位置是pos1 MAX-1和pos1 MAX+1,并且与第二正弦曲线相邻的两个正弦曲线的位置是pos2 MAX-1和pos2 MAX+1。
因此,第一正弦曲线的MSE MSE1 MAX、第二正弦曲线的MSEMSE2 MAX、与第一正弦曲线相邻的两个正弦曲线的平均MSEMSE1 adjacent、与第二正弦曲线相邻的两个正弦曲线的平均MSEMSE2 adjacent由例如表达式5表示。
<表达式5>
在表达式5中,X(k)表示构成初始信号的第k个正弦分量(具有k的波数的正弦曲线)的MDCT系数,并且代表第k个正弦分量的被量化的MDCT系数。
第一个正弦曲线的MDCT系数可以由X(pos1 MAX)表示,并且第二个正弦曲线的MDCT系数可以由X(pos2 MAX)表示。因此,与第一个正弦曲线相邻的两个正弦曲线的MDCT系数可以由X(pos1 MAX-1)和X(pos1 MAX+1)表示,并且与第二正弦曲线相邻的两个正弦曲线的MDCT系数可以由X(pos2 MAX-1)和X(pos2 MAX+1)表示。
在本发明中,将(1)第一正弦曲线和第二正弦曲线的信息、(2)第一正弦曲线和与第一正弦曲线相邻的正弦曲线的信息、以及(3)第二正弦曲线和与第二正弦曲线相邻的正弦曲线的信息的MSE进行比较,并且具有(1)至(3)中的最小MSE的信息可以被发送。
为了使用与(1)的情形相同的发送比特以发送两个相邻的正弦曲线的信息,可以将(2)和(3)的情形限制成仅是其中两个正弦曲线的符号相互相等的情形。因此,与其中使用1比特发送正弦曲线的符号的情形(1)相似,在情形(2)和(3)中使用1比特可以指示正弦曲线的符号。
图8是根据本发明示意地示出在正弦模式中确定将要发送的信息的方法的示例的流程图。通过图1中示出的编码器的正弦模式单元和附加正弦模式单元执行在图8中示出的方法。在参考图8的描述中,“正弦曲线”可以表示如上所述的正弦曲线的MDCT系数。
参考图8,从轨迹可以检测具有最大振幅的两个正弦曲线(第一正弦曲线和第二正弦曲线)(S800),通过检索正弦信息从该轨迹将被发送。如上所述,假定第一正弦曲线的检测位置是pos1 MAX并且第二正弦曲线的检测位置是pos2 MAX。随后,使用利用表达式1所检测的D(k)的值,可以检测具有最大振幅的两个正弦曲线。
随后,确定与被检测的正弦曲线中的第一正弦曲线相邻的两个正弦曲线的符号相互相等(S810)。当两个正弦曲线的信息被发送时,仅使用1比特发送在关于符号的信息中首先将被发送的正弦曲线的信息。因此,当两个相邻的正弦曲线的信息被发送而非发送两个最大正弦曲线的信息时,仅当两个相邻的正弦曲线的符号相互相等时,可以允许两个相邻的正弦曲线的信息的发送。因此,与其中两个最大正弦曲线的信息被发送的情形相似,使用1比特可以发送关于符号的信息。
当与第一正弦曲线相邻的两个正弦曲线的符号相互相等时,将第二正弦曲线的均方误差(MSE)和与第一正弦曲线相邻的正弦曲线的平均MSE进行比较(S820)。第二正弦曲线的MSE和与第一正弦曲线相邻的正弦曲线的平均MSE与表达式5所表示的相同。
当第二正弦曲线的MSE小于与第一正弦曲线相邻的正弦曲线的平均MSE时,从将要发送的信息排除与第一正弦曲线相邻的正弦曲线的信息。因此,确定是否发送第二正弦曲线和第一正弦曲线的信息,或者是否发送第二正弦曲线和与第二正弦曲线相邻的正弦曲线的信息。
当在步骤S810中确定与第一正弦曲线相邻的两个正弦曲线的符号不是相互相等时,从将要发送的信息中排除与第一正弦曲线相邻的两个正弦曲线的信息,并且因此确定是否发送第二正弦曲线和第一正弦曲线的信息,或者是否发送第二正弦曲线和与第二正弦曲线相邻的正弦曲线的信息。
当第二正弦曲线的MSE大于与第一正弦曲线相邻的正弦曲线的平均MSE时,从将要发送的信息中排除第二正弦曲线的信息和第一正弦曲线的信息。因此,确定是否发送第一正弦曲线和与第一正弦曲线相邻的正弦曲线的信息,或者是否发送第二正弦曲线和与第二正弦曲线相邻的正弦曲线的信息。
当在步骤S820中确定第二正弦曲线的MSE小于与第一正弦曲线相邻的正弦曲线的平均MSE或者与第一正弦曲线相邻的两个正弦曲线的符号彼此不相等时,确定与第二正弦曲线相邻的两个正弦曲线的符号是否相互相等(S830)。
当与第二正弦曲线相邻的两个正弦曲线的符号相互相等时,将第一正弦曲线的MSE和与第二正弦曲线相邻的正弦曲线的平均MSE进行比较(S840)。
当第一正弦曲线的MSE大于与第二正弦曲线相邻的正弦曲线的平均MSE时,第二正弦曲线的信息和与第二正弦曲线相邻的正弦曲线的信息被发送(S850)。此时,与第二正弦曲线相邻的两个正弦曲线之一的信息以及第二正弦曲线的信息一起被发送。例如,重复指示第二正弦曲线的位置的位置信息、第二正弦曲线和与第二正弦曲线相邻的正弦曲线的振幅信息、以及与第二正弦曲线相邻的正弦曲线的符号信息被编码和被发送。
在被接收的正弦曲线的信息的基础上,解码器可以导出第二正弦曲线和与第二正弦曲线相邻的正弦曲线。与第二正弦曲线相邻的正弦曲线被包括作为具有在与第二正弦曲线相邻的两个位置(第二正弦曲线之前和之后)处的相同振幅和相同符号的正弦曲线。
当第一正弦曲线的MSE小于与第二正弦曲线相邻的正弦曲线的平均MSE时,第一正弦曲线和第二正弦曲线的信息被发送(S860)。当在步骤S830中确定与第二正弦曲线相邻的两个正弦曲线的符号彼此不相等时,从将要发送的信息中排除与第二正弦曲线相邻的正弦曲线的信息,并且因此第一正弦曲线和第二正弦曲线的信息被发送(S860)。
另一方面,当在步骤S820中确定第二正弦曲线的MSE大于与第一正弦曲线相邻的正弦曲线的平均MSE时,确定与第一正弦曲线相邻的两个正弦曲线的符号相互相等(S780)。
当与第一正弦曲线相邻的两个正弦曲线的符号相互相等时,将第一正弦曲线和与第一正弦曲线相邻的正弦曲线的MSE和第二正弦曲线和与第二正弦曲线相邻的正弦曲线的MSE进行比较(S880)。第一正弦曲线和与第一正弦曲线相邻的正弦曲线的MSE表示第一正弦曲线的MSE和与第一正弦曲线相邻的正弦曲线的MSE的平均MSE。第二正弦曲线和第二正弦曲线相邻的正弦曲线的MSE表示第二正弦曲线的MSE和与第二正弦曲线相邻的正弦曲线的MSE的平均MSE。
当第一正弦曲线和与第一正弦曲线相邻的正弦曲线的MSE小于第二正弦曲线和与第二正弦曲线相邻的正弦曲线的MSE时,第一正弦曲线和与第一正弦曲线相邻的正弦曲线的信息被发送(S890)。此时,与第一正弦曲线相邻的两个正弦曲线之一的信息以及第一正弦曲线的信息一起被发送。例如,重复地指示第一正弦曲线的位置的位置信息、第一正弦曲线和与第一正弦曲线相邻的正弦曲线的振幅信息和与第一正弦曲线相邻的正弦曲线的符号信息被编码和被发送。
在被接收的正弦曲线的信息的基础上,解码器可以导出第一正弦曲线和与第一正弦曲线相邻的正弦曲线。可以将与第一正弦曲线相邻的正弦曲线导出,作为具有在与第一正弦曲线相邻的两个位置(第一正弦曲线之前和之后)处的相同振幅和相同符号的正弦曲线。
当第一正弦曲线和与第一正弦曲线相邻的正弦曲线的MSE大于第二正弦曲线和与第二正弦曲线相邻的正弦曲线的MSE时,第二正弦曲线和与第二正弦曲线相邻的正弦曲线的信息被发送(S850)。此时,与第二正弦曲线相邻的两个正弦曲线之一的信息以及第二正弦曲线的信息被发送。如上所述,解码器可以导出第二正弦曲线和与第二正弦曲线相邻的正弦曲线。
S820的确定条件MSE2 MAX<MSE1 adjacent等于MSE1 MAX+MSE2 MAX<MSE1 MAX+MSE1 adjacent。S840的确定条件MSE1 MAX>MSE2 adjacent等于MSE1 MAX+MSE2 MAX>MSE2 MAX+MSE2 adjacent。
因此,具有(1)第一正弦曲线和第二正弦曲线的信息、(2)第一正弦曲线和与第一正弦曲线相邻的正弦曲线的信息和(3)第二正弦曲线和与第二正弦曲线相邻的正弦曲线的信息中的最小MSE的信息被发送。
此时,将要发送的信息包括(i)第一正弦曲线和第二正弦曲线的信息、(ii)当与第一正弦曲线相邻的两个正弦曲线的符号相互相等时第一正弦曲线和与第一正弦曲线相邻的正弦曲线的信息和(iii)当与第二正弦曲线相邻的的两个正弦曲线的符号相互相等时第二正弦曲线和与第二正弦曲线相邻的正弦曲线的信息。
表8简单地示出在图8中示出的示例中将要发送的信息。
<表8>
在表8中,“第一符号”表示与第一正弦曲线相邻的两个正弦曲线的符号是否相互相等。在表8中,“第二符号”表示与第二正弦曲线相邻的两个正弦曲线的符号是否相互相等。
在表8中,“MSE1&2对MSE1&ADJ”表示当第一正弦曲线和第二正弦曲线的信息被发送时的MSE和当第一正弦曲线和与第一正弦曲线相邻的正弦曲线的信息被发送时的MSE中哪一个较小。
在表8中,“MSE1&2对MSE2&ADJ”表示当第一正弦曲线和第二正弦曲线的信息被发送时的MSE和当第二正弦曲线和与第二正弦曲线相邻的正弦曲线的信息被发送时的MSE中哪一个较小。
在表8中,“MSE1&ADJ对MSE2&ADJ”表示当第一正弦曲线和与第一正弦曲线相邻的正弦曲线的信息被发送时的MSE和当第二正弦曲线和与第二正弦曲线相邻的正弦曲线的信息被发送时的MSE中哪一个较小。
在本发明中,关于在轨迹中简单检测和发送两个最大正弦曲线的方法中未被使用的情形的新信息被附加地使用。因此,与在仅两个最大正弦曲线的信息被发送时的比特流相同的比特流结构可以被使用。
表9示意地示出在本发明中使用的比特流结构。
<表9>
参数 | 每个被发送的信息的比特数 | 比特总数 |
正弦曲线位置 | 5+5+5+5+5+5+5+5+5+5 | 50 |
正弦曲线符号 | 1+1+1+1+1 | 5 |
正弦曲线振幅 | 8+8+8 | 24 |
在图8中示出的示例中,将检测具有最大振幅的正弦曲线(第一正弦曲线和第二正弦曲线)的MSE和相邻的正弦曲线的平均MES进行比较并且选择具有较小MSE的信息的方法被用作选择将要发送的信息的方法。因此,当比最大正弦曲线的信息(具有较小MSE的信息存在)更加有效的信息存在时,在不使用附加比特的情形下通过发送更加有效信息以减少量化噪音是可能的。
例如,当在表10中示出的条件表达式被满足时,被检测为最大正弦曲线的两个正弦曲线被选择,并且被选择的两个正弦曲线的信息被发送。反之,当表10中示出的条件表达式不满足时,被检测为最大正弦曲线的两个正弦曲线和与其相邻的正弦曲线中的任何一个被选择,并且被选择的正弦曲线的信息被发送。
<表10>
表10中示出的示例示出参考图8所描述的方法的一部分,即,选择两个最大的正弦曲线的信息和一个最大的正弦曲线和与其相邻的正弦曲线的信息中的哪一个被发送的方法。
图9是示出其中与仅具有最大振幅的两个正弦曲线之一相邻的两个正弦曲线的符号相互相等的示例的图。
参考图9,在与位于位置pos1 MAX处的第一正弦曲线相邻的位置pos1 MAX-1和pos1 MAX+1处不存在具有相同符号的正弦曲线。反之,与位于位置pos2 MAX处的第二正弦曲线相邻的位置pos2 MAX-1和pos2 MAX+1处的两个正弦曲线具有相同符号。
因此,第二正弦曲线被选择为将要编码的正弦曲线,并且确定是否第一正弦曲线或相邻的正弦曲线910以及第二正弦曲线一起编码。使用表9中示出的确定方法,可以确定是否编码第一正弦曲线或相邻的正弦曲线910。
图10是示意地示出当与两个最大的正弦曲线中的每一个相邻的的两个正弦曲线的符号相互相等时选择将要发送的信息的方法的图。
参考图10,与第一正弦曲线X(pos1 MAX)相邻的两个正弦曲线X(pos1MAX-1)和X(pos1MAX+1)的符号相互相等。与第二正弦曲线X(pos2 MAX)相邻的两个正弦曲线X(pos2MAX-1)和X(pos2MAX+1)的符号也相互相等。
因此,应该确定(1)第一正弦曲线和第二正弦曲线的信息、(2)第一正弦曲线和与第一正弦曲线相邻的正弦曲线(1010)的信息、以及(3)第二正弦曲线和与第二正弦曲线相邻的正弦曲线(1020)的信息中哪一个被发送。在该情形下,通过比较MSE使用表达式6将MSE最小化的情形。将情形(1)至(3)中的具有最小MSE的信息确定为将要发送的信息。
<表达式6>
Min({MSE1 MAX+Min(MSE2 MAX,MSE1 Adjacent)},{MSE2 MAX+MSE2 Adjacent})
虽然目前已经描述了使用MSE选择将要发送的信息的方法,但是本发明不限于该方法。
例如,考虑正弦曲线的振幅(正弦分量的MDCT系数的振幅)而非MSE,可以选择将要发送的信息。此时,可以将特定正弦曲线的振幅确定为残差信号的和的量级。可以将残差信号(D)的和定义为通过从目标轨迹中的正弦曲线的所有MDSCT系数的和减去与特定正弦曲线相对应的MDCT系数的量化值所获得的值。
表达式7示出从目标轨迹检索的两个最大正弦曲线(第一正弦曲线和第二正弦曲线)的残差信号的和以及与第一正弦曲线相邻的正弦曲线的残差信号的和的平均。
<表达式7>
在表达式7中,表示初始MDCT系数X(k)中的当前轨迹中的MDCT系数的第k个MDCT系数,以及r表示当前轨迹中MDCT系数的第k个量化的MDCT系数。
posn MAX表示如上所述的轨迹中的第n个最大正弦曲线(正弦曲线分量的MDCT系数)的位置。
Dn MAX表示第n个正弦曲线的残差信号的和,其是在正弦模式中除了正弦曲线的MDCT系数中的第n个正弦曲线的MDCT系数之外的残差系数的和。
Dn Adjacent表示与第n个正弦曲线相邻的两个正弦曲线的残差信号的和的平均。即,Dn Adjacent与通过将在正弦模式中除了正弦曲线的MDCT系数中的第(n-1)个正弦曲线的MDCT系数之外的残差系数的和与除了第(n+1)个正弦曲线的MDCT系数之外的残差系数的和相加并且将相加的结果除以2所得到的值相对应。
图11示意地示出在取代MSE量化之前使用MDCT系数的绝对值确定将要发送的信息的方法的示例的流程图。在参考图11的描述中,“正弦曲线”可以意指如上所述的正弦曲线的MDCT系数。
参考图11,从轨迹检测具有最大振幅的两个正弦曲线(第一正弦曲线和第二正弦曲线)(S1100),通过检索正弦信息从该轨迹将被发送。如上所述,假定第一正弦曲线的被检测位置是pos1 MAX,并且第二正弦曲线的被检测位置是pos2 MAX。随后,使用利用表达式1所检测的D(k)的值,可以检测具有最大振幅的两个正弦曲线。
随后,确定与被检测的正弦曲线中的第一正弦曲线相邻的两个正弦曲线的符号是否相互相等(S1110)。当两个相邻的正弦曲线的信息被发送而非发送两个最大正弦曲线的信息时,仅当两个相邻的正弦曲线的符号相互相等时,可以允许两个相邻的正弦曲线的信息的发送。因此,与其中两个最大正弦曲线的信息被发送相似,使用1比特可以发送关于符号的信息。
当与第一正弦曲线相邻的两个正弦曲线的符号相互相等时,第二正弦曲线的D2 MAX和与第一正弦曲线相邻的正弦曲线的D1 Adjacent进行比较(S1120)。第二正弦曲线的D2 MAX和与第一正弦曲线相邻的正弦曲线的D1 Adjacent与表达式7所表示的相同。
在图11中所示的示例中,具有将要发送和将要比较的信息片中的较大振幅的正弦曲线的信息被优选发送。因此,在其中残差系数的和或残差系数的平均和被比较的图11中示出的示例中,可以选择具有较小值的信息。
当第二正弦曲线的D2 MAX小于与第一正弦曲线相邻的正弦曲线的D1 Adjacent时,从将要发送的信息排除与第一正弦曲线相邻的正弦曲线的信息。因此,确定是否发送第二正弦曲线和第一正弦曲线的信息或者是否发送第二正弦曲线和与第二正弦曲线相邻的正弦曲线的信息。
当在步骤S1110中确定与第一正弦曲线相邻的两个正弦曲线的符号相互相等时,从将要发送的信息中排除与第一正弦曲线相邻的两个正弦曲线的信息,并且因此确定是否发送第二正弦曲线和第一正弦曲线的信息或者是否发送第二正弦曲线和与第二正弦曲线相邻的正弦曲线的信息。
当第二正弦曲线的D2 MAX大于与第一正弦曲线相邻的正弦曲线的D1 Adjacent时,从将要发送的信息中排除第二正弦曲线的信息和第一正弦曲线的信息。因此,确定是否发送第一正弦曲线和与第一正弦曲线相邻的正弦曲线的信息或者是否发送第二正弦曲线和与第二正弦曲线相邻的正弦曲线的信息。
当在步骤S1120中确定第二正弦曲线的D2 MAX小于与第一正弦曲线相邻的正弦曲线的D1 Adjacent,或者确定与第一正弦曲线相邻的两个正弦曲线的符号彼此不相等时,确定与第二正弦曲线相邻的两个正弦曲线的符号是否相互相等(S1130)。
当与第二正弦曲线相邻的两个正弦曲线的符号相互相等时,第一正弦曲线的D1 MAX和与第二正弦曲线相邻的正弦曲线的D2 Adjacent被比较(S1140)。
当第一正弦曲线的D1 MAX大于与第二正弦曲线相邻的正弦曲线的D2 Adjacent时,第二正弦曲线和与第二正弦曲线相邻的正弦曲线的信息被发送(S1150)。此时,与第二正弦曲线相邻的的两个正弦曲线之一的信息以及第二正弦曲线的信息一起被发送。例如,重复指示第二正弦曲线的位置的位置信息、第二正弦曲线和与第二正弦曲线相邻的的正弦曲线的振幅信息和与第二正弦曲线相邻的的正弦曲线的符号信息被编码和被发送。
基于被接收的正弦曲线的信息,解码器可以导出第二正弦曲线和与第二正弦曲线相邻的正弦曲线。可以将与第二正弦曲线相邻的正弦曲线作为在与第二正弦曲线相邻的两个位置处(第二正弦曲线之前和之后)具有相同振幅和相同符号的正弦曲线被包括。
当第一正弦曲线的D1 MAX小于与第二正弦曲线相邻的正弦曲线的D2 Adjacent时,第一正弦曲线和第二正弦曲线的信息被发送(S1160)。当在步骤S1130中确定与第二正弦曲线相邻的两个正弦曲线的符号彼此不相等时,从将要发送的信息中排除与第二正弦曲线相邻的正弦曲线的信息,并且因此第一正弦曲线和第二正弦曲线的信息被发送(S1160)。
另一方面,当在步骤S1120中确定第二正弦曲线的D2 MAX大于与第一正弦曲线相邻的正弦曲线的D1 Adjacent时,确定与第一正弦曲线相邻的两个正弦曲线的符号是否相互相等。
当与第一正弦曲线相邻的两个正弦曲线的符号相互相等时,第一正弦曲线和与第一正弦曲线相邻的正弦曲线的D1 MAX+D1 Adjacent和第二正弦曲线和与第二正弦曲线相邻的正弦曲线D2 MAX+D2 Adjacent被比较(S1180)。
当第一正弦曲线和与第一正弦曲线相邻的正弦曲线的D1 MAX+D1 Adjacent小于第二正弦曲线和与第二正弦曲线相邻的正弦曲线的D2 MAX+D2 Adjacent时,第一正弦曲线和与第一正弦曲线相邻的正弦曲线的信息被发送(S1190)。此时,与第一正弦曲线相邻的两个正弦曲线之一的信息以及第一正弦曲线的信息一起被发送。例如,重复指示第一正弦曲线的位置的位置信息、第一正弦曲线和与第一正弦曲线相邻的正弦曲线的振幅信息和与第一正弦曲线相邻的正弦曲线的符号信息被编码和被发送。
在被接收的正弦曲线的信息的基础上,解码器可以导出第一正弦曲线和与第一正弦曲线相邻的正弦曲线。可以将与第一正弦曲线相邻的正弦曲线导出作为在与第一正弦曲线相邻的两个位置处(第一正弦曲线之前和之后)具有相同振幅和相同符号的正弦曲线。
当第一正弦曲线和与第一正弦曲线相邻的正弦曲线的D1 MAX+D1 Adjacent大于第二正弦曲线和与第二正弦曲线相邻的正弦曲线的D2 MAX+D2 Adjacent时,第二正弦曲线和与第二正弦曲线相邻的正弦曲线的信息被发送(S1150)。此时,与第二正弦曲线相邻的两个正弦曲线之一的信息以及第二正弦曲线的信息一起被发送。如上所述,该解码器可以导出第二正弦曲线和与第二正弦曲线相邻的正弦曲线。
S1120的确定条件D2 MAX<D1 adjacent等于D1 MAX+D2 MAX<D1 MAX+D1 adjacent。S1140的确定条件D1 MAX>D2 adjacent等于D1 MAX+D2 MAX>D2 MAX+D2 adjacent。
因此,具有(1)第一正弦曲线和第二正弦曲线的信息、(2)第一正弦曲线和与第一正弦曲线相邻的正弦曲线的信息、以及(3)第二正弦曲线和与第二正弦曲线相邻的正弦曲线的信息中的残差系数的最小和的信息被发送。
此时,将要发送的信息包括(i)第一正弦曲线和第二正弦曲线的信息、(ii)当与第一正弦曲线相邻的两个正弦曲线的符号相互相等时第一正弦曲线和与第一正弦曲线相邻的正弦曲线的信息、以及(iii)当与第二正弦曲线相邻的两个正弦曲线的符号相互相等时第二正弦曲线和与第二正弦曲线相邻的正弦曲线的信息。
表11简单示出在图11中示出的示例中的将要发送的信息。
<表11>
在表11中,“第一符号”表示与第一正弦曲线相邻的两个正弦曲线的符号是否相互相等。在表11中,“第二符号”表示与第二正弦曲线相邻的两个正弦曲线的符号是否相互相等。
在表1中,“D1&D2对D1&Dadj”表示当第一正弦曲线和第二正弦曲线的信息被发送时残差系数(D1 MAX+D2 MAX)的和以及当第一正弦曲线和与第一正弦曲线相邻的正弦曲线的信息被发送时残差系数(D1 MAX+D1 Adjacent)的和中哪一个较小。
在表11中,“D1&D2对D2&Dadj”表示当第一正弦曲线和第二正弦曲线的信息被发送时残差系数(D1 MAX+D2 MAX)的和以及当第二正弦曲线和与第二正弦曲线相邻的正弦曲线的信息被发送时残差系数(D2 MAX+D2 Adjacent)的和中哪一个较小。
在表11中,“D1&Dadj对D2&Dadj”表示当第一正弦曲线和与第一正弦曲线相邻的正弦曲线的信息被发送时残差系数(D1 MAX+D1 Adjacent)的和以及当第二正弦曲线和与第二正弦曲线相邻的正弦曲线的信息被发送时残差系数(D2 MAX+D2 Adjacent)的和中哪一个较小。
以该种方式,当被选择的信息被编码和被发送时,在被接收的信息的基础上解码器可以在轨迹中重建正弦曲线(正弦曲线的MDCT系数)。
如上所述,当在轨迹中检测的两个最大正弦曲线的信息被发送时,(1)两个正弦曲线的位置信息、(2)两个正弦曲线的振幅信息、以及(3)两个正弦曲线的符号信息被发送。解码器可以重建具有通过被接收的正弦曲线信息指示的位置处的被指示的振幅和符号的正弦曲线。
当在轨迹中检测的两个最大正弦曲线中的一个正弦曲线和与其相邻的正弦曲线的信息被发送时,(1)两个正弦曲线的位置信息、(2)两个正弦曲线的振幅信息、以及(3)两个正弦曲线的符号信息被发送。此时,两个正弦曲线的位置信息指示相同位置。被指示的位置是具有两个正弦曲线中的较大振幅的正弦曲线的位置。
基于被接收的两个正弦曲线的信息,解码器在通过位置信息指示的位置处导出与被接收的振幅信息中的较大振幅相对应的正弦曲线。在与通过位置信息指示的位置相邻的位置处(通过位置信息指示的位置的前后或左右),可以导出与被接收的振幅信息中的较小振幅相对应的正弦曲线。
在以这种方式导出正弦曲线(MDCT系数)之后,解码器通过包括执行IMDCT的处理的一系列处理可以重建语音信号,如参考图3和图4所描述。
当为了更加容易地理解一些情形在括号中写入细节时,并不是表示即使当相同描述不具有写入括号的细节时将这些细节从该描述中排除。例如,在写入括号的诸如“正弦曲线(脉冲)”和“正弦曲线(MDCT系数)”被使用,但是并不意味着正弦曲线不是脉冲或者正弦曲线不是MDCT系数。
根据本发明,通过发送额外信息而不增加比特率来增强编译效率和执行编码/解码而不更改比特流结构是可能的,从而确保较低兼容性。
当在包括一系列步骤或块的流程图的基础上已经描述上述示例性系统中的方法时,本发明不限于这些步骤的顺序,并且在除了上文描述的步骤或顺序中或者与上文描述相同的时间处之外,可以执行某一步骤。上述实施例可以包括各种示例。例如,可以将实施例组合,并且这些组合属于本发明的实施例。因此,应该理解的是,本发明包括所有属于随附权利要求的其它替换、改变和修正。
Claims (14)
1.一种语音信号编码方法,包括:
对构成输入语音信号的正弦分量进行转换,并且
生成所述正弦分量的变换系数;
确定所生成的变换系数中的将要编码的目标变换系数;以及
发送指示所述目标变换系数的索引信息,
其中,所述索引信息包括第一索引信息和第二索引信息,所述第一索引信息和所述第二索引信息的每个包括位置信息、振幅信息和符号信息,以及
其中,当所述第一索引信息的位置信息和所述第二索引信息的位置信息指示相同的位置时,将要编码的所述目标变换系数是在所指示的位置处的第一变换系数或者第二变换系数,以及与所指示的位置相邻的位置处的两个相邻变换系数。
2.根据权利要求1所述的方法,其中,确定将要编码的所述目标变换系数的步骤包括:
考虑到所述变换系数的振幅,搜索具有最大振幅的第一变换系数和具有第二大振幅的第二变换系数,以及
将所述第一变换系数和所述第二变换系数、所述第一变换系数和与所述第一变换系数相邻的两个相邻变换系数、以及所述第二变换系数和与所述第二变换系数相邻的两个相邻变换系数的三种组合之一确定为将要编码的所述目标变换系数。
3.根据权利要求2所述的方法,其中,所述第一变换系数和所述第二变换系数的均方误差(MSE)、所述第一变换系数和与所述第一变换系数相邻的两个相邻变换系数的MSE、以及所述第二变换系数和与所述第二变换系数相邻的两个相邻变换系数的MSE进行相互比较,并且将具有最小MSE的变换系数的组合确定为将要编码的所述目标变换系数。
4.根据权利要求2所述的方法,其中,所述第一变换系数和所述第二变换系数的残差系数的和、所述第一变换系数和与所述第一变换系数相邻的两个相邻变换系数的残差系数的和、以及所述第二变换系数和与所述第二变换系数相邻的两个相邻变换系数的残差系数的和进行相互比较,并且将具有最小的残差系数的和的变换系数的组合确定为将要编码的所述目标变换系数。
5.根据权利要求2所述的方法,其中,当与所述第一变换系数相邻的两个相邻变换系数的符号彼此不相等时,从将要编码的所述目标变换系数排除与所述第一变换系数相邻的变换系数,并且当与所述第二变换系数相邻的两个相邻变换系数的符号彼此不相等时,从将要编码的所述目标变换系数排除与所述第二变换系数相邻的相邻变换系数。
6.根据权利要求2所述的方法,其中,发送所述索引信息的步骤包括关于将要编码的所述目标变换系数的符号发送指示将要编码的所述第一变换系数的符号的信息。
7.根据权利要求2所述的方法,其中,当所述第一变换系数和与所述第一变换系数相邻的两个相邻变换系数被确定为将要编码的所述目标变换系数时,所述第一索引信息的所述位置信息和所述第二索引信息的所述位置信息指示所述第一变换系数的位置;以及
其中,当所述第二变换系数和与所述第二变换系数相邻的两个相邻变换系数被确定为将要编码的所述目标变换系数时,所述第一索引信息的位置信息和所述第二索引信息的位置信息指示所述第二变换系数的位置。
8.根据权利要求1所述的方法,其中,所述正弦分量属于超宽带。
9.一种语音信号解码方法,包括:
接收包括语音信息的比特流;
基于在所述比特流中包括的索引信息,重建构成语音信号的正弦分量的变换系数;以及
对重建的变换系数进行逆变换,以重建所述语音信号,
其中,所述索引信息包括第一索引信息和第二索引信息,所述第一索引信息和所述第二索引信息的每个包括位置信息、振幅信息和符号信息,以及
其中,当所述第一索引信息的位置信息和所述第二索引信息的位置信息指示相同位置时,重建所述变换系数的步骤包括,在所指示的位置和与所指示的位置相邻的位置处,重建所述变换系数。
10.根据权利要求9所述的方法,其中,所述第一索引信息的所述位置信息所述第二索引信息的所述位置信息分别指示在轨迹中具有最大振幅的第一变换系数的位置和在所述轨迹中具有第二大振幅的第二变换系数的位置,或者重复指示所述第一变换系数,或者重复指示所述第二变换系数。
11.根据权利要求10所述的方法,其中,当所述第一索引信息的所述位置信息和所述第二索引信息的所述位置信息指示所述第一变换系数的相同的位置时,所述第一变换系数和与所述第一变换系数相邻的两个相邻变换系数被重建,以及
其中,当所述第一索引信息的所述位置信息和所述第二索引信息的所述位置信息指示所述第二变换系数的相同位置时,所述第二变换系数和与所述第二变换系数相邻的两个相邻变换系数被重建。
12.根据权利要求10所述的方法,其中,当所述第一索引信息的所述位置信息和所述第二索引信息的所述位置信息指示所述第一变换系数的相同的位置时,所述第一变换系数和与所述第一变换系数相邻的两个相邻变换系数被重建以具有相同的振幅,以及
其中,当所述第一索引信息的位置信息和所述第二索引信息的位 置信息指示所述第二变换系数的相同的位置时,所述第二变换系数和与所述第二变换系数相邻的两个相邻变换系数被重建,以具有相同的振幅。
13.根据权利要求10所述的方法,其中,当所述第一索引信息的所述位置信息和所述第二索引信息的所述位置信息指示所述第一变换系数的相同的位置时,所述第一变换系数和与所述第一变换系数相邻的两个相邻变换系数被重建以具有相同的符号,以及
其中,当所述第一索引信息的位置信息和所述第二索引信息的位置信息指示所述第二变换系数的相同位置时,所述第二变换系数和与所述第二变换系数相邻的两个相邻变换系数被重建以具有相同的符号。
14.根据权利要求9所述的方法,其中,被重建的语音信号是超宽带语音信号。
Applications Claiming Priority (5)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US201161540518P | 2011-09-28 | 2011-09-28 | |
US61/540,518 | 2011-09-28 | ||
US201261684826P | 2012-08-20 | 2012-08-20 | |
US61/684,826 | 2012-08-20 | ||
PCT/KR2012/007889 WO2013048171A2 (ko) | 2011-09-28 | 2012-09-28 | 음성 신호 부호화 방법 및 음성 신호 복호화 방법 그리고 이를 이용하는 장치 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN103946918A CN103946918A (zh) | 2014-07-23 |
CN103946918B true CN103946918B (zh) | 2017-03-08 |
Family
ID=47996640
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201280057514.XA Expired - Fee Related CN103946918B (zh) | 2011-09-28 | 2012-09-28 | 语音信号编码方法、语音信号解码方法及使用其的装置 |
Country Status (6)
Country | Link |
---|---|
US (1) | US9472199B2 (zh) |
EP (1) | EP2763137B1 (zh) |
JP (1) | JP5969614B2 (zh) |
KR (1) | KR102048076B1 (zh) |
CN (1) | CN103946918B (zh) |
WO (1) | WO2013048171A2 (zh) |
Families Citing this family (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
RU2725416C1 (ru) * | 2012-03-29 | 2020-07-02 | Телефонактиеболагет Лм Эрикссон (Пабл) | Расширение полосы частот гармонического аудиосигнала |
CN105745703B (zh) * | 2013-09-16 | 2019-12-10 | 三星电子株式会社 | 信号编码方法和装置以及信号解码方法和装置 |
US10388293B2 (en) | 2013-09-16 | 2019-08-20 | Samsung Electronics Co., Ltd. | Signal encoding method and device and signal decoding method and device |
CN110176241B (zh) * | 2014-02-17 | 2023-10-31 | 三星电子株式会社 | 信号编码方法和设备以及信号解码方法和设备 |
EP4293666A3 (en) | 2014-07-28 | 2024-03-06 | Samsung Electronics Co., Ltd. | Signal encoding method and apparatus and signal decoding method and apparatus |
WO2017064264A1 (en) | 2015-10-15 | 2017-04-20 | Huawei Technologies Co., Ltd. | Method and appratus for sinusoidal encoding and decoding |
KR20200127781A (ko) * | 2019-05-03 | 2020-11-11 | 한국전자통신연구원 | 주파수 복원 기법 기반 오디오 부호화 방법 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US5684926A (en) * | 1996-01-26 | 1997-11-04 | Motorola, Inc. | MBE synthesizer for very low bit rate voice messaging systems |
USRE40691E1 (en) * | 1992-01-17 | 2009-03-31 | Massachusetts Institute Of Technology | Encoding decoding and compression of audio-type data using reference coefficients located within a band of coefficients |
WO2010093224A2 (ko) * | 2009-02-16 | 2010-08-19 | 한국전자통신연구원 | 적응적 정현파 펄스 코딩을 이용한 오디오 신호의 인코딩 및 디코딩 방법 및 장치 |
Family Cites Families (29)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US4885790A (en) * | 1985-03-18 | 1989-12-05 | Massachusetts Institute Of Technology | Processing of acoustic waveforms |
US5924064A (en) * | 1996-10-07 | 1999-07-13 | Picturetel Corporation | Variable length coding using a plurality of region bit allocation patterns |
US6385576B2 (en) * | 1997-12-24 | 2002-05-07 | Kabushiki Kaisha Toshiba | Speech encoding/decoding method using reduced subframe pulse positions having density related to pitch |
JP3372908B2 (ja) * | 1999-09-17 | 2003-02-04 | エヌイーシーマイクロシステム株式会社 | マルチパルス探索処理方法と音声符号化装置 |
US6539349B1 (en) * | 2000-02-15 | 2003-03-25 | Lucent Technologies Inc. | Constraining pulse positions in CELP vocoding |
JP5485488B2 (ja) | 2000-06-20 | 2014-05-07 | コーニンクレッカ フィリップス エヌ ヴェ | 正弦波符号化 |
US6728669B1 (en) * | 2000-08-07 | 2004-04-27 | Lucent Technologies Inc. | Relative pulse position in celp vocoding |
CA2327041A1 (en) * | 2000-11-22 | 2002-05-22 | Voiceage Corporation | A method for indexing pulse positions and signs in algebraic codebooks for efficient coding of wideband signals |
BR0109237A (pt) | 2001-01-16 | 2002-12-03 | Koninkl Philips Electronics Nv | Codificador paramétrico, método de codificação paramétrica, decodificador paramétrico, método de decodificação, fluxo de dados incluindo dados de código senoidais, e, meio de armazenamento |
BRPI0305710B1 (pt) * | 2002-08-01 | 2017-11-07 | Panasonic Corporation | "apparatus and method of decoding of audio" |
AU2003263509A1 (en) | 2002-10-17 | 2004-05-04 | Koninklijke Philips Electronics N.V. | Sinusoidal audio coding with phase updates |
FI118704B (fi) * | 2003-10-07 | 2008-02-15 | Nokia Corp | Menetelmä ja laite lähdekoodauksen tekemiseksi |
FR2867648A1 (fr) * | 2003-12-10 | 2005-09-16 | France Telecom | Transcodage entre indices de dictionnaires multi-impulsionnels utilises en codage en compression de signaux numeriques |
US7788091B2 (en) * | 2004-09-22 | 2010-08-31 | Texas Instruments Incorporated | Methods, devices and systems for improved pitch enhancement and autocorrelation in voice codecs |
US8000967B2 (en) * | 2005-03-09 | 2011-08-16 | Telefonaktiebolaget Lm Ericsson (Publ) | Low-complexity code excited linear prediction encoding |
US20090210219A1 (en) * | 2005-05-30 | 2009-08-20 | Jong-Mo Sung | Apparatus and method for coding and decoding residual signal |
KR101171098B1 (ko) * | 2005-07-22 | 2012-08-20 | 삼성전자주식회사 | 혼합 구조의 스케일러블 음성 부호화 방법 및 장치 |
US8620644B2 (en) * | 2005-10-26 | 2013-12-31 | Qualcomm Incorporated | Encoder-assisted frame loss concealment techniques for audio coding |
JP2008040452A (ja) | 2006-07-14 | 2008-02-21 | Victor Co Of Japan Ltd | 符号化装置及び復号化装置 |
KR100788706B1 (ko) * | 2006-11-28 | 2007-12-26 | 삼성전자주식회사 | 광대역 음성 신호의 부호화/복호화 방법 |
KR100848324B1 (ko) * | 2006-12-08 | 2008-07-24 | 한국전자통신연구원 | 음성 부호화 장치 및 그 방법 |
US8175870B2 (en) | 2006-12-26 | 2012-05-08 | Huawei Technologies Co., Ltd. | Dual-pulse excited linear prediction for speech coding |
US8306813B2 (en) | 2007-03-02 | 2012-11-06 | Panasonic Corporation | Encoding device and encoding method |
KR101080421B1 (ko) | 2007-03-16 | 2011-11-04 | 삼성전자주식회사 | 정현파 오디오 코딩 방법 및 장치 |
US8527265B2 (en) | 2007-10-22 | 2013-09-03 | Qualcomm Incorporated | Low-complexity encoding/decoding of quantized MDCT spectrum in scalable speech and audio codecs |
US20090180531A1 (en) * | 2008-01-07 | 2009-07-16 | Radlive Ltd. | codec with plc capabilities |
WO2010031109A1 (en) * | 2008-09-19 | 2010-03-25 | Newsouth Innovations Pty Limited | Method of analysing an audio signal |
US8805680B2 (en) | 2009-05-19 | 2014-08-12 | Electronics And Telecommunications Research Institute | Method and apparatus for encoding and decoding audio signal using layered sinusoidal pulse coding |
WO2011087332A2 (ko) | 2010-01-15 | 2011-07-21 | 엘지전자 주식회사 | 오디오 신호 처리 방법 및 장치 |
-
2012
- 2012-09-28 WO PCT/KR2012/007889 patent/WO2013048171A2/ko active Application Filing
- 2012-09-28 US US14/347,767 patent/US9472199B2/en not_active Expired - Fee Related
- 2012-09-28 JP JP2014533211A patent/JP5969614B2/ja not_active Expired - Fee Related
- 2012-09-28 CN CN201280057514.XA patent/CN103946918B/zh not_active Expired - Fee Related
- 2012-09-28 KR KR1020147008256A patent/KR102048076B1/ko active IP Right Grant
- 2012-09-28 EP EP12836122.7A patent/EP2763137B1/en not_active Not-in-force
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
USRE40691E1 (en) * | 1992-01-17 | 2009-03-31 | Massachusetts Institute Of Technology | Encoding decoding and compression of audio-type data using reference coefficients located within a band of coefficients |
US5684926A (en) * | 1996-01-26 | 1997-11-04 | Motorola, Inc. | MBE synthesizer for very low bit rate voice messaging systems |
WO2010093224A2 (ko) * | 2009-02-16 | 2010-08-19 | 한국전자통신연구원 | 적응적 정현파 펄스 코딩을 이용한 오디오 신호의 인코딩 및 디코딩 방법 및 장치 |
Non-Patent Citations (2)
Title |
---|
Speech Analysis/Synthesis and Modification Using an Analysis-by-Synthesis/Overlap-Add Sinusoidal Model;E.Bryan George,Mark J.T.Smith;《IEEE TRANSACTIONS ON SPEECH AND AUDIO PROCESSING》;19970905;第5卷(第5期);第391页B小节 * |
数字电视音频子系统设计与音频处理算法研究;朱梦尧;《中国博士学位论文全文数据库信息科技辑》;20101215(第12期);3.1.1-3.1.3小节、附图3.1-3.4 * |
Also Published As
Publication number | Publication date |
---|---|
KR20140082676A (ko) | 2014-07-02 |
JP2014531623A (ja) | 2014-11-27 |
US20140236581A1 (en) | 2014-08-21 |
WO2013048171A2 (ko) | 2013-04-04 |
JP5969614B2 (ja) | 2016-08-17 |
KR102048076B1 (ko) | 2019-11-22 |
CN103946918A (zh) | 2014-07-23 |
US9472199B2 (en) | 2016-10-18 |
EP2763137A2 (en) | 2014-08-06 |
EP2763137A4 (en) | 2015-05-06 |
EP2763137B1 (en) | 2016-09-14 |
WO2013048171A3 (ko) | 2013-05-23 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN103946918B (zh) | 语音信号编码方法、语音信号解码方法及使用其的装置 | |
CN101849258B (zh) | 用于在可缩放音频编解码器中编码/解码的方法和装置 | |
TWI407432B (zh) | 用於可縮放的語言及音頻編碼之方法、器件、處理器及機器可讀媒體 | |
CN104025189B (zh) | 编码语音信号的方法、解码语音信号的方法,及使用其的装置 | |
CN101297356B (zh) | 用于音频压缩的方法和设备 | |
TWI619116B (zh) | 產生帶寬延伸訊號的裝置及方法、及非暫時性電腦可讀記錄媒體 | |
CN105825860B (zh) | 确定加权函数的设备和方法以及量化设备和方法 | |
JP6980871B2 (ja) | 信号符号化方法及びその装置、並びに信号復号方法及びその装置 | |
JP2009524100A (ja) | 符号化/復号化装置及び方法 | |
KR20060131782A (ko) | 최적의 다중 부호화 방법 | |
JP5629319B2 (ja) | スペクトル係数コーディングの量子化パラメータを効率的に符号化する装置及び方法 | |
KR100911994B1 (ko) | Hht를 이용한 음성 및 오디오 신호의 부호화/복호화장치 및 방법 | |
US20100280830A1 (en) | Decoder | |
CN110291583B (zh) | 用于音频编解码器中的长期预测的系统和方法 | |
KR100768090B1 (ko) | 디코딩의 계산량 감소를 위한 파형 인터폴레이션 인코딩장치 및 그 방법 | |
Raut | Advance Source Coding Techniquesfor Audio/Speech Signal: A Survey | |
Tsai et al. | Efficient coding translation of GSM and G. 729 speech coders across mobile and IP networks |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
C14 | Grant of patent or utility model | ||
GR01 | Patent grant | ||
CF01 | Termination of patent right due to non-payment of annual fee |
Granted publication date: 20170308 Termination date: 20190928 |
|
CF01 | Termination of patent right due to non-payment of annual fee |