CN103718240A - 编码装置、解码装置、编码方法和解码方法 - Google Patents
编码装置、解码装置、编码方法和解码方法 Download PDFInfo
- Publication number
- CN103718240A CN103718240A CN201280036790.8A CN201280036790A CN103718240A CN 103718240 A CN103718240 A CN 103718240A CN 201280036790 A CN201280036790 A CN 201280036790A CN 103718240 A CN103718240 A CN 103718240A
- Authority
- CN
- China
- Prior art keywords
- frequency spectrum
- frequency
- unit
- normalization
- spectrum
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims description 51
- 238000001228 spectrum Methods 0.000 claims abstract description 760
- 238000010606 normalization Methods 0.000 claims abstract description 260
- 238000012545 processing Methods 0.000 claims description 25
- 238000009499 grossing Methods 0.000 claims description 18
- 230000033228 biological regulation Effects 0.000 claims description 13
- 238000004364 calculation method Methods 0.000 claims description 9
- OKTJSMMVPCPJKN-UHFFFAOYSA-N Carbon Chemical compound [C] OKTJSMMVPCPJKN-UHFFFAOYSA-N 0.000 claims 1
- 229910052799 carbon Inorganic materials 0.000 claims 1
- 230000005236 sound signal Effects 0.000 abstract 1
- 230000007704 transition Effects 0.000 description 44
- 230000009471 action Effects 0.000 description 36
- 230000003595 spectral effect Effects 0.000 description 10
- 238000005516 engineering process Methods 0.000 description 7
- 230000008569 process Effects 0.000 description 7
- 230000015572 biosynthetic process Effects 0.000 description 6
- 238000012937 correction Methods 0.000 description 6
- 238000003786 synthesis reaction Methods 0.000 description 5
- 238000006243 chemical reaction Methods 0.000 description 4
- 230000010076 replication Effects 0.000 description 4
- 230000009466 transformation Effects 0.000 description 4
- 230000000694 effects Effects 0.000 description 3
- 230000005764 inhibitory process Effects 0.000 description 3
- 230000008859 change Effects 0.000 description 2
- 230000002708 enhancing effect Effects 0.000 description 2
- 230000006872 improvement Effects 0.000 description 2
- 238000005728 strengthening Methods 0.000 description 2
- 238000011282 treatment Methods 0.000 description 2
- 241001269238 Data Species 0.000 description 1
- 230000002159 abnormal effect Effects 0.000 description 1
- 230000006978 adaptation Effects 0.000 description 1
- 230000003044 adaptive effect Effects 0.000 description 1
- 238000004458 analytical method Methods 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 230000008901 benefit Effects 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 239000012792 core layer Substances 0.000 description 1
- 230000007812 deficiency Effects 0.000 description 1
- 238000009795 derivation Methods 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 230000003292 diminished effect Effects 0.000 description 1
- 230000008030 elimination Effects 0.000 description 1
- 238000003379 elimination reaction Methods 0.000 description 1
- JEIPFZHSYJVQDO-UHFFFAOYSA-N ferric oxide Chemical compound O=[Fe]O[Fe]=O JEIPFZHSYJVQDO-UHFFFAOYSA-N 0.000 description 1
- 230000009931 harmful effect Effects 0.000 description 1
- 230000010354 integration Effects 0.000 description 1
- 238000010295 mobile communication Methods 0.000 description 1
- 230000007115 recruitment Effects 0.000 description 1
- 238000005070 sampling Methods 0.000 description 1
- 238000000844 transformation Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/04—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
- G10L19/26—Pre-filtering or post-filtering
- G10L19/265—Pre-filtering, e.g. high frequency emphasis prior to encoding
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/02—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
- G10L19/0204—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders using subband decomposition
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/038—Speech enhancement, e.g. noise reduction or echo cancellation using band spreading techniques
- G10L21/0388—Details of processing therefor
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- Signal Processing (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Quality & Reliability (AREA)
- Spectroscopy & Molecular Physics (AREA)
- Compression, Expansion, Code Conversion, And Decoders (AREA)
Abstract
公开了通过将使高峰性为足够低的状态的低频部分复制到高频部分(扩展频带),能够防止在高频部分中产生高峰性过大的频谱,生成高质量的扩展频带频谱的编码装置。在该装置中,最大值搜索单元(132)在将语音信号及/或音乐信号的规定频率以下的低频部分划分得到的多个子带中,分别搜索对低频部分的编码数据即第一编码数据进行解码得到的第一频谱的振幅的最大值,振幅归一化单元(133)用各子带的振幅的最大值对各子带中包含的第一频谱分别进行归一化,得到归一化频谱。
Description
技术领域
本发明涉及编码装置、解码装置、编码方法和解码方法。
背景技术
专利文献1中,公开了能够对超宽带(Super-Wide-band:SWB。一般为0.05~14kHz频带)的语音信号或音乐信号高效率地进行编码的技术,该技术在ITU-T中已标准化(例如,非专利文献1和2)。该技术中,语音信号或音乐信号等输入信号的低频部分(例如,7kHz以下的频带)由核心编码单元进行编码,高频部分(例如,高于7kHz的频带)由扩展频带编码单元进行编码。
另外,一般而言,核心编码单元使用CELP(Code Excited Linear Prediction:码激励线性预测)编码。另一方面,扩展频带编码单元使用由核心编码单元进行了编码的信息在频域中进行编码。具体而言,扩展频带编码单元对由核心编码单元进行了编码的低频部分(7kHz以下)的窄频带信号进行解码,将变换为MDCT(Modified Discrete Cosine Transform:改进的离散余弦变换)系数(频谱)得到的频谱(低频解码频谱)用于高频部分(频率高于7kHz的频带。以下称为“扩展频带”)的编码。
在扩展频带中进行编码时,首先,对于由核心编码单元生成的低频解码频谱,用频谱功率的包络(或包络线(envelope)。以下称为包络线)进行归一化。具体而言,将包含低频解码谱的低频部分划分为多个子带,对每个子带计算能量(子带能量)。接着,进行子带能量的平滑化,以使频域中的能量变动平滑。接着,使用平滑化后的子带能量,进行各子带中包含的频谱的归一化。扩展频带编码单元在如上得到的频谱(归一化频谱)与输入信号的扩展频带频谱之间搜索相关性高的频带,将表示相关性高的频带的信息作为滞后(1ag)进行编码。另外,扩展频带编码单元将相关性高的低频频带复制(copy)到扩展频带,以将相关性高的低频频带用作扩展频带的频谱精细结构(频率精细结构)。然后,扩展频带编码单元在频谱精细结构与扩展频带频谱之间计算增益,并对增益进行编码。
通过进行以上处理,从低频的频谱生成扩展频带的频谱。
此外,在输入信号中从低频频谱生成扩展频带频谱时对低频频谱进行归一化的理由如下。一般而言,在低频频谱中能量的偏颇非常大,在高频的扩展频带频谱中能量的偏颇小。即,高频部分中,与低频部分相比,局部性地出现大峰值的情况较少,因而若将高峰性高的信号复制到高频部分(扩展频带),则有可能导致音质劣化。因此,在编码装置中对低频频谱进行归一化是因为,在消除低频频谱的能量偏颇来进行平坦化(归一化)之后计算与扩展频带频谱之间的相关性,则能够更高效率地进行编码。
另一方面,非专利文献3中公开了在核心编码单元中使用变换编码的现有技术。在该现有技术中,将MPEG(Moving Picture Experts Group,动态图像专家组)AAC(高级音频编码)方式用于核心编码单元。另外,使用与上述说明的扩展频带的编码方式不同的SBR(Spectral Band Replication,频带复制)方式进行扩展频带的编码。
现有技术文献
专利文献
[专利文献1]日本特表2009-515212号公报
非专利文献
[非专利文献1]ITU-T Standard G.718Annex B,2008
[非专利文献2]ITU-T Standard G.729Annex E,2008
发明内容
发明要解决的问题
在非专利文献1和2中,核心编码单元中使用CELP编码。CELP编码有能够对于语音信号非常高效率地进行编码,且编码性能良好的优点,但有对于音乐信号编码性能不足的缺点。
但是,在用于对采样率为32kHz的SWB的信号(SWB信号)进行编码时,需要提高音乐信号的编码性能。在此情况下,可以考虑在核心编码单元中使用变换编码来代替CELP编码。一般而言,变换编码使用限定了数量的脉冲对频谱进行编码,因而低频频谱由离散的脉冲串表现。
在对于这种以离散的脉冲串表现的频谱,如非专利文献1和2所述,划分成子带来计算子带能量,进行平滑化并估计包络线的情况下,用于正确地计算子带能量的频谱就不足了。因此,在编码装置中,有可能估计出偏离本来的包络线(即输入信号的包络线)的形状的包络线。即使编码装置用这样求得的不正确的包络线进行低频频谱的归一化,有时归一化频谱也得不到平坦化,会存在振幅极大的频谱。
观察语音信号或音乐信号的频谱,在高频部分中,与低频部分相比,基本上不会局部地出现大的峰值。因此,若将高峰性高的状态的低频部分复制到高频部分,则高频部分产生高峰性过大的频谱,导致音质劣化。这样,在低频频谱的特性不平坦的情况下,对使用低频频谱生成的扩展频带的音质造成不良影响。
本发明的目的在于,提供通过将使峰值性为足够低的状态的低频部分复制到高频部分(扩展频带),能够防止在高频部分中产生高峰性过大的频谱,生成高质量的扩展频带频谱的编码装置、解码装置、编码方法和解码方法。
解决问题的方案
本发明的一个方案的编码装置包括:第一编码单元,对作为语音信号或/及音乐信号的输入信号的规定频率以下的低频部分进行编码,生成第一编码数据;归一化单元,对所述第一编码数据进行解码得到的第一频谱进行归一化,生成归一化频谱;频带搜索单元,搜索所述输入信号的高于所述规定频率的高频部分的频谱即第二频谱和所述归一化频谱之间的相关值为最大的特定的频带;增益计算单元,计算将所述特定的频带的所述归一化频谱复制到所述高频部分得到的频谱即第三频谱和所述第二频谱之间的增益;以及第二编码单元,对包含所述特定的频带和所述增益的信息进行编码,生成第二编码数据,所述归一化单元包括:最大值搜索单元,在划分所述低频部分得到的多个子带中,分别搜索所述第一频谱的振幅的最大值;以及振幅归一化单元,对各子带中包含的所述第一频谱,使用各子带的所述振幅的最大值分别进行归一化,从而得到所述归一化频谱。
本发明的一个方案的编码装置采用的结构包括:变换单元,将作为语音信号或/及音乐信号的输入信号变换到频域而生成输入信号频谱;第一比特分配单元,确定对以规定的带宽划分所述输入信号频谱的整个频带得到的各子带分配的比特数;第一编码单元,使用分配的比特对所述输入信号频谱进行编码,生成第一编码数据;第二比特分配单元,确定对以规定的带宽划分所述输入信号频谱的低于规定频率的低频部分的频谱得到的各子带分配的比特数;第二编码单元,使用分配的比特对所述输入信号的低于规定频率的低频部分的频谱进行编码,生成第二编码数据;第三编码单元,对所述输入信号频谱的高于规定频率的高频部分的频谱进行编码,生成第三编码数据;判定单元,分析所述输入信号频谱的高于规定频率的高频部分的频谱的编码所消费的比特数而得到判定信息;以及切换单元,根据所述判定信息,对每帧切换所述输入信号频谱的编码是仅由所述第一编码单元进行,还是组合所述第二编码单元和所述第三编码单元进行。
本发明的一个方案的解码装置采用的结构包括:第一解码单元,将在编码装置中对作为语音信号或/及音乐信号的输入信号的规定频率以下的低频部分进行编码生成的第一编码数据作为输入并进行解码,生成第一频谱;归一化单元,对所述第一频谱进行归一化,生成归一化频谱;以及第二解码单元,将所述归一化频谱以及由所述编码装置生成的第二编码数据作为输入并进行解码,生成第二频谱,所述第二编码数据包含:表示在编码侧第一频谱和编码侧第二频谱之间相关值为最大的特定的频带的信息,所述编码侧第一频谱是所述编码装置中的所述输入信号的高于所述规定频率的高频部分的频谱,所述编码侧第二频谱是在所述编码装置中对通过解码所述第一编码数据而生成的频谱进行归一化得到的频谱,以及表示在编码侧第三频谱和所述编码侧第一频谱之间计算出的增益的信息,所述编码侧第三频谱是将所述特定的频带的所述编码侧第二频谱复制到所述高频部分得到的频谱,所述归一化单元包括:最大值搜索单元,在划分所述低频部分得到的多个子带中,分别搜索所述第一频谱的振幅的最大值;以及振幅归一化单元,对各子带中包含的所述第一频谱,使用各子带的所述振幅的最大值分别进行归一化,生成所述归一化频谱。
本发明的一个方案的编码方法采用的结构包括如下步骤:第一编码步骤,对作为语音信号或/及音乐信号的输入信号的规定频率以下的低频部分进行编码,生成第一编码数据;归一化步骤,对所述第一编码数据进行解码得到的第一频谱进行归一化,生成归一化频谱;频带搜索步骤,搜索所述输入信号的高于所述规定频率的高频部分的频谱即第二频谱和所述归一化频谱之间的相关值为最大的特定的频带;增益计算步骤,计算将所述特定的频带的所述归一化频谱复制到所述高频部分得到的频谱即第三频谱和所述第二频谱之间的增益;以及第二编码步骤,对包含所述特定的频带和所述增益的信息进行编码,生成第二编码数据,所述归一化步骤包括:最大值搜索步骤,在划分所述低频部分得到的多个子带中,分别搜索所述第一频谱的振幅的最大值;以及振幅归一化步骤,对各子带中包含的所述第一频谱,使用各子带的所述振幅的最大值分别进行归一化,得到所述归一化频谱。
本发明的一个方案的解码方法采用的结构包括如下步骤:第一解码步骤,将在编码装置中对作为语音信号或/及音乐信号的输入信号的规定频率以下的低频部分进行编码生成的第一编码数据作为输入并进行解码,生成第一频谱;归一化步骤,对所述第一频谱进行归一化,生成归一化频谱;以及第二解码步骤,将所述归一化频谱以及由所述编码装置生成的第二编码数据作为输入并进行解码,生成第二频谱,所述第二编码数据包含:表示在编码侧第一频谱和编码侧第二频谱之间相关值为最大的特定的频带的信息,所述编码侧第一频谱是所述编码装置中的所述输入信号的高于所述规定频率的高频部分的频谱,所述编码侧第二频谱是在所述编码装置中对通过解码所述第一编码数据而生成的频谱进行归一化得到的频谱,以及表示在编码侧第三频谱和所述编码侧第一频谱之间计算出的增益的信息,所述编码侧第三频谱是将所述特定的频带的所述编码侧第二频谱复制到所述高频部分得到的频谱,所述归一化步骤包括:最大值搜索步骤,在划分所述低频部分得到的多个子带中,分别搜索所述第一频谱的振幅的最大值;以及振幅归一化步骤,对各子带中包含的所述第一频谱,使用各子带的所述振幅的最大值分别进行归一化,得到所述归一化频谱。
发明的效果
根据本发明,通过将使高峰性为足够低的状态的低频部分复制到高频部分(扩展频带),能够防止在高频部分中产生高峰性过大的频谱,生成高质量的扩展频带频谱。
附图说明
图1是表示本发明实施方式1的编码装置的结构的方框图。
图2是表示本发明实施方式1的编码装置的频带搜索单元的动作情形的图。
图3是表示本发明实施方式1的解码装置的结构的方框图。
图4是表示本发明实施方式1的解码装置的扩展频带解码单元的动作情形的图。
图5是表示本发明实施方式1的子带振幅归一化单元的内部结构的方框图。
图6是表示以往的包络线计算处理的图。
图7是表示以往的归一化低频频谱的图。
图8是表示本发明实施方式1的归一化低频频谱的图。
图9是表示本发明实施方式2的编码装置的结构的方框图。
图10是表示本发明实施方式2的解码装置的结构的方框图。
图11是表示本发明实施方式2的包络线计算处理、以及谐波增强归一化低频频谱的图。
图12是表示本发明实施方式3的编码装置的结构的方框图。
图13是表示本发明实施方式3的解码装置的结构的方框图。
图14是表示本发明实施方式4的编码装置的结构的方框图。
图15是表示本发明实施方式4的解码装置的结构的方框图。
图16是表示本发明实施方式4的编码装置的频谱包络归一化单元的内部结构的方框图。
图17是表示本发明实施方式5的编码装置的频带搜索单元的动作情形的图。
图18是表示本发明实施方式5的解码装置的扩展频带解码单元的动作情形的图。
图19是表示本发明实施方式6的编码装置的将输入信号频谱划分为多个子带的图。
图20是表示本发明实施方式6的编码装置的结构的方框图。
图21是表示本发明实施方式6的编码装置的模式判定单元的结构的图。
图22是表示本发明实施方式6的解码装置的结构的方框图。
图23是表示本发明实施方式8的编码装置的频谱包络归一化单元的内部结构的方框图。
标号说明
100、300、500、700、900编码装置
101、901时间-频率变换单元
102核心编码单元
103、203、501、601子带振幅归一化单元
104频带搜索单元
105增益计算单元
106、扩展频带编码单元
107、906复用单元
131频带划分单元
132最大值搜索单元
133振幅归一化单元
200、400、600、800、1010解码装置
201、1011分离单元
202核心解码单元
204扩展频带解码单元
205频率-时间变换单元
301、401、503、603谐波增强单元
502、602阈值控制单元
701、801归一化方法判定单元
702、702a、802、802a频谱包络归一化单元
731频带划分单元
732子带能量计算单元
733平滑化单元
734频谱校正单元
902模式判定单元
903、905比特分配确定单元
904变换编码单元
907、908开关
1015变换编码解码单元
具体实施方式
本发明中,编码装置在使用低频部分的频谱(低频频谱)生成扩展频带的频谱(扩展频带频谱)的编解码中,将低频频谱划分为多个子带,对每个子带的频谱用各子带中包含的频谱的振幅最大值进行归一化。这样一来,即使低频频谱为离散的频谱,也能够抑制振幅极大的频谱的产生,得到平坦的归一化低频频谱。由此,编码装置通过将使高峰性抑制为足够低的状态的低频部分复制到扩展频带,能够防止在扩展频带中产生高峰性过大的频谱,生成高质量的扩展频带频谱。
下面,参照附图详细地说明本发明的各实施方式。另外,作为本发明的编码装置和解码装置的输入信号或输出信号,语音信号、音乐信号和这些信号混合存在的信号都作为对象的信号。
(实施方式1)
图1是表示实施方式1的编码装置100的结构的方框图。
图1所示的编码装置100由时间-频率变换单元101、核心编码单元102、子带振幅归一化单元103、频带搜索单元104、增益计算单元105、扩展频带编码单元106、以及复用单元107构成。本实施方式中,输入到编码装置100的输入频谱中规定频率以下的低频部分(低频频谱)由核心编码单元102进行编码,输入频谱中,高于由核心编码单元102进行编码的频带的高频带(频率高于规定频率的频带。以后称为扩展频带)的频谱由扩展频带编码单元106进行编码。
时间-频率变换单元101将输入的时域的输入信号(语音信号或/及音乐信号)变换为频域的信号,将得到的输入信号频谱输出到核心编码单元102、频带搜索单元104、以及增益计算单元105。此外,这里,作为时间-频率变换单元101中的时间-频率变换处理,以MDCT变换为前提进行说明。但是,时间-频率变换单元101也可以使用从时域向频域变换的FFT(Fast FourierTransform,快速傅立叶变换)、DCT(Discrete Cosine Transform,离散余弦变换)等正交变换。
核心编码单元102对从时间-频率变换单元101输入的输入信号频谱中的低频频谱进行编码,生成编码数据。核心编码单元102使用变换编码进行编码。核心编码单元102将生成的编码数据作为核心编码数据输出到复用单元107。另外,核心编码单元102将对核心编码数据进行解码得到的核心编码低频频谱输出到子带振幅归一化单元103。
子带振幅归一化单元103对从核心编码单元102输入的核心编码低频频谱进行归一化,生成归一化低频频谱。具体而言,子带振幅归一化单元103将核心编码低频频谱划分为多个子带,对各个子带的频谱用各子带所包含的频谱的振幅(绝对值)的最大值分别进行归一化。子带振幅归一化单元103将通过归一化处理得到的归一化低频频谱输出到频带搜索单元104和增益计算单元105。此外,子带振幅归一化单元103的结构和动作的细节将后述。
频带搜索单元104、增益计算单元105、以及扩展频带编码单元106进行输入信号频谱中的、扩展频带的频谱(输入扩展频带频谱)的编码处理。
频带搜索单元104从时间-频率变换单元101输入的输入信号频谱中,搜索输入扩展频带频谱与从子带振幅归一化单元103输入的归一化低频频谱之间的相关值为最大的特定的频带。接着,频带搜索单元104将表示搜索到的上述特定的频带(归一化低频频谱的对象频带(复制源)以及扩展频带的对象频带(复制目的地))的信息(称为滞后或滞后信息)输出到增益计算单元105和扩展频带编码单元106。
图2是表示频带搜索单元104的动作情形的图。在频带搜索单元104中,从输入的归一化低频频谱中,对于预先确定的每个滞后候选(图2中作为例子是L0~L3的4候选),截取与各滞后候选对应的频谱。截取出的频谱以从基准频率f0起移位了由滞后候选表示的预定样本值的位置为起点,包含在与输入扩展频带频谱(扩展频带的整个频带或部分频带)的带宽相同的带宽中。截取出的频谱作为相关值计算的候选频谱被输出到相关值计算单元104a。在本例中,4种候选频谱成为相关值计算的对象。
相关值计算单元104a计算按照滞后候选确定的各个候选频谱与输入频带频谱之间的相关值,将表示这些相关值中的最高值时的滞后候选作为表示所述特定的频带的信息,输出到增益计算单元105和扩展频带编码单元106。
增益计算单元105将在频带搜索单元104中搜索到的上述特定的频带的归一化低频频谱复制(复写)到扩展频带而得到的频谱,作为频谱精细结构(频率精细结构)。接着,增益计算单元105在得到的频谱精细结构与从时间-频率变换单元101输入的输入扩展频带频谱之间计算增益。增益计算单元105将表示计算出的增益的信息输出到扩展频带编码单元106。增益计算单元105计算增益以使从归一化低频频谱复制来的信号的能量和输入信号频谱的扩展频带中的能量基本一致(或接近)。作为计算增益的最简单的方法,例如有将输入信号频谱的扩展频带的能量除以从归一化低频频谱复制来的信号的能量,并将得到的值的平方根作为增益的方法。
扩展频带编码单元106对从频带搜索单元104输入的表示特定的频带的信息进行编码,并且对从增益计算单元105输入的增益进行编码。扩展频带编码单元106将对特定的频带和增益进行编码而生成的编码数据作为扩展频带编码数据输出到复用单元107。
复用单元107对从核心编码单元102输入的核心编码数据和从扩展频带编码单元106输入的扩展频带编码数据进行复用,输出编码数据。
下面,说明本实施方式的解码装置200。图3是表示解码单元200的结构的方框图。
图3所示的解码装置200由分离单元201、核心解码单元202、子带振幅归一化单元203、扩展频带解码单元204以及频率-时间变换单元205构成。
分离单元201将输入的编码数据分离为核心编码数据和扩展频带编码数据。分离单元201将核心编码数据输出到核心解码单元202,将扩展频带编码数据输出到扩展频带解码单元204。
如上所述,核心编码数据是在编码装置100中对输入信号(语音信号或/及音乐信号)的规定频率以下的低频部分进行编码而得到的编码数据。另外,扩展频带编码数据中,包含表示输入信号(语音信号或/及音乐信号)的高于规定频率的高频部分的频谱(输入扩展频带频谱)和归一化频谱之间相关值为最大的特定的频带的信息、以及表示将特定的频带的归一化频谱复制到高频部分而得到的频谱(频谱精细结构)和输入扩展频带频谱之间的增益的信息。
核心解码单元202对从分离单元201输入的核心编码数据进行解码,生成核心编码低频频谱。核心解码单元202将生成的核心编码低频频谱输出到子带振幅归一化单元203和频率-时间变换单元205。
子带振幅归一化单元203对从核心接码单元202输入的核心编码低频频谱进行归一化,生成归一化低频频谱。子带振幅归一化单元203将生成的归一化低频频谱输出到扩展频带解码单元204。此外,子带振幅归一化单元203的结构和动作与图1所示的子带振幅归一化单元103的结构和动作(将后述)相同,因而省略详细的说明。
扩展频带解码单元204使用从子带振幅归一化单元203输入的归一化低频频谱和从分离单元201输入的扩展频带编码数据进行解码处理,得到扩展频带频谱。扩展频带解码单元204对扩展频带编码数据进行解码,得到滞后信息和增益。扩展频带解码单元204基于滞后信息,确定要复制到扩展频带的归一化低频频谱的规定频带,将归一化低频频谱的规定频带复制到扩展频带。接着,扩展频带解码单元204通过对于将归一化低频频谱的规定频带复制到扩展频带所得到的频谱,乘以解码后的增益,由此得到扩展频带频谱。然后,扩展频带解码单元204将得到的扩展频带频谱输出到频率-时间变换单元205。
图4是表示扩展频带解码单元204的动作情形的图。首先,扩展频带解码单元204基于滞后信息,确定用于复制到扩展频带的归一化低频频谱的起点。图4中,以得到滞后信息L1的情况为例子,因而将位于f1的频谱作为起点。
接着,扩展频带解码单元204在扩展频带频谱生成单元204a中,从该起点开始,截取包含在与输入扩展频带频谱(扩展频带的整个频带或部分频带)的带宽相同的带宽中的频谱,生成扩展频带频谱(乘以增益之前的)。
频率-时间变换单元205首先结合从核心解码单元202输入的核心编码低频频谱和从扩展频带解码单元204输入的扩展频带频谱,生成解码频谱。接着,频率-时间变换单元205对解码频谱进行正交变换,变换为时域的信号并作为输出信号输出。
接下来详细说明编码装置100的子带振幅归一化单元103的结构和动作。
子带振幅归一化单元103消除从核心编码单元102输入的核心编码低频频谱的能量偏颇,得到归一化低频频谱。这里,消除频谱的能量偏颇的通常的方法是,求频谱的包络线,并将频带内的各频谱除以每个频带的包络线的代表值,由此进行归一化。非专利文献1和2中,也通过同样的方法对低频频谱进行归一化。
但是,在核心编码单元102中使用变换编码并且比特率较低的情况下,低频频谱表现为离散的脉冲串。根据表示低频频谱的离散的脉冲串,难以正确地求包络线。因此,在使用这种根据低频频谱求得的不正确的包络线对低频频谱进行了归一化时,产生归一化低频频谱中留有能量偏颇而残存振幅极大的频谱的问题。若搜索在这种归一化低频频谱和输入扩展频带频谱之间相关性大的频带,将相关性大的频带的归一化低频频谱复制到扩展频带,则在高频段侧生成原本在扩展频带(高频部分)中不会出现的高峰性强的信号,音质极大地劣化。
因此,本实施方式中,子带振幅归一化单元103作为消除能量偏颇的方法,对每个子带求低频频谱的绝对值的最大振幅值(以下称为子带最大值),用各子带中求得的子带最大值,分别对各子带中包含的频谱进行归一化。由此,归一化后的各子带中的频谱的绝对值的最大值在子带之间得到统一。据此,在归一化低频频谱中,不再存在振幅极大的频谱。
图5表示实现上述处理的子带振幅归一化单元103的结构。图5所示的子带振幅归一化单元103由子带划分单元131、最大值搜索单元132以及振幅归一化单元133构成。
子带划分单元131将从核心编码单元102输入的包含核心编码低频频谱的频带(即低频部分)划分为多个子带,将得到的每个子带的频谱作为子带划分核心编码低频频谱,输出到最大值搜索单元132和振幅归一化单元133。以下,为了简化,说明子带划分单元131等间隔划分核心编码低频频谱的整个频带的情况。另外,以下用“w”表示各子带的带宽(样本数)。例如,1个子带可以由8个样本(w=8)构成。
最大值搜索单元132在多个子带的每个子带中,搜索从子带划分单元131输入的子带划分核心编码低频频谱的振幅(绝对值)的最大值(即,各子带的子带最大值)。最大值搜索单元132将各子带的子带最大值输出到振幅归一化单元133。以下,用M[j]表示第j核心编码低频频谱,用S表示子带数,用s表示子带索引。此时,子带s中的子带最大值Mmax[s]如下式(1)所表示。
Mmax[s]=max(abs(M[j])),w*(s-1)<j<w*s,1≤s≤S(1)
振幅归一化单元133将从子带划分单元131输入的子带划分核心编码低频频谱,用从最大值搜索单元132输入的各子带的子带最大值进行归一化,从而得到归一化低频频谱。即,振幅归一化单元133将各子带中包含的子带划分核心编码低频频谱,分别用各子带的子带最大值进行归一化。例如,用下式(2)表示归一化低频频谱Mn。
式(2)中,ε是用于避免“除以零”的微小值。振幅归一化单元133通过在所有子带中进行上述处理,能够得到归一化低频频谱。
接着使用图6、7、8说明上述子带振幅归一化单元103的动作。
图6表示现有技术中的包络线计算处理的一例。图6中,横轴表示频率,纵轴表示频谱功率。图6中,核心编码单元的编码对象(编码范围)的频带(低频部分)被划分为SB0~SB5的6个子带。即,图6所示的频率高于SB5的频带(扩展频带)是扩展频带编码单元的编码对象(编码范围)。另外,图6所示的虚曲线表示输入信号频谱的包络线(输入信号包络线)。
另外,图6中,假设核心编码单元通过变换编码对p0~p10的位置的频谱进行了编码。此外,图6、图7、图8中,以频谱功率图示了编码后的频谱。如图6所示,根据离散的频谱(核心编码低频频谱。p0~p10的位置的频谱),难以求正确的包络线(图6所示的虚线)。例如,图6中,实曲线所示的估计包络线(根据核心编码低频频谱求出的包络线)与虚曲线所示的输入信号包络线偏离。
图7中,以频谱功率表示根据现有技术中的估计包络线(不正确的包络线)计算出的归一化低频频谱的一例。图7中,与图6相同的标号表示相同含义。若用不正确的包络线对低频频谱进行归一化,则如图7所示,在归一化低频频谱中,各子带的频谱振幅的差异大。例如,图7中,相对于SB0和SB1的各子带的频谱振幅,SB3和SB5的各子带的频谱振幅较大。尤其是,在包络线的估计极端错误的情况下,产生与其他频谱相比功率极大的频谱。
与此相对,图8中,以频谱功率表示本实施方式的子带振幅归一化单元103中得到的归一化低频频谱。图8中,与图7相同的标号表示相同含义。
在子带振幅归一化单元103中,最大值搜索单元132在各子带SB0~SB5中分别搜索子带最大值。例如,如图8所示,最大值搜索单元132将SB0中包含的频谱(p0,p1)中振幅值最大的频谱(p1)确定为SB0的子带最大值。同样,如图8所示,最大值搜索单元132将SB1中包含的频谱(p2,p3)中振幅值最大的频谱(p2)确定为SB1的子带最大值。对于图8所示的SB2~SB5,最大值搜索单元132同样将振幅值最大的频谱(p5,p7,p8,p10)确定为各子带的子带最大值。
接着,振幅归一化单元133对各子带中包含的频谱(子带划分核心编码低频频谱)用各子带的子带最大值进行归一化。例如,振幅归一化单元133在图8所示的SB0中,对p0和p1的频谱用子带最大值(p1的频谱的振幅值)进行归一化。同样,振幅归一化单元133在图8所示的SB1中,对p2和p3的频谱用子带最大值(p2的频谱的振幅值)进行归一化。关于SB2~SB5也是同样的。
其结果是,各子带中振幅最大的频谱一定为1.0。图8中,振幅最大的频谱的频谱功率也为1.0。不过,这里假设不考虑用于解决除以零问题的微小值的影响。即,在图8所示的所有子带SB0~SB5中,归一化后的振幅的最大值统一为相同值(1.0)。
这样一来,能够在子带之间使频谱的特性变得平坦,也不会产生振幅极大的频谱。即,子带振幅归一化单元103能够得到与扩展频带频谱(一般而言,与低频频谱相比频率特性平坦的频谱)之间的相关性高的归一化低频频谱。即,子带振幅归一化单元103能够将由核心编码单元102对输入信号频谱进行编码和解码而生成的核心编码低频频谱,变换为特性平坦的归一化低频频谱。由此,在编码装置100中,能够得到与扩展频带频谱相关性高的归一化低频频谱,因而能够改善高频段的音质。
以上,说明了子带振幅归一化单元103的结构和动作的细节。
这样,根据本实施方式,编码装置100的子带振幅归一化单元103中,最大值搜索单元132在将输入信号的规定频率以下的低频部分进行划分得到的多个子带中,分别搜索核心编码低频频谱的振幅的最大值(子带最大值),振幅归一化单元133对各子带中包含的核心编码低频频谱用各子带的子带最大值进行归一化。并且,编码装置100使用归一化后的核心编码低频频谱(归一化低频频谱)对扩展频带频谱进行编码。
由此,编码装置100中,即使在核心编码单元102中进行编码得到的核心编码低频频谱为离散的频谱,也能够抑制振幅极大的频谱的产生,得到特性平坦的归一化低频频谱。由此,归一化低频频谱中不再存在振幅极大的频谱,因而编码装置100通过将使高峰性为足够低的状态的低频部分频谱复制到高频部分(扩展频带),能够防止在扩展频带(高频部分)中产生高峰性过大的频谱,生成高质量的扩展频带频谱。
(实施方式2)
如上所述,在对输入信号的扩展频带(高频部分)的频谱进行编码时,编码装置利用将归一化低频频谱复制到扩展频带得到的频谱作为频谱精细结构。这也可以说是利用了输入信号的低频部分频谱的谐波(harmonics)结构。即,通过在输入信号的低频部分频谱中更加增强谐波结构,可望得到清晰性更高的解码信号。
因此,本实施方式中,说明对于实施方式1中得到的归一化低频频谱进一步增强谐波结构的情况。
图9是表示本实施方式的编码装置300的结构的方框图。在图9所示的编码装置300中,谐波增强单元301以外的结构元素与实施方式1的编码装置100(图1)内的各结构元素相同,因此附加同一标号,并在此省略说明。
谐波增强单元301对从子带振幅归一化单元103输入的归一化低频频谱的谐波结构进行增强,将增强了谐波结构的归一化低频频谱(谐波增强归一化低频频谱)输出到频带搜索单元104和增益计算单元105。
即,频带搜索单元104使用谐波增强归一化低频频谱和输入扩展频带频谱,搜索特定的频带(相关性最大的频带)。另外,增益计算单元105计算将上述特定的频带的谐波增强归一化低频频谱复制到扩展频带得到的频谱(频谱精细结构)与输入扩展频带频谱之间的增益。
图10是表示本实施方式的解码装置400的结构的方框图。在图10所示的解码装置400中,谐波增强单元401以外的结构元素与实施方式1的解码装置200(图3)内的各结构元素相同,因此附加同一标号,并在此省略说明。此外,谐波增强单元401的结构和动作与图9所示的谐波增强单元301的结构和动作相同,因而省略详细的说明。
接着,说明谐波增强单元301中的谐波结构的增强处理的细节。
如上所述,在核心编码单元102中,在比特率低的情况下使用较少的脉冲对低频频谱进行编码。此时,可以考虑对能量较大的频谱优先进行编码。另外,可认为能量较大的频谱是构成谐波结构的重要频谱的可能性大的频谱。此外,构成谐波结构的频谱(能量高的频谱)会离散分布。
根据以上情况,谐波增强单元301在归一化低频频谱中,在各子带中留下振幅较大的频谱(与各子带的子带最大值对应的频谱),去除与各子带的子带最大值对应的频谱以外的频谱。在由此得到的谐波增强归一化低频频谱中,留下较多构成谐波结构的频谱,能够增强谐波结构。
图11表示谐波增强单元301中的谐波增强处理。图11A表示图6所示的输入信号频谱的包络线(输入信号包络线)、以及由核心编码单元102进行了编码的低频频谱(核心编码低频频谱)的频谱功率。图11B中,以频谱功率图示了本实施方式中得到的谐波增强归一化低频频谱。此外,图11A和图11B中,与图6、图7或图8相同的标号表示相同含义。
另外,这里,为了简化,说明每个子带中仅留下一个脉冲的情况作为一例。
图11A和图11B所示的实线脉冲(p2,p5,p8)是在输入信号包络线的峰值附近被进行了编码的频谱的频谱功率,是各子带(SB1,SB2,SB4)中振幅(绝对值)最大的频谱(与子带最大值对应的频谱)。另外,图11A和图11B所示的虚线脉冲(p0,p3,p4,p6,p9)是各子带中非最大振幅值的频谱功率。另外,图11A和图11B所示的点划线脉冲(p1,p7,p10)是虽然不处于包络线的峰值附近却是其子带中振幅(绝对值)最大的频谱。
谐波增强单元301在归一化低频频谱中,留下与子带最大值对应的频谱,去除与子带最大值对应的频谱以外的频谱。即,图11A和图11B中,谐波增强单元301留下p1,p2,p5,p7,p8,p10的频谱(脉冲),去除p0,p3,p4,p6,p9的频谱(脉冲)。
由此,如图11A所示,在输入信号包络线的峰值附近被进行了编码的频谱(实线的频谱)全部留下,可去除除此以外的频谱,因此能够增强谐波结构。
通过以上结构和动作,在编码装置300中,也能够在扩展频带频谱中表现谐波结构。即,编码装置300在输入信号的扩展频带中也能够增强谐波结构,能够生成与实施方式1相比清晰性更高的高质量的扩展频带频谱。由此,编码装置300能够生成清晰性高的高音质的扩展频带频谱。
另外,根据本实施方式,与实施方式1同样,在编码装置300中,即使在核心编码单元102中进行编码得到的低频频谱为离散的频谱,也能够抑制振幅极大的频谱的产生,得到特性平坦的归一化低频频谱。由此,与实施方式1同样,在扩展频带(高频部分)中,能够防止高峰性过大的频谱的产生,生成高质量的扩展频带频谱。
此外,在本实施方式中,说明了谐波增强单元301仅留下具有各子带中的最大振幅值(子带最大值)的频谱的情况。但是,谐波增强单元301也可以在各子带中,将振幅相对于子带最大值的规定的比率(例如0.75)作为阈值(以下称为微小频谱去除阈值),留下具有微小频谱去除阈值以上的振幅的频谱,而抑制或去除具有小于微小频谱去除阈值的振幅的频谱(即,除了具有微小频谱去除阈值以上的振幅的频谱以外的频谱)。另外,谐波增强单元301也可以设为,在频谱虽然是子带最大值,但归一化前的振幅小的情况下,抑制或去除该频谱。
(实施方式3)
在实施方式3中,还自适应地控制实施方式2的谐波增强处理中的谐波结构的增强程度。
图12是表示本实施方式的编码装置500的结构的方框图。在图12所示的编码装置500中,子带振幅归一化单元501、阈值控制单元502以及谐波增强单元503以外的结构元素与实施方式2的编码装置300(图9)内的各结构元素相同,因此附加同一标号,并在此省略说明。
子带振幅归一化单元501将归一化低频频谱输出到阈值控制单元502和谐波增强单元503,而且将最大值搜索单元132(图5)的输出即各子带的子带最大值,输出到阈值控制单元502。
阈值控制单元502使用从子带振幅归一化单元501输入的归一化低频频谱和子带最大值,控制微小频谱去除阈值。这里,微小频谱去除阈值是用于判定在谐波增强单元503中的谐波增强处理中是否去除(或抑制)归一化低频频谱(脉冲)的阈值。例如,阈值控制单元502基于低频频谱的各子带的重要度,计算微小频谱去除阈值。阈值控制单元502将微小频谱去除阈值输出到谐波增强单元503。
谐波增强单元503使用从阈值控制单元502输入的微小频谱去除阈值,对于从子带振幅归一化单元501输入的归一化低频频谱实施谐波增强处理。具体而言,谐波增强单元503比较各子带中包含的归一化低频频谱和对各子带设定的微小频谱去除阈值。例如,谐波增强单元503留下具有微小频谱去除阈值以上的振幅的频谱(脉冲),去除(或抑制)具有小于微小频谱去除阈值的振幅的频谱(脉冲)。
图13是表示本实施方式的解码装置600的内部结构的方框图。在图13所示的解码装置600中,子带振幅归一化单元601、阈值控制单元602以及谐波增强单元603以外的结构元素与实施方式2的解码装置400(图10)内的各结构元素相同,因此附加同一标号,并在此省略说明。另外,子带振幅归一化单元601、阈值控制单元602以及谐波增强单元603的结构和动作与图12所示的子带振幅归一化单元501、阈值控制单元502以及谐波增强单元503的结构和动作相同,因而省略详细的说明。
接着,说明阈值控制单元502中的微小频谱去除阈值的设定处理以及谐波增强单元503中的谐波增强处理的细节。
在输入信号的低频部分的频谱中,子带内的频谱的振幅最大值(子带最大值)越大的子带,在听觉上越重要。因此,在该子带中,优选不仅留下与子带最大值对应的频谱,还留下位于与子带最大值对应的频谱的周边的、振幅大的频谱。
另一方面,在低频频谱中,子带最大值小的子带内的频谱构成谐波结构的可能性小。因此,在该子带中,优选仅留下尽量少的频谱。
根据以上情况,说明阈值控制单元502中的微小频谱去除阈值的设定例子。
首先,阈值控制单元502从各子带的子带最大值中搜索最大值,将搜索到的最大值设为全部子带最大值。
接着,阈值控制单元502例如将具有全部子带最大值的0.5倍以上的子带最大值的子带,判断为听觉上重要的子带(频带),将微小频谱去除阈值设定得较小。例如,阈值控制单元502将该子带的微小频谱去除阈值设定为0.25。
另一方面,阈值控制单元502例如将具有小于全部子带最大值的0.5倍的子带最大值的子带,判断为听觉上不重要的子带(频带),将微小频谱去除阈值设定得较大。例如,阈值控制单元502将该子带的微小频谱去除阈值设定为0.95。
即,阈值控制单元502在输入信号的低频部分中的多个子带中的、各子带的子带最大值相对于全部子带最大值(各子带的子带最大值中最大的值)的比率为规定值(这里是0.5)以上的子带中,将微小频谱去除阈值(谐波增强单元503中用于判定是留下还是去除归一化低频频谱的阈值)设定得较小,在多个子带中的、各子带的子带最大值相对于全部子带最大值的比率小于规定值(这里是0.5)的子带中,将微小频谱去除阈值设定得较大。
由此,例如在这里,谐波增强单元503在听觉上重要的子带中,留下具有子带最大值的0.25倍以上的振幅的频谱,而去除具有小于子带最大值的0.25倍的振幅的频谱。即,在听觉上重要的子带中,留下较多频谱的可能性大。
另一方面,例如在这里,谐波增强单元503在听觉上不重要的子带中,留下具有子带最大值的0.95倍以上的振幅的频谱,而去除具有小于子带最大值的0.95倍的振幅的频谱。即,在听觉上不重要的子带中,仅留下极少数频谱的可能性大。
通过这样的结构和动作,编码装置500在归一化低频频谱中,在听觉重要性高的子带(频带)中留下多数频谱,在听觉重要性低的子带(频带)中仅留下少数频谱。由此,通过进行谐波增强,能够实现清晰性高的解码信号。此外,通过留下多数听觉上重要的频带的频谱精细结构,能够实现更自然的解码信号。
此外,在判定为子带最大值为极小的值,与该子带最大值对应的子带在听觉上即使没有也没关系的子带(频带)的情况下,阈值控制单元502可以将微小频谱去除阈值设为大于1.0。由此,谐波增强单元503将该子带内的频谱(最大值:1.0)全部去除,能够进一步增强谐波结构。
这样,根据本实施方式,编码装置500在增强归一化低频频谱的谐波结构时,使用各子带内的子带最大值(或者子带能量),自适应地控制各子带中的谐波增强的程度。具体而言,编码装置500在子带最大值较大的子带(听觉上重要的子带)中,控制为留下较多频谱精细结构,在子带最大值较小的子带(听觉上不重要的子带)中,控制为仅留下与子带最大值有关的频谱(即,与谐波结构有关的频谱)。
这样一来,与实施方式2同样,编码装置500在扩展频带中也能够增强谐波结构,能够生成清晰性高的高质量的扩展频带频谱。此外,根据本实施方式,更为详细地留下听觉上重要的子带(频带)的频谱精细结构,因而能够得到更自然的解码信号。
另外,根据本实施方式,与实施方式1同样,在编码装置500中,即使在核心编码单元102中进行编码得到的低频频谱为离散的频谱,也能够抑制振幅极大的频谱的产生,得到特性平坦的归一化低频频谱。由此,与实施方式1同样,在扩展频带(高频部分)中,能够防止高峰性过大的频谱的产生,生成高质量的扩展频带频谱。
(实施方式4)
输入信号中,扩展频带频谱的能量偏颇未必小。例如,还存在如弹奏铁琴的声音那样扩展频带频谱的能量偏颇较大的信号。在这样的输入信号中,与由子带振幅归一化单元103生成归一化低频频谱相比,通过现有技术的频谱功率的包络进行归一化,生成归一化扩展频带频谱时,能够实现高音质化。此外,在一个输入样本中混合存在管弦乐等一般音乐信号和能量偏颇大的铁琴的声音等信号的情况下,通过使用对每帧判定并切换低频频谱的归一化方法的手段,能够稳定地实现高音质化。
实施方式4中,说明如下结构,即,对每帧判定输入信号的特性,根据该判定结果,切换用子带中包含的频谱的最大值进行归一化的方法和用频谱功率的包络进行归一化的方法,以生成归一化扩展频带频谱。
图14是表示本实施方式的编码装置700的结构的方框图。在图14所示的编码装置700中,归一化方法判定单元701、频谱包络归一化单元702、开关703、704以外的结构要素与实施方式1的编码装置100(图1)中的各结构要素相同,因此附加同一标号,并在此省略说明。
归一化方法判定单元701分析核心编码低频频谱,判定在核心编码低频频谱的归一化中是使用子带振幅归一化单元103还是使用频谱包络归一化单元702,将表示判定结果的判定信息输出到开关703、704。这里,假设判定信息表示0时选择子带振幅归一化单元103,判定信息表示1时选择频谱包络归一化单元702。
归一化方法判定单元701分析输入的核心编码低频频谱的高峰性的强度,在高峰性比规定的阈值弱时选择子带振幅归一化单元103,在高峰性比规定的阈值强时选择频谱包络归一化单元702。高峰性的强度例如通过参数与阈值的比较来确定,该参数包括:子带能量的方差值、以频谱的算术平均相对于几何平均的比表示的频谱平坦度(Spectral Flatness Measure)、超过用频谱振幅的平均值和标准偏差规定的阈值的频谱的数量等。
频谱包络归一化单元702对从核心编码单元102输入的核心编码低频频谱进行归一化,生成归一化低频频谱。此外,频谱包络归一化单元702的结构和动作的细节将后述。
开关703在判定信息表示0时,将核心编码单元102与子带振幅归一化单元103连接,在判定信息表示1时,将核心编码单元102与频谱包络归一化单元702连接。开关704在判定信息表示0时,将子带振幅归一化单元103与频带搜索单元104连接,在判定信息表示1时,将频谱包络归一化单元702与频带搜索单元104连接。
图15是表示本实施方式的解码装置800的结构的方框图。在图15所示的解码装置800中,归一化方法判定单元801、频谱包络归一化单元802、开关803、804以外的结构要素与实施方式1的解码装置200(图3)中的各结构要素相同,因此附加同一标号,并在此省略说明。
归一化方法判定单元801的结构和动作与图14所示的归一化方法判定单元701的结构和动作相同,因而省略详细的说明。通过使用与归一化方法判定单元701相同的方法,归一化方法判定单元801能够得到与归一化方法判定单元701得到的判定信息相同的信息。
频谱包络归一化单元802对从核心解码单元202输入的核心编码低频频谱进行归一化,生成归一化低频频谱。此外,频谱包络归一化单元802的结构和动作与图14所示的频谱包络归一化单元702的结构和动作(将后述)相同,因而省略详细的说明。另外,开关803、804的动作分别与图14所示的开关703、704的动作相同,因而省略详细的说明。
开关803在判定信息表示0时,将核心解码单元202与子带振幅归一化单元203连接,在判定信息表示1时,将核心解码单元202与频谱包络归一化单元802连接。开关804在判定信息表示0时,将子带振幅归一化单元203与扩展频带解码单元204连接,在判定信息表示1时,将频谱包络归一化单元802与扩展频带解码单元204连接。
接下来使用图16详细地说明频谱包络归一化单元702的结构和动作。图16所示的频谱包络归一化单元702由子带划分单元731、子带能量计算单元732、平滑化单元733以及频谱校正单元734构成。
子带划分单元731将核心编码低频频谱划分为多个子带,并输出到子带能量计算单元732。子带能量计算单元732计算每个子带的核心编码低频频谱的能量(子带能量),并输出到平滑化单元733。平滑化单元733为了使能量变动平滑而估计频谱包络,在频率轴上对子带能量进行平滑化。通过利用了附近的子带能量的加权平均处理、从低频向高频进行的子带能量的自回归处理等来实现平滑化。平滑化单元733将以此方式求得的平滑化子带能量视为频谱包络的估计值,将其输出到频谱校正单元734。频谱校正单元734对核心编码低频频谱乘以平滑化子带能量的倒数,从而从核心编码低频频谱中去除频谱包络分量,生成归一化低频频谱并输出。
此外,本实施方式中,说明了分析核心编码低频频谱来求判定信息,因而无需将判定信息传送到解码装置800的结构,但本发明不限于此,也可以采用将判定信息传送到解码装置800的结构。在此情况下,采用基于解码装置800无法生成的信息而确定判定信息的结构。例如,分析输入信号频谱的高频部分,基于高频部分中包含的频谱的能量偏颇、高峰性的强度等确定判定信息。
另外,本发明也可以采用在实施方式4中组合实施方式2中说明的谐波增强单元、以及实施方式3中说明的阈值控制单元的结构。
(实施方式5)
在实施方式1中,说明了在频带搜索单元104中,以使移位了由滞后候选表示的预定样本值的位置为起点来生成用于相关值计算的候选频谱的方法。
在实施方式5中,说明滞后候选不表示预定样本值的移位量,而表示低频部分中设立的第几归一化低频频谱的方法。图17是表示本实施方式的频带搜索单元104的动作情形的图。
如图17所示,以非零的归一化低频频谱的位置为起点表示滞后候选(L0~L3)。即,滞后候选编号增加1时,归一化低频频谱为零的位置被跳过,以接下来出现的归一化低频频谱的位置为起点。截取出的频谱从该起点频率开始,包含在与输入扩展频带频谱(扩展频带的整个频带或部分频带)的带宽相同的带宽中。截取出的频谱作为相关值计算的候选频谱输出到相关值计算单元104a。
由此,在对滞后信息分配的比特数少的情况下,也能够将搜索范围设定得较大,并且在候选频谱内一定存在至少一个频谱。因此,能够避免生成频谱全部为零的候选频谱的问题。另外,候选频谱内的低频部分中至少存在一个频谱,因此与低频段的信号能量相对大于高频段的语音信号和音乐信号的一般特性也一致,能够实现音质提高。
图18是表示本实施方式的扩展频带解码单元204的动作情形的图。本实施方式中,按照发送来的滞后信息判断将第几归一化低频频谱用作起点,生成从该起点开始包含在扩展频带频谱的带宽中的归一化低频频谱作为扩展频带频谱(乘以增益之前的)。在图18的例子中,得到滞后信息L2,因此使用位于f11的归一化低频频谱的频率作为起点。
(实施方式6)
在上述实施方式中,将输入信号划分为20毫秒左右的帧,将各帧的频谱划分为低频频谱和扩展频带频谱,对低频频谱和扩展频带频谱使用分别不同的编码方式进行编码处理。此时,根据使用哪种编码方式确定对扩展频带部分分配的比特数,在此使用固定比特率的方式的情况下比特数为一定。这意味着,在扩展频带频谱的能量非常小的情况下也始终消费一定的比特,有时比特分配变得非高效率。
另一方面,考虑如现有技术,通过如核心编码单元这样的变换编码对输入信号频谱的整个频带进行编码处理的情况。
图19是表示将输入信号频谱划分为多个子带的图。
如图19所示,在变换编码中,一般将输入信号频谱划分为多个子带,根据各个子带的能量(子带能量)分配比特。具体而言,对子带能量越大的子带分配越多的比特,对子带能量小的子带分配较少比特。图19中,采用使低频侧的子带的宽度窄,随着靠近高频侧,子带宽度逐渐变大的结构。这与使人的听觉特性模式化得到的临界带宽相关联,认为频带越低,对音质而言越重要,因此期待通过使低频的子带宽度窄并重点分配比特,高质量地进行编码。
在这种子带结构中对输入信号频谱进行了变换编码处理的情况下,根据扩展频带频谱的特性不同,对扩展频带部分有时分配较多比特。此时,扩展频带部分的子带宽度宽,因此即使分配较多比特,为了表现扩展频带频谱而设立的脉冲数也少。另外,通过对扩展频带部分分配较多比特,对低频部分分配的比特变少,其结果导致音质劣化。
因此,在本实施方式中,在通过变换编码进行了输入信号频谱的编码时,对扩展频带部分分配了较多比特的情况下,对于扩展频带频谱由扩展频带编码单元进行编码,对于低频频谱进行变换编码处理。与此相反,在通过变换编码进行了输入信号频谱的编码时,对扩展频带部分分配的比特较少的情况下,通过变换编码对输入信号频谱的整个频带进行编码处理。以帧为单位进行这样的编码方式的切换。
本实施方式中,可得到如下效果。在通过变换编码进行了输入信号频谱的编码时,对扩展频带部分分配的比特较多的情况下,将扩展频带频谱的编码切换到扩展频带编码单元,以较少的比特数进行高效编码,由此与对整个频带进行变换编码的情况下在扩展频带中消费的比特数相比,能够以较少的比特数对扩展频带进行编码,将此处产生的剩余比重新分配到低频部分。由此,通过减少低频部分中产生的噪声感,同时,通过扩展频带编码保持音域感,从而能够实现高音质化。
本实施方式中,以如下结构为例进行说明,即,将在对整个输入信号频谱通过核心层编码单元进行编码的情况下,对扩展频带的子带分配的总比特数、与在对扩展频带频谱通过扩展频带编码单元进行编码时消费的比特数进行比较的结构。以下说明其细节。
图20是表示实施方式6的编码装置900的结构的方框图。图20中,对与图1重复的结构要素附加相同标号,并省略其说明。
在本实施方式中,采用在如下情况之间进行切换的结构,即,由变换编码单元904进行全部输入信号频谱的编码的情况(以下称为变换编码模式)、与如实施方式1所述组合核心编码单元102与扩展频带编码单元106进行输入信号频谱的编码的情况(以下称为扩展编码模式)。以下详细地说明各结构要素的动作。
时间-频率变换单元901将输入的时域的输入信号(语音信号或/及音乐信号)变换为频域的信号,将得到的输入信号频谱输出到模式判定单元902、比特分配确定单元903和变换编码单元904,或者输出到模式判定单元902、比特分配确定单元905和核心编码单元102。此外,这里,作为时间-频率变换单元901中的时间-频率变换处理,以MDCT变换为前提进行说明。但是,时间-频率变换单元也可以使用从时域向频域变换的FFT(Fast FourierTransform,快速傅立叶变换)、DCT(Discrete Cosine Transform,离散余弦变换)等正交变换。
模式判定单元902使用从时间-频率变换单元901输入的输入信号频谱,对每帧判定输入信号频谱的编码模式。并将判定的信息作为模式判定信息输出到开关907、开关908、以及复用单元906。其动作的细节将后述。
开关907使用从模式判定单元902输入的模式判定信息,进行编码模式的切换。在模式判定信息表示0时,将时间-频率变换单元901与变换编码单元904连接,在模式判定信息表示1时,将时间-频率变换单元901与核心编码单元102连接。
在模式判定信息表示0时,比特分配确定单元903使用从时间-频率变换单元901输入的输入信号频谱,将表示对于输入信号频谱的各子带分配多少比特的信息(比特分配信息)输出到变换编码单元904。比特分配确定单元903的详细说明将后述。
变换编码单元904对从时间-频率变换单元901输入的输入信号频谱,基于从比特分配确定单元903输入的比特分配信息进行变换编码处理,生成变换编码数据。然后,编码单元904将变换编码数据输出到复用单元906。
在模式判定信息表示1时,执行扩展编码模式。首先,比特分配确定单元905使用从时间-频率变换单元901输入的输入信号频谱,将表示对于低频频谱的各子带和扩展频带编码单元106分配多少比特的信息(比特分配信息)输出到核心编码单元102和扩展频带编码单元106。比特分配确定单元905的详细说明将后述。随后,使用从比特分配确定单元905输出的比特分配信息和从时间-频率变换单元901输入的输入信号频谱,由核心编码单元102进行低频频谱的编码,同样使用从比特分配确定单元905输出的比特分配信息和从时间-频率变换单元901输入的输入信号频谱,由扩展频带编码单元106进行扩展频带频谱的编码。
开关908与开关907联动,在从模式判定单元902输入的模式判定信息为0的情况下,将变换编码单元904与复用单元906连接,在模式判定信息为1的情况下,将核心编码单元102与复用单元906连接。
复用单元906将从变换编码单元904输入的变换编码数据与从模式判定单元902输入的模式判定信息进行复用,或者将从核心编码单元102输入的核心编码数据、从扩展频带编码单元106输入的扩展频带编码数据、以及从模式判定单元902输入的模式判定信息进行复用,作为编码数据输出。
接着,进行比特分配确定单元903和比特分配确定单元905的详细说明。
这里,比特分配确定单元903对输入信号频谱中能量大的子带分配较多比特,对能量小的子带分配较少比特。例如,如式(3)所示,对各子带分配比特。
其中,Bsub表示对各子带分配的分配比特数,N表示输入信号频谱的总子带数,Btotal表示能够对输入信号频谱的编码分配的总比特数,E表示各子带的能量,j表示示出子带的索引。
这样,根据各子带能量相对于子带能量平均值的大小,确定对各子带分配的比特数,对子带能量大的子带分配较多的比特,对子带能量小的子带分配较少的比特。
另一方面,比特分配确定单元905对输入信号的低频频谱的各子带和扩展频带编码单元106分配比特。
对低频频谱的各子带的比特分配与比特分配确定单元903同样进行。例如,如式(4)所示进行比特分配。
其中,S表示低频频谱的总子带数,BSWB表示对扩展频带编码单元106分配的比特数。
此外,在式(3)和式(4)中,对各子带分配的比特的值为负时,强制使对该子带分配的比特数为0。
作为扩展频带编码单元106分配的比特数BSWB,使用预先设计的值。例如,在能够用于编码的总比特数为12kbps,其中对核心编码单元102分配的比特数为10kbps时,分配给扩展频带编码单元106的比特数为2kbps。例如,在帧长度为20毫秒的情况下,1帧中对扩展频带编码单元106分配的比特数BSWB为2000×0.02=40比特。
下面使用图21说明模式判定单元902的细节。
图21是表示模式判定单元902的结构的图。
在模式判定单元902中,计算在对输入信号频谱的各编码模式下,进行扩展频带频谱的编码所需的比特,通过比较各自的消费比特数进行判定。
在比特数1计算单元1001中,计算在变换编码模式下对扩展频带部分分配的总比特数。首先,对于输入信号频谱的各子带分配比特。此时与比特分配确定单元903同样进行比特分配,因此省略其说明。计算对各子带分配的比特中的、对扩展频带部分的子带分配的总比特数,将其作为比特数1输出到消费比特数比较单元1002。
在消费比特数比较单元1002中,将由比特数1计算单元1001求得的对扩展频带部分的子带分配的总比特数、与扩展编码模式下的扩展频带编码单元的消费比特数BSWB进行比较,将其结果作为模式判定信息输出。例如,在比特数1>BSWB的情况下,设模式判定信息为“1”,在除此以外时,设模式判定信息为“0”,输出到开关907、开关908和复用单元906。
下面,说明本实施方式的解码装置。图22是表示本实施方式的解码装置1010的结构的方框图。图22中,对与图3重复的结构要素附加相同标号,并省略其说明。
分离单元1011将输入的编码数据分离为模式判定信息和变换编码数据,或者,分离单元1011将输入的编码数据分离为模式判定信息、核心编码数据和扩展频带编码数据。分离单元1011将模式判定信息输出到开关1012、开关1013和复用单元1014。另外,在模式判定信息为0时,将变换编码数据输出到变换编码解码单元1015,在模式判定信息为1时,将核心编码数据输出到核心解码单元202,进而,在模式判定信息为1时,将扩展频带编码数据输出到扩展频带解码单元204。
开关1012在从分离单元1011输入的模式判定信息为0的情况下,将分离单元1011与变换编码解码单元1015连接,在模式判定信息为1的情况下,将分离单元1011与核心解码单元202连接。
开关1013与开关1012联动,在从分离单元1011输入的模式判定信息为0的情况下,不将分离单元1011与扩展频带解码单元204连接,在模式判定信息为1的情况下,将分离单元1011与扩展频带解码单元204连接。
变换编码解码单元1015对于从分离单元1011输入的变换编码数据进行解码处理,生成变换编码频谱,将变换编码频谱输出到开关1014。
核心编码解码单元202对于从分离单元1011输入的核心编码数据进行解码处理,生成核心编码低频频谱,将核心编码低频频谱输出到子带振幅归一化单元203和合成单元1016。
扩展频带解码单元204在模式判定信息为1的情况下,使用从分离单元1011输入的扩展频带编码数据和从子带振幅归一化单元203输入的归一化低频频谱进行解码处理,生成扩展频带频谱,将扩展频带频谱输出到合成单元1016。
合成单元1016将从核心解码单元202输入的核心编码低频频谱和从扩展频带解码单元204输入的扩展频带频谱进行合成,从而生成合成频谱,将合成频谱输出到开关1014。
开关1014与开关1012联动,在从分离单元1011输入的模式判定信息为0的情况下,将变换编码解码单元1015与频率-时间变换单元205连接,在模式判定信息为1的情况下,将合成单元1016与频率-时间变换单元205连接。
频率-时间变换单元205对从变换编码解码单元1015输入的变换编码频谱或者从合成单元1016输入的合成频谱进行正交变换,变换为时域的信号并作为输出信号输出。
通过以上结构和动作,编码装置(图20)根据扩展频带频谱的特性,切换输入信号频谱的编码方法,以较少的比特数进行扩展频带频谱的编码。由此,能够对低频频谱分配较多的比特,因而能够实现音质的改善。
(实施方式7)
在图20的编码装置中,选择使用较少比特数进行扩展频带频谱的编码的编码方法,对低频部分分配较多比特,由此实现了音质的改善。但是,在低比特率的编码的情况下,即使选择以较少的比特消费量进行的扩展频带频谱的编码方法,对低频部分的比特分配增加量也非常少。因此,为了用较少的比特改善低频部分的音质,需要对低频部分进行高效率的比特分配。
因此,在本实施方式中,采用如下结构,即,随着适用于扩展频带频谱编码的编码方法的切换,切换对输入信号频谱的比特分配的方法。具体而言,在变换编码模式的情况下,为了实现具有音域感的音质,进行比特分配以使将比特配置到广泛的频带中。
另一方面,在扩展编码模式的情况下,限定于低频部分频谱的子带中能量大的子带,分配比特。通过将比特分配限定于能量大的子带,能够减少核心编码单元中的低频部分的噪声感。
此时,在变换编码模式时也将比特分配限定于能量大的子带,由此能够减少低频部分的噪声感,但在此情况下对扩展频带编码单元的子带分配的比特变少,因此损失了音域感。但是,在扩展编码模式的情况下,即使将比特分配锁定于低频频谱中能量大的子带,也能够由扩展频带编码单元高质量地生成扩展频带频谱,因此能够避免音域感损失的问题。同时,将因适用扩展频带编码单元而产生的剩余比特分配到低频部分,因而能够降低在低频部分产生的噪声感。
因此,根据本实施方式,能够抑制噪声感,并且实现具有音域感的音质。
本实施方式的编码装置采用与实施方式6的编码装置(图20)相同的结构。因此,对与图20重复的结构要素附加相同标号,并省略其说明。但是,比特分配确定单元903、比特分配确定单元904分别进行与实施方式6不同的动作,以下说明其细节。
比特分配确定单元903对输入信号频谱中能量大的子带分配较多比特,对能量小的子带分配较少比特,但为了防止音域感的损失,在进行比特分配时尽量在整个输入信号频谱中广泛配置比特。例如,如式(5)所示,对各子带进行比特分配。
其中,Bsub表示对各子带分配的分配比特数,N表示输入信号频谱的总子带数,Btotal表示能够对各子帧分配的总比特数,j表示示出子带的索引。
此外,在式(5)中,对各子带分配的比特的值为负时,强制使对该子带分配的比特数为0。
与此相对,比特分配确定单元905仅在输入信号的低频频谱中配置比特。但是,这里,为了减少低频部分的噪声感,锁定于能量大的子带,集中地配置比特。例如,如式(6)所示对各子带进行比特分配。
其中,S表示低频频谱的总子带数,E表示各子带的能量。在式(6)中,根据子带能量的大小自适应地调整对各子带的比特分配,强制性地使对具有小于子带能量的几何平均值的能量的子带的比特分配为0。即,对具有几何平均值以上的子带能量的、能量大的子带,集中地分配比特。
此外,在式(6)中,因强制性地使对具有小子带能量的子带分配的比特为0而剩余的比特Brest,进一步按照子带能量的大小重新分配。例如,如式(7)所示,重新分配。
其中,B’sub[i]表示对各子带重新分配的追加部分的比特数,M表示式(6)中分配了比特的子带的总数,i表示要重新分配的子带的索引。
本实施方式的解码装置采用与实施方式6的解码装置(图22)相同的结构和动作,因此省略说明。
通过这样的结构和动作,本实施方式的编码装置根据输入信号的扩展频带频谱的特征切换编码模式,随之切换对输入信号频谱的比特分配,由此能够抑制噪声感,并且实现具有音域感的音质。
(实施方式8)
在实施方式4中,说明了如下结构,即,对每帧判定输入信号的特性,根据该判定结果,切换用子带中包含的频谱的最大值进行归一化的方法与用频谱功率的包络进行归一化的方法,生成归一化扩展频带频谱。本实施方式中说明如下结构,即在用频谱功率的包络进行归一化时,为了避免由于频谱的过度峰值引起的异常声音产生,使用对核心编码低频频谱附加基于随机数生成的噪声的处理、以及对生成的归一化低频频谱的削波(clipping)处理中的至少一者。
此外,本实施方式的编码装置和解码装置的基本结构与实施方式4的编码装置700和解码装置800相同,因而引用图14、图15进行说明。不过,在本实施方式中,与实施方式4的编码装置700的频谱包络归一化单元702的处理存在部分差异,为了表示该差异,表示为“频谱包络归一化单元702a”。同样,在本实施方式中,与实施方式4的解码装置800的频谱包络归一化单元802的处理存在部分差异,为了表示该差异,表示为“频谱包络归一化单元802a”。而且,频谱包络归一化单元802a的结构和动作与频谱包络归一化单元702a的结构和动作(将后述)相同,因而省略详细说明。
使用图23详细地说明本实施方式的频谱包络归一化单元702a的结构和动作。图23中,对与图16相同的结构要素附加相同标号,并在此省略说明。具体而言,图23所示的频谱包络归一化单元702a除了图16所示的频谱包络归一化单元702的结构要素以外,还具有噪声附加单元741和削波单元742。
对噪声附加单元741输入由子带划分单元731划分为子带的核心编码低频频谱。噪声附加单元741对核心编码低频频谱附加基于随机数生成的噪声。噪声附加单元741对每个子带进行如下处理。例如,噪声附加单元741判定子带内的核心编码低频频谱为零的频率是否存在,在存在为零的频率时,对该频率附加基于随机数生成的噪声。
此时,子带内的频谱的峰值程度越强,噪声附加单元741附加越大的噪声。作为噪声附加的具体方法的一例,噪声附加单元741求子带内的频谱为非零的范围,该范围越大,附加越小的噪声。另外,噪声附加单元741在子带内的频谱的绝对值的最大值越大时,附加越大的噪声。基于频谱为非零的范围和频谱的绝对值的最大值附加的噪声,例如由式(8)表示。
其中,no表示附加噪声,ifzero表示指示频谱为零的频率的索引,rand_val表示-1.0~1.0之间的随机数,max_peak表示子带内的频谱的绝对值的最大值,cnt表示频谱为非零的范围。
噪声附加单元741将噪声附加处理后的核心编码低频频谱输出到子带能量计算单元732。
削波单元742对由频谱校正单元734输出的频谱(归一化低频频谱)进行削波处理。所谓削波处理,是将规定的阈值与上述频谱的绝对值进行比较,在频谱的绝对值超过阈值的情况下,用阈值置换频谱的振幅值的处理。即,通过削波单元742的削波处理,由频谱校正单元734输出的频谱的振幅值变为阈值以下。
此外,上述规定的阈值可以对每帧自适应地确定。另外,也可以对核心编码低频频谱的整个频带或者每个子带计算频谱的绝对值的平均值,将对该平均值乘以规定值得到的值用作阈值。假设使用1.0作为上述规定值时,频谱的绝对值的平均值为阈值。另外,也可以自适应地改变乘以平均值的值。作为一例可以采用如下结构,即,求整个频带或每个子带的频谱的绝对值的最大值相对于核心编码低频频谱的整个频带或每个子带的频谱的振幅的绝对值总和的比,在该比大的情况下,使乘以平均值的值变大,在该比小的情况下,使乘以平均值的值变小。
这样,根据本实施方式,在用频谱功率的包络进行归一化时,通过由噪声附加单元741对核心编码低频频谱附加噪声,或者由削波单元742对于频谱进行削波处理,能够减轻频谱包络归一化单元702a生成的归一化低频频谱的峰值的强度,避免因过度的高峰性引起的音质变差。
以上说明了本发明的各实施方式。
此外,在上述实施方式中,子带振幅归一化单元(103,203,501,601)也可以代替用振幅绝对值对频谱进行归一化,而将通过变换编码生成的频谱的振幅全部进行统一。不过,在此情况下,保存频谱的极性。通过该处理,能够实现处理量的减少,并且由于不产生频谱振幅的偏差,所以能够进一步抑制怪音感。
另外,在上述实施方式中的解码装置使用从上述各实施方式中的编码装置传输的编码信息来进行处理,但本发明不限于此,只要是包含需要的参数或数据的编码信息,即使不一定是来自上述各实施方式中的编码装置的编码信息也能够进行处理。
另外,不限于上述各实施方式,能够进行各种变更来实施。例如,可以适当地组合各实施方式来实施。
本发明也可以适用于将信号处理程序记录、写入到存储器、光盘、磁带、CD、DVD等能够机械读取的记录媒体以进行动作的情况,此时可获得与本实施方式同样的作用和效果。
另外,在上述各实施方式中,以由硬件构成本发明的情况为例进行了说明,但本发明在硬件的协作下,也可以由软件实现。
另外,用于上述各实施方式的说明中的各功能块通常被作为集成电路的LSI来实现。这些功能块既可以被单独地集成为单芯片,也可以包含一部分或全部地被集成为单芯片。虽然此处称为LSI,但根据集成程度,可以被称为IC、系统LSI、超大LSI(Super LSI)、或特大LSI(Ultra LSI)。
另外,实现集成电路化的方法不仅限于LSI,也可使用专用电路或通用处理器来实现。也可以使用可在LSI制造后编程的FPGA(Field ProgrammableGate Array:现场可编程门阵列),或者可重构LSI内部的电路单元的连接或设定的可重构处理器。
再者,随着半导体的技术进步或随之派生的其它技术的出现,如果出现能够替代LSI的集成电路化的新技术,当然可利用该新技术进行功能块的集成化。还存在着适用生物技术等的可能性。
2011年9月9日提交的特愿2011-197295号、2011年12月21日提交的特愿2011-279623号、2012年1月31日提交的特愿2012-019004号、以及2012年3月30日提交的特愿2012-079682号的日本专利申请所包含的说明书、附图和说明书摘要的公开内容全部引用于本申请。
工业实用性
本发明在使用低频部分的频谱对扩展频带的频谱进行编码时,能够提高解码信号的质量,例如能够适用于分组通信系统、移动通信系统等。
Claims (22)
1.编码装置,包括:
第一编码单元,对作为语音信号或/及音乐信号的输入信号的规定频率以下的低频部分进行编码,生成第一编码数据;
归一化单元,对所述第一编码数据进行解码得到的第一频谱进行归一化,生成归一化频谱;
频带搜索单元,搜索所述输入信号的高于所述规定频率的高频部分的频谱即第二频谱和所述归一化频谱之间的相关值为最大的特定的频带;
增益计算单元,计算将所述特定的频带的所述归一化频谱复制到所述高频部分得到的频谱即第三频谱和所述第二频谱之间的增益;以及
第二编码单元,对包含所述特定的频带和所述增益的信息进行编码,生成第二编码数据,
所述归一化单元包括:
最大值搜索单元,在划分所述低频部分得到的多个子带中,分别搜索所述第一频谱的振幅的最大值;以及
振幅归一化单元,对各子带中包含的所述第一频谱,使用各子带的所述振幅的最大值分别进行归一化,得到所述归一化频谱。
2.如权利要求1所述的编码装置,还包括:
增强单元,增强所述归一化频谱的谐波结构,
所述频带搜索单元使用增强了谐波结构的所述归一化频谱和所述第二频谱,搜索所述特定的频带,
所述增益计算单元计算将所述特定的频带的、增强了谐波结构的所述归一化频谱复写到所述高频部分得到的所述第三频谱和所述第二频谱之间的增益。
3.如权利要求2所述的编码装置,
所述增强单元对于所述低频部分内的所述归一化频谱中的各子带的所述振幅最大值,留下具有规定的比率以上的振幅的频谱,抑制或去除所述具有规定的比率以上的振幅的频谱以外的频谱。
4.如权利要求2所述的编码装置,还包括:
阈值控制单元,在所述多个子带中搜索振幅的最大值,在各子带的所述振幅的最大值相对于搜索到的最大值的比率为规定值以上的子带中,将所述增强单元中用于判定是留下还是去除所述归一化频谱的阈值设定得小,对于所述多个子带中所述比率小于所述规定值的子带,将所述阈值设定得大,
所述增强单元留下各子带中包含的所述归一化频谱中具有对各子带设定的所述阈值以上的振幅的频谱,抑制或去除具有小于对各子带设定的所述阈值的振幅的频谱。
5.如权利要求1所述的编码装置,还包括:
第二归一化单元,对所述第一频谱进行归一化,生成归一化频谱;以及
判定单元,分析所述第一频谱而得到判定信息,
所述第二归一化单元求划分所述低频部分得到的多个子带的各自的能量,对所述子带能量进行平滑化而求平滑化子带能量,用所述平滑化子带能量对所述第一频谱进行归一化,生成归一化频谱,
所述判定单元分析所述第一频谱的频谱而求所述第一频谱的特征量,根据所述特征量选择所述归一化单元或所述第二归一化单元,使用选择出的归一化单元对所述第一频谱进行归一化,生成归一化频谱。
6.如权利要求5所述的编码装置,
所述第二归一化单元还包括:
附加单元,对所述第一频谱附加基于随机数生成的噪声。
7.如权利要求5所述的编码装置,
所述第二归一化单元还包括:
削波单元,对所述归一化频谱进行削波处理。
8.如权利要求1所述的编码装置,
所述频带搜索单元从以所述归一化频谱的振幅值为非零的位置为起点的频带的多个候选中,搜索相关值为最大的特定的频带。
9.编码装置,包括:
变换单元,将作为语音信号或/及音乐信号的输入信号变换到频域而生成输入信号频谱;
第一比特分配单元,确定分配给以规定的带宽划分所述输入信号频谱的整个频带得到的各子带的比特数;
第一编码单元,使用分配的比特对所述输入信号频谱进行编码,生成第一编码数据;
第二比特分配单元,确定分配给以规定的带宽划分所述输入信号频谱的低于规定频率的低频部分的频谱得到的各子带的比特数;
第二编码单元,使用分配的比特对所述输入信号的低于规定频率的低频部分的频谱进行编码,生成第二编码数据;
第三编码单元,对所述输入信号频谱的高于规定频率的高频部分的频谱进行编码,生成第三编码数据;
判定单元,分析所述输入信号频谱的高于规定频率的高频部分的频谱的编码所消费的比特数而得到判定信息;以及
切换单元,根据所述判定信息,对每帧切换所述输入信号频谱的编码是仅由所述第一编码单元进行,还是组合所述第二编码单元和所述第三编码单元进行。
10.如权利要求9所述的编码装置,
所述判定单元包括:
计算单元,计算用第一编码单元进行所述输入信号的高频频谱的编码的情况下消费的比特数;以及
比较单元,将所述比特数与用第三编码单元消费的比特数进行比较。
11.如权利要求9所述的编码装置,
根据子带能量的大小,所述比特的分配对子带能量大的子带分配较多比特,对子带能量小的子带分配较少比特。
12.解码装置,包括:
第一解码单元,将在编码装置中对作为语音信号或/及音乐信号的输入信号的规定频率以下的低频部分进行编码生成的第一编码数据作为输入并进行解码,生成第一频谱;
归一化单元,对所述第一频谱进行归一化,生成归一化频谱;以及
第二解码单元,将所述归一化频谱以及由所述编码装置生成的第二编码数据作为输入并进行解码,生成第二频谱,
所述第二编码数据包含:
表示在编码侧第一频谱和编码侧第二频谱之间相关值为最大的特定的频带的信息,所述编码侧第一频谱是所述编码装置中的所述输入信号的高于所述规定频率的高频部分的频谱,所述编码侧第二频谱是在所述编码装置中对通过解码所述第一编码数据而生成的频谱进行归一化得到的频谱,以及
表示在编码侧第三频谱和所述编码侧第一频谱之间计算出的增益的信息,所述编码侧第三频谱是将所述特定的频带的所述编码侧第二频谱复制到所述高频部分得到的频谱,
所述归一化单元包括:
最大值搜索单元,在划分所述低频部分得到的多个子带中,分别搜索所述第一频谱的振幅的最大值;以及
振幅归一化单元,对各子带中包含的所述第一频谱,使用各子带的所述振幅的最大值分别进行归一化,生成所述归一化频谱。
13.如权利要求12所述的解码装置,还包括:
增强单元,增强所述归一化频谱的谐波结构,
所述第二解码单元将增强了谐波结构的所述归一化频谱以及所述第二编码数据作为输入并进行解码,生成第二频谱。
14.如权利要求13所述的解码装置,
所述增强单元留下所述低频部分内的所述归一化频谱中相对于各子带的所述振幅最大值具有规定的比率以上的振幅的频谱,抑制或去除所述具有规定的比率以上的振幅的频谱以外的频谱。
15.如权利要求13所述的解码装置,还包括:
阈值控制单元,在所述多个子带中搜索振幅的最大值,在各子带的所述振幅的最大值相对于搜索到的最大值的比率为规定值以上的子带中,将所述增强单元中用于判定是留下还是去除所述归一化频谱的阈值设定得小,在所述多个子带中所述比率小于所述规定值的子带中,将所述阈值设定得大,
所述增强单元留下各子带中包含的所述归一化频谱中具有对各子带设定的所述阈值以上的振幅的频谱,抑制或去除具有小于对各子带设定的所述阈值的振幅的频谱。
16.如权利要求12所述的解码装置,还包括:
第二归一化单元,对所述第一频谱进行归一化,生成归一化频谱;以及
判定单元,分析所述第一频谱而得到判定信息,
所述第二归一化单元求划分所述低频部分得到的多个子带的各自的能量,对所述子带能量进行平滑化而求平滑化子带能量,用所述平滑化子带能量对所述第一频谱进行归一化,生成归一化频谱,
所述判定单元分析所述第一频谱的频谱而求所述第一频谱的特征量,根据所述特征量选择所述归一化单元或所述第二归一化单元,使用选择出的归一化单元对所述第一频谱进行归一化,生成归一化频谱。
17.如权利要求12所述的解码装置,
所述第二解码单元从以所述归一化频谱的振幅值为非零的位置为起点的频带的多个候选中,搜索相关值为最大的特定的频带。
18.解码装置,包括:
第一解码单元,将在编码装置中对作为语音信号或/及音乐信号的输入信号进行编码生成的第一编码数据作为输入并进行解码,生成第一频谱;
第二解码单元,将在编码装置中对所述输入信号的低于规定频率的低频部分进行编码生成的第二编码数据作为输入并进行解码,生成第二频谱;
第三解码单元,将在编码装置中对所述输入信号的规定频率以上的高频部分进行编码生成的第三编码数据作为输入并进行解码,生成第三频谱;以及
切换单元,使用从编码装置发送的模式判定信息,切换编码数据的解码是仅由所述第一解码单元进行,还是组合所述第二解码单元和所述第三解码单元进行。
19.编码方法,包括如下步骤:
第一编码步骤,对作为语音信号或/及音乐信号的输入信号的规定频率以下的低频部分进行编码,生成第一编码数据;
归一化步骤,对所述第一编码数据进行解码得到的第一频谱进行归一化,生成归一化频谱;
频带搜索步骤,搜索所述输入信号的高于所述规定频率的高频部分的频谱即第二频谱和所述归一化频谱之间的相关值为最大的特定的频带;
增益计算步骤,计算将所述特定的频带的所述归一化频谱复制到所述高频部分得到的频谱即第三频谱和所述第二频谱之间的增益;以及
第二编码步骤,对包含所述特定的频带和所述增益的信息进行编码,生成第二编码数据,
所述归一化步骤包括:
最大值搜索步骤,在划分所述低频部分得到的多个子带中,分别搜索所述第一频谱的振幅的最大值;以及
振幅归一化步骤,对各子带中包含的所述第一频谱,使用各子带的所述振幅的最大值分别进行归一化,得到所述归一化频谱。
20.编码方法,包括如下步骤:
变换步骤,将作为语音信号或/及音乐信号的输入信号变换到频域而生成输入信号频谱;
第一比特分配步骤,确定对以规定的带宽划分所述输入信号频谱的整个频带得到的各子带分配的比特数;
第一编码步骤,使用分配的比特对所述输入信号频谱进行编码,生成第一编码数据;
第二比特分配步骤,确定对以规定的带宽划分所述输入信号频谱的低于规定频率的低频部分的频谱得到的各子带分配的比特数;
第二编码步骤,使用分配的比特对所述输入信号的低于规定频率的低频部分的频谱进行编码,生成第二编码数据;
第三编码步骤,对所述输入信号频谱的高于规定频率的高频部分的频谱进行编码,生成第三编码数据;
判定步骤,分析所述输入信号频谱的高于规定频率的高频部分的频谱的编码所消费的比特数而得到判定信息;以及
切换步骤,根据所述判定信息,对每帧切换所述输入信号频谱的编码是仅由所述第一编码步骤进行,还是组合所述第二编码步骤和所述第三编码步骤进行。
21.解码方法,包括如下步骤:
第一解码步骤,将在编码装置中对作为语音信号或/及音乐信号的输入信号的规定频率以下的低频部分进行编码生成的第一编码数据作为输入并进行解码,生成第一频谱;
归一化步骤,对所述第一频谱进行归一化,生成归一化频谱;以及
第二解码步骤,将所述归一化频谱以及由所述编码装置生成的第二编码数据作为输入并进行解码,生成第二频谱,
所述第二编码数据包含:
表示在编码侧第一频谱和编码侧第二频谱之间相关值为最大的特定的频带的信息,所述编码侧第一频谱是所述编码装置中的所述输入信号的高于所述规定频率的高频部分的频谱,所述编码侧第二频谱是在所述编码装置中对通过解码所述第一编码数据而生成的频谱进行归一化得到的频谱,以及
表示在编码侧第三频谱和所述编码侧第一频谱之间计算出的增益的信息,所述编码侧第三频谱是将所述特定的频带的所述编码侧第二频谱复制到所述高频部分得到的频谱,
所述归一化步骤包括:
最大值搜索步骤,在划分所述低频部分得到的多个子带中,分别搜索所述第一频谱的振幅的最大值;以及
振幅归一化步骤,对各子带中包含的所述第一频谱,使用各子带的所述振幅的最大值分别进行归一化,得到所述归一化频谱。
22.解码方法,包括如下步骤:
第一解码步骤,将在编码装置中对作为语音信号或/及音乐信号的输入信号进行编码生成的第一编码数据作为输入并进行解码,生成第一频谱;
第二解码步骤,将在编码装置中对所述输入信号的低于规定频率的低频部分进行编码生成的第二编码数据作为输入并进行解码,生成第二频谱;
第三解码步骤,将在编码装置中对所述输入信号的规定频率以上的高频部分进行编码生成的第三编码数据作为输入并进行解码,生成第三频谱;以及
切换步骤,使用从编码装置发送的模式判定信息,切换编码数据的解码是仅由所述第一解码步骤进行,还是组合所述第二解码步骤和所述第三解码步骤进行。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201611125260.7A CN106847295B (zh) | 2011-09-09 | 2012-08-24 | 编码装置和编码方法 |
Applications Claiming Priority (9)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2011197295 | 2011-09-09 | ||
JP2011-197295 | 2011-09-09 | ||
JP2011-279623 | 2011-12-21 | ||
JP2011279623 | 2011-12-21 | ||
JP2012-019004 | 2012-01-31 | ||
JP2012019004 | 2012-01-31 | ||
JP2012079682 | 2012-03-30 | ||
JP2012-079682 | 2012-03-30 | ||
PCT/JP2012/005312 WO2013035257A1 (ja) | 2011-09-09 | 2012-08-24 | 符号化装置、復号装置、符号化方法および復号方法 |
Related Child Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201611125260.7A Division CN106847295B (zh) | 2011-09-09 | 2012-08-24 | 编码装置和编码方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN103718240A true CN103718240A (zh) | 2014-04-09 |
CN103718240B CN103718240B (zh) | 2017-02-15 |
Family
ID=47831734
Family Applications (2)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201611125260.7A Active CN106847295B (zh) | 2011-09-09 | 2012-08-24 | 编码装置和编码方法 |
CN201280036790.8A Active CN103718240B (zh) | 2011-09-09 | 2012-08-24 | 编码装置、解码装置、编码方法和解码方法 |
Family Applications Before (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201611125260.7A Active CN106847295B (zh) | 2011-09-09 | 2012-08-24 | 编码装置和编码方法 |
Country Status (4)
Country | Link |
---|---|
US (5) | US9384749B2 (zh) |
JP (4) | JP6010539B2 (zh) |
CN (2) | CN106847295B (zh) |
WO (1) | WO2013035257A1 (zh) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105513601A (zh) * | 2016-01-27 | 2016-04-20 | 武汉大学 | 一种音频编码带宽扩展中频带复制的方法及装置 |
CN106663449A (zh) * | 2014-08-06 | 2017-05-10 | 索尼公司 | 编码装置和方法、解码装置和方法以及程序 |
CN107343201A (zh) * | 2017-06-21 | 2017-11-10 | 珠海市杰理科技股份有限公司 | Cabac编码方法和系统 |
Families Citing this family (23)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP6010539B2 (ja) | 2011-09-09 | 2016-10-19 | パナソニック インテレクチュアル プロパティ コーポレーション オブ アメリカPanasonic Intellectual Property Corporation of America | 符号化装置、復号装置、符号化方法および復号方法 |
KR101816506B1 (ko) * | 2012-02-23 | 2018-01-09 | 돌비 인터네셔널 에이비 | 고 주파수 오디오 콘텐트의 효율적인 복구를 위한 방법들 및 시스템들 |
CN105408957B (zh) * | 2013-06-11 | 2020-02-21 | 弗朗霍弗应用研究促进协会 | 进行语音信号的频带扩展的装置及方法 |
EP2830061A1 (en) | 2013-07-22 | 2015-01-28 | Fraunhofer Gesellschaft zur Förderung der angewandten Forschung e.V. | Apparatus and method for encoding and decoding an encoded audio signal using temporal noise/patch shaping |
US9666202B2 (en) * | 2013-09-10 | 2017-05-30 | Huawei Technologies Co., Ltd. | Adaptive bandwidth extension and apparatus for the same |
CN105745703B (zh) * | 2013-09-16 | 2019-12-10 | 三星电子株式会社 | 信号编码方法和装置以及信号解码方法和装置 |
EP3040987B1 (en) * | 2013-12-02 | 2019-05-29 | Huawei Technologies Co., Ltd. | Encoding method and apparatus |
MX361028B (es) * | 2014-02-28 | 2018-11-26 | Fraunhofer Ges Forschung | Dispositivo de decodificación, dispositivo de codificación, método de decodificación, método de codificación, dispositivo de terminal y dispositivo de estación de base. |
CN111312277B (zh) | 2014-03-03 | 2023-08-15 | 三星电子株式会社 | 用于带宽扩展的高频解码的方法及设备 |
EP3117432B1 (en) * | 2014-03-14 | 2019-05-08 | Telefonaktiebolaget LM Ericsson (publ) | Audio coding method and apparatus |
CN106409300B (zh) * | 2014-03-19 | 2019-12-24 | 华为技术有限公司 | 用于信号处理的方法和装置 |
EP3913628A1 (en) * | 2014-03-24 | 2021-11-24 | Samsung Electronics Co., Ltd. | High-band encoding method |
RU2689181C2 (ru) * | 2014-03-31 | 2019-05-24 | Фраунхофер-Гезелльшафт Цур Фердерунг Дер Ангевандтен Форшунг Е.Ф. | Кодер, декодер, способ кодирования, способ декодирования и программа |
CN107077855B (zh) | 2014-07-28 | 2020-09-22 | 三星电子株式会社 | 信号编码方法和装置以及信号解码方法和装置 |
US9763209B2 (en) * | 2014-09-26 | 2017-09-12 | Xg Technology, Inc. | Interference-tolerant multi-band synchronizer |
WO2016167216A1 (ja) * | 2015-04-13 | 2016-10-20 | 日本電信電話株式会社 | マッチング装置、判定装置、これらの方法、プログラム及び記録媒体 |
JP6763194B2 (ja) * | 2016-05-10 | 2020-09-30 | 株式会社Jvcケンウッド | 符号化装置、復号装置、通信システム |
US10825467B2 (en) * | 2017-04-21 | 2020-11-03 | Qualcomm Incorporated | Non-harmonic speech detection and bandwidth extension in a multi-source environment |
US10331400B1 (en) * | 2018-02-22 | 2019-06-25 | Cirrus Logic, Inc. | Methods and apparatus for soft clipping |
CN109388156B (zh) * | 2018-11-26 | 2021-07-09 | 中国航空工业集团公司洛阳电光设备研究所 | 一种通过象区码的增量式编码器的寻零方法 |
CN109525250B (zh) * | 2018-11-27 | 2023-01-17 | 湖南国科微电子股份有限公司 | 一种llr归一化实现方法、装置及电子设备 |
WO2020253941A1 (en) * | 2019-06-17 | 2020-12-24 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Audio encoder with a signal-dependent number and precision control, audio decoder, and related methods and computer programs |
US20220277754A1 (en) * | 2019-08-20 | 2022-09-01 | Dolby International Ab | Multi-lag format for audio coding |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1691710A (zh) * | 2004-04-30 | 2005-11-02 | 华为技术有限公司 | 端到端语音质量自动测试系统及其方法 |
CN1950686A (zh) * | 2004-05-14 | 2007-04-18 | 松下电器产业株式会社 | 编码装置、解码装置以及编码/解码方法 |
CN101048814A (zh) * | 2004-11-05 | 2007-10-03 | 松下电器产业株式会社 | 编码装置、解码装置、编码方法及解码方法 |
WO2007129423A1 (ja) * | 2006-05-09 | 2007-11-15 | Nippon Telegraph And Telephone Corporation | 映像品質推定装置、方法、およびプログラム |
CN101297356A (zh) * | 2005-11-04 | 2008-10-29 | 诺基亚公司 | 音频压缩 |
WO2010021804A1 (en) * | 2008-08-21 | 2010-02-25 | Motorola, Inc. | Method and apparatus to facilitate determining signal bounding frequencies |
Family Cites Families (31)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
EP0427953B1 (en) * | 1989-10-06 | 1996-01-17 | Matsushita Electric Industrial Co., Ltd. | Apparatus and method for speech rate modification |
JP3246715B2 (ja) * | 1996-07-01 | 2002-01-15 | 松下電器産業株式会社 | オーディオ信号圧縮方法,およびオーディオ信号圧縮装置 |
JP3255047B2 (ja) * | 1996-11-19 | 2002-02-12 | ソニー株式会社 | 符号化装置および方法 |
GB9811019D0 (en) * | 1998-05-21 | 1998-07-22 | Univ Surrey | Speech coders |
JP4639441B2 (ja) * | 1999-09-01 | 2011-02-23 | ソニー株式会社 | ディジタル信号処理装置および処理方法、並びにディジタル信号記録装置および記録方法 |
JP4645869B2 (ja) * | 2000-08-02 | 2011-03-09 | ソニー株式会社 | ディジタル信号処理方法、学習方法及びそれらの装置並びにプログラム格納媒体 |
JP2002314429A (ja) * | 2001-04-12 | 2002-10-25 | Sony Corp | 信号処理装置および信号処理方法 |
JP3923783B2 (ja) * | 2001-11-02 | 2007-06-06 | 松下電器産業株式会社 | 符号化装置及び復号化装置 |
JP4272897B2 (ja) * | 2002-01-30 | 2009-06-03 | パナソニック株式会社 | 符号化装置、復号化装置およびその方法 |
US20040002856A1 (en) * | 2002-03-08 | 2004-01-01 | Udaya Bhaskar | Multi-rate frequency domain interpolative speech CODEC system |
JP4296753B2 (ja) * | 2002-05-20 | 2009-07-15 | ソニー株式会社 | 音響信号符号化方法及び装置、音響信号復号方法及び装置、並びにプログラム及び記録媒体 |
KR100463417B1 (ko) * | 2002-10-10 | 2004-12-23 | 한국전자통신연구원 | 상관함수의 최대값과 그의 후보값의 비를 이용한 피치검출 방법 및 그 장치 |
KR100524065B1 (ko) | 2002-12-23 | 2005-10-26 | 삼성전자주식회사 | 시간-주파수 상관성을 이용한 개선된 오디오 부호화및/또는 복호화 방법과 그 장치 |
JP2004362747A (ja) * | 2003-05-12 | 2004-12-24 | Canon Inc | 信号処理装置 |
JP4091506B2 (ja) * | 2003-09-02 | 2008-05-28 | 日本電信電話株式会社 | 2段音声画像符号化方法、その装置及びプログラム及びこのプログラムを記録した記録媒体 |
US7844451B2 (en) | 2003-09-16 | 2010-11-30 | Panasonic Corporation | Spectrum coding/decoding apparatus and method for reducing distortion of two band spectrums |
DE602004032587D1 (de) | 2003-09-16 | 2011-06-16 | Panasonic Corp | Codierungsvorrichtung und Decodierungsvorrichtung |
US7949057B2 (en) * | 2003-10-23 | 2011-05-24 | Panasonic Corporation | Spectrum coding apparatus, spectrum decoding apparatus, acoustic signal transmission apparatus, acoustic signal reception apparatus and methods thereof |
US7707034B2 (en) * | 2005-05-31 | 2010-04-27 | Microsoft Corporation | Audio codec post-filter |
WO2007043648A1 (ja) * | 2005-10-14 | 2007-04-19 | Matsushita Electric Industrial Co., Ltd. | 変換符号化装置および変換符号化方法 |
JP5058152B2 (ja) * | 2006-03-10 | 2012-10-24 | パナソニック株式会社 | 符号化装置および符号化方法 |
CN101140759B (zh) * | 2006-09-08 | 2010-05-12 | 华为技术有限公司 | 语音或音频信号的带宽扩展方法及系统 |
US8005671B2 (en) * | 2006-12-04 | 2011-08-23 | Qualcomm Incorporated | Systems and methods for dynamic normalization to reduce loss in precision for low-level signals |
JP5339919B2 (ja) | 2006-12-15 | 2013-11-13 | パナソニック株式会社 | 符号化装置、復号装置およびこれらの方法 |
JP4708446B2 (ja) * | 2007-03-02 | 2011-06-22 | パナソニック株式会社 | 符号化装置、復号装置およびそれらの方法 |
EP2191467B1 (en) * | 2007-09-12 | 2011-06-22 | Dolby Laboratories Licensing Corporation | Speech enhancement |
KR100922897B1 (ko) * | 2007-12-11 | 2009-10-20 | 한국전자통신연구원 | Mdct 영역에서 음질 향상을 위한 후처리 필터장치 및필터방법 |
CN101471072B (zh) * | 2007-12-27 | 2012-01-25 | 华为技术有限公司 | 高频重建方法、编码装置和解码装置 |
CN102223337B (zh) * | 2010-04-16 | 2014-04-16 | 华为技术有限公司 | 基准对消信号生成方法和装置 |
JP6010539B2 (ja) | 2011-09-09 | 2016-10-19 | パナソニック インテレクチュアル プロパティ コーポレーション オブ アメリカPanasonic Intellectual Property Corporation of America | 符号化装置、復号装置、符号化方法および復号方法 |
EP2772912B1 (en) | 2011-10-28 | 2016-08-10 | Panasonic Intellectual Property Corporation of America | Audio encoding apparatus, audio decoding apparatus, audio encoding method, and audio decoding method |
-
2012
- 2012-08-24 JP JP2013532417A patent/JP6010539B2/ja active Active
- 2012-08-24 CN CN201611125260.7A patent/CN106847295B/zh active Active
- 2012-08-24 US US14/238,041 patent/US9384749B2/en active Active
- 2012-08-24 CN CN201280036790.8A patent/CN103718240B/zh active Active
- 2012-08-24 WO PCT/JP2012/005312 patent/WO2013035257A1/ja active Application Filing
-
2016
- 2016-05-31 US US15/168,805 patent/US9741356B2/en active Active
- 2016-09-15 JP JP2016180548A patent/JP6371812B2/ja active Active
-
2017
- 2017-07-11 US US15/646,645 patent/US9886964B2/en active Active
- 2017-12-15 US US15/843,842 patent/US10269367B2/en active Active
-
2018
- 2018-07-12 JP JP2018132263A patent/JP6570151B2/ja active Active
-
2019
- 2019-03-01 US US16/290,321 patent/US10629218B2/en active Active
- 2019-08-01 JP JP2019142250A patent/JP6823121B2/ja active Active
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1691710A (zh) * | 2004-04-30 | 2005-11-02 | 华为技术有限公司 | 端到端语音质量自动测试系统及其方法 |
CN1950686A (zh) * | 2004-05-14 | 2007-04-18 | 松下电器产业株式会社 | 编码装置、解码装置以及编码/解码方法 |
CN101048814A (zh) * | 2004-11-05 | 2007-10-03 | 松下电器产业株式会社 | 编码装置、解码装置、编码方法及解码方法 |
CN101297356A (zh) * | 2005-11-04 | 2008-10-29 | 诺基亚公司 | 音频压缩 |
WO2007129423A1 (ja) * | 2006-05-09 | 2007-11-15 | Nippon Telegraph And Telephone Corporation | 映像品質推定装置、方法、およびプログラム |
WO2010021804A1 (en) * | 2008-08-21 | 2010-02-25 | Motorola, Inc. | Method and apparatus to facilitate determining signal bounding frequencies |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106663449A (zh) * | 2014-08-06 | 2017-05-10 | 索尼公司 | 编码装置和方法、解码装置和方法以及程序 |
CN105513601A (zh) * | 2016-01-27 | 2016-04-20 | 武汉大学 | 一种音频编码带宽扩展中频带复制的方法及装置 |
CN107343201A (zh) * | 2017-06-21 | 2017-11-10 | 珠海市杰理科技股份有限公司 | Cabac编码方法和系统 |
CN107343201B (zh) * | 2017-06-21 | 2019-11-26 | 珠海市杰理科技股份有限公司 | Cabac编码方法和系统 |
Also Published As
Publication number | Publication date |
---|---|
JP2019204118A (ja) | 2019-11-28 |
CN103718240B (zh) | 2017-02-15 |
US20190198035A1 (en) | 2019-06-27 |
JP6823121B2 (ja) | 2021-01-27 |
JP6371812B2 (ja) | 2018-08-08 |
JP2017027069A (ja) | 2017-02-02 |
US20160293178A1 (en) | 2016-10-06 |
US20170337931A1 (en) | 2017-11-23 |
US9741356B2 (en) | 2017-08-22 |
US10629218B2 (en) | 2020-04-21 |
US20180158466A1 (en) | 2018-06-07 |
WO2013035257A1 (ja) | 2013-03-14 |
JP6010539B2 (ja) | 2016-10-19 |
CN106847295B (zh) | 2021-03-23 |
US10269367B2 (en) | 2019-04-23 |
US9886964B2 (en) | 2018-02-06 |
JP2018180554A (ja) | 2018-11-15 |
US9384749B2 (en) | 2016-07-05 |
JP6570151B2 (ja) | 2019-09-04 |
US20140200901A1 (en) | 2014-07-17 |
CN106847295A (zh) | 2017-06-13 |
JPWO2013035257A1 (ja) | 2015-03-23 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN103718240A (zh) | 编码装置、解码装置、编码方法和解码方法 | |
US8639500B2 (en) | Method, medium, and apparatus with bandwidth extension encoding and/or decoding | |
CN102334159B (zh) | 编码装置、解码装置及其方法 | |
CN103026408B (zh) | 音频信号产生装置 | |
CN103155033B (zh) | 高频重建期间的音频信号处理 | |
RU2752127C2 (ru) | Усовершенствованный квантователь | |
KR101376098B1 (ko) | 대역폭 확장 복호화 방법 및 장치 | |
KR20110095354A (ko) | 오디오 인코더 및 대역폭 확장 디코더 | |
MX2014000161A (es) | Aparato y metodo para generar señal extendida de ancho de banda. | |
CN105122357A (zh) | 频域中基于cpl进行编码的低频增强 | |
US10607617B2 (en) | Encoding apparatus and encoding method | |
CA3118121A1 (en) | Perceptual audio coding with adaptive non-uniform time/frequency tiling using subband merging and time domain aliasing reduction | |
WO2024017800A1 (en) | Neural network based signal processing |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
ASS | Succession or assignment of patent right |
Owner name: MATSUSHITA ELECTRIC (AMERICA) INTELLECTUAL PROPERT Free format text: FORMER OWNER: MATSUSHITA ELECTRIC INDUSTRIAL CO, LTD. Effective date: 20140721 |
|
C41 | Transfer of patent application or patent right or utility model | ||
TA01 | Transfer of patent application right |
Effective date of registration: 20140721 Address after: California, USA Applicant after: PANASONIC INTELLECTUAL PROPERTY CORPORATION OF AMERICA Address before: Osaka Japan Applicant before: Matsushita Electric Industrial Co.,Ltd. |
|
C14 | Grant of patent or utility model | ||
GR01 | Patent grant |