CN106128473A - 用于产生带宽扩展信号的设备和方法 - Google Patents
用于产生带宽扩展信号的设备和方法 Download PDFInfo
- Publication number
- CN106128473A CN106128473A CN201610801479.8A CN201610801479A CN106128473A CN 106128473 A CN106128473 A CN 106128473A CN 201610801479 A CN201610801479 A CN 201610801479A CN 106128473 A CN106128473 A CN 106128473A
- Authority
- CN
- China
- Prior art keywords
- unit
- coding
- frequency
- signal
- decoding
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 73
- 238000001228 spectrum Methods 0.000 claims abstract description 126
- 238000012545 processing Methods 0.000 claims abstract description 26
- 230000008569 process Effects 0.000 claims abstract description 22
- 230000005284 excitation Effects 0.000 claims description 34
- 230000003595 spectral effect Effects 0.000 claims description 5
- 238000005086 pumping Methods 0.000 description 33
- 238000010586 diagram Methods 0.000 description 28
- 238000013139 quantization Methods 0.000 description 25
- 239000013598 vector Substances 0.000 description 25
- 238000005070 sampling Methods 0.000 description 14
- 230000003044 adaptive effect Effects 0.000 description 13
- 230000007704 transition Effects 0.000 description 13
- 230000009466 transformation Effects 0.000 description 9
- 238000012952 Resampling Methods 0.000 description 8
- 230000008859 change Effects 0.000 description 6
- 238000006243 chemical reaction Methods 0.000 description 6
- 238000001914 filtration Methods 0.000 description 6
- 230000007274 generation of a signal involved in cell-cell signaling Effects 0.000 description 6
- 238000004891 communication Methods 0.000 description 4
- 238000004519 manufacturing process Methods 0.000 description 4
- 239000002184 metal Substances 0.000 description 4
- 230000008054 signal transmission Effects 0.000 description 4
- 230000005236 sound signal Effects 0.000 description 4
- 230000005540 biological transmission Effects 0.000 description 3
- 238000000605 extraction Methods 0.000 description 3
- 238000005429 filling process Methods 0.000 description 3
- 230000006870 function Effects 0.000 description 3
- 238000011084 recovery Methods 0.000 description 3
- 206010068319 Oropharyngeal pain Diseases 0.000 description 2
- 201000007100 Pharyngitis Diseases 0.000 description 2
- 238000013459 approach Methods 0.000 description 2
- 238000010276 construction Methods 0.000 description 2
- 230000000873 masking effect Effects 0.000 description 2
- 230000011664 signaling Effects 0.000 description 2
- 230000006978 adaptation Effects 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000008901 benefit Effects 0.000 description 1
- 230000015572 biosynthetic process Effects 0.000 description 1
- 238000004422 calculation algorithm Methods 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 238000004590 computer program Methods 0.000 description 1
- 238000009826 distribution Methods 0.000 description 1
- 235000013399 edible fruits Nutrition 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000008439 repair process Effects 0.000 description 1
- 230000010076 replication Effects 0.000 description 1
- 230000003362 replicative effect Effects 0.000 description 1
- 238000003860 storage Methods 0.000 description 1
- 238000003786 synthesis reaction Methods 0.000 description 1
- 230000002123 temporal effect Effects 0.000 description 1
- 238000012360 testing method Methods 0.000 description 1
- 230000001131 transforming effect Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/038—Speech enhancement, e.g. noise reduction or echo cancellation using band spreading techniques
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/02—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
- G10L19/032—Quantisation or dequantisation of spectral components
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/04—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
- G10L19/08—Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters
- G10L19/12—Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters the excitation function being a code excitation, e.g. in code excited linear prediction [CELP] vocoders
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Health & Medical Sciences (AREA)
- Signal Processing (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Computational Linguistics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Spectroscopy & Molecular Physics (AREA)
- Quality & Reliability (AREA)
- Compression, Expansion, Code Conversion, And Decoders (AREA)
- Mobile Radio Communication Systems (AREA)
- Error Detection And Correction (AREA)
- Radar Systems Or Details Thereof (AREA)
Abstract
一种用于产生带宽扩展信号的设备和方法,所述设备包括:抗稀疏处理单元,对低频频谱执行抗稀疏处理;频域高频扩展解码单元,在频域中对执行了抗稀疏处理的低频频谱执行高频扩展解码。
Description
本申请是申请日为2012年07月02日,申请号为“201280042439.X”,标题为“用于产生带宽扩展信号的设备和方法”的发明专利申请的分案申请。
技术领域
与示例性实施例一致的设备和方法涉及音频编码和解码,更具体地讲,涉及一种用于产生带宽扩展信号的设备和方法,所述设备和方法能够减少高频带的带宽扩展信号的金属般(metal-like)噪声,还涉及一种用于编码音频信号的设备和方法,一种用于解码音频信号的设备和方法,以及应用这些设备和方法的终端。
背景技术
相比于与低频带相应的信号,与高频带相应的信号对频率的细微结构不敏感。因此,为了在音频信号被编码时提高编码效率以应付允许比特的限制,通过分配相对大的比特数来编码与低频带相应的信号,并通过分配相对小的比特数来编码与高频带相应的信号。
上述方法被用在频带复制(SBR)中。在SBR中,频谱的较低频带(例如,低频带或核心频带)被编码,较高频带(例如,高频带)通过使用参数(例如,包络)被编码。SBR使用较低频带和较高频带之间的相关性,使得较低频带的特性被提取来预测较高频带。
在SBR中,需要用于产生高频带的带宽扩展信号的改进方法。
发明内容
技术问题
一个或更多个示例性实施例的多方面提供一种用于产生带宽扩展信号的设备和方法,所述设备和方法能够减少用于高频带的带宽扩展信号的金属般噪声,还提供一种用于编码音频信号的设备和方法,一种用于解码音频信号的设备和方法以及一种使用这些设备和方法的终端。
技术方案
根据一个或更多个示例性实施例的一方面,提供一种产生带宽扩展信号的方法,所述方法包括:对低频频谱执行抗稀疏(anti-sparseness)处理;对执行了抗稀疏处理的低频频谱执行频域中的高频扩展编码。
根据一个或更多个示例性实施例的另一方面,提供一种用于产生带宽扩展信号的设备,所述设备包括:抗稀疏处理单元,对低频频谱执行抗稀疏处理;频域高频扩展解码单元,对执行了抗稀疏处理的低频频谱执行频域中的高频扩展解码。
有益效果
可通过对用于高频带的扩展的信号执行抗稀疏处理来减少由音调分量的加重所引起的金属噪声,其中,抗稀疏处理使得在高频扩展信号中产生的频谱空洞的减少。
附图说明
图1示出根据示例性实施例的音频编码设备的框图;
图2示出在图1中示出的频域(FD)编码单元的示例的框图;
图3示出在图1中示出的FD编码单元的另一示例的框图;
图4示出根据示例性实施例的抗稀疏处理单元的框图;
图5示出根据示例性实施例的FD高频扩展编码单元的框图;
图6A和图6B是示出由图1中示出的FD编码模块执行扩展编码的区域的曲线图;
图7示出根据另一示例性实施例的音频编码设备的框图;
图8示出根据另一示例性实施例的音频编码设备的框图;
图9示出根据示例性实施例的音频解码设备的框图;
图10示出在图9中示出的FD解码单元的示例的框图;
图11示出在图10中示出的FD高频扩展解码单元的示例的框图;
图12示出根据另一示例性实施例的音频解码设备的框图;
图13示出根据另一示例性实施例的音频解码设备的框图;
图14示出用于描述根据示例性实施例的码本共享方法的示图;
图15示出用于描述根据示例性实施例的编码模式信号发送方法的示图。
具体实施方式
虽然本发明构思的示例性实施例容易得到各种修改和替换形式,但是本发明构思的特定实施例以示例的方式在附图中示出并在此将被详细地描述。然而,应理解,不意图将示例性实施例限制为公开的特定形式,相反,示例性实施例将覆盖落在本发明构思的精神和范围内的所有修改、等同物和代替方案。在本发明构思的以下描述中,当这里合并的公知功能和构造的详细描述会使本发明构思的主题不清楚时,在此将省略该公知功能和构造的详细描述。
将理解,虽然术语“第一”、“第二”等可在此用于描述各种元件,但是这些元件不应受这些术语限制。这些术语应仅用于区分一个元件与另一个元件。
这里使用的术语的目的在于描述具体实施例,并不意图限制本发明构思。虽然考虑到本发明构思的功能,尽可能使用一般术语,但是所述术语的含义可根据本领域普通技术人员的意图、先例或新技术的出现而变化。此外,在具体情况下,术语可由申请人任意地选择,在此情况下,将在本发明构思的详细描述中详细地描述它们的含义。因此,应基于本说明书的整体描述来理解术语的定义。
如这里所使用的,除非上下文另有清晰指示,否则单数形式还意图包括复数形式。将进一步理解的是,当在本发明书中使用术语“包括”和/或“包含”时,其指定所述特征、整数、步骤、操作、元件和/或组件的存在,但不排除存在或添加一个或更多个其他特征、整数、步骤、操作、元件、组件和/或它们的组。
在下文中,将通过参照附图解释本发明构思的实施例来详细描述本发明构思。在附图中,为了解释清楚,相同附图标号表示相同元件,并可夸大元件的尺寸或厚度。
图1是根据示例性实施例的音频编码设备100的框图。图1中示出的音频编码设备100可形成多媒体装置,并且可以是但不限于语音通信装置(诸如电话或移动电话)、广播或音乐装置(诸如TV或MP3播放器)或语音通信装置和广播或音乐装置的组合装置。此外,音频编码设备100可被用作包括在客户端装置或服务器中的或布置在客户端装置和服务器之间的变换器(converter)。
图1中示出的音频编码设备100可包括编码模式确定单元110、切换单元130、码激励线性预测(CELP)编码模块150和频域(FD)编码模块170。CELP编码模块150可包括CELP编码单元151和时域(TD)扩展编码单元153,并且FD编码模块170可包括变换单元171和FD编码单元173。以上元件可被集成在至少一个模块中,并可由至少一个处理器(未示出)来实现。
参照图1,编码模式确定单元110可针对信号特性来确定输入信号的编码模式。根据信号特性,编码模式确定单元110可确定当前帧是处于语音模式还是音乐模式,并还可确定对当前帧有效的编码模式是TD模式还是FD模式。在此情况下,可通过使用但不限于帧的短期特性或多个帧的长期特性来获得信号特性。如果信号特性与语音模式或TD模式相应,则编码模式确定单元110可确定CELP模式,如果信号特性与音乐模式或FD模式相应,则编码模式确定单元110可确定FD模式。
根据实施例,编码模式确定单元110的输入信号可以是由下采样单元(未示出)下采样的信号。例如,所述输入信号可以是通过对具有32kHz或48kKz的采样率的信号进行重采样或下采样而获得的具有12.8kHz或16kHz的采样率的信号。这里,具有32kHz的采样率的信号是超宽带(SWB)信号,并可被称为全频带(FB)信号,具有16kHz的采样率的信号可被称为宽带(WB)信号。
根据另一实施例,编码模式确定单元110可执行重采样或下采样操作。
因此,编码模式确定单元110可确定重采样或下采样的信号的编码模式。
关于由编码模式确定单元110确定的编码模式的信息可被提供给切换单元130,并可以以帧为单位被包括在比特流中,以便被存储或发送。
根据从编码模式确定单元110提供的关于编码模式的信息,切换单元130可将输入信号提供给CELP编码模块150或FD编码模块170。这里,所述输入信号可以是重采样或下采样的信号,并且可以是具有12.8kHz或16kHz的采样率的低频信号。具体地,如果编码模式是CELP模式,则切换单元130将输入信号提供给CELP编码模块150,如果编码模式是FD模式,则切换单元130将输入信号提供给FD编码模块170。
如果编码模式是CELP模式,则CELP编码模块150可进行操作,并且CELP编码单元151可对输入信号执行CELP编码。根据实施例,CELP编码单元151可从重采样或下采样的信号提取激励信号,并可考虑与音高(pitch)信息相应的滤波自适应码矢量(即,自适应码本贡献)和滤波固定码矢量(即,固定或创新码本贡献)中的每个来量化所提取的激励信号。根据另一实施例,CELP编码单元151可提取线性预测系数(LPC),可量化所提取的LPC,可通过使用量化的LPC来提取激励信号,并可考虑与音高信息相应的滤波自适应码矢量(即,自适应码本贡献)和滤波固定码矢量(即,固定或创新码本贡献)中的每个来量化所提取的激励信号。
同时,CELP编码单元151可根据信号特性应用不同的编码模式。应用的编码模式可包括但不限于浊音编码模式、清音编码模式、过渡编码模式和通用编码模式。
通过CELP编码单元151的编码而获得的低频激励信号(即,CELP信息),可被提供给TD扩展编码单元153,并可被包括在比特流中,以便被存储或发送。
在CELP编码模块150中,TD扩展编码单元153可通过折叠或复制从CELP编码单元151提供的低频激励信号来执行高频扩展编码。通过TD扩展编码单元153的扩展编码而获得的高频扩展信息可被包括在比特流中,以便被存储或发送。TD扩展编码单元153量化与输入信号的高频带相应的LPC。在此情况下,TD扩展编码单元153可提取输入信号的高频带的LPC,并可量化所提取的LPC。此外,TD扩展编码单元153可通过使用输入信号的低频激励信号来产生输入信号的高频带的LPC。这里,高频带的LPC可被用来表示高频带的包络信息。
同时,如果编码模式是FD模式,则FD编码模块170可进行操作,并且变换单元171可将重采样或下采样的信号从时域变换到频域。在此情况下,变换单元171可执行但不限于修正离散余弦变换(MDCT)。在FD编码模块170中,FD编码单元173可对从变换单元171提供的重采样或下采样的频谱执行FD编码。可通过使用但不限于应用于先进音频编解码器(AAC)的算法来执行FD编码。通过FD编码单元173的FD编码而获得的FD信息可被包括在比特流中,以便被存储或发送。同时,如果相邻帧的编码模式从CELP模式被改变成FD模式,则还可将预测数据包括在由于FD编码单元173的FD编码而获得的比特流中。具体地,由于如果对第N帧执行基于CELP模式的编码,并对第(N+1)帧执行基于FD模式的编码,则通过仅使用基于FD模式的编码的结果不能解码第(N+1)帧,因此需要另外地包括将在解码处理中被参考的预测数据。
在图1中示出的音频解码设备100中,可根据由编码模式确定单元110确定的编码模式产生两种类型的比特流。这里,比特流可包括头和净荷。
具体地,如果编码模式是CELP模式,则关于编码模式的信息可被包括在头中,CELP信息和TD扩展信息可被包括在净荷中。另外,如果编码模式是FD模式,则关于编码模式的信息可被包括在头中,并且FD信息和预测数据可被包括在净荷中。这里,FD信息可包括FD高频扩展信息。
同时,为了对当发生帧错误时的情况作准备,每个比特流的头还可包括关于先前帧的编码模式的信息。例如,如果当前帧的编码模式被确定为FD模式,则比特流的头还可包括关于先前帧的编码模式的信息。
可根据信号特性将图1中示出的音频编码设备100切换到CELP模式或FD模式,从而音频编码设备100可针对信号特性有效地执行自适应编码。同时,可将图1中示出的切换结构应用于高比特率环境。
图2是图1中示出的FD编码单元173的示例的框图。
参照图2,FD编码单元200可包括范数编码单元210、阶乘脉冲编码(FPC)编码单元230、FD低频扩展编码单元240、噪声信息产生单元250、抗稀疏处理单元270和FD高频扩展编码单元290。
范数编码单元210估算或计算从图1中示出的变换单元171提供的频谱的每个频带(即,每个子频带)的范数值,并对估算或计算的范数值进行量化。这里,范数值可以是指以子频带为单位计算的频谱能量的平均值,并且还可被称为功率。范数值可被用来以子频带为单位对频谱进行归一化。此外,针对根据目标比特率的总比特数,范数编码单元210可通过使用每个子频带的范数值来计算掩蔽阈值,并可通过使用掩蔽阈值来确定将被分配来对每个子频带执行感知编码(perceptual encoding)的比特数。这里,可以以整数或小数为单位来确定比特数。由范数编码单元210量化的范数值可被提供给FPC编码单元230,并可被包括在比特流中,以便被存储或发送。
FPC编码单元230可通过使用被分配给每个子频带的比特数来对归一化的频谱进行量化,并可对量化的结果执行FPC编码。由于FPC编码,可在被分配的比特数的范围内以阶乘的形式来表示诸如脉冲的位置、幅度和符号的信息。由FPC编码单元230获得的FPC信息可被包括在比特流中,以便被存储或发送。
噪声信息产生单元250可根据FPC编码的结果以子频带为单位产生噪声信息(即,噪声等级(level))。具体地,由于缺少比特,由FPC编码单元230编码的频谱可具有以子频带为单位的未编码部分(即,空洞(hole))。根据实施例,可通过使用未编码的频谱系数的等级的平均值来产生噪声等级。由噪声信息产生单元250产生的噪声等级可被包括在比特流中,以便被存储或发送。此外,以帧为单位来产生噪声等级。
抗稀疏处理单元270确定将被添加到重建的低频频谱的噪声的位置和幅度。抗稀疏处理单元270根据确定的噪声的位置和幅度对已经通过使用噪声等级执行了噪声填充的频谱执行抗稀疏处理,并将产生的频谱提供给FD高频扩展编码单元290。根据实施例,重建的低频频谱可以是指通过从FPC解码的结果扩展低频带、执行噪声填充并然后执行抗稀疏处理而获得的频谱。
FD高频扩展编码单元290可通过使用从抗稀疏处理单元270提供的低频频谱来执行高频扩展编码。在这种情况下,还可将原始高频频谱提供给FD高频扩展编码单元290。根据实施例,FD高频扩展编码单元290可通过折叠或复制低频频谱来获得扩展的高频频谱,并针对原始高频频谱以子频带为单位提取能量,调整提取的能量,并对调整后的能量进行量化。
根据实施例,可将能量调整为与针对原始高频频谱以子频带为单位计算的第一音调(tonality)和针对从低频频谱扩展的高频激励信号以子频带为单位计算的第二音调之间的比率相应。可选地,根据另一实施例,可将能量调整为与通过使用第一音调计算的第一噪声因子和通过使用第二音调计算的第二噪声因子之间的比率相应。这里,第一噪声因子和第二噪声因子均表示信号中的噪声分量的量。因此,如果第二音调大于第一音调,或如果第一噪声因子大于第二噪声因子,则可通过减少相应子频带的能量来防止在重建处理中的噪声增加。在相反情况下,可增加相应子频带的能量。
此外,为了通过收集能量信息执行矢量量化,FD高频扩展编码单元290可仿真在预定频带中产生激励信号的方法,并可在根据所述仿真的结果的激励信号的特性不同于预定频带中的原始信号的特性时控制能量。在这种情况下,根据所述仿真的结果的激励信号的特性和原始信号的特性可包括音调和噪声因子中的至少一个,但不限于此。因此,当解码端解码实际能量时,能防止噪声增加。
此外,通过使用但不限于多级矢量量化(MSVQ)方法来量化能量。具体地,FD高频扩展编码单元290可在当前阶段收集预定数量的子频带中的奇数子频带的能量,并对所述预定数量的子频带中的奇数子频带的能量执行矢量量化,可通过使用对奇数子频带执行矢量量化的结果来获得偶数子频带的预测误差,并可在下一阶段对获得的预测误差执行矢量量化。同时,与以上情况相反的情况也是可能的。也就是说,FD高频扩展编码单元290通过使用对第n个子频带和第(n+2)个子频带执行矢量量化的结果来获得第(n+1)个子频带的预测误差。
同时,当对能量执行矢量量化时,可计算根据每个能量矢量或通过从每个能量矢量减去平均值而获得的信号的重要性的权重。在这种情况下,可将根据重要性的权重计算为使合成声音的质量最大化。如果根据重要性的权重被计算,则可通过使用被应用了所述权重的加权均方误差(WMSE)来计算针对能量矢量最佳化的量化索引。
FD高频扩展编码单元290可使用用于根据高频信号的特性产生各种激励信号的多模式带宽扩展方法。多模式带宽扩展方法可提供例如根据高频信号的特性的过渡模式、普通模式、谐波模式或噪声模式。由于FD高频扩展编码单元290针对静止帧进行操作,因此可通过使用根据高频信号的特性的普通模式、谐波模式或噪声模式来产生每个帧的激励信号。
此外,FD高频扩展编码单元290可根据比特率产生不同高频带的信号。也就是说,可根据比特率来不同地设置FD高频扩展编码单元290执行扩展编码的高频带。例如,FD高频扩展编码单元290可按16kbps的比特率对大约6.4至14.4kHz的频带执行扩展编码,并可按大于16kbps的比特率对大约8至16kHz的频带执行扩展编码。
为此,FD高频扩展编码单元290可通过针对不同比特率使用相同码本来执行能量量化。
同时,在FD编码单元200中,如果静止帧被输入,则范数编码单元210、FPC编码单元230、噪声信息产生单元250、抗稀疏处理单元270和FD扩展编码单元290可进行操作。具体地,抗稀疏处理单元270可针对静止帧的普通模式进行操作。同时,如果非静止帧(即,过渡帧)被输入,则噪声信息产生单元250、抗稀疏处理单元270和FD扩展编码单元290不进行操作。在这种情况下,相比于当静止帧被输入时的情况,FPC编码单元230可将被分配来执行FPC的较高频带(即,核心频带Fcore)增加至更高频带Fend。
图3是图1中示出的FD编码单元的另一示例的框图。
参照图3,FD编码单元300可包括范数编码单元310、FPC编码单元330、FD低频扩展编码单元340、抗稀疏处理单元370和FD高频扩展编码单元390。这里,范数编码单元310、FPC编码单元330和FD高频扩展编码单元390的操作基本上与图2中示出的范数编码单元210、FPC编码单元230和FD高频扩展编码单元290的操作相同,因此这里不提供它们的详细描述。
与图2的差别是抗稀疏处理单元370不使用另外的噪声等级,而使用从范数编码单元310以子频带为单位获得的范数值。也就是说,抗稀疏处理单元370确定将被添加在重建的低频频谱中的噪声的位置和幅度,根据确定的噪声的位置和幅度对已通过使用范数值执行了噪声填充的频谱执行抗稀疏处理,并将产生的频谱提供给FD高频扩展编码单元390。具体地,针对包括被反量化为0的部分的子频带,可产生噪声分量,并可通过使用噪声分量的能量和反量化的范数值(即,频谱能量)之间的比率来调整噪声分量的能量。根据另一实施例,针对包括被反量化为0的部分的子频带,可产生噪声分量,并可以以噪声分量的平均能量是1的这种方式来调整噪声分量。
图4是根据示例性实施例的抗稀疏处理单元的框图。
参照图4,抗稀疏处理单元400可包括重建频谱产生单元410、噪声位置确定单元430、噪声幅度确定单元440和噪声添加单元450。
重建频谱产生单元410通过使用从图2或图3中示出的FPC编码单元230或330提供的FPC信息和噪声填充信息(诸如噪声等级或范数值)来产生重建的低频频谱。在这种情况下,如果Fcore和Ffpc不同,则可通过另外地执行FD低频扩展编码来产生重建的低频频谱。
噪声位置确定单元430可将在重建的低频频谱中被恢复成0的频谱确定为噪声的位置。根据另一实施例,考虑到相邻频谱的幅度,可在被恢复成0的频谱中确定将被添加的噪声的位置。例如,如果被恢复成0的频谱的相邻频谱的幅度等于或大于预定值,则可将所述被恢复成0的频谱确定为噪声的位置。这里,可将预定值预先设置为通过仿真或试验而被设置以使被恢复成0的频谱的相邻频谱的信息丢失最小化的最佳值。
噪声幅度确定单元440可确定将被添加到确定的噪声位置的噪声的幅度。根据实施例,可基于噪声等级来确定噪声的幅度。例如,可通过以预定比率改变噪声等级来确定噪声的幅度。具体地,可将噪声的幅度确定为但不限于(0.5×噪声等级)。根据另一实施例,可通过考虑在确定的噪声位置处的相邻频谱的幅度来自适应地改变噪声等级,以确定噪声的幅度。如果相邻频谱的幅度小于将被添加的噪声的幅度,则噪声的幅度可被改变成小于相邻频谱的幅度。
噪声添加单元450可通过使用随机噪声基于确定的噪声的位置和幅度来添加噪声。根据实施例,可应用随机符号。噪声的幅度可具有固定值,值的符号可根据通过使用随机种子而产生的随机信号具有奇数值还是偶数值而被改变。例如,如果随机信号具有偶数值,则可给予+符号,如果随机信号具有奇数值,则可给予-符号。可将由噪声添加单元470添加了噪声的低频频谱提供给图2中示出的FD高频扩展编码单元290。被提供给FD高频扩展编码单元290的低频频谱可指示通过对从FPC解码获得的低频频谱执行噪声填充处理、低频带扩展和抗稀疏处理而获得的核心解码信号。
图5是根据示例性实施例的FD高频扩展编码单元的框图。
参照图5,FD高频扩展编码单元500可包括频谱复制单元510、第一音调计算单元520、第二音调计算单元530、激励信号产生方法确定单元540、能量调整单元550和能量量化单元560。同时,如果编码设备需要重建的高频频谱,则还可包括重建高频频谱产生模块570。重建高频频谱产生模块570可包括高频激励信号产生单元571和高频频谱产生单元573。具体地,如果图1中示出的FD编码单元173使用能够允许通过对先前帧执行重叠相加法来进行恢复的变换方法(例如,MDCT),并且如果CELP模式和FD模式在帧之间被切换,则需要添加重建高频频谱产生模块570。
频谱复制单元510可折叠或复制从图2或图3中示出的抗稀疏处理单元270或370提供的低频频谱,以便将所述低频频谱扩展到高频带。例如,可通过使用0至8kHz的低频频谱来扩展得到8至16kHz的高频带。根据实施例,代替从抗稀疏处理单元270或370提供的低频频谱,可通过折叠或复制原始低频频谱将所述原始低频频谱扩展到高频带。
第一音调计算单元520针对原始高频频谱以预定子频带为单位来计算第一音调。
第二音调计算单元530针对通过由频谱复制单元510使用低频频谱扩展的高频频谱以子频带为单位来计算第二音调。
可基于子频带的频谱的平均幅度和最大幅度之间的比率,通过使用频谱平坦度来计算第一音调和第二音调中的每个。具体地,可通过使用频谱的几何平均值和算术平均值之间的相关性来计算频谱平坦度。也就是说,第一音调和第二音调表示频谱是具有尖峰特性还是具有平坦特性。第一音调计算单元520和第二音调计算单元530可以以相同子频带为单位通过使用相同方法来进行操作。
激励信号产生方法确定单元540可通过比较第一音调和第二音调来确定产生高频激励信号的方法。可通过使用通过修改低频频谱而产生的高频频谱和随机噪声的自适应权重来确定产生高频激励信号的方法。在这种情况下,与自适应权重相应的值可以是激励信号类型信息,激励信号类型信息可被包括在比特流中,以便被存储或发送。根据实施例,可以以2个比特来形成激励信号类型信息。这里,可参照应用于随机噪声的权重在四个阶段中形成所述2个比特。可针对每个帧发送一次激励信号类型信息。此外,多个子频带可形成一个组,可在每个组中定义激励信号类型信息,并可针对每个组发送激励信号类型信息。
根据实施例,激励信号产生方法确定单元540可仅考虑原始高频信号的特性来确定产生高频激励信号的方法。具体地,可通过识别包括以子频带为单位而计算的第一音调的平均值的区域并根据参照激励信号类型信息的条数的与第一音调的值相应的区域,来确定产生激励信号的方法。根据以上方法,如果音调的值为高(即,如果频谱具有尖峰特性),则可将被应用于随机信号的权重设置为小。
根据另一实施例,激励信号产生方法确定单元540可考虑原始高频信号的特性和将通过执行频带扩展而产生的高频信号的特性两者,来确定产生高频激励信号的方法。例如,如果原始高频信号的特性和将通过执行频带扩展而产生的高频信号的特性是相似的,则可将随机信号的权重设置为小。相反地,如果原始高频信号的特性和将通过执行频带扩展而产生的高频信号的特性不同,则可将随机噪声的权重设置为大。同时,可参照针对每个子频带的第一音调和第二音调之间的差的平均值来设置权重。如果针对每个子频带的第一音调和第二音调之间的差的平均值大,则可将随机噪声的权重设置为大。否则,如果针对每个子频带的第一音调和第二音调之间的差的平均值小,则可将随机噪声的权重设置为小。同时,如果针对每个组发送激励信号类型信息,则通过使用包括在一个组中的子频带的平均值来计算针对每个子频带的第一音调和第二音调之间的差的平均值。
能量调整单元550可针对原始高频频谱以子频带为单位来计算能量,并通过使用第一音调和第二音调来调整能量。例如,如果第一音调为大并且第二音调为小,即,如果原始高频频谱是尖峰并且抗稀疏处理单元270或370的输出频谱是平坦的,则基于第一音调和第二音调的比率来调整能量。
能量量化单元560可对调整后的能量执行矢量量化,并可将由于矢量量化而产生的量化索引包括在比特流中,以便存储或发送所述比特流。
同时,在重建高频频谱产生模块570中,高频激励信号产生单元571和高频频谱产生单元573的操作基本上与图11中示出的高频激励信号产生单元1130和高频频谱产生单元1170的操作相同,因此这里不提供它们的详细描述。
图6A和图6B是示出由图1中示出的FD编码模块170执行扩展编码的区域的曲线图。图6A示出已实际执行了FPC的较高频带Ffpc与被分配来执行FPC的低频带(即,核心频带Fcore)相同的情况。在这种情况下,对直到Fcore的低频带执行FPC和噪声填充,通过使用低频带的信号对与Fend-Fcore相应的高频带执行扩展编码。这里,Fend可以是由于高频扩展可获得的最大频率。
同时,图6B示出已实际执行了FPC的较高频带Ffpc小于核心频带Fcore的情况。对与Ffpc相应的低频带执行FPC和噪声填充,通过使用已执行了FPC和噪声填充的低频带的信号来对与Fcore-Ffpc相应的低频带执行扩展编码,并通过使用整个低频带的信号对与Fend-Fcore相应的高频带执行扩展编码。相似地,Fend可以是由于高频扩展而可获得的最大频率。
这里,可根据比特率不同地设置Fcore和Fend。例如,根据比特率,Fcore可以是但不限于6.4kHz、8kHz或9.6kHz,并且Fend可被扩展为但不限于14kHz、14.4kHz或16kHz。同时,已实际执行了FPC的较高频带Ffpc与执行噪声填充的频带相应。
图7是根据另一示例性实施例的音频编码设备的框图。
图7中示出的音频编码设备700可包括编码模式确定单元710、LPC编码单元705、切换单元730、CELP编码模块750和音频编码模块770。CELP编码模块750可包括CELP编码单元751和TD扩展编码单元753,音频编码模块770可包括音频编码单元771和FD扩展编码单元773。以上元件可被集成在至少一个模块中,并可由至少一个处理器(未示出)来驱动。
参照图7,LPC编码单元705可从输入信号提取LPC,并量化提取的LPC。例如,LPC编码单元705可通过使用但不限于网格编码量化(TCQ)方法、多级矢量量化(MSVQ)方法或格形矢量量化(LVQ)方法来量化LPC。由LPC编码单元705量化的LPC可被包括在比特流中,以便被存储或发送。
具体地,LPC编码单元705可从通过对具有32kHz或48kHz的采样率的信号进行重采样或下采样而获得的具有12.8kHz或16kHz的采样率的信号提取LPC。
与图1中示出的编码模式确定单元110相同,编码模式确定单元710可参照信号特性来确定输入信号的编码模式。根据信号特性,编码模式确定单元710可确定当前帧是处于语音模式还是处于音乐模式,并且还可确定对当前帧有效的编码模式是TD模式还是FD模式。
编码模式确定单元710的输入信号可以是由下采样单元(未示出)下采样的信号。例如,输入信号可以是通过对具有32kHz或48kHz的采样率的信号进行重采样或下采样而获得的具有12.8kHz或16kHz的采样率的信号。这里,具有32kHz的采样率的信号是SWB信号并可被称为FB信号,具有16kHz的采样率的信号可被称为WB信号。
根据另一实施例,编码模式确定单元710可执行重采样或下采样操作。
因此,编码模式确定单元710可确定重采样或下采样的信号的编码模式。
关于由编码模式确定单元710确定的编码模式的信息可被提供给切换单元730,并可以以帧为单位被包括在比特流中,以便被存储或发送。
根据从编码模式确定单元710提供的关于编码模式的信息,切换单元730可将从LPC编码单元705提供的低频带的LPC提供给CELP编码模块750或音频编码模块770。具体地,如果编码模式是CELP模式,则切换单元730将低频带的LPC提供给CELP编码模块750,如果编码模式是音频模式,则切换单元730将低频带的LPC提供给音频编码模块770。
如果编码模式是CELP模式,则CELP编码模块750可进行操作,CELP编码单元751可对通过使用低频带的LPC而获得的激励信号执行CELP编码。根据实施例,CELP编码单元751可考虑与音高信息相应的滤波自适应码矢量(即,自适应码本贡献)和滤波固定码矢量(即,固定或创新码本贡献)中的每个,来对提取的激励信号进行量化。这里,激励信号可由LPC编码单元705产生,并可被提供给CELP编码单元751,或可由CELP编码单元751产生。
同时,CELP编码单元751可根据信号特性应用不同的编码模式。应用的编码模式可包括但不限于浊音编码模式、清音编码模式、过渡编码模式和通用编码模式。
由于CELP编码单元751的编码而获得的低频激励信号(即,CELP信息)可被提供给TD扩展编码单元753,并可被包括在比特流中。
在CELP编码模块750中,TD扩展编码单元753可通过折叠或复制从CELP编码单元751提供的低频激励信号来执行高频扩展编码。由于TD扩展编码单元753的扩展编码而获得的高频扩展信息可被包括在比特流中。
同时,如果编码模式是音频模式,则音频编码模块770可进行操作,音频编码单元771可通过将使用低频带的LPC而获得的激励信号变换到频域来执行音频编码。根据实施例,音频编码单元771可使用能够防止帧之间的重叠区域的变换方法,例如,离散余弦变换(DCT)。此外,音频编码单元771可对变换到频域的激励信号执行LVQ和FPC编码。另外,如果当音频编码单元771量化激励信号时,额外的比特可用,则可进一步考虑TD信息,诸如滤波自适应码矢量(即,自适应码本贡献)和滤波固定码矢量(即,固定或创新码本贡献)。
在音频编码模块770中,FD扩展编码单元773可通过使用从音频编码单元771提供的低频激励信号来执行高频扩展编码。除了FD扩展编码单元773和图2或图3中示出的FD高频扩展编码单元290或390的输入信号之外,FD扩展编码单元773的操作与图2或图3中示出的FD高频扩展编码单元290或390的操作相似,因此在此不提供它的详细描述。
在图7中示出的音频编码设备700中,可根据由编码模式确定单元710确定的编码模式产生两种类型的比特流。这里,比特流可包括头和净荷。
具体地,如果编码模式是CELP模式,则关于编码模式的信息可被包括在头中,并且CELP信息和TD高频扩展信息可被包括在净荷中。另外,如果编码模式是音频模式,则关于编码模式的信息可被包括在头中,关于音频编码的信息(即,音频信息和FD高频扩展信息)可被包括在净荷中。
可根据信号特性将图7中示出的音频编码设备700切换到CELP模式或音频模式,从而可针对信号特性有效地执行自适应编码。同时,可将图1中示出的切换结构应用于低比特率环境。
图8是根据另一示例性实施例的音频编码设备的框图。
图8中示出的音频编码设备800可包括编码模式确定单元810、切换单元830、CELP编码模块850、FD编码模块870和音频编码模块890。CELP编码模块850可包括CELP编码单元851和TD扩展编码单元853,FD编码模块870可包括变换单元871和FD编码单元873,音频编码模块890可包括音频编码单元891和FD扩展编码单元893。以上元件可被集成到至少一个模块中,并可由至少一个处理器(未示出)来驱动。
参照图8,编码模式确定单元810可参照信号特性和比特率来确定输入信号的编码模式。根据信号特性,编码模式确定单元810可基于当前帧是处于语音模式还是处于音乐模式,以及对当前帧有效的编码模式是TD模式还是FD模式,来确定CELP模式或另一模式。如果当前帧处于语音模式,则CELP模式被确定,如果当前帧处于音乐模式并具有高比特率,则FD模式被确定,如果当前帧处于音乐模式并具有低比特率,则音频模式被确定。
根据从编码模式确定单元810提供的关于编码模式的信息,切换单元830可将输入信号提供给CELP编码模块850、FD编码模块870或音频编码模块890。
同时,除了CELP编码单元851从输入信号提取LPC以及音频编码单元891也从输入信号提取LPC之外,图8中示出的音频编码设备800与图1和图7中示出的音频编码设备100和700的组合相似。
图8中示出的音频编码设备800可根据信号特性被切换到以CELP模式、FD模式或音频模式进行操作,从而可针对信号特性有效地执行自适应编码。同时,无论比特率如何,都可应用图8中示出的切换结构。
图9是根据示例性实施例的音频解码设备900的框图。图9中示出的音频解码设备900可独自形成多媒体装置,或者与图1中示出的音频编码设备100一起形成多媒体装置,并且可以是但不限于语音通信装置(诸如电话或移动电话)、广播或音乐装置(诸如TV或MP3播放器)或者语音通信装置和广播或音乐装置的组合装置。此外,音频解码设备900可以是包括在客户端装置或服务器中的或布置在客户端装置和服务器之间的变换器。
图9中示出的音频解码设备900可包括切换单元910、CELP解码模块930和FD解码模块950。CELP解码模块930可包括CELP解码单元931和TD扩展解码单元933,FD解码模块950可包括FD解码单元951和逆变换单元953。以上元件可被集成在至少一个模块中,并可由至少一个处理器(未示出)来驱动。
参照图9,切换单元910可参照包括在比特流中的关于编码模式的信息将比特流提供给CELP解码模块930或FD解码模块950。具体地,如果编码模式是CELP模式,则将比特流提供给CELP解码模块930,如果编码模式是FD模式,则将比特流提供给FD解码模块950。
在CELP解码模块930中,CELP解码单元931对包括在比特流中的LPC进行解码,对滤波自适应码矢量和滤波固定码矢量进行解码,并通过组合解码的结果来产生重建的低频信号。
TD扩展解码单元933通过使用CELP解码的结果和低频激励信号中的至少一个来执行高频扩展解码,以产生重建的高频信号。在这种情况下,低频激励信号可被包括在比特流中。此外,TD扩展解码单元933可使用被包括在比特流中的低频带的LPC信息,以产生重建的高频信号。
同时,TD扩展解码单元933可通过组合重建的高频信号与来自CELP解码单元931的重建的低频信号来产生重建的SWB信号。在这种情况下,为了产生重建的SWB信号,TD扩展解码单元933可将重建的低频信号和重建的高频信号变换为具有相同采样率。
在FD解码模块950中,FD解码单元951对FD编码帧执行FD解码。FD解码单元951可通过解码比特流来产生频谱。此外,FD解码单元951可参照包括在比特流中的关于先前帧的解码模式的信息来执行解码。也就是说,FD解码单元951可参照包括在比特流中的关于先前帧的编码模式的信息来对FD编码帧执行FD解码。
逆变换单元953将FD解码的结果逆变换到时域。逆变换单元953通过对FD解码频谱执行逆变换来产生重建的信号。例如,逆变换单元953可执行但不限于逆MDCT(IMDCT)。
因此,音频解码设备900可以以比特流的帧为单位参照编码模式来解码比特流。
图10是图9中示出的FD解码单元的示例的框图。
图10中示出的FD解码单元1000可包括范数解码单元1010、FPC解码单元1020、噪声填充单元1030、FD低频扩展解码单元1040、抗稀疏处理单元1050、FD高频扩展解码单元1060和组合单元1070。
范数解码单元1010可通过解码包括在比特流中的范数值来计算恢复的范数值。
FPC解码单元1020可通过使用恢复的范数值确定被分配的比特数,并可通过使用被分配的比特数来对FPC编码的频谱执行FPC解码。这里,被分配的比特数可由图2或图3中示出的FPC编码单元230或330来确定。
噪声填充单元1030可参照由FPC解码单元1020执行的FPC解码的结果,通过使用由音频编码设备另外地产生和提供的噪声等级或通过使用恢复的范数值,来执行噪声填充。也就是说,噪声填充单元1030可执行噪声填充处理直到已经执行了FPC解码的最后一个子频带。
当已实际执行了FPC解码的较高频带Ffpc小于核心频带Fcore时,FD低频扩展解码单元1040可进行操作。可对直到Ffpc的低频带执行FPC解码和噪声填充,可通过使用已执行了FPC解码和噪声填充的低频带的信号对与Fcore-Ffpc相应的低频带执行扩展解码。
虽然已对FPC解码的信号执行了噪声填充处理,但是抗稀疏处理单元1050可通过将噪声添加到被重建为零的频谱中,来防止在执行FD高频扩展解码之后产生金属般噪声。具体地,抗稀疏处理单元1050可从提供自FD低频扩展解码单元1040的低频频谱确定将被添加的噪声的位置和幅度,根据确定的噪声的位置和幅度对低频频谱执行抗稀疏处理,并将产生的频谱提供给FD高频扩展解码单元1060。抗稀疏处理单元1050可包括图4中示出的噪声位置确定单元430、噪声幅度确定单元450和噪声添加单元470,但不包括重建频谱产生单元410。
根据实施例,当对在FPC解码时所有频谱被量化为零的子频带执行噪声填充处理时,可通过将噪声添加到没有执行噪声填充处理并包括被重建为零的频谱的子频带来执行抗稀疏处理。根据另一实施例,可通过将噪声添加到执行FD低频扩展解码并包括被重建为零的频谱的子频带来执行抗稀疏处理。
FD高频扩展解码单元1060可对由抗稀疏处理单元1050添加了噪声的低频频谱执行高频扩展解码。FD高频扩展解码单元1060可通过针对不同比特率共享相同码本来执行能量反量化。
组合单元1070可通过组合从FD低频扩展解码单元1040提供的低频频谱和从FD高频扩展解码单元1060提供的高频频谱来产生重建的SWB频谱。
图11是图10中示出的FD高频扩展解码单元的示例的框图。
图11中示出的FD高频扩展解码单元1100可包括频谱复制单元1110、高频激励信号产生单元1130、能量反量化单元1150和高频频谱产生单元1170。
与图5中示出的频谱复制单元510相同,频谱复制单元1110可通过折叠或复制低频频谱将从图10中示出的抗稀疏处理单元1050提供的低频频谱扩展到高频带。
高频激励信号产生单元1130可通过使用从频谱复制单元1110提供的扩展后的高频频谱以及从比特流提取的激励信号类型信息来产生高频激励信号。
高频激励信号产生单元1130可通过应用在随机信号R(n)和从提供自频谱复制单元1110的扩展后的高频频谱变换的频谱G(n)之间的权重,来产生高频激励信号。这里,可通过以频谱复制单元1110的输出的新定义的子频带为单位计算平均幅度并将频谱归一化到所述平均幅度来获得变换的频谱。以预定子频带为单位将变换后的频谱等级匹配到随机噪声。等级匹配是允许随机噪声的平均幅度和变换后的频谱以子频带为单位而相同的处理。根据实施例,可将变换后的频谱的幅度设置为大于随机噪声的幅度。最终产生的高频激励信号可计算为E(n)=G(n)×(1-w(n))+R(n)×w(n)。这里,w(n)表示根据激励信号类型信息确定的值,n表示谱峰(spectrum bin)的索引。w(n)可以是常量值,并且如果以子频带为单位执行发送,则w(n)可被定义为在所有子频带中相同的值。此外,可考虑相邻子频带之间的平滑来设置w(n)。
当通过使用0、1、2或3的2个比特来定义激励信号类型信息时,如果激励信号类型信息表示0,则可将w(n)分配为具有最大值,如果激励信号类型信息表示3,则可将w(n)分配为具有最小值。
能量反量化单元1150可通过对包括在比特流中的量化索引进行反量化来恢复能量。
高频频谱产生单元1170可基于高频激励信号和恢复的能量之间的比率从高频激励信号重建高频频谱,使得高频激励信号的能量与恢复的能量匹配。
同时,如果原始高频频谱是尖峰或包括具有强音调特性的谐波分量,则高频频谱产生单元1170可通过使用频谱复制单元1110的输入而非从图10中示出的抗稀疏处理单元1050提供的低频频谱,来产生高频频谱。
图12是根据另一示例性实施例的音频解码设备的框图。
图12中示出的音频解码设备1200可包括LPC解码单元1205、切换单元1210、CELP解码模块1230和音频解码模块1250。CELP解码模块1230可包括CELP解码单元1231和TD扩展解码单元1233,音频解码模块1250可包括音频解码单元1251和FD扩展解码单元1253。以上元件可被集成在至少一个模块中,并可由至少一个处理器(未示出)来驱动。
参照图12,LPC解码单元1205以帧为单位对比特流执行LPC解码。
切换单元1210可参照包括在比特流中的关于编码模式的信息将LPC解码单元1205的输出提供给CELP解码模块1230或音频解码模块1250。具体地,如果编码模式是CELP模式,则将LPC解码单元1205的输出提供给CELP解码模块1230,如果编码模式是音频模式,则将LPC解码单元1205的输出提供给音频解码模块1250。
在CELP解码模块1230中,CELP解码单元1231可对CELP编码帧执行CELP解码。例如,CELP解码单元1231对滤波自适应码矢量和滤波固定码矢量进行解码,并通过组合解码的结果来产生重建的低频信号。
TD扩展解码单元1233可通过使用CELP解码的结果和低频激励信号中的至少一个来执行高频扩展解码,以产生重建的高频信号。在这种情况下,低频激励信号可被包括在比特流中。此外,TD扩展解码单元1233可使用包括在比特流中的低频带的LPC信息,以产生重建的高频信号。
同时,TD扩展解码单元1233可通过组合重建的高频信号和由CELP解码单元1231产生的重建的低频信号来产生重建的SWB信号。在这种情况下,为了产生重建的SWB信号,TD扩展解码单元1233可将重建的低频信号和重建的高频信号变换为具有相同采样率。
在音频解码模块1250中,音频解码单元1251可对音频编码帧执行音频解码。例如,参照比特流,如果TD贡献存在,则音频解码单元1251考虑TD和TF贡献来执行解码。相反,如果TD贡献不存在,则音频解码单元1251考虑FD贡献执行解码。
此外,音频解码单元1251可产生通过使用例如逆DCT(IDCT)对FPC或LVQ量化信号执行频率逆变换而解码的低频激励信号,并可通过组合产生的激励信号和反量化的LPC系数来产生重建的低频信号。
FD扩展解码单元1253对音频解码的结果执行扩展解码。例如,FD扩展解码单元1253将解码的低频信号变换为具有适用于高频扩展解码的采样率,并对变换后的信号执行诸如MDCT的频率变换。FD扩展解码单元1253可对量化的高频带的能量进行反量化,可根据高频扩展的各种模式通过使用低频信号产生高频激励信号,并可应用增益使得产生的激励信号的能量与反量化的能量匹配,从而产生重建的高频信号。例如,高频扩展的各种模式可以是普通模式、过渡模式、谐波模式或噪声模式。
此外,FD扩展解码单元1253通过对重建的高频信号和重建的低频信号执行诸如IMDCT的频率逆变换来产生最终重建的信号。
另外,如果过渡模式应用在带宽扩展中,则FD扩展解码单元1253可应用时域中计算的增益,使得在执行频率逆变换之后解码的信号与解码的时间包络匹配,并可合成应用了增益的信号。
因此,音频解码设备1200可以以比特流的帧为单位参照解码模式来解码比特流。
图13是根据另一示例性实施例的音频解码设备的框图。
图13中示出的音频解码设备1300可包括切换单元1310、CELP解码模块1330、FD解码模块1350和音频解码模块1370。CELP解码模块1330可包括CELP解码单元1331和TD扩展解码单元1333,FD解码模块1350可包括FD解码单元1351和逆变换单元1353,音频解码模块1370可包括音频解码单元1371和FD扩展解码单元1373。以上元件可被集成在至少一个模块中,并可由至少一个处理器(未示出)来驱动。
参照图13,切换单元1310可参照包括在比特流中的关于编码模式的信息,将比特流提供给CELP解码模块1330、FD解码模块1350或音频解码模块1370。具体地,如果编码模式是CELP模式,则可将比特流提供给CELP解码模块1330,如果编码模式是FD模式,则可将比特流提供给FD解码模块1350,如果编码模式是音频模式,则可将比特流提供给音频解码模块1370。
这里,CELP解码模块1330、FD解码模块1350和音频解码模块1370的操作仅仅与图8中示出的CELP编码模块850、FD编码模块870和音频编码模块890的操作相反,因此在此将不提供它们的详细描述。
图14是用于描述根据示例性实施例的码本共享方法的示图。
图7或图8中示出的FD扩展编码单元773或893可通过针对不同比特率共享相同码本来执行能量量化。因此,当与输入信号相应的频谱被划分成预定数量的子频带时,FD扩展编码单元773或893针对不同比特率具有相同的子频带带宽。
现在将描述作为示例的当大约6.4至14.4kHz的频带在16kbps的比特率被划分时的情况1410和当大约8至16kHz的频带在大于16kbps的比特率被划分时的情况1420。
具体地,在16kbps的比特率和在大于16kbps的比特率的第一子频带的带宽1430可以是0.4kHz,在16kbps的比特率和在大于16kbps的比特率的第二子频带的带宽1440可以是0.6kHz。
因此,如果子频带针对不同比特率具有相同带宽,则FD扩展编码单元773或893可通过针对不同比特率共享相同码本来执行能量量化。
因此,在当CELP模式和FD模式被切换、CELP模式和音频模式被切换、或CELP模式、FD模式和音频模式被切换时的配置下,可使用多模式带宽扩展方法,并可共享用于支持多种比特率的码本,从而减小存储器(例如,ROM)的大小,并还减小实现的复杂度。
图15是用于描述根据示例性实施例的编码模式信号发送方法的示图。
参照图15,在操作1510,通过使用各种公知方法确定输入的信号是否与过渡分量相应。
在操作1520,如果在操作1510确定输入信号与过渡分量相应,则以小数为单位来分配比特。
在操作1530,以过渡模式编码输入信号,并通过使用1比特过渡指示符对已经以过渡模式执行了编码进行信号发送。
同时,在操作1540,如果在操作1510确定输入信号不与过渡分量相应,则通过使用各种公知方法确定输入信号是否与谐波分量相应。
在操作1550,如果在操作1540确定输入信号与谐波分量相应,则以谐波模式编码输入信号,并通过使用1比特谐波指示符和1比特过渡指示符对已经以谐波模式执行了编码进行信号发送。
同时,在操作1560,如果在操作1540确定输入信号不与谐波分量相应,则以小数为单位来分配比特。
在操作1570,以普通模式编码输入信号,并通过使用1比特谐波指示符和1比特过渡指示符对已经以普通模式执行了编码进行信号发送。
也就是说,可通过使用2比特指示符来对三种模式(即,过渡模式、谐波模式和普通模式)进行信号发送。
由以上设备执行的方法可被编写为计算机程序,并可实现在使用计算机可读记录介质执行程序的通用数字计算机中,所述计算机可读记录介质包括用于执行由计算机实现的各种操作的程序指令。计算机可读记录介质可单独地或协作地包括程序指令、数据文件和数据结构。计算机指令和介质可以是为本发明构思的目的专门设计和构造的计算机指令和介质,或者它们可属于计算机软件领域的普通技术人员所公知和可用的类型。计算机可读介质的示例包括磁介质(例如,硬盘、软盘和磁带)、光介质(例如,CD-ROM或DVD)、磁光介质(例如,光磁盘)和专门构造来存储和执行程序指令的硬件装置(例如,ROM、RAM或闪存等)。所述介质还可以是指定程序指令、数据结构等的传输介质(诸如光线或金属线、波导等)。程序指令的示例包括诸如由编译器产生的机器代码和包含可由计算机使用解释器执行的高级语言代码的文件两者。
虽然已参照本发明构思的示例性实施例具体示出并描述了本发明构思,但是本领域的普通技术人员将理解,在不脱离由权利要求及其等同物限定的本发明构思的精神和范围的情况下,可在形式和细节上做出各种改变。
Claims (6)
1.一种用于产生带宽扩展信号的设备,所述设备包括:
噪声填充单元,用于对解码的低频频谱执行噪声填充;
抗稀疏处理单元,用于执行抗稀疏梳处理,其中,常量值通过所述抗稀疏处理被插入到在执行了噪声填充的解码的低频频谱中的仍为零的频谱系数中;
高频频谱产生单元,用于通过使用执行了抗稀疏处理的解码的低频频谱来产生高频频谱,
其中,所述常量值是基于随机种子来确定的。
2.如权利要求1所述的设备,其中,所述常量值具有随机符号。
3.如权利要求1所述的设备,其中,高频频谱产生单元被配置为基于比特流中所包括的激励参数来产生高频频谱。
4.如权利要求3所述的设备,其中,激励参数以帧为单位被分配。
5.如权利要求3所述的设备,其中,激励参数是基于信号特性被确定的。
6.如权利要求3所述的设备,其中,激励参数作为2比特信息被包括在比特流中。
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US201161503241P | 2011-06-30 | 2011-06-30 | |
US61/503,241 | 2011-06-30 | ||
CN201280042439.XA CN103843062B (zh) | 2011-06-30 | 2012-07-02 | 用于产生带宽扩展信号的设备和方法 |
Related Parent Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201280042439.XA Division CN103843062B (zh) | 2011-06-30 | 2012-07-02 | 用于产生带宽扩展信号的设备和方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN106128473A true CN106128473A (zh) | 2016-11-16 |
CN106128473B CN106128473B (zh) | 2019-12-10 |
Family
ID=47424723
Family Applications (3)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201610801708.6A Active CN106157968B (zh) | 2011-06-30 | 2012-07-02 | 用于产生带宽扩展信号的设备和方法 |
CN201610801479.8A Active CN106128473B (zh) | 2011-06-30 | 2012-07-02 | 用于产生带宽扩展信号的设备和方法 |
CN201280042439.XA Active CN103843062B (zh) | 2011-06-30 | 2012-07-02 | 用于产生带宽扩展信号的设备和方法 |
Family Applications Before (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201610801708.6A Active CN106157968B (zh) | 2011-06-30 | 2012-07-02 | 用于产生带宽扩展信号的设备和方法 |
Family Applications After (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201280042439.XA Active CN103843062B (zh) | 2011-06-30 | 2012-07-02 | 用于产生带宽扩展信号的设备和方法 |
Country Status (12)
Country | Link |
---|---|
US (3) | US9349380B2 (zh) |
EP (1) | EP2728577A4 (zh) |
JP (3) | JP6001657B2 (zh) |
KR (3) | KR102078865B1 (zh) |
CN (3) | CN106157968B (zh) |
AU (3) | AU2012276367B2 (zh) |
BR (3) | BR122021019883B1 (zh) |
CA (2) | CA2840732C (zh) |
MX (3) | MX340386B (zh) |
TW (3) | TWI576832B (zh) |
WO (1) | WO2013002623A2 (zh) |
ZA (1) | ZA201400704B (zh) |
Families Citing this family (18)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
MX340386B (es) * | 2011-06-30 | 2016-07-07 | Samsung Electronics Co Ltd | Aparato y metodo para generar señal extendida de ancho de banda. |
CN105976824B (zh) | 2012-12-06 | 2021-06-08 | 华为技术有限公司 | 信号解码的方法和设备 |
ES2714289T3 (es) | 2013-01-29 | 2019-05-28 | Fraunhofer Ges Forschung | Llenado con ruido en la codificación de audio por transformada perceptual |
EP2830061A1 (en) | 2013-07-22 | 2015-01-28 | Fraunhofer Gesellschaft zur Förderung der angewandten Forschung e.V. | Apparatus and method for encoding and decoding an encoded audio signal using temporal noise/patch shaping |
KR102625143B1 (ko) * | 2014-02-17 | 2024-01-15 | 삼성전자주식회사 | 신호 부호화방법 및 장치와 신호 복호화방법 및 장치 |
WO2015133795A1 (ko) * | 2014-03-03 | 2015-09-11 | 삼성전자 주식회사 | 대역폭 확장을 위한 고주파 복호화 방법 및 장치 |
CN111312278B (zh) | 2014-03-03 | 2023-08-15 | 三星电子株式会社 | 用于带宽扩展的高频解码的方法及设备 |
KR20240046298A (ko) * | 2014-03-24 | 2024-04-08 | 삼성전자주식회사 | 고대역 부호화방법 및 장치와 고대역 복호화 방법 및 장치 |
PL3128513T3 (pl) * | 2014-03-31 | 2019-11-29 | Fraunhofer Ges Forschung | Koder, dekoder, sposób kodowania, sposób dekodowania i program |
CN106409304B (zh) * | 2014-06-12 | 2020-08-25 | 华为技术有限公司 | 一种音频信号的时域包络处理方法及装置、编码器 |
EP2980792A1 (en) * | 2014-07-28 | 2016-02-03 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Apparatus and method for generating an enhanced signal using independent noise-filling |
FR3024581A1 (fr) * | 2014-07-29 | 2016-02-05 | Orange | Determination d'un budget de codage d'une trame de transition lpd/fd |
JP2016038435A (ja) * | 2014-08-06 | 2016-03-22 | ソニー株式会社 | 符号化装置および方法、復号装置および方法、並びにプログラム |
WO2016142002A1 (en) | 2015-03-09 | 2016-09-15 | Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. | Audio encoder, audio decoder, method for encoding an audio signal and method for decoding an encoded audio signal |
EP3435376B1 (en) * | 2017-07-28 | 2020-01-22 | Fujitsu Limited | Audio encoding apparatus and audio encoding method |
KR102457573B1 (ko) * | 2021-03-02 | 2022-10-21 | 국방과학연구소 | 잡음 신호 생성 장치 및 방법, 컴퓨터 판독 가능한 기록 매체 및 컴퓨터 프로그램 |
KR102473886B1 (ko) | 2021-11-25 | 2022-12-06 | 한국프리팩 주식회사 | 친환경 발포 다층시트, 이를 이용한 아이스팩 및 그의 제조방법 |
KR102574372B1 (ko) | 2023-01-26 | 2023-09-05 | 한국프리팩 주식회사 | 공압출된 친환경 발포 다층필름 및 이를 이용한 아이스팩 |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1589469A (zh) * | 2001-11-23 | 2005-03-02 | 皇家飞利浦电子股份有限公司 | 音频信号带宽扩展 |
CN101083076A (zh) * | 2006-06-03 | 2007-12-05 | 三星电子株式会社 | 使用带宽扩展技术对信号编码和解码的方法和设备 |
CN101089951A (zh) * | 2006-06-16 | 2007-12-19 | 徐光锁 | 频带扩展编码方法及装置和解码方法及装置 |
CN101236745A (zh) * | 2007-01-12 | 2008-08-06 | 三星电子株式会社 | 用于带宽扩展编码和解码的方法、设备和介质 |
WO2009029036A1 (en) * | 2007-08-27 | 2009-03-05 | Telefonaktiebolaget Lm Ericsson (Publ) | Method and device for noise filling |
CN102089808A (zh) * | 2008-07-11 | 2011-06-08 | 弗劳恩霍夫应用研究促进协会 | 音频编码器、音频解码器、用于编码及解码音频信号的方法、音频流与计算机程序 |
Family Cites Families (26)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPS5857759B2 (ja) * | 1979-10-01 | 1983-12-21 | 日本電信電話株式会社 | 駆動音源信号発生装置 |
JPS57125999A (en) * | 1981-01-29 | 1982-08-05 | Seiko Instr & Electronics | Voice synthesizer |
US6029125A (en) | 1997-09-02 | 2000-02-22 | Telefonaktiebolaget L M Ericsson, (Publ) | Reducing sparseness in coded speech signals |
US6058359A (en) * | 1998-03-04 | 2000-05-02 | Telefonaktiebolaget L M Ericsson | Speech coding including soft adaptability feature |
DE60110086T2 (de) * | 2000-07-27 | 2006-04-06 | Activated Content Corp., Inc., Burlingame | Stegotextkodierer und -dekodierer |
KR100510434B1 (ko) * | 2001-04-09 | 2005-08-26 | 니폰덴신뎅와 가부시키가이샤 | Ofdm신호전달 시스템, ofdm신호 송신장치 및ofdm신호 수신장치 |
US20040002856A1 (en) * | 2002-03-08 | 2004-01-01 | Udaya Bhaskar | Multi-rate frequency domain interpolative speech CODEC system |
US7668711B2 (en) * | 2004-04-23 | 2010-02-23 | Panasonic Corporation | Coding equipment |
JP5129117B2 (ja) | 2005-04-01 | 2013-01-23 | クゥアルコム・インコーポレイテッド | 音声信号の高帯域部分を符号化及び復号する方法及び装置 |
US7813931B2 (en) * | 2005-04-20 | 2010-10-12 | QNX Software Systems, Co. | System for improving speech quality and intelligibility with bandwidth compression/expansion |
US7831434B2 (en) * | 2006-01-20 | 2010-11-09 | Microsoft Corporation | Complex-transform channel coding with extended-band frequency coding |
KR101390188B1 (ko) * | 2006-06-21 | 2014-04-30 | 삼성전자주식회사 | 적응적 고주파수영역 부호화 및 복호화 방법 및 장치 |
KR101375582B1 (ko) * | 2006-11-17 | 2014-03-20 | 삼성전자주식회사 | 대역폭 확장 부호화 및 복호화 방법 및 장치 |
US8639500B2 (en) * | 2006-11-17 | 2014-01-28 | Samsung Electronics Co., Ltd. | Method, medium, and apparatus with bandwidth extension encoding and/or decoding |
DK2571024T3 (en) * | 2007-08-27 | 2015-01-05 | Ericsson Telefon Ab L M | Adaptive transition frequency between the noise filling and bandwidth extension |
KR101452722B1 (ko) * | 2008-02-19 | 2014-10-23 | 삼성전자주식회사 | 신호 부호화 및 복호화 방법 및 장치 |
EP2144230A1 (en) | 2008-07-11 | 2010-01-13 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Low bitrate audio encoding/decoding scheme having cascaded switches |
US8880410B2 (en) * | 2008-07-11 | 2014-11-04 | Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. | Apparatus and method for generating a bandwidth extended signal |
CA2836871C (en) * | 2008-07-11 | 2017-07-18 | Stefan Bayer | Time warp activation signal provider, audio signal encoder, method for providing a time warp activation signal, method for encoding an audio signal and computer programs |
CN102177426B (zh) * | 2008-10-08 | 2014-11-05 | 弗兰霍菲尔运输应用研究公司 | 多分辨率切换音频编码/解码方案 |
RU2493618C2 (ru) * | 2009-01-28 | 2013-09-20 | Долби Интернешнл Аб | Усовершенствованное гармоническое преобразование |
EP2239732A1 (en) * | 2009-04-09 | 2010-10-13 | Fraunhofer-Gesellschaft zur Förderung der Angewandten Forschung e.V. | Apparatus and method for generating a synthesis audio signal and for encoding an audio signal |
KR101826331B1 (ko) * | 2010-09-15 | 2018-03-22 | 삼성전자주식회사 | 고주파수 대역폭 확장을 위한 부호화/복호화 장치 및 방법 |
ES2664090T3 (es) * | 2011-03-10 | 2018-04-18 | Telefonaktiebolaget Lm Ericsson (Publ) | Relleno de subvectores no codificados en señales de audio codificadas por transformada |
TWI606441B (zh) | 2011-05-13 | 2017-11-21 | 三星電子股份有限公司 | 解碼裝置 |
MX340386B (es) * | 2011-06-30 | 2016-07-07 | Samsung Electronics Co Ltd | Aparato y metodo para generar señal extendida de ancho de banda. |
-
2012
- 2012-07-02 MX MX2014000161A patent/MX340386B/es active IP Right Grant
- 2012-07-02 EP EP12804615.8A patent/EP2728577A4/en not_active Ceased
- 2012-07-02 MX MX2016008879A patent/MX350162B/es unknown
- 2012-07-02 CN CN201610801708.6A patent/CN106157968B/zh active Active
- 2012-07-02 CN CN201610801479.8A patent/CN106128473B/zh active Active
- 2012-07-02 US US14/130,021 patent/US9349380B2/en active Active
- 2012-07-02 MX MX2017011044A patent/MX370012B/es unknown
- 2012-07-02 WO PCT/KR2012/005258 patent/WO2013002623A2/ko active Application Filing
- 2012-07-02 BR BR122021019883-7A patent/BR122021019883B1/pt active IP Right Grant
- 2012-07-02 TW TW101123831A patent/TWI576832B/zh active
- 2012-07-02 JP JP2014518822A patent/JP6001657B2/ja active Active
- 2012-07-02 TW TW106133069A patent/TWI619116B/zh active
- 2012-07-02 CA CA2840732A patent/CA2840732C/en active Active
- 2012-07-02 AU AU2012276367A patent/AU2012276367B2/en active Active
- 2012-07-02 BR BR112013033900-4A patent/BR112013033900B1/pt active IP Right Grant
- 2012-07-02 KR KR1020120071987A patent/KR102078865B1/ko active IP Right Grant
- 2012-07-02 CN CN201280042439.XA patent/CN103843062B/zh active Active
- 2012-07-02 CA CA2966987A patent/CA2966987C/en active Active
- 2012-07-02 BR BR122021019877-2A patent/BR122021019877B1/pt active IP Right Grant
- 2012-07-02 TW TW106103594A patent/TWI605448B/zh active
-
2014
- 2014-01-29 ZA ZA2014/00704A patent/ZA201400704B/en unknown
-
2016
- 2016-04-05 AU AU2016202120A patent/AU2016202120B2/en active Active
- 2016-04-29 US US15/142,949 patent/US9734843B2/en active Active
- 2016-09-01 JP JP2016170949A patent/JP6247358B2/ja active Active
-
2017
- 2017-04-04 AU AU2017202211A patent/AU2017202211C1/en active Active
- 2017-08-14 US US15/676,209 patent/US10037766B2/en active Active
- 2017-11-16 JP JP2017221260A patent/JP6599419B2/ja active Active
-
2020
- 2020-02-12 KR KR1020200017008A patent/KR102240271B1/ko active IP Right Grant
- 2020-12-17 KR KR1020200177792A patent/KR102343332B1/ko active IP Right Grant
Patent Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1589469A (zh) * | 2001-11-23 | 2005-03-02 | 皇家飞利浦电子股份有限公司 | 音频信号带宽扩展 |
CN101083076A (zh) * | 2006-06-03 | 2007-12-05 | 三星电子株式会社 | 使用带宽扩展技术对信号编码和解码的方法和设备 |
CN101089951A (zh) * | 2006-06-16 | 2007-12-19 | 徐光锁 | 频带扩展编码方法及装置和解码方法及装置 |
CN101236745A (zh) * | 2007-01-12 | 2008-08-06 | 三星电子株式会社 | 用于带宽扩展编码和解码的方法、设备和介质 |
WO2009029036A1 (en) * | 2007-08-27 | 2009-03-05 | Telefonaktiebolaget Lm Ericsson (Publ) | Method and device for noise filling |
CN101809657A (zh) * | 2007-08-27 | 2010-08-18 | 爱立信电话股份有限公司 | 用于噪声填充的方法和设备 |
CN102089808A (zh) * | 2008-07-11 | 2011-06-08 | 弗劳恩霍夫应用研究促进协会 | 音频编码器、音频解码器、用于编码及解码音频信号的方法、音频流与计算机程序 |
Also Published As
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN106157968B (zh) | 用于产生带宽扩展信号的设备和方法 | |
CN101836251B (zh) | 使用mdct频谱的组合编码的可缩放的语音和音频编码 | |
CN104011793B (zh) | 帧错误隐藏方法和设备以及音频解码方法和设备 | |
CN101548316B (zh) | 编码装置、解码装置以及其方法 | |
CN104025189B (zh) | 编码语音信号的方法、解码语音信号的方法,及使用其的装置 | |
KR20190045327A (ko) | 오디오 코덱의 장기 예측을 위한 시스템 및 방법 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |