CN111344784B - 控制编码器和/或解码器中的带宽 - Google Patents
控制编码器和/或解码器中的带宽 Download PDFInfo
- Publication number
- CN111344784B CN111344784B CN201880072654.1A CN201880072654A CN111344784B CN 111344784 B CN111344784 B CN 111344784B CN 201880072654 A CN201880072654 A CN 201880072654A CN 111344784 B CN111344784 B CN 111344784B
- Authority
- CN
- China
- Prior art keywords
- bandwidth
- encoder
- decoder
- tools
- subgroup
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 230000005236 sound signal Effects 0.000 claims abstract description 30
- 238000012545 processing Methods 0.000 claims abstract description 26
- 238000000034 method Methods 0.000 claims description 68
- 238000007493 shaping process Methods 0.000 claims description 39
- 230000003595 spectral effect Effects 0.000 claims description 38
- 230000002123 temporal effect Effects 0.000 claims description 13
- 238000001914 filtration Methods 0.000 claims description 12
- 230000011664 signaling Effects 0.000 claims description 8
- 230000009466 transformation Effects 0.000 claims description 5
- 238000004364 calculation method Methods 0.000 claims description 2
- 238000001228 spectrum Methods 0.000 description 46
- 238000013139 quantization Methods 0.000 description 30
- 238000001514 detection method Methods 0.000 description 19
- 230000008569 process Effects 0.000 description 17
- 238000004590 computer program Methods 0.000 description 9
- 238000004458 analytical method Methods 0.000 description 6
- 230000006870 function Effects 0.000 description 6
- 238000003860 storage Methods 0.000 description 6
- 238000005311 autocorrelation function Methods 0.000 description 5
- 230000005540 biological transmission Effects 0.000 description 5
- 238000004422 calculation algorithm Methods 0.000 description 5
- 230000000694 effects Effects 0.000 description 5
- 238000009499 grossing Methods 0.000 description 4
- 239000000872 buffer Substances 0.000 description 3
- 238000005070 sampling Methods 0.000 description 3
- 229920002430 Fibre-reinforced plastic Polymers 0.000 description 2
- 230000006399 behavior Effects 0.000 description 2
- 230000015556 catabolic process Effects 0.000 description 2
- 238000004891 communication Methods 0.000 description 2
- 239000002131 composite material Substances 0.000 description 2
- 238000006731 degradation reaction Methods 0.000 description 2
- 239000011151 fibre-reinforced plastic Substances 0.000 description 2
- 238000004519 manufacturing process Methods 0.000 description 2
- 238000005457 optimization Methods 0.000 description 2
- 238000012952 Resampling Methods 0.000 description 1
- 230000003321 amplification Effects 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 230000015572 biosynthetic process Effects 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 230000006835 compression Effects 0.000 description 1
- 238000007906 compression Methods 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 238000005314 correlation function Methods 0.000 description 1
- 125000004122 cyclic group Chemical group 0.000 description 1
- 230000001934 delay Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000010606 normalization Methods 0.000 description 1
- 238000003199 nucleic acid amplification method Methods 0.000 description 1
- 210000000056 organ Anatomy 0.000 description 1
- 238000005192 partition Methods 0.000 description 1
- 230000002787 reinforcement Effects 0.000 description 1
- 238000003786 synthesis reaction Methods 0.000 description 1
- 238000000844 transformation Methods 0.000 description 1
- 238000011144 upstream manufacturing Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/04—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
- G10L19/16—Vocoder architecture
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/04—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
- G10L19/06—Determination or coding of the spectral characteristics, e.g. of the short-term prediction coefficients
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/02—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
- G10L19/0204—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders using subband decomposition
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/02—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
- G10L19/032—Quantisation or dequantisation of spectral components
- G10L19/035—Scalar quantisation
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/02—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
- G10L19/032—Quantisation or dequantisation of spectral components
- G10L19/038—Vector quantisation, e.g. TwinVQ audio
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/04—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
- G10L19/26—Pre-filtering or post-filtering
-
- H—ELECTRICITY
- H03—ELECTRONIC CIRCUITRY
- H03M—CODING; DECODING; CODE CONVERSION IN GENERAL
- H03M7/00—Conversion of a code where information is represented by a given sequence or number of digits to a code where the same, similar or subset of information is represented by a different sequence or number of digits
- H03M7/30—Compression; Expansion; Suppression of unnecessary data, e.g. redundancy reduction
- H03M7/3059—Digital compression and data reduction techniques where the original information is represented by a subset or similar information, e.g. lossy compression
- H03M7/3062—Compressive sampling or sensing
-
- H—ELECTRICITY
- H03—ELECTRONIC CIRCUITRY
- H03M—CODING; DECODING; CODE CONVERSION IN GENERAL
- H03M7/00—Conversion of a code where information is represented by a given sequence or number of digits to a code where the same, similar or subset of information is represented by a different sequence or number of digits
- H03M7/30—Compression; Expansion; Suppression of unnecessary data, e.g. redundancy reduction
- H03M7/3066—Compression; Expansion; Suppression of unnecessary data, e.g. redundancy reduction by means of a mask or a bit-map
-
- H—ELECTRICITY
- H03—ELECTRONIC CIRCUITRY
- H03M—CODING; DECODING; CODE CONVERSION IN GENERAL
- H03M7/00—Conversion of a code where information is represented by a given sequence or number of digits to a code where the same, similar or subset of information is represented by a different sequence or number of digits
- H03M7/30—Compression; Expansion; Suppression of unnecessary data, e.g. redundancy reduction
- H03M7/60—General implementation details not specific to a particular type of compression
- H03M7/6005—Decoder aspects
-
- H—ELECTRICITY
- H03—ELECTRONIC CIRCUITRY
- H03M—CODING; DECODING; CODE CONVERSION IN GENERAL
- H03M7/00—Conversion of a code where information is represented by a given sequence or number of digits to a code where the same, similar or subset of information is represented by a different sequence or number of digits
- H03M7/30—Compression; Expansion; Suppression of unnecessary data, e.g. redundancy reduction
- H03M7/60—General implementation details not specific to a particular type of compression
- H03M7/6011—Encoder aspects
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/02—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/02—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
- G10L19/03—Spectral prediction for preventing pre-echo; Temporary noise shaping [TNS], e.g. in MPEG2 or MPEG4
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/04—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
- G10L19/16—Vocoder architecture
- G10L19/18—Vocoders using multiple modes
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/04—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
- G10L19/16—Vocoder architecture
- G10L19/18—Vocoders using multiple modes
- G10L19/22—Mode decision, i.e. based on audio signal content versus external parameters
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- Signal Processing (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Spectroscopy & Molecular Physics (AREA)
- Theoretical Computer Science (AREA)
- Compression, Expansion, Code Conversion, And Decoders (AREA)
Abstract
提供编码和/或解码信息信号(例如,音频信号)的示例。在一个示例中,提供一种编码器设备,包含:多个频域FD编码器工具,用于编码信息信号,该信息信号呈现多个帧;以及编码器带宽检测器及控制器(39),被配置为基于信息信号特性,为多个FD编码器工具的至少子群组(33,36)选择带宽,该子群组(33,36)包括少于多个FD编码器工具的FD编码器工具,使得该子群组(33,36)的FD编码器工具中的至少一个相对于不在该子群组(33,36)中的FD编码器工具中的至少一个具有不同的带宽。在一个示例中,提供一种解码器设备(40,40a),包含:多个FD解码器工具(43‑48a),用于解码被编码在比特流中的信息信号,其中,FD解码器工具被划分成:‑包含至少一个FD解码器工具(43,45)的子群组;‑包含至少一个FD解码器工具(44,46,48a)的剩余FD解码器工具;其中解码器设备(40,40a)被配置为基于比特流中包括的带宽信息,为子群组(43,45)的多个解码器工具中的至少一个选择带宽,使得该子群组(43,45)的多个解码器工具中的至少一个相对于多个解码器工具(44,46,48a)的剩余FD解码器工具中的至少一个,执行不同带宽的信号处理。
Description
1.背景技术
本示例涉及编码器及解码器以及用于这些设备的方法,特别针对诸如音频信号的信息信号。
一般的音频编解码器需要以极佳质量传输音乐及语音信号。这样的音频编解码器例如用于蓝牙,其中音频信号从移动电话传输至耳机或头戴式耳机,且反之亦然。
频谱至零的量化部分常常导致感知退化。因此,可以使用在频域(FD)中操作的噪声填充工具用噪声替代零量化的频谱线。
时间噪声整形(TNS)将开环线性预测用于频域(FD)中。在频率上的此预测编码/解码过程有效地将量化噪声的时间结构调适成时间信号的结构,借此高效地使用信号来掩蔽噪声的效应。在MPEG2高级音频编码器(AAC)标准中,当前通过以下操作实施TNS:为给定频带定义一个滤波器,以及然后当邻近频带中的信号结构不同于先前频带中的信号结构时,为邻近频带切换成另一滤波器。
尤其对于语音信号,音频内容可能是频带受限的,这意味着音频带宽仅含有4kHz(窄频带NB)、8kHz(宽频带WB)或16kHz(超宽频带SWB)。因此,音频编解码器需要检测活跃(active)音频带宽并相应地控制编码工具。因为带宽检测并非100%可靠,所以可能会产生技术问题。
当在频带受限的音频文件上操作时,例如,若工具不了解活跃信号部分,则一些音频编码工具,例如时间噪声整形(TNS)或噪声填充(NF)可能导致恼人的伪声。假定WB信号以32kHz编码,工具可能会用人工噪声填充较高频谱(8至16kHz)。
图1展示由非导工具产生的人工噪声:线11为高达WB的活跃信号,而信号12由参数工具(例如,由噪声填充)人工地产生,该参数工具不了解活跃音频带宽。
因此,需要限制工具以仅在活跃频率区上操作。
比如AAC的一些编解码器被配置为发送关于每比例因子频带的活跃频谱的信息。此信息也用以控制编码工具。此提供精确结果,但需要传输大量旁侧信息。因为语音通常仅在NB、WB、SWB及FB中传输,所以此有限的一组可能活跃带宽较佳地用于限制旁侧信息。
带宽检测器不时地返回错误的结果,这是不可避免的。举例而言,检测器可以看到音乐信号的淡出并将其解译为低带宽状况。对于以硬方式在不同带宽模式(NB、WB、SWB、FB)之间切换的编解码器,例如3GPP EVS编解码器[1],这导致矩形频谱孔。硬方式意谓完整的编码操作限于所检测的带宽。此硬切换会导致可听伪声。图2概述了由误检测产生的频谱孔22。
图2展示错误带宽检测的示意性轮廓:所有编码工具皆在较低音频带宽上工作,从而导致矩形频谱孔22。
请求克服或减少诸如上文所指示的缺陷。
1.1.参考
[1]3GPP EVS编解码器,
http://www.3gpp.org/ftp//Specs/archive/26_series/26.445/26445-e10.zip,Section 5.1.6“Bandwidth detection”
2.发明内容
根据示例,提供一种编码器设备,包含:
-多个频域FD编码器工具,用于编码信息信号,该信息信号呈现多个帧;以及
-编码器带宽检测器及控制器,被配置为基于信息信号特性,为多个FD编码器工具的至少子群组选择带宽,该子群组包括少于该多个FD编码器工具的FD编码器工具,使得子群组的FD编码器工具中的至少一个相对于不在子群组中的FD编码器工具中的至少一个具有不同的带宽。
因此,可以避免在带宽的误检测的状况下维持的频谱孔。
根据示例,子群组的至少一个FD编码器工具可为时间噪声整形TNS工具和/或噪声等级估计器工具。
根据示例,不在子群组中的至少一个FD编码器工具选自以下中的至少一个:基于线性预测编码LPC的频谱整形器、频谱噪声整形器SNS工具、频谱量化器以及残差编码器。
根据示例,编码器带宽检测器及控制器被配置为在不在子群组中的FD编码器工具中的至少一个共有的至少第一带宽与不同于不在子群组中的FD编码器工具中的至少一个的带宽的第二带宽之间,选择子群组的至少一个FD编码器工具的带宽。
根据示例,编码器带宽检测器及控制器被配置为基于关于信息信号的至少一个能量估计,选择多个FD编码器工具中的至少一个的带宽。
根据示例,编码器带宽检测器及控制器被配置为比较与信息信号的带宽相关联的至少一个能量估计与相应阈值以控制多个FD编码器工具中的至少一个的带宽。
根据示例,子群组的多个FD编码器工具中的至少一个包含TNS,该TNS被配置为在由编码器带宽检测器及控制器选择的带宽内自相关TNS输入信号。
根据示例,不在子群组中的FD编码器工具中的至少一个被配置为在全带宽下操作。
因此,仅针对子群组的工具(例如,TNS噪声估计器工具)进行带宽选择。
根据示例,编码器带宽检测器及控制器被配置为选择全带宽内的至少一个带宽,不在子群组中的FD编码器工具中的至少一个被配置为在全带宽下操作。
根据示例,多个FD编码器工具的剩余FD编码器工具中的至少一个被配置为相对于由编码器带宽检测器及控制器选择的带宽在开链中操作。
根据示例,编码器带宽检测器及控制器被配置为在有限数量的带宽中和/或在一组预定义的带宽中选择带宽。
因此,选择受到限制,且不必编码过于复杂和/或长的参数。在示例中,仅一个单一参数(例如,以0至3个位编码)可用于比特流。
根据示例,编码器带宽检测器及控制器被配置为在以下的至少一个或组合中执行选择::8KHz、16KHz、24KHz、32KHz以及48KHz,和/或NB、WB、SSWB、SWB、FB等等。
根据示例,编码器带宽检测器及控制器被配置为控制带宽至解码器的信令。
因此,也可控制(例如,使用相同带宽)由解码器处的一些工具处理的信号的带宽。
根据示例,编码器设备被配置为编码包括关于所选带宽的信息的控制数据字段。
根据示例,编码器设备被配置为定义控制数据字段,该控制数据字段包括:
-对应于NB带宽的0个数据位;
-对应于NB、WB带宽的1个数据位;
-对应于NB、WB、SSWB带宽的2个数据位;
-对应于NB、WB、SSWB、SWB带宽的2个数据位;
-对应于NB、WB、SSWB、SWB、FB带宽的3个数据位。
根据示例,编码器设备至少一个能量估计被执行为:
其中n=0…NB-1
其中X(k)为MDCT(或MDST…)系数,NB为频带的数目,且为与频带相关联的索引。
根据示例,编码器设备包含TNS工具,该TNS工具可被配置为执行滤波运算,包括自相关函数的计算。可能的自相关函数中的一个可呈以下形式:
对于每个k=0..8
其中
且
其中s=0..2
其中X(k)为MDCT系数,sub_start(f,s)以及sub_stop(f,s)与如由编码器带宽检测器及控制器检测的特定带宽相关联。
根据示例,编码器设备可包含噪声估计器工具,该噪声估计器工具可被配置为估计噪声等级。用于此估计的过程中的一个可呈以下形式:
其中gg指全局增益,INF(k)指待估计噪声等级的频谱线的标识,且Xf(k)为信号(例如,MDCT或MDST或TNS之后的另一FD频谱)。
在示例中,可用以下等式获得INF(k):
其中bwstop取决于由编码器带宽检测器及控制器检测的带宽。
根据示例,可提供一种解码器设备,包含多个FD解码器工具,多个FD解码器工具用于解码被编码于比特流中的信息信号,其中:
FD解码器工具细分成:
-包含至少一个FD解码器工具的子群组;
-包含至少一个FD解码器工具的剩余FD解码器工具;
其中解码器设备被配置为使得子群组的多个解码器工具中的至少一个相对于多个解码器工具的剩余FD解码器工具中的至少一个,执行不同带宽的信号处理。
根据示例,解码器设备可包含带宽控制器,该带宽控制器被配置为基于带宽信息选择带宽。
根据示例,解码器设备可使得子群组包含解码器噪声估计器工具和/或时间噪声整形TNS解码器中的至少一个。
根据示例,剩余FD解码器工具中的至少一个为以下中的至少一个:线性预测编码LPC解码器工具、频谱噪声整形器解码器SNS工具、解码器全局增益工具、MDCT或MDST整形工具。
根据示例,解码器设备可被配置为将子群组中的多个解码器工具中的至少一个的带宽控制在以下之间:
剩余FD解码器工具中的至少一个共有的至少第一带宽;以及
不同于第一带宽的至少第二带宽。
根据示例,FD剩余解码器工具中的至少一个被配置为在全带宽下操作。
根据示例,剩余FD解码器工具中的至少一个被配置为相对于带宽(例如,由带宽控制器所选择的)在开链中操作。
根据示例,带宽控制器被配置为在有限数量的带宽中和/或在一组预定义的带宽中选择带宽。
根据示例,带宽控制器被配置为在以下的至少一个或其组合中执行选择:8KHz、16KHz、24KHz、32KHz以及48KHz,和/或NB、WB、SSWB、SWB、FB。
根据示例,解码器可进一步包含噪声填充工具(46),该噪声填充工具(46)可被配置为使用索引来应用噪声等级。例如,用于获得索引的技术可提供如下:
其中bwstop基于比特流中的带宽信息而获得。
根据示例,解码器设备可包含TNS解码器工具,该TNS解码器工具被配置为执行以下操作中的至少一些:
s0(start_freq(0)-1)=s1(start_freq(0)-1)=…=s7(start_freq(0)-1)=0
对于f=0至num_tns_filters-1执行
对于n=start_freq(f)至stop_freq(f)-1执行
对于k=7至0执行
tk(n)=tk+1(n)-rcq(k)sk(n-1)
sk+1(n)=rcq(k)tk(n)+sk(n-1)
其中为TNS解码器的输出,且为TNS解码器的输入,num_tns_filters、start_freq、stop_freq基于比特流中的带宽信息而获得。
比如TNS或噪声填充的编码工具可在频带受限信号的静音区段中创建非想要人工噪声。因此,带宽检测器通常协作以控制所有编码工具应在上工作的带宽。因为带宽检测可能导致不明确的结果,所以此误检测可能导致可听伪声,诸如音频带宽的突然限制。
为了克服该问题,在一些示例中,一些工具,例如量化器,不受带宽检测器控制。在未命中检测的状况下,量化器可编码较高频谱-即使以低质量-以补偿该问题
3.附图说明
图1展示由非导工具产生的人工噪声;
图2展示错误带宽检测的示意性轮廓;
图3及图3a展示根据示例的编码器设备;
图4及图4a展示根据示例的解码器设备;
图5展示在错误带宽检测的状况下的方案;
图6a至图6c展示根据示例的方法;
图7展示根据示例的用于编码器处的TNS的方法;
图8a及图8b展示根据示例的设备。
4.具体实施例
此文档中描述的本发明即使在带宽检测器返回错误结果时也准许避免出现频谱孔。特别的,可获得用于音频编码应用的软频带切换。
关键方面在于,参数编码工具,例如TNS及NF,可受带宽检测器及控制器39的严格控制,而剩余编码,即,基于LPC的频谱整形器或频谱噪声整形器SNS、频谱量化器及残差编码器在高达奈奎斯特(Nyquist)频率的全音频带宽上仍然工作。
图3及图3a概述编码器设备30及30a的示例,其中带宽(BW)检测器及控制器39基于自MDCT或MDST频谱(或其他FD频谱)得出的能量来估计帧中的当前音频带宽。
在解码器侧(图4及图4a),从比特流提取TNS及NF的导引带宽信息,并因此控制工具。
因此,由于用于控制TNS及NF编码工具(非导工具)的带宽参数,避免了非活跃频谱区中的人工产生的噪声。该工具仅适用于活跃音频部分,且因此不会产生任何人工噪声。
在另一侧,因为剩余编码工具,例如频谱量化器、LPC整形器或频谱噪声整形器(SNS)及残差编码器在高达奈奎斯特频率仍然工作,所以误检测(假带宽检测)的可听效应可显著降低。在误检测的状况下,这些工具可编码较高频率-与规则编码相比至少具有更多失真-且因此避免了音频带宽突然下降的更严重印象。
图5展示在错误带宽检测的状况下的新方案:频谱孔被稀疏地量化,但避免了可听带宽下降。
若上图中概述的区主要含有零值,则算术编码器不需要对其编码,这是因为关于最后一个非零频谱元组的信息作为算术编码器的旁侧信息被传输。这意味着算术编码器不需要开销。
传输的带宽所需的旁侧信息也被最小化。由于稳健的切换行为,通常使用的通信音频带宽(即,NB、WB、SSWB及SWB)的信令是合适的。
此技术也允许构建较不复杂的带宽检测器,带宽检测器不使用帧依赖性及长历史记忆来获得稳定的决策,参见EVS编解码器[1]第5.1.6章节。这意味着,新技术允许带宽检测器及控制器39对任何音频带宽变化作出极快速的反应。
因此,带宽信息仅用于控制编解码器(例如,音频编解码器)的特定工具,同时将剩余工具保持于另一操作模式(例如,全带宽)中。
5.示例
5.1.工具的带宽检测及控制
可在时域TD中描述信息信号(例如,音频信号),作为在不同离散时刻(n)获取的一连串样本(例如,x(n))。TD表示可由多个帧构成,每个帧与多个样本相关联(例如,每帧2048个样本)。在频域FD中,帧可表示为一连串频段(例如,X(k)),每个频段与特定频率相关联(每个频率与索引k相关联)。
图3及图3a分别展示编码器设备30及30a,每个编码器设备包含编码器带宽检测器及控制器39,编码器带宽检测器及控制器39能够为编码器设备30或30a的一些工具(编码器处的子群组)选择带宽,使得其他工具以不同带宽操作。编码器带宽检测器及控制器39也能够为解码器的至少一些工具(解码器处的子群组)选择带宽。39a指由编码器带宽检测器及控制器39提供至子群组(例如,33、36)的工具和/或提供至解码器的带宽选择信息。
编码器设备30及30a中的每个可包含低延迟修改型离散余弦变换MDCT工具31或低延迟修改型离散正弦变换MDST工具31(或基于另一变换,诸如重迭变换的工具),其可将信息信号(例如,音频信号)从时域TD表示转换为频域FD表示(例如,以获得MDCT、MDST,或更一般而言,FD系数)。
编码器设备30可包含用于在FD中执行LPC分析的线性预测编码LPC工具32。
编码器设备30a可包含用于在FD中执行SNS分析的SNS工具32a。
编码器设备30及30a中的每个可包含时间噪声整形TNS工具33,以控制FD中(例如,如由MDCT或MDST工具输出)的信息信号的每个窗口内的噪声的时间形状。
编码器设备30及30a中的每个可包含处理FD中的信号的频谱量化器34。如由TNS工具33输出的信号可例如使用死区加均一阈值标量量化来加以量化。可以选择增益索引,使得对量化的FD信号编码所需的位数目尽可能接近可用的位预算。
编码器设备30及30a中的每个可包含处理FD中的信号的编码器35,例如,以执行熵编码,例如,以压缩比特流。编码器35可例如执行残差编码和/或算术编码。
编码器设备30及30a中的每个可包含例如噪声等级估计器工具36,该噪声等级估计器工具36处理FD中的信号,以估计噪声、量化噪声和/或在比特流中传输噪声。
在示例中,可将等级估计器工具36置放于编码器35上游或下游。
编码器设备30及30a中的每个可包含处理时域TD中的信号的工具。举例而言,编码器设备30或30a可包含再采样工具38a(例如,降采用器)和/或长期后滤波LTPF工具38b,以用于在解码器处控制在TD中活跃的LTPF。
编码器设备30及30a中的每个可包含比特流多路复用器工具37,以使用从上游置放的TD和/或FD工具获得的数据来准备比特流。比特流可包含信息信号的数字表示以及待在解码器处使用的控制数据(包括例如用于选择在解码器的一些工具处的带宽的带宽信息)。比特流可经压缩,或包括经压缩的部分。
因此,编码器设备30及30a中的每个可包含FD工具(例如,31至36),并在某些情况下可包含TD工具(例如,38a、38b)。
编码器带宽检测器及控制器39可控制形成第一群组(子群组)的FD工具(诸如时间噪声整形TNS工具33和/或噪声估计器工具36)的带宽。TNS工具33可用于控制量化噪声。因此,不在子群组中的FD工具(诸如LPC工具32和/或SNS工具32a、频谱量化器34及编码器35中的至少一个)执行信号处理的带宽可不同于子群组(例如,33、36)的工具执行信号处理的带宽。举例而言,不在子群组中的FD工具的带宽可较大,例如,可为全带宽。
在示例中,编码器带宽检测器及控制器39可为数字信号处理器的一部分,该数字信号处理器例如也实施编码器设备的其他工具。
图4及图4a分别展示解码器设备40及40a,解码器设备40及40a中的每个可解码例如由编码器30或30a编码的信息信号的数字表示。解码器设备40及40a中的每个可包含FD工具,并在某些情况下可包含TD工具。
解码器设备40及40a中的每个可包含比特流多路复用器工具41,以从编码器设备(例如,设备30或30a)获得比特流(例如,通过传输)。举例而言,可将来自编码器设备30或30a的输出作为输入信号提供至解码器设备40或40a。
解码器设备40及40a中的每个可包含解码器42,解码器42可例如解压缩比特流中的数据。可执行算术解码。可执行残差解码。
解码器设备40及40a中的每个可包含处理FD中的信号的噪声填充工具43。
解码器设备40及40a中的每个可包含处理FD中的信号的全局增益工具44。
解码器设备40及40a中的每个可包含处理FD中的信号的TNS解码器工具45。TNS可简要描述如下。在编码器侧且在量化之前,在频域(FD)中使用线性预测LP对信号滤波,以便在时域中将信号平坦化。在解码器侧且在逆量化之后,在频域中使用逆预测滤波器滤回信号,以便在时域中对量化噪声整形使得其被信号掩蔽。
解码器设备40及40a中的每个可包含MDCT或MDST整形工具46(可使用其他类型的整形工具)。值得注意的是,通过应用从编码器SNS工具32a获得的比例因子(或量化的比例因子)或从变换至MDCT或MDST频谱的经解码的LP滤波器系数(从LPC解码工具47获得)计算的增益因子,MDCT或MDST整形工具46可处理信号。
解码器设备40及40a中的每个可包含逆低延迟逆MDCT或MDST工具48a,以将信号表示从FD变换成TD(可使用基于其他类型的逆变换的工具)。
解码器设备40及40a中的每个可包含LTPF工具48b,以用于例如基于由解码器处的组件38b提供的参数在TD中执行后滤波。
解码器设备40及40a中的每个可包含解码器带宽控制器49,该解码器带宽控制器49被配置为选择FD工具中的至少一个的带宽。具体的,可控制子群组(例如,由工具43及45形成)的带宽,以不同于其他FD工具(42、44、46、47)处理信号的带宽。带宽控制器49可输入信号39a,该信号39a已在编码器侧准备(例如,由带宽检测器及控制器39),以指示子群组(33、36、43、45)中的至少一个选择的带宽。
在示例中,解码器带宽控制器49可执行与由编码器带宽检测器及控制器39处理的操作相似的操作。然而,在一些示例中,解码器带宽控制器49可预期为如下组件:从编码器带宽检测器及控制器39获得控制数据(例如,被编码于比特流中),并将控制数据(例如,带宽信息)提供至子群组的工具(例如,解码器噪声填充工具43和/或TNS解码器工具45)。在示例中,控制器39为主控装置且控制器49为从属装置。在示例中,解码器带宽控制器49可为数字信号处理器的一部分或区段,该数字信号处理器例如也实施解码器的其他工具。
一般而言,带宽控制器39及49可操作以使得子群组的FD工具(例如,编码器设备的33及36和/或解码器设备的43及45)具有相同频带,而解码器和/或编码器的其他FD工具具有另一频带(例如,较宽带带)。
事实上,已经注意到可相应地减少先前技术的缺陷。虽然对于一些FD工具(例如,TNS工具、噪声填充工具)可能倾向于实际执行频带选择,但对于其他FD工具(例如,32、34、35、42、44、46、47)可能倾向于以较宽频带(例如,全频带)处理信号。因此,有可能避免将在为所有工具硬选择带宽的状况下(特别是当选择了错误频带时)存在的频谱孔。
在示例中,由解码器带宽控制器49选择的带宽可为有限数目个选择(例如,有限数目个带宽)中的一个。在示例中,有可能在窄频带NB(例如,4Hz)、宽频带WB(例如,8Hz)、半超宽频带SSWB(例如,12KHz)、超宽频带SWB(例如,16KHz)或全频带FB(例如,20KHz)当中进行选择。
可由编码器设备在数据字段中编码选择,使得解码器设备知晓已选择了哪些带宽(例如,根据编码器带宽检测器及控制器39执行的选择)。
图6a展示方法60。方法60可包含可至少部分地由控制器39及49中的至少一个执行的步骤。方法60可循环,以便执行与信息信号的每个帧相关联的操作。
在步骤S61处,可估计每频带的能量(例如,通过带宽检测器及控制器39)。
在步骤S62处,可检测带宽(例如,通过带宽检测器及控制器39)。
在步骤S63处,可为TNS工具33及噪声估计工具36中的至少一个选择所检测的带宽:这些工具将在S62处检测的带宽下执行其处理。
另外或在替代例中,在步骤S64处,可在比特流中定义(和/或编码)参数以储存和/或传输及待由解码器使用的参数。在这些参数当中,可编码带宽选择信息(例如,39a),使得解码器将知晓为子群组(例如,TNS及噪声填充/估计)检测及选择的带宽。
接着,可检验信息信号的新帧。因此,方法60可通过移动至S61而循环。因此,可逐帧地进行决策。
值得注意的是,根据所检测的带宽,可将不同数目个位编码于比特流中。在示例中,若检测到带宽8KHz(NB),则不会将位编码于比特流中。然而,解码器将理解带宽为8KHz。
图3及图3a的编码器设备30及30a中的每个可包含:
-多个频域FD编码器工具(31至36),用于编码信息信号,该信息信号呈现多个帧;及
-编码器带宽检测器及控制器39,被配置为基于信息信号特性,为多个FD编码器工具的至少子群组(例如,TNS工具33及噪声等级估计器工具36)选择带宽(例如,在S63处),使得子群组的FD编码器工具中的至少一个(例如,33、36)具有不同于不在子群组中的FD编码器工具中的至少一个(例如,31、32、34、35)的带宽。
特别的,编码器带宽检测器及控制器39可被配置为在不在子群组中的FD编码器工具中的至少一个(或多个)共有的至少第一带宽(例如,奈奎斯特频率)与不同于不在子群组中的FD编码器工具中的至少一个(或多个)的带宽的第二带宽(例如,NB、WB、SSWB、SWB)之间,选择子群组(33、36)的至少一个FD编码器工具的带宽。
因此,一些工具可在彼此不同的带宽下操作,和/或使用彼此不同的带宽来执行信号处理。
不在子群组中的工具(例如,全局增益、频谱噪声整形等等)可相对于带宽选择在开链中操作。
在示例中,编码器带宽检测器及控制器39被配置为基于关于信息信号的至少一个能量估计(例如,在S61处),选择(例如,在S62处)多个FD编码器工具(31至36)中的至少一个的带宽。
图4的解码器设备40包含多个FD解码器工具(43至48a),以用于解码被编码于比特流中的信息信号,其中:
FD解码器工具划分成:
-包含至少一个FD解码器工具的子群组(例如,43、45);
-包含至少一个FD解码器工具的剩余FD解码器工具(例如,44、46、48a);
其中解码器设备40或40a被配置为基于比特流中包括的带宽信息,为子群组(例如,43、45)的多个解码器工具中的至少一个选择带宽,使得子群组(例如,43、45)的多个解码器工具中的至少一个相对于多个解码器工具的剩余FD解码器工具(例如,44、46、48a)中的至少一个,执行不同带宽的信号处理。
图6b展示方法60b。方法60b可为用于根据频域FD中的至少多个操作编码信息信号的方法,该方法包含:
为FD操作的子群组选择带宽(例如,S61b);
在FD操作的子群组的带宽下执行第一信号处理操作(例如,S62b);
在不在子群组中的FD操作的不同带宽下执行第二信号处理操作(例如,S63b)。
例如,不必以此时间顺序执行步骤S61b及S62b。举例而言,可在S61b之前执行S62b。S61b及S62b也可并行执行(例如,使用分时技术或相似技术)。
图6c展示方法60c。方法60c可为用于使用信息信号及控制数据(例如,39a)解码比特流的方法,该方法包含频域FD中的多个信号处理操作,该方法包含:
基于控制数据为FD操作的子群组选择带宽选择(S61c);
在FD操作的子群组的带宽下执行第一信号处理操作(S62c);
在不在子群组中的FD操作的不同带宽下执行第二信号处理操作(S63c)。
例如,不必以此时间顺序执行步骤S61c及S62c。举例而言,可在S61c之前执行S62c。S61c及S62c也可并行执行(例如,使用分时技术或相似技术)。
根据示例,编码器带宽检测器及控制器39可例如使用如下等式检测每频带的能量:
其中n=0…NB-1
其中X(k)为MDCT或MDST系数(或FD中的信号的任何其他表示),NB(例如,64)为频带的数目,且为与频带相关联的索引(每个索引与频段相关联)。
因此,可以检测(例如,在S62处)带宽(例如,在有限数目个带宽当中)。编码器带宽检测器及控制器39可能够检测通常用于语音通信中的带宽,即4kHz、8kHz、12kHz及16kHz。举例而言,可以检测每个带宽的安静度。在积极检测带宽的安静度的状况下,进一步检测关于频谱的专用截止特性。举例而言,关于安静度的检测的旗标(或在任何状况下的数据)可如下获得:
其中bw=Nbw-1…0
FQ(bw)为二进制值,若总和小于TQ(bw)则为1,且若总和大于TQ(bw)则为0。当能量值的总和小于特定带宽bw的阈值时,与特定带宽bw相关联的FQ(bw)指示安静度(例如,逻辑值为“1”)(以及否则为“0”)。总和与不同索引处的能量值的和(例如,每频段或频带的能量)相关,例如,其中n为从与索引Ibw start(bw)相关联的带宽的第一索引至与索引Ibw stop(bw)相关联的带宽的最后一个索引。所检验带宽的数目为Nbw。
当FQ(bw)==0时(能量大于带宽bw的阈值),过程可终止。若FQ(bw+1)==1,则可通过以下等式检测指示频谱的截止特性的旗标FC(b):
FC(b)=[10log10(Eb(b-D))-10log10(Eb(b))]<TC(bw)
其中b=Ibw siart(bw)…Ibw siari(bw)-D
其中D定义应被检查截止特性的频带之间的距离,即,D(bw)。
接着,可以定义待用以控制子群组(例如,TNS工具33和/或噪声等级估计工具36和/或TNS解码器工具45和/或噪声填充工具43)的最终信息(带宽信息或带宽选择信息)。最终信息可例如被编码在一些位中,且可采取如下形式:
参数带宽Pbw(带宽选择信息)可用于控制例如解码器处的TNS及噪声填充工具并体现信号39a。可使用位数目nbitsbw在比特流中储存和/或传输参数Pbw。值得注意的是,位数目不一定是恒定的,且可根据所选的采样率fs而变化,因此在不必要的情况下减少比特流的有效载荷。
可使用诸如下表的表:
表1
fs为给定的采样率(例如,8KHz、16KHz、24KHz、32KHz和/或48KHz),且对于每个fs,可能的模式数目为Nbw+1。
因此,可以对控制数据字段进行0数据编码,包括:
-对应于NB带宽(信令对NB带宽的选择)的0个数据位;
-对应于NB及WB带宽(信令对NB及WB带宽中的一个的选择)的1个数据位;
-对应于NB、WB及SSWB带宽(信令对NB、WB及SSWB带宽中的一个的选择)的2个数据位;
-对应于NB、WB、SSWB及SWB带宽(信令对NB、WB、SSWB及SWB带宽中的一个的选择)的2个数据位;
-对应于NB、WB、SSWB、SWB及FB带宽(信令对NB、WB、SSWB、SWB及FB带宽中的一个的选择)的3个数据位。
可将表1的至少一些部分的电子版本储存于编码器和/或编码器中。因此,当参数带宽为Pbw时,可以自动地知晓用于TNS及噪声填充操作的控制信息。举例而言,Ibw start可指与带宽下端相关联的起始索引,Ibw stop可指与带宽上端相关联的最终索引。因此,基于此选择的带宽选择及参数可从诸如表1的表中得出。
在示例中,当fs=8000时,不需要带宽检测器,并且Pbw=0且nbitsbw=0,即,参数Pbw未置放于比特流中。然而,解码器将理解,所选带宽为NB(例如,基于诸如表1的电子版本的电子仪器)。
可使用其他方法。可识别带宽NB、WB、SSWB、SWB、FB中的一个,并将其传输至编码器子群组的FD工具,诸如TNS整形工具33及噪声估计器工具36。可对诸如参数Pbw的信息(39a)编码并将该信息传输至解码器设备40或40a,使得解码器噪声估计器工具43及TNS解码器工具45利用关于所选择带宽的信息。
在一般意义上,构成选择带宽的基础的信息信号特性(除其他以外)可包含以下中的一个或多个:信号带宽、信息信号的至少一个能量估计、关于频谱的截止特性、关于在一些特定频带中的安静度的检测的信息FQ(bw)等等。
上述示例准许获得软带宽切换。
5.2编码器处的MDCT或MDST(或其他变换)
修改型离散余弦变换(MDCT)或修改型离散正弦变换(MDST)(或另一经调变重叠变换)工具31可将TD中的数字表示转换成FD中的数字表示。尽管使用了其他示例(可能基于其他变换,诸如重叠变换)。此处提供了示例。
TD中的当前帧b的输入信号x(n)可由NF个音频样本组成,其中最新的音频样本位于x(NF-1)处。过去帧的音频样本通过负索引来访问,例如,x(-1)为前一帧的最新值。
可根据下式更新用于MDCT的时间输入缓冲区t:
·t(n)=x(Z-NF+n)其中n=0..2NF-1-Z
·t(2NF-Z+n)=0其中n=0..Z-1(仅为一致性要求初始化)
可使用以下等式将NF个时间样本的区块变换成频率系数X(k):
其中k=0..NF-1
其中wN为根据所用的帧大小的低延迟MDCT窗口。可针对NF=480优化窗口,且可借助于内插产生用于不同帧大小的其他版本。窗口形状可为优化过程的结果,且可逐点提供。
也可应用MDST或其他变换。
5.3.1编码器处的LPC
线性预测编码(LPC)分析可由LPC工具32执行。LPC用于使用线性预测模型的信息以压缩形式表示数字信号的频谱包络。
LPC滤波器可在翘曲频域中得出,且因此在心理声学上被优化。为了获得自相关函数,如上文所定义的能量EB(b)可由下式预先加强(pre-emphasize):
其中b=0..NB-1
其中
且使用例如逆奇数DFT变换成时域。
其中n=0..NB-1
RPre(0)=RPre(0)*1.0001
若RPre(0)=0,则设定RPre(0)=1且RPre(1..NB-1)=0。前NL个样本被提取至向量RL=RPre(0..NL-1)中,其中NL表示LP滤波器阶数,即,NL=16。
举例而言,可基于向量RL通过Levinson-Durbin过程来计算LP滤波器系数。此过程可由以下伪程序代码描述:
e=RL(0)
a0(0)=1
对于k=1至NL执行
ak(0)=1
对于n=1至k-1执行
ak(n)=ak-1(n)+rc.ak-1(k-n)
ak(k)=rc
e=(1-rc2)e
其中k=0..NL为估计的LPC系数且e为预测误差。
在示例中,LPC系数可通过以下等式加权:
aw(k)=a(k)·0.94k其中k=0..NL
LPC系数可被量化。
举例而言,加权的LPC系数aw(k)首先使用下式与系数b(i)卷积:
其中k=0..NL+2
其中
且
接着可使用下式将系数aw(k)变换至频域:
其中k=0..NT-1
其中NT=256为变换长度。应注意,此变换可使用剪枝FFT高效地实施。接着提取A(k)的实数及虚数部分
Ar(k)=Re(A(k))其中
Ai(k)=Im(A(k))其中
LSF可通过Ar(k)与Ai(k)的过零(zero-crossing)搜寻获得,该过零搜寻可用以下伪程序代码描述:
若发现少于16个LSF,则根据下式设定LSF:
其中k=0..NL-1
通过应用从变换至MDCT或MDST频谱的加权并量化的LP滤波器系数计算的增益因子,可在MDCT或MDST(FD)域中执行LPC整形。
为了计算NB=64个LPC整形增益,加权的LP滤波器系数首先使用奇数DFT变换至频域。
其中b=0..NB-1
接着可获得作为GLPC(b)的绝对值的LPC整形增益gLPC(b)。
gLPC(b)=|GLPC(b)|其中b=0..NB-1
LPC整形增益gLPC(b)可分别应用于每个频带的MDCT或MDST频率线,以便产生如以下程序代码概述的整形频谱Xs(k)。
如可从上文看出,用于执行LPC分析的LPC工具不受控制器39的控制:例如,未选择特定带宽。
5.3.2编码器处的SNS
参看图4a,可以使用频谱噪声整形器工具32a。
频谱噪声整形(SNS)在频域中对量化噪声整形,使得其最少地被人耳感知,从而最大化解码输出的感知质量。
可使用例如16个缩放参数来执行频谱噪声整形。这些参数可在编码器中通过以下操作获得:首先计算64个非均一频带中的MDCT(或MDST或另一变换)频谱的能量,接着对64个能量应用某处理(平滑化、预先加强、设噪声底限、对数转换),接着对64个处理过的能量降采样4倍以获得16个最终归一化并缩放的参数。接着可使用向量来量化这16个参数。接着可对量化参数内插以获得64个内插缩放参数。接着使用这64个缩放参数来直接整形64个非均一频带中的MDCT(或MDST…)频谱。接着可使用具有由全局增益控制的步长的标量量化器来量化缩放的MDCT(或MDST…)系数。在解码器处,在每64个频带中执行逆缩放,从而将由标量量化器引入的量化噪声整形。本文中揭示的SNS技术可使用例如仅16+1个参数作为旁侧信息,且可使用向量量化以低的位数目高效地编码参数。因此,减少了旁侧信息位的数目,此可在低比特率和/或低延迟下产生显著优势。可使用非线性频率缩放。在此示例中,不使用LPC相关函数以降低复杂度。所需的处理功能(平滑化、预先加强、设噪声底限、对数转换、归一化、缩放、内插)相比之下需要极小的复杂度。仅向量量化仍然具有相对高的复杂度。然而,可以使用具有小的性能损失的一些低复杂度向量量化技术(多分割/多级方法)。此SNS技术不依赖于基于LPC的感知滤波器。其使用16个缩放参数,这些缩放参数可很自由地计算。因此增大了灵活性。
在编码器30a处,SNS工具32可执行以下段落中的至少一个:
·步骤1:每频带的能量
可如下计算每频带的能量EB(n):
其中b=0…NB-1
其中X(k)为MDCT(或MDST或另一变换)系数,NB=64为频带的数目且为频带索引。频带可为非均一的,且遵循感知相关的巴克尺度(低频更小,高频更大)。
·步骤2:平滑化
使用下式来平滑化每频带的能量EB(b):
此步骤可主要用于平滑化可能出现在向量EB(b)中的可能的不稳定性。若未平滑化,则这些不稳定性在转换至对数域时会被放大(参见步骤5),尤其是在能量接近于0的谷值中。
·步骤3:预先加强
接着使用下式来预先加强每频带的平滑化能量ES(b):
其中b=0..63
其中gtitt控制预先加强倾斜且取决于采样频率。其例如在16kHz下为18且在48kHz下为30。在此步骤中使用的预先加强与在先前技术2的基于LPC的感知滤波器中使用的预先加强具有相同目的,增加了低频中的整形频谱的振幅,从而减少了低频中的量化噪声。
·步骤4:设噪声底限
使用下式将-40dB的噪声底限添加至EP(b):
EP(b)=max(EP(b),noiseFloor)其中b=0..63
其中通过下式计算噪声底限:
通过限制谷值中的整形频谱的振幅放大,这具有减少峰值中的量化噪声的间接效应(谷值中的量化噪声的增加为不可感知的),此步骤改良了含有极高频谱动态的信号(例如,钟琴)的质量。
·步骤5:取对数
接着使用下式执行至对数域的变换:
其中b=0..63
·步骤6:降采样
接着使用下式对向量EL(b)降采样4倍:
其中
此步骤在抽取(decimation)之前将低通滤波器(w(k))应用于向量EL(b)。此低通滤波器具有与用于心理声学模型中的扩展函数相似的效应:减少了峰值处的量化噪声,代价是增加了峰值周围的量化噪声,无论如何其皆被感知掩蔽的。
·步骤7:平均值移除及缩放
最终比例因子是在平均值移除及缩放0.85倍之后获得
其中n=0..15
因为编解码器具有额外全局增益,所以可在不丢失任何信息的情况下移除平均值。移除平均值也允许更高效的向量量化。0.85的缩放稍微压缩了噪声整形曲线的幅度。它具有与步骤6中提及的扩展函数相似的感知效应:减少峰值处的量化噪声并增加谷值中的量化噪声。
·步骤8:量化
使用向量量化来量化比例因子,从而产生索引(索引然后将被打包至比特流中并发送至解码器)及量化的比例因子scfQ(n)。
·步骤9:内插
量化的比例因子scfQ(n)使用下式来内插:
scfQint(0)=scfQ(0)
scfQint(1)=scfQ(0)
其中n=0..14
其中n=0..14
其中n=0..14
其中n=0..14
且使用下式变换回线性域:
gSNS(b)=2scfQint(b)其中b=0..63
内插可用于获得平滑噪声整形曲线,且因此避免了邻近频带之间的任何大振幅跳跃。
·步骤10:频谱整形
SNS比例因子gSNS(b)被分别应用于每个频带的MDCT(或MDST或另一变换)频率线,以便产生整形频谱XS(k)
其中其中b=0..63
5.4编码器处的TNS
图7展示指示TNS工具,诸如编码器30或30a的TNS工具33的操作的方法70。
在步骤S71处,举例而言,可从编码器带宽检测器及控制器39获得关于所选择带宽的选择信息(例如,参数Pbw)。
根据选择信息(带宽信息),不同带宽(NB、WB、SSWB、SWB、FB)的TNS的行为不同。下表提供示例:
表2
举例而言,当选择信息为SWB时,TNS将执行滤波两次(参见num_tns_filters)。如可从该表看出,不同索引与不同带宽相关联(例如,对于NB,终止频率与对于WB不同,等等)。
因此,如可看出,TNS工具33可基于控制器39布置的选择在不同带宽下操作。值得注意的是,相同编码器设备40或40a的其他FD工具可继续以不同频率执行处理。
在下文描述TNS编码步骤。首先,分析估计每个TNS滤波器的一组反射系数(步骤S72)。接着,量化这些反射系数(步骤S73)。以及最后,使用量化的反射系数对MDCT频谱或MDST频谱滤波(步骤S73)。
参看步骤S72,可针对每个TNS滤波器f重复下文所描述的完整的TNS分析,其中f=0..num_tns_filters-1(表2中给出了num_filters)。可执行其他TNS分析操作,其提供反射系数。
TNS工具可被配置为对TNS输入值执行自相关。归一化的自相关函数可如下计算,对于每个k=0..8(例如)
其中
且
其中s=0..2
其中表2给出了sub_start(f,s)及sub_stop(f,s)。e(s)为频谱子部分的能量和(每个滤波器的起始频率与终止频率之间的归一化因子)。
归一化的自相关函数可使用例如下式来滞后加窗:
其中k=0..8
在一些示例中,可以基于预测增益执行在当前帧中打开/关闭TNS滤波器f的决策。
若predGain>thresh,则打开TNS滤波器f。
其中thresh=1.5且可通过下式计算预测增益
仅当TNS滤波器f打开时(或在不使用打开/关闭的示例中)才执行下文所描述的额外步骤。
在一些示例中,通过下式计算加权因子
其中thresh2=2,γmin=0.85且
可使用因子γ来对LPC系数加权
aw(k)=γka(k)其中k=0..8
加权的LPC系数可使用以下过程转换成反射系数:
aK(k)=aw(k),k=0,…,K
对于k=K至1执行
rc(k)=ak(k)
e=(1-rc(k)2)
对于n=1至k-1执行
其中rc(k,f)=rc(k)为TNS滤波器f的最终估计的反射系数。
若关闭了TNS滤波器f,则可简单地将反射系数设定至0:rc(k,f)=0,k=0..8。
在步骤S73处,可执行量化步骤。举例而言,对于每个TNS滤波器f,可量化反射系数(例如,如在步骤S72处获得)。举例而言,可使用反正弦域中的标量均匀量化:
其中k=0..8
和/或
rcq(k,f)=sin[Δ(rci(k,f)-8)]其中k=0..8
其中及nint(.)为例如就近数舍入整数的函数;
rci(k,f)为量化器输出索引;且rcq(k,f)为量化的反射系数。
可使用以下计算量化的反射系数的阶数:
k=7
当k≥0且rcq(k,f)=0时,执行
k=k-1
rcorder(f)=k+1
可如下计算当前帧中TNS消耗的总位数目:
其中
和/或
指对整数的舍入运算。
可预定义表tab_nbits_TNS_order及tab_nbits_TNS_coef。
在步骤S74处,可对FD中的信息信号的数字表示(例如,如由LPC工具32或SNS工具32a提供)滤波。在示例中,此表示可呈修改型离散余弦或正弦变换(MDCT或MDST)的形式。可使用以下算法来对MDCT频谱Xs(n)滤波,例如:
s0(start_freq(0)-1)=s1(start_freq(0)-1)=…=s7(start_freq(0)-1)=0
对于f=0至num_tns_filters-1执行
对于n=start_freq(f)至stop_freq(f)-1执行
t0(n)=s0(n)=Xs(n)
对于k=0至7执行
tk+1(n)=tk(n)+rcq(k)sk(n-1)
sk+1(n)=rcq(k)tk(n)+sk(n-1)
Xf(n)=t8(n)
其中Xf(n)为TNS滤波的MDCT或MDST频谱。
可使用其他滤波技术。然而,可看出,TNS被应用于由控制器39基于信号特性选择的特定带宽(例如,NB、WB、SSWB、SWB、FB)。
5.5编码器处的频谱量化
此处论述了频谱量化器工具34。可使用死区加上均一阈值标量量化来量化TNS滤波之后的MDCT或MDST频谱(Xf(n)),接着可使用算术编码来编码量化的MDCT或MDST频谱Xq(n)。全局增益gg可控制量化器的步长。此全局增益用7个位量化,且量化的全局增益索引ggind则为整数,例如,在0与127之间。可选择全局增益索引,使得对量化的MDCT或MDST频谱编码所需的位数目尽可能接近可用的位预算。
在一个示例中,可用于编码频谱的位数目可由下式给出:
其中nbits为原始信息信号的一个TD帧中可用的位数目,表1中提供了nbitsbw,nbitsTNS由TNS提供(当前帧中TNS消耗的总位数目),nbitsLTPF与LTPF 38b相关联(LTPF消耗的位数目),例如,nbitsLPC/SNS=38,nbitsgain=7且nbitsnf=3。在示例中,也可考虑保护位(例如,循环冗余代码CRC位)。
首先可使用下式计算偏移:
其中为前一帧中的nbitsoffset的值,为前一帧中的nbitsspec的值,且为前一帧中的nbitsest的值。
此偏移接着可用于调整可用于编码频谱的位数目
nbitsspec=nint(nbitsspec+nbitsoffset)
接着可估计全局增益索引,使得对量化的MDCT或MDST频谱编码所需的位数目尽可能接近可用的位预算。此估计基于低复杂度对分搜寻,其粗略地近似对量化的频谱编码所需的位数目。该算法可描述如下:
其中E[k]为由下式给出的4个MDCT或MDST系数的区块的能量(以dB为单位)
其中
首先使用下式来量化上述全局增益索引:
接着使用例如下式来量化频谱Xf:
可使用以下算法准确地估计对量化的MDCT或MDST(或无论如何FD)频谱Xq(n)编码所需的位数目nbitsest。
首先使用例如以下来计算比特率旗标:
接着通过以下获得最后一个非置零的2元组的索引:
位数目nbitsest接着可计算如下:
其中ac_lookup及ac_bits为可预定义的表。
可比较位数目nbitsest与可用的位预算nbitsspec。若它们彼此相距较远,则调整量化的全局增益索引ggind并重新量化频谱。下文给出用于调整量化的全局增益索引ggind的过程:
如可从上文看出,频谱量化不受控制器39控制:未限制特定频带。
5.6熵编码
可例如根据任何算法通过压缩来对经编码的数据(TNS数据、LTPF数据、全局增益、量化的频谱…)的全部或部分熵编码。
此数据的一部分可由纯位构成,纯位从比特流末尾开始并向后直接置于比特流中。
可使用从比特流起始开始并向前的算术编码来编码其余数据。
上述两个数据字段可在比特流的读取/写入起点及方向的方面上进行交换。
伪程序代码中的示例可为:
5.7编码器处的噪声估计
噪声估计工具36(噪声等级估计器)可控制解码器侧的噪声填充。在编码器侧,可在比特流中估计、量化及传输或储存噪声等级参数。
可基于已量化至零的频谱系数来估计噪声等级,即,Xq(k)==0。相关频谱系数的索引由下式给出:
其中bwstop可取决于在步骤S62处和/或由带宽检测器及控制器39所检测的带宽,如例如在下表中定义:
表3
对于所识别的索引,缺失系数(missing coefficient)的平均等级基于TNS滤波之后的频谱(Xf(k))被估计,例如,以及通过全局增益被归一化。
最终噪声等级可被量化到八个步阶:
因此,噪声等级估计器工具36可由控制器39例如基于带宽信息39a而控制。
举例而言,表3的电子版本可储存于存储单元中,使得当获得对特定带宽的带宽选择时,容易得出参数bwstop。
5.8解码器处的熵解码
例如,使用解码器工具42,可在解码器侧对所有经编码的数据(TNS数据、LTPF数据、全局增益、量化的频谱…)熵解码。因此,可根据任何算法将由编码器提供的比特流解压。
5.9解码器处的噪声填充
此处论述了解码器噪声填充工具43。解码器噪声填充工具43除其他以外可由解码器带宽控制器49(和/或经由被编码于比特流中的信息39a,诸如表1的控制数据字段Nbw和/或Pwb,由控制器39)控制。
相关频谱系数的索引可由下式给出:
其中bwstop可在表3中给出。
可使用从编码器获得的传输噪声因子FNF将噪声填充应用于所识别的相关频谱线INF(k)。可在编码器侧的噪声估计器处计算FNF。FNF可为编码为比特流中的旁侧信息的3位值。例如,可使用以下过程获得FNF:
此处提供如下过程:
举例而言,可通过以下伪程序代码来描述获得nf_seed的方式:
如可从上文看出,解码器噪声滤波器工具43可利用参数bwstop。
在一些示例中,参数bwstop被明确地获得为比特流中的值。在示例中,参数bwstop由控制器49基于由编码器编码的比特流的控制字段中的带宽信息39a(Pbw)而获得。解码器可具有储存于非暂时性存储单元中的表3的电子版本。因此,比特流长度减小了。
因此,带宽控制器49(和/或解码器的带宽检测器及控制器39经由控制数据39a)可控制解码器噪声填充工具43。
5.9解码器处的全局增益
在应用噪声填充之后,可使用例如下式将全局增益应用于频谱:
其中k=0..NE-1
其中ggind为全局增益索引,例如,从编码器获得。
5.10解码器处的TNS
此处论述了TNS解码器工具45。可使用下式获得每个TNS滤波器的量化的反射系数:
rcq(k,f)=sin[Δ(rci(k,f)-8)]k=0..8
其中rci(k,f)为量化器输出索引。
接着可使用诸如以下过程来对MDCT或MDST频谱(例如,如由全局增益工具产生)滤波:
其中为TNS解码器的输出。
基于由编码器提供的控制信息,可提供参数num_tns_filters、start_freq及stop_freq。
在一些示例中,比特流中未明确地提供num_tns_filters、start_freq和/或stop_freq。在示例中,基于由编码器编码的比特流的控制字段中的Nbw值得出num_tns_filters、start_freq及stop_freq。举例而言,解码器可具有储存于其中的表2的电子版本(或至少其一部分)。因此,比特流长度减小了。
因此,TNS解码器工具45可受在编码器侧检测的带宽控制。
5.11.1解码器处的MDCT或MDST整形
此处论述了MDCT或MDST整形工具46。通过应用从变换至MDCT或MDST频谱的经解码的LP滤波器系数计算的增益因子,可在MDCT(FD)域中执行LPC或SNS整形。
为了计算NB LPC整形增益,可首先使用奇数DFT将经解码的LP滤波器系数变换至频域。
其中b=0..NB-1
接着可将LPC整形增益gLPC(b)计算为GLPC(b)的倒数绝对值。
其中b=0..NB-1
LPC整形增益gLPC(b)可如所概述那样分别应用于每个频带的TNS滤波的MDCT频率线,以便例如通过以下程序代码产生如所概述的整形频谱
如上文可看出,MDCT或MDST整形工具46不需要限于特定带宽,且因此,不需要受控制器49或39控制。
5.11.2解码器处的SNS
以下步骤可在噪声整形器解码器SNS工具46a处执行:
·步骤1:量化
从比特流读取在编码器步骤8中产生的向量量化器索引(参见章节5.3.2),且向量量化器索引用于解码量化的比例因子scfQ(n)。
·步骤2:内插
与章节5.3.2处的步骤9相同。
·步骤3:频谱整形
SNS比例因子gSNS(b)分别应用于每个频带的量化的MDCT(或MDST或另一变换)频率线,以便通过以下程序代码产生如所概述的经解码的频谱
其中其中b=0..63
5.12解码器处的MDCT或MDST合成
此处论述了逆MDCT或MDST工具48a(可使用基于其他变换,诸如重叠变换的其他工具)。
可通过以下步骤将重建构的频谱变换至时域:
1.时域混迭缓冲区的产生
其中n=0..2NF-1
2.时间混迭缓冲区的加窗
其中n=0..2NF-1
3.进行重叠加法运算以获得重建构的时间样本
其中n=0..NF-Z-1
其中n=NF-Z..NF-1
其中n=0..NF-Z-1
其中mem_ola_add(n)在解码第一帧之前初始化为0。
参看步骤1,可通过正弦函数交换cos函数来执行MDST,例如,以具有:
其中n=0..2NF-1
如上文可看出,逆MDCT或MDST工具48a不受基于在编码器侧确定的带宽的控制。
6.其他示例
图8a展示设备110,设备110可实施编码器设备30或30a的至少一些工具和/或执行方法60和/或70的至少一些步骤。设备110可包含处理器111及储存指令的非暂时性内存单元112,指令在由处理器111执行时可致使处理器111实施编码器设备30或30a的TD和/或FD工具中的至少一个。特别的,指令可实施FD工具(例如,TNS和/或噪声填充)的子群组及不在该子群组中的其他FD工具(例如,31、32、34、35)。指令也可包含如下指令:在由处理器111执行时,执行带宽选择,使得由FD工具(例如,TNS和/或噪声填充)的子群组中的工具处理的信号的带宽不同于由不在该子群组中的其他FD工具(例如,31、32、34、35)处理的信号的带宽。指令可使得基于与不同带宽相关联的能量检测而控制带宽选择。指令也可包含如下指令:在由处理器111执行时,准许控制解码器,且特别的,准许控制FD工具(例如,43、45)的子群组的带宽,该带宽可不同于其他FD工具的带宽。为编码器处的子群组选择的带宽可与为解码器处的子群组选择的带宽相同。非暂时性内存单元112也可包含其他数据,诸如表1、2和/或3的电子版本的至少部分。设备110可包含存储空间118,以用于储存例如从信息信号(例如,音频信号)获得的比特流。设备110可包含输出单元117,以用于例如使用诸如蓝芽的特定协议例如无线地传输数据。举例而言,通过执行储存于非暂时性内存单元112中的指令,设备110可定义待传输至解码器的比特流。设备110也可包含输入单元116,以用于例如使用诸如蓝芽的特定协议例如无线地获得数据。
图8b展示设备120,设备120可实施解码器设备40或40a的至少一些工具。设备120可包含处理器121及储存指令的非暂时性内存单元122,指令在由处理器121执行时可致使处理器121实施解码器设备40或40a的TD和/或FD工具中的至少一个。特别是,指令可实施FD工具(例如,TNS和/或噪声填充)的子群组及不在该子群组中的其他FD工具(例如,44、46等等)。指令也可包含如下指令:在由处理器121执行时,执行带宽的选择,使得由FD工具(例如,TNS和/或噪声填充)的子群组中的工具处理的信号的带宽不同于由不在该子群组中的其他FD工具(例如,44、46等等)处理的信号的带宽。指令可使得基于与不同带宽相关联的能量检测(如例如由编码器执行)而控制带宽选择。指令也可包含如下指令:在由处理器121执行时,准许作为编码器操作,且特别是,准许控制FD工具(例如,43、45)的子群组的带宽,该带宽可不同于其他FD工具的带宽。为编码器处的子群组选择的带宽可与为解码器处的子群组选择的带宽相同。非暂时性内存单元122也可包含其他数据,诸如表1、2和/或3的电子版本的至少部分。设备120可包含存储空间128,以用于储存,例如,从信息信号(例如,音频信号)获得的比特流。设备120可包含输出单元127,以用于例如使用诸如蓝芽的特定协议例如无线地传输数据。设备120也可包含输入单元126,以用于例如使用诸如蓝芽的特定协议例如无线地获得数据。举例而言,通过执行储存于非暂时性内存单元122中的指令,设备120可获得由解码器传输的比特流。
在示例中,设备110与120可为相同装置。在示例中,不同设备110与120的组合形成系统。
取决于特定实施要求,示例可以以硬件实施。可使用数字储存介质执行该实施,数字储存介质为例如软盘、数字多功能光盘(DVD)、蓝光光盘、光盘(CD)、只读存储器(ROM)、可编程只读存储器(PROM)、可擦除及可编程只读存储器(EPROM)、电可擦除可编程只读存储器(EEPROM)或闪存,其上储存有电子可读控制信号,电子可读控制信号与可编程计算机系统协作(或能够协作)使得执行相应方法。因此,数字储存介质可为计算机可读的。
通常,示例可实施为具有程序指令的计算机程序产品,当计算机程序产品在计算机上运行时,程序指令操作性地用于执行方法中的一个。程序指令可例如储存于机器可读介质上。
其他示例包含用于执行本文中所描述的方法中的一个、储存于机器可读载体上的计算机程序。换言之,方法的示例因此为计算机程序,其具有用于在计算机程序于计算机上执行时执行本文中所描述的方法中的一个的程序指令。
方法的另一示例因此为数据载体介质(或数字储存介质,或计算机可读介质),包含用于执行本文中所描述的方法中的一个的计算机程序记录于其上。数据载体介质、数字储存介质或记录介质为有形和/或非暂时性的,而非无形及暂时性的信号。
另一示例包含处理单元,例如计算机或可编程逻辑设备,其执行本文中所描述的方法中的一个。
另一示例包含计算机,其上安装有用于执行本文中所描述的方法中的一个的计算机程序。
另一示例包含将用于执行本文中所描述的方法中的一个的计算机程序传送(例如以电子方式或以光学方式)至接收器的设备或系统。举例而言,接收器可为计算机、移动装置、内存装置或其类似者。设备或系统可例如包含用于传送计算机程序至接收器的文件服务器。
在一些示例中,可编程逻辑设备(例如,场可编程门阵列)可用以执行本文中所描述的方法的功能性中的一些或全部。在一些示例中,场可编程门阵列可与微处理器协作,以便执行本文中所描述的方法中的一个。通常,方法可由任何适当的硬设备执行。
上述示例说明上文所论述的原理。应理解,本文中所描述的配置及细节的修改及变化将为显而易见的。因此,希望受到随附权利要求的范围限制,而不受通过本文中的示例的描述及解释所呈现的特定细节限制。
Claims (25)
1.一种编码器设备,包含:
多个频域FD编码器工具,用于编码音频信号,音频信号呈现多个帧;以及
编码器带宽检测器及控制器(39),被配置为基于音频信号特性,为多个FD编码器工具的至少子群组(33,36)选择带宽,子群组(33,36)包括少于多个FD编码器工具的FD编码器工具,使得子群组(33,36)的FD编码器工具中的至少一个相对于不在子群组(33,36)中的FD编码器工具中的至少一个具有不同带宽;
其中子群组的至少一个FD编码器工具为时间噪声整形TNS工具(33)或噪声等级估计器工具(36);
其中不在子群组(33,36)中的至少一个FD编码器工具选自以下中的至少一个:线性预测编码LPC工具、频谱噪声整形SNS工具、频谱量化器以及残差编码器。
2.根据权利要求1所述的编码器设备,其中:
编码器带宽检测器及控制器(39)被配置为,在不在子群组中的FD编码器工具中的至少一个共有的至少第一带宽和与不在子群组中的FD编码器工具中的至少一个的带宽不同的第二带宽之间,选择子群组(33,36)的至少一个FD编码器工具的带宽。
3.根据权利要求1所述的编码器设备,其中:
编码器带宽检测器及控制器(39)被配置为基于关于音频信号的至少一个能量估计,选择多个FD编码器工具中的至少一个的带宽。
4.根据权利要求1所述的编码器设备,其中:
编码器带宽检测器及控制器(39)被配置为比较与音频信号的带宽相关联的至少一个能量估计和相应阈值以控制用于多个FD编码器工具中的至少一个的带宽。
5.根据权利要求1所述的编码器设备,其中,不在子群组中的FD编码器工具中的至少一个被配置为在全带宽下操作。
6.根据权利要求1所述的编码器设备,其中,编码器带宽检测器及控制器(39)被配置为选择全带宽内的至少一个带宽,不在子群组中的FD编码器工具中的至少一个被配置为在全带宽下操作。
7.根据权利要求1所述的编码器设备,其中,不在子群组中的FD编码器工具中的至少一个被配置为相对于被编码器带宽检测器及控制器(39)选择的带宽在开链中操作。
8.根据权利要求1所述的编码器设备,其中:
编码器带宽检测器及控制器(39)被配置为在有限数量的带宽中和/或在一组预定义的带宽中选择带宽。
9.根据权利要求1所述的编码器设备,其中:
编码器带宽检测器及控制器(39)被配置为在以下带宽的至少一个或组合中执行选择:4KHz、8KHz、12KHz、16KHz以及24KHz,和/或NB、WB、SSWB、SWB、FB。
10.根据权利要求1所述的编码器设备,其中:
编码器带宽检测器及控制器(39)被配置为控制带宽至解码器的信令。
11.根据权利要求1所述的编码器设备,被进一步配置为:
编码包括关于所选带宽的信息的控制数据字段。
12.根据权利要求3所述的编码器设备,其中,至少一个能量估计被执行为:
其中n=0…NB-1
其中X(k)为MDCT或MDST或FD系数,NB为频带数量,以及为与频带相关联的索引。
13.一种编码器设备,包含:
多个频域FD编码器工具,用于编码音频信号,音频信号呈现多个帧;以及
编码器带宽检测器及控制器(39),被配置为基于音频信号特性,为多个FD编码器工具的至少子群组(33,36)选择带宽,子群组(33,36)包括少于多个FD编码器工具的FD编码器工具,使得子群组(33,36)的FD编码器工具中的至少一个相对于不在子群组(33,36)中的FD编码器工具中的至少一个具有不同带宽;
其中子群组(33,36)的多个FD编码器工具中的至少一个包含TNS工具(33),所述TNS工具(33)被配置为在被编码器带宽检测器及控制器(39)选择的带宽内对TNS输入信号进行自相关。
14.一种编码器设备,包含:
多个频域FD编码器工具,用于编码音频信号,音频信号呈现多个帧;以及
编码器带宽检测器及控制器(39),被配置为基于音频信号特性,为多个FD编码器工具的至少子群组(33,36)选择带宽,子群组(33,36)包括少于多个FD编码器工具的FD编码器工具,使得子群组(33,36)的FD编码器工具中的至少一个相对于不在子群组(33,36)中的FD编码器工具中的至少一个具有不同带宽;
所述编码器设备被进一步配置为:
编码控制数据字段,所述控制数据字段包括:
-对应于NB带宽的0个数据位;
-对应于NB、WB带宽的1个数据位;
-对应于NB、WB、SSWB带宽的2个数据位;
-对应于NB、WB、SSWB、SWB带宽的2个数据位;
-对应于NB、WB、SSWB、SWB、FB带宽的3个数据位。
15.一种编码器设备,包含:
多个频域FD编码器工具,用于编码音频信号,音频信号呈现多个帧;以及
编码器带宽检测器及控制器(39),被配置为基于音频信号特性,为多个FD编码器工具的至少子群组(33,36)选择带宽,子群组(33,36)包括少于多个FD编码器工具的FD编码器工具,使得子群组(33,36)的FD编码器工具中的至少一个相对于不在子群组(33,36)中的FD编码器工具中的至少一个具有不同带宽;
所述编码器设备进一步包含TNS工具(33),所述TNS工具(33)被配置为执行滤波运算,包括对滤波运算的计算:
对于每个k=0..8
其中,
且,
其中s=0..2
其中,X(k)为MDCT或MDST或FD系数,sub_start(f,s)及sub_stop(f,s)与由编码器带宽检测器及控制器(39)所检测的特定带宽相关联。
16.一种编码器设备,包含:
多个频域FD编码器工具,用于编码音频信号,音频信号呈现多个帧;以及
编码器带宽检测器及控制器(39),被配置为基于音频信号特性,为多个FD编码器工具的至少子群组(33,36)选择带宽,子群组(33,36)包括少于多个FD编码器工具的FD编码器工具,使得子群组(33,36)的FD编码器工具中的至少一个相对于不在子群组(33,36)中的FD编码器工具中的至少一个具有不同带宽;
所述编码器设备进一步包含噪声估计器(36),所述噪声估计器(36)被配置为使用以下等式估计噪声等级:
其中gg指全局增益,INF(k)指待估计噪声等级的频谱线的标识,以及Xf(k)为音频信号。
17.一种解码器设备(40,40a),包含用于解码被编码在比特流中的音频信号的多个FD解码器工具(43-48a),其中:
FD解码器工具被划分成:
-包含至少一个FD解码器工具的子群组(43,45),至少一个FD编码器工具为时间噪声整形TNS解码器(45);
-包含至少一个剩余FD解码器工具的剩余FD解码器工具(44,46,48a),其中至少一个剩余FD解码器工具在所述TNS解码器(45)的下游,至少一个剩余FD解码器工具为以下中的一个:
解码器线性预测编码LPC工具,
频谱噪声整形SNS工具(46a),以及
MDCT或MDST整形工具(46)或基于另一变换的另一整形工具;
其中解码器设备(40,40a)被配置为将TNS解码器(45)的带宽控制在至少一个剩余FD解码器工具共有的第一带宽与不同于第一带宽的第二带宽之间,其中第一带宽是全带宽或宽于第二带宽的带宽。
18.根据权利要求17所述的解码器设备,进一步包含带宽控制器(49),所述带宽控制器(49)被配置为:
基于被编码在比特流中的带宽信息选择带宽。
19.根据权利要求17所述的解码器设备,其中,至少一个剩余FD解码器工具被配置为相对于所选带宽在开链中操作。
20.根据权利要求17所述的解码器设备,被进一步配置为:
在有限数量的带宽中和/或在一组预定义的带宽中选择带宽。
21.根据权利要求17所述的解码器设备,被进一步配置为:
在以下的至少一个或组合中执行选择:8KHz、16KHz、24KHz、32KHz以及48KHz,和/或NB、WB、SSWB、SWB、FB。
22.一种解码器设备(40,40a),包含用于解码被编码在比特流中的音频信号的多个FD解码器工具(43-48a),其中:
FD解码器工具被划分成:
-包含至少一个FD解码器工具的子群组(43,45);
-包含至少一个FD解码器工具的剩余FD解码器工具(44,46,48a);
其中解码器设备(40,40a)被配置为使得子群组(43,45)的多个解码器工具中的至少一个相对于多个解码器工具的剩余FD解码器工具(44,46,48a)中的至少一个,执行不同带宽的信号处理;
所述解码器设备进一步包含噪声填充工具(43),所述噪声填充工具(43)被配置为使用由以下等式给出的索引来应用噪声等级:
其中bwstop是基于比特流中的带宽信息而获得的。
23.一种解码器设备(40,40a),包含用于解码被编码在比特流中的音频信号的多个FD解码器工具(43-48a),其中:
FD解码器工具被划分成:
-包含至少一个FD解码器工具的子群组(43,45);
-包含至少一个FD解码器工具的剩余FD解码器工具(44,46,48a);
其中解码器设备(40,40a)被配置为使得子群组(43,45)的多个解码器工具中的至少一个相对于多个解码器工具的剩余FD解码器工具(44,46,48a)中的至少一个,执行不同带宽的信号处理;
所述解码器设备进一步包含时间噪声整形TNS解码器(45),所述TNS解码器(45)被配置为执行:
s0(start_freq(0)-1)=s1(start_freq(0)-1)=…=s7(start_freq(0)-1)=0
对于f=0至num_tns_filters-1执行
对于n=start_freq(f)至stop_freq(f)-1执行
对于k=7至0执行
tk(n)=tk+1(n)-rcq(k)sk(n-1)
sk+1(n)=rcq(k)tk(n)+sk(n-1)
其中为TNS解码器的输出,且为TNS解码器的输入,num_tns_filters、start_freq、stop_freq是基于比特流中的带宽信息(39a)而获得的。
24.一种用于根据频域FD中的至少多个操作对音频信号进行编码的方法,所述方法包含:
为FD操作的子群组选择带宽,其中子群组包括时间噪声整形TNS操作(33);
在FD操作的子群组的带宽下执行第一信号处理操作;
在不在子群组中的FD操作的不同带宽下执行第二信号处理操作,其中不在子群组中的至少一个FD操作选自以下中的至少一个:线性预测编码LPC操作、频谱噪声整形SNS操作、频谱量化器操作以及残差编码器操作。
25.一种用于使用音频信号及控制数据(39a)解码比特流的方法,所述方法包含在频域FD中的多个信号处理操作,所述方法包含:
基于控制数据(39a)为FD操作的子群组选择带宽选择;
在FD操作的子群组的所选带宽下执行第一信号处理操作;
在下游,在不在子群组中的FD操作的不同带宽下执行第二信号处理操作;
其中子群组的第二信号处理操作所在带宽是全带宽或比所选带宽更宽的带宽。
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
EP17201082.9A EP3483882A1 (en) | 2017-11-10 | 2017-11-10 | Controlling bandwidth in encoders and/or decoders |
EP17201082.9 | 2017-11-10 | ||
PCT/EP2018/080335 WO2019091977A1 (en) | 2017-11-10 | 2018-11-06 | Controlling bandwidth in encoders and/or decoders |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111344784A CN111344784A (zh) | 2020-06-26 |
CN111344784B true CN111344784B (zh) | 2023-08-08 |
Family
ID=60301903
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201880072654.1A Active CN111344784B (zh) | 2017-11-10 | 2018-11-06 | 控制编码器和/或解码器中的带宽 |
Country Status (18)
Country | Link |
---|---|
US (1) | US11462226B2 (zh) |
EP (2) | EP3483882A1 (zh) |
JP (1) | JP7003253B2 (zh) |
KR (1) | KR102426033B1 (zh) |
CN (1) | CN111344784B (zh) |
AR (1) | AR113479A1 (zh) |
AU (1) | AU2018363698B2 (zh) |
BR (1) | BR112020009034A2 (zh) |
CA (1) | CA3080907C (zh) |
ES (1) | ES2898281T3 (zh) |
MX (1) | MX2020004779A (zh) |
PL (1) | PL3707713T3 (zh) |
PT (1) | PT3707713T (zh) |
RU (1) | RU2752520C1 (zh) |
SG (1) | SG11202004171WA (zh) |
TW (1) | TWI691954B (zh) |
WO (1) | WO2019091977A1 (zh) |
ZA (1) | ZA202002082B (zh) |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112530444B (zh) * | 2019-09-18 | 2023-10-03 | 华为技术有限公司 | 音频编码方法和装置 |
CN113643713B (zh) * | 2021-10-13 | 2021-12-24 | 北京百瑞互联技术有限公司 | 一种蓝牙音频编码方法、装置及存储介质 |
Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101308658A (zh) * | 2007-05-14 | 2008-11-19 | 深圳艾科创新微电子有限公司 | 一种基于片上系统的音频解码器及其解码方法 |
Family Cites Families (182)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
DE3639753A1 (de) | 1986-11-21 | 1988-06-01 | Inst Rundfunktechnik Gmbh | Verfahren zum uebertragen digitalisierter tonsignale |
US5012517A (en) | 1989-04-18 | 1991-04-30 | Pacific Communication Science, Inc. | Adaptive transform coder having long term predictor |
US5233660A (en) | 1991-09-10 | 1993-08-03 | At&T Bell Laboratories | Method and apparatus for low-delay celp speech coding and decoding |
JPH05281996A (ja) | 1992-03-31 | 1993-10-29 | Sony Corp | ピッチ抽出装置 |
IT1270438B (it) | 1993-06-10 | 1997-05-05 | Sip | Procedimento e dispositivo per la determinazione del periodo del tono fondamentale e la classificazione del segnale vocale in codificatori numerici della voce |
US5581653A (en) | 1993-08-31 | 1996-12-03 | Dolby Laboratories Licensing Corporation | Low bit-rate high-resolution spectral envelope coding for audio encoder and decoder |
JP3402748B2 (ja) | 1994-05-23 | 2003-05-06 | 三洋電機株式会社 | 音声信号のピッチ周期抽出装置 |
JPH0811644A (ja) | 1994-06-27 | 1996-01-16 | Nissan Motor Co Ltd | ルーフモール取付構造 |
US6167093A (en) | 1994-08-16 | 2000-12-26 | Sony Corporation | Method and apparatus for encoding the information, method and apparatus for decoding the information and method for information transmission |
EP0732687B2 (en) | 1995-03-13 | 2005-10-12 | Matsushita Electric Industrial Co., Ltd. | Apparatus for expanding speech bandwidth |
US5781888A (en) | 1996-01-16 | 1998-07-14 | Lucent Technologies Inc. | Perceptual noise shaping in the time domain via LPC prediction in the frequency domain |
WO1997027578A1 (en) | 1996-01-26 | 1997-07-31 | Motorola Inc. | Very low bit rate time domain speech analyzer for voice messaging |
US5812971A (en) | 1996-03-22 | 1998-09-22 | Lucent Technologies Inc. | Enhanced joint stereo coding method using temporal envelope shaping |
JPH1091194A (ja) | 1996-09-18 | 1998-04-10 | Sony Corp | 音声復号化方法及び装置 |
US6570991B1 (en) | 1996-12-18 | 2003-05-27 | Interval Research Corporation | Multi-feature speech/music discrimination system |
KR100261253B1 (ko) | 1997-04-02 | 2000-07-01 | 윤종용 | 비트율 조절이 가능한 오디오 부호화/복호화 방법및 장치 |
GB2326572A (en) | 1997-06-19 | 1998-12-23 | Softsound Limited | Low bit rate audio coder and decoder |
AU9404098A (en) | 1997-09-23 | 1999-04-12 | Voxware, Inc. | Scalable and embedded codec for speech and audio signals |
JP3344962B2 (ja) | 1998-03-11 | 2002-11-18 | 松下電器産業株式会社 | オーディオ信号符号化装置、及びオーディオ信号復号化装置 |
US6507814B1 (en) | 1998-08-24 | 2003-01-14 | Conexant Systems, Inc. | Pitch determination using speech classification and prior pitch estimation |
US7272556B1 (en) | 1998-09-23 | 2007-09-18 | Lucent Technologies Inc. | Scalable and embedded codec for speech and audio signals |
US7302396B1 (en) | 1999-04-27 | 2007-11-27 | Realnetworks, Inc. | System and method for cross-fading between audio streams |
US7099830B1 (en) | 2000-03-29 | 2006-08-29 | At&T Corp. | Effective deployment of temporal noise shaping (TNS) filters |
US6735561B1 (en) | 2000-03-29 | 2004-05-11 | At&T Corp. | Effective deployment of temporal noise shaping (TNS) filters |
EP1139665A1 (en) | 2000-03-29 | 2001-10-04 | Deutsche Thomson-Brandt Gmbh | Method and apparatus for changing the output delay of audio or video data encoding |
US6665638B1 (en) | 2000-04-17 | 2003-12-16 | At&T Corp. | Adaptive short-term post-filters for speech coders |
US7395209B1 (en) | 2000-05-12 | 2008-07-01 | Cirrus Logic, Inc. | Fixed point audio decoding system and method |
WO2002101717A2 (en) | 2001-06-11 | 2002-12-19 | Ivl Technologies Ltd. | Pitch candidate selection method for multi-channel pitch detectors |
US7353168B2 (en) | 2001-10-03 | 2008-04-01 | Broadcom Corporation | Method and apparatus to eliminate discontinuities in adaptively filtered signals |
US6785645B2 (en) | 2001-11-29 | 2004-08-31 | Microsoft Corporation | Real-time speech and music classifier |
US20030187663A1 (en) * | 2002-03-28 | 2003-10-02 | Truman Michael Mead | Broadband frequency translation for high frequency regeneration |
US7447631B2 (en) | 2002-06-17 | 2008-11-04 | Dolby Laboratories Licensing Corporation | Audio coding system using spectral hole filling |
US7502743B2 (en) | 2002-09-04 | 2009-03-10 | Microsoft Corporation | Multi-channel audio encoding and decoding with multi-channel transform selection |
US7433824B2 (en) | 2002-09-04 | 2008-10-07 | Microsoft Corporation | Entropy coding by adapting coding between level and run-length/level modes |
JP4287637B2 (ja) | 2002-10-17 | 2009-07-01 | パナソニック株式会社 | 音声符号化装置、音声符号化方法及びプログラム |
DE602004002390T2 (de) | 2003-02-11 | 2007-09-06 | Koninklijke Philips Electronics N.V. | Audiocodierung |
KR20030031936A (ko) | 2003-02-13 | 2003-04-23 | 배명진 | 피치변경법을 이용한 단일 음성 다중 목소리 합성기 |
US20040162866A1 (en) | 2003-02-19 | 2004-08-19 | Malvar Henrique S. | System and method for producing fast modulated complex lapped transforms |
CN1809873B (zh) | 2003-06-17 | 2010-05-12 | 松下电器产业株式会社 | 接收装置,发送装置及传输系统 |
DE602004029786D1 (de) | 2003-06-30 | 2010-12-09 | Koninkl Philips Electronics Nv | Verbesserung der qualität von dekodierten audio mittels hinzufügen von geräusch |
US7620545B2 (en) | 2003-07-08 | 2009-11-17 | Industrial Technology Research Institute | Scale factor based bit shifting in fine granularity scalability audio coding |
KR100550003B1 (ko) | 2003-07-11 | 2006-02-08 | 학교법인연세대학교 | 상호부호화기에서 개회로 피치 추정 방법 및 그 장치 |
US7983909B2 (en) | 2003-09-15 | 2011-07-19 | Intel Corporation | Method and apparatus for encoding audio data |
US7009533B1 (en) | 2004-02-13 | 2006-03-07 | Samplify Systems Llc | Adaptive compression and decompression of bandlimited signals |
KR20050087956A (ko) | 2004-02-27 | 2005-09-01 | 삼성전자주식회사 | 무손실 오디오 부호화/복호화 방법 및 장치 |
DE102004009949B4 (de) | 2004-03-01 | 2006-03-09 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Vorrichtung und Verfahren zum Ermitteln eines Schätzwertes |
DE102004009954B4 (de) | 2004-03-01 | 2005-12-15 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Vorrichtung und Verfahren zum Verarbeiten eines Multikanalsignals |
US8983834B2 (en) | 2004-03-01 | 2015-03-17 | Dolby Laboratories Licensing Corporation | Multichannel audio coding |
WO2005086138A1 (ja) | 2004-03-05 | 2005-09-15 | Matsushita Electric Industrial Co., Ltd. | エラー隠蔽装置およびエラー隠蔽方法 |
US7272567B2 (en) | 2004-03-25 | 2007-09-18 | Zoran Fejzo | Scalable lossless audio codec and authoring tool |
NZ562182A (en) | 2005-04-01 | 2010-03-26 | Qualcomm Inc | Method and apparatus for anti-sparseness filtering of a bandwidth extended speech prediction excitation signal |
US7546240B2 (en) | 2005-07-15 | 2009-06-09 | Microsoft Corporation | Coding with improved time resolution for selected segments via adaptive block transformation of a group of samples from a subband decomposition |
US7539612B2 (en) | 2005-07-15 | 2009-05-26 | Microsoft Corporation | Coding and decoding scale factor information |
KR20070037945A (ko) | 2005-10-04 | 2007-04-09 | 삼성전자주식회사 | 오디오 신호의 부호화/복호화 방법 및 장치 |
US20070118361A1 (en) | 2005-10-07 | 2007-05-24 | Deepen Sinha | Window apparatus and method |
KR100888474B1 (ko) | 2005-11-21 | 2009-03-12 | 삼성전자주식회사 | 멀티채널 오디오 신호의 부호화/복호화 장치 및 방법 |
US7805297B2 (en) | 2005-11-23 | 2010-09-28 | Broadcom Corporation | Classification-based frame loss concealment for audio signals |
US9123350B2 (en) | 2005-12-14 | 2015-09-01 | Panasonic Intellectual Property Management Co., Ltd. | Method and system for extracting audio features from an encoded bitstream for audio classification |
US8255207B2 (en) | 2005-12-28 | 2012-08-28 | Voiceage Corporation | Method and device for efficient frame erasure concealment in speech codecs |
US8345890B2 (en) | 2006-01-05 | 2013-01-01 | Audience, Inc. | System and method for utilizing inter-microphone level differences for speech enhancement |
US8781842B2 (en) | 2006-03-07 | 2014-07-15 | Telefonaktiebolaget Lm Ericsson (Publ) | Scalable coding with non-casual predictive information in an enhancement layer |
US8150065B2 (en) | 2006-05-25 | 2012-04-03 | Audience, Inc. | System and method for processing an audio signal |
US20090204397A1 (en) | 2006-05-30 | 2009-08-13 | Albertus Cornelis Den Drinker | Linear predictive coding of an audio signal |
CN1983909B (zh) | 2006-06-08 | 2010-07-28 | 华为技术有限公司 | 一种丢帧隐藏装置和方法 |
US8015000B2 (en) | 2006-08-03 | 2011-09-06 | Broadcom Corporation | Classification-based frame loss concealment for audio signals |
CN101501761B (zh) | 2006-08-15 | 2012-02-08 | 杜比实验室特许公司 | 无需边信息对时域噪声包络的任意整形 |
FR2905510B1 (fr) | 2006-09-01 | 2009-04-10 | Voxler Soc Par Actions Simplif | Procede d'analyse en temps reel de la voix pour le controle en temps reel d'un organe numerique et dispositif associe |
CN101140759B (zh) * | 2006-09-08 | 2010-05-12 | 华为技术有限公司 | 语音或音频信号的带宽扩展方法及系统 |
US7752038B2 (en) | 2006-10-13 | 2010-07-06 | Nokia Corporation | Pitch lag estimation |
DE102006049154B4 (de) | 2006-10-18 | 2009-07-09 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Kodierung eines Informationssignals |
KR101292771B1 (ko) | 2006-11-24 | 2013-08-16 | 삼성전자주식회사 | 오디오 신호의 오류은폐방법 및 장치 |
EP2099026A4 (en) | 2006-12-13 | 2011-02-23 | Panasonic Corp | POST-FILTER AND FILTERING METHOD |
FR2912249A1 (fr) | 2007-02-02 | 2008-08-08 | France Telecom | Codage/decodage perfectionnes de signaux audionumeriques. |
JP4871894B2 (ja) * | 2007-03-02 | 2012-02-08 | パナソニック株式会社 | 符号化装置、復号装置、符号化方法および復号方法 |
US20110022924A1 (en) | 2007-06-14 | 2011-01-27 | Vladimir Malenovsky | Device and Method for Frame Erasure Concealment in a PCM Codec Interoperable with the ITU-T Recommendation G. 711 |
EP2015293A1 (en) | 2007-06-14 | 2009-01-14 | Deutsche Thomson OHG | Method and apparatus for encoding and decoding an audio signal using adaptively switched temporal resolution in the spectral domain |
JP4928366B2 (ja) | 2007-06-25 | 2012-05-09 | 日本電信電話株式会社 | ピッチ探索装置、パケット消失補償装置、それらの方法、プログラム及びその記録媒体 |
JP4572218B2 (ja) | 2007-06-27 | 2010-11-04 | 日本電信電話株式会社 | 音楽区間検出方法、音楽区間検出装置、音楽区間検出プログラム及び記録媒体 |
US10795949B2 (en) | 2007-07-26 | 2020-10-06 | Hamid Hatami-Hanza | Methods and systems for investigation of compositions of ontological subjects and intelligent systems therefrom |
US20110116542A1 (en) | 2007-08-24 | 2011-05-19 | France Telecom | Symbol plane encoding/decoding with dynamic calculation of probability tables |
ATE535904T1 (de) | 2007-08-27 | 2011-12-15 | Ericsson Telefon Ab L M | Verbesserte transformationskodierung von sprach- und audiosignalen |
CN100524462C (zh) | 2007-09-15 | 2009-08-05 | 华为技术有限公司 | 对高带信号进行帧错误隐藏的方法及装置 |
JP5547081B2 (ja) * | 2007-11-02 | 2014-07-09 | 華為技術有限公司 | 音声復号化方法及び装置 |
WO2009066869A1 (en) | 2007-11-21 | 2009-05-28 | Electronics And Telecommunications Research Institute | Frequency band determining method for quantization noise shaping and transient noise shaping method using the same |
WO2009084918A1 (en) | 2007-12-31 | 2009-07-09 | Lg Electronics Inc. | A method and an apparatus for processing an audio signal |
US8386271B2 (en) | 2008-03-25 | 2013-02-26 | Microsoft Corporation | Lossless and near lossless scalable audio codec |
CN102057424B (zh) | 2008-06-13 | 2015-06-17 | 诺基亚公司 | 用于经编码的音频数据的错误隐藏的方法和装置 |
EP2346030B1 (en) | 2008-07-11 | 2014-10-01 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Audio encoder, method for encoding an audio signal and computer program |
EP2144231A1 (en) | 2008-07-11 | 2010-01-13 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Low bitrate audio encoding/decoding scheme with common preprocessing |
EP2144230A1 (en) | 2008-07-11 | 2010-01-13 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Low bitrate audio encoding/decoding scheme having cascaded switches |
ES2558229T3 (es) | 2008-07-11 | 2016-02-02 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Codificador y decodificador de audio para codificar tramas de señales de audio muestreadas |
US8577673B2 (en) | 2008-09-15 | 2013-11-05 | Huawei Technologies Co., Ltd. | CELP post-processing for music signals |
EP3640941A1 (en) | 2008-10-08 | 2020-04-22 | Fraunhofer Gesellschaft zur Förderung der Angewand | Multi-resolution switched audio encoding/decoding scheme |
GB2466673B (en) | 2009-01-06 | 2012-11-07 | Skype | Quantization |
AU2010209756B2 (en) | 2009-01-28 | 2013-10-31 | Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. | Audio coding |
JP4945586B2 (ja) | 2009-02-02 | 2012-06-06 | 株式会社東芝 | 信号帯域拡張装置 |
US20100223061A1 (en) | 2009-02-27 | 2010-09-02 | Nokia Corporation | Method and Apparatus for Audio Coding |
JP4932917B2 (ja) | 2009-04-03 | 2012-05-16 | 株式会社エヌ・ティ・ティ・ドコモ | 音声復号装置、音声復号方法、及び音声復号プログラム |
FR2944664A1 (fr) | 2009-04-21 | 2010-10-22 | Thomson Licensing | Dispositif et procede de traitement d'images |
US8428938B2 (en) | 2009-06-04 | 2013-04-23 | Qualcomm Incorporated | Systems and methods for reconstructing an erased speech frame |
US8352252B2 (en) | 2009-06-04 | 2013-01-08 | Qualcomm Incorporated | Systems and methods for preventing the loss of information within a speech frame |
KR20100136890A (ko) | 2009-06-19 | 2010-12-29 | 삼성전자주식회사 | 컨텍스트 기반의 산술 부호화 장치 및 방법과 산술 복호화 장치 및 방법 |
CN101958119B (zh) | 2009-07-16 | 2012-02-29 | 中兴通讯股份有限公司 | 一种改进的离散余弦变换域音频丢帧补偿器和补偿方法 |
KR101425290B1 (ko) * | 2009-10-08 | 2014-08-01 | 프라운호퍼 게젤샤프트 쭈르 푀르데룽 데어 안겐반텐 포르슝 에. 베. | 멀티-모드 오디오 신호 디코더, 멀티-모드 오디오 신호 인코더 및 선형-예측-코딩 기반의 노이즈 성형을 사용하는 방법 및 컴퓨터 프로그램 |
EP3693964B1 (en) | 2009-10-15 | 2021-07-28 | VoiceAge Corporation | Simultaneous time-domain and frequency-domain noise shaping for tdac transforms |
BR122020024243B1 (pt) | 2009-10-20 | 2022-02-01 | Fraunhofer-Gesellschaft Zur Forderung Der Angewandten Forschung E. V. | Codificador de sinal de áudio, decodificador de sinal de áudio, método para prover uma representação codificada de um conteúdo de áudio e método para prover uma representação decodificada de um conteúdo de áudio. |
RU2605677C2 (ru) | 2009-10-20 | 2016-12-27 | Франхофер-Гезелльшафт цур Фёрдерунг дер ангевандтен | Аудио кодер, аудио декодер, способ кодирования аудио информации, способ декодирования аудио информации и компьютерная программа, использующая итеративное уменьшение размера интервала |
US8207875B2 (en) | 2009-10-28 | 2012-06-26 | Motorola Mobility, Inc. | Encoder that optimizes bit allocation for information sub-parts |
US7978101B2 (en) | 2009-10-28 | 2011-07-12 | Motorola Mobility, Inc. | Encoder and decoder using arithmetic stage to compress code space that is not fully utilized |
KR101761629B1 (ko) | 2009-11-24 | 2017-07-26 | 엘지전자 주식회사 | 오디오 신호 처리 방법 및 장치 |
PL2524372T3 (pl) | 2010-01-12 | 2015-08-31 | Fraunhofer Ges Forschung | Koder audio. dekoder audio, sposób kodowania i dekodowania informacji audio i program komputerowy uzyskujący wartość podobszaru kontekstu w oparciu o normę uprzednio zdekodowanych wartości widmowych |
US20110196673A1 (en) | 2010-02-11 | 2011-08-11 | Qualcomm Incorporated | Concealing lost packets in a sub-band coding decoder |
EP2375409A1 (en) | 2010-04-09 | 2011-10-12 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Audio encoder, audio decoder and related methods for processing multi-channel audio signals using complex prediction |
FR2961980A1 (fr) | 2010-06-24 | 2011-12-30 | France Telecom | Controle d'une boucle de retroaction de mise en forme de bruit dans un codeur de signal audionumerique |
CA3025108C (en) | 2010-07-02 | 2020-10-27 | Dolby International Ab | Audio decoding with selective post filtering |
EP4131258A1 (en) | 2010-07-20 | 2023-02-08 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Audio decoder, audio decoding method, audio encoder, audio encoding method and computer program |
US9082416B2 (en) | 2010-09-16 | 2015-07-14 | Qualcomm Incorporated | Estimating a pitch lag |
US8738385B2 (en) | 2010-10-20 | 2014-05-27 | Broadcom Corporation | Pitch-based pre-filtering and post-filtering for compression of audio signals |
MX2013009346A (es) | 2011-02-14 | 2013-10-01 | Fraunhofer Ges Forschung | Prediccion lineal basada en esquema de codificacion utilizando conformacion de ruido de dominio espectral. |
US9270807B2 (en) | 2011-02-23 | 2016-02-23 | Digimarc Corporation | Audio localization using audio signal encoding and recognition |
CN103703511B (zh) | 2011-03-18 | 2017-08-22 | 弗劳恩霍夫应用研究促进协会 | 定位在表示音频内容的比特流的帧中的帧元素 |
MY166916A (en) * | 2011-04-21 | 2018-07-24 | Samsung Electronics Co Ltd | Apparatus for quantizing linear predictive coding coefficients, sound encoding apparatus, apparatus for dequantizing linear predictive coding coefficients, sound decoding apparatus, and electronic device therefore |
US8891775B2 (en) | 2011-05-09 | 2014-11-18 | Dolby International Ab | Method and encoder for processing a digital stereo audio signal |
FR2977439A1 (fr) | 2011-06-28 | 2013-01-04 | France Telecom | Fenetres de ponderation en codage/decodage par transformee avec recouvrement, optimisees en retard. |
US9363339B2 (en) | 2011-07-12 | 2016-06-07 | Hughes Network Systems, Llc | Staged data compression, including block level long range compression, for data streams in a communications system |
FR2977969A1 (fr) | 2011-07-12 | 2013-01-18 | France Telecom | Adaptation de fenetres de ponderation d'analyse ou de synthese pour un codage ou decodage par transformee |
AU2012366843B2 (en) | 2012-01-20 | 2015-08-06 | Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. | Apparatus and method for audio encoding and decoding employing sinusoidal substitution |
WO2013149672A1 (en) | 2012-04-05 | 2013-10-10 | Huawei Technologies Co., Ltd. | Method for determining an encoding parameter for a multi-channel audio signal and multi-channel audio encoder |
US20130282373A1 (en) | 2012-04-23 | 2013-10-24 | Qualcomm Incorporated | Systems and methods for audio signal processing |
US9026451B1 (en) | 2012-05-09 | 2015-05-05 | Google Inc. | Pitch post-filter |
KR102102450B1 (ko) | 2012-06-08 | 2020-04-20 | 삼성전자주식회사 | 프레임 에러 은닉방법 및 장치와 오디오 복호화방법 및 장치 |
GB201210373D0 (en) | 2012-06-12 | 2012-07-25 | Meridian Audio Ltd | Doubly compatible lossless audio sandwidth extension |
FR2992766A1 (fr) | 2012-06-29 | 2014-01-03 | France Telecom | Attenuation efficace de pre-echos dans un signal audionumerique |
CN103544957B (zh) | 2012-07-13 | 2017-04-12 | 华为技术有限公司 | 音频信号的比特分配的方法和装置 |
CN102779526B (zh) | 2012-08-07 | 2014-04-16 | 无锡成电科大科技发展有限公司 | 语音信号中基音提取及修正方法 |
US9406307B2 (en) | 2012-08-19 | 2016-08-02 | The Regents Of The University Of California | Method and apparatus for polyphonic audio signal prediction in coding and networking systems |
US9293146B2 (en) | 2012-09-04 | 2016-03-22 | Apple Inc. | Intensity stereo coding in advanced audio coding |
TWI553628B (zh) | 2012-09-24 | 2016-10-11 | 三星電子股份有限公司 | 訊框錯誤隱藏方法 |
CN103714821A (zh) | 2012-09-28 | 2014-04-09 | 杜比实验室特许公司 | 基于位置的混合域数据包丢失隐藏 |
US9401153B2 (en) | 2012-10-15 | 2016-07-26 | Digimarc Corporation | Multi-mode audio recognition and auxiliary data encoding and decoding |
US9318116B2 (en) | 2012-12-14 | 2016-04-19 | Disney Enterprises, Inc. | Acoustic data transmission based on groups of audio receivers |
EP2757558A1 (en) | 2013-01-18 | 2014-07-23 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Time domain level adjustment for audio signal decoding or encoding |
FR3001593A1 (fr) | 2013-01-31 | 2014-08-01 | France Telecom | Correction perfectionnee de perte de trame au decodage d'un signal. |
PL3125239T3 (pl) | 2013-02-05 | 2019-12-31 | Telefonaktiebolaget Lm Ericsson (Publ) | Sposób i urządzenie do kontrolowania ukrywania utraty ramek audio |
TWI530941B (zh) | 2013-04-03 | 2016-04-21 | 杜比實驗室特許公司 | 用於基於物件音頻之互動成像的方法與系統 |
TR201808890T4 (tr) | 2013-06-21 | 2018-07-23 | Fraunhofer Ges Forschung | Bir konuşma çerçevesinin yeniden yapılandırılması. |
EP2830061A1 (en) * | 2013-07-22 | 2015-01-28 | Fraunhofer Gesellschaft zur Förderung der angewandten Forschung e.V. | Apparatus and method for encoding and decoding an encoded audio signal using temporal noise/patch shaping |
EP2830055A1 (en) | 2013-07-22 | 2015-01-28 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Context-based entropy coding of sample values of a spectral envelope |
CA2925734C (en) | 2013-10-18 | 2018-07-10 | Guillaume Fuchs | Coding of spectral coefficients of a spectrum of an audio signal |
US9906858B2 (en) | 2013-10-22 | 2018-02-27 | Bongiovi Acoustics Llc | System and method for digital signal processing |
MX355452B (es) * | 2013-10-31 | 2018-04-18 | Fraunhofer Ges Forschung | Extension de ancho de banda de audio mediante insercion de ruido pre-formado temporal en el dominio de frecuencia. |
EP3336841B1 (en) | 2013-10-31 | 2019-12-04 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Audio decoder and method for providing a decoded audio information using an error concealment modifying a time domain excitation signal |
ES2739477T3 (es) | 2013-10-31 | 2020-01-31 | Fraunhofer Ges Forschung | Decodificador de audio y método para proporcionar una información de audio decodificada usando un ocultamiento de errores en base a una señal de excitación de dominio de tiempo |
KR101831088B1 (ko) | 2013-11-13 | 2018-02-21 | 프라운호퍼 게젤샤프트 쭈르 푀르데룽 데어 안겐반텐 포르슝 에. 베. | 오디오 신호를 인코딩하기 위한 인코더, 오디오 전송 시스템 및 보정값들을 결정하기 위한 방법 |
GB2524333A (en) * | 2014-03-21 | 2015-09-23 | Nokia Technologies Oy | Audio signal payload |
CA2940657C (en) | 2014-04-17 | 2021-12-21 | Voiceage Corporation | Methods, encoder and decoder for linear predictive encoding and decoding of sound signals upon transition between frames having different sampling rates |
US9396733B2 (en) | 2014-05-06 | 2016-07-19 | University Of Macau | Reversible audio data hiding |
NO2780522T3 (zh) | 2014-05-15 | 2018-06-09 | ||
EP2963646A1 (en) | 2014-07-01 | 2016-01-06 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Decoder and method for decoding an audio signal, encoder and method for encoding an audio signal |
US9685166B2 (en) | 2014-07-26 | 2017-06-20 | Huawei Technologies Co., Ltd. | Classification between time-domain coding and frequency domain coding |
EP2980799A1 (en) | 2014-07-28 | 2016-02-03 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Apparatus and method for processing an audio signal using a harmonic post-filter |
EP2980798A1 (en) | 2014-07-28 | 2016-02-03 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Harmonicity-dependent controlling of a harmonic filter tool |
WO2016016724A2 (ko) * | 2014-07-28 | 2016-02-04 | 삼성전자 주식회사 | 패킷 손실 은닉방법 및 장치와 이를 적용한 복호화방법 및 장치 |
EP2980796A1 (en) | 2014-07-28 | 2016-02-03 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Method and apparatus for processing an audio signal, audio decoder, and audio encoder |
AU2015258241B2 (en) | 2014-07-28 | 2016-09-15 | Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. | Apparatus and method for selecting one of a first encoding algorithm and a second encoding algorithm using harmonics reduction |
EP2988300A1 (en) | 2014-08-18 | 2016-02-24 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Switching of sampling rates at audio processing devices |
WO2016142002A1 (en) | 2015-03-09 | 2016-09-15 | Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. | Audio encoder, audio decoder, method for encoding an audio signal and method for decoding an encoded audio signal |
EP3067887A1 (en) * | 2015-03-09 | 2016-09-14 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Audio encoder for encoding a multichannel signal and audio decoder for decoding an encoded audio signal |
US10296959B1 (en) | 2015-03-30 | 2019-05-21 | Audible, Inc. | Automated recommendations of audio narrations |
US10049684B2 (en) * | 2015-04-05 | 2018-08-14 | Qualcomm Incorporated | Audio bandwidth selection |
US9886963B2 (en) | 2015-04-05 | 2018-02-06 | Qualcomm Incorporated | Encoder selection |
JP6422813B2 (ja) | 2015-04-13 | 2018-11-14 | 日本電信電話株式会社 | 符号化装置、復号装置、これらの方法及びプログラム |
US9978400B2 (en) | 2015-06-11 | 2018-05-22 | Zte Corporation | Method and apparatus for frame loss concealment in transform domain |
US10847170B2 (en) | 2015-06-18 | 2020-11-24 | Qualcomm Incorporated | Device and method for generating a high-band signal from non-linearly processed sub-ranges |
US9837089B2 (en) | 2015-06-18 | 2017-12-05 | Qualcomm Incorporated | High-band signal generation |
KR20170000933A (ko) | 2015-06-25 | 2017-01-04 | 한국전기연구원 | 시간 지연 추정을 이용한 풍력 터빈의 피치 제어 시스템 |
US9830921B2 (en) | 2015-08-17 | 2017-11-28 | Qualcomm Incorporated | High-band target signal control |
KR20180040716A (ko) * | 2015-09-04 | 2018-04-20 | 삼성전자주식회사 | 음질 향상을 위한 신호 처리방법 및 장치 |
US9978381B2 (en) | 2016-02-12 | 2018-05-22 | Qualcomm Incorporated | Encoding of multiple audio signals |
US10219147B2 (en) * | 2016-04-07 | 2019-02-26 | Mediatek Inc. | Enhanced codec control |
US10283143B2 (en) | 2016-04-08 | 2019-05-07 | Friday Harbor Llc | Estimating pitch of harmonic signals |
CN107103908B (zh) | 2017-05-02 | 2019-12-24 | 大连民族大学 | 复调音乐多音高估计方法及伪双谱在多音高估计中的应用 |
-
2017
- 2017-11-10 EP EP17201082.9A patent/EP3483882A1/en not_active Withdrawn
-
2018
- 2018-11-06 PL PL18796674T patent/PL3707713T3/pl unknown
- 2018-11-06 RU RU2020118947A patent/RU2752520C1/ru active
- 2018-11-06 JP JP2020524579A patent/JP7003253B2/ja active Active
- 2018-11-06 SG SG11202004171WA patent/SG11202004171WA/en unknown
- 2018-11-06 EP EP18796674.2A patent/EP3707713B1/en active Active
- 2018-11-06 ES ES18796674T patent/ES2898281T3/es active Active
- 2018-11-06 MX MX2020004779A patent/MX2020004779A/es unknown
- 2018-11-06 WO PCT/EP2018/080335 patent/WO2019091977A1/en unknown
- 2018-11-06 AU AU2018363698A patent/AU2018363698B2/en active Active
- 2018-11-06 PT PT187966742T patent/PT3707713T/pt unknown
- 2018-11-06 CA CA3080907A patent/CA3080907C/en active Active
- 2018-11-06 KR KR1020207016100A patent/KR102426033B1/ko active IP Right Grant
- 2018-11-06 BR BR112020009034-4A patent/BR112020009034A2/pt unknown
- 2018-11-06 CN CN201880072654.1A patent/CN111344784B/zh active Active
- 2018-11-07 TW TW107139532A patent/TWI691954B/zh active
- 2018-11-09 AR ARP180103271A patent/AR113479A1/es active IP Right Grant
-
2020
- 2020-05-04 ZA ZA2020/02082A patent/ZA202002082B/en unknown
- 2020-05-04 US US16/866,280 patent/US11462226B2/en active Active
Patent Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101308658A (zh) * | 2007-05-14 | 2008-11-19 | 深圳艾科创新微电子有限公司 | 一种基于片上系统的音频解码器及其解码方法 |
Non-Patent Citations (1)
Title |
---|
"Audio bandwidth detection in the EVS codec";EKSLER VACLAV等;《2015 IEEE GLOBAL CONFERENCE ON SIGNAL AND INFORMATION PROCESSING (GLOBALSIP)》;20151214;全文 * |
Also Published As
Publication number | Publication date |
---|---|
EP3483882A1 (en) | 2019-05-15 |
EP3707713B1 (en) | 2021-09-22 |
RU2752520C1 (ru) | 2021-07-28 |
US20200265852A1 (en) | 2020-08-20 |
ZA202002082B (en) | 2021-07-28 |
SG11202004171WA (en) | 2020-06-29 |
KR102426033B1 (ko) | 2022-07-27 |
WO2019091977A1 (en) | 2019-05-16 |
TW201923747A (zh) | 2019-06-16 |
KR20200077591A (ko) | 2020-06-30 |
PT3707713T (pt) | 2021-12-03 |
TWI691954B (zh) | 2020-04-21 |
CA3080907A1 (en) | 2019-05-16 |
US11462226B2 (en) | 2022-10-04 |
CA3080907C (en) | 2023-12-19 |
JP7003253B2 (ja) | 2022-01-20 |
MX2020004779A (es) | 2020-08-13 |
JP2021502591A (ja) | 2021-01-28 |
AU2018363698A1 (en) | 2020-05-21 |
BR112020009034A2 (pt) | 2020-10-27 |
ES2898281T3 (es) | 2022-03-04 |
AU2018363698B2 (en) | 2020-12-17 |
CN111344784A (zh) | 2020-06-26 |
AR113479A1 (es) | 2020-05-06 |
EP3707713A1 (en) | 2020-09-16 |
PL3707713T3 (pl) | 2022-01-31 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
RU2608878C1 (ru) | Регулировка уровня во временной области для декодирования или кодирования аудиосигналов | |
AU2018363652A1 (en) | Apparatus and method for encoding and decoding an audio signal using downsampling or interpolation of scale parameters | |
EP3175457B1 (en) | Method for estimating noise in an audio signal, noise estimator, audio encoder, audio decoder, and system for transmitting audio signals | |
AU2021303726B2 (en) | Audio quantizer and audio dequantizer and related methods | |
CN111344784B (zh) | 控制编码器和/或解码器中的带宽 | |
CN111587456B (zh) | 时域噪声整形 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |