CN111670439A - 用于统一语音及音频解码改进的方法及设备系统 - Google Patents
用于统一语音及音频解码改进的方法及设备系统 Download PDFInfo
- Publication number
- CN111670439A CN111670439A CN201880088274.7A CN201880088274A CN111670439A CN 111670439 A CN111670439 A CN 111670439A CN 201880088274 A CN201880088274 A CN 201880088274A CN 111670439 A CN111670439 A CN 111670439A
- Authority
- CN
- China
- Prior art keywords
- lsf
- decoding
- vector
- unified audio
- lpc filter
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 67
- 230000006872 improvement Effects 0.000 title description 3
- 239000013598 vector Substances 0.000 claims abstract description 116
- 238000004364 calculation method Methods 0.000 claims abstract description 37
- 238000013139 quantization Methods 0.000 claims abstract description 25
- 238000004422 calculation algorithm Methods 0.000 claims abstract description 14
- 230000003595 spectral effect Effects 0.000 claims abstract description 14
- 230000002441 reversible effect Effects 0.000 claims abstract description 7
- 239000011159 matrix material Substances 0.000 claims description 74
- 229940050561 matrix product Drugs 0.000 claims description 3
- 230000015572 biosynthetic process Effects 0.000 description 30
- 238000003786 synthesis reaction Methods 0.000 description 30
- 238000012545 processing Methods 0.000 description 21
- 230000008569 process Effects 0.000 description 20
- 230000000875 corresponding effect Effects 0.000 description 18
- 230000006870 function Effects 0.000 description 17
- 238000005070 sampling Methods 0.000 description 14
- 230000001052 transient effect Effects 0.000 description 11
- 238000001228 spectrum Methods 0.000 description 9
- 230000017105 transposition Effects 0.000 description 9
- 238000002156 mixing Methods 0.000 description 8
- 230000003068 static effect Effects 0.000 description 8
- 239000004576 sand Substances 0.000 description 5
- 239000002131 composite material Substances 0.000 description 4
- 230000001419 dependent effect Effects 0.000 description 4
- 230000005284 excitation Effects 0.000 description 4
- 238000001914 filtration Methods 0.000 description 4
- 230000005236 sound signal Effects 0.000 description 4
- 238000000926 separation method Methods 0.000 description 3
- 230000003044 adaptive effect Effects 0.000 description 2
- 230000008901 benefit Effects 0.000 description 2
- 238000010586 diagram Methods 0.000 description 2
- 238000000605 extraction Methods 0.000 description 2
- 238000011049 filling Methods 0.000 description 2
- RVRCFVVLDHTFFA-UHFFFAOYSA-N heptasodium;tungsten;nonatriacontahydrate Chemical compound O.O.O.O.O.O.O.O.O.O.O.O.O.O.O.O.O.O.O.O.O.O.O.O.O.O.O.O.O.O.O.O.O.O.O.O.O.O.O.[Na+].[Na+].[Na+].[Na+].[Na+].[Na+].[Na+].[W].[W].[W].[W].[W].[W].[W].[W].[W].[W].[W] RVRCFVVLDHTFFA-UHFFFAOYSA-N 0.000 description 2
- 229910052754 neon Inorganic materials 0.000 description 2
- GKAOGPIIYCISHV-UHFFFAOYSA-N neon atom Chemical compound [Ne] GKAOGPIIYCISHV-UHFFFAOYSA-N 0.000 description 2
- 238000012805 post-processing Methods 0.000 description 2
- 238000007781 pre-processing Methods 0.000 description 2
- 230000002123 temporal effect Effects 0.000 description 2
- 238000012952 Resampling Methods 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 230000001174 ascending effect Effects 0.000 description 1
- 230000006399 behavior Effects 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 150000001875 compounds Chemical class 0.000 description 1
- 238000004590 computer program Methods 0.000 description 1
- 230000002596 correlated effect Effects 0.000 description 1
- 230000007774 longterm Effects 0.000 description 1
- 238000013507 mapping Methods 0.000 description 1
- 239000000203 mixture Substances 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 230000000737 periodic effect Effects 0.000 description 1
- 230000010363 phase shift Effects 0.000 description 1
- 230000008707 rearrangement Effects 0.000 description 1
- 238000007670 refining Methods 0.000 description 1
- 230000010076 replication Effects 0.000 description 1
- 238000007493 shaping process Methods 0.000 description 1
- 238000000411 transmission spectrum Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/008—Multichannel audio signal coding or decoding using interchannel correlation to reduce redundancy, e.g. joint-stereo, intensity-coding or matrixing
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/04—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
- G10L19/26—Pre-filtering or post-filtering
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F1/00—Details not covered by groups G06F3/00 - G06F13/00 and G06F21/00
- G06F1/02—Digital function generators
- G06F1/03—Digital function generators working, at least partly, by table look-up
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F17/00—Digital computing or data processing equipment or methods, specially adapted for specific functions
- G06F17/10—Complex mathematical operations
- G06F17/14—Fourier, Walsh or analogous domain transformations, e.g. Laplace, Hilbert, Karhunen-Loeve, transforms
- G06F17/141—Discrete Fourier transforms
- G06F17/142—Fast Fourier transforms, e.g. using a Cooley-Tukey type algorithm
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F17/00—Digital computing or data processing equipment or methods, specially adapted for specific functions
- G06F17/10—Complex mathematical operations
- G06F17/16—Matrix or vector computation, e.g. matrix-matrix or matrix-vector multiplication, matrix factorization
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/02—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
- G10L19/0212—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders using orthogonal transformation
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/02—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
- G10L19/032—Quantisation or dequantisation of spectral components
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/04—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
- G10L19/06—Determination or coding of the spectral characteristics, e.g. of the short-term prediction coefficients
- G10L19/07—Line spectrum pair [LSP] vocoders
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/04—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
- G10L19/16—Vocoder architecture
- G10L19/18—Vocoders using multiple modes
-
- H—ELECTRICITY
- H03—ELECTRONIC CIRCUITRY
- H03M—CODING; DECODING; CODE CONVERSION IN GENERAL
- H03M7/00—Conversion of a code where information is represented by a given sequence or number of digits to a code where the same, similar or subset of information is represented by a different sequence or number of digits
- H03M7/30—Compression; Expansion; Suppression of unnecessary data, e.g. redundancy reduction
- H03M7/3082—Vector coding
-
- H—ELECTRICITY
- H03—ELECTRONIC CIRCUITRY
- H03M—CODING; DECODING; CODE CONVERSION IN GENERAL
- H03M7/00—Conversion of a code where information is represented by a given sequence or number of digits to a code where the same, similar or subset of information is represented by a different sequence or number of digits
- H03M7/30—Compression; Expansion; Suppression of unnecessary data, e.g. redundancy reduction
- H03M7/60—General implementation details not specific to a particular type of compression
- H03M7/6005—Decoder aspects
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Mathematical Physics (AREA)
- General Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Human Computer Interaction (AREA)
- Signal Processing (AREA)
- Health & Medical Sciences (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Computational Linguistics (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Mathematical Optimization (AREA)
- Mathematical Analysis (AREA)
- Computational Mathematics (AREA)
- Pure & Applied Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Spectroscopy & Molecular Physics (AREA)
- General Engineering & Computer Science (AREA)
- Algebra (AREA)
- Databases & Information Systems (AREA)
- Software Systems (AREA)
- Discrete Mathematics (AREA)
- Computing Systems (AREA)
- Compression, Expansion, Code Conversion, And Decoders (AREA)
Abstract
本发明涉及一种用于解码经编码统一音频及语音流的设备。所述设备包括用于解码所述经编码统一音频及语音流的核心解码器。所述核心解码器包含基于库利‑塔基算法的快速傅里叶变换FFT模块实施方案。所述FFT模块经配置以确定离散傅里叶变换DFT。确定所述DFT涉及基于所述库利‑塔基算法将所述DFT递归地分解成小FFT,及如果FFT的点数是4的幂,那么使用基数‑4,且如果所述数并非4的幂,那么使用混合基数。执行所述小FFT涉及应用旋转因子。应用所述旋转因子涉及参考所述旋转因子的预计算值。本发明进一步涉及一种用于解码经编码统一音频及语音流的设备,其中所述核心解码器经配置以从所述统一音频及语音流解码已使用线谱频率LSF表示量化的LPC滤波器。从所述统一音频及语音流解码所述LPC滤波器包括:计算LSF向量的一级近似计算;重建残余LSF向量;如果已使用绝对量化模式用于量化所述LPC滤波器,那么通过参考用于所述残余LSF向量的反加权的反LSF权重或其相应对应LSF权重的预计算值而确定所述反LSF权重;通过所述经确定反LSF权重反加权所述残余LSF向量;及基于所述经反加权的残余LSF向量及所述LSF向量的所述一级近似计算而计算所述LPC滤波器。本发明进一步涉及对应方法及存储媒体。
Description
相关申请案的交叉参考
本申请案主张以下优先权申请案的优先权:2017年12月19日申请的IN临时申请案201741045575(参考:D17116CINP1)及2018年5月02日申请的US临时申请案62/665,746(参考:D17116CUSP1),所述申请案特此以引用方式并入。
技术领域
本文档涉及用于解码经编码统一音频及语音(USAC)流的设备及方法。本文档进一步涉及减少运行时间时的计算负荷的此设备及方法。
背景技术
如国际标准ISO/IEC 23003-3:2012(此后称为USAC标准)中所规定的用于统一语音及音频编码(USAC)的编码器及解码器包含需要多个复杂计算步骤的若干模块(单元)。这些计算步骤中的每一者对于实施这些编码器及解码器的硬件系统来说可为繁重的。此类模块的实例包含MPS212模块(或工具)、QMF谐波移调器(harmonic transposer)、LPC模块及IMDCT模块。
因此,需要减少运行时间期间的计算负荷的USAC编码器及解码器的模块的实施方案。
发明内容
鉴于上述问题,本文档提供用于解码经编码统一音频及语音(USAC)流的设备及方法以及对应计算机程序及存储媒体,其具有相应独立权利要求的特征。
本发明的一方面涉及一种用于解码经编码USAC流的设备。所述设备可包含用于解码所述经编码USAC流的核心解码器。所述核心解码器可包含适于执行单声道到立体声上混(upmixing)的上混单元。所述上混单元可包含适于将去关联滤波器应用于输入信号的去关联器单元D。所述去关联器单元可适于通过参考预计算值而确定所述去关联滤波器的滤波器系数。
本发明的另一方面涉及一种用于将音频信号编码为USAC流的设备。所述设备可包含用于编码所述USAC流的核心编码器。所述核心编码器可适于脱机地确定去关联滤波器的滤波器系数以在用于解码所述USAC流的解码器的上混单元中使用。
本发明的另一方面涉及一种解码经编码USAC流的方法。所述方法可包含解码所述经编码USAC流。所述解码可包含单声道到立体声上混。所述单声道到立体声上混可包含将去关联滤波器应用于输入信号。应用所述去关联滤波器可涉及通过参考预计算值而确定所述去关联滤波器的滤波器系数。
本发明的另一方面涉及一种将音频信号编码为USAC流的方法。所述方法可包含编码所述USAC流。所述编码可包含脱机地确定去关联滤波器的滤波器系数以在用于解码所述经编码USAC流的解码器的上混单元中使用。
本发明的另一方面涉及用于解码经编码USAC流的另一设备。所述设备可包含用于解码所述经编码USAC流的核心解码器。所述核心解码器可包含用于扩展输入信号的带宽的eSBR单元。所述eSBR单元可包含基于QMF的谐波移调器。所述基于QMF的谐波移调器可经配置以在多个合成次频带中的每一者中处理QMF域中的所述输入信号,以扩展所述输入信号的所述带宽。所述基于QMF的谐波移调器可进一步经配置以至少部分基于预计算信息进行操作。
本发明的另一方面涉及解码经编码USAC流的另一方法。所述方法可包含解码所述经编码USAC流。所述解码可包含扩展输入信号的带宽。扩展所述输入信号的所述带宽可涉及:在多个合成次频带中的每一者中处理QMF域中的所述输入信号。所述处理所述QMF域中的所述输入信号可至少部分基于预计算信息进行操作。
本发明的另一方面涉及用于解码经编码USAC流的另一设备。所述设备可包含用于解码所述经编码USAC流的核心解码器。所述核心解码器可包含基于库利-塔基(Cooley-Tukey)算法的快速傅里叶(Fourier)变换FFT模块实施方案。所述FFT模块可经配置以确定离散傅里叶变换DFT。确定所述DFT可涉及基于库利-塔基算法将所述DFT递归地分解成小FFT。确定所述DFT可进一步涉及在所述FFT的点数是4的幂时使用基数-4及在所述数并非4的幂时使用混合基数。执行所述小FFT可涉及应用旋转因子。应用所述旋转因子可涉及参考所述旋转因子的预计算值。
本发明的另一方面涉及用于解码经编码USAC流的另一设备。所述设备可包含用于解码所述经编码USAC流的核心解码器。所述经编码USAC流可包含已使用线谱频率LSF表示量化的线性预测编码LPC滤波器的表示。所述核心解码器可经配置以从所述USAC流解码所述LPC滤波器。从所述USAC流解码所述LPC滤波器可包含:计算LSF向量的一级近似计算。从所述USAC流解码所述LPC滤波器可进一步包含:重建残余LSF向量。从所述USAC流解码所述LPC滤波器可进一步包含:如果已使用绝对量化模式用于量化所述LPC滤波器,那么通过参考用于所述残余LSF向量的反加权的反LSF权重或其相应对应LSF权重的预计算值而确定所述反LSF权重。从所述USAC流解码所述LPC滤波器可进一步包含:通过所述经确定反LSF权重反加权所述残余LSF向量。从所述USAC流解码所述LPC滤波器可进一步包含:基于所述经反加权的残余LSF向量及所述LSF向量的所述一级近似计算而计算所述LPC滤波器。可使用以下方程式获得所述LSF权重:
d0=LSF1st[0]
d16=SF/2-LSF1st[15]
di=LSF1st[i]-LSF1st[i-1],i=1...15,
其中i是指示LSF向量的分量的索引,w(i)是LSF权重,W是比例因子,且LSF1st是LSF向量的一级近似计算。
本发明的另一方面涉及解码经编码USAC流的另一方法。所述方法可包含解码所述经编码USAC流。所述解码可包含使用基于库利-塔基算法的快速傅里叶变换FFT模块实施方案。所述FFT模块实施方案可包含确定离散傅里叶变换DFT。确定所述DFT可涉及基于库利-塔基算法将所述DFT递归地分解成较小FFT。确定所述DFT可进一步涉及在所述FFT的点数是4的幂时使用基数-4及在所述数并非4的幂时使用混合基数。执行所述小FFT可涉及应用旋转因子。应用所述旋转因子可涉及参考所述旋转因子的预计算值。
本发明的另一方面涉及解码经编码USAC流的另一方法。所述方法可包含解码所述经编码USAC流。所述经编码USAC流可包含已使用线谱频率LSF表示量化的线性预测编码LPC滤波器的表示。所述解码可包含从所述USAC流解码所述LPC滤波器。从所述USAC流解码所述LPC滤波器可包含:计算LSF向量的一级近似计算。从所述USAC流解码所述LPC滤波器可进一步包含:重建残余LSF向量。从所述USAC流解码所述LPC滤波器可进一步包含:如果已使用绝对量化模式用于量化所述LPC滤波器,那么通过参考用于所述残余LSF向量的反加权的反LSF权重或其相应对应LSF权重的预计算值而确定所述反LSF权重。从所述USAC流解码所述LPC滤波器可进一步包含:通过所述经确定反LSF权重反加权所述残余LSF向量。从所述USAC流解码所述LPC滤波器可进一步包含:基于所述经反加权的残余LSF向量及所述LSF向量的所述一级近似计算而计算所述LPC滤波器。可使用以下方程式获得所述LSF权重
d0=LSF1st[0]
d16=SF/2-LSF1st[15]
di=LSF1st[i]-LSF1st[i-1],i=1...15,
其中i是指示LSF向量的分量的索引,w(i)是LSF权重,W是比例因子,且LSF1st是LSF向量的一级近似计算。
本发明的另外方面涉及包含软件程序的记录媒体,所述软件程序经调适用于在处理器上执行且用于执行根据本发明的上述方面的方法的方法步骤。
附图说明
图1示意性地说明用于USAC的编码器的实例,
图2示意性地说明用于USAC的解码器的实例,
图3示意性地说明图2的解码器的OTT盒(OTT box),
图4示意性地说明图3的OTT盒的去关联器块,
图5是示意性地说明LPC滤波器的反量化的框图,
图6示意性地说明图2的解码器的IMDCT块,及
图7及图8是示意性地说明解码经编码USAC流的方法的实例的流程图。
具体实施方式
图1及2分别说明用于统一语音及音频编码(USAC)的编码器1000的实例及解码器2000的实例。
图1说明USAC编码器1000的实例。USAC编码器1000包含用于处置立体声或多声道(multi-channel)处理的MPEG环绕(MPEG Surround)(MPEGS)功能单元1902及处置输入信号中的较高音频频率的参数表示的增强SBR(eSBR)单元1901。接着,存在两个分支1100、1200:第一路径1100,其包含经修改先进音频编码(AAC)工具路径;及第二路径1200,其包含基于线性预测编码(LP或LPC域)的路径,所述路径又以LPC残差的频域表示或时域表示为特征。AAC及LPC两者的全部传输频谱可依据量化及算术编码在MDCT域中表示。时域表示可使用ACELP激发编码方案。
如上文提及,可存在分别通过用于处置立体声或多声道处理的MPEGS功能1902单元及eSBR单元2901执行的共同(初始)预/后处理过程,eSBR单元2901处置输入信号中的较高音频频率的参数表示且可利用在本文档中概述的谐波移调方法。
编码器1000的eSBR单元1901可包括在本文档中概述的高频重建系统。特定来说,eSBR单元1901可包括分析滤波器组以产生多个分析次频带信号。接着,可在非线性处理单元中移调此分析次频带信号以产生多个合成次频带信号,接着,可将所述多个合成次频带信号输入到合成滤波器组以产生高频分量。与高频分量相关的经编码数据在位流多路复用器中与其它经编码信息合并且作为经编码音频流转发到对应解码器2000。
图2说明USAC解码器2000的实例。USAC解码器2000包含用于处置立体声或多声道处理的MPEG环绕功能单元2902。MPEG环绕功能单元2902可例如描述于USAC标准的条款7.11中。此条款的全部内容特此以引用的方式并入。MPEG环绕功能单元2902可包含可执行单声道到立体声上混的OTT盒(OTT解码块)作为上混单元的实例。在图3中说明OTT盒300的实例。OTT盒300可包含被提供单声道输入信号M0的去关联器D 310(去关联器块)。OTT盒300可进一步包含混合矩阵(或应用混合矩阵的混合模块)320。去关联器D 310可提供输入单声道信号M0的去关联版本。混合矩阵320可混合输入单声道信号M0与其去关联版本以产生所要立体声信号的(例如,左、右)声道。例如,混合矩阵可基于控制参数CLD、ICC及IPD。去关联器D310可包括全通去关联器DAP。
在图4中说明去关联器D 310的实例。去关联器D 310可包括(例如,由以下各者组成):信号分离器410(例如,用于瞬时分离)、两个去关联器结构420、430及信号组合器440。信号分离器410(分离单元)可分离输入信号的瞬时信号分量与输入信号的非瞬时信号分量。去关联器D中的去关联器结构中的一者可为全通去关联器DAP 420。去关联器结构的另一者可为瞬时去关联器DTR 430。瞬时去关联器DTR 430可例如通过将相位应用于提供到其的信号而处理此信号。全通去关联器DAP 420可包含去关联滤波器,所述去关联滤波器具有频率相依预延迟其后接着全通(例如,IIR)区段。可取决于是否使用分数延迟而以各种方式从晶格系数导出滤波器系数。换句话来说,取决于是否使用分数延迟而以不同方式从晶格系数导出滤波器系数。对于分数延迟去关联器,通过将频率相依相移添加到晶格系数而应用分数延迟。可使用晶格系数脱机地确定全通滤波器系数。即,可预计算全通滤波器系数。在运行时间,可针对全通去关联器DAP 420获得且使用预计算全通滤波器系数。例如,可基于一或多个查找表确定全通滤波器系数。
一般来说,根据以下将晶格系数(也称为反射系数)转换为滤波器系数ax n,k及bx n,k:
αP(0)=1
可脱机地实施上文公式以在运行时间之前导出(例如,预计算)滤波器系数。在运行时间,可视需要参考预计算全通滤波器系数而无需从晶格系数计算全通滤波器系数。例如,可从一或多个查找表获得(例如,读取、检索)全通滤波器系数。(若干)查找表内的全通滤波器系数的实际布置可变化,只要解码器具备用于在运行时间检索(若干)适当全通滤波器系数的例程。
在预计算全通滤波器系数时,可将频率轴细分为多个非重叠的且连续的区,例如,第一区到第四区。通常,每一区可对应于一组连续频带。接着,可针对每一区提供相异查找表,其中相应查找表包含用于所述频率区的全通滤波器系数。
例如,沿频率轴的第一区的晶格系数的滤波器系数可基于以下确定:
static FLOAT32 lattice_coeff_0_filt_den_coeff[DECORR_FILT_0_ORD+1]={1.000000f,-0.314818f,-0.256828f,-0.173641f,-0.115077f,0.000599f,0.033343f,0.122672f,0.356362f,0.128058f,0.089800f};
static FLOAT32 lttice_coeff_0_filt_num_coeff[DECORR_FILT_0_ORD+1]={0.089800f,0.128058f,-0.356362f,0.122672f,0.033343f,0.000599f,-0.115077f,-0.173641f,-0.256828f,-0.314818f,1.000000f};
沿频率轴的第二区的晶格系数的滤波器系数可基于以下确定:
static FLOAT32 lattice_coeff_1_filt_den_coeff[DECORR_FILT_1_ORD+1]={1.000000f,-0.287137f,-0.088940f,0.123204f,-0.126111f,0.064218f,0.045768f,-0.016264f,-0.122100f};
static FLOAT32 lattice_coeff_1_filt_num_coeff[DECORR_FILT1_ORD+1]={-0.122100f,-0.016264f,0.045768f,0.064218f,-0.126111f,0.123204f,-0.088940f,-0.287137f,1.000000f};
沿频率轴的第三区的晶格系数的滤波器系数可基于以下确定:
static FLOAT32 lattice_coeff_2_filt_den_coeff[DECORR_FILT_2_ORD+1]={1.000000f,0.129403f,-0.032633f,0.035700f};
static FLOAT32 lattice_coeff_2_filt_num_coeff[DECORR_FILT_2_ORD+1]={0.035700f,-0.032633f,0.129403f,1.000000f};
沿频率轴的第四区的晶格系数的滤波器系数可基于以下确定:
static FLOAT32 lattice_coeff_3_filt_den_coeff[DECORR_FILT_3_ORD+1]={1.000000f,0.034742f,-0.013000f};
static FLOAT32 lattice_coeff_3_filt_num_coeff[DECORR_FILT_3_ORD+1]={-0.013000f,0.034742f,1.000000f}.
在下文函数中,基于混响频带运用对应滤波器系数(lattice_coeff_0_filt_den_coeff/lattice_coeff_1_filt_den_coeff/lattice_coeff_2_filt_den_coeff/lattice_coeff_3_filt_den_coeff)初始化ixheaacd_mps_decor_filt_init self->den。此self->den(其是滤波器系数的指针)如下文展示那样用于ixheaacd_mps_allpass_apply中。
总而言之,上文可对应于如下配置的用于解码经编码USAC流的设备的处理。设备可包括用于解码经编码USAC流的核心解码器。核心解码器可包含适于执行单声道到立体声上混的上混单元(例如,OTT盒)。上混单元又可包含适于将去关联滤波器应用于输入信号的去关联器单元D。去关联器单元D可适于通过参考预计算值而确定去关联滤波器的滤波器系数。可脱机地且在运行时间之前(例如,在解码之前)预计算去关联滤波器的滤波器系数,且可将所述滤波器系数存储于一或多个查找表中。可针对频带的多个非重叠范围中的每一者提供相异查找表。确定滤波器系数可涉及在解码期间从一或多个查找表调用滤波器系数的预计算值。
核心解码器可包括包含上混单元的MPEG环绕功能单元。去关联滤波器可包含频率相依预延迟其后接着全通区段。可针对全通区段确定滤波器系数。上混单元可为可执行单声道到立体声上混的OTT盒。
输入信号可为单声道信号。上混单元可进一步包含用于应用混合矩阵来混合输入信号与去关联器单元的输出的混合模块。去关联器单元可包含:分离单元,其用于分离输入信号的瞬时信号分量与输入信号的非瞬时信号分量;全通去关联器单元,其适于将去关联滤波器应用于输入信号的非瞬时信号分量;瞬时去关联器单元,其适于处理输入信号的瞬时信号分量;及信号组合单元,其用于组合全通去关联器单元的输出与瞬时去关联器单元的输出。全通去关联器单元可适于通过参考预计算值而确定去关联滤波器的滤波器系数。
在图7的流程图中展示在解码经编码USAC流中的单声道到立体声上混的上下文中应用去关联滤波器的对应方法700的实例。
在步骤S710,分离输入信号的瞬时信号分量与输入信号的非瞬时信号分量。在步 骤S720,通过全通去关联器单元将去关联滤波器应用于输入信号的非瞬时信号分量。通过参考预计算值而确定去关联滤波器的滤波器系数。在步骤S730,通过瞬时去关联器单元处理输入信号的瞬时信号分量。在步骤S740,组合全通去关联器单元的输出与瞬时去关联器单元的输出。
如图2中说明,USAC解码器2000进一步包含增强频谱带宽复制(eSBR)单元2901。eSBR单元2901可描述于例如USAC标准的条款7.5中。此条款的全部内容特此以引用的方式并入。eSBR单元2901从编码器接收经编码音频位流或经编码信号。eSBR单元2901可产生信号的高频分量,将所述高频分量与经解码低频分量合并以产生经解码信号。换句话来说,eSBR单元2901可重新产生音频信号的高频带。其可基于复制在编码期间截断的谐波序列。此外,其可调整经产生高频带的频谱包络且应用反滤波,且添加噪声及正弦分量以重新产生原始信号的频谱特性。例如,假使使用MPS212,则eSBR工具的输出可为信号的时域信号或滤波器组域(例如,QMF域)表示。
eSBR单元2901可包括不同组件,例如分析滤波器组、非线性处理单元及合成滤波器组。eSBR单元2901可包含基于QMF的谐波移调器。基于QMF的谐波移调器可描述于例如USAC标准的条款7.5.4中。此条款的全部内容特此以引用的方式并入。在基于QMF的谐波移调器中,可例如使用经修改相位声码器结构执行整数倍降低取样其后接着针对每一QMF次频带进行时间扩张(time stretching)在QMF域中完全实行输入信号(例如,核心编码器时域信号)的带宽扩展。可在共同QMF分析/合成变换级中实行使用若干移调因子(例如,T=2,3,4)的移调。例如,在sbrRatio=“2:1”的情况中,移调器的输出信号将具有为输入信号的取样率的两倍的取样率(针对sbrRatio=“8:3”:为取样频率的8/3),此意味着针对T=2的移调因子,源自复合移调器QMF分析组的复合QMF次频带信号将经时间扩张但未被整数倍降低取样,且被馈送到物理次频带间距为移调器QMF分析组中的两倍的QMF分析组中。组合系统可被解释为分别使用移调因子2、3及4的三个平行移调器。为降低复杂性,可通过内插而将因子3及4移调器(3阶及4阶移调器)集成到因子2移调器(2阶移调器)中。因此,仅QMF分析及合成变换级是2阶移调器所需的级。由于基于QMF的谐波移调器不以信号自适应频域过取样为特征,所以忽略位流中的对应旗标。
在QMF移调器中,可基于下式针对全部合成次频带定义复合输出增益值:
其中k指示次频带取样值。
代替在运行时间期间计算复合输出增益的复指数实部及虚部,脱机地预计算(且存储)这些值且在运行时间(例如)从对应查找表存取这些值。
即,(脱机地)预计算且存储复指数实部及虚部。在运行时间,可视需要参考预计算复指数实部及虚部而无需计算。例如,可从一或多个查找表获得(例如,读取、检索)复指数实部及虚部。(若干)查找表内的复指数实部及虚部的实际布置可变化,只要解码器具备用于在运行时间检索适当复指数实部及虚部的例程。
例如,可针对复指数的实部提供一个查找表(例如,表phase_vocoder_cos_tab),且可针对复指数的虚部提供另一查找表(例如,表phase_vocoder_sin_tab)。在运行时间,频带索引k(其可由qmf_band_idx表示)可用于参考这些查找表且检索适当实部及虚部。
可基于下文给出的ixheaacd_qmf_hbe_apply(ixheaacd_hbe_trans.c)函数实行QMF取样值与每一合成次频带中的输出增益的复数乘法以应用输出增益Ω(k),其中qmf_r_out_buf[i]及qmf_i_out_buf[i]分别指示相应合成次频带(通过索引qmf_band_idx指示)中的QMF取样值i的实部及虚部。
如上文提及,用于应用输出增益Ω(k)的乘法可基于phase_vocoder_cos_tab[k]表(用于实部)及phase_vocoder_sin_tab[k]表(用于虚部),其可如下给出:
总而言之,上文可对应于如下配置的用于解码经编码USAC流的设备的处理。所述设备可包括用于解码经编码USAC流的核心解码器。核心解码器可包含用于扩展输入信号的带宽的eSBR单元,所述eSBR单元包含基于QMF的谐波移调器。基于QMF的谐波移调器可经配置以在多个合成次频带中的每一者中处理QMF域中的输入信号,以扩展输入信号的带宽。基于QMF的谐波移调器可进一步经配置以至少部分基于预计算信息进行操作。
预计算信息可存储于一或多个查找表中。接着,基于QMF的谐波移调器可适于在运行时间从一或多个查找表存取预计算信息。
eSBR单元可经配置以基于复制在编码期间已截断的谐波序列而重新产生输入信号的高频带频率分量,以借此扩展输入信号的带宽。eSBR单元可经配置以处置输入信号中的较高音频频率的参数表示。
基于QMF的谐波移调器可进一步经配置以针对多个合成次频带中的每一者获得相应复合输出增益值,且将复合输出增益值应用于其相应合成次频带。预计算信息可与复合输出增益值相关。复合输出增益值可包含在运行时间从一或多个查找表存取的实部及虚部。
也在QMF移调器中,可使用coreCoderFrameLength输入取样值的块来将核心编码器时间-输入-信号变换为QMF域。为了节省计算复杂性,通过对来自已存在于SBR工具中的32频带分析QMF组的次频带信号应用临界取样处理而实施变换。临界取样处理可将矩阵XLow变换为具有次频带取样值的双倍分辨率的新QMF子矩阵Γ(μ,ν)。这些QMF子矩阵可通过一次频带块处理在12个次频带取样值的时间范围内按等于1的次频带取样值步幅操作。所述处理可对所述子矩阵执行线性提取及非线性操作且按等于2的次频带取样值步幅重叠添加经修改子矩阵。结果是QMF输出经历因子2的次频带域扩张及因子T/2=1,3/2,2的次频带域移调。在与物理次频带间距为移调器分析组的两倍的QMF组合成之后,将导致具有因子T=2,3,4的所需移调。
在一个实例中,可基于表示子矩阵的位置的变量u=0,1,2,...提供对取样值的单个子矩阵的非线性处理。为标记目的,下文中可省略此索引,这是因为其是固定的。代替性地,可使用子矩阵的以下索引:
B(m,n)=Γ(m+6+u,n),m=-6,...,5 n=0,...,2MS-1。
非线性修改的输出由Y(m,k)表示,其中m=-6,...,5且xOverQMF(0)≤k<xOverQmf(numPatches)。具有索引k的每一合成次频带可为一个移调阶的结果,且是因为处理可取决于此阶而稍微不同。共同特征是选取具有近似2k/T的索引的分析次频带。
在一个情况中,对于xOverQmf(1)≤k<xOverQmf(2)(其中T=3),非线性处理可使用线性内插用于提取非整数次频带取样值。
且Z+表示正整数集。
X(m,v)=B(3m/2,v),m=-4,...,3。
非整数次频带取样值条目可通过以下形式的双头内插(two tap interpolation)而获得:
B(μ+0.5,v)=h0(v)B(μ,v)+h1(v)B(μ+1,v)
接着,针对m=-4,...,3,可通过下式定义输出
且针对m∈{-6,-5,4,5},可通过0扩展Y(3)(m,k)。此后者操作可等效于具有长度为8的矩形窗的合成窗。通过复合输出增益Ω(k)的乘法可涉及上文描述的技术。
确定非整数次频带取样值条目的必要性也可出现在接着描述的交叉乘积的加法的上下文中。
针对每一k(其中xOverQmf(0)≤k≤xOverQmf(numPatches)),独有移调因子T=2,3,4由规则xOverQmf(T-2)≤k≤xOverQmf(T-1)定义。如果交叉乘积间距参数满足p<1,那么将交叉乘积增益ΩC(m,k)设置为0。p可如下从位流参数sbrPitchInBins[ch]确定
p=sbrPitchlnBins[ch]/12
如果p≥1,那么ΩC(m,k)及中间整数参数μ1(k)、μ2(k)及t(k)可通过以下过程定义。使M为最多值T-1、值min{|B(0,n1)|,|B(0,n2)|]的最大值,其中
-n2是n1+p的整数部分且n2<2MS;
-t=1,...T-1。
如果M≤|B(0,μ(k))|,其中μ(k)定义为2k/T的整数部分,那么交叉乘积加法被消除且ΩC(m,k)=0。否则,t(k)定义为最小t=1,...,T-1,其中min{|B(0,n1)|,|B(0,n2)|}=M且整数对(μ1(k),μ2(k))定义为对应最大化对(n1,n2)。可从T及t(k)的值确定两个降低取样因子D1(k)及D2(k)作为方程式(T-t(k))D1+t(k)D2=T/2的特解,其在下表中给出:
T | t(k) | D<sub>1</sub>(k) | D<sub>2</sub>(k) |
2 | 1 | 0 | 1 |
3 | 1 | 0 | 1.5 |
3 | 2 | 1.5 | 0 |
4 | 1 | 0 | 2 |
4 | 2 | 0 | 1 |
4 | 3 | 2 | 0 |
在其中p≥1且M>|B(0,μ(k))|的情况中,接着可通过下式定义交叉乘积增益
可提取具有例如两个次频带取样值的时间范围的两个块。例如,可根据下式执行此提取
其中使用等于0的降低取样因子可对应于重复单个次频带取样值,且使用非整数降低取样因子将需要计算非整数次频带取样值条目。这些条目可通过以下形式的相同双头内插而获得:
B(μ+0.5,v)=h0(v)B(μ,v)+h1(v)B(μ+1,v)
将经提取QMF取样值X1(m)及X2(m)转换为极坐标
接着如下计算交叉乘积项
从上文hε(v)的公式,我们可见
Real(h1(v))=Real(h0(v))
Imag(h1(v))=-Imag(h0(v))and
Real(h0(v))=cos(((2*ν+1)*π)/4)
Imag(h0(v))=sin(((2*v+1)*π)/4)
其中Real(hε(v))指代hε(v)的实部,且Imag(hε(v))指代复数hε(v)的虚部。因此,(仅有)相关值是Real h0(v)及Imag h0(v)。
可脱机地实施用于确定滤波器系数hε(v)(或等效地,Real h0(v)及Imag h0(v))的公式以在运行时间之前导出(例如,预计算)滤波器系数。在运行时间,可视需要参考预计算滤波器系数hε(v)而不需要计算。例如,可从一或多个查找表获得(例如,读取、检索)滤波器系数hε(ν)。(若干)查找表内的滤波器系数hε(ν)的实际布置可变化,只要解码器具备用于在运行时间检索(若干)适当滤波器系数的例程。
例如,可基于ν的值存取查找表。作为实例,基于ν的值存取下表,对应于给定ν的表值如下
从表可见,系数的实部及虚部的绝对值相同。因此,可运用(例如,分别为整数次频带取样值B(μ,ν)及B(μ+1,ν)的实部及虚部的)加法及减法其后接着结果与0.3984033437(0.3984033437f)的单个乘法来取代与滤波器系数hε(ν)的乘法。
总而言之,上文可对应于如上文描述的用于解码经编码USAC流的设备(尤其包含QMF谐波移调器)的处理,其中多个合成次频带可包含具有分数次频带索引的非整数合成次频带。基于QMF的谐波移调器可经配置以处理从这些非整数合成次频带中的输入信号提取的取样值。预计算信息可与从具有整数次频带索引的相邻整数次频带中的取样值内插非整数次频带中的取样值的内插系数相关。可脱机地确定内插系数且将其存储于一或多个查找表中。基于QMF的谐波移调器可经配置以在运行时间从一或多个查找表存取内插系数。
可脱机地实施由以下公式定义的交叉乘积增益值的确定
以在运行时间之前导出(例如,预计算)交叉乘积增益。在运行时间,可视需要参考预计算交叉乘积增益而不需要计算。例如,可从一或多个查找表获得(例如,读取、检索)交叉乘积增益。(若干)查找表内的交叉乘积增益的实际布置可变化,只要解码器具备用于在运行时间检索(若干)适当交叉乘积增益的例程。可如上文描述那样通过相同非线性处理块执行检索预计算交叉乘积增益。
例如,可用以下查找表取代上述复合交叉乘积增益值:
hbe_x_prod_cos_table_trans_2,hbe_x_prod_cos_table_trans_3,hbe_x_prod_cos_table_trans_4
这些表可通过直接置换这些值而计算且可基于t(k)、D1(k)及D2(k)的值进行存取。例如,表可如下给出:
总而言之,上文可对应于如上文描述的用于解码经编码USAC流的设备(尤其包含QMF谐波移调器)的处理,其中基于QMF的谐波移调器可经配置以从输入信号的次频带提取取样值,获得经提取取样值的对的交叉乘积增益值,且将交叉乘积增益值应用于经提取取样值的相应对。预计算信息可与交叉乘积增益值相关。可基于交叉乘积增益公式因子脱机地确定交叉乘积增益值且将其存储于一或多个查找表中。基于QMF的谐波移调器可经配置以在运行时间从一或多个查找表存取交叉乘积增益值。
QMF移调器可包含用于QMF临界取样处理的经子取样滤波器组。用于QMF临界取样处理的此类经子取样滤波器组可描述于例如USAC标准的条款7.5.4.2中,所述条款的全部内容特此以引用的方式并入。涵盖移调器的源范围的次频带的子集可通过小的经子取样实值QMF组合成到时域。接着,将从此滤波器组输出的时域馈送到大小为滤波器组大小的两倍的复数值分析QMF组。此方法实现计算复杂性的大量节省,这是因为仅将相关源范围变换为具有双倍频率分辨率的QMF次频带域。小QMF组是通过对原始64频带QMF组进行子取样而获得,其中原型滤波器系数是通过原始原型滤波器的线性内插而获得。
QMF移调器可包含实值经子取样MS-声道合成滤波器组。QMF移调器的实值经子取样MS-声道合成滤波器组可描述于例如USAC标准的条款7.5.4.2.2中。此条款的全部内容特此以引用的方式并入。在滤波器组中,可根据下式从MS个新复数值次频带取样值计算一组MS个实值次频带取样值:
在方程式中,exp()表示复指数函数,i是虚数单位。kL表示来自QMF组(例如,32频带QMF组)的进入经子取样合成滤波器组的第一声道的次频带索引,即,起始频带。当coreCoderFrameLength=768个取样值且kL+MS>24时,将kL计算为kL=24–MS。
可脱机地实施用于确定复合系数(即,复指数)的公式以在运行时间之前导出(例如,预计算)复合系数。在运行时间,可视需要参考预计算复合系数而不需要计算。例如,可从一或多个查找表获得(例如,读取、检索)复合系数。(若干)查找表内的复合系数的实际布置可变化,只要解码器具备用于在运行时间检索(若干)适当复合系数的例程。
例如,在确定QMF组中的实值经子取样MS-声道合成的过程中,可基于查找表确定上文提及的复合系数(即,复指数)。所述表中的奇数索引值可对应于正弦值(复数值的虚数部分)且偶数索引值可对应于余弦值(复数值的实数部分)。可针对不同起始频带kL提供不同表。
例如,查找表可如下给出(针对MS=32):
总而言之,上文可对应于如上文描述的用于解码经编码USAC流的设备(尤其包含QMF谐波移调器)的处理,其中基于QMF的谐波移调器可包括经配置以从一组MS个新复数值次频带取样值计算一组MS个实值次频带取样值的实值MS声道合成滤波器组。每一实值次频带取样值及每一新复数值次频带取样值可与MS个次频带当中的相应次频带相关联。从所述一组MS个新复数值次频带取样值计算所述一组MS个实值次频带取样值可涉及:针对MS个新复数值次频带取样值中的每一者,将相应复指数应用于所述新复数值次频带取样值且取得其实部。相应复指数可取决于所述新复数值次频带取样值的次频带索引。预计算信息可与MS个次频带的复指数相关。可脱机地确定复指数且将其存储于一或多个查找表中。基于QMF的谐波移调器可经配置以在运行时间从一或多个查找表存取复指数。
进一步在QMF移调器的实值经子取样MS-声道合成滤波器组中,阵列v中的取样值可位移2MS个位置。可丢弃最旧的2MS个取样值。MS个实值次频带取样值可乘以矩阵N,即,计算矩阵向量乘积N·V,其中矩阵N的条目通过下式给出
可在运行时间之前针对MS的全部可能值(脱机地)预计算矩阵N(即,其条目)。在运行时间,可视需要参考预计算矩阵N(即,其条目)而不需要计算。例如,可从一或多个查找表获得(例如,读取、检索)矩阵N。(若干)查找表内的矩阵N(的条目)的实际布置可变化,只要解码器具备用于在运行时间检索适当矩阵(条目)的例程。
例如,可针对Ms的全部可能值(例如,MS=4,8,12,16,20)预计算矩阵N的条目且将其存储于以下表synth_cos_tab_kl_4,synth_cos_tab_kl_8,synth_cos_tab_kl_12,synth_cos_tab_kl_16,synth_cos_tab_kl_20中,其中
每一表可对应于MS的给定值且包含具有尺寸2MS×MS的矩阵的条目。
总而言之,上文可对应于如上文描述的用于解码经编码USAC流的设备(尤其包含QMF谐波移调器)的处理,其中基于QMF的谐波移调器可包括实值MS声道合成滤波器组。所述实值MS声道合成滤波器组可经配置以处理MS个实值次频带取样值的阵列以获得2MS个实值次频带取样值的阵列。MS个实值次频带取样值当中的每一实值次频带取样值可与MS个次频带当中的相应次频带相关联。处理MS个实值次频带取样值的阵列可涉及执行实值矩阵N与MS个实值次频带取样值的阵列的矩阵-向量乘法。实值矩阵N的条目可取决于在向量-矩阵乘法中与其相乘的相应次频带取样值的次频带索引。接着,预计算信息可与用于矩阵-向量乘法的实值矩阵的条目相关。可脱机地确定实值矩阵N的条目且将其存储于一或多个查找表中。基于QMF的谐波移调器可经配置以在运行时间从一或多个查找表存取实值矩阵N的条目。
如上文提及,阵列v中的取样值可位移2MS个位置。可丢弃最旧的2MS个取样值。MS个实值次频带取样值可乘以矩阵N,即,计算矩阵-向量乘积N·V,其中
来自此运算的输出可存储于阵列v的位置0到2MS-1中。可提取来自v的取样值以产生10MS-元素阵列g。阵列g的取样值可乘以窗ci以产生阵列w。窗系数ci可通过系数c的线性内插(即,通过以下方程式)而获得
ci(n)=ρ(n)c(μ(n)+1)+(1-ρ(n))c(μ(n)),0≤n<10MS
系数c可定义于ISO/IEC 14496-3:2009的表4.A.89中,所述表的全部内容特此以引用的方式并入。
可脱机地实施用于从系数c确定窗系数ci的公式以在运行时间之前导出(例如,预计算)窗系数ci。在运行时间,可视需要参考预计算窗系数ci而不需要计算。例如,可从一或多个查找表获得(例如,读取、检索)窗系数ci。(若干)查找表内的窗系数ci的实际布置可变化,只要解码器具备用于在运行时间检索(若干)适当窗系数ci的例程。
在一个实施方案中,可针对Ms的全部可能值(例如,MS=4,8,12,16,20)计算ci(n)且将其存储于表中。例如,对应于Ms的全部可能值的全部系数可经预计算且存储于下文说明的(ROM)表sub_samp_qmf_window_coeff中。
基于Ms的值,使用函数map_prot_filter(ixheaacd_hbe_trans.c)如下映射对应窗系数
表可包含:从索引位置0开始,针对MS的第一可能值(例如,MS=4)的窗系数ci(n),n=0,…,10MS-1,接着,在下一索引位置处开始,针对MS的第二可能值(例如,MS=8)的窗系数ci(n),等等。
总而言之,上文可对应于如上文描述的用于解码经编码USAC流的设备(尤其包含QMF谐波移调器)的处理,其中基于QMF的谐波移调器可包括实值MS声道合成滤波器组及复数值2M声道分析滤波器组。预计算信息可与用于在实值MS声道合成滤波器组中的合成期间及/或在复数值2M声道分析滤波器组中的分析期间窗口化取样值的阵列的窗系数相关。可基于分别为MS或M的全部可能值的表列值之间的线性内插而脱机地确定窗系数且将其存储于一或多个查找表中。基于QMF的谐波移调器可经配置以在运行时间从一或多个查找表存取窗系数。
QMF移调器可包含复数值经子取样2M声道分析滤波器组。M可等于MS。复数值经子取样M声道分析滤波器组可描述于例如USAC标准的条款7.5.4.2.3中。此条款的全部内容特此以引用的方式并入。
在分析滤波器组中,阵列x的取样值可位移2MS个位置。可丢弃最旧的2MS个取样值且将2MS个新取样值存储于位置0到2MS-1中。阵列x的取样值可乘以窗系数c2i。窗系数c2i通过系数c的线性内插(即,通过以下方程式)而获得:
c2i(n)=ρ(n)c(μ(n)+1)+(1-ρ(n))c(μ(n)),0≤n<20MS
其中μ(n)及ρ(n)分别定义为32·n/MA的整数及分数部分。取样值可经加总以产生4MS元素阵列u。可基于矩阵-向量乘法M·u计算2MS个新复数值次频带取样值,其中
在方程式中,exp()表示复数指数函数,且i是虚数单位。
可脱机地实施用于确定矩阵M(k,n)(或其条目)的公式以在运行时间之前导出(例如,预计算)矩阵(或条目)。在运行时间,可视需要参考预计算矩阵而不需要计算。例如,可从一或多个查找表获得(例如,读取、检索)矩阵M(k,n)。(若干)查找表内的矩阵条目的实际布置可变化,只要解码器具备用于在运行时间检索适当矩阵条目的例程。
在一个实施方案中,针对MS的全部可能值(例如,MS=8,16,24,32,40)计算M(k,n)且将其存储于表中,而非初始时间(运行时间)计算。查找表可命名为
analy_cos_sin_tab_kl_8,analy_cos_sin_tab_kl_16,
analy_cos_sin_tab_kl_24,analy_cos_sin_tab_kl_32,analy_cos_sin_tab_kl_40且在下文说明。
表中的全部偶数索引元素可对应于上述复数值系数(M(k,n)的矩阵条目)的实部(余弦值),且奇数索引元素可对应于上述复数值系数的虚部(正弦值)。
对应于给定MS的复数值的总数是8*(MS)2个。仅值的一半4*(MS)2个足以实现处理。
函数ixheaacd_complex_anal_filt说明可如何使用表。此凭借此矩阵中的值的周期性性质而实现。
表自身可如下给出:
每一表可对应于MS的给定值且包含具有尺寸(2MS)×(4MS)的矩阵的复合条目。如上文提及,表的偶数索引元素(假定索引在零处开始)可对应于相应矩阵条目的实部,而奇数索引元素可对应于相应矩阵条目的虚部。
总而言之,上文可对应于如上文描述的用于解码经编码USAC流的设备(尤其包含QMF谐波移调器)的处理,其中基于QMF的谐波移调器可包括复数值2MS声道合成滤波器组。复数值2MS声道合成滤波器组可经配置以处理4MS个次频带取样值的阵列以获得2MS个复数值次频带取样值的阵列。2MS个实值次频带取样值当中的每一复数值次频带取样值可与2MS个次频带当中的相应次频带相关联。处理4MS个次频带取样值的阵列可涉及执行复数值矩阵M与4MS个次频带取样值的阵列的矩阵-向量乘法。复数值矩阵M的条目可取决于这些矩阵条目在向量-矩阵乘法中所贡献的2MS个复数值次频带取样值当中的相应次频带取样值的次频带索引。预计算信息可与用于矩阵-向量乘法的复数值矩阵M的条目相关。可脱机地确定复数值矩阵M的条目且将其存储于一或多个查找表中。基于QMF的谐波移调器可经配置以在运行时间从一或多个查找表存取复数值矩阵M的条目。
此外,在QMF移调器中,可执行以下代码:
此vld4q_s32函数用于来自存储器位置的16个32位数据元素的向量加载(此存储器的指针作为输入传递到此函数)。类似地,vst4q_s32函数用于16个32位数据元素到存储器位置中的向量存储(此存储器的指针作为输入传递到此函数)。Vld4q_s32提供平台最佳指令及编码,维护比实际组合编码更容易。此两个函数也实现与组合编码相同的目的,然而,固有版本的可靠性更好。
解码器2000可进一步包含LPC滤波器工具2903,LPC滤波器工具2903通过经由线性预测合成滤波器滤波经重建激发信号而从激发域信号产生时域信号。
可在USAC位流中(在ACELP及TCX模式两者中)传输(若干)LPC滤波器。其中,在位流内编码的LPC滤波器nb_lpc的实际数目取决于USAC帧的ACELP/TCX模式组合。可从USAC帧的字段(例如,lpd_mode字段)提取ACELP/TCX模式组合,其又针对k=0到3而针对构成USAC帧的4个副帧中的每一者确定编码模式mod[k]。模式值可针对ACELP为0,针对短TCX(coreCoderFrameLength/4个取样值)为1,针对中等大小TCX(coreCoderFrameLength/2个取样值)为2,针对长TCX(coreCoderFrameLength个取样值)为3。
可解析位流以提取对应于ACELP/TCX模式组合所需的LPC滤波器中的每一者的量化索引。接着描述用于解码LPC滤波器中的一者所需的操作。
如图5中描述那样执行LPC滤波器的反量化。
使用线谱频率(LSF)表示来量化LPC滤波器。通过绝对量化模式或相对量化模式来计算一级近似计算。此描述于例如USAC标准的条款7.13.6中,所述条款的全部内容特此以引用的方式并入。指示量化模式的信息(mode_lpc)包含于位流中。解码器可提取量化模式作为解码LPC滤波器的第一步骤。
接着,基于一个8维RE8晶格向量量化器(Gosset矩阵)计算任选代数向量量化(AVQ)细化。此描述于例如USAC标准的条款7.13.7中,所述条款的全部内容特此以引用的方式并入。通过添加一级近似计算及反加权AVQ贡献而重建经量化LSF向量。(对于更多细节,参考ISO/IEC 23003-3:2012的条款7.13.5、7.13.6、7.13.7)。随后,可将反量化LSF向量转换为LSP(线谱对)参数的向量,接着进行内插且再次转换为LPC参数。
在图5中,来自USAC位流的经编码索引由多路分用器510接收,多路分用器510将数据输出到一级近似计算块520及代数VQ(AVQ)解码器530。在块510中获得LSF向量的一级近似计算。通过AVQ解码器530获得残余LSF向量。在块540中可基于LSF向量的一级近似计算确定残余LSF向量的反权重。在乘法单元550中通过将相应反权重应用于残余LSF向量的分量而执行反加权。在加法单元560中通过将LSF向量的一级近似计算与经反加权的残余LSF向量相加而获得反量化LSF向量。
可从位流提取关于此两个子向量的AVQ信息。其可包括两个经编码码本号qn1及qn2及对应AVQ索引。通过级联两个AVQ细化子向量及而获得加权残余LSF向量。需要反加权此加权残余LSF向量以反转已在USAC编码器处执行的加权。当使用绝对量化模式时,可使用以下方法用于反加权。
1)在绝对量化模式中,可从表取得LSF值。
2)接着,我们使用以下方程式计算LSF权重
d0=LSF1st[0]
d16=SF/2-LSF1st[15]
di=LSF1st[i]-LSF1st[i-1],i=1...15
3)由于从表取得LSF值,所以可用预计算表取代现有表,其中下文展示的LSF权重已经如下因式分解
因此,可脱机地实施通过LSF权重的反加权以在运行时间之前导出(例如,预计算)加权LSF值。在运行时间,可视需要参考预计算加权LSF值而不需要计算。例如,可从一或多个查找表获得(例如,读取、检索)反加权LSF值。(若干)查找表内的加权LSF值的实际布置可变化,只要解码器具备用于在运行时间检索适当反加权LSF值的例程。
下文展示在步骤3)中使用的查找表的实例。使用此查找表允许避免LSF距离的计算、相邻距离的乘法其后接着sqrt及除法。
以下实例代码说明上文论述的weight_table_avq_flt的使用。
总而言之,上文可对应于如下配置的用于解码经编码USAC流的设备的处理。所述设备可包括用于解码经编码USAC流的核心解码器。经编码USAC流可包含已使用线谱频率(LSF)表示量化的线性预测编码(LPC)滤波器的表示。核心解码器可经配置以从USAC流解码LPC滤波器。从USAC流解码LPC滤波器可包括:计算LSF向量的一级近似计算;如果已使用绝对量化模式用于量化LPC滤波器,那么重建残余LSF向量;通过参考反LSF权重或其相应对应LSF权重的预计算值而确定用于残余LSF向量的反加权的反LSF权重;通过经确定反LSF权重反加权残余LSF向量;及基于经反加权的残余LSF向量及LSF向量的一级近似计算而计算LPC滤波器。可使用以下方程式获得LSF权重:
d0=LSF1st[0]
d16=SF/2-LSF1st[15]
di=LSF1st[i]-LSF1st[i-1],i=1...15,
其中i是指示LSF向量的分量的索引,w(i)是LSF权重,W是比例因子,且LSF1st是LSF向量的一级近似计算。
可(在运行时间之前)脱机地预计算LSF权重或反LSF权重且将其存储于一或多个查找表中。从USAC流解码LPC滤波器可涉及:在解码期间从一或多个查找表调用LSF权重或反LSF权重的预计算值。
从USAC流解码LPC滤波器可进一步包括:从USAC流重建残余LSF向量的代数向量量化(AVQ)细化子向量,及级联AVQ细化子向量以获得残余LSF向量。从USAC流解码LPC滤波器可进一步包括:通过将LSF向量的一级近似计算与经反加权的残余LSF向量相加而确定LSF向量;将LSF向量转换到余弦域以获得LSP向量;及基于LSP向量确定LPF滤波器的线性预测系数。从USAC流解码LPC滤波器可进一步包括:从USAC流提取指示量化模式的信息,及确定是否已使用绝对量化模式用于量化LPC滤波器。
从USAC流解码LPC滤波器可包括:从查找表检索残余LSF向量的分量。查找表可包含经反加权的LSF残余向量的分量。
图8的流程图中展示在解码USAC流的上下文中解码LPC滤波器的对应方法800的实例。
在步骤S810,计算LSF向量的一级近似计算。在步骤S820,重建残余LSF向量。在步 骤S830,如果已使用绝对量化模式用于量化LPC滤波器,那么通过参考反LSF权重或其相应对应LSF权重的预计算值而确定用于残余LSF向量的反加权的反LSF权重。在步骤S840,通过经确定反LSF权重而反加权残余LSF向量。在步骤S850,基于经反加权的残余LSF向量及LSF向量的一级近似计算而计算LPC滤波器。在上文中,可使用以下方程式获得LSF
d0=LSF1st[0]
d16=SF/2-LSF1st[15]
di=LSF1st[i]-LSF1st[i-1],i=1...15,
其中i是指示LSF向量的分量的索引,w(i)是LSF权重,W是比例因子,且LSF1st是LSF向量的一级近似计算。
图2的解码器2000可进一步包含可遵循统一语音及音频编解码的额外组件,例如:
·位流有效负载多路分用器工具2904,其将位流有效负载分离到每一工具的部分中,且对工具中的每一者提供与所述工具相关的位流有效负载信息;
·无比例因子噪声解码工具2905,其从位流有效负载多路分用器取得信息、解析所述信息,且解码Huffman及DPCM编码比例因子;
·无频谱噪声解码工具2905,其从位流有效负载多路分用器取得信息、解析所述信息、解码经算术编码的数据,且重建经量化频谱;
·反量化器工具2905,其取得频谱的量化值且将整数值转换为非按比例调整的经重建频谱;此量化器优选地为其压扩因子取决于所选取的核心编码模式的压扩量化器;
·噪声填充工具2905,其用于填充经解码频谱中的频谱间隙,频谱间隙例如在归因于对编码器中的位需求的强限制而在将频谱值量化为零时发生;
·重新按比例调整工具2905,其将比例因子的整数表示转换为实际值且将非按比例调整的反量化频谱乘以相关比例因子;
·M/S工具2906,如在ISO/IEC 14496-3中描述;
·时间噪声整形(TNS)工具2907,如ISO/IEC 14496-3中描述;
·滤波器组/块切换工具2908,其应用在编码器中实行的频率映射的反转;反修改离散余弦变换(IMDCT)优选用于滤波器组工具;
·时间扭曲滤波器组/块切换工具2908,其在启用时间扭曲模式时取代正常滤波器组/块切换工具;滤波器组的(IMDCT)优选地与正常滤波器组相同,另外,通过时间变化重新取样来将经窗口化的时域取样值从扭曲时域映射到线性时域;
·MPEG环绕(MPEGS)工具2902,其通过将复杂上混过程应用于通过适当空间参数控制的(若干)输入信号而从一或多个输入信号产生多个信号;在USAC上下文中,MPEGS优选地用于通过传输参数侧信息连同经传输降混信号而编码多声道信号;
·信号分类器工具,其分析原始输入信号且从其产生触发不同编码模式的选择的控制信息;输入信号的分析通常取决于实施方案且将试图针对给出输入信号帧选取最佳核心编码模式;信号分类器的输出可任选地也用于影响其它工具(例如,MPEG环绕、增强SBR、时间扭曲滤波器组及其它工具)的行为;
·ACELP工具2909,其提供通过将长期预测器(自适应码字)与似脉冲序列(创新码字)组合而有效率地表示时域激发信号的方式。
图6中示意性地说明IMDCT块600的实例。在IMDCT块600中,可利用FFT模块620。在一个实施方案中,FFT模块实施方案是基于库利-塔基算法。将DFT递归地分解成小FFT。算法针对为4的幂的点数使用基数-4,且如果非4的幂则使用混合基数。
四点FFT所使用的旋转矩阵如下文展示那样分裂且应用于输入数据。
四点IFFT所使用的旋转矩阵如下文展示那样分裂且应用于输入数据。
以上述方式分裂矩阵有助于有效地利用可用ARM缓存器而无需额外堆叠存入取出(push pop)。原因是应用上述分裂矩阵每索引仅需要一个加减法,这是因为分裂矩阵的每一列及每一行仅包含两个非零条目。
预计算全部旋转因子且实施方案仅需要(514个)(257个余弦值及257个正弦值)旋转因子用于计算高达1024(210)个点的全部2n个点FFT。
C-实施方案可根据不同处理器(例如,ARM、DSP、X86)向量化。
MDCT块及IMDCT块可使用预计算旋转块610其后接着FFT块(FFT模块)620及后旋转块630实施而降低处理复杂性。块的复杂性远小于直接实施方案。此外,块利用FFT块所具有的全部优点。可从查找表取得预/后处理块所使用的旋转表。
以下代码说明本发明的FFT:
x0r=x0r+(x2r);
x0i=x0i+(x2i);
x2r=x0r-(x2r<<1);
x2i=x0i-(x2i<<1);
x1r=x1r+x3r;
x1i=x1i+x3i;
x3r=x1r-(x3r<<1);
x3i=x1i-(x3i<<1);
x0r=x0r+(x1r);
x0i=x0i+(x1i);
x1r=x0r-(x1r<<1);
x1i=x0i-(x1i<<1);
x2r=x2r+(x3i);
x2i=x2i-(x3r);
x3i=x2r-(x3i<<1);
x3r=x2i+(x3r<<1);
x0r=x0r+x2r;
x0i=x0i+x2i;
x2r=x0r-(x2r<<1);
x2i=x0i-(x2i<<1);
x1r=x1r+x3r;
x1i=x1i+x3i;
x3r=x1r-(x3r<<1);
x3i=x1i-(x3i<<1);
x0r=x0r+x1r;
x0i=x0i+x1i;
x1r=x0r-(x1r<<1);
x1i=x0i-(x1i<<1);
x2r=x2r-x3i;
x2i=x2i+x3r;
x3i=x2r+(x3i<<1);
x3r=x2i-(x3r<<1);
总而言之,上文可对应于如下配置的用于解码经编码USAC流的设备的处理。所述设备可包括用于解码经编码USAC流的核心解码器。核心解码器可包含基于库利-塔基算法的快速傅里叶变换(FFT)模块实施方案。FFT模块经配置以确定离散傅里叶变换(DFT)。确定DFT可涉及基于库利-塔基算法将DFT递归地分解成小FFT。确定DFT可进一步涉及如果FFT的点数是4的幂,那么使用基数-4,及如果所述数并非4的幂,那么使用混合基数。执行小FFT可涉及应用旋转因子。应用旋转因子可涉及参考旋转因子的预计算值。
FFT模块可经配置以通过参考预计算值而确定旋转因子。可脱机地预计算旋转因子且将其存储于一或多个查找表中。应用旋转因子可涉及在解码期间从一或多个查找表调用旋转因子的预计算值。
FFT模块可经配置以使用一个4点FET的旋转矩阵,所述旋转矩阵包含多个旋转因子作为其条目。旋转矩阵可分裂成第一中间矩阵及第二中间矩阵。第一中间矩阵及第二中间矩阵的矩阵乘积可产生旋转矩阵。第一中间矩阵及第二中间矩阵中的每一者可在每一行及每一列中恰具有两个条目。FFT模块可经配置以将第一中间矩阵及第二中间矩阵连续地应用于输入数据(旋转因子将应用于所述输入数据)。FFT模块可经配置以参考旋转矩阵的条目的预计算值或参考第一中间矩阵及第二中间矩阵的条目的预计算值。
在解码期间,复合立体声预测需要当前声道对的降混MDCT频谱,且在complex_coef==1的情况中,需要当前声道对的降混MDST频谱的估计,即,MDCT频谱的虚数对应体。降混MDST估计是从当前帧的MDCT降混计算,且在use_prev_frame==1的情况中,其是从先前帧的MDCT降混计算。窗群组g及群组窗b的先前帧的MDCT降混dmx_re_prev[g][b]是从所述帧中经重建左及右频谱及当前帧的pred_dir指示符获得。
在此过程期间,可使用dmx_length值,其中dmx_length值是偶数值MDCT变换长度,其取决于window_sequence。在滤波期间,辅助函数filterAndAdd()可执行实际滤波及加法且可基于下式定义:
FilterandAdd的代码段
ixheaacd_filter_and_add的代码段
上述代码段指示以降序存取滤波器系数指针而以升序存取输入。在Neon中,当载入此两个向量时,输入从[v1[0]-v1[3])载入且滤波从[v2[0]-v2[3]]载入。按照上文的公式,v1[0]将乘以v2[3],此在Neon中不被支持。因此,我们将必须在运行时间反转滤波器或输入。此通过所提出的过程(例如,在较低代码段中展示)解决,其中我们已重新布置滤波器系数同时存储其本身,且避免在运行时间的任何重新布置,因此给出性能(MCPS数目)的改进。
本文档中描述的方法及系统可实施为软件、固件及/或硬件。某些组件可例如实施为在数字信号处理器或微处理器上运行的软件。其它组件可例如实施为硬件及/或专用集成电路。在所描述方法及系统中遇到的信号可存储于媒体(例如随机存取存储器或光学存储媒体)上。其可经由网络(例如无线电网络、卫星网络、无线网络或有线网络(例如,因特网))传送。利用本文档中描述的方法及系统的典型装置是机顶盒或解码音频信号的其它客户终端设备。在编码方面,方法及系统可用于广播电台(例如,视频头端系统)中。
Claims (28)
1.一种用于解码经编码统一音频及语音流的设备,所述设备包括:
核心解码器,其用于解码所述经编码统一音频及语音流;
其中所述核心解码器包含基于库利-塔基算法的快速傅里叶变换FFT模块实施方案,
其中所述FFT模块经配置以确定离散傅里叶变换DFT,
其中确定所述DFT涉及:
基于所述库利-塔基算法将所述DFT递归地分解成小FFT,及
如果所述FFT的点数是4的幂,那么使用基数-4,且如果所述数并非4的幂,那么使用混合基数,且
其中执行所述小FFT涉及应用旋转因子,
其中应用所述旋转因子涉及参考所述旋转因子的预计算值。
2.根据权利要求1所述的设备,其中所述FFT模块经配置以通过参考预计算值而确定所述旋转因子。
3.根据权利要求1或权利要求2所述的设备,其中脱机地预计算所述旋转因子且将其存储于一或多个查找表中。
4.根据权利要求1到3中任一权利要求所述的设备,其中应用所述旋转因子涉及在解码期间从一或多个查找表调用所述旋转因子的所述预计算值。
5.根据权利要求1到4中任一权利要求所述的设备,
其中所述FFT模块经配置以使用4点FET的旋转矩阵,所述旋转矩阵包含多个旋转因子作为其条目,
其中所述旋转矩阵分裂成第一中间矩阵及第二中间矩阵,其中所述第一中间矩阵及所述第二中间矩阵的矩阵乘积产生所述旋转矩阵,且其中所述第一及第二中间矩阵中的每一者在每一行及每一列中恰具有两个条目,且
其中所述FFT模块经配置以将所述第一及第二中间矩阵连续地应用于将被应用所述旋转因子的输入数据。
6.根据权利要求5所述的设备,
其中所述FFT模块经配置以参考所述旋转矩阵的所述条目的预计算值或参考所述第一及第二中间矩阵的所述条目的预计算值。
7.一种用于解码经编码统一音频及语音流的设备,所述设备包括:
核心解码器,其用于解码所述经编码统一音频及语音流,
其中所述经编码统一音频及语音流包含已使用线谱频率LSF表示量化的线性预测编码LPC滤波器的表示;
其中所述核心解码器经配置以从所述统一音频及语音流解码所述LPC滤波器;
其中从所述统一音频及语音流解码所述LPC滤波器包括:
计算LSF向量的一级近似计算;
重建残余LSF向量;
如果已使用绝对量化模式用于量化所述LPC滤波器,那么通过参考用于所述残余LSF向量的反加权的反LSF权重或其相应对应LSF权重的预计算值而确定所述反LSF权重;
通过所述经确定反LSF权重反加权所述残余LSF向量;及
基于所述经反加权的残余LSF向量及所述LSF向量的所述一级近似计算而计算所述LPC滤波器;
其中能够使用以下方程式获得所述LSF权重:
d0=LSF1st[0]
d16=SF/2-LSF1st[15]
di=LSF1st[i]-LSF1st[i-1],i=1...15,
其中i是指示所述LSF向量的分量的索引,w(i)是所述LSF权重,W是比例因子,且LSF1st是所述LSF向量的所述一级近似计算。
8.根据权利要求7所述的设备,其中脱机地预计算所述LSF权重或反LSF权重且将其存储于一或多个查找表中。
9.根据权利要求7或权利要求8所述的设备,其中从所述统一音频及语音流解码所述LPC滤波器涉及:在解码期间从一或多个查找表调用所述LSF权重或反LSF权重的所述预计算值。
10.根据权利要求7到9中任一权利要求所述的设备,其中从所述统一音频及语音流解码所述LPC滤波器进一步包括:
从所述统一音频及语音流重建所述残余LSF向量的代数向量量化AVQ细化子向量;及
级联所述AVQ细化子向量以获得所述残余LSF向量。
11.根据权利要求7到10中任一权利要求所述的设备,其中从所述统一音频及语音流解码所述LPC滤波器进一步包括:
通过将所述LSF向量的所述一级近似计算与所述经反加权的残余LSF向量相加而确定LSF向量;
将所述LSF向量转换到余弦域以获得LSP向量;及
基于所述LSP向量确定所述LPF滤波器的线性预测系数。
12.根据权利要求7到11中任一权利要求所述的设备,其中从所述统一音频及语音流解码所述LPC滤波器进一步包括:
从所述统一音频及语音流提取指示量化模式的信息,及确定是否已使用所述绝对量化模式用于量化所述LPC滤波器。
13.根据权利要求7到12中任一权利要求所述的设备,其中从所述统一音频及语音流解码所述LPC滤波器包括:
从查找表检索所述残余LSF向量的所述分量,
其中所述查找表包含所述经反加权的LSF残余向量的所述分量。
14.一种用于解码经编码统一音频及语音流的方法,所述方法包括:
解码所述经编码统一音频及语音流;
其中所述解码包含使用基于库利-塔基算法的快速傅里叶变换FFT模块实施方案,
其中所述FFT模块实施方案包含确定离散傅里叶变换DFT,
其中确定所述DFT涉及:
基于所述库利-塔基算法将所述DFT递归地分解成较小FFT,及
如果所述FFT的点数是4的幂,那么使用基数-4,且如果所述数并非4的幂,那么使用混合基数,
其中执行所述小FFT涉及应用旋转因子,且
其中应用所述旋转因子涉及参考所述旋转因子的预计算值。
15.根据权利要求14所述的方法,其中所述FFT模块实施方案进一步包含通过参考预计算值而确定所述旋转因子。
16.根据权利要求14或权利要求15所述的方法,其中脱机地预计算所述旋转因子且将其存储于一或多个查找表中。
17.根据权利要求14到16中任一权利要求所述的方法,其中应用所述旋转因子涉及在解码期间从一或多个查找表调用所述旋转因子的所述预计算值。
18.根据权利要求14到17中任一权利要求所述的方法,
其中所述FFT模块实施方案包括使用4点FET的旋转矩阵,所述旋转矩阵包含多个旋转因子作为其条目,
其中所述旋转矩阵分裂成第一中间矩阵及第二中间矩阵,其中所述第一中间矩阵及所述第二中间矩阵的矩阵乘积产生所述旋转矩阵,且其中所述第一及第二中间矩阵中的每一者在每一行及每一列中恰具有两个条目,且
其中所述FFT模块实施方案包括将所述第一及第二中间矩阵连续地应用于将被应用所述旋转因子的输入数据。
19.根据权利要求18所述的方法,
其中所述FFT模块实施方案包括参考所述旋转矩阵的所述条目的预计算值或参考所述第一及第二中间矩阵的所述条目的预计算值。
20.一种用于解码经编码统一音频及语音流的方法,所述方法包括:
解码所述经编码统一音频及语音流,
其中所述经编码统一音频及语音流包含已使用线谱频率LSF表示量化的线性预测编码LPC滤波器的表示;
其中所述解码包括从所述统一音频及语音流解码所述LPC滤波器;
其中从所述统一音频及语音流解码所述LPC滤波器包括:
计算LSF向量的一级近似计算;
重建残余LSF向量;
如果已使用绝对量化模式用于量化所述LPC滤波器,那么通过参考用于所述残余LSF向量的反加权的反LSF权重或其相应对应LSF权重的预计算值而确定所述反LSF权重;
通过所述经确定反LSF权重反加权所述残余LSF向量;及
基于所述经反加权的残余LSF向量及所述LSF向量的所述一级近似计算而计算所述LPC滤波器;
其中能够使用以下方程式获得所述LSF权重:
d0=LSF1st[0]
d16=SF/2-LSF1st[15]
di=LSF1st[i]-LSF1st[i-1],i=1...15,
其中i是指示所述LSF向量的分量的索引,w(i)是所述LSF权重,W是比例因子,且LSF1st是所述LSF向量的所述一级近似计算。
21.根据权利要求20所述的方法,其中脱机地预计算所述LSF权重或反LSF权重且将其存储于一或多个查找表中。
22.根据权利要求20或权利要求21所述的方法,其中从所述统一音频及语音流解码所述LPC滤波器涉及:在解码期间从一或多个查找表调用所述LSF权重或反LSF权重的所述预计算值。
23.根据权利要求20到22中任一权利要求所述的方法,其中从所述统一音频及语音流解码所述LPC滤波器进一步包括:
从所述统一音频及语音流重建所述残余LSF向量的代数向量量化AVQ细化子向量;及
级联所述AVQ细化子向量以获得所述残余LSF向量。
24.根据权利要求20到23中任一权利要求所述的方法,其中从所述统一音频及语音流解码所述LPC滤波器进一步包括:
通过将所述LSF向量的所述一级近似计算与所述经反加权的残余LSF向量相加而确定LSF向量;
将所述LSF向量转换到余弦域以获得LSP向量;及
基于所述LSP向量确定所述LPF滤波器的线性预测系数。
25.根据权利要求20到24中任一权利要求所述的方法,其中从所述统一音频及语音流解码所述LPC滤波器进一步包括:
从所述统一音频及语音流提取指示量化模式的信息,及确定是否已使用所述绝对量化模式用于量化所述LPC滤波器。
26.根据权利要求20到25中任一权利要求所述的方法,其中从所述统一音频及语音流解码所述LPC滤波器包括:
从查找表检索所述残余LSF向量的所述分量,
其中所述查找表包含所述经反加权的LSF残余向量的所述分量。
27.一种包括软件程序的存储媒体,所述软件程序适于在处理器上执行且适于当在计算装置上实行时执行根据权利要求14到19中任一权利要求所述的方法步骤。
28.一种包括软件程序的存储媒体,所述软件程序适于在处理器上执行且适于当在计算装置上实行时执行根据权利要求20到26中任一权利要求所述的方法步骤。
Applications Claiming Priority (5)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
IN201741045575 | 2017-12-19 | ||
IN201741045575 | 2017-12-19 | ||
US201862665746P | 2018-05-02 | 2018-05-02 | |
US62/665,746 | 2018-05-02 | ||
PCT/EP2018/085938 WO2019121980A1 (en) | 2017-12-19 | 2018-12-19 | Methods and apparatus systems for unified speech and audio decoding improvements |
Publications (1)
Publication Number | Publication Date |
---|---|
CN111670439A true CN111670439A (zh) | 2020-09-15 |
Family
ID=64870491
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201880088274.7A Pending CN111670439A (zh) | 2017-12-19 | 2018-12-19 | 用于统一语音及音频解码改进的方法及设备系统 |
Country Status (7)
Country | Link |
---|---|
US (1) | US11532316B2 (zh) |
EP (1) | EP3729298A1 (zh) |
JP (1) | JP2021508380A (zh) |
KR (1) | KR20200099561A (zh) |
CN (1) | CN111670439A (zh) |
BR (1) | BR112020012648A2 (zh) |
WO (1) | WO2019121980A1 (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114254252A (zh) * | 2020-09-25 | 2022-03-29 | 华为技术有限公司 | 执行dft的方法、装置和计算机设备和存储介质 |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113314131B (zh) * | 2021-05-07 | 2022-08-09 | 武汉大学 | 一种基于两级滤波的多步音频对象编解码方法 |
WO2024150611A1 (ja) * | 2023-01-10 | 2024-07-18 | 株式会社オーディオテクニカ | デジタルフィルタの生成方法及びプログラム |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20010032227A1 (en) * | 2000-01-25 | 2001-10-18 | Jaber Marwan A. | Butterfly-processing element for efficient fast fourier transform method and apparatus |
US20100023324A1 (en) * | 2008-07-10 | 2010-01-28 | Voiceage Corporation | Device and Method for Quanitizing and Inverse Quanitizing LPC Filters in a Super-Frame |
CN105723455A (zh) * | 2013-11-13 | 2016-06-29 | 弗劳恩霍夫应用研究促进协会 | 用于编码音频信号的编码器、音频发送系统和用于确定校正值的方法 |
CN106415716A (zh) * | 2014-03-14 | 2017-02-15 | 弗劳恩霍夫应用研究促进协会 | 编码器、解码器以及用于编码和解码的方法 |
Family Cites Families (17)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
DE10234130B3 (de) | 2002-07-26 | 2004-02-19 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Vorrichtung und Verfahren zum Erzeugen einer komplexen Spektraldarstellung eines zeitdiskreten Signals |
CA2992097C (en) | 2004-03-01 | 2018-09-11 | Dolby Laboratories Licensing Corporation | Reconstructing audio signals with multiple decorrelation techniques and differentially coded parameters |
JP4755610B2 (ja) * | 2007-01-31 | 2011-08-24 | 三菱電機株式会社 | 高速フーリエ変換装置 |
US8015368B2 (en) * | 2007-04-20 | 2011-09-06 | Siport, Inc. | Processor extensions for accelerating spectral band replication |
KR101629862B1 (ko) | 2008-05-23 | 2016-06-24 | 코닌클리케 필립스 엔.브이. | 파라메트릭 스테레오 업믹스 장치, 파라메트릭 스테레오 디코더, 파라메트릭 스테레오 다운믹스 장치, 파라메트릭 스테레오 인코더 |
CN102177426B (zh) | 2008-10-08 | 2014-11-05 | 弗兰霍菲尔运输应用研究公司 | 多分辨率切换音频编码/解码方案 |
BRPI1009467B1 (pt) | 2009-03-17 | 2020-08-18 | Dolby International Ab | Sistema codificador, sistema decodificador, método para codificar um sinal estéreo para um sinal de fluxo de bits e método para decodificar um sinal de fluxo de bits para um sinal estéreo |
WO2011042464A1 (en) | 2009-10-08 | 2011-04-14 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Multi-mode audio signal decoder, multi-mode audio signal encoder, methods and computer program using a linear-prediction-coding based noise shaping |
KR101710113B1 (ko) | 2009-10-23 | 2017-02-27 | 삼성전자주식회사 | 위상 정보와 잔여 신호를 이용한 부호화/복호화 장치 및 방법 |
MX2012011532A (es) | 2010-04-09 | 2012-11-16 | Dolby Int Ab | Codificacion a estereo para prediccion de complejos basados en mdct. |
US8628741B2 (en) | 2010-04-28 | 2014-01-14 | Ronald G. Presswood, Jr. | Off gas treatment using a metal reactant alloy composition |
ES2942867T3 (es) | 2010-07-19 | 2023-06-07 | Dolby Int Ab | Procesamiento de señales de audio durante la reconstrucción de alta frecuencia |
US20130332156A1 (en) | 2012-06-11 | 2013-12-12 | Apple Inc. | Sensor Fusion to Improve Speech/Audio Processing in a Mobile Device |
US9679571B2 (en) | 2013-04-10 | 2017-06-13 | Electronics And Telecommunications Research Institute | Encoder and encoding method for multi-channel signal, and decoder and decoding method for multi-channel signal |
EP2830043A3 (en) | 2013-07-22 | 2015-02-18 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Method for Processing an Audio Signal in accordance with a Room Impulse Response, Signal Processing Unit, Audio Encoder, Audio Decoder, and Binaural Renderer |
EP2866227A1 (en) | 2013-10-22 | 2015-04-29 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Method for decoding and encoding a downmix matrix, method for presenting audio content, encoder and decoder for a downmix matrix, audio encoder and audio decoder |
TWI758146B (zh) | 2015-03-13 | 2022-03-11 | 瑞典商杜比國際公司 | 解碼具有增強頻譜帶複製元資料在至少一填充元素中的音訊位元流 |
-
2018
- 2018-12-19 BR BR112020012648-9A patent/BR112020012648A2/pt unknown
- 2018-12-19 KR KR1020207020412A patent/KR20200099561A/ko not_active Application Discontinuation
- 2018-12-19 JP JP2020533634A patent/JP2021508380A/ja active Pending
- 2018-12-19 CN CN201880088274.7A patent/CN111670439A/zh active Pending
- 2018-12-19 EP EP18826010.3A patent/EP3729298A1/en active Pending
- 2018-12-19 US US16/955,075 patent/US11532316B2/en active Active
- 2018-12-19 WO PCT/EP2018/085938 patent/WO2019121980A1/en active Search and Examination
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20010032227A1 (en) * | 2000-01-25 | 2001-10-18 | Jaber Marwan A. | Butterfly-processing element for efficient fast fourier transform method and apparatus |
US20100023324A1 (en) * | 2008-07-10 | 2010-01-28 | Voiceage Corporation | Device and Method for Quanitizing and Inverse Quanitizing LPC Filters in a Super-Frame |
CN105723455A (zh) * | 2013-11-13 | 2016-06-29 | 弗劳恩霍夫应用研究促进协会 | 用于编码音频信号的编码器、音频发送系统和用于确定校正值的方法 |
CN106415716A (zh) * | 2014-03-14 | 2017-02-15 | 弗劳恩霍夫应用研究促进协会 | 编码器、解码器以及用于编码和解码的方法 |
Non-Patent Citations (1)
Title |
---|
宋知用: "MATLAB在语音信号分析与合成中的应用", 30 November 2013, 北京航空航天大学出版社, pages: 87 * |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114254252A (zh) * | 2020-09-25 | 2022-03-29 | 华为技术有限公司 | 执行dft的方法、装置和计算机设备和存储介质 |
Also Published As
Publication number | Publication date |
---|---|
KR20200099561A (ko) | 2020-08-24 |
WO2019121980A1 (en) | 2019-06-27 |
US11532316B2 (en) | 2022-12-20 |
US20210005212A1 (en) | 2021-01-07 |
JP2021508380A (ja) | 2021-03-04 |
RU2020123712A (ru) | 2022-01-20 |
EP3729298A1 (en) | 2020-10-28 |
BR112020012648A2 (pt) | 2020-12-01 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US8655670B2 (en) | Audio encoder, audio decoder and related methods for processing multi-channel audio signals using complex prediction | |
EP3779978B1 (en) | Method of decoding an encoded stereo audio signal using a variable prediction direction | |
US7275036B2 (en) | Apparatus and method for coding a time-discrete audio signal to obtain coded audio data and for decoding coded audio data | |
TWI812658B (zh) | 用於統一語音及音訊之解碼及編碼去關聯濾波器之改良之方法、裝置及系統 | |
US11532316B2 (en) | Methods and apparatus systems for unified speech and audio decoding improvements | |
CN111670473B (zh) | 用于统一语音及音频解码基于qmf的谐波移调器改进的方法及设备 | |
RU2777304C2 (ru) | Способы, устройство и системы для улучшения модуля гармонической транспозиции на основе qmf унифицированного декодирования и кодирования речи и звука | |
RU2779265C2 (ru) | Способы, устройства и системы для улучшения унифицированного декодирования и кодирования речи и звука | |
RU2776394C2 (ru) | Способы, устройство и системы для улучшения фильтра декорреляции унифицированного декодирования и кодирования речи и звука |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
REG | Reference to a national code |
Ref country code: HK Ref legal event code: DE Ref document number: 40037192 Country of ref document: HK |