CN105431902A - 用于通过应用分布量化和编码建模累积和表示的音频信号包络编码、处理和解码的装置和方法 - Google Patents
用于通过应用分布量化和编码建模累积和表示的音频信号包络编码、处理和解码的装置和方法 Download PDFInfo
- Publication number
- CN105431902A CN105431902A CN201480033295.0A CN201480033295A CN105431902A CN 105431902 A CN105431902 A CN 105431902A CN 201480033295 A CN201480033295 A CN 201480033295A CN 105431902 A CN105431902 A CN 105431902A
- Authority
- CN
- China
- Prior art keywords
- value
- envelope
- signal envelope
- audio signal
- point
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 230000005236 sound signal Effects 0.000 title claims abstract description 284
- 238000000034 method Methods 0.000 title claims description 81
- 238000013139 quantization Methods 0.000 title description 7
- 230000001186 cumulative effect Effects 0.000 title description 2
- 238000012545 processing Methods 0.000 title description 2
- 230000000379 polymerizing effect Effects 0.000 claims description 100
- 238000001228 spectrum Methods 0.000 claims description 45
- 238000004590 computer program Methods 0.000 claims description 12
- 238000005829 trimerization reaction Methods 0.000 claims description 7
- 230000002776 aggregation Effects 0.000 abstract 15
- 238000004220 aggregation Methods 0.000 abstract 15
- 230000006870 function Effects 0.000 description 76
- 238000013461 design Methods 0.000 description 15
- 230000035508 accumulation Effects 0.000 description 14
- 238000009825 accumulation Methods 0.000 description 14
- 238000011002 quantification Methods 0.000 description 13
- 238000012360 testing method Methods 0.000 description 13
- 230000008569 process Effects 0.000 description 8
- 230000003595 spectral effect Effects 0.000 description 8
- 238000005516 engineering process Methods 0.000 description 6
- 230000005540 biological transmission Effects 0.000 description 5
- 238000006243 chemical reaction Methods 0.000 description 4
- 230000006641 stabilisation Effects 0.000 description 4
- 238000011105 stabilization Methods 0.000 description 4
- 230000008859 change Effects 0.000 description 3
- 230000003044 adaptive effect Effects 0.000 description 2
- 239000000654 additive Substances 0.000 description 2
- 230000000996 additive effect Effects 0.000 description 2
- 230000008901 benefit Effects 0.000 description 2
- 239000006185 dispersion Substances 0.000 description 2
- 238000011156 evaluation Methods 0.000 description 2
- 230000006872 improvement Effects 0.000 description 2
- 230000010354 integration Effects 0.000 description 2
- 230000001052 transient effect Effects 0.000 description 2
- 230000009471 action Effects 0.000 description 1
- 230000001174 ascending effect Effects 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 238000000354 decomposition reaction Methods 0.000 description 1
- 238000001514 detection method Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 230000002349 favourable effect Effects 0.000 description 1
- 238000009499 grossing Methods 0.000 description 1
- 238000001819 mass spectrum Methods 0.000 description 1
- 230000013011 mating Effects 0.000 description 1
- 230000008447 perception Effects 0.000 description 1
- 238000006116 polymerization reaction Methods 0.000 description 1
- 238000012805 post-processing Methods 0.000 description 1
- 238000002203 pretreatment Methods 0.000 description 1
- 238000007493 shaping process Methods 0.000 description 1
- 238000010561 standard procedure Methods 0.000 description 1
- 230000009466 transformation Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/04—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
- G10L19/06—Determination or coding of the spectral characteristics, e.g. of the short-term prediction coefficients
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/02—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
- G10L19/0204—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders using subband decomposition
- G10L19/0208—Subband vocoders
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/02—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
- G10L19/032—Quantisation or dequantisation of spectral components
-
- H—ELECTRICITY
- H03—ELECTRONIC CIRCUITRY
- H03M—CODING; DECODING; CODE CONVERSION IN GENERAL
- H03M7/00—Conversion of a code where information is represented by a given sequence or number of digits to a code where the same, similar or subset of information is represented by a different sequence or number of digits
- H03M7/30—Compression; Expansion; Suppression of unnecessary data, e.g. redundancy reduction
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/02—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
- G10L19/0204—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders using subband decomposition
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Spectroscopy & Molecular Physics (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Signal Processing (AREA)
- Health & Medical Sciences (AREA)
- Computational Linguistics (AREA)
- Human Computer Interaction (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Theoretical Computer Science (AREA)
- Compression, Expansion, Code Conversion, And Decoders (AREA)
- Transmission Systems Not Characterized By The Medium Used For Transmission (AREA)
Abstract
提供用于从一个或多个编码值生成音频信号包络的装置。该装置包括:用于接收一个或多个编码值的输入接口(1610);以及用于依据一个或多个编码值生成音频信号包络的包络生成器(1620)。包络生成器(1620)用于依据一个或多个编码值生成聚合函数,其中聚合函数包括多个聚合点,其中聚合点中的每个包括参数值和聚合值,其中聚合函数单调递增,并且其中一个或多个编码值中的每个指示聚合函数的聚合点中的一个的参数值和聚合值中的至少一个。此外,包络生成器(1620)用于生成音频信号包络,以使得音频信号包络包括多个包络点,其中包络点中的每个包括参数值和包络值,并且其中音频信号包络的包络点被分配给聚合函数的聚合点中的每个,以使得该包络点的参数值等于该聚合点的参数值。此外,包络生成器(1620)用于生成音频信号包络,以使得音频信号包络的包络点中的每个的包络值取决于聚合函数的至少一个聚合点的聚合值。
Description
技术领域
本发明涉及一种用于音频信号包络编码、处理和解码的装置和方法,尤其涉及,一种用于应用分布量化和编码的音频信号包络编码、处理和解码的装置和方法。
背景技术
线性预测编码(LPC)为用于在语音编解码器中对核心带宽的谱包络进行建模的典型工具。用于对LPC模型进行量化的最常见域为线谱频率(LSF)域。它基于LPC多项式到两个多项式的分解,其根在单位圆上,从而可以仅通过它们的角度或频率对它们进行描述。
发明内容
本发明的目的在于提供用于音频信号包络编码和解码的改进构思。通过根据权利要求1的装置、根据权利要求9的装置、根据权利要求15的方法、根据权利要求16的方法以及根据权利要求17的计算机程序实现本发明的目的。
提供一种用于从一个或多个编码值生成音频信号包络的装置。该装置包括:用于接收一个或多个编码值的输入接口;以及用于依据一个或多个编码值生成音频信号包络的包络生成器。包络生成器用于依据一个或多个编码值生成聚合函数,其中聚合函数包括多个聚合点,其中聚合点中的每个包括参数值和聚合值,其中聚合函数单调递增,其中一个或多个编码值中的每个指示聚合函数的聚合点中的一个的参数值和聚合值中的至少一个。此外,包络生成器用于生成音频信号包络,以使得音频信号包络包括多个包络点,其中包络点中的每个包括参数值和包络值,并且其中音频信号包络的包络点被分配给聚合函数的聚合点中的每个,以使得该包络点的参数值等于该聚合点的参数值。此外,包络生成器用于生成音频信号包络,以使得音频信号包络的包络点中的每个的包络值取决于聚合函数的至少一个聚合点的聚合值。
根据一个实施例,包络生成器可以,例如,用于通过为一个或多个编码值中的每个依据该编码值确定聚合点中的一个以及通过依据一个或多个编码值中的每个的聚合点应用插值以获得聚合函数来确定聚合函数。
在一个实施例中,包络生成器可以,例如,用于在聚合函数的多个聚合点处确定聚合函数的一阶导数。
根据一个实施例,包络生成器可以,例如,用于依据编码值生成聚合函数,以便聚合函数具有连续的一阶导数。
在一个实施例中,包络生成器可以,例如,用于通过应用以确定音频信号包络;
其中tilt(k)指示聚合的信号包络在第k个编码值处的导数,其中c(k)为聚合函数的第k个聚合点的聚合值,以及其中f(k)为聚合函数的第k个聚合点的参数值。
根据一个实施例,输入接口可以用于接收一个或多个分裂值作为一个或多个编码值。包络生成器可以用于依据一个或多个分裂值生成聚合函数,其中一个或多个分裂值中的每个指示聚合函数的聚合点中的一个的聚合值。此外,包络生成器可以用于生成重建的音频信号包络,以使得一个或多个分裂点将重建的音频信号包络划分成两个或更多个音频信号包络部分,其中预定义的分配规则为两个或更多个信号包络部分中的每个信号包络部分,依据该信号包络部分,定义信号包络部分值。此外,包络生成器可以用于生成重建的音频信号包络,以使得对于两个或更多个信号包络部分中的每个,其信号包络部分值的绝对值大于其他信号包络部分中的每个的信号包络部分值的绝对值的一半。
此外,提供一种用于确定用于对音频信号包络进行编码的一个或多个编码值的装置。该装置包括:用于为多个参数值中的每个确定聚合值的聚合器,其中对多个参数值排序,以使得当多个参数值中的第二参数值与多个参数值中的第一参数值不同时,该第一参数值在第二参数值之前或之后,其中包络值被分配给参数值中的每个,其中参数值中的每个的包络值取决于音频信号包络,并且其中聚合器用于为多个参数值中的每个参数值,依据该参数值的包络值并依据在该参数值之前的多个参数值中的每个的包络值,确定聚合值。此外,该装置包括用于依据多个参数值的聚合值中的一个或多个确定一个或多个编码值的编码单元。
根据一个实施例,聚合器可以,例如,用于为多个参数值中的每个参数值,通过对该参数值的包络值和在该参数值之前的参数值的包络值进行相加以确定聚合值。
在一个实施例中,参数值中的每个的包络值可以,例如,指示以音频信号包络作为信号包络的音频信号包络的能量值。
根据一个实施例,参数值中的每个的包络值可以,例如,指示以音频信号包络作为信号包络的音频信号包络的谱值的n次幂,其中n为大于0的偶数。
在一个实施例中,参数值中的每个的包络值可以,例如,指示时域中表示的并以音频信号包络作为信号包络的音频信号包络的幅值的n次幂,其中n为大于0的偶数。
根据一个实施例,编码单元可以,例如,用于依据参数值的聚合值中的一个或多个并依据指示多少个值将被编码单元确定作为一个或多个编码值的编码值数,确定一个或多个编码值。
在一个实施例中,编码单元可以,例如,用于根据确定一个或多个编码值;
其中c(k)指示待被编码单元确定的第k个编码值,其中j指示多个参数值中的第j个参数值,其中a(j)指示被分配给第j个参数值的聚合值,其中max(a)指示作为被分配给参数值中的一个的聚合值中的一个的最大值,其中被分配给参数值中的一个的聚合值均不大于最大值,并且
其中指示作为参数值中的一个的最小值,为此 为最小。
此外,提供一种用于从一个或多个编码值生成音频信号包络的方法。该方法包括:
–接收一个或多个编码值;以及
–依据一个或多个编码值生成音频信号包络。
通过依据一个或多个编码值生成聚合函数,执行生成音频信号包络,其中聚合函数包括多个聚合点,其中聚合点中的每个包括参数值和聚合值,其中聚合函数单调递增,并且其中一个或多个编码值中的每个指示聚合函数的聚合点中的一个的参数值和聚合值中的至少一个。此外,生成音频信号包络被执行,以使得音频信号包络包括多个包络点,其中包络点中的每个包括参数值和包络值,并且其中音频信号包络的包络点被分配给聚合函数的聚合点中的每个,以使得该包络点的参数值等于该聚合点的参数值。此外,生成音频信号包络被执行,以使得音频信号包络的包络点中的每个的包络值取决于聚合函数的至少一个聚合点的聚合值。
此外,提供一种用于确定用于对音频信号包络进行编码的一个或多个编码值的方法。该方法包括:
–为多个参数值中每个确定聚合值,其中对多个参数值排序,以使得当多个参数值中的第一参数值与多个参数值中的第二参数值不同时,该第一参数值在第二参数值之前或之后,其中包络值被分配给参数值中的每个,其中参数值中的每个的包络值取决于音频信号包络,并且其中聚合器用于为多个参数值中的每个参数值,依据该参数值的包络值并依据在该参数值之前的多个参数值中的每个的包络值,确定聚合值;以及
–依据多个参数值的聚合值中的一个或多个确定一个或多个编码值。
此外,提供一种计算机程序,当其被在计算机或信号处理器上执行时,实现上述方法中的一个。
提供一种用于解码以获得重建的音频信号包络的装置。该装置包括:用于依据一个或多个分裂点生成重建的音频信号包络的信号包络重建器;以及用于输出重建的音频信号包络的输出接口。信号包络重建器用于生成重建的音频信号包络,以使得一个或多个分裂点将重建的音频信号包络划分成两个或更多个音频信号包络部分,其中预定义的分配规则为两个或更多个信号包络部分中的每个信号包络部分,依据该信号包络部分,定义信号包络部分值。此外,信号包络重建器用于生成重建的音频信号包络,以使得对于两个或更多个信号包络部分中的每个,其信号包络部分值的绝对值大于其他信号包络部分中的每个的信号包络部分值的绝对值的一半。
根据一个实施例,信号包络重建器可以,例如,用于生成重建的音频信号包络,以使得对于两个或更多个信号包络部分中的每个,其信号包络部分值的绝对值大于其他信号包络部分中的每个的信号包络部分值的绝对值的90%。
在一个实施例中,信号包络重建器可以,例如,用于生成重建的音频信号包络,以使得对于两个或更多个信号包络部分中的每个,其信号包络部分值的绝对值大于其他信号包络部分中的每个的信号包络部分值的绝对值的99%。
在另一个实施例中,信号包络重建器110可以,例如,用于生成重建的音频信号包络,以使得两个或更多个信号包络部分中的每个的信号包络部分值等于两个或更多个信号包络部分中的其他信号包络部分中的每个的信号包络部分值。
根据一个实施例,两个或更多个信号包络部分中的每个信号包络部分的信号包络部分值可以,例如,取决于该信号包络部分的一个或多个能量值或一个或多个功率值。或者,两个或更多个信号包络部分中的每个信号包络部分的信号包络部分值取决于适于重建信号包络部分的原始或目标电平的任意其他值。
可以以多种方式实现包络的缩放(scaling)。具体的,它可以与信号能量或谱质量或类似相对应(绝对大小),或它可以是比例因子或增益因子(相对大小)。因此,可将其编码为绝对值或相对值,或可通过差值将其编码为在先值或在先值的组合。在一些情况下,缩放也可以是与其他可用数据不相关的,或可从其他可用数据中推论得出。包络应被重建至其原始或目标电平。因此,通常的,信号包络部分值取决于适于重建音频信号包络的原始或目标电平的任意值。
在一个实施例中,该装置可以,例如,进一步包括:用于根据解码规则,对一个或多个编码点进行解码以获得一个或多个分裂点中的每个的位置的分裂点解码器。分裂点解码器可以,例如,用于分析指示可能的分裂点位置的总数的总位置数、指示一个或多个分裂点的数量的分裂点数以及分裂点状态数。此外,分裂点解码器可以,例如,用于使用总位置数、分裂点数以及分裂点状态数生成一个或多个分裂点中的每个的位置的指示。
根据一个实施例,信号包络重建器可以,例如,用于依据指示重建的音频信号包络的总能量的总能量值或依据适于重建音频信号包络的原始或目标电平的任意其他值,生成重建的音频信号包络。
此外,提供根据另一个实施例的用于解码以获得重建的音频信号包络的装置。该装置包括:用于依据一个或多个分裂点生成重建的音频信号包络的信号包络重建器;以及用于输出重建的音频信号包络的输出接口。信号包络重建器用于生成重建的音频信号包络,以使得一个或多个分裂点将重建的音频信号包络划分成两个或更多个音频信号包络部分,其中预定义的分配规则为两个或更多个信号包络部分中的每个信号包络部分,依据该信号包络部分,定义信号包络部分值。预定义的包络部分值被分配给两个或更多个信号包络部分中的每个。信号包络重建器用于生成重建的音频信号包络,以使得对于两个或更多个信号包络部分中的每个信号包络部分,该信号包络部分的信号包络部分值的绝对值大于被分配给该信号包络部分的预定义的包络部分值的绝对值的90%,并使得该信号包络部分的信号包络部分值的绝对值小于被分配给该信号包络部分的预定义的包络部分值的绝对值的110%。
在一个实施例中,信号包络重建器用于生成重建的音频信号包络,以使得两个或更多个信号包络部分中的每个的信号包络部分值等于被分配给该信号包络部分的预定义的包络部分值。
在一个实施例中,至少两个信号包络部分的预定义的包络部分值彼此不同。
在另一个实施例中,信号包络部分中的每个的预定义的包络部分值与其他信号包络部分中的每个的预定义的包络部分值不同。
此外,提供一种用于重建音频信号的装置。该装置包括:根据上述实施例中的一个的用于解码以获得音频信号的重建的音频信号包络的装置,以及用于依据音频信号的音频信号包络并依据音频信号的其他信号特征,生成音频信号的信号生成器。其他信号特征与音频信号包络不同。
此外,提供一种用于对音频信号包络进行编码的装置。该装置包括:用于接收音频信号包络的音频信号包络接口;以及用于依据预定义的分配规则,为用于至少两个分裂点配置中的每个的两个或更多个音频信号包络部分中的至少一个音频信号包络部分,确定信号包络部分值的分裂点确定器。至少两个分裂点配置中的每个包括一个或多个分裂点,其中两个或更多个分裂点配置中的每个的一个或多个分裂点将音频信号包络划分成两个或更多个音频信号包络部分。分裂点确定器用于选择至少两个分裂点配置中的一个的一个或多个分裂点作为一个或多个选择的分裂点以对音频信号包络进行编码,其中分裂点确定器用于依据至少两个分裂点配置中的每个的两个或更多个音频信号包络部分中的至少一个音频信号包络部分中的每个的信号包络部分值选择一个或多个分裂点。
根据一个实施例,两个或更多个信号包络部分中的每个信号包络部分的信号包络部分值可以,例如,取决于该信号包络部分的一个或多个能量值或一个或多个功率值。或者,两个或更多个信号包络部分中的每个信号包络部分的信号包络部分值取决于适于重建音频信号包络的原始或目标电平的任意其他值。
正如已提及的,可以以多种方式实现包络的缩放。具体的,它可以与信号能量或谱质量或类似相对应(绝对大小),或它可以是比例因子或增益因子(相对大小)。因此,可将其编码为绝对值或相对值,或可通过差值将其编码为在先值或在先值的组合。在一些情况下,缩放也可以是与其他可用数据不相关的,或可从其他可用数据中推论得出。包络应被重建至其原始或目标电平。因此,通常的,信号包络部分值取决于适于重建音频信号包络的原始或目标电平的任意值。
在一个实施例中,该装置可以,例如,进一步包括:用于对一个或多个分裂点中的每个的位置进行编码以获得一个或多个编码点的分裂点编码器。分裂点编码器可以,例如,用于通过对分裂点状态数进行编码以对一个或多个分裂点中的每个的位置进行编码。此外,分裂点编码器可以,例如,用于提供指示可能的分裂点位置的总数的总位置数以及指示一个或多个分裂点的数量的分裂点数。分裂点状态数、总位置数以及分裂点数一起指示一个或多个分裂点中的每个的位置。
根据一个实施例,该装置可以,例如,进一步包括:用于确定音频信号包络的总能量并对音频信号包络的总能量进行编码的能量确定器。或者,该装置可以,例如,进一步用于确定适于重建音频信号包络的原始或目标电平的任意其他值。
此外,提供一种用于对音频信号进行编码的装置。该装置包括:根据上述实施例中的一个的用于对音频信号的音频信号包络进行编码的用于编码的装置;以及用于对音频信号的其他信号特征进行编码的次级信号特征编码器,其他信号特征与音频信号包络不同。
此外,提供一种用于解码以获得重建的音频信号包络的方法。该方法包括:
–依据一个或多个分裂点生成重建的音频信号包络;以及
–输出重建的音频信号包络。
生成重建的音频信号包络被执行,以使得一个或多个分裂点将重建的音频信号包络划分成两个或更多个音频信号包络部分,其中预定义的分配规则为两个或更多个信号包络部分中的每个信号包络部分,依据该信号包络部分,定义信号包络部分值。此外,生成重建的音频信号包络被执行,以使得对于两个或更多个信号包络部分中的每个,其信号包络部分值的绝对值大于其他信号包络部分中每个的信号包络部分值的绝对值的一半。
此外,提供一种用于解码以获得重建的音频信号包络的方法。该方法包括:
–依据一个或多个分裂点生成重建的音频信号包络;以及
–输出重建的音频信号包络。
生成重建的音频信号包络被执行,以使得一个或多个分裂点将重建的音频信号包络划分成两个或更多个音频信号包络部分,其中预定义的分配规则为两个或更多个信号包络部分中的每个信号包络部分,依据该信号包络部分,定义信号包络部分值。预定义的包络部分值被分配给两个或更多个信号包络部分中的每个。此外,生成重建的音频信号包络被执行,以使得对于两个或更多个信号包络部分中的每个信号包络部分,该信号包络部分的信号包络部分值的绝对值大于被分配给该信号包络部分的预定义的包络部分值的绝对值的90%,并使得该信号包络部分的信号包络部分值的绝对值小于被分配给该信号包络部分的预定义的包络部分值的绝对值的110%。
此外,提供一种用于对音频信号包络进行编码的方法。该方法包括:
–接收音频信号包络;
–依据预定义的分配规则,为用于至少两个分裂点配置中的每个的两个或更多个音频信号包络部分中的至少一个音频信号包络部分,确定信号包络部分值,其中至少两个分裂点配置中的每个包括一个或多个分裂点,其中两个或更多个分裂点配置中的每个的一个或多个分裂点将音频信号包络划分成两个或更多个音频信号包络部分;
以及
–选择至少两个分裂点配置中的一个的一个或多个分裂点作为一个或多个选择的分裂点以对音频信号包络进行编码,其中依据至少两个分裂点配置中的每个的两个或更多个音频信号包络部分中的至少一个音频信号包络部分中的每个的信号包络部分值,执行选择一个或多个分裂点。
此外,提供一种计算机程序,当其被在计算机或信号处理器上执行时,用于实现上述方法中的一个。
线谱频率5(LSF5)的探索式但稍不准确的描述如此,它们描述信号能量沿频率轴线的分布。存在很高的可能性,LSF5将驻留在信号具有大量能量的频率处。实施例基于此发现以在学术上采取该探索式的描述并对信号能量的实际分布进行量化。由于LSF仅近似地应用这种思想,根据实施例,省略LSF构思,反之对频率的分布进行量化,如此可以从此分布创建平滑的包络形状。下面将该发明构思称为分布量化。
实施例基于对在语音和音频编码中使用的谱包络的量化和编码。实施例可以,例如,应用于核心带宽的包络以及带宽扩展方法中。
根据实施例,标准的包络建模技术(如,比例因子带[3,4]和线性预测模型[1])可例如被替代和/或改良。
实施例的目的在于获得结合了线性预测方法和基于比例因子带的方法的优点同时去除了它们的缺点的量化。
根据实施例,提供构思,在一方面具有平滑而精确的谱包络,在另一方面可以以少量的比特位(可选地,以固定的比特率)而被编码并进一步地以合理的计算复杂度而被实现。
附图说明
下面,参考附图更详细地描述本发明的实施例,其中:
图1示出根据一实施例的用于解码以获得重建的音频信号包络的装置;
图2示出根据另一实施例的用于解码的装置,其中该装置还包括分裂点解码器;
图3示出根据一实施例的用于对音频信号包络进行编码的装置;
图4示出根据另一实施例的用于对音频信号包络进行编码的装置,其中该装置还包括分裂点编码器;
图5示出根据另一实施例的用于对音频信号包络进行编码的装置,其中用于对音频信号包络进行编码的装置还包括能量确定器;
图6示出根据实施例的通过恒定能量块描述的三个信号包络;
图7示出根据实施例的图6的谱的累积表示;
图8示出原始表示和累积质量域表示的插值谱质量包络;
图9示出根据一实施例的用于对分裂点位置进行解码的解码过程;
图10示出根据一实施例的实现分裂点位置的解码的伪代码;
图11示出根据一实施例的用于对分裂点进行编码的编码过程;
图12描述根据本发明的一实施例的实现分裂点位置的编码的伪代码;
图13示出根据一实施例的分裂点解码器;
图14示出根据一实施例的用于对音频信号进行编码的装置;
图15示出根据一实施例的用于重建音频信号的装置;
图16示出根据一实施例的用于从一个或多个编码值生成音频信号包络的装置;
图17示出根据一实施例的用于确定用于对音频信号包络进行编码的一个或多个编码值的装置;
图18示出根据第一示例的聚合函数;以及
图19示出根据第二示例的聚合函数。
具体实施方式
图3示出根据一实施例的用于对音频信号包络进行编码的装置。
该装置包括:用于接收音频信号包络的音频信号包络接口210。
此外,该装置包括分裂点确定器220,分裂点确定器220用于依据预定义的分配规则,为用于至少两个分裂点配置中的每个的两个或更多个音频信号包络部分中的至少一个音频信号包络部分,确定信号包络部分值。
至少两个分裂点配置中的每个包括一个或多个分裂点,其中两个或更多个分裂点配置中的每个的一个或多个分裂点将音频信号包络划分成两个或更多个音频信号包络部分。分裂点确定器220用于选择至少两个分裂点配置中的一个的一个或多个分裂点作为一个或多个选择的分裂点以对音频信号包络进行编码,其中分裂点确定器220用于依据至少两个分裂点配置中的每个的两个或更多个音频信号包络部分中的至少一个音频信号包络部分中的每个的信号包络部分值,选择一个或多个分裂点。
分裂点配置包括一个或多个分裂点,且由其分裂点进行限定。例如,音频信号包络可以包括20个样本:0,……,19,可以由位于样本3的位置处的第一分裂点和位于样本8的位置处的第二分裂点限定具有两个分裂点的配置,如可通过元组(3;8)指示分裂点配置。如果仅应确定一个分裂点,则单个分裂点指示分裂点配置。
合适的一个或多个分裂点应被确定为一个或多个选择的分裂点。为此,考虑至少两个分裂点配置,其中每个分裂点配置包括一个或多个分裂点。选择最合适的分裂点配置的一个或多个分裂点。依据根据预定义的分配规则确定的信号包络部分值确定一个分裂点配置是否比另一个分裂点配置更合适。
在分裂点配置具有N个分裂点的实施例中,可以考虑具有分裂点的每个可能的分裂点配置。然而,在一些实施例中,并非考虑所有可能的分裂点配置,而仅考虑两个分裂点配置。最合适的分裂点配置的分裂点被选为一个或多个选择的分裂点。
在仅应确定单个分裂点的实施例中,每个分裂点配置仅包括单个分裂点。在应确定两个分裂点的实施例中,每个分裂点配置包括两个分裂点。类似地,在应确定N个分裂点的实施例中,每个分裂点配置包括N个分裂点。
具有单个分裂点的分裂点配置将音频信号包络划分成两个音频信号包络部分。具有两个分裂点的分裂点配置将音频信号包络划分成三个音频信号包络部分。具有N个分裂点的分裂点配置将音频信号包络划分成N+1个音频信号包络部分。
存在预定义的分配规则,该预定义的分配规则将信号包络部分值分配给音频信号包络部分中的每个。预定义的分配规则依赖于音频信号包络部分。
在一些实施例中,确定分裂点,以使得由一个或多个分裂点划分音频信号包络得来的音频信号包络部分中的每个具有由预定义的分配规则分配的大体相等的信号包络部分值。因此,由于一个或多个分裂点依赖于音频信号包络和分配规则,如果在解码器处分配规则和分裂点是已知的,则可在解码器处估计音频信号包络。例如,如图6所示。
在图6(a)中,应确定用于信号包络610的单个分裂点。因此,在此示例中,由单个分裂点限定不同的可能的分裂点配置。在图6(a)的实施例中,找到分裂点631作为最佳分裂点。分裂点631将音频信号包络610划分成两个信号包络部分。矩形块611表示由分裂点631限定的第一信号包络部分的能量。矩形块612表示由分裂点631限定的第二信号包络部分的能量。在图6(a)的示例中,块611和612的上边缘表示信号包络610的估计。可在解码器处形成此估计,例如,使用分裂点631的信息(例如,如果仅有的分裂点具有值s=12,则分裂点s位于位置12处)、关于信号包络从何处开始的信息(此处,点638)以及关于信号包络在何处结束的信息(此处,点639)。信号包络可以在固定值处开始和结束,且此信息可在接收器处作为固定信息而被获取。或者,此信息可被传输至接收器。在解码器侧,解码器可以重建信号包络的估计,以使得由分裂点631分裂音频信号包络而得到的信号包络部分获得预定义规则分配的相同值。在图6(a)中,由块611和612的上边缘限定的信号包络的信号包络部分获得分配规则分配的相同值,并表示信号包络610的良好估计。除了使用分裂点631,值621也可用作分裂点。此外,除了开始值638,值628也可用作开始值,且除了结束值639,结束值629也可用作结束值。然而,不仅对横坐标值进行编码,对纵坐标值也进行编码,这需要更多的编码资源,并且这并非是必须的。
在图6(b)中,应确定用于信号包络640的三个分裂点。因此,在此示例中,由三个分裂点限定不同的可能的分裂点配置。在图6(b)的实施例中,发现分裂点661、662、663作为最佳分裂点。分裂点661、662、663将音频信号包络640划分成四个信号包络部分。矩形块641表示由分裂点限定的第一信号包络部分的能量。矩形块642表示由分裂点限定的第二信号包络部分的能量。矩形块643表示由分裂点限定的第三信号包络部分的能量。矩形块644表示由分裂点限定的第四信号包络部分的能量。在图6(b)的示例中,块641、642、643、644的上边缘表示信号包络640的估计。可在解码器处形成此估计,例如,使用分裂点661、662、663的信息、关于信号包络从何处开始的信息(此处,点668)以及关于信号包络部分在何处结束的信息(此处,点669)。信号包络可以在固定值处开始和结束,且此信息在接收器处作为固定信息可被获取。或者,此信息可被传输至接收器。在解码器侧,解码器可以重建信号包络的估计,以使得由分裂点661、662、663分裂音频信号包络得到的信号包络部分获得预定义的分配规则分配的相同值。在图6(b)中,由块641、642、643、644的上边缘限定的信号包络的信号包络部分获得由分配规则分配的相同值,并表示信号包络640的良好估计。除了使用分裂点661、662、663,值651、652、653也可用作分裂点。此外,除了开始值668,值658也可用作开始值,且除了结束值669,结束值659可被用作结束值。然而,不仅对横坐标值进行编码,对纵坐标值也进行编码,这需要更多的编码资源,并且这并非是必须的。
在图6(c)中,应确定用于信号包络670的四个分裂点。因此,在此示例中,由四个分裂点限定不同的可能的分裂点配置。在图6(c)的实施例中,发现分裂点691、692、693、694作为最佳分裂点。分裂点691、692、693、694将音频信号包络670划分成五个信号包络部分。矩形块671表示由分裂点限定的第一信号包络部分的能量。矩形块672表示由分裂点限定的第二信号包络部分的能量。矩形块673表示由分裂点限定的第三信号包络部分的能量。矩形块674表示由分裂点限定的第四信号包络部分的能量。矩形块675表示由分裂点限定的第五信号包络部分的能量。在图6(c)的示例中,块671、672、673、674、675的上边缘表示信号包络670的估计。可在解码器处形成此估计,例如,使用分裂点691、692、693、694的信息、关于信号包络从何处开始的信息(此处,点698)以及关于信号包络部分在何处结束的信息(此处,点699)。信号包络可以在固定值处开始和结束,且此信息在接收器处作为固定信息可获取。或者,此信息可被传输至接收器。在解码器侧,解码器可以重建信号包络的估计,以使得由分裂点691、692、693、694分裂音频信号包络得到的信号包络部分获得预定义的分配规则分配的相同值。在图6(c)中,由块671、672、673、674、675的上边缘限定的信号包络的信号包络部分获得由分配规则分配的相同值,并表示信号包络670的良好估计。除了使用分裂点691、692、693、694,值681、682、683、684也可用作分裂点。此外,除了开始值698,值688可被用作开始值,且除了结束值699,结束值689可被用作结束值。然而,不仅对横坐标值进行编码,对纵坐标值也进行编码,这需要更多的编码资源,并且这并非是必须的。
至于另外的特定实施例,可以考虑以下示例:
应对在谱域中表示的信号包络进行编码。信号包络可以,例如,包括n个谱值(如,n=33)。
此时可以考虑不同的信号包络部分。例如,第一信号包络部分可以包括前10个谱值vi(i=0,…,9,以i作为谱值的索引),以及第二信号包络部分可以包括后23个谱值(i=10,…,32)。
在一个实施例中,预定义的分配规则可以是,例如,具有谱值v0、v1、……、vs-1的谱信号包络部分m的信号包络部分值p(m)为谱信号包络部分的能量,如:
其中lowerbound为信号包络部分m的下限值,并且其中upperbound为信号包络部分m的上限值。
信号包络部分值确定器110可以根据此公式为一个或多个音频信号包络部分分配信号包络部分值。
此时,分裂点确定器220用于根据预定义的分配规则,确定一个或多个信号包络部分值。特别地,分裂点确定器220用于依据分配规则,确定一个或多个信号包络部分值,以使得两个或更多个信号包络部分中的每个的信号包络部分值(近似)等于两个或更多个信号包络部分中的其他信号包络部分中的每个的信号包络部分值。
例如,在特定的实施例中,分裂点确定器220可以用于确定仅有的单个分裂点。在此实施例中,例如,根据公式和由分裂点s限定两个信号包络部分,如信号包络部分1(m=1)和信号包络部分2(m=2);
其中n指示音频信号包络的样本的数量,如音频信号包络的谱值的数量。在以上示例中,n可以为,例如,n=33。
信号包络部分值确定器110可以将此信号包络部分值p(1)分配给音频信号包络部分1并将此信号包络部分值p(2)分配给音频信号包络部分2。
在一些实施例中,确定信号包络部分值p(1)和p(2)。然而,在一些实施例中,仅考虑两个信号包络部分值中的一个。例如,如果总能量是已知的,则,足以确定分裂点,以使得p(1)大体为总能量的50%。
在一些实施例中,可以从可能值的集合(例如,从整数索引值的集合,如{0;1;2;…;32})中选择s(k)。在其他实施例中,可以从可能值的集合(例如,从指示频率带的集合的频率值的集合)中选择s(k)。
在应确定多于一个分裂点的实施例中,可以考虑表示累积能量(直到分裂点s之前累积的样本能量)的公式:
如果应确定N个分裂点,则确定分裂点s(1)、s(2)、……、s(N),以使得:
其中totalenergy为信号包络的总能量。
在一个实施例中,可以选择分裂点s(k),以使得最小。
因此,根据一个实施例,分裂点确定器220可以,例如,用于确定一个或多个分裂点s(k),以使得 最小;
其中totalenergy指示总能量,且其中k指示一个或多个分裂点的第k个分裂点,并且其中N指示一个或多个分裂点的数量。
在另一个实施例中,如果分裂点确定器220用于选择仅单个分裂点s,则分裂点确定器220可以测试所有可能的分裂点s=1,…,32。
在一些实施例中,分裂点确定器220可以选择用于分裂点s的最佳值,如 最小的分裂点s。
根据一个实施例,两个或更多个信号包络部分中的每个信号包络部分的信号包络部分值可以,例如,取决于该信号包络部分的一个或多个能量值或一个或多个功率值。或者,两个或更多个信号包络部分中的每个信号包络部分的信号包络部分值可以,例如,取决于适于重建音频信号包络的原始或目标电平的任意其他值。
根据一个实施例,音频信号包络可以,例如,在谱域或时域中表示。
图4示出根据另一实施例的用于对音频信号包络进行编码的装置,其中该装置还包括用于对一个或多个分裂点进行编码(例如,根据编码规则)以获得一个或多个编码点的分裂点编码器225。
分裂点编码器225可以,例如,用于对一个或多个分裂点中的每个的位置进行编码以获得一个或多个编码点。分裂点编码器225可以,例如,用于通过对分裂点状态数进行编码以对一个或多个分裂点中的每个的位置进行编码。此外,分裂点编码器225可以,例如,用于提供指示可能的分裂点位置的总数的总位置数以及指示一个或多个分裂点的数量的分裂点数。分裂点状态数、总位置数以及分裂点数一起指示一个或多个分裂点中的每个的位置。
图5示出根据另一实施例的用于对音频信号包络进行编码的装置,其中用于对音频信号包络进行编码的装置还包括能量确定器230。
根据一个实施例,该装置可以,例如,还包括用于确定音频信号包络的总能量并用于对音频信号包络的总能量进行编码的能量确定器(230)。
然而,在另一实施例中,该装置可以,例如,用于确定适于重建音频信号包络的原始或目标电平的任意其他值。除了总能量,多个其他值适于重建音频信号包络的原始或目标电平。例如,如已经提及的,可以以多种方式实现包络的缩放,它可以与信号能量或谱质量或类似相对应(绝对大小),或它可以是比例因子或增益因子(相对大小),因此,可将其编码为绝对值或相对值,或可通过差值将其编码为在先值或在先值的组合。在一些情况下,缩放也可以是与其他可用数据不相关的,或可从其他可用数据中推论得出。包络应被重建至其原始或目标电平。
图14示出用于对音频信号进行编码的装置。该装置包括:根据上述实施例中的一个的用于编码的装置1410,以通过生成一个或多个分裂点来对音频信号的音频信号包络进行编码;以及用于对音频信号的其他信号特征进行编码的次级信号特征编码器1420。其他信号特征与音频信号包络不同。本领域的技术人员意识到,可从音频信号的信号包络和从音频信号其他信号特征,重建音频信号本身。例如,信号包络可以,例如,指示音频信号的样本的能量。其他信号特征可以,例如,指示对于时域音频信号中的每个样本,该样本具有正值还是负值。
图1示出根据一实施例的用于解码以获得重建的音频信号包络的装置。
该装置包括用于依据一个或多个分裂点生成重建的音频信号包络的信号包络重建器110。
此外,该装置包括用于输出重建的音频信号包络的输出接口120。
信号包络重建器110用于生成重建的音频信号包络,以使得一个或多个分裂点将重建的音频信号包络划分成两个或更多个音频信号包络部分。
预定义的分配规则为两个或更多个信号包络部分中的每个信号包络部分,依据该信号包络部分,定义信号包络部分值。
此外,信号包络重建器110用于生成重建的音频信号包络,以使得对于两个或更多个信号包络部分中的每个,其信号包络部分值的绝对值大于其他信号包络部分中的每个的信号包络部分值的绝对值的一半。
至于信号包络部分值x的绝对值a表示为:
如果x≥0,则a=x;
如果x<0,则a=-x。
如果所有的信号包络部分值都是正值,此上述构思意味着,生成重建的音频信号包络,以使得对于两个或更多个信号包络部分中的每个,其信号包络部分值大于其他信号包络部分中的每个的信号包络部分值的一半。
在特定的实施例中,信号包络部分中的每个的信号包络部分值等于两个或更多个信号包络部分中的其他信号包络部分中的每个的信号包络部分值。
然而,在图1的更一般的实施例中,音频信号包络被重建,以便信号包络部分的信号包络部分值不必完全相等。反之,允许某种程度的误差(某个范围)。
该构思“以使得对于两个或更多个信号包络部分中的每个,其信号包络部分值的绝对值大于其他信号包络部分中的每个的信号包络部分值的绝对值的一半”可以,例如,被理解为意味着,只要所有的信号包络部分值的最大绝对值不是所有的信号包络部分值的最小绝对值的2倍,即满足需求的条件。
例如,四个信号包络部分值的集合{0.23;0.28;0.19;0.30}满足上述需求,因为0.30<2*0.19=0.38。然而,四个信号包络部分值的另一集合{0.24;0.16;0.35;0.25}不满足需求的条件,因为0.35>2*0.16=0.32。
在解码器侧,信号包络重建器110用于重建重建的音频信号包络,以使得由分裂点划分重建的音频信号包络得到的音频信号包络部分具有大体相等的信号包络部分值。因此,两个或更多个信号包络部分中的每个的信号包络部分值大于两个或更多个信号包络部分中的其他信号包络部分中的每个的信号包络部分值的一半。
在此实施例中,信号包络部分的信号包络部分值应大体相等,但不必完全相等。
期望信号包络部分的信号包络部分值应完全相等指示解码器应如何重建信号。当信号包络部分被重建以使得信号包络部分值完全相等时,严格地限制了在解码器侧对信号进行重建的自由度。
信号包络部分值之间可以存在的偏差越大,解码器根据解码器侧的规格对音频信号包络进行调整的自由度越大。例如,当对谱音频信号包络进行编码时,一些解码器可以优选地如将更多能量放置于较低频率带上,而另一些解码器优选地如将更多能量放置于较高频率带上。并且,通过允许一定的误差,可以允许诸如由量化和/或解量化导致的有限数量的舍入误差。
在信号包络重建器110相当准确地进行重建的实施例中,信号包络重建器110用于生成重建的音频信号包络,以使得对于两个或更多个信号包络部分中的每个,其信号包络部分值的绝对值大于其他信号包络部分中的每个的信号包络部分值的绝对值的90%。
根据一实施例,信号包络重建器110可以,例如,用于生成重建的音频信号包络,以使得对于两个或更多个信号包络部分中的每个,其信号包络部分值的绝对值大于其他信号包络部分中的每个的信号包络部分值的绝对值的99%。
然而,在另一实施例中,信号包络重建器110可以,例如,用于生成重建的音频信号包络,以使得两个或更多个信号包络部分中的每个的信号包络部分值等于两个或更多个信号包络部分中的其他信号包络部分中的每个的信号包络部分值。
在一实施例中,两个或更多个信号包络部分中的每个信号包络部分的信号包络部分值可以,例如,取决于该信号包络部分的一个或多个能量值或一个或多个功率值。
根据一实施例,重建的音频信号包络可以,例如,在谱域或时域中表示。
图2示出根据另一实施例的用于解码的装置,其中该装置还包括分裂点解码器105,该分裂点解码器105用于根据解码规则对一个或多个编码点进行解码以获得一个或多个分裂点。
根据一实施例,信号包络重建器110可以,例如,用于依据指示重建的音频信号包络的总能量的总能量值或依据适于重建音频信号包络的原始或目标电平的任意其他值,生成重建的音频信号包络。
此时,为了更详细地示出本发明,提供特定的实施例。
根据特定的实施例,构思意在将频率带分裂成两个部分,以使得两半具有相同的能量。在图6(a)中描述了此想法,其中通过恒定能量块描述包络,即整体形状。
然后可以递归地应用该想法,以使得两半均可以进一步分裂成具有相同能量的两半。在图6(b)中示出了此方法。
更一般地,谱可被划分成N块,以使得每块具有1/N的能量。在图6(c)中,以N=5对此进行示出。
为了在解码器中重建这些块状恒定谱包络,块的频率边界以及,例如,总能量可被传输。然后频率边界仅在探索式的意义上与LPC的LSF表示相对应。
至此,已经提供了关于信号x的能量包络abs(x)2的解释。然而,在其他实施例中,对幅度包络abs(x)、谱的一些其他功率abs(x)n或任意感知激发的表现(如,音量)进行建模。除了能量,可以参考术语“谱质量”,并假设它描述谱的合适的表示。唯一重要的事情是,可以计算谱表示的累积和,即,该表示仅具有正值。
然而,如果序列不是正的,通过加上足够大的常量,通过计算其累积和或通过其他合适的操作,可以将它转换为正序列。类似地,可以对复值序列进行转换,例如:
1)两个序列,其中一个为纯实数,另一个为纯虚数;或
2)两个序列,其中第一个表示幅值,第二个表示相位。然后,在两种情况下可以将两个序列建模为单独的包络。
也并非必须将模型限制为谱包络模型,可以以当前模型描述任意的包络形状。例如,瞬时噪声整形(TNS)[6]为音频编解码器中的标准工具,其对信号的瞬时包络进行建模。由于我们的方法对包络进行建模,同样地它也可以应用于时域信号。
类似地,带宽扩展(BWE)方法应用谱包络以对较高频率的谱形状进行建模,所提出的方法因此也可应用于BWE。
图17示出根据一实施例的用于确定用于对音频信号包络进行编码的一个或多个编码值的装置。
该装置包括聚合器1710,该聚合器1710用于为多个参数值中的每个确定聚合值。对多个参数值排序,以使得当多个参数值的第一参数值与多个参数值中的第二参数值不同时,该第一参数值在第二参数值之前或之后。
包络值可被分配给参数值中的每个,其中参数值中的每个的包络值取决于音频信号包络,并且其中聚合器用于为多个参数值中的每个参数值,依据该参数值的包络值并依据该参数值之前的多个参数值中的每个的包络值,确定聚合值。
此外,该装置包括编码单元1720,该编码单元1720用于依据多个参数值的聚合值中的一个或多个确定一个或多个编码值。例如,编码单元1720可以生成上述的一个或多个分裂点作为一个或多个编码值,如上所述。
图18示出根据第一示例的聚合函数1810。
除了其他之外,图18示出音频信号包络的16个包络点。例如,附图标记1824指示音频信号包络的第4个包络点,附图标记1828指示第8个包络点。每个包络点包括参数值和包络值。换言之,在xy坐标系中,参数值可被当作包络点的x分量,而包络值可被当作包络点的y分量。因此,正如从图18中可看出的,第4个包络点1824的参数值为4,以及第4个包络点的包络值为3。作为另一示例,第8个包络点1828的参数值为8,以及第4个包络点的包络值为2。在其他实施例中,如果考虑诸如谱包络,参数值不会像图18中一样指示索引号,而可以,例如,指示谱带的中心频率,从而,例如,第一参数值可以为300Hz,第二参数值可以为500Hz等。或者,例如,在其他实施例中,如果考虑诸如瞬时包络,参数值可以指示时间上的点。
聚合函数1810包括多个聚合点。例如,考虑第4个聚合点1814和第8个聚合点1818。每个聚合点包括参数值和聚合值。如上类似地,在xy坐标系中,参数值可被当作聚合点的x分量,而聚合值可被当作聚合点的y分量。在图18中,第4个聚合点1814的参数值为4,以及第4个聚合点1818的聚合值为7。作为另一示例,第8个包络点的参数值为8,以及第4个包络点的包络值为13。
聚合函数1810的每个聚合点的聚合值取决于与考虑的聚合点具有相同参数值的包络点的包络值,并进一步取决于在该参数值之前的多个参数值中的每个的包络值。在图18的示例中,关于第4个聚合点1814,其聚合值取决于第4个包络点1824的包络值(因为此包络点具有和聚合点一样的参数值),并进一步取决于包络点1821、1822、和1823的包络值(因为这些包络点1821、1822、和1823的参数值在包络点1824的参数值之前)。
在图18的示例中,通过对对应包络点的包络值和在它之前的包络点的包络值进行求和,确定每个聚合点的聚合值。因此,第4个聚合点的聚合值为1+2+1+3=7(因为第1个包络点的包络值为1,第2个包络点的包络值为2,第3个包络点的包络值为1,以及第4个包络点的包络值为3)。相应地,第8个聚合点的聚合值为1+2+1+3+1+2+1+2=13。
聚合函数单调递增。这意味着,聚合函数的每个聚合点(具有在先项)具有大于或等于与其紧邻并在其之前的聚合点的聚合值的聚合值。例如,关于聚合函数1810,例如,第4个聚合点1814的聚合值大于或等于第3个聚合点的聚合值,第8个聚合点1818的聚合值大于或等于第7个聚合点1817的聚合值,以此类推,并且这对于聚合函数的所有聚合点都是适用的。
图19示出聚合函数的另一示例,在此,为聚合函数1910。在图19的示例中,通过对对应的包络点的包络值的平方和在其之前的包络点的包络值的平方进行求和,确定每个聚合点的聚合值。因此,例如,为了获得第4个聚合点1914的聚合值,对对应的包络点1924的包络值的平方以及在其之前的包络点1921、1922和1923的包络值的平方进行求和,得到22+12+22+12=10。因此,图19中的第4个聚合点1914的聚合值为10。在图19中,附图标记1931、1933、1935和1936分别指示各个包络点的包络值的平方。
还可以从图18和19中看出,聚合函数提供用于确定分裂点的有效方式。分裂点为编码值的示例。在图18中,所有分裂点的最大聚合值(这可以是,例如,总能量)为20。
例如,如果仅应确定一个分裂点,聚合点的参数值可以,例如,被选为等于或接近10(20的50%)的分裂点。在图18中,此参数值将是6,且单个分裂点将是6。
如果应确定三个分裂点,聚合点的参数值可被选为分别等于或接近5、10和15(20的25%、50%和75%)的分裂点。在图18中,这些参数值将是3或4、6和11。因此,选择的分裂点将是3、6和11,或将是4、6和11。在其他实施例中,可以允许非整数值作为分裂点,那么,在图18中,确定的分裂点将是,如3.33、6和11。
因此,根据一些实施例,聚合器可以,例如,用于为多个参数值中的每个参数值,通过对该参数值的包络值和该参数值之前的参数值的包络值进行相加,确定聚合值。
在一实施例中,参数值中的每个的包络值可以,例如,指示以音频信号包络作为信号包络的音频信号包络的能量值。
根据一实施例,参数值中的每个的包络值可以,例如,指示以音频信号包络作为信号包络的音频信号包络的谱值的n次幂,其中n为大于0的偶数。
在一实施例中,参数值中的每个的包络值可以,例如,指示在时域中表示的且以音频信号包络作为信号包络的音频信号包络的幅值的n次幂,其中,n为大于0的偶数。
根据一实施例,编码单元可以,例如,用于依据参数值的聚合值中的一个或多个并依据指示多少个值将被编码单元确定作为一个或多个编码值的编码值数,确定一个或多个编码值。
在一实施例中,编码单元可以,例如,用于根据确定一个或多个编码值;
其中c(k)指示待被编码单元确定的第k个编码值,其中j指示多个参数值中的第j个参数值,其中a(j)指示被分配给第j个参数值的聚合值,其中max(a)指示作为被分配给参数值中的一个的聚合值中的一个的最大值,其中被分配给参数值中的一个的聚合值均不大于最大值,并且
其中指示作为参数值中的一个的最小值,为此 为最小。
图16示出根据一实施例的用于从一个或多个编码值生成音频信号包络的装置。
该装置包括:用于接收一个或多个编码值的输入接口1610;以及用于依据一个或多个编码值生成音频信号包络的包络生成器1620。
包络生成器1620用于依据一个或多个编码值生成聚合函数,其中聚合函数包括多个聚合点,其中聚合点中的每个包括参数值和聚合值,其中聚合函数单调递增。
一个或多个编码值中的每个指示聚合函数的聚合点中的一个的参数值和聚合值中的至少一个。这意味着,编码值中的每个指定聚合点中的一个的参数值或指定聚合点中的一个的聚合值或指定聚合函数的聚合点中的一个的参数值和聚合值。换句话说,一个或多个编码值中的每个指示聚合函数的聚合点中的一个的参数值和/或聚合值。
此外,包络生成器1620用于生成音频信号包络,以使得音频信号包络包括多个包络点,其中包络点中的每个包括参数值和包络值,并且其中对于聚合函数的聚合点中的每个,音频信号包络的包络点中的一个被分配给该聚合点,以使得该包络点的参数值等于该聚合点的参数值。此外,包络生成器1620用于生成音频信号包络,以使得音频信号包络的包络点中的每个的包络值取决于聚合函数的至少一个聚合点的聚合值。
根据一实施例,包络生成器1620可以,例如,用于通过为一个或多个编码值中的每个依据该编码值确定聚合点中的一个以及通过依据一个或多个编码值中的每个的聚合点应用插值以获得聚合函数来确定聚合函数。
根据一实施例,输入接口1610可以用于接收一个或多个分裂值作为一个或多个编码值。包络生成器1620可以用于依据一个或多个分裂值生成聚合函数,其中一个或多个分裂值中的每个指示聚合函数的聚合点中的一个的聚合值。此外,包络生成器1620可以用于生成重建的音频信号包络,以使得一个或多个分裂点将重建的音频信号包络划分成两个或更多个音频信号包络部分。预定义的分配规则为两个或更多个信号包络部分中的每个信号包络部分,依据该信号包络部分,定义信号包络部分值。此外,包络生成器1620可以用于生成重建的音频信号包络,以使得对于两个或更多个信号包络部分中的每个,其信号包络部分值的绝对值大于其他信号包络部分中的每个的信号包络部分值的绝对值的一半。
在一实施例中,包络生成器1620可以,例如,用于在聚合函数的多个聚合点处确定聚合函数的一阶导数。
根据一实施例,包络生成器1620可以,例如,用于依据编码值生成聚合函数,以便聚合函数具有连续的一阶导数。
在其他实施例中,可以从量化的谱包络得到LPC模型。通过采取功率谱abs(x)2的逆傅立叶变换,获得自相关。从该自相关,可以通过传统方法简便地计算出LPC模型。然后,此LPC模型可被用于创建平滑的包络。
根据一些实施例,可以通过利用样条插值或其他插值方法对块进行建模以获得平滑的包络。通过对谱质量的累积和进行建模最便利地完成插值。
图7示出和图6一样的谱,但其具有它们的累积质量。线710指示原始信号包络的累积质量线。(a)中的点721、(b)中的751、752、753以及(c)中的781、782、783、784指示分裂点应处的位置。
在(a)中,y轴上的点738、721和729之间的步进大小为常量。同样地,在(b)中,y轴上的点768、751、752、753和759之间的步进大小为常量。同样地,在(c)中,y轴上的点798、781、782、783、784和789之间的步进大小为常量。点729和739之间的虚线指示总值。
在(a)中,点721指示x轴上的分裂点731的位置。在(b)中,点751、752和753分别指示在x轴上的分裂点761、762和763的位置。同样地,在(c)中,点781、782、783和784分别指示x轴上的分裂点791、792、793和794的位置。点729和739,点759和769,以及点789和799之间的虚线分别指示总值。
应当注意的是,分别指示分裂点731;761、762、763;791、792、793和794的位置的点721;751、752、753;781、782、783和784总是在原始信号包络的累积质量线上,且y轴上的步进大小为常量。
在此域中,通过任意的传统插值算法可以对累积谱质量进行插值。
为了获得原始域中的连续表示,累积域必须具有连续的一阶导数。例如,使用样条函数可以完成插值,以使得对于第k个块,样条函数的结束点为kE/N和(k+1)E/N,其中E为谱的总质量。此外,可以指定样条函数在结束点处的导数,以获得原始域中的连续包络。
一种可能是为分裂点k指定导数(tilt)为:
其中c(k)为在聚合点k处的累积能量,且f(k)为聚合点k的频率。
更一般地,点k-1、k和k+1可以为任意类型的编码值。
根据一实施例,包络生成器1620用于通过确定第一差值和第二差值的比值以确定音频信号包络。该第一差值为聚合函数的聚合点中的第一聚合点的第一聚合值(c(k+1))和聚合函数的聚合点中的第二聚合点的第二聚合值(c(k-1)或c(k))之间的差值。该第二差值为聚合函数的聚合点中的该第一聚合点的第一参数值(f(k+1))和聚合函数的聚合点中的该第二聚合点的第二参数值(f(k-1)或f(k))之间的差值。
在特定的实施例中,包络生成器1620用于通过应用确定音频信号包络;
其中tilt(k)指示聚合函数在第k个编码值处的导数,其中c(k+1)为该第一聚合值,其中f(k+1)为该第一参数值,其中c(k-1)为该第二聚合值,其中f(k-1)为该第二参数值,其中k为表示一个或多个编码值中的一个的索引的整数,其中c(k+1)-c(k-1)为两个聚合值c(k+1)和c(k-1)的第一差值,以及其中f(k+1)-f(k-1)为两个参数值f(k+1)和f(k-1)的第二差值。
例如,c(k+1)为被分配给第k+1个编码值的第一聚合值。f(k+1)为被分配给第k+1个编码值的第一参数值。c(k-1)为被分配给第k-1个编码值的第二聚合值。f(k-1)为被分配给第k-1个编码值的第二参数值。
在另一实施例中,包络生成器1620用于通过应用 确定音频信号包络;
其中tilt(k)指示聚合函数在第k个编码值处的导数,其中c(k+1)为该第一聚合值,其中f(k+1)为该第一参数值,其中c(k)为该第二聚合值,其中f(k)为该第二参数值,其中c(k-1)为聚合函数的聚合点中的第三聚合点的第三聚合值,其中f(k-1)为聚合函数的聚合点中的该第三聚合点的第三参数值,其中k为表示一个或多个编码值中的一个的索引的整数,其中c(k+1)-c(k)为两个聚合值c(k+1)和c(k)的第一差值,以及其中f(k+1)-f(k)为两个参数值f(k+1)和f(k)的第二差值。
例如,c(k+1)为被分配给第k+1个编码值的第一聚合值。f(k+1)为被分配给第k+1个编码值的第一参数值。c(k)为被分配给第k个编码值的第二聚合值。f(k)为被分配给第k个编码值的第二参数值。c(k-1)为被分配给第k-1个编码值的第三聚合值。f(k-1)为被分配给第k-1个编码值的第三参数值。
通过指定将聚合值分配给第k个编码值,这意味着,例如,第k个编码值指示该聚合值,和/或第k个编码值指示该聚合值所属的聚合点的参数值。
通过指定将参数值分配给第k个编码值,这意味着,例如,第k个编码值指示该参数值,和/或第k个编码值指示该参数值所属的聚合点的聚合值。
在特定的实施例中,例如,编码值k-1、k和k+1为如上所述的分裂点。
例如,在一实施例中,图1的信号包络重建器110可以,例如,用于依据一个或多个分裂点生成聚合函数,其中聚合函数包括多个聚合点,其中聚合点中的每个包括参数值和聚合值,其中聚合函数单调递增,并且其中一个或多个分裂点中的每个表示聚合函数的聚合点中的一个的参数值和聚合值中的至少一个。
在此实施例中,信号包络重建器110可以,例如,用于生成音频信号包络,以使得音频信号包络包括多个包络点,其中包络点中的每个包括参数值和包络值,并且其中音频信号包络的包络点被分配给聚合函数的聚合点中的每个,以使得该包络点的参数值等于该聚合点的参数值。
此外,在此实施例中,信号包络重建器110可以,例如,用于生成音频信号包络,以使得音频信号包络的包络点中的每个的包络值取决于聚合函数的至少一个聚合点的聚合值。
在特定的实施例中,信号包络重建器110可以,例如,用于通过确定第一差值和第二差值的比值以确定音频信号包络,该第一差值为聚合函数的聚合点中的第一聚合点的第一聚合值(c(k+1))和聚合函数的聚合点中的第二聚合点的第二聚合值(c(k-1);c(k))之间的差值,该第二差值为聚合函数的聚合点中的该第一聚合点的第一参数值(f(k+1))和聚合函数的聚合点中的该第二聚合点的第二参数值(f(k-1);f(k))之间的差值。为此,信号包络重建器110可以用于实现如为包络生成器1620所解释的如上所述的构思中的一个。
左和最右的边不能使用用于导数的上述方程式,因为c(k)和f(k)在其定义的范围之外是不可用的。然后,在k的范围之外的这些c(k)和f(k)可被结束点处的值替换,以使得
以及
由于存在四个约束(两个结束点处的累积质量和导数),对应的样条函数可被选为四阶多项式。
图8示出在(a)原始和(b)累积质量域中的插值谱质量包络的示例。
在(a)中,原始信号包络由810指示,插值谱质量包络由820指示。分裂点分别由831、832、833和834指示。838指示信号包络的开始,以及839指示信号包络的结束。
在(b)中,840指示累积的原始信号包络,以及850指示累积的谱质量包络。分裂点分别由861、862、863和864指示。分裂点的位置分别由累积的原始信号包络840上的点851、852、853和854指示。在x轴上,868指示原始信号包络的开始,以及869指示原始信号包络的结束。869和859之间的线指示总值。
实施例提供用于对分离块的频率进行编码的构思。频率表示标量fk的顺序列表,即,fk<fk+1。如果存在K+1个块,则存在K个分裂点。
进一步地,如果存在N个量化等级,则存在 个可能的量化。例如,对于32个量化等级和5个分裂点,存在可以以18个比特位编码的201376个可能的量化。
应当观察到的是,在MPEGUSAC[5]中的瞬态转向解相关器(TSD)工具具有对0到N-1范围内的K个位置进行编码的相似问题,借此相同或相似的枚举技术可用于对当前问题的频率进行编码。此编码算法的优点在于,它具有恒定的比特消耗。
可选地,为了进一步改善准确性或减少比特率,可以使用传统的向量量化技术,如用于LSF的量化的技术。利用此方法,可以获得较高的量化等级,且可以对关于平均失真的量化进行优化。缺点在于,例如,需要存储编码本,反之,TSD方法使用群集的代数枚举。
下面,描述根据实施例的算法。
首先,考虑一般的应用情形。
特别地,以下在类SBR场景中描述了所提出的用于对谱包络进行编码的分布量化方法的实际应用。
根据一些实施例,编码器用于:
–从原始音频信号计算HF带的谱幅度或能量值;和/或
–计算将谱包络分裂成K+1个等质量的块的预定义(或任意的、传输的)数量的K个子带索引;和/或
–使用和TSD[5]中一样的算法对索引进行编码;和/或
–对HF带的总质量进行量化和编码(如,通过哈夫曼),并将总质量和索引写入比特流。
根据一些实施例,解码器用于:
–从比特流中读取总质量和索引,然后解码;和/或
–通过样条插值近似估计平滑的累积质量曲线;和/或
–求解累积质量曲线的一阶导数以重建谱包络。
一些实施例包括其他可选的附加:
例如,一些实施例提供翘曲能力:减少可能的量化等级的数量导致用于对分裂点进行编码所需的比特位的减少,并额外地降低计算复杂度。例如,在应用分布量化之前,通过借助心理声学特征对谱包络进行翘曲或简单地通过对编码器中的相邻的频带进行加总,可以开发此效果。在解码器侧,在从分裂点索引和总质量对谱包络进行重建之后,必须通过逆特征对包络进行解翘曲。
一些另外的实施例提供自适应包络变换:如前所述,无需对谱包络的能量(即,信号x的abs(x)2)应用分布量化,但是可实现其他的每个表示(正,实数值)(如,abs(x)、sqrt(abs(x))等)。为了能够开发各种包络表示的不同形状的拟合特征,使用自适应变换技术是合理的。因此,在应用分布量化之前,执行对用于当前包络的(固定的、预定义集合的)最佳匹配变换的检测作为预处理步骤。使用的变换必须通过比特流进行传送和传输,以能够在解码器侧进行正确的再变换。
进一步的实施例用于支持块的自适应数量。为了获得所提出的模型的更高的灵活性,能够在用于每个谱包络的不同数量的块之间进行转换是有利的。当前选择的块的数量可以是预定义集合中的任意一个,以最小化需要明确地传送或传输的比特,以支持更高的灵活性。一方面,这减少了总体比特率,至于稳定的包络形状,无需高自适应性。另一方面,较少数量的块导致较大的块质量,从而支持具有陡峭的倾斜的强单峰的更精确的拟合。
一些实施例用于提供包络稳定化。由于所提出的分布量化模型相对于诸如基于比例因子带的方法具有更高的灵活性,时间相邻的包络之间的波动可以导致不被期望的不稳定性。为了抵消此影响,应用信号自适应包络稳定化技术作为后处理步骤:对于预期仅有少量波动的稳定的信号部分,通过时间上相邻的包络值的平滑,对包络进行稳定化。对于自然地包括强时间变化的信号部分(如,瞬态或发出咝咝声的/由摩擦产生的开始/偏移),不应用或仅应用弱平滑。
以下,描述根据实施例的实现包络分布量化和编码的算法。
在类SBR场景下,描述所提出的用于对谱包络进行编码的分布量化方法的实际实现。算法的以下描述涉及编码器和解码器侧的可被执行以处理一个特定包络的步骤。
下面,描述对应的编码器。
例如,包络确定和预处理可被执行如下:
–确定谱能量目标包络曲线(如,由20个子带样本表示)及其对应的总能量;
–通过成对地平均子带值,应用谱翘曲以减少值的总数(如,平均前8个子带值,并因此将总数从20减少到16);
–应用包络幅度变换以在包络模型性能和感性质量标准之间进行更好的匹配(如,提取每个子带值的四次方根,)。
例如,分布量化和编码可被执行如下:
–将包络分裂到预定义数量的等质量块的子带索引的多次确定(如,重复4次确定,以将包络分裂到3、4、6和8块中);
–分布量化的包络的完全重建(“综合分析”方法,参见下面);
–确定并决定导致包络的最精确的描述的块的数量(如,通过对比分布量化的包络和原始包络的互相关性);
–通过对比原始和分布量化的包络并根据总能量的改变,对音量进行修正;
–使用与TSD工具(参见[5])中相同的算法,对分裂索引进行编码;
–传送用于分布量化的块的数量(如,4个预定义数量的块,通过2个比特传送);
–对总能量进行量化和编码(如,使用哈夫曼编码)。
现在,描述对应的解码器。
例如,解码和逆量化可被执行如下:
–对用于分布量化的块的数量进行解码并对总能量进行解码;
–使用和TSD工具(参见[5])中一样的算法,对分裂索引进行解码;
–通过样条插值近似估计平滑的累积质量曲线;
–通过一阶导数从累积域重建谱包络(如,通过采用连续样本的差值)。
例如,后处理可被执行如下:
–应用包络稳定化以抵消由量化误差引起的随后的包络之间的波动(如,通过重建的子带值的时间平滑,对于包含瞬态信号部分的帧α=0.1,否则α=0.25);
–根据编码器中的应用对包络变换进行恢复;
–根据编码器中的应用对包络翘曲进行恢复。
下面,描述分裂点的有效编码和解码。图4和图5的分裂点编码器225可以,例如,用于实现如下所述的有效编码。图2的分裂点解码器105可以,例如,用于实现如下所述的有效解码。
在图2所示的实施例中,用于解码的装置还包括分裂点解码器105,该分裂点解码器105用于根据解码规则对一个或多个编码点进行解码以获得一个或多个分裂点。分裂点解码器105用于分析指示可能的分裂点位置的总数的总位置数、指示分裂点的数量的分裂点数以及分裂点状态数。此外,分裂点解码器105用于使用总位置数、分裂点数以及分裂点状态数生成分裂点的一个或多个位置的指示。在特定的实施例中,分裂点解码器105可以,例如,用于使用总位置数、分裂点数以及分裂点状态数生成分裂点的两个或更多个位置的指示。
在图4和图5所示的实施例中,该装置还包括分裂点编码器225,该分裂点编码器225用于对一个或多个分裂点中的每个的位置进行编码以获得一个或多个编码点。分裂点编码器225用于通过对分裂点状态数进行编码以对一个或多个分裂点中的每个的位置进行编码。此外,分裂点编码器225用于提供指示可能的分裂点位置的总数的总位置数以及指示一个或多个分裂点的数量的分裂点数。分裂点状态数、总位置数和分裂点数一起指示一个或多个分裂点中的每个的位置。
图15为根据一实施例的用于重建音频信号的装置。该装置包括:根据上述实施例中的一个或根据下述实施例的用于解码的装置1510,以获得音频信号的重建的音频信号包络;以及用于依据音频信号的音频信号包络并依据音频信号的其他信号特征,生成音频信号的信号生成器1520,其他信号特征与音频信号包络不同。正如上面概述,本领域技术人员意识到,从音频信号的信号包络和从音频信号的其他信号特征,可以重建音频信号本身。例如,信号包络可以,例如,指示音频信号的样本的能量。其他信号特征可以,例如,指示对时域音频信号的每个样本,该样本具有正值还是负值。
一些特定的实施例基于:在本发明的解码装置中可以获得指示可能的分裂点位置的总数的总位置数以及指示分裂点的总数的分裂点数。例如,编码器可以将总位置数和/或分裂点数传输至用于解码的装置。
基于这些假设,一些实施例实现以下构思:
令N为可能的分裂点位置的(总)数量,以及
令P为分裂点的(总)数量。
假设,用于编码的装置以及用于解码的装置均知晓N和P的值。
已知N和P,可以推出,仅存在 个可能的分裂点位置的不同组合。
例如,如果可能的分裂点位置的编号从0到N-1,且如果P=8,则,分裂点位置与事件的第一可能的组合将是(0,1,2,3,4,5,6,7),第二可能的组合将是(0,1,2,3,4,5,6,8),以此类推,直至组合(N-8,N-7,N-6,N-5,N-4,N-3,N-2,N-1),从而总共有 个不同的组合。
应用进一步的发现:可以由用于编码的装置对分裂点状态数进行编码,并且分裂点状态数被传输至解码器。如果可能的 个组合中的每个由唯一的分裂点状态数表示,且如果用于解码的装置知晓哪个分裂点状态数表示哪个分裂点位置的组合,则,用于解码的装置可以使用N、P以及分裂点状态数对分裂点的位置进行解码。对于N和P的大量典型值,相对于其他构思,此编码技术应用较少的比特位对事件的分裂点位置进行编码。
换言之,通过对在[0…N-1]的范围上的位置pk的离散数P进行编码,可以解决对分裂点位置进行编码的问题,以使用尽可能少的比特位,使得对于k≠h,位置不会重叠pk≠ph。由于位置的顺序没有影响,由此得出结论:位置的唯一组合的数量为二项式系数 所需的比特位的数量因此为:
一些实施例应用一个位置接一个位置的解码构思。一个位置接一个位置的解码构思。该构思基于以下发现:
假设N为可能的分裂点位置的(总)数量,P为分裂点的数量(这意味着,N可以是总位置数FSN,P可以是分裂点数ESON)。考虑第一可能的分裂点位置。可以区分两种情形:
如果第一可能的分裂点位置为不包括分裂点的位置,则,关于剩余的N-1个可能的分裂点位置,仅存在关于剩余的N-1个可能的分裂点位置的P个分裂点的 个不同的可能组合。
然而,如果可能的分裂点位置为包括分裂点的位置,则,关于剩余的N-1个可能的分裂点位置,仅存在关于剩余的N-1个分裂点的剩余的P-1个可能的分裂点位置的 个不同的可能组合。
基于此发现,实施例进一步基于发现:应通过小于或等于阈值的分裂点状态数,对不存在分裂点的第一可能分裂点位置的所有组合进行编码。此外,应通过大于阈值的分裂点状态数,对分裂点不位于此的第一可能分裂点位置的所有组合进行编码。在一实施例中,所有的分裂点状态数可以是正整数或0,且关于第一可能分裂点位置的合适的阈值可以是
在一实施例中,通过测试确定帧的第一可能分裂点位置是否包括分裂点,分裂点状态数是否大于阈值(可选地,通过测试分裂点状态数是否大于或等于、小于或等于、或小于阈值,也可以实现实施例的编码/解码过程)。
在分析第一可能分裂点位置之后,使用调整的值继续对第二可能分裂点位置进行解码。除了调整考虑的分裂点位置的数量(减去1)之外,分裂点数也减去1且对分裂点状态数进行调整。在分裂点状态数大于阈值的情形下,从分裂点状态数中删除与第一可能分裂点位置相关的部分。可以以类似的方式对其他可能的分裂点位置继续解码过程。
在一实施例中,对在[0…N-1]的范围上的位置pk的离散数P进行编码,以使得对于k≠h,位置不会重叠pk≠ph。此处,给定的范围上的位置的每个唯一组合被称作状态(state),在此范围内的每个可能的位置被称作可能分裂点位置(pspp)。根据用于解码的装置的实施例,考虑范围内的第一可能分裂点位置。如果可能的分裂点位置不具有分裂点,则可将此范围减少至N-1,将可能的状态的数量减少至 反之,如果状态大于 则可以得出,在第一可能分裂点位置,存在分裂点。可以从此得出以下的解码算法:
对于每个pspph
如果 则
将分裂点分配给pspph
更新剩余的state
减少剩余的位置的数量P:=P-1
结束
结束
每次迭代上的二项式系数的计算的代价高。因此,根据实施例,可以使用以下规则以使用从前次迭代得到的值更新二项式系数。
使用这些公式,二项式系数的每次更新的代价为仅一次乘法运算和一次除法运算,反之,每次迭代上的明确估计的代价为P次乘法运算和除法运算。
在此实施例中,为初始化二项式系数,解码器的总复杂度为P次乘法运算和除法运算,对每次迭代,有一次乘法运算、除法运算和if语句,对每个编码位置,有一次乘法运算、加法运算和除法运算。注意的是,理论上可以将初始化所需的除法的次数减少至1。然而,在实际上,此方法将导致非常大的难以处理的整数。最差的情形,解码器的复杂度为N+2P次除法运算和N+2P次乘法运算、P次加法运算(如果使用MAC-操作,则可忽略)以及N个if语句。
在一实施例中,用于编码的装置采用的编码算法无需对所有可能的分裂点位置进行迭代,仅对有位置分配给它们的那些进行迭代。因此,
对于每个位置ph,h=1...P
更新
在最差的情形下,编码器的复杂度为P·(P-1)次乘法运算和P·(P-1)次除法运算以及P-1次加法运算。
图9示出根据本发明的实施例的解码过程。在此实施例中,在一个位置接一个位置的基础上执行解码。
在步骤110,对值进行初始化。用于解码的装置存储作为输入值接收的分裂点状态数,以变量s的形式。此外,以变量p的形式存储由分裂点数指示的分裂点的(总)数量。此外,以变量N的形式存储由总位置数指示的帧中包含的可能分裂点位置的总数。
在步骤120,对所有可能的分裂点位置,用0对spSepData[t]的值进行初始化。比特数组spSepData为待被生成的输出数据。它指示对于每个可能的分裂点位置t,可能的分裂点位置是否包括分裂点(spSepData[t]=1)或者是否不包括分裂点(spSepData[t]=0)。在步骤120,以0对所有可能的分裂点位置的相应值进行初始化。
在步骤130,用值N-1对变量k进行初始化。在此实施例中,N个可能的分裂点位置的编号为0,1,2,…,N-1。设置k=N-1,意味着首先考虑具有最高编号的可能的分裂点位置。
在步骤140,考虑是否k≥0。如果k<0,分裂点位置的解码已经完成,且过程终止,否则以步骤150继续过程。
在步骤150,测试是否p>k。如果p大于k,这意味着所有剩余的可能分裂点位置包括分裂点。在步骤230处继续过程,其中,剩余的可能分裂点位置1,…,k的所有的spSepData字段值被设置为1,指示剩余的可能分裂点位置中的每个包括分裂点。在此情形下,过程随后终止。然而,如果步骤150发现p不大于k,则在步骤160中继续解码过程。
在步骤160,计算值 c被用作阈值。
在步骤170,测试分裂点状态数s的实际值是否大于或等于c,其中c为刚在步骤160中计算的阈值。
如果s小于c,这意味着,考虑的可能的分裂点位置(具有分裂点k)不包括分裂点。在此情形下,无需采取进一步的动作,因为对于此可能分裂点位置,已经在步骤140中将spSepData[k]设置为0。然后以步骤220继续过程。在步骤220,k被设置为k:=k-1,且考虑下一个可能的分裂点位置。
然而,如果在步骤170的测试显示s大于或等于c,这意味着,考虑的可能的分裂点位置k包括分裂点。在此情形下,在步骤180中更新分裂点状态数s,并将其设置为值s:=s-c。此外,在步骤190中将spSepData[k]设置为1,以指示可能的分裂点位置k包括分裂点。此外,在步骤200,p被设置为p-1,指示待被检查的剩余的可能分裂点位置现在仅包括p-1个具有分裂点的可能分裂点位置。
在步骤210,测试p是否等于0。如果p等于0,剩余的可能分裂点位置不包括分裂点,且解码过程完成。
否则,剩余的可能分裂点位置中的至少一个包括事件,且在步骤220中继续过程,在步骤220中,以下一个可能的分裂点位置(k-1)继续解码过程。
图9中所示的实施例的解码过程生成数组spSepData作为输出值,该输出值指示对于每个可能的分裂点位置k,可能的分裂点位置是否包括分裂点(spSepData[k]=1)或是否不包括(spSepData[k]=0)。
图10示出根据一实施例的实现对分裂点位置进行编码的伪代码。
图11示出根据一实施例的用于对分裂点进行编码的编码过程。在此实施例中,在一个位置接一个位置的基础上执行编码。根据图11所示的实施例的编码过程的目的在于生成分裂点状态数。
在步骤310,对值进行初始化。用0对p_s进行初始化。通过连续地更新变量p_s,生成分裂点状态数。当编码过程完成时,p_s将携带分裂点状态数。步骤310也通过将k设置为k:=分裂点数–1,对变量k进行初始化。
在步骤320,将变量“pos”设置为pos:=spPos[k],其中spPos为容纳包括分裂点的可能分裂点位置的位置的数组。
数组中的分裂点位置以升序存储。
在步骤330,进行测试,测试是否k≥pos。如果此情形成立,则过程终止。否则,在步骤340中继续过程。
在步骤340,计算值
在步骤350,更新变量p_s,并将其设置为p_s:=p_s+c。
在步骤360,将k设置为k:=k-1。
然后,在步骤370,进行测试,测试是否k≥0。在此情形下,考虑下一个可能的分裂点位置k-1。否则,过程终止。
图12描述根据本发明的实施例的实现对分裂点位置进行编码的伪代码。
图13示出根据一实施例的分裂点解码器410。
将指示可能的分裂点位置的总数的总位置数FSN、指示分裂点的(总)数量的分裂点数ESON以及分裂点状态数ESTN提供至分裂点解码器410。分裂点解码器410包括分裂器440。分裂器440适于将帧分裂成包括可能的分裂点位置的第一集合的第一分区和包括可能的分裂点位置的第二集合的第二分区,且其中为每个分区,单独地确定包括分裂点的可能分裂点位置。由此,通过重复地将分区分裂成更小的分区,可以确定分裂点的位置。
此实施例的分裂点解码器410的“基于分区”的解码基于以下构思:
基于分区的解码基于此想法:所有可能的分裂点位置的集合被分裂成两个分区A和B,每个分区包括可能的分裂点位置的集合,其中分区A包括Na个可能的分裂点位置,且其中分区B包括Nb个可能的分裂点位置,并使得Na+Nb=N。所有可能的分裂点位置的集合可被任意地分裂成两个分区,优选地使得分区A和B具有几乎相同的可能的分裂点位置的总数(如,使得Na=Nb或Na=Nb-1)。通过将所有可能的分裂点位置的集合分成两个分区,确定实际的分裂点位置的任务也被分成两个子任务,即在帧分区A中确定实际的分裂点位置和在帧分区B中确定实际的分裂点位置。
在此实施例中,再次假设分裂点解码器105知晓可能的分裂点位置的总数、分裂点的总数以及分裂点状态数。为了解决两个子任务,分裂点解码器105也应知晓每个分区的可能的分裂点位置的数量、在每个分区中的分裂点的数量以及每个分区的分裂点状态数(分区的分裂点状态数此刻可被称作“分裂点子状态数”)。
因为分裂点解码器自身将所有可能的分裂点的集合分成两个分区,它本身知道分区A包括Na个可能的分裂点位置且分区B包括Nb个可能的分裂点位置。基于以下发现,确定两个分区中的每个的实际分裂点数量:
因为所有可能的分裂点位置的集合已被分成两个分区,此时实际的分裂点位置中的每个或者位于分区A或者位于分区B。此外,假设P为分区的分裂点的数量,N为分区的可能的分裂点位置的总数,以及f(P,N)为返回分裂点位置的不同组合的数量的函数,则对可能的分裂点位置的整个集合进行分裂(已被分成分区A和分区B)的不同组合的数量为:
基于以上考虑,根据一实施例,应以小于第一阈值的分裂点状态数对采用第一配置的所有组合进行编码,该第一配置中,分区A具有0个分裂点,分区B中具有P个分裂点。分裂点状态数可被编码为正整数值或0。因为采用第一配置仅存在f(0,Na)·f(P,Nb)个组合,合适的第一阈值可以是f(0,Na)·f(P,Nb)。
应以大于或等于第一阈值并小于或等于第二阈值的分裂点状态数对采用第二配置的所有组合进行编码,在该第二配置中,分区A具有1个分裂点,分区B具有P-1个分裂点。因为采用第二配置仅存在f(1,Na)·f(P-1,Nb)个组合,合适的第二阈值可以是f(0,Na)·f(P,Nb)+f(1,Na)·f(P-1,Nb)。类似地确定用于采用其他配置的组合的分裂点状态数。
根据一实施例,通过将所有可能的分裂点位置的集合分离成两个分区A和B,执行解码。然后,测试分裂点状态数是否小于第一阈值。在优选的实施例中,第一阈值可以是f(0,Na)·f(P,Nb)。
如果分裂点状态数小于第一阈值,则可以推出,分区A包括0个分裂点,分区B包括所有的P个分裂点。然后以各自确定的表示对应分区的分裂点的数量的数值对两个分区进行解码。此外,为分区A确定第一分裂点状态数,并为分区B确定第二分裂点状态数,第一分裂点状态数和第二分裂点状态数各自地用作新的分裂点状态数。在此文档中,分区的分裂点状态数可被称为“分裂点子状态数”。
然而,如果分裂点状态数大于或等于第一阈值,可以更新分裂点状态数。在优选的实施例中,可以通过从分裂点状态数中减去某值(优选地,减去第一阈值,如f(0,Na)·f(P,Nb))以更新分裂点状态数。在下一步骤中,测试更新的分裂点状态数是否小于第二阈值。在优选的实施例中,第二阈值可以是f(1,Na)·f(P-1,Nb)。如果分裂点状态数小于第二阈值,则可以得到,分区A具有1个分裂点,分区B具有P-1个分裂点。
然后,以各自确定的每个分区的分裂点的数量对两个分区进行解码。第一分裂点子状态数用于分区A的解码,第二分裂点子状态数用于分区B的解码。然而,如果分裂点状态数大于或等于第二阈值,可以更新分裂点状态数。在优选的实施例中,可以通过从分裂点状态数中减去某值(优选地,f(1,Na)·f(P-1,Nb))以更新分裂点状态数。类似地,对关于两个分区的剩余的分裂点的分布可能应用该解码过程。
在一实施例中,用于分区A的分裂点子状态数和用于分区B的分裂点子状态数可被用于分区A的解码和分区B的解码,其中通过进行除法确定两个事件子状态数:
分裂点状态数/f(分区B的分裂点的数量,Nb)。
优选地,分区A的分裂点子状态数为以上除法的整数部分,分区B的分裂点子状态数为此除法的余数。应用于此除法的分裂点状态数可以是帧的原始的分裂点状态数或更新后的分裂点状态数,如通过减去一个或多个阈值进行更新,如上所述。
为了示出基于分区的解码的上述构思,考虑所有可能的分裂点位置的集合具有两个分裂点的情况。此外,如果f(p,N)仍为返回分区的分裂点位置的不同组合的数量的函数,其中p为帧分区的分裂点的数量,且N为此分区的分裂点的总数。则,对于位置的可能分布中的每个,产生以下数量的可能的组合:
分区A中的位置 | 分区B中的位置 | 在此配置中的组合的数量 |
0 | 2 | f(0,Na)·f(2,Nb) |
1 | 1 | f(1,Na)·f(1,Nb) |
2 | 0 | f(2,Na)·f(0,Nb) |
因此可以得出,如果帧的编码的分裂点状态数小于f(0,Na)·f(2,Nb),则分裂点的位置需要分布为0和2。否则,从分裂点状态数中减去f(0,Na)·f(2,Nb),且其结果与f(1,Na)·f(1,Nb)进行对比。如果结果小,则位置分布为1和1。否则,仅剩下分布2和0,位置分布为2和0。
以下,根据一实施例提供伪代码,该伪代码用于对分裂点(此处:“sp”)的位置进行解码。在此伪代码中,“sp_a”为(假设的)分区A中的分裂点的数量,“sp_b”为(假设的)分区B中的分裂点的数量。在此伪代码中,(如,更新后的)分裂点状态数可被称为“state”。分区A和B的分裂点子状态数仍被联合编码在“state”变量中。根据实施例的联合编码方案,A的分裂点子状态数(此处被称为“state_a”)为除法state/f(sp_b,Nb)的整数部分,B的分裂点子状态数(此处被称为“state_b”)为此除法的余数。由此,可以通过相同的方法,对两个分区的长度(分区的分裂点的总数)和编码位置的数量(分区中的分裂点的数量)进行解码:
函数x=decodestate(state,sp,N)
1.将向量分裂成长度为的Na和Nb的两个分区.
2.for从0至sp的sp_a
a.sp_b=sp–sp_a
b.如果state<f(sp_a,Na)*f(sp_b,Nb)则
跳出for-循环.
c.state:=state–f(sp_a,Na)*f(sp_b,Nb)
3.用于分区B的可能的状态的数量是
no_states_b=f(sp_b,Nb)
4.states、分区A和B的state_a和state_b分别为除法state/no_states_b的整数部分和余数。
5.如果Na>1则通过xa=decodestate(state_a,sp_a,Na)递归地获得分区A的解码向量
否则(Na==1),向量xa为标量
可设置xa=state_a.
6.如果Nb>1则通过xb=decodestate(state_b,sp_b,Nb)递归地获得分区B的解码向量,
否则(Nb==1),向量xb为标量
可设置xb=state_b.
7.通过使用x=[xaxb]合并xa和xb以获得最终输出x。
此算法的输出为在每个编码位置(即,分裂点位置)为(1)而在其他位置(即,在不包括分裂点的可能的分裂点位置)为(0)的向量。
以下,根据一实施例提供伪代码,该伪代码用于采用类似如上的方式使用类似的变量名对分裂点位置进行编码:
函数state=encodestate(x,N)
1.将向量分裂成长度为的Na和Nb的两个分区xa和xb。
2.对分区A和B中的分裂点计数为sp_a和sp_b,并设置sp=sp_a+sp_b。
3.设置state为0
4.对于从0至sp_a-1的k
a.state:=state+f(k,Na)*f(sp-k,Nb)
5.如果Na>1,通过state_a=encodestate(xa,Na)对分区A进行编码;
否则(Na==1),设置state_a=xa。
6.如果Nb>1,通过state_b=encodestate(xb,Nb)对分区B进行编码;
否则(Nb==1),设置state_b=xb。
7.对states进行联合编码
state:=state+state_a*f(sp_b,Nb)+state_b.
此处,假设,类似于解码算法,通过向量x中的(1)识别每个编码位置(即,分裂点位置),其他所有元素为(0)(即,不包括分裂点的可能的分裂点位置)。
可以使用标准方法以非递归的形式简便地实现在伪代码中表示出的上述递归方法。
根据一实施例,函数f(p,N)可被实现为查找表。当位置不重叠时(如在当前上下文中),状态的数量的函数f(p,N)为可被简单地在线计算的二项式函数,即
根据本发明的一实施例,编码器和解码器均具有for-循环,在for-循环中,对k的连续值,计算f(p-k,Na)*f(k,Nb)的乘积。为了有效的计算,这可被写成:
换句话说,每次迭代通过三次乘法运算和一次除法运算可以计算用于减法/加法运算(在解码器的步骤2b和2c中以及在编码器的步骤4a中)的逐项。
回到图1,可选的实施例以不同的方式实现图1的用于解码以获得重建的音频信号包络的装置。在此实施例中,正如之前已解释的,该装置包括:用于依据一个或多个分裂点生成重建的音频信号包络的信号包络重建器110;以及用于输出重建的音频信号包络的输出接口120。
此外,信号包络重建器110用于生成重建的音频信号包络,以使得一个或多个分裂点将重建的音频信号包络分成两个或更多个音频信号包络部分,其中预定义的分配规则为两个或更多个信号包络部分中的每个信号包络部分,依据该信号包络部分,定义信号包络部分值。
在可选的实施例中,然而,预定义的包络部分值被分配给两个或更多个信号包络部分中的每个。
在此实施例中,信号包络重建器110用于生成重建的音频信号包络,以使得对于两个或更多个信号包络部分中的每个信号包络部分,该信号包络部分的信号包络部分值的绝对值大于被分配给该信号包络部分的预定义的包络部分值的绝对值的90%,并使得该信号包络部分的信号包络部分值的绝对值小于被分配给该信号包络部分的预定义的包络部分值的绝对值的110%。这允许与预定义的包络部分值的一定偏差。
在特定的实施例中,然而,信号包络重建器110用于生成重建的音频信号包络,以使得两个或更多个信号包络部分中的每个的信号包络部分值等于被分配给该信号包络部分的预定义的包络部分值。
例如,可以接收将音频信号包络分成四个音频信号包络部分的三个分裂点。分配规则可以指定,第一信号包络部分的预定义的包络部分值为0.15,第二信号包络部分的预定义的包络部分值为0.25,第三信号包络部分的预定义的包络部分值为0.25,以及第四信号包络部分的预定义的包络部分值为0.35。
当接收到三个分裂点时,信号包络重建器110根据上述构思重建信号包络。
在另一实施例中,可以接收将音频信号包络分成两个音频信号包络部分的一个分裂点。分配规则可以指定,第一信号包络部分的预定义的包络部分值为p,第二信号包络部分的预定义的包络部分值为1-p。例如,如果p=0.4,则1-p=0.6。此外,当接收到三个分裂点时,信号包络重建器110根据上述构思重建信号包络。
应用预定义的包络部分值的此可选的实施例可以应用上述构思中的每个。
在一实施例中,至少两个信号包络部分的预定义的包络部分值彼此不同。
在另一实施例中,信号包络部分中的每个的预定义的包络部分值与其他信号包络部分中的每个的预定义的包络部分值不同。
虽然已在装置的上下文中描述了一些方面,但显然,这些方面还表示对应的方法的描述,其中块或装置对应于方法步骤或方法步骤的特征。类似地,在方法步骤的上下文中描述的方面还表示对应的块或对应的装置的项目或特征的描述。
本发明的分解信号可存储于数字存储介质上,或可在如无线传输介质或有线传输介质(如,因特网)的传输介质上传输。
根据某些实施要求,本发明的实施例可以以硬件或软件实施。可使用具有存储于其上的电子可读控制信号的数字存储介质,例如软盘、DVD、CD、ROM、PROM、EPROM、EEPROM或闪存,执行实施方案,电子可读控制信号与(或能够与)可编程计算机系统协作,从而执行各个方法。
根据本发明的一些实施例包括具有电子可读控制信号的非暂时性数据载体,电子可读控制信号能够与可编程计算机系统协作,从而执行本文中描述的方法中的一个。
一般地,本发明的实施例可被实施为具有程序代码的计算机程序产品,程序代码可操作用于当计算机程序产品在计算机上执行时执行所述方法中的一个。程序代码可例如存储于机器可读载体上。
其他实施例包括存储于机器可读载体上的用于执行本文中描述的方法中的一个的计算机程序。
换言之,本发明的方法的实施例因此为具有程序代码的计算机程序,该程序代码用于当计算机程序在计算机上执行时执行本文中描述的方法中的一个。
本发明的进一步实施例因此为数据载体(或数字存储介质或计算机可读介质),其包括记录于其上的用于执行本文中描述的方法中的一个的计算机程序。
本发明的进一步实施例因此为数据流或信号序列,其表示用于执行本文中描述的方法中的一个的计算机程序。数据流或信号序列可例如被配置为通过数据通信连接(例如,通过因特网)进行传送。
进一步实施例包括处理装置(例如,计算机或可编程逻辑装置),其被配置为或适于执行本文中描述的方法中的一个。
进一步实施例包括一种计算机,其具有安装于其上用于执行本文中描述的方法中的一个的计算机程序。
在一些实施例中,可使用可编程逻辑装置(例如,现场可编程门阵列)执行本文中描述的方法的一些或全部功能。在一些实施例中,现场可编程门阵列可与微处理器协作以执行本文中描述的方法中的一个。通常,方法优选地被任何硬件装置执行。
上述实施例仅为说明本发明的原理。应理解的是,本文中描述的配置及细节的修改及变化对于本领域的其他技术人员是显而易见的。因此,其仅受到所附的专利权利要求的范围的限制,而不受本文中以实施例的描述及解释的方式而呈现的特定细节的限制。
参考文献
[1]Makhoul,John."Linearprediction:Atutorialreview."IEEE63.4论文集(1975):561-580.
[2]Soong,Frank,和B.Juang."Linespectrumpair(LSP)andspeechdatacompression."声学、语音和信号处理,IEEE国际会议,ICASSP'84..卷9.IEEE,1984.
[3]Pan,Davis."AtutorialonMPEG/Audiocompression."Multimedia,IEEE2.2(1995):60-74.
[4]M.Neuendorf,P.Gournay,M.Multrus,J.Lecomte,B.Bessette,R.Geiger,S.Bayer,G.Fuchs,J.Hilpert,N.Rettelbach,R.Salami,G.Schuller,R.Lefebvre,B.Grill."Unifiedspeechandaudiocodingschemeforhighqualityatlowbitrates".声学、语音和信号处理,2009.ICASSP2009.IEEE国际会议,(pp.1-4).IEEE.2009年4月.
[5]Kuntz,A.,Disch,S.,T.,&Robilliard,J."TheTransientSteeringDecorrelatorToolintheUpcomingMPEGUnifiedSpeechandAudioCodingStandard".音频工程学会大会131,2011年10月.
[6]Herre,Jürgen,和JamesD.Johnston."Enhancingtheperformanceofperceptualaudiocodersbyusingtemporalnoiseshaping(TNS).'音频工程学会大会101.1996.
Claims (17)
1.一种用于从一个或多个编码值生成音频信号包络的装置,包括:
输入接口(1610),用于接收所述一个或多个编码值;以及
包络生成器(1620),用于依据所述一个或多个编码值生成所述音频信号包络;
其中所述包络生成器(1620)用于依据所述一个或多个编码值生成聚合函数,其中所述聚合函数包括多个聚合点,其中所述聚合点中的每个包括参数值和聚合值,其中所述聚合函数单调递增,并且其中所述一个或多个编码值中的每个指示所述聚合函数的所述聚合点中的一个的所述参数值和所述聚合值中的至少一个,
其中所述包络生成器(1620)用于生成所述音频信号包络,以使得所述音频信号包络包括多个包络点,其中所述包络点中的每个包括参数值和包络值,并且其中对于所述聚合函数的所述聚合点中的每个,所述音频信号包络的所述包络点中的一个被分配给所述聚合点,以使得所述包络点的所述参数值等于所述聚合点的所述参数值,并且
其中所述包络生成器(1620)用于生成所述音频信号包络,以使得所述音频信号包络的所述包络点中的每个的所述包络值取决于所述聚合函数的至少一个聚合点的所述聚合值。
2.根据权利要求1所述的装置,其中所述包络生成器(1620)用于通过为所述一个或多个编码值中的每个依据所述编码值确定所述聚合点中的一个,以及通过依据所述一个或多个编码值中的每个的所述聚合点应用插值以获得所述聚合函数,以确定所述聚合函数。
3.根据权利要求1或2所述的装置,其中所述包络生成器(1620)用于确定所述聚合函数在所述聚合函数的多个聚合点处的一阶导数。
4.根据前述权利要求中任一项所述的装置,其中所述包络生成器(1620)用于依据所述编码值生成所述聚合函数,以便所述聚合函数具有连续的一阶导数。
5.根据前述权利要求中任一项所述的装置,其中所述包络生成器(1620)用于通过确定第一差值和第二差值的比值以确定所述音频信号包络,所述第一差值为所述聚合函数的所述聚合点中的第一聚合点的第一聚合值(c(k+1))和所述聚合函数的所述聚合点中的第二聚合点的第二聚合值(c(k-1);c(k))之间的差值,以及所述第二差值为所述聚合函数的所述聚合点中的所述第一聚合点的第一参数值(f(k+1))和所述聚合函数的所述聚合点中的所述第二聚合点的第二参数值(f(k-1);f(k))之间的差值。
6.根据权利要求5所述的装置,其中所述包络生成器(1620)通过应用以确定所述音频信号包络;
其中tilt(k)指示所述聚合函数在第k个编码值处的导数,
其中c(k+1)为所述第一聚合值,
其中f(k+1)为所述第一参数值,
其中c(k-1)为所述第二聚合值,
其中f(k-1)为所述第二参数值,
其中k为指示所述一个或多个编码值中的一个的索引的整数,
其中c(k)为所述第一聚合值,
其中c(k+1)-c(k-1)为所述两个聚合值c(k+1)和c(k-1)的所述第一差值,以及
其中f(k+1)-f(k-1)为所述两个参数值f(k+1)和f(k-1)的所述第二差值。
7.根据权利要求5所述的装置,其中所述包络生成器(1620)用于通过应用 以确定所述音频信号包络,
其中tilt(k)指示所述聚合函数在所述第k个编码值处的导数,
其中c(k+1)为所述第一聚合值,
其中f(k+1)为所述第一参数值,
其中c(k)为所述第二聚合值,
其中f(k)为所述第二参数值,
其中c(k-1)为所述聚合函数的所述聚合点中的第三聚合点的第三聚合值,
其中f(k-1)为所述聚合函数的所述聚合点中的所述第三聚合点的第三参数值,
其中k为指示所述一个或多个编码值中的一个的索引的整数,
其中c(k+1)-c(k)为所述两个聚合值c(k+1)和c(k)的所述第一差值,以及
其中f(k+1)-f(k)为所述两个参数值f(k+1)和f(k)的所述第二差值。
8.根据前述权利要求中任一项所述的装置,其中所述输入接口(1610)用于接收一个或多个分裂值作为所述一个或多个编码值,
其中所述包络生成器(1620)用于依据所述一个或多个分裂值生成所述聚合函数,其中所述一个或多个分裂值中的每个指示所述聚合函数的所述聚合点中的一个的所述聚合值,
其中所述包络生成器(1620)用于生成所述重建的音频信号包络,以使得所述一个或多个分裂点将所述重建的音频信号包络划分成两个或更多个音频信号包络部分,其中预定义的分配规则为所述两个或更多个信号包络部分中的每个信号包络部分,依据所述信号包络部分,定义信号包络部分值,并且
其中所述包络生成器(1620)用于生成所述重建的音频信号包络,以使得对于所述两个或更多个信号包络部分中的每个,其信号包络部分值的绝对值大于其他信号包络部分中的每个的所述信号包络部分值的绝对值的一半。
9.一种用于确定用于对音频信号包络进行编码的一个或多个编码值的装置,包括:
聚合器(1710),用于为多个参数值中的每个确定聚合值,其中对所述多个参数值排序,以使得当所述多个参数值中的第二参数值与所述多个参数值中的第一参数值不同时,所述第一参数值在所述第二参数值之前或之后,其中包络值被分配给所述参数值中的每个,其中所述参数值中的每个的所述包络值取决于所述音频信号包络,并且其中所述聚合器(1710)用于为所述多个参数值中的每个参数值,依据所述参数值的所述包络值并依据在所述参数值之前的多个参数值中的每个的所述包络值,确定所述聚合值;以及
编码单元(1720),用于依据所述多个参数值的聚合值中的一个或多个确定一个或多个编码值。
10.根据权利要求9所述的装置,其中所述聚合器(1710)用于为所述多个参数值中的每个参数值,通过对所述参数值的所述包络值和在所述参数值之前的所述参数值的所述包络值进行相加以确定所述聚合值。
11.根据权利要求9或10所述的装置,其中所述参数值中的每个的所述包络值指示以所述音频信号包络作为信号包络的音频信号包络的谱值的n次幂,其中n为大于0的偶数。
12.根据权利要求9或10所述的装置,其中所述参数值中的每个的所述包络值指示时域中表示的并以所述音频信号包络作为信号包络的音频信号包络的幅值的n次幂,其中n为大于0的偶数。
13.根据权利要求9-12中任一项所述的装置,其中所述编码单元(1720)用于依据所述参数值的所述聚合值中的一个或多个并依据指示多少个值将被所述编码单元(1720)确定作为所述一个或多个编码值的编码值数,确定所述一个或多个编码值。
14.根据权利要求13所述的装置,其中所述编码单元用于根据 确定所述一个或多个编码值,
其中c(k)指示待被所述编码单元确定的第k个编码值,
其中j指示所述多个参数值中的第j个参数值,
其中a(j)指示被分配给所述第j个参数值的所述聚合值,
其中max(a)指示作为被分配给所述参数值中的一个的所述聚合值中的一个的最大值,其中被分配给所述参数值中的一个的所述聚合值均不大于所述最大值,并且
其中指示作为所述参数值中的一个的最小值,为此为最小。
15.一种用于从一个或多个编码值生成音频信号包络的方法,包括::
接收所述一个或多个编码值;以及
依据所述一个或多个编码值生成所述音频信号包络,
其中通过依据所述一个或多个编码值生成聚合函数,进行生成所述音频信号包络,其中所述聚合函数包括多个聚合点,其中所述聚合点中的每个包括参数值和聚合值,其中所述聚合函数单调递增,并且其中所述一个或多个编码值中的每个指示所述聚合函数的所述聚合点中的一个的所述参数值和所述聚合值中的至少一个,
其中生成所述音频信号包络被进行,以使得所述音频信号包络包括多个包络点,其中所述包络点中的每个包括参数值和包络值,并且其中对于所述聚合函数的所述聚合点中的每个,所述音频信号包络的所述包络点中的一个被分配给所述聚合点,以使得所述包络点的所述参数值等于所述聚合点的所述参数值,并且
其中生成所述音频信号包络被进行,以使得所述音频信号包络的所述包络点中的每个的所述包络值取决于所述聚合函数的至少一个聚合点的所述聚合值。
16.一种用于确定用于对音频信号包络进行编码的一个或多个编码值的方法,包括:
为多个参数值中的每个确定聚合值,其中对所述多个参数值排序,以使得当所述多个参数值中的第一参数值与所述多个参数值中的第二参数值不同时,所述第一参数值在所述二参数值之前或之后,其中包络值被分配给所述参数值中的每个,其中所述参数值中的每个的所述包络值取决于所述音频信号包络,并且其中所述聚合器(1710)用于为所述多个参数值中的每个参数值,依据所述参数值的所述包络值并依据在所述参数值之前的多个参数值中的每个的所述包络值,确定所述聚合值;以及
依据所述多个参数值的聚合值中的一个或多个确定一个或多个编码值。
17.一种计算机程序,当被在计算机或信号处理器上执行时,用于实现权利要求15或16所述的方法。
Applications Claiming Priority (5)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
EP13171314.1 | 2013-06-10 | ||
EP13171314 | 2013-06-10 | ||
EP14167070 | 2014-05-05 | ||
EP14167070.3 | 2014-05-05 | ||
PCT/EP2014/062034 WO2014198726A1 (en) | 2013-06-10 | 2014-06-10 | Apparatus and method for audio signal envelope encoding, processing and decoding by modelling a cumulative sum representation employing distribution quantization and coding |
Publications (2)
Publication Number | Publication Date |
---|---|
CN105431902A true CN105431902A (zh) | 2016-03-23 |
CN105431902B CN105431902B (zh) | 2020-03-31 |
Family
ID=50928114
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201480033295.0A Active CN105431902B (zh) | 2013-06-10 | 2014-06-10 | 用于音频信号包络编码、处理和解码的装置和方法 |
Country Status (16)
Country | Link |
---|---|
US (2) | US9953659B2 (zh) |
EP (1) | EP3008726B1 (zh) |
JP (1) | JP6224827B2 (zh) |
KR (1) | KR101789083B1 (zh) |
CN (1) | CN105431902B (zh) |
AU (1) | AU2014280258B9 (zh) |
BR (1) | BR112015030686B1 (zh) |
CA (1) | CA2914771C (zh) |
ES (1) | ES2646021T3 (zh) |
HK (1) | HK1223725A1 (zh) |
MX (1) | MX353042B (zh) |
PL (1) | PL3008726T3 (zh) |
PT (1) | PT3008726T (zh) |
RU (1) | RU2662921C2 (zh) |
SG (1) | SG11201510162WA (zh) |
WO (1) | WO2014198726A1 (zh) |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
AU2014280258B9 (en) | 2013-06-10 | 2017-04-20 | Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. | Apparatus and method for audio signal envelope encoding, processing and decoding by modelling a cumulative sum representation employing distribution quantization and coding |
BR112015030672B1 (pt) | 2013-06-10 | 2021-02-23 | Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V | aparelho e método de codificação, processamento e decodificação de envelope de sinal de áudio por divisão do envelope de sinal de áudio empregando codificação e quantização de distribuição |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1121620A (zh) * | 1994-07-28 | 1996-05-01 | 株式会社日立制作所 | 音频信号编码/译码方法 |
US5710863A (en) * | 1995-09-19 | 1998-01-20 | Chen; Juin-Hwey | Speech signal quantization using human auditory models in predictive coding systems |
CN1377499A (zh) * | 1999-10-01 | 2002-10-30 | 编码技术瑞典股份公司 | 采用可变时间/频率分辨率和时间/频率转换的有效频谱包络编码方法 |
CN1486486A (zh) * | 2000-11-27 | 2004-03-31 | 日本电信电话株式会社 | 用于编码和解码声学参数的方法、设备和程序及用于编码和解码语音的方法、设备和程序 |
CN101390158A (zh) * | 2006-02-24 | 2009-03-18 | 法国电信公司 | 信号包络的量化索引的二进制编码方法、解码信号包络的方法、及相应的编码和解码模块 |
Family Cites Families (36)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US5765127A (en) | 1992-03-18 | 1998-06-09 | Sony Corp | High efficiency encoding method |
JP3271193B2 (ja) * | 1992-03-31 | 2002-04-02 | ソニー株式会社 | 音声符号化方法 |
JP3283413B2 (ja) * | 1995-11-30 | 2002-05-20 | 株式会社日立製作所 | 符号化復号方法、符号化装置および復号装置 |
SE512719C2 (sv) | 1997-06-10 | 2000-05-02 | Lars Gustaf Liljeryd | En metod och anordning för reduktion av dataflöde baserad på harmonisk bandbreddsexpansion |
US7092885B1 (en) | 1997-12-24 | 2006-08-15 | Mitsubishi Denki Kabushiki Kaisha | Sound encoding method and sound decoding method, and sound encoding device and sound decoding device |
SE9903553D0 (sv) | 1999-01-27 | 1999-10-01 | Lars Liljeryd | Enhancing percepptual performance of SBR and related coding methods by adaptive noise addition (ANA) and noise substitution limiting (NSL) |
SE0202159D0 (sv) | 2001-07-10 | 2002-07-09 | Coding Technologies Sweden Ab | Efficientand scalable parametric stereo coding for low bitrate applications |
US20030187663A1 (en) | 2002-03-28 | 2003-10-02 | Truman Michael Mead | Broadband frequency translation for high frequency regeneration |
KR100477699B1 (ko) | 2003-01-15 | 2005-03-18 | 삼성전자주식회사 | 양자화 잡음 분포 조절 방법 및 장치 |
ATE429698T1 (de) * | 2004-09-17 | 2009-05-15 | Harman Becker Automotive Sys | Bandbreitenerweiterung von bandbegrenzten tonsignalen |
US7573912B2 (en) | 2005-02-22 | 2009-08-11 | Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschunng E.V. | Near-transparent or transparent multi-channel encoder/decoder scheme |
WO2006108543A1 (en) | 2005-04-15 | 2006-10-19 | Coding Technologies Ab | Temporal envelope shaping of decorrelated signal |
KR100803205B1 (ko) * | 2005-07-15 | 2008-02-14 | 삼성전자주식회사 | 저비트율 오디오 신호 부호화/복호화 방법 및 장치 |
US7630882B2 (en) | 2005-07-15 | 2009-12-08 | Microsoft Corporation | Frequency segmentation to obtain bands for efficient coding of digital media |
WO2007080211A1 (en) | 2006-01-09 | 2007-07-19 | Nokia Corporation | Decoding of binaural audio signals |
JP5222279B2 (ja) | 2006-03-28 | 2013-06-26 | フラウンホーファー−ゲゼルシャフト・ツール・フェルデルング・デル・アンゲヴァンテン・フォルシュング・アインゲトラーゲネル・フェライン | マルチチャネルオーディオ再構成における信号整形のための改善された方法 |
US8392176B2 (en) | 2006-04-10 | 2013-03-05 | Qualcomm Incorporated | Processing of excitation in audio coding and decoding |
US8532984B2 (en) | 2006-07-31 | 2013-09-10 | Qualcomm Incorporated | Systems, methods, and apparatus for wideband encoding and decoding of active frames |
DE102006049154B4 (de) | 2006-10-18 | 2009-07-09 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Kodierung eines Informationssignals |
US8417532B2 (en) * | 2006-10-18 | 2013-04-09 | Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. | Encoding an information signal |
BRPI0811384A2 (pt) * | 2007-06-11 | 2017-08-01 | Fraunhofer Ges Forschung | "codificador de áudio para codificar um sinal de áudio tendo uma porção tipo impulso e porção fixa, métodos de codificação, decodificador, método de decodificação, e sinal de áudio codificado" |
EP2192579A4 (en) | 2007-09-19 | 2016-06-08 | Nec Corp | NOISE SUPPRESSION DEVICE, ITS METHOD AND PROGRAM |
GB2453117B (en) | 2007-09-25 | 2012-05-23 | Motorola Mobility Inc | Apparatus and method for encoding a multi channel audio signal |
CN101430880A (zh) | 2007-11-07 | 2009-05-13 | 华为技术有限公司 | 一种背景噪声的编解码方法和装置 |
CN101521010B (zh) | 2008-02-29 | 2011-10-05 | 华为技术有限公司 | 一种音频信号的编解码方法和装置 |
MY155538A (en) | 2008-07-11 | 2015-10-30 | Fraunhofer Ges Forschung | An apparatus and a method for generating bandwidth extension output data |
EP4369609A3 (en) | 2008-07-11 | 2024-05-22 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Audio encoder and audio decoder |
ATE522901T1 (de) | 2008-07-11 | 2011-09-15 | Fraunhofer Ges Forschung | Vorrichtung und verfahren zur berechnung von bandbreitenerweiterungsdaten mit hilfe eines spektralneigungs-steuerungsrahmens |
CN102081927B (zh) | 2009-11-27 | 2012-07-18 | 中兴通讯股份有限公司 | 一种可分层音频编码、解码方法及系统 |
CN102081926B (zh) | 2009-11-27 | 2013-06-05 | 中兴通讯股份有限公司 | 格型矢量量化音频编解码方法和系统 |
CA3203400C (en) | 2010-07-19 | 2023-09-26 | Dolby International Ab | Processing of audio signals during high frequency reconstruction |
EP2702589B1 (en) * | 2011-04-28 | 2017-04-05 | Dolby International AB | Efficient content classification and loudness estimation |
JP2016518977A (ja) * | 2013-04-16 | 2016-06-30 | マサチューセッツ インスティテュート オブ テクノロジー | エマルションまたは他の混合物の単極分離のためのシステムおよび方法 |
DE102013104921A1 (de) | 2013-05-14 | 2014-11-20 | A. Monforts Textilmaschinen Gmbh & Co. Kg | Vorrichtung zum Beschichten und/oder Imprägnieren einer textilen Warenbahn |
BR112015030672B1 (pt) | 2013-06-10 | 2021-02-23 | Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V | aparelho e método de codificação, processamento e decodificação de envelope de sinal de áudio por divisão do envelope de sinal de áudio empregando codificação e quantização de distribuição |
AU2014280258B9 (en) | 2013-06-10 | 2017-04-20 | Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. | Apparatus and method for audio signal envelope encoding, processing and decoding by modelling a cumulative sum representation employing distribution quantization and coding |
-
2014
- 2014-06-10 AU AU2014280258A patent/AU2014280258B9/en active Active
- 2014-06-10 ES ES14729323.7T patent/ES2646021T3/es active Active
- 2014-06-10 WO PCT/EP2014/062034 patent/WO2014198726A1/en active Application Filing
- 2014-06-10 PL PL14729323T patent/PL3008726T3/pl unknown
- 2014-06-10 BR BR112015030686-1A patent/BR112015030686B1/pt active IP Right Grant
- 2014-06-10 EP EP14729323.7A patent/EP3008726B1/en active Active
- 2014-06-10 CA CA2914771A patent/CA2914771C/en active Active
- 2014-06-10 PT PT147293237T patent/PT3008726T/pt unknown
- 2014-06-10 KR KR1020167000232A patent/KR101789083B1/ko active IP Right Grant
- 2014-06-10 RU RU2015156490A patent/RU2662921C2/ru active
- 2014-06-10 MX MX2015016984A patent/MX353042B/es active IP Right Grant
- 2014-06-10 CN CN201480033295.0A patent/CN105431902B/zh active Active
- 2014-06-10 SG SG11201510162WA patent/SG11201510162WA/en unknown
- 2014-06-10 JP JP2016518979A patent/JP6224827B2/ja active Active
-
2015
- 2015-12-09 US US14/964,245 patent/US9953659B2/en active Active
-
2016
- 2016-10-13 HK HK16111808.1A patent/HK1223725A1/zh unknown
-
2018
- 2018-03-13 US US15/920,066 patent/US10734008B2/en active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1121620A (zh) * | 1994-07-28 | 1996-05-01 | 株式会社日立制作所 | 音频信号编码/译码方法 |
US5710863A (en) * | 1995-09-19 | 1998-01-20 | Chen; Juin-Hwey | Speech signal quantization using human auditory models in predictive coding systems |
CN1377499A (zh) * | 1999-10-01 | 2002-10-30 | 编码技术瑞典股份公司 | 采用可变时间/频率分辨率和时间/频率转换的有效频谱包络编码方法 |
CN1486486A (zh) * | 2000-11-27 | 2004-03-31 | 日本电信电话株式会社 | 用于编码和解码声学参数的方法、设备和程序及用于编码和解码语音的方法、设备和程序 |
CN101390158A (zh) * | 2006-02-24 | 2009-03-18 | 法国电信公司 | 信号包络的量化索引的二进制编码方法、解码信号包络的方法、及相应的编码和解码模块 |
Also Published As
Publication number | Publication date |
---|---|
US20180204582A1 (en) | 2018-07-19 |
KR20160022338A (ko) | 2016-02-29 |
PT3008726T (pt) | 2017-11-24 |
EP3008726A1 (en) | 2016-04-20 |
KR101789083B1 (ko) | 2017-10-23 |
MX353042B (es) | 2017-12-18 |
PL3008726T3 (pl) | 2018-01-31 |
ES2646021T3 (es) | 2017-12-11 |
MX2015016984A (es) | 2016-04-25 |
JP2016526695A (ja) | 2016-09-05 |
CA2914771C (en) | 2018-07-17 |
CN105431902B (zh) | 2020-03-31 |
HK1223725A1 (zh) | 2017-08-04 |
JP6224827B2 (ja) | 2017-11-01 |
AU2014280258B2 (en) | 2016-11-24 |
EP3008726B1 (en) | 2017-08-23 |
RU2662921C2 (ru) | 2018-07-31 |
BR112015030686B1 (pt) | 2021-12-28 |
WO2014198726A1 (en) | 2014-12-18 |
BR112015030686A2 (pt) | 2017-08-22 |
AU2014280258B9 (en) | 2017-04-20 |
RU2015156490A (ru) | 2017-07-14 |
CA2914771A1 (en) | 2014-12-18 |
AU2014280258A1 (en) | 2016-01-28 |
US9953659B2 (en) | 2018-04-24 |
SG11201510162WA (en) | 2016-01-28 |
US10734008B2 (en) | 2020-08-04 |
US20160155451A1 (en) | 2016-06-02 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN102194457B (zh) | 音频编解码方法、系统及噪声水平估计方法 | |
CN103210443A (zh) | 用于高频带宽扩展的对信号进行编码和解码的设备和方法 | |
EP2867892B1 (en) | Linear prediction based audio coding using improved probability distribution estimation | |
US9767811B2 (en) | Device and method for postprocessing a decoded multi-channel audio signal or a decoded stereo signal | |
RU2016122865A (ru) | Кодер для кодирования аудиосигнала, система передачи аудио и способ определения значений коррекции | |
US9792922B2 (en) | Pyramid vector quantizer shape search | |
CN105229736A (zh) | 用于选择第一编码算法与第二编码算法中的一个的装置及方法 | |
CN107077857A (zh) | 对线性预测系数量化的方法和装置及解量化的方法和装置 | |
CN105431902A (zh) | 用于通过应用分布量化和编码建模累积和表示的音频信号包络编码、处理和解码的装置和方法 | |
CN105340010A (zh) | 用于通过应用分布量化和编码分裂音频信号包络的音频信号包络编码、处理和解码的装置和方法 | |
CN102812512B (zh) | 处理音频信号的方法和装置 | |
Preihs et al. | Globally optimized dynamic bit-allocation strategy for subband ADPCM-based low delay audio coding |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |