CN103814406B - 用于变换编码或解码的分析或合成加权窗口的自适应 - Google Patents
用于变换编码或解码的分析或合成加权窗口的自适应 Download PDFInfo
- Publication number
- CN103814406B CN103814406B CN201280034844.7A CN201280034844A CN103814406B CN 103814406 B CN103814406 B CN 103814406B CN 201280034844 A CN201280034844 A CN 201280034844A CN 103814406 B CN103814406 B CN 103814406B
- Authority
- CN
- China
- Prior art keywords
- window
- coefficient
- size
- frame
- sample
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/02—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/02—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
- G10L19/0212—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders using orthogonal transformation
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/02—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
- G10L19/022—Blocking, i.e. grouping of samples in time; Choice of analysis windows; Overlap factoring
-
- H—ELECTRICITY
- H03—ELECTRONIC CIRCUITRY
- H03M—CODING; DECODING; CODE CONVERSION IN GENERAL
- H03M7/00—Conversion of a code where information is represented by a given sequence or number of digits to a code where the same, similar or subset of information is represented by a different sequence or number of digits
- H03M7/30—Compression; Expansion; Suppression of unnecessary data, e.g. redundancy reduction
-
- H—ELECTRICITY
- H03—ELECTRONIC CIRCUITRY
- H03M—CODING; DECODING; CODE CONVERSION IN GENERAL
- H03M7/00—Conversion of a code where information is represented by a given sequence or number of digits to a code where the same, similar or subset of information is represented by a different sequence or number of digits
- H03M7/30—Compression; Expansion; Suppression of unnecessary data, e.g. redundancy reduction
- H03M7/3002—Conversion to or from differential modulation
- H03M7/3044—Conversion to or from differential modulation with several bits only, i.e. the difference between successive samples being coded by more than one bit, e.g. differential pulse code modulation [DPCM]
Abstract
本发明涉及一种使用应用于样本帧的分析(hs)或合成(ha)加权窗口的数字音频信号的变换编码或解码的方法。所述方法包括对为具有给定初始大小N的变换提供的初始窗口进行不规则采样(E10),以应用具有大小为M的第二变换,M不同于N。本发明还涉及适用于实现上述方法的设备。
Description
技术领域
本发明涉及信号处理,特别地涉及以连续样本形式的音频(例如语音信号)和/或视频信号的处理。其具体地涉及通过变换对数字音频信号进行编码和解码,并使分析或合成窗口适应于变换的大小。
背景技术
变换编码存在于在变换域(频域)对时间信号进行的编码中。特别地该变换使得可以使用音频信号的频率特性以优化和增强编码性能。例如,利用谐音在频域中由数量减少的光谱射线(spectralray)表示,因此可以简明地对其进行编码的事实。例如,频率掩蔽效应也用于将编码噪声有利地安排为尽可能听不见的形式。
通常,通过五个步骤的应用来执行通过变换的编码和解码:
待编码的数字音频流(以给定的采样频率Fs采样)被划分成有限数量样本(例如2N)的帧。通常每一帧与前一帧有50%的重叠。
对信号应用变换步骤。在被称为MDCT(修正离散余弦变换)的变换的情况下,对每一帧应用大小为L=2N的加权窗口ha(称为分析窗口)。
根据2N至N的变换对加权帧进行“折叠”。例如,可以如下进行将由ha加权的大小为2N的帧T2N“折叠”为大小为N的帧TN:
k∈[0;N/2-1](1)
对折叠帧TN应用DCTIV以获得变换域中大小为N的帧。其被如下表示:
然后通过使用匹配量化器对变换域中的帧进行量化。所述量化可以减少待发送数据的大小,但在原始帧中引入噪声(听得到的或听不到的)。编码的比特率越高,减少的该噪声就越多,并且量化帧越接近原始帧。
在对量化帧进行解码时应用逆MDCT变换。其包括两个步骤:通过使用逆DCTIV(其被表示为直接变换)将大小为N的量化帧转换为时域中大小为N的帧然后对大小为N的时间帧应用从N“展开”至2N的第二步骤。根据下面的等式将被称为合成窗口的加权窗口hs应用于大小为2N的帧
K∈[0;N/2-1](2)
然后通过将两个连续帧的重叠部分相加来合成解码音频流。
注意,该方案可以扩展到具有更大重叠的变换,例如ETL,对于(2K-1)N的重叠,ETL的分析和合成滤波器的大小为L=2KN。因此,MDCT为ELT当K=1时的特殊情况。
对于变换以及给定的重叠,确定分析和合成窗口,使得可以获得待编码信号(在没有量化的情况下)的所谓的“完全”重构。当原始X信号和重构信号之间的差别可以忽略不计时,所述重构也可以是“准完全”重构。例如,在音频编码中,误差功率比被处理信号X的功率低50dB的差别可以忽略不计。
例如,连续两帧分析和合成窗口都没有改变的情况下,它们应当遵循下面的完全重构条件:
k∈[0;N-1](3)
因此,将容易理解,在大多数编解码器中,分析和合成窗口被存储在存储器中,它们或是提前计算并存储在ROM存储器中,或是使用公式初始化并仍然存储在RAM存储器中。
除了有时指数反转(hs(k)=ha(2N-1-k)),大多数时间分析和合成窗口是相同的(hs(k)=ha(k)),因而它们只需要大小为2N的单独存储空间以将它们存储在存储器中。
不论是管理多个采样频率,还是使分析(因而合成)窗口的大小适应音频内容(例如在转变的情况下),新的编解码器都使用不同的帧大小N工作。在这些编解码器中,ROM或RAM存储器包含与不同的帧大小同样多的分析和/或合成窗口。
编码器或解码器的分析或合成窗口的系数(也称为样本)应当被存储在存储器中,以执行分析或合成变换。显然,在使用不同大小的变换的特殊情况下,每个使用的大小的加权窗口必须表现在存储器中。
在有利的情况下,其中窗口是对称的,只需要存储L/2个系数,另外L/2个系数可以不经任何算数运算从这些已存储的系数中推导出。因此,对于MDCT(K=1),如果需要进行大小为M和2.M的变换,则如果窗口是对称的,就必须存储(M+2M)=3M个系数,否则必须存储(2M+4M)=6M个系数。音频编码的典型示例是M=320或M=1024。因此,对于非对称的情况,这意味着必须分别存储1920和6144个系数。
根据表现系数所需的精度,每个系数需要16比特甚至24比特。这对于低成本计算机而言意味着不小的存储空间。
已存在分析或合成窗口抽取技术。
例如为了从N个样本改变为M个样本(N为M的倍数),简单的窗口抽取存在于在N/M个样本中抽取一个样本,其中N/M为大于1的整数。
这种计算不能遵循等式(3)中给出的完全重构等式。
例如,在合成窗口为分析窗口的时间反转的情况下,适用下面的等式:
hs(2N-k-1)=ha(k)=h(k)
对于k∈[0;2N-1](4)
完全重构条件变为:
h(N+k)h(N-k-1)+h(k)h(2N-k-1)=1
对于k∈[0;2N-1](5)
编码中通常使用以符合该条件窗口为Malvar正弦窗口:
对于k∈[0;2N-1](6)
如果通过在N/M个样本中抽取一个来对窗口h(k)进行抽取,则该窗口变为:
对于k∈[0;2M-1]
对于大小为2M的h*(k)确认完全重构条件(在等式(3)中),
对于k∈[0;M-1]
N/M必须等于1;现在,将N/M定义为大于1的整数,因此,对于这种抽取,无法确认完全重构条件。
很容易对这里采用的示例进行推广。因此,通过对基本窗口进行直接抽取以获得大小减小的窗口,无法确保完全重构特性。
还存在一种加权窗口插值技术。例如,在已公布专利申请EP2319039中描述了这种技术。
当需要较大大小的窗口时,该技术可以减小存储在ROM中的窗口的大小。
因此,代替存储大小为2N和4N的窗口,所述专利申请提出将2N窗口的样本分配给4N窗口中两个样本中的一个并只在ROM中存储缺失的2N个样本。因此ROM中的存储大小从4N+2N减小为2N+2N。
然后,该技术也需要在应用实际变换之前进行初步的分析和合成窗口计算。
因此,需要在存储器中只存储数量减小的分析窗口和合成窗口,以在遵循完全重构条件的同时应用不同大小的变换。此外,避免在通过变换编码之前对这些窗口进行初步计算的步骤也被认为是需要的。
发明内容
本发明改善所述情况。为此,其提出一种通过使用应用于样本帧的分析(ha)或合成(hs)加权窗口的变换来对数字音频信号进行编码或解码的方法。所述方法是这样的,其包括对为给定初始大小N的变换提供的初始窗口进行不规则采样(E10),以应用大小为M的第二变换,M不同于N。
因此,根据为大小为N的变换提供的已存储的初始窗口,可以在没有执行初步计算且没有存储其他不同大小的窗口的情况下,应用不同大小的变换。
因此,任何大小的单个窗口都足以使其适应于不同大小的变换。
不规则采样使得可以在解码期间遵循所谓的“完全”或“准完全”重构条件成。
下面提到的各种具体实施例可以被独立地或彼此结合地添加至上面定义的编码和解码步骤。
根据优选的实施例,采样步骤包括根据初始窗口的第一系数d(其中0≤d<N/M),选择遵循预定完全重构条件的系数N-d-1、N+d、2N-d-1的定义集合。
因此,可以根据系数集合确定与不同大小的第二变换匹配同时遵循完全重构条件的窗口。
有利的是,当N大于M时,通过至少保留定义集合的系数来对初始窗口执行抽取以获得抽取窗口。
因此,可以从已存储的较大大小的分析或合成窗口中获得在解码中也符合完全重构条件的较小大小的窗口。
在具体的示例性实施例中,所述方法包括选择与定义集合的系数间隔常数差的第二系数集合,并且还通过保留第二集合的系数来执行抽取以获得抽取窗口。
因此,可以获得与所需变换大小匹配的抽取。这使得可以最好地保存所获得的窗口的频率响应。
在具体实施例中,根据下面的等式执行将大小为2N的窗口抽取为大小为2M的窗口:
对于k∈[0;M/2-1]
其中h*为抽取后的分析或合成窗口,h为初始的分析或合成窗口,为小于等于X的最接近的整数,为大于等于X的最接近的整数,并且d为定义集合的第一系数的值。
因此,即使当初始窗口和所获得的窗口之间的系数数量并不是成倍的,也可以从较大大小的窗口获得不同大小的窗口。
当N小于M时,通过在定义系数集合的每个系数和相邻系数集合的每个系数之间插入系数来执行插值以获得插值窗口。
所述插值窗口也遵循完全重构并可以根据已存储的较小大小的窗口在运行中计算得到。
在具体实施例中,所述方法包括选择与定义集合的系数间隔常数差的第二系数集合,并且还通过在第二集合的每个系数和相邻系数集合的每个系数之间插入系数来执行插值以获得插值窗口。
因此,可以获得与所需变换大小匹配的插值。这使得可以最好地保留所获得的窗口的频率响应。
为了使插值窗口的频率响应最优化,在具体实施例中,所述方法包括计算补充窗口以对所述窗口进行插值,所述补充窗口包括根据集合的定义系数和根据相邻系数计算的系数。
在优选的实施例中,在实现用于计算第二变换的时间折叠或展开的步骤期间,执行不规则采样步骤和对初始窗口进行的抽取或插值。
因此,对分析或合成窗口进行的抽取或插值是与实际变换步骤同时执行的,因此是在运行中执行的。因此不再需要在编码之前执行初步计算,在编码期间获得与变换大小匹配的窗口。
在示例性实施例中,在实现用于计算第二变换的时间折叠和展开的步骤期间,执行对初始窗口进行的抽取和插值两者。
这使得可以提供从存储在存储器中的单个窗口获得不同大小的窗口的更大可能性。
在抽取的具体实施例中,根据下面的等式执行时间折叠期间的抽取:
k∈[0;M/2-1]
其中TM为M个样本的帧,T2M为2M个样本的帧,并且根据下面的等式执行时间展开期间的抽取:
k∈[0;N/2-1]
其中为M个样本的帧,为2M个样本的帧。
在具体地匹配的示例性实施例中,当第二变换的大小为M=3/2N时,根据下面的等式在时间折叠期间执行其后跟随插值的对初始窗口进行的抽取:
k/2∈[0;N/2-1]
其中TM为M个样本的帧,T2M为2M个样本的帧,hcomp为补充窗口,且当第二变换的大小为M=3/2N时,根据下面的等式在时间展开期间执行其后跟随插值的对初始窗口进行的抽取:
k/2∈[0;N/2-1]
其中TM为M个样本的帧,T2M为2M个样本的帧,hcomp为补充窗口。
本发明还针对一种用于通过使用应用于样本帧的分析或合成加权窗口的变换来对数字音频信号进行编码或解码的设备。所述设备是这样的,其包括采样模块,所述采样模块适配用于对为给定初始大小N的变换提供的初始窗口进行不规则采样,以应用大小为M的第二变换,M不同于N。
该设备提供与前面描述的其实现的方法相同的优点。
其针对一种计算机程序,所述计算机程序包括当被处理器运行时用于实现所述编码或解码方法的步骤的代码指令。
最后,本发明涉及一种处理器可读存储介质,其并入或没有并入所述编码或解码设备,可能是可移除的,存储实现前面描述的编码或解码方法的计算机程序。
附图说明
在参考附图阅读仅作为非限制性示例给出的下面的描述时,本发明的其他特征和优点将更显而易见,其中:
-图1示出一个实施例中的实现本发明的编码和解码系统的示例;
-图2示出根据本发明的分析或合成窗口抽取的示例;
-图3示出根据本发明的实施例的对分析或合成窗口进行不规则采样以获得窗口的示例;
-图4(a)和4(b)示出本发明的一个实施例中的有理数因子(2/3)的分析或合成窗口的不规则采样。图4(a)示出抽取子步骤,而图4(b)呈现插值子步骤;并且
-图5示出根据本发明的编码或解码设备的硬件实施例的示例。
具体实施方式
图1示出用于通过变换进行编码和解码的系统,其中大小为2N的单个分析窗口和单个合成窗口被存储在存储器中。
由采样模块101以采样频率Fs对数字音频流X(t)进行采样,因此获得2M个样本的帧T2M(t)。通常每一帧与前一帧有50%的重叠。
然后由模块102和103对信号应用变换步骤。模块102对为大小为N的变换提供的已存储的初始窗口执行采样,以应用大小为M的第二变换,M不同于N。然后对2N个系数的分析窗口ha执行采样以使其适应于2M个信号样本的帧。
在N为M的倍数的情况下,其为抽取,在N为M的约数的情况下,其为插值。提供N/M为其中任意一种的情况。
稍后将参考图2和3详述由模块102实现的步骤。
模块102还根据2M至M的变换对加权帧执行折叠。有利的是,该折叠步骤与如稍后描述的不规则采样和抽取或插值步骤相结合地执行。
因此,在模块102之后,信号的形式为M个样本的帧TM(t)。然后,例如,由模块103应用DCTIV类型的变换,以在变换域中获得大小为M的帧TM,也就是说,此处为在频域中。
然后,这些帧被量化模块104量化,并以量化索引形式IQ被发送给解码器。
解码器通过模块114执行反量化以在变换域中获得帧例如,逆变换模块113执行逆DCTIV以在时域中获得帧
然后由模块112对帧执行从M至2M个样本的展开。由模块112通过对大小为2N的窗口hs进行抽取或插值,获得大小为2M的合成加权窗口。
在N大于M的情况下,其为抽取,而在N小于M的情况下,其为插值。
稍后将参考图2和3详述由模块112实现的步骤。
对于编码,有利的是,该展开步骤与不规则采样和抽取或插值步骤相结合地执行,并将稍后描述。
然后通过在模块111中对重叠部分求和来合成解码音频流
现在更详细地描述模块102和模块112。
这些模块执行不规则采样步骤E10以定义与第二变换的大小M匹配的窗口。
因此,根据已存储的大小为2N的窗口(ha或hs)的第一系数d(其中0≤d<N/M),选择遵循预定完全重构条件的系数N-d-1、N+d、2N-d-1的定义集合。
根据该集合,根据N大于M还是小于M,在E11中对所述窗口执行抽取或插值,以从2N个样本的窗口改变为2M个样本的窗口。
寻求预定完全重构条件。为此,必须以遵循下面的等式的方式执行采样(确保为合成和分析所选择的系数虑及对于大小为N的变换的完全重构):
k∈[0;N-1]
因此,为了使抽取窗口遵循等式(3)的完全重构条件,根据分析窗口上的点ha(k)(对于k∈[0;2N-1]),仅分析窗口上的点ha(N+k)以及合成窗口上的点hs(k)、hs(N+k)、hs(2N-1-k)和hs(N-1-k)达到完全重构条件。
然而,通过仅保留这6个点,随后将观察到存在不一致,分析窗口以N进行抽取,而合成窗口以N/2进行抽取。
类似地,将注意到,如果抽取涉及选择分析窗口ha(N-k-1)上的点N-k-1,则仅选择分析窗口上的点ha(2N-1-k)和合成窗口上的4个所述点hs(k)、hs(N+k)、hs(2N-1-k)和hs(N-1-k)使得可以遵循完全重构条件。
因此,在如参考图2所示的抽取期间,为了遵循(3)中的完全重构条件,根据对于0<d<N/M采用系数d,肯定还需要选择分析窗口上的下面的系数N-d-1,N+d,2N-1-d和合成窗口上的系数d,N+d,2N-1-d和N-1-d,以使得分析窗口和合成窗口之间的抽取大小相同。
在实践中,如图2中所示,完全重构条件仅独立地应用于8个点的子集。
因此执行对分析窗口和合成窗口上的系数d、N-d-1、N+d,2N-1-d的定义集合的选择。
然后,通过至少保留定义集合的系数来执行抽取以获得抽取窗口,其它系数可以删除。因此获得遵循完全重构条件的最小抽取窗口。
因此,如在图2中参考的示例所示,为了获得最小抽取分析窗口,仅保留点ha(k)、ha(N+k)、ha(2N-1-k)和ha(N-1-k)。
对于合成窗口,选择相同的系数集合,并通过至少保留定义集合的系数来进行抽取以获得抽取窗口。
因此,如在图2中参考的示例所示,为了获得最小抽取合成窗口,仅保留点hs(k)、hs(N+k)、hs(2N-1-k)和hs(N-1-k)。
假定点之间是对称的,在合成窗口为分析窗口的时间反转的情况下,仅需要抽取4个点的子集(h(k)、h(N+k)、h(2N-1-k)和h(N-1-k))。
因此,通过选择上面定义的集合,可以在保留完全重构特性的同时,通过在0和N-1之间选择任何k个值,来对分析和/或合成窗口进行抽取。
匹配的抽取使得可以最好地保留待抽取窗口的频率响应。
在匹配的抽取的情况下,变换大小为M,采用分析(或合成)窗口的第一个四分之一上的N/M个系数中的一个系数,并选择与定义集合的系数间隔常数差(N/M)的第二系数集合。因此,除了系数d、N-d-1、N+d,2N-1-d之外,通过保存第二集合的系数来执行抽取以获得抽取窗口。
图3示出与大小为M的变换匹配的不规则采样的示例。所示窗口被分成4份。
假定完全重构条件,获得下面的等式以获取大小为2M的抽取窗口:
对于k∈[0;M/2-1]
其中h*为插值或抽取分析或合成窗口,h为初始分析或合成窗口,为小于等于X的最接近的整数,为大于等于X的最接近的整数,d为偏移量。
偏移量为窗口的第一个四分之一上起始样本d的函数。
因此,模块102的步骤E10包括选择与定义集合的系数(d、N-d-1、N+d,2N-d-1)间隔常数差(在此为N/M)的第二系数集合。可以将相同的常数差应用于选择第三系数集合。
在实践中,例如,如果窗口以3抽取,也就是说N/M=3,则因此每个窗口部分中的差为3。如果定义集合的第一系数为d=0,则间隔常数差的第二和第三集合的系数为3和6,以此类推。
类似地,如果d=1,则间隔常数差的第二和第三集合的第一系数为1、4、7…,或者对于d=2,系数为2、5、8…。
因此等式7中的“d”可以取值0、1或2(包括在0和N/M-1之间)。
图3表示在窗口的第一个四分之一中选择的第一系数为d=1的情况。
则间隔常数差的第二和第三集合的系数为4和7。
下面的表1示出为了将大小为N=48的变换改变为较小大小的变换(M=24、16、12和8)所保留的点。因此可以看出,为了实现大小为M=8的变换,在分析或合成窗口中考虑样本0、6、12、18、29、35、41、47、48、54、60、66、77、83、89和95,因此示出不规则采样。
表1
下面的表2示出用于将为大小为N=48的变换提供的初始窗口改变为适用于产生大小为N=6的变换的窗口的实施例。因此,存在N/M=8的抽取,并且对于值d=0…7存在7种可能性。所述表指示与初始窗口中保留的值对应的索引值。
表2
为了具有更接近原始窗口的频率响应,本发明提出将值设置为该条件是非限制性的。
如果起始点被认为是每一段的结束,则等式7变为:
对于k∈[0;M/2-1]
在每一部分中,也可以任意选择大小为2N的初始窗口中的点,以执行大小为M的变换。根据第一系数(h(d)),可以从窗口的第一个四分之一中任意采用M/2-1个系数,其中索引为dk,条件是选择在其他三个部分中选择索引为2N-1-dk、N-1-dk和N+dk的系数。这特别有利于改善所构造的大小为2M的窗口的频率响应或连续性:通过精明地选择索引dk可以特别地限制不连续性。
下面的表3示出具体实施例,其中2N=48,2M=16。
k | 索引 |
0 | 1 |
1 | 5 |
2 | 11 |
3 | 19 |
4 | 28 |
5 | 36 |
6 | 42 |
7 | 46 |
8 | 49 |
9 | 53 |
10 | 59 |
11 | 67 |
12 | 76 |
13 | 84 |
14 | 90 |
15 | 94 |
在有利实施例中,模块102和112在与信号的折叠和展开的步骤同时执行采样步骤。
在这里描述的情况下,通过在模块102中在运行中对大小为2N的分析加权窗口ha进行抽取或插值,来将其应用于大小为2M的每个帧。
通过将描述折叠步骤的等式(1)和描述不规则抽取的等式(7)组合在一起来执行该步骤。
根据2M至M的变换对加权帧进行“折叠”。例如可以如下进行将加权为ha(大小为2N)的大小为2M的帧T2M“折叠”为大小为M的帧TM:
k∈[0;M/2-1]
(9)
因此,在将大小为2M的帧折叠为大小为M的帧的同时进行将大小为2N的窗口抽取为大小为2M的窗口的步骤。
所执行的计算与用于传统折叠的计算的复杂度相同,只有索引改变。该在运行中进行的抽取运算不会带来额外的复杂度。
类似地,在解码时,在模块122中在运行中将大小为2N的合成加权窗口hs抽取为大小为2M的窗口以应用于大小为2M的每个帧。通过将展开等式(2)和抽取等式(7)或(8)组合在一起来执行该步骤。
因此获得下面的等式:
k∈[0;N/2-1](10)
再次,这些等式与传统的展开等式相比不会导致任何额外的复杂度。它们使得可以在没有执行任何初步计算且没有必要存储的额外的窗口的情况下,在运行时获得窗口抽取。
在合成窗口为分析窗口的时间反转(hs(k)=ha(2N-1-k)),并且N/M的比值为整数(因此仅进行抽取)的情况下,等式10变为:
k∈[0;N/2-1](11)
该实施例使得可以只在存储器中存储在进行分析和合成时使用的单个窗口。
因此示出可以将折叠/展开和抽取步骤相结合,以执行通过使用大小为N的分析/合成窗口的大小为M的变换。通过本发明,在不使用额外存储器的情况下,可以获得复杂度等于使用大小为M的分析/合成窗口的大小为M的变换的应用。注意,该效果体现在基于DCTIV的MDCT变换的有效实现方式中(如H.S.Malvar,SignalProcessingwithLappedTransforms,ArtechHouse,1992中所建议的),该效果也可以体现在其他有效实现方式中,特别是Duhamel等在ICASSP91会议上呈现的“AfastalgorithmfortheimplementationoffilterbanksbasedonTDAC”中所提出的。
该方法是非限制性的,其可以特别地应用于分析窗口呈现0s,以及其通过偏移量(通过在呈现0s的部分之前的窗口部分对最近的声音样本进行加权)应用于帧以减小编码延时的情况。在该情况下,分配给所述帧的索引和分配给窗口的索引为偏移量。
在具体实施例中,下面是在存在大小为2N的窗口h且存在大小为M的帧的情况下插值方法的描述。
在N小于M的情况下,还执行遵循完全重构条件的系数集合的类似选择。还确定与定义集合的系数相邻的系数集合。然后通过在定义系数集合的每个系数和相邻系数集合的每个系数之间插入系数来执行插值,以获得插值窗口。
因此,为了遵循由等式(3)定义的完全重构条件,如果目的是在位置k和k+1之间插入样本,则计划在分析窗口上的位置ha(k)和ha(k+1)、ha(N-k-1)和ha(N-k-2)、ha(N+k)和ha(N+k+1)、ha(2N-k-1)和ha(2N-k-2)之间以及合成窗口上的位置hs(k)和hs(k+1)、hs(N+k)和hs(N+k+1)、hs(2N-1-k)和hs(2N-k-2)、hs(N-1-k)和hs(N-k-2)之间插入点。新插入的8个点也遵循等式(3)的完全重构条件。
在第一实施例中,通过重复定义集合的系数或相邻系数集合的系数来执行插值。
在第二实施例中,通过计算一个系数(hcomp)来执行插值,以获得对所获得的窗口的更好的频率响应。
为此,执行计算大小为2N的补充窗口hinit的第一步骤。该窗口为在大小为2N的h的系数之间进行插值的形式,使得:
在第二步骤中,根据EP2319039的方法计算窗口hcomp,使其表现出完全重构。对此,根据下式计算窗口的定义集的系数:
该窗口在初始化时计算,或存储在ROM中的。
可以结合插值和抽取步骤,以呈现其中有效地应用变换的实施例。
参考图4(a)和4(b)示出该实施例。
其分成两个步骤:
●在图4(a)中所示的第一步骤中,所述方法始于大小为2N的窗口ha以获得大小为2N′的第二窗口h(在此2N=96且2N′=32,也就是说,执行因数为3的抽取)。该抽取是不规则的并且遵照等式(7)。
●在图4(b)中所示的第二步骤中,补充系数集合hcomp被添加至h的2N′个系数,以获得总共2M个系数(在此,补充系数的数量为2N′,因此得到2M=4N’)。
在图4(a)和4(b)中的具体实施例中,通过构造大小为2M=64的窗口,将为大小为N=48的MDCT提供的大小为2N=96的初始窗口转换为意图实现大小为M=32的MDCT的窗口。
在变换时,在模块102中,提供遵循下面的等式交替地应用窗口h和窗口hcomp:
类似地,在模块112中进行逆变换时,根据下面的等式交替地应用窗口h和窗口hcomp:
k/2∈[0;N/2-1](15)
根据本发明可以进行大量抽取。因此,根据存储在存储器中的单个窗口,可以通过插值、通过抽取或通过对抽取窗口进行插值或反过来而获得不同大小的窗口。
因此在没有以任何方式增加存储空间或待执行的计算的情况下,编码和解码具有很好的灵活性。
在对MDCT进行折叠或展开时实现抽取或插值提供复杂度和灵活性的额外减少。
图5呈现根据本发明的编码或解码设备的硬件实施例。该设备包括与具有贮存器和/或工作存储器MEM的存储器模块BM协作的处理器PROC。
存储器模块可以有利地包括计算机程序,其包括代码指令,当这些指令被处理器PROC运行时,所述指令用于实现根据本发明的编码或解码方法的步骤,并且特别地对为给定初始大小N的变换提供的初始窗口进行不规则采样,以应用大小为M的第二变换,M不同于N。
通常,图1的描述重复这种计算机程序的算法的步骤。计算机程序也可以存储在可以由设备的驱动器读取或下载至其存储空间中的存储介质上。
这种设备包括输入模块,其适用于在编码器的情况下接收音频流X(t)或在解码器的情况下接收量化索引IQ。
所述设备包括输出模块,其适用于在编码器的情况下发送量化索引IQ或当在解码器的情况下发送解码音频流
在一个可能的实施例中,所描述的设备可以包括编码和解码功能两者。
Claims (15)
1.一种通过使用应用于样本帧的分析(hs)或合成(ha)加权窗口的变换对数字音频信号进行编码或解码的方法,其特征在于,其包括对为给定初始大小N的变换提供的初始窗口进行不规则采样(E10),以应用大小为M的第二变换,M不同于N。
2.如权利要求1所述的方法,其特征在于,采样步骤包括根据初始窗口的第一系数d(其中0≤d<N/M),选择遵循预定完全重构条件的系数N-d-1、N+d、2N-d-1的定义集合。
3.如权利要求2所述的方法,其特征在于,当N大于M时,通过至少保留定义集合的系数来对初始窗口执行抽取以获得抽取窗口。
4.如权利要求3所述的方法,其特征在于,其包括选择与定义集合的系数间隔常数差的第二系数集合,以及在于,还通过保留第二集合的系数来执行抽取以获得抽取窗口。
5.如权利要求4所述的方法,其特征在于,根据下面的等式执行将大小为2N的窗口抽取为大小为2M的窗口:
对于k∈[0;M/2-1]
其中h*为抽取后的分析或合成窗口,h为初始的分析或合成窗口,为小于等于X的最接近的整数,为大于等于X的最接近的整数,并且d为定义集合的第一系数的值。
6.如权利要求2所述的方法,其特征在于,当N小于M时,通过在定义系数集合的每个系数和相邻系数集合的每个系数之间插入系数来执行插值以获得插值窗口。
7.如权利要求6所述的方法,其特征在于,其包括选择与定义集合的系数间隔常数差的第二系数集合,以及在于,还通过在第二集合的每个系数和相邻系数集合的每个系数之间插入系数来执行插值以获得插值窗口。
8.如权利要求6-7中的一项所述的方法,其特征在于,其包括计算补充窗口以对所述窗口进行插值,所述补充窗口包括根据集合的定义系数和根据相邻系数计算的系数。
9.如权利要求8所述的方法,其特征在于,在实现用于计算第二变换的时间折叠或展开的步骤期间,执行不规则采样步骤和对初始窗口进行的抽取或插值。
10.如权利要求8所述的方法,其特征在于,在实现用于计算第二变换的时间折叠或展开的步骤期间,执行对初始窗口进行的抽取和插值两者。
11.如权利要求9所述的方法,其特征在于,根据下面的等式执行时间折叠期间的抽取:
k∈[0;M/2-1]
其中TM为M个样本的帧,T2M为2M个样本的帧,ha是分析加权窗口。
12.如权利要求9所述的方法,其特征在于,根据下面的等式执行时间展开期间的抽取:
k∈[0;N/2-1]
其中为M个样本的帧,为2M个样本的帧,hs是合成加权窗口。
13.如权利要求10所述的方法,其特征在于,当第二变换的大小为M=3/2N时,根据下面的等式在时间折叠期间执行其后跟随插值的对初始窗口进行的抽取:
k/2∈[0;N/2-1]
其中TM为M个样本的帧,T2M为2M个样本的帧,hcomp为补充窗口。
14.如权利要求10所述的方法,其特征在于,当第二变换的大小为M=3/2N时,根据下面的等式在时间展开期间执行其后跟随插值的对初始窗口进行的抽取:
k/2∈[0;N/2-1]
其中为M个样本的帧,为2M个样本的帧,hcomp为补充窗口。
15.一种用于通过使用应用于样本帧的分析(hs)或合成(ha)加权窗口的变换来对数字音频信号进行编码或解码的设备,其特征在于,其包括采样模块(102、112),所述采样模块适配用于对为给定初始大小N的变换提供的初始窗口进行不规则采样,以应用大小为M的第二变换,M不同于N。
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
FR1156356A FR2977969A1 (fr) | 2011-07-12 | 2011-07-12 | Adaptation de fenetres de ponderation d'analyse ou de synthese pour un codage ou decodage par transformee |
FR1156356 | 2011-07-12 | ||
PCT/FR2012/051622 WO2013007943A1 (fr) | 2011-07-12 | 2012-07-09 | Adaptations de fenetres de ponderation d'analyse ou de synthese pour un codage ou decodage par transformee |
Publications (2)
Publication Number | Publication Date |
---|---|
CN103814406A CN103814406A (zh) | 2014-05-21 |
CN103814406B true CN103814406B (zh) | 2016-05-11 |
Family
ID=46639596
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201280034844.7A Active CN103814406B (zh) | 2011-07-12 | 2012-07-09 | 用于变换编码或解码的分析或合成加权窗口的自适应 |
Country Status (12)
Country | Link |
---|---|
US (2) | US9368121B2 (zh) |
EP (1) | EP2732448B1 (zh) |
JP (1) | JP6177239B2 (zh) |
KR (3) | KR102089281B1 (zh) |
CN (1) | CN103814406B (zh) |
BR (3) | BR112014000611B1 (zh) |
CA (1) | CA2841303C (zh) |
ES (1) | ES2556268T3 (zh) |
FR (1) | FR2977969A1 (zh) |
MX (1) | MX2014000409A (zh) |
RU (1) | RU2607230C2 (zh) |
WO (1) | WO2013007943A1 (zh) |
Families Citing this family (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
EP2980791A1 (en) * | 2014-07-28 | 2016-02-03 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Processor, method and computer program for processing an audio signal using truncated analysis or synthesis window overlap portions |
EP3483879A1 (en) * | 2017-11-10 | 2019-05-15 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Analysis/synthesis windowing function for modulated lapped transformation |
EP3483883A1 (en) | 2017-11-10 | 2019-05-15 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Audio coding and decoding with selective postfiltering |
EP3483880A1 (en) | 2017-11-10 | 2019-05-15 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Temporal noise shaping |
EP3483886A1 (en) | 2017-11-10 | 2019-05-15 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Selecting pitch lag |
WO2019091576A1 (en) | 2017-11-10 | 2019-05-16 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Audio encoders, audio decoders, methods and computer programs adapting an encoding and decoding of least significant bits |
EP3483878A1 (en) | 2017-11-10 | 2019-05-15 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Audio decoder supporting a set of different loss concealment tools |
EP3483884A1 (en) | 2017-11-10 | 2019-05-15 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Signal filtering |
WO2019091573A1 (en) | 2017-11-10 | 2019-05-16 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Apparatus and method for encoding and decoding an audio signal using downsampling or interpolation of scale parameters |
EP3483882A1 (en) | 2017-11-10 | 2019-05-15 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Controlling bandwidth in encoders and/or decoders |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US6748363B1 (en) * | 2000-06-28 | 2004-06-08 | Texas Instruments Incorporated | TI window compression/expansion method |
CN1862969A (zh) * | 2005-05-11 | 2006-11-15 | 尼禄股份公司 | 自适应块长、常数变换音频解码方法 |
WO2006110975A8 (en) * | 2005-04-22 | 2008-01-24 | Logovision Wireless Inc | Multimedia system for mobile client platforms |
WO2010012925A1 (fr) * | 2008-07-29 | 2010-02-04 | France Telecom | Procede de mise a jour d'un codeur par interpolation de filtre |
CN101694773A (zh) * | 2009-10-29 | 2010-04-14 | 北京理工大学 | 一种基于tda域的自适应窗切换方法 |
Family Cites Families (17)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US5357594A (en) * | 1989-01-27 | 1994-10-18 | Dolby Laboratories Licensing Corporation | Encoding and decoding using specially designed pairs of analysis and synthesis windows |
DE69232202T2 (de) * | 1991-06-11 | 2002-07-25 | Qualcomm Inc | Vocoder mit veraendlicher bitrate |
US5504833A (en) * | 1991-08-22 | 1996-04-02 | George; E. Bryan | Speech approximation using successive sinusoidal overlap-add models and pitch-scale modifications |
JPH06141351A (ja) * | 1992-10-26 | 1994-05-20 | Matsushita Electric Ind Co Ltd | 信号発生装置 |
US6269338B1 (en) * | 1996-10-10 | 2001-07-31 | U.S. Philips Corporation | Data compression and expansion of an audio signal |
US6240299B1 (en) * | 1998-02-20 | 2001-05-29 | Conexant Systems, Inc. | Cellular radiotelephone having answering machine/voice memo capability with parameter-based speech compression and decompression |
WO1999059139A2 (en) * | 1998-05-11 | 1999-11-18 | Koninklijke Philips Electronics N.V. | Speech coding based on determining a noise contribution from a phase change |
US6430529B1 (en) * | 1999-02-26 | 2002-08-06 | Sony Corporation | System and method for efficient time-domain aliasing cancellation |
US6707869B1 (en) * | 2000-12-28 | 2004-03-16 | Nortel Networks Limited | Signal-processing apparatus with a filter of flexible window design |
US7516064B2 (en) * | 2004-02-19 | 2009-04-07 | Dolby Laboratories Licensing Corporation | Adaptive hybrid transform for signal analysis and synthesis |
FR2870352B1 (fr) * | 2004-05-14 | 2006-06-23 | Thales Sa | Procede de localisation d'un emetteur avec un reseau synthetique lacunaire d'antennes |
US8255207B2 (en) * | 2005-12-28 | 2012-08-28 | Voiceage Corporation | Method and device for efficient frame erasure concealment in speech codecs |
PT2109098T (pt) * | 2006-10-25 | 2020-12-18 | Fraunhofer Ges Forschung | Aparelho e método para gerar amostras de áudio de domínio de tempo |
US8214200B2 (en) * | 2007-03-14 | 2012-07-03 | Xfrm, Inc. | Fast MDCT (modified discrete cosine transform) approximation of a windowed sinusoid |
CN101952888B (zh) * | 2007-12-21 | 2013-10-09 | 法国电信 | 一种具有合适的窗口的基于变换的编码和解码方法 |
KR101061723B1 (ko) * | 2008-09-25 | 2011-09-02 | (주)제너시스템즈 | 사운드 신호의 실시간 보간 장치 및 방법 |
US9454511B2 (en) * | 2011-05-04 | 2016-09-27 | American University | Windowing methods and systems for use in time-frequency analysis |
-
2011
- 2011-07-12 FR FR1156356A patent/FR2977969A1/fr active Pending
-
2012
- 2012-07-09 CA CA2841303A patent/CA2841303C/fr active Active
- 2012-07-09 BR BR112014000611-3A patent/BR112014000611B1/pt active IP Right Grant
- 2012-07-09 BR BR122021011692-0A patent/BR122021011692B1/pt active IP Right Grant
- 2012-07-09 WO PCT/FR2012/051622 patent/WO2013007943A1/fr active Application Filing
- 2012-07-09 JP JP2014519605A patent/JP6177239B2/ja active Active
- 2012-07-09 MX MX2014000409A patent/MX2014000409A/es active IP Right Grant
- 2012-07-09 KR KR1020197031510A patent/KR102089281B1/ko active IP Right Grant
- 2012-07-09 KR KR1020147003681A patent/KR20140050056A/ko active Application Filing
- 2012-07-09 US US14/232,564 patent/US9368121B2/en active Active
- 2012-07-09 BR BR122021011683-0A patent/BR122021011683B1/pt active IP Right Grant
- 2012-07-09 CN CN201280034844.7A patent/CN103814406B/zh active Active
- 2012-07-09 EP EP12744070.9A patent/EP2732448B1/fr active Active
- 2012-07-09 ES ES12744070.9T patent/ES2556268T3/es active Active
- 2012-07-09 KR KR1020197031511A patent/KR102089273B1/ko active IP Right Grant
- 2012-07-09 RU RU2014104488A patent/RU2607230C2/ru active
-
2016
- 2016-05-04 US US15/146,362 patent/US10373622B2/en active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US6748363B1 (en) * | 2000-06-28 | 2004-06-08 | Texas Instruments Incorporated | TI window compression/expansion method |
WO2006110975A8 (en) * | 2005-04-22 | 2008-01-24 | Logovision Wireless Inc | Multimedia system for mobile client platforms |
CN1862969A (zh) * | 2005-05-11 | 2006-11-15 | 尼禄股份公司 | 自适应块长、常数变换音频解码方法 |
WO2010012925A1 (fr) * | 2008-07-29 | 2010-02-04 | France Telecom | Procede de mise a jour d'un codeur par interpolation de filtre |
CN101694773A (zh) * | 2009-10-29 | 2010-04-14 | 北京理工大学 | 一种基于tda域的自适应窗切换方法 |
Also Published As
Publication number | Publication date |
---|---|
EP2732448B1 (fr) | 2015-09-09 |
BR122021011683B1 (pt) | 2022-03-22 |
US10373622B2 (en) | 2019-08-06 |
BR112014000611B1 (pt) | 2021-09-08 |
KR102089273B1 (ko) | 2020-03-16 |
MX2014000409A (es) | 2014-09-15 |
KR20190124331A (ko) | 2019-11-04 |
US20170011747A1 (en) | 2017-01-12 |
CA2841303A1 (fr) | 2013-01-17 |
BR112014000611A2 (pt) | 2017-02-14 |
WO2013007943A1 (fr) | 2013-01-17 |
US9368121B2 (en) | 2016-06-14 |
FR2977969A1 (fr) | 2013-01-18 |
JP2014524048A (ja) | 2014-09-18 |
RU2607230C2 (ru) | 2017-01-10 |
KR20140050056A (ko) | 2014-04-28 |
EP2732448A1 (fr) | 2014-05-21 |
CN103814406A (zh) | 2014-05-21 |
RU2014104488A (ru) | 2015-08-20 |
CA2841303C (fr) | 2021-01-19 |
KR20190124332A (ko) | 2019-11-04 |
JP6177239B2 (ja) | 2017-08-09 |
ES2556268T3 (es) | 2016-01-14 |
BR122021011692B1 (pt) | 2022-03-22 |
US20140142930A1 (en) | 2014-05-22 |
KR102089281B1 (ko) | 2020-03-16 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN103814406B (zh) | 用于变换编码或解码的分析或合成加权窗口的自适应 | |
CN100588124C (zh) | 无损音频解码/编码方法和装置 | |
CN101027717B (zh) | 无损多通道音频编解码器 | |
CN101944362B (zh) | 一种基于整形小波变换的音频无损压缩编码、解码方法 | |
TWI395203B (zh) | 用於多重描述編碼系統之改良式相關與解相關變換技術 | |
CN101933009B (zh) | 具有随机访问点(rap)和多预测参数集(mpps)能力的使用自适应分段的无损多通道音频编解码器 | |
RU2541864C2 (ru) | Аудио или видео кодер, аудио или видео и относящиеся к ним способы для обработки многоканальных аудио или видеосигналов с использованием переменного направления предсказания | |
US7613306B2 (en) | Audio encoder and audio decoder | |
KR100889750B1 (ko) | 오디오 신호의 무손실 부호화/복호화 장치 및 그 방법 | |
CN105144752A (zh) | 对更高阶高保真度立体声响复制表示进行压缩和解压缩的方法和装置 | |
US20080077412A1 (en) | Method, medium, and system encoding and/or decoding audio signals by using bandwidth extension and stereo coding | |
JP2010537245A (ja) | デジタルコンテンツの符号化および/または復号 | |
RU2009131599A (ru) | Управление вычислительной сложностью и точностью в мультимедийном кодеке, основанном на преобразовании | |
WO2002103685A1 (fr) | Appareil et procede de codage, appareil et procede de decodage et programme | |
CN102272831A (zh) | 基于峰值检测的选择性缩放掩码计算 | |
CN103280221A (zh) | 一种基于基追踪的音频无损压缩编码、解码方法及系统 | |
JP2002135131A (ja) | 可変サイズベクトルエントロピ符号化を実行するための方法および装置 | |
KR20100089772A (ko) | 오디오 신호의 부호화 및 복호화 방법 및 그 장치 | |
EP1873753A1 (en) | Enhanced audio encoding/decoding device and method | |
JP2004531151A (ja) | 時間離散オーディオサンプル値を処理する方法と装置 | |
WO2008035886A1 (en) | Method and apparatus to encode and decode audio signal by using bandwidth extension technique | |
JP3761639B2 (ja) | オーディオ復号装置 | |
CN102792369A (zh) | 语音处理装置、语音处理方法和程序 | |
CN104751850B (zh) | 一种用于音频信号的矢量量化编解码方法及装置 | |
JP2006146247A (ja) | オーディオ復号装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
C14 | Grant of patent or utility model | ||
GR01 | Patent grant |