CN103930946B - 延迟优化的重叠变换,编码/解码加权窗口 - Google Patents
延迟优化的重叠变换,编码/解码加权窗口 Download PDFInfo
- Publication number
- CN103930946B CN103930946B CN201280042901.6A CN201280042901A CN103930946B CN 103930946 B CN103930946 B CN 103930946B CN 201280042901 A CN201280042901 A CN 201280042901A CN 103930946 B CN103930946 B CN 103930946B
- Authority
- CN
- China
- Prior art keywords
- window
- duration
- interval
- analysis
- decoding
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 claims abstract description 44
- 230000015572 biosynthetic process Effects 0.000 claims description 20
- 238000003786 synthesis reaction Methods 0.000 claims description 20
- 230000008859 change Effects 0.000 claims description 7
- 230000002123 temporal effect Effects 0.000 claims description 6
- 230000005236 sound signal Effects 0.000 claims description 5
- 238000006243 chemical reaction Methods 0.000 abstract description 5
- 230000002829 reductive effect Effects 0.000 abstract description 4
- 230000014759 maintenance of location Effects 0.000 abstract 2
- 230000006870 function Effects 0.000 description 15
- 238000005457 optimization Methods 0.000 description 14
- 230000006872 improvement Effects 0.000 description 12
- 230000015654 memory Effects 0.000 description 5
- 230000009467 reduction Effects 0.000 description 5
- 230000008901 benefit Effects 0.000 description 4
- 230000000630 rising effect Effects 0.000 description 4
- 238000005070 sampling Methods 0.000 description 4
- 230000009466 transformation Effects 0.000 description 4
- 238000010276 construction Methods 0.000 description 3
- 230000001934 delay Effects 0.000 description 3
- 239000000203 mixture Substances 0.000 description 3
- 238000012360 testing method Methods 0.000 description 3
- 238000004590 computer program Methods 0.000 description 2
- 238000012937 correction Methods 0.000 description 2
- 230000003247 decreasing effect Effects 0.000 description 2
- 230000009977 dual effect Effects 0.000 description 2
- 230000000670 limiting effect Effects 0.000 description 2
- 238000002360 preparation method Methods 0.000 description 2
- 238000013139 quantization Methods 0.000 description 2
- 241001362574 Decodes Species 0.000 description 1
- IAZDPXIOMUYVGZ-UHFFFAOYSA-N Dimethylsulphoxide Chemical compound CS(C)=O IAZDPXIOMUYVGZ-UHFFFAOYSA-N 0.000 description 1
- 230000004931 aggregating effect Effects 0.000 description 1
- 230000015556 catabolic process Effects 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 239000002131 composite material Substances 0.000 description 1
- 238000006731 degradation reaction Methods 0.000 description 1
- 238000011156 evaluation Methods 0.000 description 1
- 230000000873 masking effect Effects 0.000 description 1
- 230000008447 perception Effects 0.000 description 1
- 230000008569 process Effects 0.000 description 1
- 238000012545 processing Methods 0.000 description 1
- 230000000717 retained effect Effects 0.000 description 1
- 239000004576 sand Substances 0.000 description 1
- 230000003595 spectral effect Effects 0.000 description 1
- 230000002194 synthesizing effect Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/02—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/02—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
- G10L19/0212—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders using orthogonal transformation
-
- H—ELECTRICITY
- H03—ELECTRONIC CIRCUITRY
- H03M—CODING; DECODING; CODE CONVERSION IN GENERAL
- H03M7/00—Conversion of a code where information is represented by a given sequence or number of digits to a code where the same, similar or subset of information is represented by a different sequence or number of digits
-
- H—ELECTRICITY
- H03—ELECTRONIC CIRCUITRY
- H03M—CODING; DECODING; CODE CONVERSION IN GENERAL
- H03M7/00—Conversion of a code where information is represented by a given sequence or number of digits to a code where the same, similar or subset of information is represented by a different sequence or number of digits
- H03M7/02—Conversion to or from weighted codes, i.e. the weight given to a digit depending on the position of the digit within the block or code word
-
- H—ELECTRICITY
- H03—ELECTRONIC CIRCUITRY
- H03M—CODING; DECODING; CODE CONVERSION IN GENERAL
- H03M7/00—Conversion of a code where information is represented by a given sequence or number of digits to a code where the same, similar or subset of information is represented by a different sequence or number of digits
- H03M7/30—Compression; Expansion; Suppression of unnecessary data, e.g. redundancy reduction
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/008—Multichannel audio signal coding or decoding using interchannel correlation to reduce redundancy, e.g. joint-stereo, intensity-coding or matrixing
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/02—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
- G10L19/022—Blocking, i.e. grouping of samples in time; Choice of analysis windows; Overlap factoring
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/04—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
- G10L19/08—Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters
- G10L19/12—Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters the excitation function being a code excitation, e.g. in code excited linear prediction [CELP] vocoders
-
- H—ELECTRICITY
- H03—ELECTRONIC CIRCUITRY
- H03M—CODING; DECODING; CODE CONVERSION IN GENERAL
- H03M7/00—Conversion of a code where information is represented by a given sequence or number of digits to a code where the same, similar or subset of information is represented by a different sequence or number of digits
- H03M7/30—Compression; Expansion; Suppression of unnecessary data, e.g. redundancy reduction
- H03M7/46—Conversion to or from run-length codes, i.e. by representing the number of consecutive digits, or groups of digits, of the same kind by a code word and a digit indicative of that kind
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L27/00—Modulated-carrier systems
- H04L27/26—Systems using multi-frequency codes
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L27/00—Modulated-carrier systems
- H04L27/26—Systems using multi-frequency codes
- H04L27/2601—Multicarrier modulation systems
- H04L27/2626—Arrangements specific to the transmitter only
- H04L27/2627—Modulators
- H04L27/2639—Modulators using other transforms, e.g. discrete cosine transforms, Orthogonal Time Frequency and Space [OTFS] or hermetic transforms
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- Signal Processing (AREA)
- Health & Medical Sciences (AREA)
- Human Computer Interaction (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Theoretical Computer Science (AREA)
- Spectroscopy & Molecular Physics (AREA)
- Mathematical Physics (AREA)
- Compression, Expansion, Code Conversion, And Decoders (AREA)
- Compression Or Coding Systems Of Tv Signals (AREA)
Abstract
本发明涉及用于编码/解码数字信号的方法,所述信号由连续的样本块组成,编码为具有重叠类型的变换并包括,基于分析,在两个连续的M样本块上应用加权窗口。具体而言,该加权窗口是非对称的并包括在所述两个块上连续延伸的四个不同部分,包括:第一部分(w1),在样本的第一间隔上增加,第二部分(w2),在第二间隔上保持值为1不变,第三部分(w3),在第三间隔上减少,以及第四部分(w4),在第四间隔上保持值为0不变。
Description
技术领域
本发明涉及数字音频信号的编/解码领域,更具体地涉及所谓的“具有重叠的变换音频编/解码”领域。
背景技术
“变换编码”在于在变换(频率)域中编码时域信号。此变换尤其使得能够使用音频信号(音乐,语音等)的频率特性,以便优化并提高编码效率。例如,可应用这一事实:谐波声音在频域中由有限且少量的光谱波表示,因此它可被简洁地编码。例如,还可有利地应用频率掩蔽效应,以尽可能无声的方式格式化编码噪声。
标准变换编码技术被总结如下。
要被编码的数字音频流(以指定采样频率Fs)被分割成有限数量样本2M的帧(或更一般的称为“块”)。每个帧常规来说与在前帧重叠50%。加权窗口ha(被称为“分析窗口”)被应用至每个帧。
然后,变换被应用至该信号。在被称为“MDCT”(“修正的离散余弦变换”)的变换的情况下,并在特定实施方式中,依据2M样本至M样本的变换,加权的帧被“折叠”。然后,IV类型的DCT变换应用至被折叠的帧以便获得在变换域中的大小为M的帧。
然后使用适当的量化器量化变换域中的帧。量化使得能够减少数据的大小,却将噪声(听得见或听不见的)引入原始帧中。编码器的比特率越高,此噪声被减小的越多并且量化的帧越接近原始帧。
在解码中,逆MDCT变换然后被应用至量化的帧。使用逆IV类型的DCT,大小为M的量化的帧被变换为时域中的大小为M的帧。第二个,M至2M的“展开”变换然后被应用至大小为M的暂时帧。
所谓的“合成”加权窗口hs然后被应用至大小为2M的帧。
然后通过聚集重叠的部分合成解码的音频流。
对于合成窗口和指定的重叠,确定分析窗口使得能够获得要编码信号的完美重构(在不量化的情况下)。
在变换编码中惯常使用的窗口是正弦曲线类的窗口,在分析和合成两者中都是相同的。在这一配置下,由编码系统引入的最小算法延迟是2M/Fs秒。
为了减少这一延迟,能够在合成窗口的开始以及在分析窗口的末端加入多个零值。由于该信号与“0”的乘法运算的结果提前已知,能够相对于窗口的位置偏移帧率。这些对称窗口,例如由以下元素组成:
-一定数量的零值Mz,它延伸在对应于要解决的算法延迟一半的间隔上,
-长度为M-2Mz的正弦曲线上升部分,
-值为1的2Mz部分,
-如附图1所示的最终作为第一半窗口的对称反映的第二半窗口。
这些窗口具有(2M-2Mz/Fs)秒的算法延迟并因此使得能够减少延迟2Mz/Fs秒。
然而,这一技术,尽管它使得能够减少延迟,当延迟的减少增加时,确实倾向于类似矩形窗口。这一窗口形式的频率选择性并不特别强并且基本上彻底降低了编码信号的音频质量。此外,它极大限制了窗口,这是由于在它的构建中加入了4Mz样本。对于提供用于编码的有效窗口,尤其是以提供显著的频率可选性来说,没有很多可用的自由度。。
文献WO-2009/081003已经提出使用非对称窗口以减轻这一问题。这些窗口,根据分析,由覆盖分析窗口末端的多个0组成。为了限制所需的存储空间,合成窗口被选择为分析窗口的时域翻转。此技术尤其使得能够减少编码延迟,以及解码延迟。对于总数为Mz的零来说,其小于在前描述的同步窗口的零的总数的二分之一,延迟改善相同。给定减少数量的零,这种非对称窗口的频率选择性高于对称窗口的频率选择性。解码信号的音频质量因此被增强。
更具体的,文献WO-2009/081003呈现了分析窗口由来自于下式给出的初始窗口h(n)的两部分ha1和ha2组成的ha(n):
以及在其他情况下(即,2M-Mz≤n<2M时)h(n)=0
以及校正因子Δ(n)使得能够具有完美的重构条件,由下式给出:
分析窗口ha由下式给出:
ha1(n+M)=h(n+M)/Δ(n),ha2(n)=h(n)/Δ(n)
其中0≤n<M
合成窗口hs(n)是分析窗口的时域翻转:
hs(2M-1-n)=ha(n),其中0≤n<2M
这些窗口,对于同一延迟改善来说,相比于对称窗口具有更好的特性,这是由于它们更好的频率选择性。
然而,即使现有技术是有利的并且提出了相比于在先技术的改善的特性,当寻找具有更显著延迟改善的解决方案时,例如,具有多于M/4(其中M为帧周期)的若干零Mz时,通过应用这些窗口观测到音频退化,,它明显可通过一部分窗口采用远高于1的高取值这一事实来解释,如图2所示。现在,一般更优选的是,在数字信号处理中,由于固定点的实现,使用绝对值小于1的值进行加权。
本发明改善了这一状况。
发明内容
为此,它提出了一种用于编码由连续样本块组成的数字信号的方法,该编码为具有重叠类型的变换并包括,基于分析,在两个连续M样本块上应用加权窗口。特别地,上面提到的加权窗口是非对称的并包括在该两个块上连续延伸的四个不同部分,包括:
-第一部分,在样本的第一间隔上增加,
-第二部分,在第二间隔上保持值为1不变,
-第三部分,在第三间隔上减少,以及
-第四部分,在第四间隔上保持为0不变。
正如将在稍后看到的,根据通过本发明获得的其中一个优点,在第二间隔期间保持窗口值为1使得能够减少文献WO-2009/081003中描述的在先技术的窗口使用的复杂度,同时保持它的低延迟优点而且提高了音频转换的质量,这将在稍后参考图3看到。
此外,有利的是,第一,第二和第三间隔要被至少计算为第四间隔持续时间(窗口末端零的数量)的函数,它设置上文提到的延迟,它可有利地达到一算法延迟,这将在下文的示例性实施例中看到。相似地,增加和减少部分分别的上升和下降边缘可被尤其优化为第四间隔的持续时间的函数。第四间隔(下文被表示为Mz)被自表示为每块样本数量M的函数,以及,当然,被自表示为期望的最大延迟的函数。
分析窗口的连续展示的特性与上面提到的文献W0-2009/081003中描述的特性相似。特别地,相同大小2M的样本的两个块,分别由第一和第二分析窗口加权,第二窗口的上升边缘可以与时域翻转的第一窗口的下降边缘不同。这些边缘因此并不是先天对称的。
此外,在本发明的实现中,基于编码,具有上面提到的特性(上升,固定值为1,下降以及固定值为0)的若干相同的分析窗口可被连续应用至多个2M样本的连续块,其中M样本重叠,如图10所示。一般来说,本发明的方法然后包括应用多个连续窗口至连续的块对,该窗口非对称的并且包括上面提到的四个部分。因此,如文献WO-2009/081003所述,这里同样地,当应用非对称窗口时不提供特定的转换窗口。
在特定实施例中,在表示为R1的第一间隔上的窗口随着下述类型的函数w1而改变:
例如通过优化,发现术语C1可介于3和5之间,对于大约15至30ms的延迟范围来说。在特定示例性实施例中,C1=4.8425。
在此示例性实施例中,表示为R1的第一间隔是由下式给出的持续时间:
其中M对应于一个块的持续时间,
符号指小于等于x并最接近于x的整数。
至于窗口的第二部分,在一个示例性实施例中,在表示为R2的第三间隔上,后者可随着下述类型的函数w3而改变:
根据执行的优化测试,C2优选地介于0.85和1.05之间并且在特定的示例性实施例中,C2=0.9659。
在此示例性实施例中,表示为R2的第三间隔是由下式给出的优选持续时间:
其中M对应于一个块的持续时间,
符号指小于或等于x并最接近于x的整数。
在此示例性实施例中,表示为Mz的第四间隔最初被选定为由下式给出的持续时间:
其中,符号指大于或等于x并最接近于x的整数,M对应于一个块的持续时间。
当然,可实现其他延迟并且因此可提供第四间隔Mz的其他持续时间。在下文详述的示例性实施例中给出的表1指示对于不同的延迟值并因此对于不同的第四间隔持续时间Mz来说,参数C1,C2的取值,以及间隔R1,R2的取值,。
因此,该方法可有利地包括优化窗口的形式的准备步骤,此优化基于至少一个成本函数估计,以获得上文描述的最优参数C1,C2,和/或甚至R1,R2。
总体来说,有利的是窗口中“1”的总数大约是0的数量的2倍,根据实现的最优化,尤其是对于高质量的音频转换来说。
因此,在另一特定示例性实施例中,表示为R1的第一间隔例如是由下式给出的持续时间:
其中M对应于一个块的持续时间,并且Mz对应于第四间隔的持续时间。
在此示例中,第三间隔R2可为由下式给出的持续时间:
其中M对应于一个块的持续时间,并且Mz对应于第四间隔的持续时间。
在下文详细描述的示例性实施例中给出的表2指示当间隔R1和R2已经被这样设置时,对于不同的延迟值并因此对于不同的第四间隔持续时间Mz来说的参数C1和C2的取值。
因此,在具有文献WO-2009/081003中提出的类型的选定数量的零的完美重构的非对称窗口的原则下,本发明提出最优化分析和合成窗口的使用,这使得能够具有良好的声音转换,同时确保有效的实现。图3说明了针对26ms延迟的根据本发明的窗口(标记为INV)、根据文献WO-2009/081003的窗口(标记为AA)以及惯常的正弦曲线窗口(SIN)之间的在音频质量方面的性能对比。没有标记的其他点涉及其他在先技术。可以看出,本发明使得能够保持与使用惯常窗口(SIN)所取得的音频质量等同的音频质量,同时提供的延迟改善与通过文献WO-2009/081003中描述的实现方式所取得的延迟改善相差无几。从而在下文的说明书中将感知质量保留作为评估标准,在感知方面,转换的重构错误相对于预先确定的感知阈值依然忽略不计。
本发明的目的在于提供一种用于解码由执行上述方法编码的数字信号的方法,解码是具有重叠类型的转换并包括,基于合成,在已编码样本的两个连续块上应用加权窗口。特别地,该加权窗口,基于合成,与在编码中使用的时域翻转的分析窗口相同,例如以确保完美的重构性质,正如稍后将看到的那样。
本发明的目的还在于提供一种要被存储于编码或解码设备的存储器中的计算机程序,并具体包括用于实现上述编码方法或上述解码方法的指令,当该指令由该设备的处理器执行时。特别地,它可为一种计算机程序,包括专用于编码的第一部分以及专用于解码的第二部分。图7,稍后将描述到,是这种程序的一般算法的流程图示例并且图8示出了一个特定实施例中,此程序的算法尤其可包括的准备步骤,特别是如果此程序包括根据本发明的编码/解码方法使用用于分析和合成窗口的在前构建的指令,。
如图9概要地示出,本发明的目的还在于提出一种信号编码设备COD,包括用于存储的装置MEM和/或用于计算分析加权窗口的数据的装置μP,以用于实现根据本发明的编码方法。相似地,本发明的目的还在于提供一种信号解码设备DECOD,包括用于存储的装置MEM’和/或用于计算合成加权窗口的数据的装置μP,以用于实现根据本发明的解码方法。特别可能的是,对于编码和解码两者,从预先初始化的分析和/或合成窗口值(存储于存储器MEM和/或MEM’中)开始,并可能动态地优化这些值(通过计算装置μP实现)。
附图说明
通过阅读详细说明,本发明的其他优点和特征将变得明显,在下文中通过非限制性实施例以及下述附图的方式给出:
图1示出了具有低延迟的惯常对称窗口的外观,包括位于窗口开始和末端的零,
图2示出了文献WO-2009/081003中描述的非对称窗口的外观,具有对于40ms的帧2M的15ms的延迟改善,
图3示出了对于26ms的延迟,根据本发明的窗口INV、根据图1的正弦曲线窗口SIN、以及根据图2的窗口AA之间的音频质量的比较,
图4示出了根据本发明的用于构建分析窗口的第一示例性初始化窗口hi,
图5示出了根据本发明的用于构建分析窗口的第二示例性初始化窗hi,
图6示出了根据本发明的通过图5所示类型的初始化窗口获得的示例性分析窗口,
图7概要地示出了示例性转换编码/解码方法的步骤,以说明本发明的内容,
图8概要地示出了用于实现根据本发明的方法示例性构建分析和合成窗口的步骤,
图9概要地示出了用于实现本发明的编码和解码设备,
图10示出了应用了重叠的根据本发明的一连串分析窗口。
具体实施方式
首先参考图7进行描述,作为实现本发明的基本框架,一种通过带有重叠的变换编/解码数字信号(在步骤70中给出)的方法。该方法包含步骤71,将数字音频信号划分为长度为M的帧。然后,每帧都和它的前一帧分为一组,对应了一个50%的重叠。在接下来的步骤72中,分析窗口ha被应用于这两个帧的集合。图6示出了根据本发明的一个示例性分析窗口ha(从0至1的振幅作为样本“Nb Ech”的数量的函数)。将要注意的是,分析窗口ha在Mz值为0时结束并且总长度为2M。
下一步骤73在于对被窗口ha加权的两个帧的块应用变换,所述变换的类型例如为MDCT,然后在变换域中量化取值(步骤74)。在解码中,一个逆变换,在步骤75中,使得能够将取值恢复到时域。如果在编码中的变换例如是MDCT类型,那么一个逆变换iMDCT能够被应用于解码。
在步骤76中,为确保完美的重构条件,一合成窗口hs被应用于两个解码帧。如文献WO-2009/081003所述,该条件加入一个应用至初始化窗口hi的校正因子1/Δn(在下文中详述)以得到分析窗口ha。合成窗口hs表现为分析窗口ha的时域翻转,即:
hs(n)=ha(2M-n-1)
在步骤77中,重叠的子块被聚集起来,以最终传送解码信号,保证了它的完美重构。
现在再次参考图6,更详细地描述在该方法中,特别是编码中,使用的分析窗口ha的外观。分析窗口由四个不同的分段w1,w2,w3,w4组成。该组成形式同样适用于呈现为分析窗口时域翻转的合成窗口hs。
在下文表示为R1的第一间隔上,分析窗口随着如下类型的函数w1而改变:
然后,在第二间隔上分析窗口保持不变并且值w2=1。
在下文表示为R2的第三间隔上,窗口随着如下类型的函数w3而改变:
n∈[0;M-1]
最后,在第四间隔Mz上,分析窗口保持不变且值w4=0。
下文表明,与现有技术WO-2009/081003相比,该窗口的形式使得能够对于一个显著的延迟改善确保最佳的音频质量(例如可能范围提高40%)。这种窗口的使用(一般的变型:增加,保持常量1,下降和保持常量0)并不局限于一种类型的变换MDCT。例如它们还能够被用于这样的情况:编码只与要编码的信号的一部分有关(例如仅部分音频频带,例如处理相比其它的编码技术的编码错误,或者其它)。
接下来参考图8进行描述,如何得到上文参考图7所述的方法中使用的窗口ha。
紧接着初始化步骤80,初始化参数R1,R2,C1和C2在步骤81中被定义。在下一步骤82中,初始化窗口hi从这些初始化参数中计算出来。如图4和5所示,该初始化窗口hi由W1,W2,W3和W4四个分段组成。
长度为R1的第一分段W1由下公式定义:
其中C1是一个大于0的常数。
长度L=2M-R1-R2-Mz的第二分段W2由为1的取值组成。
长度为R2的第三分段W3由如下公式定义:
其中C2是大于0的常数。
长度为Mz的第四分段W4由所有都为0的取值组成。
由此,由下式给出初始化窗口hi(n):
在步骤83中,因子1/Δn被应用于初始化窗口hi,使得能够确保完美重构的条件,并且这样做是基于如下的假设:合成窗口是分析窗口的时域翻转,并且解码时的变换是对偶的(例如如果编码时应用MDCT变换,则解码时为iMDCT变换)。
术语Δn被定义为:
n∈[0;M-1]
完美重构的分析窗口ha被定义为:
将要注意的是,严格为1的值不需要任何加权相乘。因此,相比于现有技术在复杂性方面的期望改善是显著的,如下表所述,根据通过本发明获得的另一优点。
窗口(512点) | 相乘次数 | 改善 |
图1的SIN窗口 | 512 | 0% |
图2的AA窗口 | 416 | 19% |
图6的INV窗口 | 224 | 56% |
因此,对于一个给定的延迟改善(以给定数目零值的Mz),有一个四个参数R1,R2,C1,C2的最优组合,定义了分析和合成窗口的准确形式,使得获取最佳音频质量成为可能。这些参数可以通过连续的迭代进行优化而获得,稍后再次参考图8所描述。
例如,一个35%的延迟改善(相当于此处所描述的例子中对于40ms帧中的14ms),仅仅对应了编码器的一个算法延迟。该延迟,在所述例子中为26ms,加入了一定数目的零Mz,由下式给出:
其中表示大于或等于x且最接近于x的整数。然后得出对于M=40ms,Mz=14ms。
基于这个选择,分析和合成窗口的参数值能够,例如,被定义为:
C1=4.8425
C2=0.9659
其中,表示最接近x的小于或等于x的整数。
这一实施例对应于在图4中表示的初始化窗口。
另一个示例性方法使得能够减少要被寻求的初始化窗口的参数数目。该方法在于考虑在窗口hi中“1”的数目应该是“0”的数目的两倍,以及窗口hi的对称轴对应于分段W2的中心,如图5所示。在这些条件中,间隔R2和R1的值只依赖于间隔Mz的延伸(那就是说,依赖于初始化窗口末端选取的“0”的数目)。
在这些条件中:
其中,Gdelay是要求的延迟改善,单位为ms,FL是帧2M以ms为单位的长度(采样频率由Fs=2M/FL×1000给出,如果计数以毫秒或“ms”为单位)。
然后,在图8的步骤84中设法确定常量C1和C2(和可能的R1和R2),例如通过实行一个迭代优化(诸如所谓的“梯度”技术)。
例如,在步骤81中首先分别为初始参数选择值,R1;R2;C1和C2;分别为2Mz;Mz;1和1,在步骤84中计算一个成本函数,其被用于:
-由具有上述类型的形式的初始化窗口转移而来的分析窗口,并且
-它的合成对偶窗口,保证了完美重构。
该成本函数由要在测试85中验证的一系列标准组成。可以以非限定方式引用的例子包括:
-窗口的一阶导数的分析:
其中:
-窗口的二阶导数的分析:
其中:
-编码改善搜索为例如文档WO-2009/081003中所定义的。
-通过应用根据本发明的分析窗口和合成窗口两者,对于给定的音频样本,最大化信噪比“SNR”,表示为非编码信号和由编码引入的错误之间的对数。
在测试85中,可能的是,核对是否达到最优化标准的结束(成本函数值,参数的取值的改变,或者其他)。如果合适(OK箭头),优化的参数值在结束步骤87中得到。否则,在相反的情况下(KO箭头),以减少代价函数的方式修改R1,R2,C1和C2的取值。
因此,通过选择初始参数R1;R2;C1和C2分别为2Mz;Mz;1和1作为开始,发现,在优化之后:
C1=4.8425
C2=0.9659
如果选择优化所有这四个参数,
或者,作为选择的:
-C1具有接近于5的值,以及
-C2具有接近于1的值,
如果选择仅不优化两个参数C1和C2。
因此可能的是,在第二选择中,当假定1的数量为0的数量的二倍并且如图5所示窗口的对称轴对应于分段的中点时,限制搜索C1和C2的最优值。
应当注意的是,使用上述第一种选择(优化所有四个参数),对于28ms的延迟(而不是之前的26ms),发现在这一优化技术下C1=4.1582以及C2=0.9181。
更一般地,下述表1显示了一组优化参数R1,R2,C1和C2,根据不同的延迟选择并因此得到的不同“0”样本的数量(Mz)。对于48000Hz的采样频率和20ms的帧给出每帧M的样本的数量:
表1:所有四个参数R1,C1,R2,C2的优化
此表的数据尤其被表达为在第四间隔Mz中的“0”样本的数量的函数,如下所述:
下面的表2展示了一组优化的参数C1和C2,根据上述第二选择,该优化通过设置作为零的数量Mz函数间隔R1和R2。对于48000Hz的采样频率和20ms的帧给出每个帧M的样本的数量:
表2:在设置间隔R1和R2之后,两个参数C1和C2的优化
当然,本发明并不限制于作为示例的上文描述的实施例;它的范围包括其他变型。
例如,使用迭代的优化方法,如上文所述,可以是所谓“梯度”类型的方法,然而其他变型当然是可能的。还可能的是,例如,在优化过程内,设置窗口ha的最大值为1,以便使用相对恒定的权重处理声音样本。
更一般地,分析和合成窗口的取值可以预先确定出(通过上文所述的优化),然后硬存储在编码或解码设备的存储器中,以在编码或解码方法中使用。在一个变型中,例如,可能的是根据通信条件定义初始化窗口,将它们存储在上述设备的存储器中然后优化它们。
Claims (13)
1.一种用于编码音频数字信号的方法,所述信号由连续的样本块组成,编码为具有重叠类型的变换并包括,基于分析,在两个连续的M样本块上应用加权窗口,
其特征在于,所述加权窗口是非对称的并包括在所述两个块上连续延伸的四个不同部分,包括:
第一部分(w1),在样本的第一间隔上增加,
第二部分(w2),在第二间隔上保持值为1不变,
第三部分(w3),在第三间隔上减少,以及
第四部分(w4),在第四间隔上保持值为0不变;
在表示为R1的第一间隔上的窗口随着下述类型的函数(w1)而改变:
其中以及,
n∈[0;M-1],其中C1和R1为大于0的常量,hi是初始化窗口;
在表示为R2的第三间隔上的窗口随着下述类型的函数(w3)而改变:
其中以及:
n∈[0;M-1],其中C2和R2为大于0的常量,hi是初始化窗口。
2.根据权利要求1所述的方法,其特征在于第一,第二以及第三间隔至少被计算为第四间隔的函数。
3.根据权利要求1所述的方法,其特征在于术语C1介于3和5之间。
4.根据权利要求1所述的方法,其特征在于C2介于0.85和1.05之间。
5.根据权利要求1所述的方法,其特征在于表示为Mz的第四间隔的持续时间被选定为:
其中,符号指定大于或等于x并最接近于x的整数,M对应于一个块的持续时间。
6.根据权利要求1所述的方法,其特征在于,表示为R1的第一间隔,是由下式给出的持续时间:
其中M对应于一个块的持续时间,
符号指定小于或等于x并最接近于x的整数。
7.根据权利要求1所述的方法,其特征在于,表示为R2的第三间隔,是由下式给出的持续时间:
其中M对应于一个块的持续时间,
符号指定小于或等于x并最接近于x的整数。
8.根据权利要求1所述的方法,其特征在于,表示为R1的第一间隔,是由下式给出的持续时间:
其中M对应于一个块的持续时间,并且Mz对应于第四间隔的持续时间。
9.根据权利要求8所述的方法,其特征在于,表示为R2的第三间隔,是由下式给出的持续时间:
其中M对应于一个块的持续时间,并且Mz对应于第四间隔的持续时间。
10.根据权利要求1所述的方法,其特征在于,包括将多个连续的,非对称的并包括所述四个部分的窗口应用至一连串块对。
11.一种用于解码数字信号的方法,所述数字信号通过执行权利要求1所述的方法进行编码,所述解码是具有重叠类型的变换并包括,基于合成,在两个连续的编码样本块上应用加权窗口,
其特征在于,所述加权窗口,基于合成,与编码中使用的时域翻转的分 析窗口相同。
12.一种音频信号编码设备,其特征在于,它包括用于存储的装置和/或用于计算分析加权窗口的数据的装置,用于实现权利要求1至10中任一项所述的编码方法。
13.一种音频信号解码设备,其特征在于,它包括用于存储的装置以及用于计算合成加权窗口的数据的装置,用于实现权利要求11所述的解码方法。
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
FR1155769 | 2011-06-28 | ||
FR1155769A FR2977439A1 (fr) | 2011-06-28 | 2011-06-28 | Fenetres de ponderation en codage/decodage par transformee avec recouvrement, optimisees en retard. |
PCT/FR2012/051463 WO2013001226A1 (fr) | 2011-06-28 | 2012-06-26 | Fenêtres de pondération en codage/décodage par transformée avec recouvrement, optimisées en retard |
Publications (2)
Publication Number | Publication Date |
---|---|
CN103930946A CN103930946A (zh) | 2014-07-16 |
CN103930946B true CN103930946B (zh) | 2016-12-14 |
Family
ID=46508112
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201280042901.6A Active CN103930946B (zh) | 2011-06-28 | 2012-06-26 | 延迟优化的重叠变换,编码/解码加权窗口 |
Country Status (12)
Country | Link |
---|---|
US (1) | US8847795B2 (zh) |
EP (1) | EP2727107B1 (zh) |
JP (1) | JP6109162B2 (zh) |
KR (1) | KR101966782B1 (zh) |
CN (1) | CN103930946B (zh) |
BR (1) | BR112013033727B1 (zh) |
CA (1) | CA2839971C (zh) |
ES (1) | ES2735279T3 (zh) |
FR (1) | FR2977439A1 (zh) |
MX (1) | MX2013015372A (zh) |
RU (1) | RU2604994C2 (zh) |
WO (1) | WO2013001226A1 (zh) |
Families Citing this family (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
FR3024581A1 (fr) * | 2014-07-29 | 2016-02-05 | Orange | Determination d'un budget de codage d'une trame de transition lpd/fd |
EP3483880A1 (en) | 2017-11-10 | 2019-05-15 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Temporal noise shaping |
WO2019091573A1 (en) | 2017-11-10 | 2019-05-16 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Apparatus and method for encoding and decoding an audio signal using downsampling or interpolation of scale parameters |
EP3483878A1 (en) | 2017-11-10 | 2019-05-15 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Audio decoder supporting a set of different loss concealment tools |
EP3483886A1 (en) | 2017-11-10 | 2019-05-15 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Selecting pitch lag |
EP3483882A1 (en) | 2017-11-10 | 2019-05-15 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Controlling bandwidth in encoders and/or decoders |
EP3483884A1 (en) | 2017-11-10 | 2019-05-15 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Signal filtering |
WO2019091576A1 (en) | 2017-11-10 | 2019-05-16 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Audio encoders, audio decoders, methods and computer programs adapting an encoding and decoding of least significant bits |
EP3483879A1 (en) | 2017-11-10 | 2019-05-15 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Analysis/synthesis windowing function for modulated lapped transformation |
EP3483883A1 (en) | 2017-11-10 | 2019-05-15 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Audio coding and decoding with selective postfiltering |
CN117476017A (zh) * | 2022-07-27 | 2024-01-30 | 华为技术有限公司 | 音频编解码方法、装置、存储介质及计算机程序产品 |
Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1104010A (zh) * | 1993-02-23 | 1995-06-21 | 莫托罗拉公司 | 产生用于话音编码器的频谱噪音加权滤波器的方法 |
US5701389A (en) * | 1995-01-31 | 1997-12-23 | Lucent Technologies, Inc. | Window switching based on interblock and intrablock frequency band energy |
WO2000063881A1 (en) * | 1999-04-19 | 2000-10-26 | At & T Corp. | Method and apparatus for performing packet loss or frame erasure concealment |
CN1288557A (zh) * | 1998-01-21 | 2001-03-21 | 诺基亚移动电话有限公司 | 解码方法和包括自适应后置滤波器的系统 |
CN101061533A (zh) * | 2004-10-26 | 2007-10-24 | 松下电器产业株式会社 | 语音编码装置和语音编码方法 |
CN101120399A (zh) * | 2005-01-31 | 2008-02-06 | 索诺瑞特公司 | 加权叠加方法 |
CN101496098A (zh) * | 2006-07-31 | 2009-07-29 | 高通股份有限公司 | 用于以与音频信号相关联的帧修改窗口的系统及方法 |
CN101952888A (zh) * | 2007-12-21 | 2011-01-19 | 法国电信 | 一种具有合适的窗口的基于变换的编码和解码方法 |
Family Cites Families (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP3277682B2 (ja) * | 1994-04-22 | 2002-04-22 | ソニー株式会社 | 情報符号化方法及び装置、情報復号化方法及び装置、並びに情報記録媒体及び情報伝送方法 |
DE10345995B4 (de) * | 2003-10-02 | 2005-07-07 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Vorrichtung und Verfahren zum Verarbeiten eines Signals mit einer Sequenz von diskreten Werten |
DE102004009949B4 (de) * | 2004-03-01 | 2006-03-09 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Vorrichtung und Verfahren zum Ermitteln eines Schätzwertes |
DE102004021403A1 (de) * | 2004-04-30 | 2005-11-24 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Informationssignalverarbeitung durch Modifikation in der Spektral-/Modulationsspektralbereichsdarstellung |
USRE50132E1 (en) * | 2006-10-25 | 2024-09-17 | Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. | Apparatus and method for generating audio subband values and apparatus and method for generating time-domain audio samples |
ATE547898T1 (de) * | 2006-12-12 | 2012-03-15 | Fraunhofer Ges Forschung | Kodierer, dekodierer und verfahren zur kodierung und dekodierung von datensegmenten zur darstellung eines zeitdomänen-datenstroms |
FR2911228A1 (fr) * | 2007-01-05 | 2008-07-11 | France Telecom | Codage par transformee, utilisant des fenetres de ponderation et a faible retard. |
WO2010032992A2 (ko) * | 2008-09-18 | 2010-03-25 | 한국전자통신연구원 | Mdct기반의 코너와 이종의 코더간 변환에서의 인코딩 장치 및 디코딩 장치 |
-
2011
- 2011-06-28 FR FR1155769A patent/FR2977439A1/fr active Pending
-
2012
- 2012-06-26 BR BR112013033727-3A patent/BR112013033727B1/pt active IP Right Grant
- 2012-06-26 CN CN201280042901.6A patent/CN103930946B/zh active Active
- 2012-06-26 JP JP2014517886A patent/JP6109162B2/ja active Active
- 2012-06-26 WO PCT/FR2012/051463 patent/WO2013001226A1/fr active Application Filing
- 2012-06-26 EP EP12734996.7A patent/EP2727107B1/fr active Active
- 2012-06-26 MX MX2013015372A patent/MX2013015372A/es active IP Right Grant
- 2012-06-26 ES ES12734996T patent/ES2735279T3/es active Active
- 2012-06-26 KR KR1020147002098A patent/KR101966782B1/ko active IP Right Grant
- 2012-06-26 RU RU2014102603/08A patent/RU2604994C2/ru active
- 2012-06-26 US US14/128,718 patent/US8847795B2/en active Active
- 2012-06-26 CA CA2839971A patent/CA2839971C/fr active Active
Patent Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1104010A (zh) * | 1993-02-23 | 1995-06-21 | 莫托罗拉公司 | 产生用于话音编码器的频谱噪音加权滤波器的方法 |
US5701389A (en) * | 1995-01-31 | 1997-12-23 | Lucent Technologies, Inc. | Window switching based on interblock and intrablock frequency band energy |
CN1288557A (zh) * | 1998-01-21 | 2001-03-21 | 诺基亚移动电话有限公司 | 解码方法和包括自适应后置滤波器的系统 |
WO2000063881A1 (en) * | 1999-04-19 | 2000-10-26 | At & T Corp. | Method and apparatus for performing packet loss or frame erasure concealment |
CN101061533A (zh) * | 2004-10-26 | 2007-10-24 | 松下电器产业株式会社 | 语音编码装置和语音编码方法 |
CN101120399A (zh) * | 2005-01-31 | 2008-02-06 | 索诺瑞特公司 | 加权叠加方法 |
CN101496098A (zh) * | 2006-07-31 | 2009-07-29 | 高通股份有限公司 | 用于以与音频信号相关联的帧修改窗口的系统及方法 |
CN101952888A (zh) * | 2007-12-21 | 2011-01-19 | 法国电信 | 一种具有合适的窗口的基于变换的编码和解码方法 |
Also Published As
Publication number | Publication date |
---|---|
WO2013001226A1 (fr) | 2013-01-03 |
US20140139362A1 (en) | 2014-05-22 |
BR112013033727B1 (pt) | 2021-09-21 |
BR112013033727A2 (pt) | 2017-01-31 |
CN103930946A (zh) | 2014-07-16 |
RU2014102603A (ru) | 2015-08-10 |
ES2735279T3 (es) | 2019-12-17 |
CA2839971C (fr) | 2019-04-16 |
FR2977439A1 (fr) | 2013-01-04 |
JP2014523544A (ja) | 2014-09-11 |
CA2839971A1 (fr) | 2013-01-03 |
EP2727107A1 (fr) | 2014-05-07 |
US8847795B2 (en) | 2014-09-30 |
KR20140085415A (ko) | 2014-07-07 |
JP6109162B2 (ja) | 2017-04-05 |
KR101966782B1 (ko) | 2019-04-08 |
RU2604994C2 (ru) | 2016-12-20 |
EP2727107B1 (fr) | 2019-05-15 |
MX2013015372A (es) | 2014-08-01 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN103930946B (zh) | 延迟优化的重叠变换,编码/解码加权窗口 | |
US8473301B2 (en) | Method and apparatus for audio decoding | |
US8428936B2 (en) | Decoder for audio signal including generic audio and speech frames | |
KR102063902B1 (ko) | 프레임 에러 은닉방법 및 장치와 오디오 복호화방법 및 장치 | |
AU2006252962B2 (en) | Audio CODEC post-filter | |
US8423355B2 (en) | Encoder for audio signal including generic audio and speech frames | |
US8615390B2 (en) | Low-delay transform coding using weighting windows | |
KR20130133848A (ko) | 스펙트럼 도메인 잡음 형상화를 사용하는 선형 예측 기반 코딩 방식 | |
JP2010020346A (ja) | 音声信号および音楽信号を符号化する方法 | |
KR20050023426A (ko) | 오디오 코딩 | |
KR20140040055A (ko) | 프레임 에러 은닉방법 및 장치와 오디오 복호화방법 및 장치 | |
CN113544773B (zh) | 用于lc3隐藏的解码器和解码方法 | |
WO2016016724A2 (ko) | 패킷 손실 은닉방법 및 장치와 이를 적용한 복호화방법 및 장치 | |
CN107004417B (zh) | Mdct域错误掩盖 | |
KR20140000322A (ko) | 시간-도메인 및 주파수-도메인 코딩 방식을 지원하는 오디오 코덱 | |
US20110087494A1 (en) | Apparatus and method of encoding audio signal by switching frequency domain transformation scheme and time domain transformation scheme | |
CN106575505A (zh) | Fd/lpd转换环境中的帧丢失管理 | |
CN104981981A (zh) | 数字音频信号中的前回声的有效衰减 | |
JP6510566B2 (ja) | オーディオ信号の時間包絡線を処理するための方法および装置、ならびにエンコーダ | |
KR102251833B1 (ko) | 오디오 신호의 부호화, 복호화 방법 및 장치 | |
US8880411B2 (en) | Critical sampling encoding with a predictive encoder | |
KR20220045260A (ko) | 음성 정보를 갖는 개선된 프레임 손실 보정 | |
KR20210130743A (ko) | 위상 ecu f0 보간 분할을 위한 방법 및 관련 제어기 | |
CN113272896B (zh) | 提供经处理音频信号表示的装置和处理器、音频解码器、音频编码器、方法及计算机程序 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
C14 | Grant of patent or utility model | ||
GR01 | Patent grant |