CN110047499B - 低复杂度音调自适应音频信号量化 - Google Patents
低复杂度音调自适应音频信号量化 Download PDFInfo
- Publication number
- CN110047499B CN110047499B CN201910203346.4A CN201910203346A CN110047499B CN 110047499 B CN110047499 B CN 110047499B CN 201910203346 A CN201910203346 A CN 201910203346A CN 110047499 B CN110047499 B CN 110047499B
- Authority
- CN
- China
- Prior art keywords
- spectral
- signal
- dead zone
- spectral lines
- audio signal
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 230000005236 sound signal Effects 0.000 title claims abstract description 141
- 238000013139 quantization Methods 0.000 title claims abstract description 55
- 230000003044 adaptive effect Effects 0.000 title abstract description 11
- 230000003595 spectral effect Effects 0.000 claims abstract description 245
- 238000004364 calculation method Methods 0.000 claims abstract description 60
- 238000001228 spectrum Methods 0.000 claims description 75
- 238000000034 method Methods 0.000 claims description 43
- 238000004590 computer program Methods 0.000 claims description 14
- 238000013507 mapping Methods 0.000 claims description 12
- 238000012986 modification Methods 0.000 claims description 9
- 230000004048 modification Effects 0.000 claims description 9
- 238000010606 normalization Methods 0.000 claims description 5
- 230000006870 function Effects 0.000 description 14
- 238000012545 processing Methods 0.000 description 7
- 230000009466 transformation Effects 0.000 description 5
- 230000006978 adaptation Effects 0.000 description 3
- 230000005540 biological transmission Effects 0.000 description 3
- 108010076504 Protein Sorting Signals Proteins 0.000 description 2
- 230000005284 excitation Effects 0.000 description 2
- 238000007620 mathematical function Methods 0.000 description 2
- 238000005259 measurement Methods 0.000 description 2
- 230000000737 periodic effect Effects 0.000 description 2
- 230000008569 process Effects 0.000 description 2
- 230000003321 amplification Effects 0.000 description 1
- 238000004422 calculation algorithm Methods 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 230000001419 dependent effect Effects 0.000 description 1
- 230000000977 initiatory effect Effects 0.000 description 1
- 238000003780 insertion Methods 0.000 description 1
- 230000037431 insertion Effects 0.000 description 1
- 238000003199 nucleic acid amplification method Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/02—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
- G10L19/032—Quantisation or dequantisation of spectral components
- G10L19/035—Scalar quantisation
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10H—ELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
- G10H1/00—Details of electrophonic musical instruments
- G10H1/02—Means for controlling the tone frequencies, e.g. attack or decay; Means for producing special musical effects, e.g. vibratos or glissandos
- G10H1/06—Circuits for establishing the harmonic content of tones, or other arrangements for changing the tone colour
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/02—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
- G10L19/0212—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders using orthogonal transformation
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/03—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
- G10L25/18—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being spectral information of each sub-band
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/03—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
- G10L25/21—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being power information
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/45—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of analysis window
-
- H—ELECTRICITY
- H03—ELECTRONIC CIRCUITRY
- H03M—CODING; DECODING; CODE CONVERSION IN GENERAL
- H03M7/00—Conversion of a code where information is represented by a given sequence or number of digits to a code where the same, similar or subset of information is represented by a different sequence or number of digits
- H03M7/30—Compression; Expansion; Suppression of unnecessary data, e.g. redundancy reduction
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10H—ELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
- G10H2210/00—Aspects or methods of musical processing having intrinsic musical character, i.e. involving musical theory or musical parameters or relying on musical knowledge, as applied in electrophonic musical tools or instruments
- G10H2210/555—Tonality processing, involving the key in which a musical piece or melody is played
- G10H2210/561—Changing the tonality within a musical piece
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/03—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Spectroscopy & Molecular Physics (AREA)
- Computational Linguistics (AREA)
- Signal Processing (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Theoretical Computer Science (AREA)
- Compression, Expansion, Code Conversion, And Decoders (AREA)
Abstract
本公开内容涉及低复杂度音调自适应音频信号量化。本发明提供一种音频编码器,其用于对音频信号进行编码,以便从中产生编码信号,该音频编码器包括:帧装置,其被配置成从该音频信号提取帧;量化器,其被配置成将从该音频信号的帧得到的频谱信号的频谱线映射至量化索引,其中,该量化器具有死区,在该死区中将该输入频谱线映射至量化索引零;以及控制装置,其被配置成修改死区;其中,控制装置包括音调计算装置,其被配置成计算用于至少一个频谱线或用于至少一组频谱线的至少一个音调指示值,其中,控制装置被配置成取决于各个音调指示值来修改用于至少一个频谱线或至少一组频谱线的死区。
Description
本申请为于2015年7月28日提交、申请号为201480006396.9、发明名称为“低复杂度音调自适应音频信号量化”的中国专利申请的分案申请。所述母案申请的国际申请日为2014年1月28日,国际申请号为PCT/EP2014/051624。
技术领域
本发明涉及数字音频信号处理。更具体地,本发明涉及音频信号量化。
背景技术
在极低比特率变换编码中,每帧的位的数目通常不足以避免解码的信号中的伪影。特别是,由于变换线(频点(bin))在某一频率处逐帧被“打开及关闭”,即量化为零或未量化为零,音乐噪声可以出现在固定音乐或噪声频谱中。这样的编码方法不仅给予解码的信号区与原始信号相比更加具有音调性的特性(因此术语为音乐噪声),而且其相对于未编码所述频谱区根本没有产生显著的优点,并且反而应用了类似于在xHE-AAC[4]中使用的TCX或FD编码系统中的噪声填充算法的频点替换技术。事实上,倾向于音乐编码噪声的区域的显式但非充分编码需要在变换编码器的熵编码阶段中的位,其在声音上较好地耗费在其它频谱区中,特别是在人类听觉系统灵敏的低频率处。
减少音乐噪声在低比特率音频编码中出现的一个方法是,修改将输入频谱线映射至量化索引的量化器的行为,使得该量化器适于瞬时输入信号特性和量化频谱的位消耗。更准确地,信号自适应地改变了在量化期间使用的死区。已公开了若干方法[5、6及其中的参考]。在[5]中,对将要编码的整个频谱执行量化器适应。因此,已适应的量化器对于给定帧的所有频点行为相同。此外,在最佳死区zopt的量化的情况下,边信息的2个位必须被传输至解码器,表示比特率及向后兼容惩罚。在[6]中,基于每频率频带对量化器进行调适,但每频带进行两个量化尝试,并且(根据某一决策)仅将较佳的尝试用于传输。这是复杂的。
发明内容
本发明的目的在于提供音频信号处理的改进概念。更具体的,本发明的目的在于提供自适应音频信号量化的改进概念。本发明的目的通过以下所描述的音频编码器、系统、方法以及计算机程序来实现。
在一个方面中,本发明提供一种音频编码器,用于对音频信号进行编码,以便从中产生编码信号,该音频编码器包括:
帧装置,其被配置成从该音频信号提取帧;
量化器,其被配置成将从该音频信号的帧得到的频谱信号的频谱线映射至量化索引;其中,该量化器具有死区,在该死区中频谱线被映射至量化索引零;以及
控制装置,其被配置成修改死区;
其中,该控制装置包括音调计算装置,其被配置成计算用于至少一个频谱线或用于至少一组频谱线的至少一个音调指示值,
其中,该控制装置被配置成取决于各个音调指示值来修改用于至少一个频谱线或至少一组频谱线的该死区。
帧装置可以被配置成通过将窗口函数应用至音频信号来从音频信号提取帧。在信号处理中,窗口函数(也称为切趾函数或渐变函数)为在某些选定的区间以外为零值的数学函数。通过将窗口函数应用至信号,可以将信号分解为短片段,其通常被称为帧。
在数字音频信号处理中,量化是将一大组输入值映射至(可计数的)较小组(如将值舍位至某些精度的单位)的过程。执行量化的装置或算法函数被称为量化器。
根据本发明,针对音频信号的帧计算频谱信号。频谱信号可以包含音频信号的帧中的每一个的频谱,该音频信号为时域信号,其中每一个频谱为频域中的帧的一个的表示。频率谱可以经由信号的数学变换来产生,并且结果值通常呈现为振幅对比于频率。
死区为在量化期间使用的区域,其中频谱线(频点)或多组频谱线(频带)被映射至零。死区具有通常在零振幅处的下限,以及可以针对对不同频谱线或多组频谱线而变化的上限。
根据本发明,死区可以通过控制装置进行修改。控制装置包括音调计算装置,其被配置成计算用于至少一个频谱线或用于至少一组频谱线的至少一个音调指示值。
术语“音调”指频谱信号的音调特性。一般而言,在频谱主要包括周期分量的情况下可以说音调高,其意指帧的频谱包括主峰值。音调特性的相反特性为噪声特性。在后者情况下,帧的频谱更平坦。
此外,控制装置被配置成取决于各个音调指示值来修改用于该至少一个频谱线或该至少一组频谱线的死区。
本发明揭示了具有信号自适应死区的量化方案,该信号自适应死区
·不需要任何边信息,允许其在现有介质编解码器中的使用,
·在量化之前决定每频点或频带使用哪一个死区,节约复杂度,
·可以基于频带频率和/或信号音调来确定每频点或每频带死区。
本发明可以应用于现有编码结构中,因为仅改变编码器中的信号量化器;对应的解码器将仍能够读取从编码信号产生的(未改变的)比特流,并且对输出进行解码。与[6]及其参考不同,在量化前之前选择用于每组频谱线或用于每个频谱线的死区,所以每组频谱线或每个频谱线仅一个量化运算是必要的。最后,量化器决策不限于在两个可能的死区值之间进行选取,而是在值的整个范围进行选取。下文详述决策。以上概术的音调自适应量化方案可以在LD-USAC编码器的变换编码激励(TCX)路径中实施,该LD-USAC编码器为xHE-AAC[4]的低延迟变体。
根据本发明的优选实施方式,控制装置被配置成用以下方式来修改死区DZ:在频谱线中的一个处的死区大于在具有较大音调的频谱线中的一个处的死区,或者在多组频谱线中的一组处的死区大于在具有较大音调的多组频谱线中的一组处的死区。通过这些特征,非音调频谱区将倾向于被量化为零,其意指可以减少数据的量。
根据本发明的优选实施方式,控制装置包括功率频谱计算装置,其被配置成计算音频信号的帧的功率频谱,其中该功率频谱包括频谱线或多组频谱线的功率值,其中,音调计算装置被配置成取决于功率频谱来计算至少一个音调指示值。通过基于功率频谱来计算音调指示值,计算复杂度保持相当低。
根据本发明的优选实施方式,用于频谱线中的一个的音调指示值基于用于各个频谱线的功率值与功率频谱的各个频谱线周围的预定数目的功率值之和的比较,或者其中,用于多组频谱线中的一组的音调指示值基于用于各个组的频谱线的功率值与功率频谱的各个组的频谱线周围的预定数目的功率值之和的比较。通过对功率值与其相邻功率值进行比较,可以容易地识别功率频谱的峰值区域或平坦区域,以使得可以以容易的方式计算音调指示值。
根据本发明的优选实施方式,用于频谱线中的一个的音调指示值基于音频信号的在先帧的频谱线的音调指示值,或者其中,用于多组频谱线中的一组的音调指示值基于用于音频信号的在先帧的该组频谱线的音调指示值。通过这些特征,将以平滑的方式随着时间推移对死区进行修改。
根据本发明的优选实施方式,通过以下公式计算该音调指示值:
其中,i为指示该音频信号的特定帧的索引,k为指示特定频谱线的索引,Pk,i为第i帧的第k频谱线的功率值,或者其中,通过以下公式计算该音调指示值:
其中,i为指示音频信号的特定帧的索引,m为指示频谱线的特定组的索引,Pm,i为第i帧的频谱线的第m组频谱线的功率值。如将从公式中注意到的那样,根据作为当前帧的第i帧并且根据作为在先帧的第i-1帧的功率值来计算音调指示值。可以通过省略对第i-1帧的依赖性来改变公式。此处,第k功率值的7个左侧和7个右侧相邻功率值之和被计算并且除以各个功率值。使用这个公式,低音调指示值指示高音调。
根据本发明的优选实施方式,音频编码器包括起始频率计算装置,其被配置成计算用于修改该死区的起始频率,其中,仅针对表示高于或等于起始频率的频率的频谱线对死区进行修改。这意指死区对于低频率是固定的,并且对于较高频率是可变的。这些特征导致较好的音频质量,因为人类听觉系统在低频率处更为灵敏。
根据本发明的优选实施方式,起始频率计算装置被配置成基于音频信号的样本率和/或基于针对从编码信号产生的比特流预见的最大比特率来计算起始频率。通过这些特征将可以对音频质量进行优化。
根据本发明的优选实施方式,音频编码器包括:修改离散余弦变换计算装置,其被配置成根据音频信号的帧来计算修改的离散余弦变换;以及修改离散正弦变换计算装置,其被配置成根据音频信号的帧来计算修改的离散正弦变换,其中,功率频谱计算装置被配置成基于修改的离散余弦变换和基于修改的离散正弦变换来计算功率频谱。不管怎样,为了对音频信号进行编码的目的,必须计算修改的离散余弦变换。因此,只是为了音调自适应量化的目的,必须另外计算修改的离散正弦变换。从而,可以降低复杂度。然而,可以使用如离散傅里叶变换或奇数离散傅立叶变换的其它变换。
根据本发明的优选实施方式,功率频谱计算装置被配置成根据公式Pk,i=(MDCTk,1)2+(MDSTk,i)2来计算功率值,其中i为指示音频信号的特定帧的索引,k为指示特定频谱线的索引,MDCTk,i为在该第i帧的第k频谱线处的修改的离散余弦变换的值,MDSTk,i为在该第i帧的第k频谱线处的修改的离散正弦变换的值,以及Pk,i为该第i帧的第k频谱线的功率值。以上公式允许以容易的方式计算功率值。
根据本发明的优选实施方式,音频编码器包括频谱信号计算装置,其被配置成产生频谱信号,其中,频谱信号计算装置包括振幅设定装置,其被配置成以补偿由于对死区的修改造成的能量损失的方式来设置频谱信号的频谱线的振幅。通过这些特征,可以以能量保持的方式进行量化。
根据本发明的优选实施方式,振幅设定装置被配置成取决于各个频谱线处的死区的修改来设置频谱信号的振幅。例如,可出于这个目的对被扩大死区的频谱线进行轻微放大。
根据本发明的优选实施方式,频谱信号计算装置包括标准化装置。通过这个特征,可以以容易的方式进行后续量化步骤。
根据本发明的优选实施方式,将通过修改离散余弦变换计算装置计算的根据音频信号的帧的修改的离散余弦变换被馈送至频谱信号计算装置。通过这些特征,将修改的离散余弦变换用于量化自适应的目的,以及用于计算编码信号的目的。
在一个方面中,本发明提供一种系统,其包括编码器和解码器,其中根据本发明来设计该编码器。
在一个方面中,本发明提供一种用于对音频信号进行编码以便从中产生编码信号方法,该方法包括以下步骤:
从音频信号提取帧;
将从音频信号的帧得到的频谱信号的频谱线映射至量化索引;其中,使用死区,在该死区中将输入的频谱线映射至零;以及
修改该死区;
其中,计算用于至少一个频谱线或用于至少一组频谱线的至少一个音调指示值,
其中,取决于各个音调指示值来修改用于该至少一个频谱线或该至少一组频谱线的死区。
在一个方面中,本发明提供一种计算机程序,其用于当在计算机或处理器上运行时执行根据本发明的方法。
附图说明
接下来根据附图论述本发明的优选实施方式,在附图中:
图1图示了根据本发明的编码器的实施方式,以及
图2图示了根据本发明的编码器的工作原理。
具体实施方式
图1描绘了根据本发明的用于对音频信号AS进行编码以便从中产生编码信号ES的音频编码器1。音频编码器1包括:
帧装置2,其被配置成从音频信号AS提取帧F;
量化器3,其被配置成将从音频信号AS的帧F得到的频谱信号SPS的频谱线SL1-32(参见图2)映射至量化索引I0、I1;其中,量化器3具有死区DZ(参见图2),在该死区DZ中频谱线SL1-32被映射至量化索引零I0;以及
控制装置4,其被配置成修改死区DZ;
其中,控制装置4包括音调计算装置5,其被配置成计算用于至少一个频谱线SL1-32或用于至少一组频谱线SL1-32的至少一个音调指示值TI5-32,
其中,控制装置4被配置成取决于各个音调指示值TI5-32来修改用于至少一个频谱线SL1-32或至少一组频谱线SL1-32的死区DZ。
帧装置2可以被配置成通过将窗口函数应用至音频信号AS来从音频信号AS提取帧F。在信号处理中,窗口函数(也称为切趾函数或渐变函数)为在某些选定的区间以外为零值的数学函数。通过将窗口函数应用至信号AS,可以将信号AS分解为短片段,其通常被称为帧F。
在数字音频信号处理中,量化是将一大组输入值映射至(可计数的)较小组(如将值舍位至某种精度的单位)的过程。执行量化的装置或算法函数被称为量化器。
根据本发明,针对音频信号AS的帧F计算频谱信号SPS。频谱信号SPS可以包含音频信号AS的帧F中的每一个的频谱,该音频信号AS为时域信号,其中每一个频谱为频域中的帧F中的一个的表示。频率谱可以经由信号AS的数学变换来产生,并且结果值通常呈现为振幅对比于频率。
死区DZ为在量化期间使用的区域,其中频谱线SL1-32(频点)或多组频谱线SL1-32(频带)被映射至量化索引零。死区DZ具有通常在零振幅处的下限,以及可以针对不同频谱线SL1-32或多组频谱线SL1-32而变化的上限。
根据本发明,死区DZ可以通过控制装置4进行修改。控制装置4包括音调计算装置5,其被配置成计算用于至少一个频谱线SL1-32或用于至少一组频谱线SL1-32的至少一个音调指示值TI5-32。
术语“音调”指频谱信号SPS的音调特性。一般而言,在频谱或其一部分主要包括周期分量的情况下可以说音调高,其意指帧F的频谱或该频谱的一部分包括主峰值。音调特性的相反特性为噪声特性。在后者的情况下,帧F的频谱或该频谱的一部分更平坦。
此外,控制装置4被配置成取决于各个音调指示值TI5-32而修改用于至少一个频谱线SL1-32或至少一组频谱线SL1-32的死区DZ。
本发明揭示了具有信号自适应死区DZ的量化方案,该信号自适应死区DZ
·不需要任何边信息,允许其在现有介质编解码器中的使用,
·在量化之前决定每频点或频带使用哪一个死区DZ,节约复杂度,
·可以基于频带频率和/或信号音调来确定每频点或每频带死区DZ。
本发明可以应用于现有编码结构中,因为仅改变编码器1中的信号量化器3;对应的解码器将仍能够读取从编码信号产生的(未改变的)比特流,并且对输出进行解码。与[6]及其参考不同,在量化前之前选择用于每一组频谱线SL1-32或用于每个频谱线SL1-32的死区DZ,所以每组频谱线或每个频谱线SL1-32仅一个量化运算是必要的。最后,量化器决策不限于在两个可能的死区值之间进行选取,而是在值的整个范围进行选取。以上概述的音调自适应量化方案可以在LD-USAC编码器的变换编码激励(TCX)路径中实施,该LD-USAC编码器为xHE-AAC[4]的低延迟变体。
根据本发明的优选实施方式,控制装置4被配置成用以下方式来修改死区DZ:在频谱线SL1-32中的一个处的死区DZ大于在具有较大音调的频谱线SL1-32中的一个处的死区DZ,或者在多组频谱线SL1-32中的一组处的死区DZ大于在具有较大音调的多组频谱线SL1-32中的一组处的死区DZ。通过这些特征,非音调频谱区将倾向于被量化为零,其意指可以减少数据的量。
根据本发明的优选实施方式,控制装置4包括功率频谱计算装置6,其被配置成计算音频信号AS的帧F的功率频谱PS(也参见图2),其中功率频谱PS包括频谱线SL1-32或多组频谱线SL1-32的功率值PS5-32,其中,音调计算装置5被配置成取决于功率频谱PS来计算至少一个音调指示值TI5-32。通过基于功率频谱PS来计算音调指示TI5-32值,计算复杂度保持相当低。此外,可以提高精确度。
根据本发明的优选实施方式,用于频谱线SL1-32中的一个的音调指示值TI5-32基于用于各个频谱线SL1-32的功率值PS5-32与功率频谱PS的各个频谱线周围的预定数目的功率值PS5-32之和的比较,或者其中,用于多组频谱线SL1-32中的一组的音调指示值基于用于各个组的频谱线的功率值PS5-32与功率频谱的各个组的频谱线周围的预定数目的功率值PS5-32之和的比较。通过对功率值PS5-32与其相邻功率值PS5-32进行比较,可以容易地识别功率频谱SP的峰值区域或平坦区域,以使得可以以容易的方式计算音调指示值TI5-32。
根据本发明的优选实施方式,用于频谱线SL1-32中的一个的音调指示值TI5-32基于音频信号AS的在先帧F的频谱线SL1-32的音调指示值TI5-32,或者其中,用于多组频谱线SL1-32中的一组的音调指示值TI5-32基于用于音频信号AS的在先帧F的该组频谱线SL1-32的音调指示值TI5-32。通过这些特征,将以平稳的方式随着时间推移对死区DZ进行修改。
根据本发明的优选实施方式,通过以下公式计算音调指示值TI5-32:
其中,i为指示音频信号AS的特定帧F的索引,k为指示特定频谱线SL1-32的索引,Pk,i为第i帧的第k频谱线SL1-32的功率值PS5-32,或者其中,通过以下公式来计算音调指示值TI5-32:
其中,i为指示音频信号AS的特定帧F的索引,m为指示频谱线SL1-32的特定组的索引,Pm,i为第i帧的频谱线SL1-32的第m组的功率值PS5-32。如将从公式中注意到的那样,根据作为当前帧F的第i帧并且根据作为在先帧F的第i-1帧F的功率值PS5-32来计算音调指示值TI5-32。可以通过省略对第i-1帧F的依赖性来改变公式。此处,一组频谱线SL1-32的第m功率值或某个频谱线SL1-32的第k功率值PS5-32的7个左侧和7个右侧相邻功率值PS5-32之和被计算并且除以各个功率值PS5-32。使用这个公式,低音调指示值TI5-32指示高音调。
根据本发明的优选实施方式,音频编码器1包括起始频率计算装置7,其被配置成计算用于修改死区DZ的起始频率SF,其中,仅针对表示高于或等于起始频率SF的频率的频谱线SL5-32对死区DZ进行修改。这意指死区DZ对于低频率是固定的,并且对于较高频率是可变的。这些特征导致较好的音频质量,因为人类听觉系统在低频率处更为灵敏。
根据本发明的优选实施方式,起始频率计算装置7被配置成基于音频信号AS的样本率和/或基于针对从编码信号ES产生的比特流预见的最大比特率来计算起始频率SF。通过这些特征将可以对音频质量进行优化。
根据本发明的优选实施方式,音频编码器1包括:修改离散余弦变换计算装置8,其被配置成根据音频信号AS的帧F来计算修改的离散余弦变换CT;以及修改离散正弦变换计算装置9,其被配置成根据音频信号AS的帧F来计算修改的离散正弦变换ST,其中,功率频谱计算装置6被配置成基于修改的离散余弦变换CT以及基于修改的离散正弦变换ST来计算功率频谱PS。总之在许多情况下,为了对音频信号AS进行编码的目的,必须计算修改的离散余弦变换CT。因此,只是为了音调自适应量化的目的,必须另外计算修改的离散正弦变换ST。从而,可以降低复杂度。然而,可以使用如离散傅里叶变换或奇数离散傅立叶变换的其它变换。
根据本发明的优选实施方式,功率频谱计算装置6被配置成根据公式Pk,i=(MDCTk,i)2+(MDSTk,i)2来计算功率值,其中i为指示音频信号的特定帧F的索引,k为指示特定频谱线SL1-32的索引,MDCTk,i为在第i帧的第k频谱线处的修改的离散余弦变换CT的值,MDSTk,i为在第i帧的第k频谱线处的修改的离散正弦变换ST的值,以及Pk,i为第i帧的第k频谱线的功率值PS5-32。以上公式允许以容易的方式计算功率值PS5-32。
根据本发明的优选的实施方式,音频编码器1包括频谱信号计算装置10,其被配置成产生频谱信号SPS,其中,频谱信号计算装置10包括振幅设定装置11,其被配置成以补偿由于对死区DZ的修改造成的能量损失的方式来设置频谱信号SPS的频谱线SL1-32的振幅。通过这些特征,可以以能量保持的方式进行量化。
根据本发明的优选实施方式,振幅设定装置11被配置成取决于各个频谱线SL1-32处的死区DZ的修改来设置频谱信号SPS的振幅。例如,可以出于这个目的对被扩大死区DZ的频谱线SL1-32进行轻微放大。
根据本发明的优选实施方式,频谱信号计算装置10包括标准化装置12。通过这个特征,可以以容易的方式进行后续量化步骤。
根据本发明的优选实施方式,通过修改离散余弦变换计算装置8计算的根据音频信号AS的帧F的修改的离散余弦变换CT被馈送至频谱信号计算装置10。通过这些特征,将修改的离散余弦变换CT用于量化自适应的目的,以及用于计算编码信号ES的目的。
图1描绘了本发明的自适应编码器1中的数据和控制信息的流程。应重申的是,某个频率SF之上的非音调频谱区将倾向于以低比特率相当广泛地被量化为零。然而,这意指:在解码器中应用于零频点上的噪声插入将充分地重建噪声类频谱,并且零量化将节约位,其可以用于对低频点进行更精细的量化。
图2图示了根据本发明的编码器的工作原理。本文中,在公共坐标系统中示出了根据本发明的音频编码器1的死区DZ、具有音频信号AS的帧F的功率频谱的功率值PS5-32的功率频谱PS、音调指示值TI5-32以及频谱SP的频谱线SL1-32,其中x轴表示频率,并且y轴表示振幅。必须注意的是,为了简化,在图2中未示出大于1的映射索引。
在已经通过起始频率计算装置7计算出的起始频率SF之下,死区具有固定的大小。在示例中,频谱线SL1在死区以外终止,使得该频谱线SL1将被映射至索引一I1,而频谱线SL7在死区DZ内终止,使得该频谱线SL7可以被映射至索引0I0。然而,自起始频率SF开始,并且至较高频率,可以通过控制装置4对死区DZ的大小进行修改。出于该目的,如上所述对功率值PS5-32进行计算。此外,根据功率值PS5-32对音调指示值TI5-32进行计算。
在从k=20至k=23的区域中,功率频谱PS具有峰值,该峰值导致了指示高音调的低音调指示值TI20-23。在起始频率SF之上的其它区域中,因为功率频谱PS更平坦,使得指示各个区域中的较低音调的音调指示值TI12-19和TI24-32比较高。因此,在从k=12至k=19的区域中以及在从k=24至k=32的区域中对死区DZ进行扩大。死区DZ的这种扩大例如导致了在无音调自适应量化的情况下应该已经被映射至索引一的频谱线SL12和频谱线SL25现在被映射至索引零。这个零量化减少了将要传输至解码器的数据量。
在本发明的优选实施中,编码器操作概括如下:
1.在时间至频率变换步骤期间,针对给定的帧根据窗口输入信号来计算MDCT(余弦部分)和MDST(正弦部分)。
2.输入帧的MDCT用于量化、编码以及传输。进一步利用MDST以计算每频点功率频谱Pk=MDCTk2+MDSTk2。
3.使用Pk来计算每编码频带或者优选的每频点的音调或者频谱平坦度测量。文献[1,2,3]中记录了用以达成此目的的若干方法。优选地,使用每频点仅很少运算的低复杂度版本。在目前情况下,进行Pk与其周围Pk-7...k+7之和的比较,并且使用类似于在[3]中描述的出生/死亡追踪器的磁滞来加强该比较。此外,低于某一比特率依赖频率的频点总是被视为音调。
4.作为可选的步骤,可以利用音调或平坦度测量以在量化之前执行频谱的轻微放大,以便补偿由于大量化器死区造成的能量损失。更准确而言,将应用至大型量化器死区的频点放大一位,而对使用正常或接近于正常的死区(即倾向于保持能量的死区)的频点不进行修改。
5.步骤3的音调或平坦度测量现在控制用于量化每个频点的死区的选择。确定为具有高音调(意指Pk-7...k+7/Pk的低值)的频点使用默认的(即大致能量保持的)死区来进行量化,并且使用新放大的死区来对具有低音调的频点进行量化。因此,低音调频点比高音调频点往往更倾向于被量化为零。可选地,频点的死区的大小可以被定义为频点音调的连续函数,其中范围在默认(最小)与最大死区大小之间。
虽然已经在设备的上下文中对一些方面进行了描述,但是清楚的是,这些方面也表示对应的方法的描述,其中块或装置对应于方法步骤或方法步骤的特征。类似地,在方法步骤的上下文中描述的方面也表示对应的设备的对应块或项或特征。方法步骤中的一些或全部可以由(或使用)硬件设备例如像微处理器、可编程计算机或电子电路来执行。在一些实施方式中,最重要的方法步骤中的一些或更多可以由这样的设备执行。
取决于某些实现要求,本发明的实施方式可以在硬件或软件中实现。该实现可以使用如数字存储介质的非暂时性存储介质来执行,数字存储介质例如可以是软盘、DVD、蓝光、CD、ROM、PROM以及EPROM、EEPROM或闪存,该数字存储介质具有存储于其上的电子可读控制信号,其与可编程计算机系统合作(或能够与可编程计算机系统合作),使得执行各个方法。因此,数字存储介质可以是计算机可读的。
根据本发明的一些实施方式包括数据载体,其具有电子可读控制信号,该电子可读控制信号能够与可编程计算机系统合作,使得执行本文所述方法中的一个。
通常,本发明的实施方式可以实现为具有程序代码的计算机程序产品,当计算机程序产品在计算机上运行时,该程序代码为可操作的,以执行方法中的一个。例如,可以将程序代码存储在机器可读载体上。
其它实施方式包括用于执行本文所述方法中的一个的计算机程序,其存储在机器可读载体上。
换言之,本发明方法的实施方式因此为计算机程序,其具有用于当计算机程序在计算机上运行时执行本文所述方法中的一个的程序代码。
本发明方法的另一个实施方式因此为数据载体(或数字存储介质,或计算机可读介质),其包括记录在其上的用于执行本文所述方法中的一个的计算机程序。数据载体、数字存储介质或记录介质通常为有形的和/或非暂时性的。
本发明方法的又一实施方式因此为表示用于执行本文所述方法中的一个的计算机程序的数据流或信号序列。数据流或信号序列可以例如被配置成经由数据通信连接(例如经由因特网)来进行传输。
又一实施方式包括处理装置,例如计算机或可编程逻辑装置,其被配置成或适用于执行本文所述方法中的一个。
另一实施方式包括计算机,其具有安装于其上的用于执行本文所述方法中的一个的计算机程序。
根据本发明的又一实施方式包括设备或系统,其被配置成将用于执行本文所述方法中的一个的计算机程序传输(例如电子地或光学地)至接收器。接收器可以例如为计算机、移动装置、存储装置等等。设备或系统可以例如包括用于将计算机程序传输至接收器的文件服务器。
在一些实施方式中,可编程逻辑装置(例如现场可编程门阵列)可以用于执行本文所述方法的一些或全部功能。在一些实施方式中,现场可编程门阵列可以与微处理器合作,以便执行本文所述方法中的一个。通常,方法优选地由任何硬设备来执行。
以上所述实施方式仅用于说明本发明的原理。要理解的是,本文所述的布置和细节的修改和变化对本领域其他技术人员而言将是明显的。因此,旨在仅通过所附专利权利要求的范围对本发明进行限制,而不通过本文实施方式描述及解释的方式所呈现的特定细节对本发明进行限制。
参考标记:
1 音频编码器
2 帧装置
3 量化器
4 控制装置
5 音调计算装置
6 功率频谱计算装置
7 起始频率计算装置
8 修改离散余弦变换计算装置
9 修改离散正弦变换计算装置
10 频谱信号计算装置
11 振幅设定装置
12 标准化装置
AS 音频信号
ES 编码信号
F 帧
SL1-32 频谱线
SPS 频谱信号
I 索引
DZ 死区
TI5-32 音调指示值
PS 功率频谱
PS5-32 功率值
SF 起始频率
CT 修改的离散余弦变换
ST 修改的离散正弦变换
参考文献:
[1]L.Daudet,“Sparse and Structured Decomposition of Signals with theMolecular Matching Pursuit,”IEEE Trans.on Audio,Speech,and Lang.Processing,Vol.14,No.5,Sep.2006.
[2]F.Keiler,“Survey on Extraction of Sinusoids in Stationary Sounds,”in Proc.DAFX,2002.
[3]R.J.McAulay and T.F.Quatieri,“Speech Analysis/Synthesis Based on aSinusoidal Representation,”IEEE Trans.Acoustics,Speech,and Sig.Processing,Vol.34,No.4,Aug.1986.
[4]M.Neuendorf et al.,“MPEG Unified Speech and Audio Coding–The ISO/MPEG Standard for High-Efficiency Audio Coding of All Content Types,”inProc.132nd Convention of the AES,Budapest,Hungary,Apr.2012.Also to appear inthe Journal of the AES,2013.
[5]M.Oger et al.,“Model-Based Deadzone Optimization for Stack-RunAudio Coding with Uniform Scalar Quantization,”in Proc.ICASSP 2008,Las Vegas,USA,Apr.2008.
[6]M.Schug,EP2122615,“Apparatus and method for encoding aninformation signal”,2007.
关于包括以上实施例的实施方式,还公开下述的技术方案:
项目1.一种音频编码器,用于对音频信号(AS)进行编码,以便从中产生编码信号(ES),所述音频编码器(1)包括:
帧装置(2),其被配置成从所述音频信号(AS)提取帧(F);
量化器(3),其被配置成将从所述音频信号(AS)的帧(F)得到的频谱信号(SPS)的频谱线(SL1-32)映射至量化索引(I0,I1),其中,所述量化器(3)具有死区(DZ),在所述死区(DZ)中所述频谱线(SL1-32)被映射至量化索引零(I0);以及
控制装置(4),其被配置成修改所述死区(DZ);
其中,所述控制装置(4)包括音调计算装置(5),其被配置成计算用于至少一个频谱线(SL1-32)或者用于至少一组频谱线(SL1-32)的至少一个音调指示值(TI5-32),
其中,所述控制装置(4)被配置成取决于各个音调指示值(TI5-32)来修改用于所述至少一个频谱线(SL1-32)或者所述至少一组频谱线(SL1-32)的死区(DZ)。
项目2.根据项目1所述的音频编码器,其中,所述控制装置(4)被配置成用以下方式来修改所述死区(DZ):在所述频谱线(SL1-32)中的一个处的死区(DZ)大于在具有较大音调的所述频谱线(SL1-32)中的一个处的死区(DZ),或者在多组频谱线(SL1-32)中的一组处的死区(DZ)大于在具有较大音调的多组频谱线(SL1-32)中的一组处的死区(DZ)。
项目3.根据在先项目中的一项所述的音频编码器,其中,所述控制装置(4)包括功率频谱计算装置(6),其被配置成计算所述音频信号(AS)的帧(F)的功率频谱(PS),其中,所述功率频谱(PS)包括频谱线(SL1-32)或者多组频谱线(SL1-32)的功率值(PS5-32),其中,所述音调计算装置(4)被配置成取决于所述功率频谱(PS)来计算所述至少一个音调指示值(T5-32)。
项目4.根据在先项目所述的音频编码器,其中,用于所述频谱线(SL1-32)中的一个的所述音调指示值(TI5-32)基于用于各个频谱线(SL1-32)的功率值(PS5-32)与所述功率频谱(PS)的各个频谱线(SL1-32)周围的预定数目的功率值(P5-32)之和的比较,或者其中,用于多组频谱线(SL1-32)中的一组的音调指示值(TI5-32)基于用于各个组的频谱线(SL1-32)的功率值(PS5-32)与所述功率频谱(PS)的各个组的频谱线(SL1-32)周围的预定数目的功率值(PS5-32)之和的比较。
项目5.根据在先项目中的一项所述的音频编码器,其中,用于所述频谱线(SL1-32)中的一个的所述音调指示值(TI5-32)基于所述音频信号(AS)的在先帧(F)的频谱线的音调指示值(TI5-32),或者其中,用于多组频谱线(SL1-32)中的一组的音调指示值(TI5-32)基于用于所述音频信号(AS)的在先帧(F)的所述组的频谱线(SL1-32)的音调指示值(TI5-32)。
项目6.根据项目3至5中的一项所述的音频编码器,其中,通过以下公式来计算所述音调指示值(TI5-32):
其中,i为指示所述音频信号(AS)的特定帧(F)的索引,k为指示特定频谱线的索引,Tk,i为第i帧(F)的第k频谱线的音调指示值(TI5-32),Pk,i为第i帧(F)的第k频谱线的功率值(PS5-32),或者其中,通过以下公式来计算所述音调指示值(TI5-32):
其中,i为指示所述音频信号(AS)的特定帧(F)的索引,m为指示特定组频谱线(SL1-32)的索引,Pm,i为第i帧的第m组频谱线(SL1-32)的功率值。
项目7.根据在先项目中的一项所述的音频编码器,其中,所述音频编码器(1)包括起始频率计算装置(7),其被配置成计算用于修改所述死区(DZ)的起始频率(SF),其中,仅针对表示高于或等于所述起始频率(SF)的频率的频谱线(SL)来修改所述死区(DZ)。
项目8.根据在先项目所述的音频编码器,其中,起始频率计算装置(7)被配置成基于所述音频信号(AS)的样本率和/或基于针对从所述编码信号(ES)产生的比特流预见的最大比特率来计算所述起始频率(SF)。
项目9.根据项目3至8中的一项所述的音频编码器,其中,所述音频编码器(1)包括:修改离散余弦变换计算装置(8),其被配置成根据所述音频信号(AS)的帧(F)来计算修改的离散余弦变换(CT);以及修改离散正弦变换计算装置(9),其被配置成根据所述音频信号(AS)的帧(F)来计算修改的离散正弦变换(ST),其中,所述功率频谱计算装置(6)被配置成基于所述修改的离散余弦变换(CT)以及基于所述修改的离散正弦(ST)变换来计算所述功率频谱(PS)。
项目10.根据项目3至9中的一项所述的音频编码器,其中,功率频谱计算装置(6)被配置成根据公式Pk,i=(MDCTk,i)2+(MDSTk,i)2来计算所述功率值(PS5-32),其中,i为指示所述音频信号的特定帧的索引,k为指示特定频谱线的索引,MDCTk,i为在第i帧的第k频谱线处的修改的离散余弦变换(CT)的值,MDSTk,i为在第i帧的第k频谱线处的修改的离散正弦变换(ST)的值,以及Pk,i为第i帧的第k频谱线的功率值(PS5-32)。
项目11.根据在先项目中的一项所述的音频编码器,其中,所述音频编码器(1)包括频谱信号计算装置(10),其被配置成产生所述频谱信号(SPS),其中,所述频谱信号计算装置(10)包括振幅设定装置(11),其被配置成以补偿由于对所述死区(DZ)的修改造成的能量损失的方式来设置所述频谱信号(SPS)的频谱线(SL1-32)的振幅。
项目12.根据在先项目所述的音频编码器,其中,所述振幅设定装置(11)被配置成取决于在各个频谱线处的死区(DZ)的修改来设置所述频谱信号(SPS)的振幅。
项目13.根据项目11或12中所述的音频编码器,其中,所述频谱信号计算装置(10)包括标准化装置(12)。
项目14.根据项目11至13中的一项所述的音频编码器,其中,所述修改离散余弦变换计算装置(8)计算的根据所述音频信号(AS)的帧(F)的修改的离散余弦变换(CT)被馈送至所述频谱信号计算装置(10)。
项目15.一种系统,包括编码器(1)和解码器,其中,根据项目1至14中的一项来设计所述编码器(1)。
项目16.一种用于对音频信号(AS)进行编码以便从中产生编码信号(ES)的方法,所述方法包括以下步骤:
从所述音频信号(AS)提取帧(F);
将从所述音频信号(AS)的帧(F)得到的频谱信号(SPS)的频谱线(SL1-32)映射至量化索引(I0,I1),其中,使用死区(DZ),在所述死区(DZ)中将输入的频谱线(SL1-32)映射至量化索引零(I0);以及
修改所述死区(DZ);
其中,计算用于至少一个频谱线或者用于至少一组频谱线(SL1-32)的至少一个音调指示值(TI5-32),
其中,取决于各个音调指示值(TI5-32)来修改用于所述至少一个频谱线或者所述至少一组频谱线(SL1-32)的所述死区(DZ)。
项目17.一种计算机程序,用于当在计算机或者处理器上运行时执行根据项目16所述的方法。
Claims (17)
1.一种音频编码器,用于对音频信号(AS)进行编码,以便从中产生编码信号(ES),所述音频编码器(1)包括:
量化器(3),其被配置成将从所述音频信号(AS)的帧(F)得到的频谱信号(SPS)的频谱线(SL1-32)映射至量化索引(I0,I1),其中,所述量化器(3)具有死区(DZ),在所述死区(DZ)中所述频谱线(SL1-32)被映射至量化索引零(I0);以及
控制装置(4),其被配置成修改所述死区(DZ);
其中,所述控制装置(4)包括音调计算装置(5),其被配置成计算用于至少一个频谱线(SL1-32)或者用于至少一组频谱线(SL1-32)的至少一个音调指示值(TI5-32),
其中,所述控制装置(4)被配置成取决于各个音调指示值(TI5-32)来修改用于所述至少一个频谱线(SL1-32)或者所述至少一组频谱线(SL1-32)的死区(DZ)。
2.根据权利要求1所述的音频编码器,其中,所述控制装置(4)被配置成用以下方式来修改所述死区(DZ):在所述频谱线(SL1-32)中的一个处的死区(DZ)大于在具有较大音调的所述频谱线(SL1-32)中的一个处的死区(DZ),或者在多组频谱线(SL1-32)中的一组处的死区(DZ)大于在具有较大音调的多组频谱线(SL1-32)中的一组处的死区(DZ)。
3.根据权利要求1所述的音频编码器,其中,所述控制装置(4)包括功率频谱计算装置(6),其被配置成计算所述音频信号(AS)的帧(F)的功率频谱(PS),其中,所述功率频谱(PS)包括频谱线(SL1-32)或者多组频谱线(SL1-32)的功率值(PS5-32),其中,所述音调计算装置(4)被配置成取决于所述功率频谱(PS)来计算所述至少一个音调指示值(T5-32)。
4.根据权利要求3所述的音频编码器,其中,用于所述频谱线(SL1-32)中的一个的所述音调指示值(TI5-32)基于用于各个频谱线(SL1-32)的功率值(PS5-32)与所述功率频谱(PS)的各个频谱线(SL1-32)周围的预定数目的功率值(P5-32)之和的比较,或者其中,用于多组频谱线(SL1-32)中的一组的音调指示值(TI5-32)基于用于各个组的频谱线(SL1-32)的功率值(PS5-32)与所述功率频谱(PS)的各个组的频谱线(SL1-32)周围的预定数目的功率值(PS5-32)之和的比较。
5.根据权利要求1所述的音频编码器,其中,用于所述频谱线(SL1-32)中的一个的所述音调指示值(TI5-32)基于所述音频信号(AS)的在先帧(F)的频谱线的音调指示值(TI5-32),或者其中,用于多组频谱线(SL1-32)中的一组的音调指示值(TI5-32)基于用于所述音频信号(AS)的在先帧(F)的所述组的频谱线(SL1-32)的音调指示值(TI5-32)。
6.根据权利要求3所述的音频编码器,其中,通过以下公式来计算所述音调指示值(TI5-32):
其中,i为指示所述音频信号(AS)的特定帧(F)的索引,k为指示特定频谱线的索引,Tk,i为第i帧(F)的第k频谱线的音调指示值(TI5-32),Pk,i为第i帧(F)的第k频谱线的功率值(PS5-32),或者其中,通过以下公式来计算所述音调指示值(TI5-32):
其中,i为指示所述音频信号(AS)的特定帧(F)的索引,m为指示特定组频谱线(SL1-32)的索引,Pm,i为第i帧的第m组频谱线(SL1-32)的功率值。
7.根据权利要求1所述的音频编码器,其中,所述音频编码器(1)包括起始频率计算装置(7),其被配置成计算用于修改所述死区(DZ)的起始频率(SF),其中,仅针对表示高于或等于所述起始频率(SF)的频率的频谱线(SL)来修改所述死区(DZ)。
8.根据权利要求7所述的音频编码器,其中,起始频率计算装置(7)被配置成基于所述音频信号(AS)的样本率和/或基于针对从所述编码信号(ES)产生的比特流预见的最大比特率来计算所述起始频率(SF)。
9.根据权利要求3所述的音频编码器,其中,所述音频编码器(1)包括:修改离散余弦变换计算装置(8),其被配置成根据所述音频信号(AS)的帧(F)来计算修改的离散余弦变换(CT);以及修改离散正弦变换计算装置(9),其被配置成根据所述音频信号(AS)的帧(F)来计算修改的离散正弦变换(ST),其中,所述功率频谱计算装置(6)被配置成基于所述修改的离散余弦变换(CT)以及基于所述修改的离散正弦(ST)变换来计算所述功率频谱(PS)。
10.根据权利要求3所述的音频编码器,其中,功率频谱计算装置(6)被配置成根据公式Pk,i=(MDCTk,i)2+(MDSTk,i)2来计算所述功率值(PS5-32),其中,i为指示所述音频信号的特定帧的索引,k为指示特定频谱线的索引,MDCTk,i为在第i帧的第k频谱线处的修改的离散余弦变换(CT)的值,MDSTk,i为在第i帧的第k频谱线处的修改的离散正弦变换(ST)的值,以及Pk,i为第i帧的第k频谱线的功率值(PS5-32)。
11.根据权利要求1所述的音频编码器,其中,所述音频编码器(1)包括频谱信号计算装置(10),其被配置成产生所述频谱信号(SPS),其中,所述频谱信号计算装置(10)包括振幅设定装置(11),其被配置成以补偿由于对所述死区(DZ)的修改造成的能量损失的方式来设置所述频谱信号(SPS)的频谱线(SL1-32)的振幅。
12.根据权利要求11所述的音频编码器,其中,所述振幅设定装置(11)被配置成取决于在各个频谱线处的死区(DZ)的修改来设置所述频谱信号(SPS)的振幅。
13.根据权利要求11所述的音频编码器,其中,所述频谱信号计算装置(10)包括标准化装置(12)。
14.根据权利要求11所述的音频编码器,其中,所述修改离散余弦变换计算装置(8)计算的根据所述音频信号(AS)的帧(F)的修改的离散余弦变换(CT)被馈送至所述频谱信号计算装置(10)。
15.一种对音频信号进行编码和解码的系统,包括编码器(1)和解码器,其中,根据权利要求1至14中的一项来设计所述编码器(1)。
16.一种用于对音频信号(AS)进行编码以便从中产生编码信号(ES)的方法,所述方法包括以下步骤:
将从所述音频信号(AS)的帧(F)得到的频谱信号(SPS)的频谱线(SL1-32)映射至量化索引(I0,I1),其中,使用死区(DZ),在所述死区(DZ)中将输入的频谱线(SL1-32)映射至量化索引零(I0),并且所述频谱信号(SPS)包含所述音频信号(AS)的帧(F)中的每一个的频谱;以及
修改所述死区(DZ);
其中,计算用于至少一个频谱线或者用于至少一组频谱线(SL1-32)的至少一个音调指示值(TI5-32),
其中,取决于各个音调指示值(TI5-32)来修改用于所述至少一个频谱线或者所述至少一组频谱线(SL1-32)的所述死区(DZ)。
17.一种包括计算机程序的计算机可读存储装置,所述计算机程序用于当在计算机或者处理器上运行时执行根据权利要求16所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910203346.4A CN110047499B (zh) | 2013-01-29 | 2014-01-28 | 低复杂度音调自适应音频信号量化 |
Applications Claiming Priority (5)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US201361758191P | 2013-01-29 | 2013-01-29 | |
US61/758,191 | 2013-01-29 | ||
CN201480006396.9A CN105103226B (zh) | 2013-01-29 | 2014-01-28 | 低复杂度音调自适应音频信号量化 |
PCT/EP2014/051624 WO2014118171A1 (en) | 2013-01-29 | 2014-01-28 | Low-complexity tonality-adaptive audio signal quantization |
CN201910203346.4A CN110047499B (zh) | 2013-01-29 | 2014-01-28 | 低复杂度音调自适应音频信号量化 |
Related Parent Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201480006396.9A Division CN105103226B (zh) | 2013-01-29 | 2014-01-28 | 低复杂度音调自适应音频信号量化 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN110047499A CN110047499A (zh) | 2019-07-23 |
CN110047499B true CN110047499B (zh) | 2023-08-29 |
Family
ID=50023575
Family Applications (2)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201480006396.9A Active CN105103226B (zh) | 2013-01-29 | 2014-01-28 | 低复杂度音调自适应音频信号量化 |
CN201910203346.4A Active CN110047499B (zh) | 2013-01-29 | 2014-01-28 | 低复杂度音调自适应音频信号量化 |
Family Applications Before (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201480006396.9A Active CN105103226B (zh) | 2013-01-29 | 2014-01-28 | 低复杂度音调自适应音频信号量化 |
Country Status (20)
Country | Link |
---|---|
US (3) | US10468043B2 (zh) |
EP (1) | EP2939235B1 (zh) |
JP (3) | JP6334564B2 (zh) |
KR (1) | KR101757341B1 (zh) |
CN (2) | CN105103226B (zh) |
AR (1) | AR095087A1 (zh) |
AU (1) | AU2014211539B2 (zh) |
BR (1) | BR112015018050B1 (zh) |
CA (1) | CA2898789C (zh) |
ES (1) | ES2613651T3 (zh) |
HK (1) | HK1216263A1 (zh) |
MX (1) | MX346732B (zh) |
MY (1) | MY172848A (zh) |
PL (1) | PL2939235T3 (zh) |
PT (1) | PT2939235T (zh) |
RU (1) | RU2621003C2 (zh) |
SG (1) | SG11201505922XA (zh) |
TW (1) | TWI524331B (zh) |
WO (1) | WO2014118171A1 (zh) |
ZA (1) | ZA201506319B (zh) |
Families Citing this family (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
AU2014211539B2 (en) | 2013-01-29 | 2017-04-20 | Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. | Low-complexity tonality-adaptive audio signal quantization |
EP3396670B1 (en) * | 2017-04-28 | 2020-11-25 | Nxp B.V. | Speech signal processing |
CN113539281A (zh) * | 2020-04-21 | 2021-10-22 | 华为技术有限公司 | 音频信号编码方法和装置 |
US11348594B2 (en) * | 2020-06-11 | 2022-05-31 | Qualcomm Incorporated | Stream conformant bit error resilience |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO1997038327A1 (de) * | 1996-04-10 | 1997-10-16 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Anordnung zur vermessung der koordinaten eines oder mehrerer, an einem objekt angebrachten, retroreflektor(en) |
WO1998015945A1 (en) * | 1996-10-07 | 1998-04-16 | Picturetel Corporation | Variable length audio coding using a plurality of subband bit allocation patterns |
CA2246532A1 (en) * | 1998-09-04 | 2000-03-04 | Northern Telecom Limited | Perceptual audio coding |
WO2003009273A1 (de) * | 2001-07-16 | 2003-01-30 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e. V. | Verfahren und vorrichtung zum charakterisieren eines signals und zum erzeugen eines indexierten signals |
CN101661750A (zh) * | 2003-02-06 | 2010-03-03 | 杜比实验室特许公司 | 用于编码和低复杂性代码转换的频谱分量转换 |
CN102089808A (zh) * | 2008-07-11 | 2011-06-08 | 弗劳恩霍夫应用研究促进协会 | 音频编码器、音频解码器、用于编码及解码音频信号的方法、音频流与计算机程序 |
Family Cites Families (34)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2841765B2 (ja) * | 1990-07-13 | 1998-12-24 | 日本電気株式会社 | 適応ビット割当て方法及び装置 |
TW224553B (en) * | 1993-03-01 | 1994-06-01 | Sony Co Ltd | Method and apparatus for inverse discrete consine transform and coding/decoding of moving picture |
DE69428435T2 (de) | 1993-11-04 | 2002-07-11 | Sony Corp | Signalkodierer, signaldekodierer, aufzeichnungsträger und signalkodiererverfahren |
US6167093A (en) * | 1994-08-16 | 2000-12-26 | Sony Corporation | Method and apparatus for encoding the information, method and apparatus for decoding the information and method for information transmission |
DE19505435C1 (de) | 1995-02-17 | 1995-12-07 | Fraunhofer Ges Forschung | Verfahren und Vorrichtung zum Bestimmen der Tonalität eines Audiosignals |
JP3308764B2 (ja) * | 1995-05-31 | 2002-07-29 | 日本電気株式会社 | 音声符号化装置 |
US6301304B1 (en) * | 1998-06-17 | 2001-10-09 | Lsi Logic Corporation | Architecture and method for inverse quantization of discrete cosine transform coefficients in MPEG decoders |
US7447631B2 (en) * | 2002-06-17 | 2008-11-04 | Dolby Laboratories Licensing Corporation | Audio coding system using spectral hole filling |
US7280700B2 (en) | 2002-07-05 | 2007-10-09 | Microsoft Corporation | Optimization techniques for data compression |
US8090577B2 (en) * | 2002-08-08 | 2012-01-03 | Qualcomm Incorported | Bandwidth-adaptive quantization |
US7502743B2 (en) | 2002-09-04 | 2009-03-10 | Microsoft Corporation | Multi-channel audio encoding and decoding with multi-channel transform selection |
JP3881943B2 (ja) | 2002-09-06 | 2007-02-14 | 松下電器産業株式会社 | 音響符号化装置及び音響符号化方法 |
US7333930B2 (en) | 2003-03-14 | 2008-02-19 | Agere Systems Inc. | Tonal analysis for perceptual audio coding using a compressed spectral representation |
US7738554B2 (en) * | 2003-07-18 | 2010-06-15 | Microsoft Corporation | DC coefficient signaling at small quantization step sizes |
JP4168976B2 (ja) * | 2004-05-28 | 2008-10-22 | ソニー株式会社 | オーディオ信号符号化装置及び方法 |
FR2882458A1 (fr) * | 2005-02-18 | 2006-08-25 | France Telecom | Procede de mesure de la gene due au bruit dans un signal audio |
US7983922B2 (en) * | 2005-04-15 | 2011-07-19 | Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. | Apparatus and method for generating multi-channel synthesizer control signal and apparatus and method for multi-channel synthesizing |
US8059721B2 (en) * | 2006-04-07 | 2011-11-15 | Microsoft Corporation | Estimating sample-domain distortion in the transform domain with rounding compensation |
US7995649B2 (en) * | 2006-04-07 | 2011-08-09 | Microsoft Corporation | Quantization adjustment based on texture level |
US20080049950A1 (en) * | 2006-08-22 | 2008-02-28 | Poletti Mark A | Nonlinear Processor for Audio Signals |
WO2008046492A1 (en) | 2006-10-20 | 2008-04-24 | Dolby Sweden Ab | Apparatus and method for encoding an information signal |
JP5065687B2 (ja) | 2007-01-09 | 2012-11-07 | 株式会社東芝 | オーディオデータ処理装置及び端末装置 |
US8498335B2 (en) * | 2007-03-26 | 2013-07-30 | Microsoft Corporation | Adaptive deadzone size adjustment in quantization |
ATE518224T1 (de) * | 2008-01-04 | 2011-08-15 | Dolby Int Ab | Audiokodierer und -dekodierer |
JP5262171B2 (ja) | 2008-02-19 | 2013-08-14 | 富士通株式会社 | 符号化装置、符号化方法および符号化プログラム |
WO2010001020A2 (fr) * | 2008-06-06 | 2010-01-07 | France Telecom | Codage/decodage par plans de bits, perfectionne |
JP4932917B2 (ja) | 2009-04-03 | 2012-05-16 | 株式会社エヌ・ティ・ティ・ドコモ | 音声復号装置、音声復号方法、及び音声復号プログラム |
CN102428702B (zh) * | 2009-05-16 | 2016-02-17 | 汤姆逊许可证公司 | 用于针对视频编码和解码的改进量化舍入偏移调节的方法和设备 |
RU2559899C2 (ru) * | 2010-04-09 | 2015-08-20 | Долби Интернешнл Аб | Стереофоническое кодирование на основе mdct с комплексным предсказанием |
CA2833874C (en) | 2011-04-21 | 2019-11-05 | Ho-Sang Sung | Method of quantizing linear predictive coding coefficients, sound encoding method, method of de-quantizing linear predictive coding coefficients, sound decoding method, and recording medium |
TWI473078B (zh) * | 2011-08-26 | 2015-02-11 | Univ Nat Central | 音訊處理方法以及裝置 |
US8885706B2 (en) * | 2011-09-16 | 2014-11-11 | Google Inc. | Apparatus and methodology for a video codec system with noise reduction capability |
AU2014211539B2 (en) | 2013-01-29 | 2017-04-20 | Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. | Low-complexity tonality-adaptive audio signal quantization |
EP3483879A1 (en) * | 2017-11-10 | 2019-05-15 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Analysis/synthesis windowing function for modulated lapped transformation |
-
2014
- 2014-01-28 AU AU2014211539A patent/AU2014211539B2/en active Active
- 2014-01-28 MX MX2015009753A patent/MX346732B/es active IP Right Grant
- 2014-01-28 CA CA2898789A patent/CA2898789C/en active Active
- 2014-01-28 PT PT147015580T patent/PT2939235T/pt unknown
- 2014-01-28 SG SG11201505922XA patent/SG11201505922XA/en unknown
- 2014-01-28 ES ES14701558.0T patent/ES2613651T3/es active Active
- 2014-01-28 JP JP2015554196A patent/JP6334564B2/ja active Active
- 2014-01-28 CN CN201480006396.9A patent/CN105103226B/zh active Active
- 2014-01-28 WO PCT/EP2014/051624 patent/WO2014118171A1/en active Application Filing
- 2014-01-28 EP EP14701558.0A patent/EP2939235B1/en active Active
- 2014-01-28 MY MYPI2015001904A patent/MY172848A/en unknown
- 2014-01-28 PL PL14701558T patent/PL2939235T3/pl unknown
- 2014-01-28 KR KR1020157022139A patent/KR101757341B1/ko active IP Right Grant
- 2014-01-28 RU RU2015136242A patent/RU2621003C2/ru active
- 2014-01-28 CN CN201910203346.4A patent/CN110047499B/zh active Active
- 2014-01-28 BR BR112015018050-7A patent/BR112015018050B1/pt active IP Right Grant
- 2014-01-29 AR ARP140100300A patent/AR095087A1/es active IP Right Grant
- 2014-01-29 TW TW103103513A patent/TWI524331B/zh active
-
2015
- 2015-07-29 US US14/812,465 patent/US10468043B2/en active Active
- 2015-08-28 ZA ZA2015/06319A patent/ZA201506319B/en unknown
-
2016
- 2016-04-14 HK HK16104252.7A patent/HK1216263A1/zh unknown
-
2017
- 2017-04-06 JP JP2017076101A patent/JP6526091B2/ja active Active
-
2019
- 2019-05-07 JP JP2019087245A patent/JP6979048B2/ja active Active
- 2019-09-25 US US16/583,119 patent/US11094332B2/en active Active
-
2021
- 2021-08-06 US US17/396,526 patent/US11694701B2/en active Active
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO1997038327A1 (de) * | 1996-04-10 | 1997-10-16 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Anordnung zur vermessung der koordinaten eines oder mehrerer, an einem objekt angebrachten, retroreflektor(en) |
WO1998015945A1 (en) * | 1996-10-07 | 1998-04-16 | Picturetel Corporation | Variable length audio coding using a plurality of subband bit allocation patterns |
CA2246532A1 (en) * | 1998-09-04 | 2000-03-04 | Northern Telecom Limited | Perceptual audio coding |
WO2003009273A1 (de) * | 2001-07-16 | 2003-01-30 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e. V. | Verfahren und vorrichtung zum charakterisieren eines signals und zum erzeugen eines indexierten signals |
CN101661750A (zh) * | 2003-02-06 | 2010-03-03 | 杜比实验室特许公司 | 用于编码和低复杂性代码转换的频谱分量转换 |
CN102089808A (zh) * | 2008-07-11 | 2011-06-08 | 弗劳恩霍夫应用研究促进协会 | 音频编码器、音频解码器、用于编码及解码音频信号的方法、音频流与计算机程序 |
Non-Patent Citations (1)
Title |
---|
MPEG一2/4 AAC音频编码器的低复杂度优化;张树华,等;《数字信号处理A》;20101231;第34卷(第4期);第71-74、89页 * |
Also Published As
Similar Documents
Publication | Publication Date | Title |
---|---|---|
TWI578308B (zh) | 音訊信號頻譜之頻譜係數的編碼技術 | |
CN105210149B (zh) | 用于音频信号解码或编码的时域电平调整 | |
US11694701B2 (en) | Low-complexity tonality-adaptive audio signal quantization | |
US20200327896A1 (en) | Low-frequency emphasis for lpc-based coding in frequency domain | |
JP6970789B2 (ja) | 高位周波数帯域における検出されたピークスペクトル領域を考慮してオーディオ信号を符号化するオーディオ符号器、オーディオ信号を符号化する方法、及びコンピュータプログラム | |
EP2981961B1 (en) | Advanced quantizer | |
US11848021B2 (en) | Periodic-combined-envelope-sequence generation device, periodic-combined-envelope-sequence generation method, periodic-combined-envelope-sequence generation program and recording medium | |
US8825494B2 (en) | Computation apparatus and method, quantization apparatus and method, audio encoding apparatus and method, and program | |
CN110870005A (zh) | 数字音频信号中的差异数据 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |