CN106803425B - 音频编码方法和设备、音频解码方法和设备 - Google Patents
音频编码方法和设备、音频解码方法和设备 Download PDFInfo
- Publication number
- CN106803425B CN106803425B CN201710035445.7A CN201710035445A CN106803425B CN 106803425 B CN106803425 B CN 106803425B CN 201710035445 A CN201710035445 A CN 201710035445A CN 106803425 B CN106803425 B CN 106803425B
- Authority
- CN
- China
- Prior art keywords
- band
- sub
- huffman
- quantization
- envelope
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 37
- 238000001228 spectrum Methods 0.000 claims abstract description 29
- 238000013139 quantization Methods 0.000 claims description 155
- 238000012545 processing Methods 0.000 claims description 11
- 230000003595 spectral effect Effects 0.000 abstract description 15
- 230000005236 sound signal Effects 0.000 description 22
- 230000006870 function Effects 0.000 description 16
- 238000004891 communication Methods 0.000 description 14
- 238000009826 distribution Methods 0.000 description 11
- 238000010586 diagram Methods 0.000 description 10
- 230000000873 masking effect Effects 0.000 description 8
- 238000006073 displacement reaction Methods 0.000 description 5
- 230000014509 gene expression Effects 0.000 description 4
- 230000000052 comparative effect Effects 0.000 description 2
- 230000006866 deterioration Effects 0.000 description 2
- 230000008571 general function Effects 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000010606 normalization Methods 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- 238000005457 optimization Methods 0.000 description 2
- 238000011002 quantification Methods 0.000 description 2
- 230000002194 synthesizing effect Effects 0.000 description 2
- 238000012360 testing method Methods 0.000 description 2
- 230000001131 transforming effect Effects 0.000 description 2
- 230000005540 biological transmission Effects 0.000 description 1
- 230000015556 catabolic process Effects 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 230000006835 compression Effects 0.000 description 1
- 238000007906 compression Methods 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 238000013500 data storage Methods 0.000 description 1
- 238000006731 degradation reaction Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000002474 experimental method Methods 0.000 description 1
- 238000005259 measurement Methods 0.000 description 1
- 230000015654 memory Effects 0.000 description 1
- SYHGEUNFJIGTRX-UHFFFAOYSA-N methylenedioxypyrovalerone Chemical compound C=1C=C2OCOC2=CC=1C(=O)C(CCC)N1CCCC1 SYHGEUNFJIGTRX-UHFFFAOYSA-N 0.000 description 1
- 230000003252 repetitive effect Effects 0.000 description 1
- 238000004088 simulation Methods 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 238000012549 training Methods 0.000 description 1
- 238000009827 uniform distribution Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/02—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/0017—Lossless audio signal coding; Perfect reconstruction of coded audio signal by transmission of coding error
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/002—Dynamic bit allocation
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/008—Multichannel audio signal coding or decoding using interchannel correlation to reduce redundancy, e.g. joint-stereo, intensity-coding or matrixing
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/02—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
- G10L19/0204—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders using subband decomposition
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/02—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
- G10L19/032—Quantisation or dequantisation of spectral components
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/04—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
- G10L19/16—Vocoder architecture
- G10L19/167—Audio streaming, i.e. formatting and decoding of an encoded audio signal representation into a data stream for transmission or storage purposes
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- Signal Processing (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Spectroscopy & Molecular Physics (AREA)
- Mathematical Physics (AREA)
- Compression, Expansion, Code Conversion, And Decoders (AREA)
Abstract
提供一种音频编码方法和设备、音频解码方法和设备。所述音频编码方法包括:针对音频频谱基于预定的子频带获取包络;基于预定的子频带对包络进行量化;获得相邻子频带的量化的包络之间的差值并通过将先前子频带的差值用作上下文来对当前子频带的差值进行无损编码。因此,对音频频谱的包络信息进行编码所需的比特的数量可被减少到有限的比特范围内,从而增加对实际频谱分量进行编码所需的比特的数量。
Description
本申请是申请日为2012年6月1日,申请号为“201280037719.1”,标题为“音频编码方法和设备、音频解码方法和设备及其记录介质和采用音频编码方法和设备、音频解码方法和设备的多媒体装置”的发明专利申请的分案申请。
技术领域
与示例性实施例一致的设备和方法涉及音频编码/解码,更具体地讲,涉及一种能够在不增加复杂度和恢复的声音质量的恶化的情况下,通过减少在有限比特范围内对音频频谱的包络信息进行编码所需的比特的数量来增加对实际频谱分量进行编码所需的比特的数量的音频编码方法和设备、音频解码方法和设备、记录介质和采用该音频编码方法和设备、音频解码方法和设备的多媒体装置。
背景技术
当对音频信号进行编码时,除实际频谱分量以外的附加信息(诸如,包络)可包括在比特流中。在这种情况下,通过在使损失最小化的同时减少分配用于附加信息的编码的比特的数量,分配用于实际频谱分量的编码的比特的数量可被增加。
也就是说,当对音频信号进行编码或解码时,需要通过以特别低的比特率有效地使用有限数量的比特来构建在相应比特范围内具有最优声音质量的音频信号。
发明内容
技术问题
一个或更多个示例性实施例的多个方面提供一种音频编码方法和设备、音频解码方法和设备、记录介质和采用其的多媒体装置,其中,所述音频编码方法和设备能够在不增加复杂度和恢复的声音质量的恶化的情况下,在将对音频频谱的包络信息进行编码所需的比特的数量减少到有限的比特范围内的同时,增加对实际频谱分量进行编码所需的比特的数量。
解决方案
根据一个或更多个示例性实施例的一方面,提供一种音频编码方法,包括:针对音频频谱基于预定的子频带获取包络;基于预定的子频带对包络进行量化;获得相邻子频带的量化的包络之间的差值并通过将先前子频带的差值用作上下文来对当前子频带的差值进行无损编码。
根据一个或更多个示例性实施例的一方面,提供一种音频编码设备,包括:包络获取单元,用于针对音频频谱基于预定的子频带获取包络;包络量化器,用于基于预定的子频带对包络进行量化;包络编码器,用于获得相邻子频带的量化的包络之间的差值,并通过将先前子频带的差值用作上下文来对当前子频带的差值进行无损编码;频谱编码器,用于对音频频谱进行量化和无损编码。
根据一个或更多个示例性实施例的一方面,提供一种音频解码方法,包括:从比特流获得相邻子频带的量化的包络之间的差值,并通过将先前子频带的差值用作上下文来对当前子频带的差值进行无损解码;通过从作为无损解码的结果而被重构的当前子频带的差值获得基于子频带的量化的包络来执行反量化。
根据一个或更多个示例性实施例的一方面,提供一种音频解码设备,包括:包络解码器,用于从比特流获得相邻子频带的量化的包络之间的差值,并通过将先前子频带的差值用作上下文来对当前子频带的差值进行无损解码;包络反量化器,用于通过从作为无损解码的结果而被重构的当前子频带的差值获得基于子频带的量化的包络来执行反量化;频谱解码器,用于对包括在比特流中的频谱分量进行无损解码和反量化。
根据一个或更多个示例性实施例的一方面,提供一种包括编码模块的多媒体装置,其中,编码模块用于针对音频频谱基于预定的子频带获取包络,基于预定的子频带对包络进行量化,获得相邻子频带的量化的包络之间的差值并通过将先前子频带的差值用作上下文来对当前子频带的差值进行无损编码。
多媒体装置还可包括解码模块,其中,解码模块用于从比特流获得相邻子频带的量化的包络之间的差值,并通过将先前子频带的差值用作上下文来对当前子频带的差值进行无损解码,通过从作为无损解码的结果而被重构的当前子频带的差值获得基于子频带的量化的包络来执行反量化。
效果
可在不增加复杂度和恢复的声音质量的恶化的情况下,通过减少在有限的比特范围内对音频频谱的包络信息进行编码所需的比特的数量,来增加对实际频谱分量进行编码所需的比特的数量。
附图说明
通过下面结合附图的示例性实施例的描述,这些和其他方面将变得清楚和更容易理解,其中:
图1是根据示例性实施例的数字信号处理设备的框图;
图2是根据另一示例性实施例的数字信号处理设备的框图;
图3A和图3B分别示出在量化分辨率是0.5且量化步长是3.01时的相互比较的非优化的对数尺度和优化的对数尺度;
图4A和图4B分别示出在量化分辨率是1且量化步长是6.02时的相互比较的非优化的对数尺度和优化的对数尺度;
图5A和图5B是分别示出相互比较的非优化的对数尺度的量化结果和优化的对数尺度的量化结果的曲线图;
图6是示出在先前子频带的量化差(delta)值被用作上下文时选择的三个组的概率分布的曲线图;
图7是示出根据示例性实施例的图1的数字信号处理设备的包络编码器中的基于上下文的编码处理的流程图;
图8是示出根据示例性实施例的图2的数字信号处理设备的包络解码器中的基于上下文的解码处理的流程图;
图9是根据示例性实施例的包括编码模块的多媒体装置的框图;
图10是根据示例性实施例的包括解码模块的多媒体装置的框图;
图11是根据示例性实施例的包括编码模块和解码模块的多媒体装置的框图。
具体实施方式
示例性实施例可允许各种改变或修改以及形式上的各种改变,特定实施例将被示出在附图中并在说明书中被详细描述。然而,应理解特定实施例不将本发明构思限制为特定公开形式而是包括本发明构思的精神和技术范围内的所有修改的、等同的或替代的实施例。在以下描述中,由于公知的功能或构造将在不必要的细节上使本发明构思不清楚,因此不被详细描述。
尽管诸如“第一”和“第二”的术语可用于描述各种元件,但所述元件可不被所述术语限制。所述术语可用于将特定元件与另一元件分开。
在本申请中使用的术语仅用于描述特定实施例,而不具有任何限制本发明构思的意图。尽管在考虑在本发明构思中的功能的同时将当前尽可能广泛使用的通用术语选作在本发明构思中使用的术语,但它们可根据本领域的普通技术人员的意图、先前使用或新技术的出现改变。另外,在特定情况下,可使用由申请人有意地选择的术语,在这种情况下,将在本发明构思的相应描述中公开这些术语的意义。因此,在本发明构思中使用的术语不应仅由术语的名称而应由术语的含义和整个本发明构思中的内容来定义。
除非在上下文中单数的表达与复数的表达明显彼此不同,否则单数的表达包括复数的表达。在本申请中,应理解诸如“包括”和“具有”的术语用于指示实施的特征、数字、步骤、操作、元件、部件或它们的组合的存在,而不是预先排除一个或更多个其他特征、数字、步骤、操作、元件、部件或它们的组合的存在或添加的可能性。
在下文中,将参照示出本发明构思的示例性实施例的附图来更全面地描述本发明构思。附图中的相同的标号表示相同的元件,因此将省略它们的重复的描述。
当诸如“…中的至少一个”的表述在一列元件之后时,其修饰整列元件而不修饰列出的单个元件。
图1是根据示例性实施例的数字信号处理设备100的框图。
图1中示出的数字信号处理设备100可包括变换器110、包络获取单元120、包络量化器130、包络编码器140、频谱归一化器150和频谱编码器160。数字信号处理设备100的组件可被集成到至少一个模块中,并可由至少一个处理器实现。这里,数字信号可指示媒体信号,诸如,视频、图像、音频或语音、或指示通过对音频和语音进行合成来获得的信号的声音,但在下文中,为便于描述,数字信号通常指示音频信号。
参照图1,变换器110可通过将音频信号从时域变换到频域来产生音频频谱。可通过使用诸如改进的离散余弦变换(MDCT)的各种公知方法来执行时域到频域的变换。例如,用于时域的音频信号的MDCT可使用等式1来执行。
在等式1中,N表示包括在单个帧中的采样的数量(即,帧大小),hj表示应用的窗口,sj表示时域的音频信号,xi表示MDCT系数。可选择地,可使用正弦窗口(例如,hj=sin[π(j+1/2)/2N])替代等式1的余弦窗口。
由变换器110获得的音频频谱的变换系数(例如,MDCT系数xi)被提供给包络获取单元120。
包络获取单元120可从自变换器110提供的变换系数基于预定的子频带获取包络值。子频带是对音频频谱的采样进行分组的单位,并可通过反映临界频带具有均匀或不均匀的长度。当子频带具有不均匀的长度时,子频带可被设置为使得针对一帧包括在每个子频带中的从开始采样到最后采样的采样的数量渐渐增加。另外,当支持多比特率时,可进行设置使得包括在不同比特率的相应子频带的每个子频带中的采样的数量相同。可预先确定包括在一个帧中的子频带的数量或包括在每个子频带中的采样数量。包络值可指示包括在每个子频带中的变换系数的平均幅度、平均能量、功率或范数(norm)值。
每个子频带的包络值可使用等式2来计算,但不限于此。
在等式2中,w表示包括在子频带中的变换系数的数量(即,子频带大小),xi表示变换系数,n表示子频带的包络值。
包络量化器130可以以优化的对数尺度对每个子频带的包络值n进行量化。由包络量化器获得的每个子频带的包络值n的量化索引nq可使用例如等式3来获得。
在等式3中,b表示取整系数,在优化之前的其初始值是r/2。另外,c表示对数尺度的底数,r表示量化分辨率。
根据实施例,包络量化器130可可变地改变与每个量化索引相应的量化区域的左边界和右边界,从而与每个量化索引相应的量化区域中的总量化误差被最小化。为此,取整系数b可被调整,使得在量化索引与和每个量化索引相应的量化区域的左边界和右边界之间获得的左量化误差和右量化误差彼此相同。以下,描述包络量化器130的详细操作。
可通过等式4执行每个子频带的包络值n的量化索引nq的反量化。
尽管未示出,但基于子频带获得的包络值可用于对归一化的频谱(即,归一化的系数)进行编码所需的比特分配。在这种情况下,基于子频带量化和无损编码的包络值可包括在比特流中,并被提供给解码设备。与使用基于子频带获得的包络值的比特分配关联地,可应用反量化的包络值以在编码设备和相应的解码设备中使用相同的处理。
例如,当包络值是范数值时,可使用基于子频带的范数值计算掩蔽(masking)阈值,并可使用掩蔽阈值预测感知上所需的比特数量。也就是说,掩蔽阈值是与恰可察觉失真(JND)相应的值,当量化噪声小于掩蔽阈值时,感知噪声可能不被感测到。因此,可使用掩蔽阈值计算感测不到感知噪声所需的比特的最小数量。例如,可使用范数值相对于基于子频带的掩蔽阈值的比例来计算信号掩蔽比(SMR),可使用对于SMR的6.025dB≒1比特的关系预测满足掩蔽阈值的比特数量。尽管预测的比特数量是感测不到感知噪声的所需的比特的最小数量,但在压缩方面不需要使用多于预测的比特数量的比特,所以预测的比特的数量可被认为是基于子频带允许的最大数量的比特(在下文中,被称为可允许的比特数量)。可以以小数点单位表示每个子频带的可允许的比特数量,但不限于此。
另外,可使用以小数点为单位的范数值来执行基于子频带的比特分配,但不限于此。从具有较大范数值的子频带顺序地分配比特,可调整分配的比特,从而通过基于每个子频带的感知上的重要性对每个子频带的范数值进行加权来将更多的比特分配到感知上更重要的子频带。可通过例如在ITU-TG.719中定义的心理声学加权(psycho-acousticweighting)来确定感知上的重要性。
包络编码器140可获得用于从包络量化器130提供的每个子频带的包络值n的量化索引nq的量化差值,可基于用于量化差值的上下文执行无损编码,可将无损编码结果包括在比特流中,并可发送和存储比特流。先前子频带的量化差值可用作上下文。以下描述包络编码器140的详细操作。
频谱编码器160可执行归一化的变化系数的量化和无损编码,可将量化和无损编码结果包括在比特流中,并可发送和存储比特流。这里,频谱编码器160可通过使用根据基于子频带的包络值最终确定的可允许的比特数量,来执行归一化的变换系数的量化和无损编码。
归一化的变换系数的无损编码可使用例如阶乘脉冲编码(FPC)。FPC是通过使用单位幅度脉冲来有效地对信息信号进行编码的方法。根据FPC,可使用四个分量(即,非零脉冲位置的数量、非零脉冲的位置、非零脉冲的幅度和非零脉冲的符号)来表示信息内容。详细地,FPC可基于均方误差(MSE)范数确定的最优解,其中,在MSE中在满足(m表示单位幅度脉冲的总数量)的同时使子频带的原始矢量y和FPC矢量之间的差最小。
可通过使用如等式5中的拉格朗日函数找到条件极值来获得最优解。
在等式5中,L表示拉格朗日函数,m表示子频带中的单位幅度脉冲的总数量,λ表示作为拉格朗日乘子(即,优化系数)的用于寻找给定函数的最小值的控制参数,yi表示归一化的变换系数,表示在位置i处所需的脉冲的最优数量。
当无损编码使用FPC被执行时,基于子频带获得的总集的可被包括在比特流中并被发送。另外,还可将最优乘子包括在比特流中并进行发送,其中,最优乘子用于使每个子频带中的量化误差最小化并执行平均能量的对齐(alignment)。可通过等式6获得最优乘子。
在等式6中,D表示量化误差,G表示最优乘子。
图2是根据示例性实施例的数字信号解码设备200的框图。
图2中示出的数字信号解码设备可包括包络解码器210、包络反量化器220、频谱解码器230、频谱反归一化器240和反变换器250。数字信号解码设备200的组件可集成到至少一个模块中并由至少一个处理器实现。这里,数字信号可指示媒体信号,诸如,视频、图像、音频或语音、或指示通过对音频和语音进行合成而获得的信号的声音,但在下文中,数字信号通常指示音频信号以与图1的编码设备相应。
参照图2,包络解码器210可经由通信信道或网络接收比特流,对包括在比特流中的每个子频带的量化差值进行无损解码,并重构每个子频带的包络值的量化索引nq。
频谱解码器230可通过对接收的比特流进行无损解码和反量化来重构归一化的变换系数。例如,当编码设备已使用FPC时,包络反量化器可对关于每个子频带的总集的进行无损解码和反量化。可按照等式7使用最优乘子G来执行每个子频带的平均能量对齐。
如同在图1的频谱编码器160中,频谱解码器230可通过使用基于根据子频带的包络值最终确定的可允许的比特数量来执行无损解码和反量化。
频谱反归一化器240可通过使用从包络反量化器220提供的反量化的包络值,对从包络解码器210提供的归一化的变换系数进行反量化。例如,当编码设备已使用FPC时,按照使用反量化的包络值将执行了能量对齐的反归一化。通过执行反归一化,重构每个子频带的原始频谱平均能量。
在下文中,将更详细地描述图1的包络量化器130的操作。
当包络量化器130以底数为c的对数尺度对每个子频带的包络值进行量化时,与量化索引相应的量化区域的边界Bi可由表示,近似点(即,量化索引)Ai可由表示,量化分辨率r可由r=Si-Si-1表示,量化步长可由201gAi-201gAi-1=20r1gc表示。可通过等式3获得每个子频带的包络值n的量化索引nq。
在非优化的线性尺度的情况下,与量化索引nq相应的量化区域的左边界和右边界从近似点远离不同的距离。由于该差异,如图3A和图4A所示,用于量化的信噪比(SNR)测量(即,量化误差)从近似点对于左边界和右边界具有不同的值。图3A示出非优化的对数尺度(底数为2)的量化,其中,量化分辨率为0.5和量化步长为3.01。如图3A所示,量化区域中的在左边界处和右边界处距离近似点的量化误差SNRL和SNRR分别是14.46dB和15.96dB。图4A示出非优化的对数尺度的量化(底数是2),其中,量化分辨率是1并且量化步长是6.02dB。如图4A所示,在量化区域中在左边界处和右边界处距离近似点的量化误差SNRL和SNRR分别是7.65dB和10.66dB。
根据实施例,通过可变地改变与量化索引相应的量化区域的边界,与每个量化索引相应的量化区域中的总量化误差可被最小化。当在量化区域中的左边界处和右边界处获得的距离近似点的量化误差相同时,量化区域中的总量化误差可被最小化。可通过可变地改变取整系数b来获得量化区域的边界位移。
可通过等式9来表示在与量化索引i相应的量化区域中的左边界处和右边界处获得的距离近似点的量化误差SNRL和SNRR。
在等式9中,c表示对数尺度的底数,Si表示与量化索引i相应的量化区域中的边界的指数。
可使用由等式10定义的参数bL和bR来表示与量化索引相应的量化区域中的左边界和右边界的指数位移。
bL=Si-(Si+Si-1)/2
bR=(Si+Si+1)/2-Si (10)
在等式10中,Si表示与量化索引i相应的量化区域中的边界处的指数,bL和bR表示量化区域中的左边界和右边界距离近似点的指数位移。
量化区域中的左边界处和右边界处的距离近似点的指数位移之和与量化分辨率相同,因此,可通过等式11来表示。
bL+bR=r (11)
基于量化的一般特性,取整系数与和量化索引相应的量化区域中的左边界处的距离近似点的指数位移相同。因此,等式9可由等式12表示。
通过使在与量化索引相应的量化区域中的左边界处和右边界处的距离近似点的量化误差SNRL和SNRR相同,参数bL可通过等式13来确定。
因此,可通过等式14表示取整系数bL。
bL=1-logc(1+c-r) (14)
图3B示出优化的对数尺度(底数为2)的量化,其中,量化分辨率为0.5并且量化步长为3.01。如图3B所示,量化区域中的左边界处和右边界处的距离近似点的量化误差SNRL和SNRR两者都是15.31dB。图4B示出优化的对数尺度(底数为2)的量化,其中,量化分辨率为1并且量化步长为6.02。如图4B所示,量化区域中的左边界处和右边界处的距离近似点的量化误差SNRL和SNRR两者都是9.54dB。
取整系数b=bL确定从与量化索引i相应的量化区域中的左边界和右边界中的每个到近似点的指数距离。因此,可通过等式15执行根据实施例的量化。
在图5A和图5B中示出通过以底数为2的对数尺度执行量化而获得的测试结果。根据信息论,比特率失真函数H(D)可用作参考,其中,通过所述参考可比较和分析各种量化方法。量化索引集合的熵可看作比特率并具有维数b/s,dB尺度的SNR可看作失真测量。
图5A是在正态分布下执行的量化的比较曲线图。在图5A中,实线指示非优化的对数尺度的量化的比特率失真函数,点划线指示优化的对数尺度的量化的比特率失真函数。图5B是在均匀分布下执行的量化的比较曲线图。在图5B中,实线指示非优化的对数尺度的量化的比特率失真函数,点划线指示优化的对数尺度的量化的比特率失真函数。根据相应的分布规律、零期望值和单个方差使用随机数量的传感器产生正态分布和均匀分布的采样。可针对各种量化分辨率计算比特率失真函数H(D)。如图5A和图5B所示,点划线位于实线下面,这表示优化的对数尺度的量化的性能优于非优化的对数尺度的量化的性能。
也就是说,根据优化的对数尺度的量化,可以以相同的比特率使用较少的量化误差执行量化,或以相同的比特率按照相同的量化误差,使用较少的比特执行量化。表1和表2中示出测试结果,其中,表1示出非优化的对数尺度的量化,表2示出优化的对数尺度的量化。
表1
表2
根据表1和表2,在量化分辨率0.5特性值SNR提高0.1dB,在量化分辨率1.0特性值SNR提高0.45dB,在量化分辨率2.0特性值SNR提高1.5dB。
由于根据实施例的量化方法仅更新基于取整系数的量化索引的搜索表,因此复杂度不增加。
现将更详细地描述图1的包络解码器140的操作。
使用差值编码(delta coding)执行包络值的基于上下文的编码。可通过等式16表示当前子频带和先前子频带的包络值之间的量化差值。
d(i)=nq(i+1)-nq(i) (16)
在等式16中,d(i)表示子频带(i+1)的量化差值,nq(i)表示子频带(i)的包络值的量化索引,nq(i+1)表示子频带(i+1)的包络值的量化索引。
每个子频带的量化差值d(i)限制在[-15,16]的范围内,如下所述,首先调整负量化差值,随后调整正量化差值。
首先,通过使用等式16以从高频子频带到低频子频带的顺序获得量化差值d(i)。在这种情况下,如果d(i)<-15,则通过nq(i)=nq(i+1)+15(i=42,…,0)来执行调整。
接下来,通过使用等式16以从低频子频带到高频子频带的顺序获得量化差值d(i)。在这种情况下,如果d(i)>16,则通过d(i)=16,nq(i+1)=nq(i)+16(i=0,…,42)来执行调整。
最后,通过将偏移15添加到所有获得的量化差值d(i)来产生范围为[0,31]的量化差值。
根据等式16,当N个子频带存在于单个帧中时,获得nq(0),d(0),d(1),d(2),...,d(N-2)。使用上下文模型对当前子频带的量化差值进行编码,根据实施例,可将先前子频带的量化差值用作上下文。由于第一子频带的nq(0)存在于[0,31]的范围内,因此可通过使用5比特按照其原样对量化差值nq(0)进行无损编码。当第一子频带的nq(0)用作d(0)的上下文时,通过使用预定参考值从nq(0)获得的值可被使用。也就是说,当d(i)的霍夫曼编码被执行时,d(i-1)可用作上下文,当d(0)的霍夫曼编码被执行时,通过从nq(0)减去预定参考值而获得的值可用作上下文。预定参考值可以是例如通过仿真或实验预先设置为最优值的预定常数值。参考值可被包括在比特流中并被发送,或在编码设备或解码设备中预先被提供。
根据实施例,包络编码器140可将用作上下文的先前子频带的量化差值的范围划分为多个组,并基于针对所述多个组预定义的霍夫曼表对当前子频带的量化差值执行霍夫曼编码。可例如通过使用大数据库的训练处理产生霍夫曼表。也就是说,基于预定范数收集数据,并基于收集的数据产生霍夫曼表。根据实施例,在先前子频带的量化差值的范围内收集当前子频带的量化差值的频率的数据,并且可针对所述多个组产生霍夫曼表。
可使用当前子频带的量化差值的概率分布的分析结果选择各种分布模型,并因此可执行对具有类似分布模型的量化级别的分组,其中,通过将先前子频带的量化差值用作上下文来获得所述分析结果。在表3中示出三个组的参数。
表3
图6中示出了三个组的概率分布。组#1的概率分布于组#3的概率分布类似,它们基于x轴基本被反转(reverse)(或翻转(flip))。这表示在没有任何编码效率的损失的情况下,相同的概率模型可用于两个组#1和#3。也就是说,两个组#1和#3可使用相同的霍夫曼表。因此,可使用关于组#2的第一霍夫曼表和由组#1和#3共享的第二霍夫曼表。在这种情况下,组#1中的代码的索引可相对于组#3相反地表示。也就是说,当由于作为上下文的先前子频带的量化差值而将当前子频带的量化差值d(i)的霍夫曼表确定为组#1时,可通过对编码端的处理的反向处理来将当前子频带的量化差值d(i)改变为d’(i)=A-d(i),从而通过参考关于组#3的霍夫曼表来执行霍夫曼解码。在解码端,通过参考关于组#3的霍夫曼表来执行霍夫曼解码,并且通过d(i)=A-d’(i)的转换处理来从d’(i)提取最终值d(i)。这里,值A可被设置为使得组#1和#3的概率分布彼此对称。可预先将值A设置为最优值而不是在编码和解码处理中提取。可选择地,可使用关于组#1的霍夫曼表而不是关于组#3的霍夫曼表,并可改变组#3中的量化差值。根据实施例,当d(i)具有范围在[0,31]中的值时,值A可以是31。
图7是示出根据示例性实施例的图1的数字信号处理设备100的包络编码器140中的基于上下文的霍夫曼编码处理的流程图。在图7中,使用根据三个组中的量化差值的概率分布确定的两个霍夫曼表。另外,当对当前子频带的量化差值d(i)执行霍夫曼编码时,先前子频带的量化差值d(i-1)用作上下文,例如,使用关于组#2的第一霍夫曼表和关于组#3的第二霍夫曼表。
参照图7,在操作710,确定先前子频带的量化差值d(i-1)是否属于组#2。
如果在操作710确定先前子频带的量化差值d(i-1)属于组#2,则在操作720,从第一霍夫曼表选择当前子频带的量化差值d(i)的代码。
如果在操作710另外确定先前子频带的量化差值d(i-1)不属于组#2,则在操作730,确定先前子频带的量化差值d(i-1)是否属于组#1。
如果在操作730确定先前子频带的量化差值d(i-1)不属于组#1,即,如果先前子频带的量化差值d(i-1)属于组#3,则在操作740,从第二霍夫曼表选择当前子频带的量化差值d(i)的代码。
如果在操作730另外地确定先前子频带的量化差值d(i-1)属于组#1,则在操作750,对当前子频带的量化差值d(i)进行反转并且从第二霍夫曼表选择当前子频带的反转的量化差值d’(i)的代码。
在操作760,使用在操作720、740或750选择的代码执行当前子频带的量化差值d(i)的霍夫曼编码。
图8是示出根据示例性实施例的图2的数字信号解码设备200的包络解码器210中的基于上下文的霍夫曼解码处理的流程图。如在图7中,在图8中,使用根据在三个组中的量化差值的概率分布确定的两个霍夫曼表。另外,当对当前子频带的量化差值d(i)执行霍夫曼编码时,先前子频带的量化差值d(i-1)用作上下文,例如,使用关于组#2的第一霍夫曼表和关于组#3的第二霍夫曼表。
参照图8,在操作810,确定先前子频带的量化差值d(i-1)是否属于组#2。
如果在操作810确定先前子频带的量化差值d(i-1)属于组#2,则在操作820,从第一霍夫曼表选择当前子频带的量化差值d(i)的代码。
如果在操作810另外地确定先前子频带的量化差值d(i-1)不属于组#2,则在操作830,确定先前子频带的量化差值d(i-1)是否属于组#1。
如果在操作830确定先前子频带的量化差值d(i-1)不属于组#1,即,如果先前子频带的量化差值d(i-1)属于组#3,则在操作840,从第二霍夫曼表选择当前子频带的量化差值d(i)的代码。
如果在操作830另外地确定先前子频带的量化差值d(i-1)属于组#1,则在操作850,对当前子频带的量化差值d(i)进行反转,并且从第二霍夫曼表选择当前子频带的反转的量化差值d’(i)的代码。
在操作860,使用在操作820、840或850选择的代码执行当前子频带的量化差值d(i)的霍夫曼解码。
在表4中示出了按照帧的比特代价差分析。如在表4中所示,根据图7的实施例的编码效率较原始霍夫曼编码算法平均增加9%。
表4
算法 | 比特率,kbps | 增益,% |
霍夫曼编码 | 6.25 | - |
上下文+霍夫曼编码 | 5.7 | 9 |
图9是根据示例性实施例的包括编码模块930的多媒体装置900的框图。
图9的多媒体装置900可包括通信单元910和编码模块930。另外,根据被获得作为编码结果的音频比特流的用途,图9的多媒体装置900还可包括存储单元950以存储音频比特流。另外,图9的多媒体装置900还可包括麦克风970。也就是说,存储单元950和麦克风970是可选的。图9的多媒体装置900还可包括解码模块(未示出),例如,用于执行一般解码功能的解码模块或根据示例性实施例的解码模块。编码模块930可与包括在多媒体装置900中的其他组件(未示出)集成并由至少一个处理器实现。
参照图9,通信单元910可接收从外部提供的音频信号和编码的比特流中的至少一个,或可发送作为编码模块930的编码的结果而获得的重构的音频信号和音频比特流的中的至少一个。
通信单元910被配置为通过如下的无线网络将数据发送到外部多媒体装置并从外部多媒体装置接收数据:诸如,无线互联网、无线内联网、无线电话网、无线局域网(LAN)、Wi-Fi、Wi-Fi直连(WFD)、第三代(3G)、第四代(4G)、蓝牙、红外数据协会(IrDA)、射频识别(RFID)、超宽带(UWB)、Zigbee或近场通信(NFC)或有线网络(诸如,有线电话网络或有线互联网)。
根据实施例,编码模块930可通过以下操作来产生比特流:将通过通信单元910或麦克风970提供的时域的音频信号变换到频谱的音频频谱,基于关于音频频谱的预定的子频带获取包络,基于预定的子频带对包络进行量化,获得相邻的子频带的量化的包络之间的差,并通过将先前子频带的差值用作上下文来对当前子频带的差值进行无损编码。
根据另一实施例,当包络被量化时,编码模块930可对与预定的量化索引相应的量化区域的边界进行调整,使得量化区域中的总量化误差被最小化并可使用通过调整更新的量化表来执行量化。
存储单元950可存储由编码模块930产生的编码的比特流。另外,存储单元950可存储操作多媒体装置900所需的各种程序。
麦克风970可将来自用户或外部的音频信号提供给编码模块930。
图10是根据示例性实施例的包括解码模块1030的多媒体装置1000的框图。
图10的多媒体装置1000可包括通信模块1010和解码模块1030。另外,根据作为解码结果而获得的重构的音频信号的用途,图10的多媒体装置1000还可包括存储单元1050以存储重构的音频信号。另外,图10的多媒体装置1000还可包括扬声器1070。也就是说,存储单元1050和扬声器1070是可选的。图10的多媒体装置1000还可包括编码模块(未示出),例如,用于执行一般编码功能的编码模块或根据示例性实施例的编码模块。解码模块1030可与包括在多媒体装置1000中的其他组件(未示出)集成并由至少一个处理来实现。
参照图10,通信单元1010可接收从外部提供的音频信号和编码的比特流中的至少一个,或可发送作为解码模块1030的解码的结果而获得的重构的音频信号以及作为编码的结果而获得的音频比特流中的至少一个。通信单元1010可被实现为基本与图9的通信单元910相同。
根据实施例,解码模块1030可通过以下操作执行反量化:接收通过通信单元1010提供的比特流,通过将先前子频带的差值用作上下文来对当前子频带的差值进行无损解码,从作为无损解码的结果而重构的当前子频带的差值基于子频带获得量化的包络。
存储单元1050可存储由解码模块1030产生的重构的音频信号。另外,存储单元1050可存储操作多媒体装置1000所需的各种程序。
扬声器1070可将由解码模块1030产生的重构的音频信号输出到外部。
图11是根据示例性实施例的包括编码模块1120和解码模块1130的多媒体装置1100的框图。
图11的多媒体装置1100可包括通信单元1110、编码模块1120和解码模块1130。另外,根据作为编码结果而获得的音频比特流或作为解码结果而获得的重构的音频信号的用途,图11的多媒体装置1100还可包括存储单元1140,用于存储音频比特流或重构音频信号。另外,图11的多媒体装置1110还可包括麦克风1150或扬声器1160。编码模块1120和解码模块1130可与包括在多媒体装置110中的其他组件(未示出)集成,并由至少一个处理器来实现。
由于图11的多媒体装置1100中的组件与图9的多媒体装置900中的组件或图10的多媒体装置1000中的组件相同,因此省略其详细描述。
图9、图10或图11的多媒体装置900、1000或1100可包括:包括电话或移动电话的仅语音通信的终端、包括TV或MP3播放器的仅广播或音乐的装置或仅语音通信终端和仅广播或音乐的装置的混合型终端装置,但不限于此。另外,图9、图10或图11的多媒体装置900、1000或1100可用作客户机、服务器或布置在客户机或服务器之间的变换器。
例如,如果多媒体装置900、1000或1100是移动电话,则尽管未示出,但移动电话还可包括诸如键区的用户输入单元、用户界面或用于显示由移动电话处理的信息的显示单元和用于控制移动电话的一般功能的处理器。另外,移动电话还可包括具有图像拾取功能的相机单元和用于执行移动电话所需的功能的至少一个组件。
作为另一示例,如果多媒体装置900、1000或1100是TV,则尽管未示出,但TV还可包括诸如键区的用户输入单元、用于显示接收的广播信息的显示单元和用于控制TV的一般功能的处理器。另外,TV还可包括用于执行TV所需的功能的至少一个组件。
根据示例性实施例的方法可被编写为计算机可执行程序,并可被实现在通用数字计算机中,其中,通用数字计算机通过使用非暂时性计算机可读记录介质执行程序。另外,可在实施例中使用的数据结构、程序指令或数据文件可以以各种方式记录在计算机可读记录介质中。非暂时性计算机可读记录介质是可存储随后可由计算机系统读取的数据的任何数据存储装置。非暂时性计算机可读记录介质的示例包括:磁存储介质(诸如,硬盘、软盘和磁带)、光学记录介质(诸如,CD-ROM、DVD)、磁光介质(诸如,光盘)和专门被配置为存储和执行程序指令的硬件装置(诸如,ROM、RAM和闪存)。另外,非暂时性计算机可读记录介质可以是用于传输指定程序指令、数据结构等的信号的传输介质。程序指令的示例可不仅包括由编译器创建的机器语言代码,还包括由计算机使用解释器等可执行的高级语言代码。
虽然以上已具体地示出和描述了示例性实施例,但本领域的普通技术人员将理解,在不脱离由权利要求限定的本发明构思的精神和范围的情况下,可在形式和细节上进行各种改变。示例性实施例应被理解为描述性意义,而不是限制的目的。因此,本发明构思的范围不由示例性实施例的详细描述而由权利要求限定,在范围内的所有不同将被解释为包括在本发明构思中。
Claims (11)
1.一种音频编码方法,包括:
对音频频谱的包络进行量化以获得包括先前子频带的量化索引和当前子频带的量化索引的多个量化索引,其中,所述音频频谱包括多个子频带;
从先前子频带的量化索引和当前子频带的量化索引获得当前子频带的差分量化索引;
通过使用先前子频带的差分量化索引来获得当前子频带的上下文;
将与当前子频带的上下文相应的先前子频带的差分量化索引分组到多个组中的一个组;
基于与所述多个组相应的多个霍夫曼表中的一个霍夫曼表来对当前子频带的差分量化索引进行霍夫曼编码。
2.如权利要求1所述的方法,其中,包络是相应的子频带的平均能量、平均幅度、功率和范数值中的一个。
3.如权利要求1所述的方法,其中,霍夫曼编码的步骤包括:在将当前子频带的差分量化索引调整为具有特定范围之后对当前子频带的差分量化索引进行霍夫曼编码。
4.如权利要求1所述的方法,其中,霍夫曼编码的步骤包括:为第二组分配第一霍夫曼表,为第一组和第三组分配第二霍夫曼表。
5.如权利要求4所述的方法,其中,霍夫曼编码的步骤包括:当第二霍夫曼表被用于霍夫曼编码时,按原样地对当前子频带的差分量化索引进行霍夫曼编码或在将当前子频带的差分量化索引反转之后对当前子频带的差分量化索引进行霍夫曼编码。
6.如权利要求1所述的方法,其中,霍夫曼编码的步骤包括:针对不存在先前子频带的第一子频带,按原样地对量化索引进行霍夫曼编码,并通过将第一子频带的量化索引与预定参考值之间的差用作上下文来对接着第一子频带的第二子频带的差分量化索引进行霍夫曼编码。
7.一种音频解码设备,包括:
至少一个处理装置,被配置为:
接收包括音频频谱的包络的经编码的差分量化索引的比特流;
通过使用先前子频带的差分量化索引来获得当前子频带的上下文;
将与当前子频带的上下文相应的先前子频带的差分量化索引分组到多个组中的一个组;
基于与所述多个组相应的多个霍夫曼表中的一个霍夫曼表来对当前子频带的经编码的差分量化索引进行霍夫曼解码。
8.如权利要求7所述的设备,其中,包络是相应的子频带的平均能量、平均幅度、功率和范数值中的一个。
9.如权利要求7所述的设备,其中,所述至少一个处理装置被配置为:通过参考用于第二组的第一霍夫曼表和用于第一组和第三组的第二霍夫曼表来对当前子频带的经编码的差分量化索引进行霍夫曼解码。
10.如权利要求9所述的设备,其中,当第二霍夫曼表被参考时,当前子频带的经编码的差分量化索引被进行霍夫曼编码并被反转。
11.如权利要求7所述的设备,其中,所述至少一个处理装置被配置为:
按原样地对不存在先前子频带的第一子频带的经编码的量化索引进行霍夫曼解码,并基于第一子频带的经编码的量化索引与预定参考值之间的差对接着第一子频带的第二子频带的经编码的差分量化索引进行霍夫曼解码。
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
RU2011121982/08A RU2464649C1 (ru) | 2011-06-01 | 2011-06-01 | Способ обработки звукового сигнала |
RU2011-121982 | 2011-06-01 | ||
CN201280037719.1A CN103733257B (zh) | 2011-06-01 | 2012-06-01 | 音频编码方法和设备、音频解码方法和设备和采用音频编码方法和设备、音频解码方法和设备的多媒体装置 |
Related Parent Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201280037719.1A Division CN103733257B (zh) | 2011-06-01 | 2012-06-01 | 音频编码方法和设备、音频解码方法和设备和采用音频编码方法和设备、音频解码方法和设备的多媒体装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN106803425A CN106803425A (zh) | 2017-06-06 |
CN106803425B true CN106803425B (zh) | 2021-01-12 |
Family
ID=47145534
Family Applications (3)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201280037719.1A Active CN103733257B (zh) | 2011-06-01 | 2012-06-01 | 音频编码方法和设备、音频解码方法和设备和采用音频编码方法和设备、音频解码方法和设备的多媒体装置 |
CN201710031335.3A Active CN106782575B (zh) | 2011-06-01 | 2012-06-01 | 音频编码方法和设备、音频解码方法和设备 |
CN201710035445.7A Active CN106803425B (zh) | 2011-06-01 | 2012-06-01 | 音频编码方法和设备、音频解码方法和设备 |
Family Applications Before (2)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201280037719.1A Active CN103733257B (zh) | 2011-06-01 | 2012-06-01 | 音频编码方法和设备、音频解码方法和设备和采用音频编码方法和设备、音频解码方法和设备的多媒体装置 |
CN201710031335.3A Active CN106782575B (zh) | 2011-06-01 | 2012-06-01 | 音频编码方法和设备、音频解码方法和设备 |
Country Status (12)
Country | Link |
---|---|
US (3) | US9361895B2 (zh) |
EP (1) | EP2717264B1 (zh) |
JP (2) | JP6262649B2 (zh) |
KR (2) | KR102044006B1 (zh) |
CN (3) | CN103733257B (zh) |
AU (3) | AU2012263093B2 (zh) |
CA (1) | CA2838170C (zh) |
MX (2) | MX2013014152A (zh) |
PL (1) | PL2717264T3 (zh) |
RU (1) | RU2464649C1 (zh) |
TW (3) | TWI601130B (zh) |
WO (1) | WO2012165910A2 (zh) |
Families Citing this family (26)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
RU2464649C1 (ru) | 2011-06-01 | 2012-10-20 | Корпорация "САМСУНГ ЭЛЕКТРОНИКС Ко., Лтд." | Способ обработки звукового сигнала |
WO2013058634A2 (ko) | 2011-10-21 | 2013-04-25 | 삼성전자 주식회사 | 에너지 무손실 부호화방법 및 장치, 오디오 부호화방법 및 장치, 에너지 무손실 복호화방법 및 장치, 및 오디오 복호화방법 및 장치 |
GB2508417B (en) * | 2012-11-30 | 2017-02-08 | Toshiba Res Europe Ltd | A speech processing system |
CN104282312B (zh) | 2013-07-01 | 2018-02-23 | 华为技术有限公司 | 信号编码和解码方法以及设备 |
TWI579831B (zh) | 2013-09-12 | 2017-04-21 | 杜比國際公司 | 用於參數量化的方法、用於量化的參數之解量化方法及其電腦可讀取的媒體、音頻編碼器、音頻解碼器及音頻系統 |
KR102270106B1 (ko) | 2013-09-13 | 2021-06-28 | 삼성전자주식회사 | 에너지 무손실 부호화방법 및 장치, 신호 부호화방법 및 장치, 에너지 무손실 복호화방법 및 장치, 및 신호 복호화방법 및 장치 |
CN111179946B (zh) | 2013-09-13 | 2023-10-13 | 三星电子株式会社 | 无损编码方法和无损解码方法 |
CN110867190B (zh) | 2013-09-16 | 2023-10-13 | 三星电子株式会社 | 信号编码方法和装置以及信号解码方法和装置 |
PT3058566T (pt) | 2013-10-18 | 2018-03-01 | Fraunhofer Ges Forschung | Codificação de coeficientes espectrais de um espectro de um sinal de áudio |
CA2925037C (en) * | 2013-12-02 | 2020-12-01 | Huawei Technologies Co., Ltd. | Encoding method and apparatus |
US10410645B2 (en) | 2014-03-03 | 2019-09-10 | Samsung Electronics Co., Ltd. | Method and apparatus for high frequency decoding for bandwidth extension |
KR20240046298A (ko) * | 2014-03-24 | 2024-04-08 | 삼성전자주식회사 | 고대역 부호화방법 및 장치와 고대역 복호화 방법 및 장치 |
CN111968656B (zh) | 2014-07-28 | 2023-11-10 | 三星电子株式会社 | 信号编码方法和装置以及信号解码方法和装置 |
GB2526636B (en) | 2014-09-19 | 2016-10-26 | Gurulogic Microsystems Oy | Encoder, decoder and methods employing partial data encryption |
WO2016162283A1 (en) * | 2015-04-07 | 2016-10-13 | Dolby International Ab | Audio coding with range extension |
CN104966517B (zh) * | 2015-06-02 | 2019-02-01 | 华为技术有限公司 | 一种音频信号增强方法和装置 |
EP3379832A4 (en) * | 2015-11-22 | 2019-04-17 | LG Electronics Inc. -1- | METHOD AND DEVICE FOR ENTROPY DECODING AND DECODING A VIDEO SIGNAL |
WO2019199995A1 (en) | 2018-04-11 | 2019-10-17 | Dolby Laboratories Licensing Corporation | Perceptually-based loss functions for audio encoding and decoding based on machine learning |
US10586546B2 (en) | 2018-04-26 | 2020-03-10 | Qualcomm Incorporated | Inversely enumerated pyramid vector quantizers for efficient rate adaptation in audio coding |
US10573331B2 (en) * | 2018-05-01 | 2020-02-25 | Qualcomm Incorporated | Cooperative pyramid vector quantizers for scalable audio coding |
US10580424B2 (en) * | 2018-06-01 | 2020-03-03 | Qualcomm Incorporated | Perceptual audio coding as sequential decision-making problems |
US10734006B2 (en) | 2018-06-01 | 2020-08-04 | Qualcomm Incorporated | Audio coding based on audio pattern recognition |
CN109473116B (zh) * | 2018-12-12 | 2021-07-20 | 思必驰科技股份有限公司 | 语音编码方法、语音解码方法及装置 |
CN110400578B (zh) * | 2019-07-19 | 2022-05-17 | 广州市百果园信息技术有限公司 | 哈希码的生成及其匹配方法、装置、电子设备和存储介质 |
RU2769618C2 (ru) * | 2020-05-18 | 2022-04-04 | ОБЩЕСТВО С ОГРАНИЧЕННОЙ ОТВЕТСТВЕННОСТЬЮ "СберМедИИ" | Способ уменьшения вклада технических факторов в суммарный сигнал данных масс-спектрометрии с помощью фильтрации по техническим образцам |
KR102660883B1 (ko) * | 2023-12-01 | 2024-04-25 | 주식회사 테스트웍스 | 임베디드 장치의 미디어 프로세싱 테스트 방법 및 이를 수행하는 컴퓨팅 장치 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20070024472A1 (en) * | 2005-08-01 | 2007-02-01 | Pulsus Technologies | Computing circuits and method for running an MPEG-2 AAC or MPEG-4 AAC audio decoding algorithm on programmable processors |
CN101165778A (zh) * | 2006-10-18 | 2008-04-23 | 宝利通公司 | 音频信号的双变换编码 |
CN101390158A (zh) * | 2006-02-24 | 2009-03-18 | 法国电信公司 | 信号包络的量化索引的二进制编码方法、解码信号包络的方法、及相应的编码和解码模块 |
CN101896964A (zh) * | 2008-01-28 | 2010-11-24 | 高通股份有限公司 | 用于上下文描述符传输的系统、方法及设备 |
Family Cites Families (40)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CA1336841C (en) * | 1987-04-08 | 1995-08-29 | Tetsu Taguchi | Multi-pulse type coding system |
JP3013698B2 (ja) * | 1994-04-20 | 2000-02-28 | 松下電器産業株式会社 | ベクトル量子化符号化装置と復号化装置 |
US5687191A (en) * | 1995-12-06 | 1997-11-11 | Solana Technology Development Corporation | Post-compression hidden data transport |
US5924064A (en) * | 1996-10-07 | 1999-07-13 | Picturetel Corporation | Variable length coding using a plurality of region bit allocation patterns |
US8024269B1 (en) * | 1997-08-27 | 2011-09-20 | Datatreasury Corporation | Remote image capture with centralized processing and storage |
JP4281131B2 (ja) | 1998-10-22 | 2009-06-17 | ソニー株式会社 | 信号符号化装置及び方法、並びに信号復号装置及び方法 |
JP3323175B2 (ja) * | 1999-04-20 | 2002-09-09 | 松下電器産業株式会社 | 符号化装置 |
US6978236B1 (en) * | 1999-10-01 | 2005-12-20 | Coding Technologies Ab | Efficient spectral envelope coding using variable time/frequency resolution and time/frequency switching |
JP3559485B2 (ja) * | 1999-11-22 | 2004-09-02 | 日本電信電話株式会社 | 音声信号の後処理方法および装置並びにプログラムを記録した記録媒体 |
JP2002268693A (ja) * | 2001-03-12 | 2002-09-20 | Mitsubishi Electric Corp | オーディオ符号化装置 |
US6934676B2 (en) * | 2001-05-11 | 2005-08-23 | Nokia Mobile Phones Ltd. | Method and system for inter-channel signal redundancy removal in perceptual audio coding |
EP1386310A1 (en) | 2001-05-11 | 2004-02-04 | Matsushita Electric Industrial Co., Ltd. | Device to encode, decode and broadcast audio signal with reduced size spectral information |
JP2003029797A (ja) * | 2001-05-11 | 2003-01-31 | Matsushita Electric Ind Co Ltd | 符号化装置、復号化装置および放送システム |
EP1292036B1 (en) * | 2001-08-23 | 2012-08-01 | Nippon Telegraph And Telephone Corporation | Digital signal decoding methods and apparatuses |
CN100395817C (zh) * | 2001-11-14 | 2008-06-18 | 松下电器产业株式会社 | 编码设备、解码设备和解码方法 |
JP2003233397A (ja) * | 2002-02-12 | 2003-08-22 | Victor Co Of Japan Ltd | オーディオ符号化装置、オーディオ符号化プログラム及びオーディオ符号化データ伝送装置 |
KR100462611B1 (ko) * | 2002-06-27 | 2004-12-20 | 삼성전자주식회사 | 하모닉 성분을 이용한 오디오 코딩방법 및 장치 |
US7433824B2 (en) | 2002-09-04 | 2008-10-07 | Microsoft Corporation | Entropy coding by adapting coding between level and run-length/level modes |
JP4728568B2 (ja) * | 2002-09-04 | 2011-07-20 | マイクロソフト コーポレーション | レベル・モードとラン・レングス/レベル・モードの間での符号化を適応させるエントロピー符号化 |
KR100754439B1 (ko) * | 2003-01-09 | 2007-08-31 | 와이더댄 주식회사 | 이동 전화상의 체감 음질을 향상시키기 위한 디지털오디오 신호의 전처리 방법 |
CN1898724A (zh) * | 2003-12-26 | 2007-01-17 | 松下电器产业株式会社 | 语音/乐音编码设备及语音/乐音编码方法 |
KR100657916B1 (ko) * | 2004-12-01 | 2006-12-14 | 삼성전자주식회사 | 주파수 대역간의 유사도를 이용한 오디오 신호 처리 장치및 방법 |
JP4950210B2 (ja) * | 2005-11-04 | 2012-06-13 | ノキア コーポレイション | オーディオ圧縮 |
KR20080070831A (ko) * | 2005-11-30 | 2008-07-31 | 마츠시타 덴끼 산교 가부시키가이샤 | 서브밴드 부호화 장치 및 서브밴드 부호화 방법 |
DE602007004502D1 (de) * | 2006-08-15 | 2010-03-11 | Broadcom Corp | Neuphasierung des status eines dekodiergerätes nach einem paketverlust |
KR101346358B1 (ko) * | 2006-09-18 | 2013-12-31 | 삼성전자주식회사 | 대역폭 확장 기법을 이용한 오디오 신호의 부호화/복호화방법 및 장치 |
JP4823001B2 (ja) * | 2006-09-27 | 2011-11-24 | 富士通セミコンダクター株式会社 | オーディオ符号化装置 |
US20080243518A1 (en) * | 2006-11-16 | 2008-10-02 | Alexey Oraevsky | System And Method For Compressing And Reconstructing Audio Files |
KR100895100B1 (ko) * | 2007-01-31 | 2009-04-28 | 엠텍비젼 주식회사 | 디지털 오디오 데이터의 복호화 방법 및 디지털 오디오데이터의 복호화 장치 |
US8515767B2 (en) * | 2007-11-04 | 2013-08-20 | Qualcomm Incorporated | Technique for encoding/decoding of codebook indices for quantized MDCT spectrum in scalable speech and audio codecs |
EP2077550B8 (en) * | 2008-01-04 | 2012-03-14 | Dolby International AB | Audio encoder and decoder |
RU2515704C2 (ru) | 2008-07-11 | 2014-05-20 | Фраунхофер-Гезелльшафт Цур Фердерунг Дер Ангевандтен Форшунг Е.Ф. | Аудиокодер и аудиодекодер для кодирования и декодирования отсчетов аудиосигнала |
US8290782B2 (en) * | 2008-07-24 | 2012-10-16 | Dts, Inc. | Compression of audio scale-factors by two-dimensional transformation |
CN101673547B (zh) * | 2008-09-08 | 2011-11-30 | 华为技术有限公司 | 编码方法、解码方法及其装置 |
CN101898724B (zh) | 2009-05-27 | 2013-04-10 | 无锡港盛港口机械有限公司 | 双颚抓斗取物装置 |
KR20100136890A (ko) * | 2009-06-19 | 2010-12-29 | 삼성전자주식회사 | 컨텍스트 기반의 산술 부호화 장치 및 방법과 산술 복호화 장치 및 방법 |
CN102081927B (zh) * | 2009-11-27 | 2012-07-18 | 中兴通讯股份有限公司 | 一种可分层音频编码、解码方法及系统 |
CN101847410A (zh) * | 2010-05-31 | 2010-09-29 | 中国传媒大学广播电视数字化教育部工程研究中心 | 一种用于数字音频信号压缩的快速量化方法 |
RU2464649C1 (ru) * | 2011-06-01 | 2012-10-20 | Корпорация "САМСУНГ ЭЛЕКТРОНИКС Ко., Лтд." | Способ обработки звукового сигнала |
WO2013058634A2 (ko) | 2011-10-21 | 2013-04-25 | 삼성전자 주식회사 | 에너지 무손실 부호화방법 및 장치, 오디오 부호화방법 및 장치, 에너지 무손실 복호화방법 및 장치, 및 오디오 복호화방법 및 장치 |
-
2011
- 2011-06-01 RU RU2011121982/08A patent/RU2464649C1/ru active
-
2012
- 2012-06-01 EP EP12791983.5A patent/EP2717264B1/en active Active
- 2012-06-01 MX MX2013014152A patent/MX2013014152A/es active IP Right Grant
- 2012-06-01 AU AU2012263093A patent/AU2012263093B2/en active Active
- 2012-06-01 WO PCT/KR2012/004362 patent/WO2012165910A2/ko active Application Filing
- 2012-06-01 CN CN201280037719.1A patent/CN103733257B/zh active Active
- 2012-06-01 JP JP2014513447A patent/JP6262649B2/ja active Active
- 2012-06-01 CA CA2838170A patent/CA2838170C/en active Active
- 2012-06-01 TW TW105134207A patent/TWI601130B/zh active
- 2012-06-01 TW TW101119835A patent/TWI562134B/zh active
- 2012-06-01 CN CN201710031335.3A patent/CN106782575B/zh active Active
- 2012-06-01 KR KR1020120059434A patent/KR102044006B1/ko active IP Right Grant
- 2012-06-01 MX MX2015014526A patent/MX357875B/es unknown
- 2012-06-01 PL PL12791983T patent/PL2717264T3/pl unknown
- 2012-06-01 US US14/123,359 patent/US9361895B2/en active Active
- 2012-06-01 CN CN201710035445.7A patent/CN106803425B/zh active Active
- 2012-06-01 TW TW106128176A patent/TWI616869B/zh active
-
2016
- 2016-04-29 US US15/142,594 patent/US9589569B2/en active Active
- 2016-11-08 AU AU2016256685A patent/AU2016256685B2/en active Active
-
2017
- 2017-03-06 US US15/450,672 patent/US9858934B2/en active Active
- 2017-09-11 AU AU2017228519A patent/AU2017228519B2/en active Active
- 2017-12-14 JP JP2017239861A patent/JP6612837B2/ja active Active
-
2019
- 2019-11-06 KR KR1020190140945A patent/KR102154741B1/ko active IP Right Grant
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20070024472A1 (en) * | 2005-08-01 | 2007-02-01 | Pulsus Technologies | Computing circuits and method for running an MPEG-2 AAC or MPEG-4 AAC audio decoding algorithm on programmable processors |
CN101390158A (zh) * | 2006-02-24 | 2009-03-18 | 法国电信公司 | 信号包络的量化索引的二进制编码方法、解码信号包络的方法、及相应的编码和解码模块 |
CN101165778A (zh) * | 2006-10-18 | 2008-04-23 | 宝利通公司 | 音频信号的双变换编码 |
CN101896964A (zh) * | 2008-01-28 | 2010-11-24 | 高通股份有限公司 | 用于上下文描述符传输的系统、方法及设备 |
Also Published As
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN106803425B (zh) | 音频编码方法和设备、音频解码方法和设备 | |
CN105825858B (zh) | 比特分配、音频编码和解码 | |
CN107025909B (zh) | 能量无损编码方法和设备以及能量无损解码方法和设备 | |
KR20130090826A (ko) | 낮은 복잡도로 오디오 신호를 처리하는 방법 및 장치 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |