CN1841938A - 对音频信号进行编码的方法和设备 - Google Patents

对音频信号进行编码的方法和设备 Download PDF

Info

Publication number
CN1841938A
CN1841938A CNA2006100737085A CN200610073708A CN1841938A CN 1841938 A CN1841938 A CN 1841938A CN A2006100737085 A CNA2006100737085 A CN A2006100737085A CN 200610073708 A CN200610073708 A CN 200610073708A CN 1841938 A CN1841938 A CN 1841938A
Authority
CN
China
Prior art keywords
fft
result
piece
mdct
audio signal
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CNA2006100737085A
Other languages
English (en)
Other versions
CN100546199C (zh
Inventor
康泰益
崔珍奎
李瑾燮
朴荣喆
尹大熙
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
IND ACADEMIC COOP
LG Electronics Inc
Original Assignee
LG Electronics Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by LG Electronics Inc filed Critical LG Electronics Inc
Publication of CN1841938A publication Critical patent/CN1841938A/zh
Application granted granted Critical
Publication of CN100546199C publication Critical patent/CN100546199C/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04BTRANSMISSION
    • H04B1/00Details of transmission systems, not covered by a single one of groups H04B3/00 - H04B13/00; Details of transmission systems not characterised by the medium used for transmission
    • H04B1/66Details of transmission systems, not covered by a single one of groups H04B3/00 - H04B13/00; Details of transmission systems not characterised by the medium used for transmission for reducing bandwidth of signals; for improving efficiency of transmission
    • H04B1/665Details of transmission systems, not covered by a single one of groups H04B3/00 - H04B13/00; Details of transmission systems not characterised by the medium used for transmission for reducing bandwidth of signals; for improving efficiency of transmission using psychoacoustic properties of the ear, e.g. masking effect
    • GPHYSICS
    • G01MEASURING; TESTING
    • G01BMEASURING LENGTH, THICKNESS OR SIMILAR LINEAR DIMENSIONS; MEASURING ANGLES; MEASURING AREAS; MEASURING IRREGULARITIES OF SURFACES OR CONTOURS
    • G01B13/00Measuring arrangements characterised by the use of fluids
    • G01B13/02Measuring arrangements characterised by the use of fluids for measuring length, width or thickness
    • GPHYSICS
    • G01MEASURING; TESTING
    • G01BMEASURING LENGTH, THICKNESS OR SIMILAR LINEAR DIMENSIONS; MEASURING ANGLES; MEASURING AREAS; MEASURING IRREGULARITIES OF SURFACES OR CONTOURS
    • G01B3/00Measuring instruments characterised by the use of mechanical techniques
    • G01B3/18Micrometers
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Signal Processing (AREA)
  • Computational Linguistics (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • General Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)

Abstract

揭示了一种音频编码方法和设备,能够增强MPEG-4AAC(移动图像专家组-4高级音频编码)处理的效率。该音频编码方法和设备减少了音频编码算法的计算量以增强音频编码处理的效率。尤其是,该音频编码方法和设备减少了对音频信号进行编码的MPEG-4AAC算法中心理声学模型处理所需的计算量。

Description

对音频信号进行编码的方法和设备
本申请要求于2005年3月31递交的韩国专利申请No:10-2005-0027029的优先权,其整体结合在此作为参考。
技术领域
本发明涉及对音频信号进行编码的方法和设备。尤其是,本发明涉及一种方法和设备,用于对音频信号进行编码以提高活动图像专家组4高级音频编码(MPEG-4 AAC)方案的处理效率。
背景技术
在能提供多媒体服务(诸如,数字音频广播(DAB)服务、互联网电话服务或音频点播(AOD)服务)的系统中,活动图像专家组(MPEG)音频标准在音频信号的存储和传输中起到了重要的作用。基于MPEG音频标准的MPEG音频编码算法被用于对音频信号进行压缩而不损失主观声音质量,以此减少音频信号存储和传输中所需的信道容量。
在多种MPEG音频编码算法中,MPEG-4 AAC(活动图像专家组4高级音频编码)方案是最新的一种系统化的编码方案,支持最高压缩比和最佳声音质量。依照该MPEG方案,音频压缩技术已经有了高速的发展。
使用人类的听觉特性来有效去除噪声的心理声学理论对音频压缩技术的高速发展做出了巨大贡献。在音频编码处理中,根据复杂心理声学理论处理来计算每个频率的最大可允许噪声量。
图1是示出对音频信号进行编码的常规音频编码设备的框图。尤其是,图1示出了ISO/IEC 14496-3(表示与MPEG-4 AAC相关联的标准技术)中推荐的设备。如图1所示,常规音频编码设备包括改良型离散余弦变换(MDCT)块10、快速傅立叶变换(FFT)块20、心理声学模型块30、编码效率增强块40、量化和比特分配块50、以及哈夫曼(Huffman)编码块60。
MDCT块10接收时域信号并在编码过程中将所接收的信号转换为频域信号。FFT块20接收音频信号,在所接收的音频信号上执行FFT处理,并输出转换系数。编码效率增强块40使用多种方法(诸如,临时噪声修正(TNS)、联合立体声、用于增强周期性信号压缩性能的长时间预测(LTP),以及用于增强噪声分量压缩效率的感知噪声抑制(PNS))增强与信号特性相关联的编码(即,压缩)的效率。值得注意的是包含在编码效率增强块40中的上述组件已经在MPEG-4 AAC标准中定义了。
心理声学模型块30分析音频信号的感知特性并确定所分析的音频信号的每个频率的最大可允许量化噪声量。心理声学模型块30使用从FFT块20接收到的系数。
量化和比特分配块50在所接收的信号上执行量化和比特分配。量化处理考虑到编码效率增强块40的输出信号的相关SNR(信号-噪声比)和心理声学模型块30的输出值,最小化人类可感知到的噪声量。此外,最优化了比特分配,这样依照最优化比特分配,编码效率增强块40的输出信号的相关SNR要小于心理声学模型块30输出值的最大可允许量化噪声量。值得注意的是包含在上述量化和比特分配块50中的组成分量已经在MPEG-4 AAC标准中定义了。
本领域熟练技术人员众所周知的是,哈夫曼编码块60允许上述量化和比特分配块50的输出信号的无损编码。同时,心理声学模型块30分析转换为频域信号的音频信号的感知特性,这样就需要一种将输入音频信号转换为频域信号的特殊处理。
特别地,当前MPEG推荐已经定义了在心理声学模型中使用的必须的额外FFT。如图1所示,常规音频编码设备包括FFT块20。
然而,在图1所示的常规设备中的各个块中所执行的计算量中,特别是在根据MPEG-4 AAC算法在每个块所执行的计算量中,心理声学模型处理返回了大约所有计算的一半。尤其是,心理声学模型处理的FFT需要很多的计算。
如果使用了低速处理器,就无法实时驱动常规方法所需的MPEG-4 AAC算法。另一方面,如果使用具有高级计算性能的高性能处理器,就可实时驱动MPEG-4 AAC。然而,高性能处理器在电源消耗方面是有缺点的。
因此,需要一种改进的方法,能够减少驱动MPEG-4 AAC算法的计算量。本发明解决了这些和其它需要。
发明内容
在下文描述中将给出本发明的特点和优点,部分可从说明中显而易见,或可通过对本发明的实践而理解。将通过书面描述和权利要求书以及附图中所特别指出的结构来实现并获得本发明的目的和其它优点。
本发明针对一种音频编码方法和设备,在实质上消除了由于相关技术的限制和缺点而产生的一个或多个问题。本发明的一个目的是提供一种音频编码方法和设备,用于减少音频编码算法中的计算量以增强音频编码处理的效率。本发明的另一个目的是提供一种音频编码方法和设备,用于减少对音频信号进行编码的MPEG-4 AAC算法中心理声学模型处理所需的计算量。
在本发明的一个方面中,提供了一种音频编码设备。该设备包括能够将时域音频信号转换为频域音频信号的改良型离散余弦变换(MDCT)块、能够使用从MDCT块接收到的转换结果确定每个频率的最大可允许量化噪声量的心理声学模型块。
可以理解的是该设备进一步包括能够在时域音频信号上执行MDST处理的改良型离散正弦变换(MDST)块。还可以理解的是该设备进一步包括能够将MDCT块的变换结果和MDST块的变换结果的组合移动预定值的移动块。
可以理解的是该设备进一步包括能够在移动块的输出结果上执行初步FIR滤波并向心理声学模型块提供FIR滤波结果的有限脉冲相应(FIR)滤波器。还可以理解的是FIR滤波器还能够获取对应于与音频信号相关联的快速傅立叶变换(FFT)结果的第一系数和第二系数的滤波结果。
可以理解的是FFT结果可由MDCT块的转换结果和MDST块的转换结果形成的第一等式所表示:
FFT { x ( n ) } = [ ( X c ( k ) - j X s ( k ) ) · exp ( j 2 π N n 0 k ) ] * FFT { exp ( j 2 π N k 0 n ) }
其中,符号*表示使用FIR滤波器所生成的初步FIR滤波计算的圆周卷积,x(n)表示输入音频信号、FFT{x(n)}表示输入音频信号的FFT结果、Xc(k)表示MDCT块的转换结果、Xs(k)表示MDST块的转换结果、n0和k0表示MDCT块中使用的常数、n表示输入音频信号的采样索引、N表示转换窗口的窗口长度、 exp ( j 2 π N n 0 k ) 表示移动块的移动结果。
可以理解的是该设备中,该FIR滤波器的输出结果表示为第二等式 Σ j = 0 1 a i t [ k - i ] , 且等于初步FIR滤波结果,其中a0表示 FFT { exp ( j 2 π N k 0 n ) } 的第一系数值、a1表示 FFT { exp ( j 2 π N k 0 n ) } 的第二系数值、t(k)表示为
t ( k ) = [ ( X c ( k ) - j X s ( k ) ) · exp ( j 2 π N n 0 k ) ] .
可以理解的是该设备中,第一等式表示当FFT窗口与MDCT窗口不同时使用汉纳(Hann)窗口的FFT结果。还可以理解的是该设备中,表示FFT结果并应用汉纳窗口的第一等式可改变为如下所示的第三等式:
FFT { x ( n ) h H ( n ) } =
FFT { x ( n ) h s ( n ) · h H ( n ) h s ( n ) } = [ ( X c ( k ) - j X s ( k ) ) · exp ( j 2 π N n 0 k ) ] * FFT { exp ( j 2 π N n 0 k ) h H ( n ) h s ( n ) }
这样第三等式对应用到FFT和MDCT块的不同窗口做出了补偿。
在本发明的另一个方面,提供了一种音频编码方法。该方法包括:使用改良型离散余弦变换(MDCT)将输入时域音频信号转换为频域音频信号、使用改良型离散正弦变换(MDST)转换输入时域音频信号,以及通过将MDCT和MDST的转换结果应用到心理声学模型来确定每个频率的最大可允许量化噪声量。
可以理解的是该方法还包括将MDCT的变换结果和MDST的变换结果的组合移动预定值,并在移动结果上执行有限脉冲相应(FIR)滤波。还可以理解的是该方法还包括根据滤波结果确定最大可允许量化噪声量。
可以理解的是该方法还包括执行初步FIR滤波。还可以理解的是滤波结果对应于与输入音频信号相关联的快速傅立叶变换(FFT)结果的第一系数和第二系数。
可以理解的是FFT结果可由MDCT的转换结果和MDST的转换结果形成的第一等式所表示:
FFT { x ( n ) } = [ ( X c ( k ) - j X s ( k ) ) · exp ( j 2 π N n 0 k ) ] * FFT { exp ( j 2 π N k 0 n ) }
其中,符号*表示使用初步FIR滤波计算的圆周卷积,x(n)表示输入音频信号、FFT{x(n)}表示输入音频信号的FFT结果、Xc(k)表示MDCT的转换结果、Xs(k)表示MDST的转换结果、n0和k0表示MDCT中使用的常数、n表示输入音频信号的采样索引、N表示转换窗口的窗口长度、 exp ( j 2 π N n 0 k ) 表示移动结果。
可以理解的是FIR滤波器的输出结果表示为第二等式 Σ i = 0 1 a i t [ k - i ] , 且等于初步FIR滤波结果,其中a0表示 FFT { exp ( j 2 π N k 0 n ) } 的第一系数值、a1表示 FFT { exp ( j 2 π N k 0 n ) } 的第二系数值、t(k)表示为
t ( k ) = [ ( X c ( k ) - j X s ( k ) ) · exp ( j 2 π N n 0 k ) ] .
可以理解的是第一等式表示当FFT窗口与MDCT窗口不同时使用汉纳(Hann)窗口的FFT结果。
可以理解的是表示FFT结果并应用汉纳窗口的第一等式可改变为如下所示的第三等式:
FFT { x ( n ) h H ( n ) } =
FFT { x ( n ) h s ( n ) · h H ( n ) h s ( n ) } = [ ( X c ( k ) - j X s ( k ) ) · exp ( j 2 π N n 0 k ) ] * FFT { exp ( j 2 π N n 0 k ) h H ( n ) h s ( n ) }
这样第三等式对应用到FFT和MDCT块的不同窗口做出了补偿。
本发明的其它特点和优点将在下文中给出,并且部分可从描述中显而易见,或可通过对本发明的实践而理解。可以理解的是本发明的上述一般描述和下述详细描述是示例性和说明性的,旨在提供对根据所要求保护的本发明的进一步解释。对本领域熟练技术人员而言,参考附图从实施例的下述详细描述中可以很容易地理解这些和其它实施例,本发明不限于任何所揭示的特定实施例。
附图说明
包括在此以提供对本发明进一步理解并结合作为本说明书一部分的附图示出了本发明的实施例,并与描述一起解释了本发明的原理。根据一个或多个实施例,在不同附图中由相同标号所表示的本发明的特征、元素以及方面表示相同的、等价的、或类似的特征、元素和方面。
包括在此以提供对本发明进一步理解并结合作为本申请一部分的附图示出了本发明的多个实施例,并与描述一起解释了本发明的原理。
图1是示出常规音频编码设备的框图。
图2是示出根据本发明的一则实施例的音频编码设备的框图。
图3是示出根据本发明的一则实施例的能够对音频信号进行编码的心理声学模型处理的流程图。
具体实施方式
现在将详细参考本发明较佳实施例,其示例已在附图中示出。只要在可能的情况下,将在所有附图中使用相同的标号表示相同或相近的部分。
将参考附图描述根据本发明的一种用于对音频信号进行编码的方法和设备。本发明旨在减少用于执行MPEG-4 AAC算法的心理声学模型处理的FFT处理所需的计算量。
图2是示出根据本发明的一则实施例的音频编码设备的框图。如图2所示,根据本发明的音频编码设备包括MDCT块110、改良型离散正弦变换(MDST)块125、有限脉冲相应(FIR)滤波器127、心理声学模型块130、编码效率增强块140、量化和比特分配块150以及哈夫曼编码块160。
MDCT块110接收到时域音频信号并将所接收的音频信号转换为频域信号以执行编码处理。MDST块125在所接收的时域音频信号上执行MDST。FIR滤波器127执行初步FIR滤波并将FIR滤波结果发送给心理声学模型块130。心理声学模型块130分析音频信号的感知特性并确定所分析的音频信号的每个频率的最大可允许量化噪声量。心理声学模型块130使用MDCT块110的转换结果、MDST块125的转换结果以及FIR滤波器127的滤波结果。
心理声学模型块130必须使用由FFT结果所获得的系数。这样,如果FIR滤波器127在MDCT块110的转换结果和MDST块125的转换结果的组合上执行初步FIR滤波,并且初步FIR滤波结果对应于与所接收的音频信号相关联的FFT结果,编码性能并不受初步FIR滤波结果的影响。等式1示出了该转换结果。
(等式1)
FFT { x ( n ) } = [ ( X c ( k ) - j X s ( k ) ) · exp ( j 2 π N n 0 k ) ] * FFT { exp ( j 2 π N k 0 n ) }
参考等式1,x(n)表示输入音频信号、FFT{x(n)}表示输入音频信号的FFT结果、Xc(k)表示MDCT块110的转换结果、Xs(k)表示MDST块125的转换结果、n0和k0表示MDCT块中使用的常数。此外,符号(*)表示圆周卷积,字符(n)表示输入音频信号的采样索引、字符(K)表示频率索引、字符(N)表示转换窗口的窗口长度、 exp ( j 2 π N n 0 k ) 表示n0移动结果。
音频编码设备还包括移动块(未图示),用于将MDCT块110和MDST块125的转换结果的组合移动预定值。移动块执行n0移动。
FIR滤波器127在移动块的输出信号上执行初步FIR滤波并将FIR滤波结果发送到心理声学模型块130。MDST块125和FIR滤波器127获得上述FFT结果。
如等式1所示,计算了输入音频信号的MDCT结果和MDST结果的组合并获得了所计算的组合结果的圆周卷积。然而,因为圆周卷积极大地影响了计算的量,本发明使用FIR滤波器127生成的初步FIR滤波来执行近似处理以减少圆周卷积计算的量。换句话说,由FIR滤波器127生成的初步FIR滤波执行了多个圆周卷积计算的近似计算。
同时,应用到输入音频信号的用于FFT的窗口是不同于应用到输入音频信号用于MDCT的窗口。考虑到应用到FFT和MDCT的不同窗口,等式1转变为等式2。等式2是通过在等式1上应用汉纳窗口而获得的,并对应用到单个输入音频信号的FFT和MDCT的不同窗口做出了补偿。
(等式2)
FFT { x ( n ) h H ( n ) } =
FFT { x ( n ) h s ( n ) · h H ( n ) h s ( n ) } = [ ( X c ( k ) - j X s ( k ) ) · exp ( j 2 π N n 0 k ) ] * FFT { exp ( j 2 π N n 0 k ) h H ( n ) h s ( n ) }
在等式2中,hs(n)表示使用在MDCT的正弦窗口,hH(n)表示主要用于心理声学模型输入处理的汉纳窗口。如图2所示,初步FIR滤波必须执行近似计算以减少圆周卷积计算的量。
在图2中所示的圆周卷积的右侧项含有与频率索引(k)相关的常数值(s),这样常数值就实现为表格的形式。FIR滤波结果(输出信号或者是FIR滤波器12的初步FIR滤波结果)可由等式3所表示:
(等式3)
Σ i = 0 1 a i t [ k - i ]
在等式3中,t(k)表示为 t ( k ) = [ ( X c ( k ) - j X s ( k ) ) · exp ( j 2 π N n 0 k ) ] , a0表示 FFT { exp ( j 2 π N k 0 n ) } 的第一系数值、a1表示 FFT { exp ( j 2 π N k 0 n ) } 的第二系数值、。
编码效率增强块140由多个在MPEG-4 AAC标准中所定义的组件组成,并根据信号特征增强了编码(即,压缩)效率。编码效率增强块140中的组件为TNS(临时噪声修正)组件、联合立体声组件、LTP(长时间预测)组件以及PNS(感知噪声抑制)。
定义在MPEG-4 AAC标准中的量化和比特分配块150在所接收的信号上执行量化和比特分配。量化处理考虑到编码效率增强块140的输出信号的相关SNR(信号-噪声比)和心理声学模型块130的输出值,最小化人类可感知到的噪声量。此外,最优化了比特分配,这样依照最优化比特分配,编码效率增强块40的输出信号的相关SNR要小于心理声学模型块30输出值的最大可允许量化噪声量。
哈夫曼编码块160允许上述量化和比特分配块50的输出信号的无损编码。
图3是示出根据本发明的能够对音频信号进行编码的心理声学模型处理的流程图。如图3所示,在步骤S10中在音频编码设备中接收到的时域音频信号等于2048个采样。
在步骤S11中,通过MDST块125将音频信号转换为另一个信号。MDCT块127将输入音频信号转换为频域音频信号,并将转换结果与MDST转换结果相组合,这样获得了组合结果Xc(k)-jXs(k)。
组合结果Xc(k)-jXs(k)接着被乘以等式1所示的特定值 exp ( j 2 π N n 0 k ) . 换句换说,在步骤S12,将两个转换结果的组合移动预定值n0,并将频谱在时间轴上移动相等于n0移动的预定值。
在步骤S13中,在n0移动结果上执行初步FIR滤波。当输入音频信号近似于FFT结果时获得FIR滤波结果。
本发明不将FFT结果计算的多个系数应用在心理声学模型上,而是仅仅使用FFT结果的第一和第二系数。换句话说,初步FIR滤波结果等于FFT近似值。在步骤S14中,心理声学模型块130使用FFT近似值。
同时,本发明执行上述近似计算以替换FFT结果,因此导致想不到的误差的发生。然而,误差并不会极大影响到音频编码处理。
计算与N个采样相关的高速MDST需要实数乘法预定数量N*(log2N+1)/4和预定数量N*(log2N-1)/4。n0移动处理所需的乘法数量是3N/2,n0移动处理所需的加法数量是3N/2。FIR滤波处理所需的乘法数量是3N,FIR滤波处理所需的加法数量是7N/2。
因此,用于心理声学模型的乘法/加法计算的总数量表示为N*log2N+19N/2。普通FFT所需的计算量表示为4N*(log2N-1)+8。
因此,假设FFT处理与包括2048个采样的输入音频信号相关联,根据本发明的FIR滤波所需的计算量占用FFT处理所需计算量的大约51%,因此本发明可以较大地减少用于音频编码处理的计算总量。
本领域熟练技术人员容易理解的是可对本发明进行各种修改和变化而不脱离本发明的精神或范围。因此,本发明旨在覆盖属于附加权利要求和它们的等价物的范围中的本发明的修改和变化。
因为本发明可被实现为各种形式而不脱离本发明的精神或必要特征,可以理解的是除非有特别说明,上述实施例不受任何上述描述的细节所限制,而是可被广泛构建为附加权利要求中定义的精神和范围中,并且附加权利要求旨在包含处于权利要求公认范围,或是这些公认范围的等价物中的所有改动和修改。
上述实施例和优点仅仅是示例性的,并且不能构成对本发明的限制。本教导可容易地应用在其它类型的设备上。本发明的描述旨在是描述性的,并且不限制权利要求的范围。本领域熟练技术人员可以知晓许多的改动、修改和变化。在权利要求中,装置加功能的语句旨在覆盖在此所述的执行所述功能的结构,并且不仅仅是结构性等价物,也是等价的结构。

Claims (18)

1.一种音频编码设备,包括:
改良型离散余弦变换(MDCT)块,适用于将时域音频信号转换为频域音频信号;以及
心理声学模型块,适用于使用从所述MDCT块接收到的转换结果确定每个频率的最大可允许量化噪声量。
2.如权利要求1所述的设备,其特征在于,还包括:
改良型离散正弦变换(MDST)块,适用于在所述时域音频信号上执行MDST处理。
3.如权利要求2所述的设备,其特征在于,还包括:
移动块,适用于将所述MDCT块的变换结果和所述MDST块的变换结果的组合移动预定值。
4.如权利要求3所述的设备,其特征在于,还包括:
有限脉冲相应(FIR)滤波器,适用于在所述移动块的输出结果上执行初步FIR滤波并向所述心理声学模型块提供FIR滤波结果。
5.如权利要求4所述的设备,其特征在于,所述FIR滤波器还适用于获取对应于与所述音频信号相关联的快速傅立叶变换(FFT)结果的第一系数和第二系数的滤波结果。
6.如权利要求5所述的设备,其特征在于,所述FFT结果可由所述MDCT块的转换结果和所述MDST块的转换结果形成的第一等式 FFT { x ( n ) } = [ ( X c ( k ) - jX s ( k ) ) · exp ( j 2 π N n 0 k ) ] * FFT { exp ( j 2 π N k 0 n ) } 所表示,
其中,符号*表示使用所述FIR滤波器所生成的初步FIR滤波计算的圆周卷积,x(n)表示输入音频信号、FFT{x(n)}表示所述输入音频信号的FFT结果、Xc(k)表示所述MDCT块的转换结果、Xs(k)表示所述MDST块的转换结果、n0和k0表示所述MDCT块中使用的常数、n表示所述输入音频信号的采样索引、N表示转换窗口的窗口长度、
Figure A2006100737080003C1
表示所述移动块的移动结果。
7.如权利要求6所述的设备,其特征在于,所述FIR滤波器的输出结果表示为第二等式
Figure A2006100737080003C2
且等于所述初步FIR滤波结果,
其中a0表示
Figure A2006100737080003C3
的第一系数值、a1表示 的第二系数值、t(k)表示为 t ( k ) = [ ( X c ( k ) - jX s ( k ) ) · exp ( j 2 π N n 0 k ) ] .
8.如权利要求6所述的设备,其特征在于,所述第一等式表示当所述FFT的窗口与所述MDCT的窗口不同时使用汉纳窗口的FFT结果。
9.如权利要求6所述的设备,其特征在于,表示所述FFT结果并应用汉纳窗口的所述第一等式可改变为如下所述的第三等式:
FFT { x ( n ) h H ( n ) } =
FFT { x ( n ) h s ( n ) · h H ( n ) h s ( n ) } = [ ( X c ( k ) - jX s ( k ) ) · exp ( j 2 π N n 0 k ) ] * FFT { exp ( j 2 π N n 0 k ) h H ( n ) h s ( n ) }
这样所述第三等式对应用到所述FFT和所述MDCT块的不同窗口做出了补偿。
10.一种音频编码方法。包括:
使用改良型离散余弦变换(MDCT)将输入时域音频信号转换为频域音频信号;
使用改良型离散正弦变换(MDST)转换所述输入时域音频信号;以及
通过将所述MDCT和所述MDST的转换结果应用到心理声学模型来确定每个频率的最大可允许量化噪声量。
11.如权利要求10所述的方法,其特征在于,所述方法还包括:
将所述MDCT的变换结果和所述MDST的变换结果的组合移动预定值;并且
在所述移动结果上执行有限脉冲相应(FIR)滤波。
12.如权利要求11所述的方法,其特征在于还包括根据所述滤波结果确定最大可允许量化噪声量。
13.如权利要求11所述的方法,其特征在于,还包括:
执行初步FIR滤波。
14.如权利要求11所述的方法,其特征在于,所述滤波结果对应于与所述输入音频信号相关联的快速傅立叶变换(FFT)结果的第一系数和第二系数。
15.如权利要求14所述的方法,其特征在于,所述FFT结果可由所述MDCT的转换结果和所述MDST的转换结果形成的第一等式 FFT { x ( n ) } = [ ( X c ( k ) - jX s ( k ) ) · exp ( j 2 π N n 0 k ) ] * FFT { exp ( j 2 π N k 0 n ) } 所表示,
其中,符号*表示使用初步FIR滤波计算的圆周卷积,x(n)表示输入音频信号、FFT{x(n)}表示所述输入音频信号的FFT结果、Xc(k)表示所述MDCT的转换结果、Xs(k)表示所述MDST的转换结果、n0和k0表示所述MDCT中使用的常数、n表示所述输入音频信号的采样索引、N表示转换窗口的窗口长度、
Figure A2006100737080004C2
表示所述移动结果。
16.如权利要求15所示的方法,其特征在于,所述FIR滤波器的输出结果表示为第二等式
Figure A2006100737080004C3
且等于所述初步FIR滤波结果,其中a0表示
Figure A2006100737080004C4
的第一系数值、a1表示 的第二系数值、t(k)表示为 t ( k ) = [ ( X c ( k ) - jX s ( k ) ) · exp ( j 2 π N n 0 k ) ] .
17.如权利要求15所示的方法,其特征在于,所述第一等式表示当所述FFT的窗口与所述MDCT的窗口不同时使用汉纳(Hann)窗口的FFT结果。
18.如权利要求15所示的方法,其特征在于,表示FFT结果并应用汉纳窗口的所述第一等式可改变为如下所述的第三等式:
FFT { x ( n ) h H ( n ) } =
FFT { x ( n ) h s ( n ) · h H ( n ) h s ( n ) } = [ ( X c ( k ) - jX s ( k ) ) · exp ( j 2 π N n 0 k ) ] * FFT { exp ( j 2 π N n 0 k ) h H ( n ) h s ( n ) }
这样所述第三等式对应用到所述FFT和所述MDCT块的不同窗口做出了补偿。
CNB2006100737085A 2005-03-31 2006-03-31 对音频信号进行编码的方法和设备 Expired - Fee Related CN100546199C (zh)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
KR1020050027029 2005-03-31
KR1020050027029A KR100736607B1 (ko) 2005-03-31 2005-03-31 오디오 부호화 방법 및 장치

Publications (2)

Publication Number Publication Date
CN1841938A true CN1841938A (zh) 2006-10-04
CN100546199C CN100546199C (zh) 2009-09-30

Family

ID=36539268

Family Applications (1)

Application Number Title Priority Date Filing Date
CNB2006100737085A Expired - Fee Related CN100546199C (zh) 2005-03-31 2006-03-31 对音频信号进行编码的方法和设备

Country Status (7)

Country Link
US (1) US20060253276A1 (zh)
EP (1) EP1708173B1 (zh)
JP (1) JP4416752B2 (zh)
KR (1) KR100736607B1 (zh)
CN (1) CN100546199C (zh)
AT (1) ATE408218T1 (zh)
DE (1) DE602006002633D1 (zh)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101308659B (zh) * 2007-05-16 2011-11-30 中兴通讯股份有限公司 一种基于先进音频编码器的心理声学模型的处理方法
CN102970269A (zh) * 2012-11-28 2013-03-13 苏州威士达信息科技有限公司 基于人耳感知的iboc系统的动态数据发送方法
CN103023849A (zh) * 2012-11-28 2013-04-03 苏州威士达信息科技有限公司 基于心理声学模型的iboc系统的数据发送方法
CN111179946A (zh) * 2013-09-13 2020-05-19 三星电子株式会社 无损编码方法和无损解码方法

Families Citing this family (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR100827458B1 (ko) * 2006-07-21 2008-05-06 엘지전자 주식회사 오디오 부호화 방법
US9313359B1 (en) * 2011-04-26 2016-04-12 Gracenote, Inc. Media content identification on mobile devices
RU2683175C2 (ru) 2010-04-09 2019-03-26 Долби Интернешнл Аб Стереофоническое кодирование на основе mdct с комплексным предсказанием
US11140439B2 (en) 2012-02-21 2021-10-05 Roku, Inc. Media content identification on mobile devices
TWI575962B (zh) * 2012-02-24 2017-03-21 杜比國際公司 部份複數處理之重疊濾波器組中的低延遲實數至複數轉換

Family Cites Families (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5297236A (en) * 1989-01-27 1994-03-22 Dolby Laboratories Licensing Corporation Low computational-complexity digital filter bank for encoder, decoder, and encoder/decoder
CN1062963C (zh) * 1990-04-12 2001-03-07 多尔拜实验特许公司 用于产生高质量声音信号的解码器和编码器
US5451954A (en) * 1993-08-04 1995-09-19 Dolby Laboratories Licensing Corporation Quantization noise suppression for encoder/decoder system
US6668029B1 (en) * 1998-12-11 2003-12-23 Hitachi America, Ltd. Methods and apparatus for implementing digital resampling circuits
US7302396B1 (en) * 1999-04-27 2007-11-27 Realnetworks, Inc. System and method for cross-fading between audio streams
US6604070B1 (en) * 1999-09-22 2003-08-05 Conexant Systems, Inc. System of encoding and decoding speech signals
US7136418B2 (en) * 2001-05-03 2006-11-14 University Of Washington Scalable and perceptually ranked signal coding and decoding
US7328151B2 (en) * 2002-03-22 2008-02-05 Sound Id Audio decoder with dynamic adjustment of signal modification
US7099908B2 (en) * 2002-06-19 2006-08-29 The Aerospace Corporation Merge and split generalized block transform method
DE10234130B3 (de) * 2002-07-26 2004-02-19 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Vorrichtung und Verfahren zum Erzeugen einer komplexen Spektraldarstellung eines zeitdiskreten Signals
KR100467617B1 (ko) * 2002-10-30 2005-01-24 삼성전자주식회사 개선된 심리 음향 모델을 이용한 디지털 오디오 부호화방법과그 장치
KR100547113B1 (ko) * 2003-02-15 2006-01-26 삼성전자주식회사 오디오 데이터 인코딩 장치 및 방법
GB2403634B (en) * 2003-06-30 2006-11-29 Nokia Corp An audio encoder

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101308659B (zh) * 2007-05-16 2011-11-30 中兴通讯股份有限公司 一种基于先进音频编码器的心理声学模型的处理方法
CN102970269A (zh) * 2012-11-28 2013-03-13 苏州威士达信息科技有限公司 基于人耳感知的iboc系统的动态数据发送方法
CN103023849A (zh) * 2012-11-28 2013-04-03 苏州威士达信息科技有限公司 基于心理声学模型的iboc系统的数据发送方法
CN103023849B (zh) * 2012-11-28 2015-05-13 中国传媒大学 基于心理声学模型的iboc系统的数据发送方法
CN102970269B (zh) * 2012-11-28 2015-05-13 中国传媒大学 基于人耳感知的iboc系统的动态数据发送方法
CN111179946A (zh) * 2013-09-13 2020-05-19 三星电子株式会社 无损编码方法和无损解码方法
CN111179946B (zh) * 2013-09-13 2023-10-13 三星电子株式会社 无损编码方法和无损解码方法

Also Published As

Publication number Publication date
JP4416752B2 (ja) 2010-02-17
EP1708173B1 (en) 2008-09-10
ATE408218T1 (de) 2008-09-15
JP2006285245A (ja) 2006-10-19
CN100546199C (zh) 2009-09-30
KR100736607B1 (ko) 2007-07-09
EP1708173A1 (en) 2006-10-04
KR20060104684A (ko) 2006-10-09
DE602006002633D1 (de) 2008-10-23
US20060253276A1 (en) 2006-11-09

Similar Documents

Publication Publication Date Title
CN1841938A (zh) 对音频信号进行编码的方法和设备
CN1181467C (zh) 利用自适应噪声本底相加和噪声替换限制,增强信源编码和解码的方法和系统
CN1677490A (zh) 一种增强音频编解码装置及方法
CN1135721C (zh) 音频信号编码方法及其有关设备
RU2337414C2 (ru) Устройство и способ определения оценочного значения
CN101030373A (zh) 使用自适应掩蔽阈值的立体声感知音频编码的系统和方法
CN1947172A (zh) 方法、装置、编码器设备、解码器设备以及音频系统
CN1677491A (zh) 一种增强音频编解码装置及方法
CN1926609A (zh) 用于信号分析和合成的自适应混合变换
CN1926608A (zh) 多声道信号处理设备和方法
CN1669075A (zh) 音频编码
CN1756086A (zh) 多通道音频数据编码/解码方法和设备
CN1914669A (zh) 使用复数值数据的音频信号解码
CN101055720A (zh) 对音频信号编码和解码的方法和设备
CN101064106A (zh) 用于低复杂度高级音频编码的自适应速率控制算法
CN101044552A (zh) 语音编码装置和语音编码方法
CN1787383A (zh) 变换、编码、逆变换和解码音频信号的方法和设备
CN1806239A (zh) 用于转换为变换表示或对变换表示进行反转换的设备和方法
CN1918630A (zh) 量化信息信号的方法和设备
CN1639769A (zh) 利用谐波提取的音频编码方法和设备
CN1677492A (zh) 一种增强音频编解码装置及方法
CN1154084C (zh) 一种基于伪小波滤波的音频编/解码方法
CN1675685A (zh) 数字音频信号的感知标准化
CN1862969A (zh) 自适应块长、常数变换音频解码方法
CN1424713A (zh) 高频耦合的伪小波5声道音频编/解码方法

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C41 Transfer of patent application or patent right or utility model
TA01 Transfer of patent application right

Effective date of registration: 20060908

Address after: Seoul, South Kerean

Applicant after: Ind Academic Coop

Address before: Seoul, South Kerean

Applicant before: LG Electronics Inc.

C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
ASS Succession or assignment of patent right

Owner name: YONSEI UNIVERSITY INDUSTRY AND SCHOOL COOPERATION

Owner name: LG ELECTRONIC CO., LTD.

Free format text: FORMER OWNER: YONSEI UNIVERSITY INDUSTRY AND SCHOOL COOPERATION

Effective date: 20100226

C41 Transfer of patent application or patent right or utility model
TR01 Transfer of patent right

Effective date of registration: 20100226

Address after: Seoul, South Kerean

Co-patentee after: Ind Academic Coop

Patentee after: LG Electronics Inc.

Address before: Seoul, South Kerean

Patentee before: Ind Academic Coop

CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20090930

Termination date: 20170331

CF01 Termination of patent right due to non-payment of annual fee