CN1639769A - 利用谐波提取的音频编码方法和设备 - Google Patents

利用谐波提取的音频编码方法和设备 Download PDF

Info

Publication number
CN1639769A
CN1639769A CNA028293487A CN02829348A CN1639769A CN 1639769 A CN1639769 A CN 1639769A CN A028293487 A CNA028293487 A CN A028293487A CN 02829348 A CN02829348 A CN 02829348A CN 1639769 A CN1639769 A CN 1639769A
Authority
CN
China
Prior art keywords
audio data
pcm audio
data
harmonic component
mdct
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CNA028293487A
Other languages
English (en)
Other versions
CN1262990C (zh
Inventor
河昊振
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Samsung Electronics Co Ltd
Original Assignee
Samsung Electronics Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Samsung Electronics Co Ltd filed Critical Samsung Electronics Co Ltd
Publication of CN1639769A publication Critical patent/CN1639769A/zh
Application granted granted Critical
Publication of CN1262990C publication Critical patent/CN1262990C/zh
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • HELECTRICITY
    • H03ELECTRONIC CIRCUITRY
    • H03MCODING; DECODING; CODE CONVERSION IN GENERAL
    • H03M7/00Conversion of a code where information is represented by a given sequence or number of digits to a code where the same, similar or subset of information is represented by a different sequence or number of digits
    • H03M7/30Compression; Expansion; Suppression of unnecessary data, e.g. redundancy reduction

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Theoretical Computer Science (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)
  • Transmission Systems Not Characterized By The Medium Used For Transmission (AREA)

Abstract

一种用于将音频信号有效地编码为低速位速率的运动图像专家组(MPEG)-1 layer III音频信号的方法和设备。在该音频编码方法中,利用通过将心理声学模型2应用于所接收的脉码调制(PCM)音频数据而获得的快速傅立叶变换(FFT)结果信息来提取谐波分量。然后,从所接收的PCM音频数据中去除所提取的谐波分量。其后,对已从其中去除了所提取的谐波分量的PCM音频数据进行修改的离散余弦变换(MDCT)和量化。因此,即使利用少量分配的位也能实现有效编码。

Description

利用谐波提取的音频编码方法和设备
技术领域
本发明涉及一种压缩音频信号的方法,更具体地,涉及一种用于以低速位速率将音频信号有效压缩为MPEG-1 layer(层)-3音频信号的方法和设备。
背景技术
运动图像专家组-1(MPEG-1)建立了关于数字视频压缩和数字音频压缩的标准,并为国际标准化组织(ISO)所支持。MPEG-1音频标准用于压缩以44.1Khz采样率采样并存储在60分钟或72分钟CD上的16位音频,并根据压缩方法和编解码(codec)的复杂性而分类为3层。
层III最复杂,使用比层II多得多的滤波器,并采用霍夫曼(Huffman)编码。当以112Kbps编码时,可以听到质量很好的声音。当以128Kbps编码时,可以获得与原始声音几乎相同的声音。当以160Kbps或192Kbps编码时,可以听到人耳无法与原始声音区别开来的特别好的声音。通常,MPEG-3 layer-3音频称作MP3音频。
MP3音频通过离散余弦变换(DCT)、基于心理声学(psychoacoustic)模型2的位分配、量化等而产生。更具体地,在保持用于压缩音频数据的位数为最小的同时,利用心理声学模型2的结果来执行修改的DCT(MDCT)。
在音频压缩技术中,人的耳朵是最重要的。如果声音强度等于或低于预定级别,人耳就听不到。如果某人在办公室里大声说话,则可以容易地识别谁在说话。然而,如果这时飞机经过,则不能听到该谈话。即使在飞机经过后,因为回绕声音,仍然不能听到该谈话。因此,在心理声学模型2中,从具有等于或大于与安静时对应的最小可听限度的音量的数据中采样具有等于或大于掩蔽阈值的音量的数据。对于每一子带执行该采样。
然而,当以不高于64Kbps的低速位速率压缩声音信号时,心理声学模型2是不适合的,因为用于量化诸如前回声信号的信号的位数有限。因此,为了克服低速MP3音频引起的这个问题,本发明提供了一种通过利用心理声学模型2中采用的快速傅立叶变换(FFT)来从原始信号中去除谐波分量并利用MDCT仅压缩瞬态分量而有效处理低速音频信号的方法。
在传统心理声学模型中采用的FFT处理中,仅执行信号分析,而使用FFT的结果。由于FFT的结果不用于信号压缩,可以视其为资源浪费。
韩国专利公开第1995-022322号中公开了一种采用心理声学模型的位分配方法。然而,该公开的方法与本发明的方法不同,因为本发明通过利用心理声学模型中采用的FFT结果从原始信号中去除谐波分量,来提高压缩效率。
韩国专利公开第1998-072457号中公开了一种心理声学模型2中的信号处理方法和设备,利用该方法和设备,通过在压缩音频信号的同时降低计算过载而显著降低计算量。也就是说,该公开的信号处理方法包括利用FFT结果获得单独掩蔽边界值的步骤、选择全局掩蔽边界值的步骤、以及移动到下一频率位置的步骤。该方法与本发明的相同之处在于都使用FFT结果值,而不同之处在于其使用不同的量化方法。
美国专利第5,930,373号中公开了一种利用低频信号的残余谐波来增强声音信号质量的方法。然而,该公开的方法与根据本发明的量化方法的差别在于它们使用不同的利用残余谐波的技术。
发明内容
为了解决以上和其它问题,本发明一个方面提供了一种通过利用心理声学模型2中采用的快速傅立叶变换(FFT)的结果,从原始音频信号中去除谐波分量,并利用修改的离散余弦变换(MDCT)仅压缩剩余瞬态分量,而有效处理低速音频信号的方法。
通过一种利用谐波分量的音频编码方法实现本发明的以上和其它方面。在该方法中,首先,接收脉码调制(PCM)音频数据,并通过应用心理声学模型2而从所接收的PCM音频数据中提取谐波分量。接下来,对已从其中去除了所提取的谐波分量的所接收PCM音频数据执行修改的离散余弦变换(MDCT)。其后,对经过MDCT的音频数据进行量化,并从量化的音频数据和提取的谐波分量产生音频分组。
也可通过一种利用谐波分量的音频编码方法实现本发明的以上和其它方面,其中首先接收和存储PCM音频数据。然后,对所存储的数据应用基于人的听觉限制特性的心理声学模型2,以获得快速傅立叶变换(FFT)结果、关于所接收数据的知觉能量信息、和用于量化的位分配信息。其后,利用FFT结果信息而从所接收的PCM音频数据中提取谐波分量。接下来,对所提取的谐波分量进行编码,并对编码的谐波分量进行解码。然后,根据知觉能量信息的值,对已从其中去除了所提取的谐波分量的所接收PCM音频数据的多个样本执行MDCT。其后,通过根据位分配信息来分配位,而对经过MDCT的音频数据进行量化。最后,从量化的经过MDCT的音频数据和编码的谐波分量产生音频分组。
也可通过一种利用谐波分量的音频编码设备实现本发明的以上和其它方面。该设备中,PCM音频数据存储单元接收和存储PCM音频数据。心理声学模型2执行单元从该PCM音频数据存储单元接收PCM音频数据,并执行心理声学模型2,以获得FFT结果信息、关于所接收数据的知觉能量信息、和用于量化的位分配信息。谐波提取单元利用FFT结果信息而从所接收的PCM音频数据中提取谐波分量。谐波编码单元对所提取的谐波分量进行编码,并输出编码的谐波分量。谐波解码单元对编码的谐波分量进行解码。MDCT单元根据该知觉能量信息,而对已从其中去除了解码的谐波分量的所存储PCM音频数据执行MDCT。量化单元根据该位分配信息而对经过MDCT的音频数据进行量化。MPEG layer III位流产生单元将量化的经过MDCT的音频数据和从谐波编码单元输出的编码的谐波分量变换为MPEG音频layerIII分组。
为了实现以上和其它方面,本发明提供了一种存储有用于执行以上方法的计算机程序的计算机可读记录介质。
附图说明
图1示出了MPEG-1 layer III音频流的格式;
图2是用于产生MPEG-1 layer III音频流的设备的方框图;
图3是图示了心理声学模型中的计算处理的流程图;
图4是根据本发明的用于产生低速MPEG-1 layer III音频流的设备的方框图;
图5是图示了基于心理声学模型2的谐波提取、谐波编码、和谐波解码的流程图;
图6A、6B、6C和6D图示了为了利用心理声学模型2中的FFT结果来提取谐波分量,而分级提取的谐波分量样本;
图7是示出了根据K值变化的限制频率范围的表格;以及
图8是图示了根据本发明的用于通过去除谐波分量而产生音频流的处理的流程图。
具体实施方式
参考图1,运动图像专家组(MPEG)-1 layer III音频流由音频存取单元(AAU,audio access unit)100组成。AAU 100是可以被独立存取的最小单元,并压缩和存储具有固定数目样本的数据。AAU 100包括报头110、循环冗余校验(CRC)120、音频数据130、和辅助数据140。
报头110存储同步字、ID信息、层信息、关于是否存在保护位的信息、位速率指数(index)信息、采样频率信息、关于是否存在填充位的信息、专用(private)位、模式信息、模式扩展信息、版权信息、关于音频流是原始音频流还是拷贝的信息、以及有关加重特性的信息。
CRC120是可选的。在报头110中定义了CRC 120的存在与否,并且CRC120的长度为6位。
音频数据130是插入压缩的音频数据的部分。
辅助数据140是当音频数据130的末端达不到AAU的末端时填满剩余空白的数据。可以将除MPEG音频之外的任意数据插入到辅助数据140中。
图2是用于产生MPEG-1 layer III音频流的设备的方框图。脉码调制(PCM)音频信号输入单元210具有存储PCM音频数据的缓冲区。这里,PCM音频信号输入单元210接收每一个由576个样本组成的区组(granule)作为PCM音频数据。
心理声学模型2执行单元220从PCM音频信号输入单元210的缓冲区接收PCM音频数据,并执行心理声学模型2。离散余弦变换(DCT)单元230接收以区组为单位的PCM音频数据,并在执行心理声学模型2的同时执行DCT操作。
修改的DCT(MDCT)单元240利用应用心理声学模型2的结果和由DCT单元230执行DCT的结果来执行MDCT。如果知觉能量大于预定阈值,则利用短窗执行MDCT。如果知觉能量小于预定阈值,则利用长窗执行MDCT。
在作为音频信号压缩技术的知觉编码中,再现信号不同于原始信号。也就是说,可以忽略人类利用人耳特性不能感知的详细信息。知觉能量表示人类能感知的能量。
量化单元250利用作为应用心理声学模型2的结果而产生的位分配信息,并利用MDCT操作的结果,来执行量化。MPEG-1 layer III位流产生单元260利用霍夫曼编码,将量化的数据变换为要插入到MPEG-1位流的音频数据区中的数据。
图3是图示了心理声学模型中的计算处理的流程图。首先,在步骤310,以每一个都由576个样本组成的区组接收PCM音频数据。接下来,在步骤320,利用所接收的PCM音频数据,形成每一个都由1024个样本组成的长窗或每一个都由256个样本组成的短窗。也就是说,一个分组由多个样本构成。
其后,在步骤330,以每次一个窗的方式,对步骤320中形成的窗,来执行快速傅立叶变换(FFT)。
然后,在步骤340,应用心理声学模型2。
在步骤350,通过应用心理声学模型2而获得知觉能量值,并将其施加到MDCT单元,而该MDCT单元选择将施加的窗。计算每个阈值带宽的信号掩蔽比(SMR)值,并将其施加到量化单元,以确定将分配的位的数目。
最后,在步骤360,利用该知觉能量值和SMR值来执行MDCT和量化。
图4是根据本发明的用于产生低速MPEG-1 layer III音频流的设备的方框图。PCM音频信号存储单元410具有其中存储有PCM音频数据的缓冲区。心理声学模型2执行单元420每次对1024个样本或256个样本执行FFT,并输出知觉能量信息和位分配信息。
如以上参考图3所述,当应用心理声学模型2时,输出知觉能量信息和依赖于SMR的位分配信息。由于心理声学模型2执行单元420执行FFT,谐波提取单元430从FFT的结果中提取谐波分量。这将稍后参考图6进行描述。
谐波编码单元440对所提取的谐波分量进行编码,并将编码的谐波分量传输到MPEG-1 layer III位流产生单元480。编码的谐波分量与量化的音频数据一起形成MPEG-1音频。稍后将详细描述谐波分量的编码处理。
谐波解码单元450对编码的谐波分量进行解码,以获得时域中的PCM数据。MDCT单元460从原始输入的PCM数据中减去解码的谐波分量,并对相减结果执行MDCT。更具体地,如果从心理声学模型2单元420中接收到的知觉能量信息值大于预定阈值,则每次对18个样本执行MDCT。如果从心理声学模型2执行单元420中接收到的知觉能量信息值等于或小于预定阈值,则每次对36个样本执行MDCT。
利用音调/非音调判决条件和在心理声学模型2中定义的听觉限制特性,来对频域中布置的数据执行谐波分量提取。这将在稍后进行详细描述。
量化单元470利用由心理声学模型2执行单元420获得的位分配信息执行量化。MPEG-1 layer III位流产生单元480对由谐波编码单元440生成的谐波分量数据和由量化单元470获得的量化音频数据进行打包,以获得压缩的音频数据。
图5是图示了基于心理声学模型2的谐波提取步骤510、谐波编码步骤520、和谐波解码步骤530的流程图。图5中心理声学模型2中执行的步骤与图3中心理声学模型2中执行的步骤相同。在提取谐波分量的步骤510中使用基于心理声学模型2执行单元而执行的FFT的结果。在步骤520中,将所提取的谐波分量编码为MPEG-1位流。现在将参考图6A到6D更详细地描述谐波提取步骤510。
图6A、6B、6C和6D图示了当利用在心理声学模型2中执行的FFT结果提取谐波分量时分级提取的样本。如果输入图6A所示的PCM音频数据,则为了确定每个数据的声压,而首先对接收的数据执行FFT。选择已获得其声压的多个所接收PCM音频数据中的一个。如果所选择的数据左侧和右侧的PCM音频数据的值小于所选择的PCM音频数据值,则仅提取所选择的PCM音频数据。将该处理施加到所有所接收的PCM音频数据。
声压是频域中样本的能量值。在本发明中,仅将声压大于预定级别的样本确定为谐波分量。因此,提取图6B所示的样本。其后,仅提取声压大于预定级别的样本。例如,如果预定级别被设置为7.0dB,则不选择声压小于7.0dB的样本,而仅剩余图6C所示的样本。剩余的样本不全部视为谐波分量,而根据图7的表格从剩余样本中提取一些样本。这样,最后,剩余了图6D所示的样本。
图7是示出了根据K值变化的限制频率范围的表格。给定K是代表频域中样本的位置的值,如果K值小于3或大于500,则出现在0的限制频率范围内的样本值为0,因此不选择。同样,如图7所示,如果K值等于或大于3并小于63,则对应的范围值设置为2。如果K值等于或大于63并小于127,则对应的范围值设置为3。如果K值等于或大于127并小于255,则对应的范围值设置为6。如果K值等于或大于255并小于500,则对应的范围值设置为12。
设置500为限是考虑到人的可听频率的限制,并基于当考虑与等于或大于500的频率对应的样本值时和不考虑它们时再现的声音质量没有差别的假设,而做出的。
结果,仅提取图6D的样本值,并确定其为谐波分量。
谐波编码520包括振幅编码、频率编码、和相位编码。这三种编码方法使用公式1和2:
Enc _ peak _ AmpMax = integer ( ( 2 8 - 1 ) log 10 ( AmpMax + 10 ) log 10 2 13 ) - - - ( 1 )
Enc _ Amp = integer ( ( 2 5 - 1 ) log 10 ( Amp + 10 ) log 10 ( AmpMax + 10 ) ) - - - ( 2 )
其中AmpMax表示峰值振幅,Enc_peak_AmpMax表示通过对AmpMax值进行编码而获得的结果值,而Amp表示除了峰值振幅之外的振幅。
在该振幅编码中,当峰值振幅被设置为值AmpMax时,首先以8位对数比例对该峰值振幅进行编码以获得公式1所示的Enc_peak AmpMax,并以5位对数比例对其它振幅Amp进行编码以获得公式2所示的Enc_Amp。
在频率编码中,考虑到人的听觉特性而仅对与范围从58(2498Hz)到372(16KHz)的值K对应的样本进行编码。由于从372减去58而得到314,所以利用9位来对这些样本进行编码。
利用3位实现相位编码。
在这样的谐波提取和谐波编码之后,对编码的谐波分量进行解码,然后经历MDCT。
图8是图示了根据本发明的用于通过去除谐波分量而产生音频流的处理的流程图。首先,在步骤810,接收并存储PCM音频数据。然后,在步骤820,将利用人的听觉限制特性的心理声学模型2施加到所存储的数据,从而获得FFT结果信息、关于所接收的数据的知觉能量信息、和用于量化的位分配信息。其后,在步骤830,利用FFT结果信息从所接收的PCM音频数据中提取谐波分量。
在以下处理中提取谐波分量。首先,利用FFT结果信息获得多个所接收的PCM音频数据中的每一个的声压。接下来,选择已获得其声压的多个所接收的PCM音频数据中的一个。如果所选择的数据的左侧和右侧的PCM音频数据的值小于所选的PCM音频数据值,则仅提取所选择的PCM音频数据。将该处理施加到所有所接收的PCM音频数据。其后,从前一步骤中提取的PCM音频数据中仅提取每一个声压大于7.0dB预定值的PCM音频数据。最后,通过从前一步骤中提取的音频数据中不选择预定频率范围内的PCM音频数据,来提取谐波分量。
在步骤830的谐波提取之后,在步骤840,对所提取的谐波分量进行编码并输出。然后,在步骤850,对所编码的谐波分量进行解码。
接下来,在步骤860,根据知觉能量信息,对已从中去除了解码的谐波分量的所接收的PCM音频数据进行MDCT。更具体地,如果知觉能量值大于预定阈值,则利用短窗,以例如每次对18个样本的方式,执行MDCT。如果知觉能量值小于预定阈值,则利用长窗,以例如每次对36个样本的方式,执行MDCT。
其后,在步骤870,通过根据位分配信息来分配位,而对MDCT结果值进行量化。
最后,在步骤880,对量化的音频数据和编码的谐波分量进行霍夫曼编码,以获得音频分组。
本发明的实施例可以写成计算机程序,并可以利用计算机可读记录介质在执行该程序的通用用途数字计算机中实现。计算机可读记录介质的例子包括磁存储介质(例如ROM、软盘、硬盘等)、光记录介质(例如CD-ROM、或DVD)、和诸如载波(例如通过因特网传输)的存储介质。
尽管已参考其优选实施例具体示出和描述了本发明,但本领域普通技术人员应该理解,在不脱离所附权利要求限定的本发明的精神和范围的情况下,可进行各种形式和细节的改变。因此,所公开的实施例应视为示例性的而非限制性的。本发明的范围不在以上描述而在所附权利要求中给出,并且在与权利要求的范围等同的范围内的所有差别应解释为包括在本发明中。
工业实用性
如上所述,在本发明中,在产生低速MPEG-1 layer III音频流时产生的量化位的数目被最小化。利用心理声学模型2中使用的FFT结果,简单地从输入音频信号中去除了谐波分量,并利用MDCT仅压缩瞬变部分。所以,可以以低速位速率有效地压缩输入音频信号。

Claims (10)

1.一种利用谐波分量的音频编码方法,该方法包括:
(a)接收脉码调制(PCM)音频数据,并通过应用心理声学模型2而从所接收的PCM音频数据中提取谐波分量;
(b)对已从其中去除了所提取的谐波分量的所接收PCM音频数据执行修改的离散余弦变换(MDCT);以及
(c)对经过MDCT的音频数据进行量化,并从量化的音频数据和提取的谐波分量中产生音频分组。
2.一种利用谐波分量的音频编码方法,该方法包括:
(a)接收和存储PCM音频数据,并基于人的听觉限制特性而将心理声学模型2应用于所存储的数据,以获得快速傅立叶变换(FFT)结果、关于所接收的数据的知觉能量信息、和用于量化的位分配信息;
(b)利用该FFT结果信息而从所接收的PCM音频数据中提取谐波分量;
(c)对所提取的谐波分量进行编码、输出编码的谐波分量、并对编码的谐波分量进行解码;
(d)根据知觉能量信息的值,对已从其中去除了所提取的谐波分量的所接收PCM音频数据的多个样本执行MDCT;
(e)通过根据位分配信息来分配位,而对经过MDCT的音频数据进行量化;以及
(f)从量化的经过MDCT的音频数据和编码的谐波分量产生音频分组。
3.根据权利要求2的音频编码方法,其中步骤(b)包括:
(b1)利用该FFT结果信息获得所述多个所接收PCM音频数据的声压;
(b2)从已获得其声压的多个PCM音频数据中选择数据值,并且第一次,如果所选择的PCM音频数据值的右侧和左侧的PCM音频数据值小于所选择的PCM音频数据值,则仅提取所选择的PCM音频数据;
(b3)将步骤(b2)施加到所有所接收的PCM音频数据;
(b4)第二次,从第一次提取的PCM音频数据中仅提取其声压大于预定声压的PCM音频数据;以及
(b5)在步骤(b4)中第二次提取的PCM音频数据中,根据频率位置,不选择存在于预定频率范围内的PCM音频数据。
4.根据权利要求3的音频编码方法,其中步骤b5中的预定声压为7.0dB。
5.根据权利要求2的音频编码方法,其中在步骤(d)中,如果知觉能量信息的值大于预定阈值,则每次对18个样本执行MDCT,或者如果知觉能量信息的值小于预定阈值,则每次对36个样本执行MDCT。
6.一种利用谐波分量的音频编码设备,该设备包括:
PCM音频数据存储单元,用于接收和存储PCM音频数据;
心理声学模型2执行单元,用于从该PCM音频数据存储单元接收PCM音频数据,并执行心理声学模型2,以获得FFT结果信息、关于所接收数据的知觉能量信息、和用于量化的位分配信息;
谐波提取单元,用于利用FFT结果信息而从所接收的PCM音频数据中提取谐波分量;
谐波编码单元,用于对所提取的谐波分量进行编码,并输出编码的谐波分量;
谐波解码单元,用于对编码的谐波分量进行解码;
MDCT单元,用于根据知觉能量信息,对已从其中去除了解码的谐波分量的所存储PCM音频数据执行MDCT;
量化单元,用于根据位分配信息,对经过MDCT的音频数据进行量化;以及
MPEG层III位流产生单元,用于将已量化的经过MDCT的音频数据和从谐波编码单元输出的编码的谐波分量变换为MPEG音频层III分组。
7.根据权利要求6的音频编码设备,其中该谐波提取单元通过以下步骤执行谐波提取:
利用FFT结果信息获得所述多个所接收PCM音频数据的声压,从已获得其声压的多个PCM音频数据中选择数据,并且第一次,如果所选择的PCM音频数据的右侧和左侧的PCM音频数据值小于所选择的PCM音频数据值,则仅提取所选择的PCM音频数据;
对所有所接收的PCM音频数据施加第一次提取,并且第二次,从第一次提取的PCM音频数据中仅提取其声压大于预定声压的PCM音频数据;以及
从第二次提取的PCM音频数据中,根据频率位置而丢弃存在于预定频率范围内的PCM音频数据。
8.根据权利要求6的音频编码设备,其中如果知觉能量信息的值大于预定阈值,则该MDCT单元每次对18个样本执行MDCT,或者如果知觉能量信息的值小于预定阈值,则该MDCT单元每次对36个样本执行MDCT。
9.一种存储用于执行权利要求1的计算机程序的计算机可读记录介质。
10.一种存储用于执行权利要求2的计算机程序的计算机可读记录介质。
CNB028293487A 2002-06-27 2002-12-12 利用谐波提取的音频编码方法和设备 Expired - Fee Related CN1262990C (zh)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
KR10-2002-0036310A KR100462611B1 (ko) 2002-06-27 2002-06-27 하모닉 성분을 이용한 오디오 코딩방법 및 장치
KR2002/36310 2002-06-27

Publications (2)

Publication Number Publication Date
CN1639769A true CN1639769A (zh) 2005-07-13
CN1262990C CN1262990C (zh) 2006-07-05

Family

ID=27607091

Family Applications (1)

Application Number Title Priority Date Filing Date
CNB028293487A Expired - Fee Related CN1262990C (zh) 2002-06-27 2002-12-12 利用谐波提取的音频编码方法和设备

Country Status (9)

Country Link
US (1) US20040002854A1 (zh)
JP (1) JP2005531014A (zh)
KR (1) KR100462611B1 (zh)
CN (1) CN1262990C (zh)
CA (1) CA2490064A1 (zh)
DE (1) DE10297751B4 (zh)
GB (1) GB2408184B (zh)
RU (1) RU2289858C2 (zh)
WO (1) WO2003063135A1 (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2009121298A1 (zh) * 2008-04-03 2009-10-08 华为技术有限公司 编码方法、解码方法、系统及装置
CN101542599B (zh) * 2006-11-28 2013-08-21 三星电子株式会社 用于编码和解码宽带语音信号的方法、装置和系统

Families Citing this family (19)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20080120097A1 (en) * 2004-03-30 2008-05-22 Guy Fleishman Apparatus and Method for Digital Coding of Sound
WO2007075098A1 (en) 2005-12-26 2007-07-05 Intel Corporation Generalized multi-threshold decoder for low-density parity check codes
WO2005096509A1 (en) 2004-03-31 2005-10-13 Intel Corporation Multi-threshold message passing decoding of low-density parity check codes
JP5036317B2 (ja) 2004-10-28 2012-09-26 パナソニック株式会社 スケーラブル符号化装置、スケーラブル復号化装置、およびこれらの方法
WO2006073324A1 (en) 2004-12-29 2006-07-13 Intel Corporation Channel estimation and fixed thresholds for multi-threshold decoding of low-density parity check codes
KR100707186B1 (ko) * 2005-03-24 2007-04-13 삼성전자주식회사 오디오 부호화 및 복호화 장치와 그 방법 및 기록 매체
JP4720302B2 (ja) * 2005-06-07 2011-07-13 トヨタ自動車株式会社 自動変速機のクラッチ装置
KR100684029B1 (ko) * 2005-09-13 2007-02-20 엘지전자 주식회사 푸리에 변환을 이용한 배음 생성 방법 및 이를 위한 장치,다운 샘플링에 의한 배음 생성 방법 및 이를 위한 장치와소리 보정 방법 및 이를 위한 장치
RU2439721C2 (ru) 2007-06-11 2012-01-10 Фраунхофер-Гезелльшафт цур Фёрдерунг дер ангевандтен Аудиокодер для кодирования аудиосигнала, имеющего импульсоподобную и стационарную составляющие, способы кодирования, декодер, способ декодирования и кодированный аудиосигнал
RU2464540C2 (ru) * 2007-12-13 2012-10-20 Квэлкомм Инкорпорейтед Быстрые алгоритмы для вычисления 5-точечного dct-ii, dct-iv и dst-iv, и архитектуры
US8631060B2 (en) 2007-12-13 2014-01-14 Qualcomm Incorporated Fast algorithms for computation of 5-point DCT-II, DCT-IV, and DST-IV, and architectures
BR122021003142B1 (pt) * 2008-07-11 2021-11-03 Fraunhofer-Gesellschaft Zur Forderung Der Angewandten Forschung E. V. Codificador de áudio, decodificador de áudio, métodos para codificar e decodificar um sinal de áudio, e fluxo de áudio
EP3937167B1 (en) 2008-07-11 2023-05-10 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Audio encoder and audio decoder
CN101751928B (zh) * 2008-12-08 2012-06-13 扬智科技股份有限公司 应用音频帧频谱平坦度简化声学模型分析的方法及其装置
TWI451403B (zh) 2009-10-20 2014-09-01 Fraunhofer Ges Forschung 音訊編碼器、音訊解碼器、用以將音訊資訊編碼之方法、用以將音訊資訊解碼之方法及使用區域從屬算術編碼對映規則之電腦程式
TWI476760B (zh) * 2011-02-14 2015-03-11 Fraunhofer Ges Forschung 用以使用暫態檢測及品質結果將音訊信號的部分編碼之裝置與方法
MX2013013261A (es) * 2011-05-13 2014-02-20 Samsung Electronics Co Ltd Asignacion de bits, codificacion y decodificacion de audio.
RU2464649C1 (ru) * 2011-06-01 2012-10-20 Корпорация "САМСУНГ ЭЛЕКТРОНИКС Ко., Лтд." Способ обработки звукового сигнала
CN103516440B (zh) 2012-06-29 2015-07-08 华为技术有限公司 语音频信号处理方法和编码装置

Family Cites Families (26)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5023910A (en) * 1988-04-08 1991-06-11 At&T Bell Laboratories Vector quantization in a harmonic speech coding arrangement
JPH0364800A (ja) * 1989-08-03 1991-03-20 Ricoh Co Ltd 音声符号化及び復号化方式
JP3266920B2 (ja) * 1991-09-25 2002-03-18 三菱電機株式会社 音声符号化装置及び音声復号化装置並びに音声符号化復号化装置
US5285498A (en) * 1992-03-02 1994-02-08 At&T Bell Laboratories Method and apparatus for coding audio signals based on perceptual model
ATE211326T1 (de) * 1993-05-31 2002-01-15 Sony Corp Verfahren und vorrichtung zum kodieren oder dekodieren von signalen und aufzeichnungsmedium
BR9405445A (pt) * 1993-06-30 1999-09-08 Sony Corp Aparelho codificador e decodificador de sinal apropriado para codificar um sinal de entrada e decodificar um sinal codificado, suporte de gravação onde sinais codificados são gravados, e processo de codificação e de decodificação de sinal para codificar um sinal de entrada e decodificar um sinal codificado.
JPH0736486A (ja) * 1993-07-22 1995-02-07 Matsushita Electric Ind Co Ltd 音声符号化装置
JP3131542B2 (ja) * 1993-11-25 2001-02-05 シャープ株式会社 符号化復号化装置
TW321810B (zh) * 1995-10-26 1997-12-01 Sony Co Ltd
JP2778567B2 (ja) * 1995-12-23 1998-07-23 日本電気株式会社 信号符号化装置及び方法
JPH09246983A (ja) * 1996-03-08 1997-09-19 Nec Eng Ltd ディジタル信号処理装置
JPH10178349A (ja) * 1996-12-19 1998-06-30 Matsushita Electric Ind Co Ltd オーディオ信号の符号化方法および復号方法
KR19980072457A (ko) * 1997-03-05 1998-11-05 이준우 오디오 신호의 압축시 심리음향에서의 신호처리방법 및 그 장치
US5930373A (en) * 1997-04-04 1999-07-27 K.S. Waves Ltd. Method and system for enhancing quality of sound signal
DE19742201C1 (de) * 1997-09-24 1999-02-04 Fraunhofer Ges Forschung Verfahren und Vorrichtung zum Codieren von Audiosignalen
CA2246532A1 (en) * 1998-09-04 2000-03-04 Northern Telecom Limited Perceptual audio coding
KR100300887B1 (ko) * 1999-02-24 2001-09-26 유수근 디지털 오디오 데이터의 역방향 디코딩 방법
JP2000267700A (ja) * 1999-03-17 2000-09-29 Yrp Kokino Idotai Tsushin Kenkyusho:Kk 音声符号化復号方法および装置
JP2000276194A (ja) * 1999-03-25 2000-10-06 Yamaha Corp 波形圧縮方法及び波形生成方法
US6377916B1 (en) * 1999-11-29 2002-04-23 Digital Voice Systems, Inc. Multiband harmonic transform coder
DE10000934C1 (de) * 2000-01-12 2001-09-27 Fraunhofer Ges Forschung Vorrichtung und Verfahren zum Bestimmen eines Codierungs-Blockrasters eines decodierten Signals
JP4055336B2 (ja) * 2000-07-05 2008-03-05 日本電気株式会社 音声符号化装置及びそれに用いる音声符号化方法
KR100348899B1 (ko) * 2000-09-19 2002-08-14 한국전자통신연구원 캡스트럼 분석을 이용한 하모닉 노이즈 음성 부호화기 및부호화 방법
KR100378796B1 (ko) * 2001-04-03 2003-04-03 엘지전자 주식회사 디지탈 오디오 부호화기 및 복호화 방법
US6732071B2 (en) * 2001-09-27 2004-05-04 Intel Corporation Method, apparatus, and system for efficient rate control in audio encoding
KR100472442B1 (ko) * 2002-02-16 2005-03-08 삼성전자주식회사 웨이브렛 패킷 변환을 이용한 오디오 압축 방법 및 그시스템

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101542599B (zh) * 2006-11-28 2013-08-21 三星电子株式会社 用于编码和解码宽带语音信号的方法、装置和系统
WO2009121298A1 (zh) * 2008-04-03 2009-10-08 华为技术有限公司 编码方法、解码方法、系统及装置

Also Published As

Publication number Publication date
WO2003063135A1 (en) 2003-07-31
CN1262990C (zh) 2006-07-05
DE10297751B4 (de) 2005-12-22
GB2408184A (en) 2005-05-18
DE10297751T5 (de) 2005-07-07
RU2289858C2 (ru) 2006-12-20
KR20040001184A (ko) 2004-01-07
KR100462611B1 (ko) 2004-12-20
JP2005531014A (ja) 2005-10-13
CA2490064A1 (en) 2003-07-31
GB0427660D0 (en) 2005-01-19
US20040002854A1 (en) 2004-01-01
GB2408184B (en) 2006-01-04
RU2004138088A (ru) 2005-06-27

Similar Documents

Publication Publication Date Title
CN1262990C (zh) 利用谐波提取的音频编码方法和设备
CN1110145C (zh) 可变规模语音编码/解码的方法和装置
CN103258541B (zh) 音频解码方法
CN101055720A (zh) 对音频信号编码和解码的方法和设备
CN1154085C (zh) 可变规模语音编码/解码的方法和装置
CN1684523A (zh) 用于编码/解码具有辅助信息的音频比特流的方法和设备
JP2006011456A (ja) 低ビット率符号化/復号化方法及び装置並びにコンピュータ可読媒体
CN101030373A (zh) 使用自适应掩蔽阈值的立体声感知音频编码的系统和方法
CN1756086A (zh) 多通道音频数据编码/解码方法和设备
JP2005338850A (ja) デジタル信号の符号化方法及び装置ならびに復号化方法及び装置
CN1945695A (zh) 对音频信号编码/解码的方法和设备
CN1866355A (zh) 声音编码装置和声音解码装置
CN1767394A (zh) 对音频信号进行编码和解码的方法和设备
JP2005531014A5 (zh)
JP5587599B2 (ja) 量子化方法、符号化方法、量子化装置、符号化装置、逆量子化方法、復号化方法、逆量子化装置、復号化装置、処理装置
CN1822185A (zh) 音频编码及解码的方法及其装置
CN1266672C (zh) 用较少的计算量重构高频分量的声频解码方法和装置
WO2006125342A1 (fr) Procede de compression d'information pour fichier audio numerique
JP2005328533A (ja) 区間別の線形量子化を利用したデジタル信号符号化/復号化方法及び装置
CN1485849A (zh) 数字音频编码器及解码方法
CN1138254C (zh) 一种基于小波变换的音频信号压缩编/解码方法
US20080133250A1 (en) Method and Related Device for Improving the Processing of MP3 Decoding and Encoding
CN1273955C (zh) 采用带宽扩展技术编码和/或解码音频数据的方法和装置
CN100343895C (zh) 音频编码方法和装置,音频解码方法和装置
CN1388517A (zh) 一种基于伪小波滤波的音频编/解码技术

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
CF01 Termination of patent right due to non-payment of annual fee
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20060705

Termination date: 20171212