CN1262990C - 利用谐波提取的音频编码方法和设备 - Google Patents
利用谐波提取的音频编码方法和设备 Download PDFInfo
- Publication number
- CN1262990C CN1262990C CNB028293487A CN02829348A CN1262990C CN 1262990 C CN1262990 C CN 1262990C CN B028293487 A CNB028293487 A CN B028293487A CN 02829348 A CN02829348 A CN 02829348A CN 1262990 C CN1262990 C CN 1262990C
- Authority
- CN
- China
- Prior art keywords
- voice data
- pulse
- code modulation
- harmonic component
- modulation voice
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
- 238000000034 method Methods 0.000 title claims abstract description 41
- 238000000605 extraction Methods 0.000 title claims description 14
- 239000000284 extract Substances 0.000 claims description 22
- 230000006835 compression Effects 0.000 claims description 13
- 238000007906 compression Methods 0.000 claims description 13
- 238000011002 quantification Methods 0.000 claims description 8
- 238000013500 data storage Methods 0.000 claims description 4
- 238000012986 modification Methods 0.000 claims description 3
- 230000004048 modification Effects 0.000 claims description 3
- 241001269238 Data Species 0.000 claims 2
- 230000005236 sound signal Effects 0.000 abstract description 17
- 238000013139 quantization Methods 0.000 abstract description 4
- 230000009466 transformation Effects 0.000 abstract 1
- 238000010586 diagram Methods 0.000 description 6
- 238000012545 processing Methods 0.000 description 5
- 238000005070 sampling Methods 0.000 description 4
- 230000001052 transient effect Effects 0.000 description 3
- 238000004590 computer program Methods 0.000 description 2
- 238000003672 processing method Methods 0.000 description 2
- 210000000352 storage cell Anatomy 0.000 description 2
- 238000004458 analytical method Methods 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 210000004027 cell Anatomy 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 125000004122 cyclic group Chemical group 0.000 description 1
- 239000000945 filler Substances 0.000 description 1
- 239000008187 granular material Substances 0.000 description 1
- 230000000873 masking effect Effects 0.000 description 1
- 239000000203 mixture Substances 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 230000008520 organization Effects 0.000 description 1
- 230000008447 perception Effects 0.000 description 1
- 238000012797 qualification Methods 0.000 description 1
- JLGLQAWTXXGVEM-UHFFFAOYSA-N triethylene glycol monomethyl ether Chemical compound COCCOCCOCCO JLGLQAWTXXGVEM-UHFFFAOYSA-N 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/02—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
-
- H—ELECTRICITY
- H03—ELECTRONIC CIRCUITRY
- H03M—CODING; DECODING; CODE CONVERSION IN GENERAL
- H03M7/00—Conversion of a code where information is represented by a given sequence or number of digits to a code where the same, similar or subset of information is represented by a different sequence or number of digits
- H03M7/30—Compression; Expansion; Suppression of unnecessary data, e.g. redundancy reduction
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- Signal Processing (AREA)
- Health & Medical Sciences (AREA)
- Human Computer Interaction (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Spectroscopy & Molecular Physics (AREA)
- Theoretical Computer Science (AREA)
- Compression, Expansion, Code Conversion, And Decoders (AREA)
- Transmission Systems Not Characterized By The Medium Used For Transmission (AREA)
Abstract
一种用于将音频信号有效地编码为低速位速率的运动图像专家组(MPEG)-1 layer III音频信号的方法和设备。在该音频编码方法中,利用通过将心理声学模型2应用于所接收的脉码调制(PCM)音频数据而获得的快速傅立叶变换(FFT)结果信息来提取谐波分量。然后,从所接收的PCM音频数据中去除所提取的谐波分量。其后,对已从其中去除了所提取的谐波分量的PCM音频数据进行修改的离散余弦变换(MDCT)和量化。因此,即使利用少量分配的位也能实现有效编码。
Description
技术领域
本发明涉及一种压缩音频信号的方法,更具体地,涉及一种用于以低速位速率将音频信号有效压缩为MPEG-1 layer(层)-3音频信号的方法和设备。
背景技术
运动图像专家组-1(MPEG-1)建立了关于数字视频压缩和数字音频压缩的标准,并为国际标准化组织(ISO)所支持。MPEG-1音频标准用于压缩以44.1Khz采样率采样并存储在60分钟或72分钟CD上的16位音频,并根据压缩方法和编解码(codec)的复杂性而分类为3层。
层III最复杂,使用比层II多得多的滤波器,并采用霍夫曼(Huffman)编码。当以112Kbps编码时,可以听到质量很好的声音。当以128Kbps编码时,可以获得与原始声音几乎相同的声音。当以160Kbps或192Kbps编码时,可以听到人耳无法与原始声音区别开来的特别好的声音。通常,MPEG-3 layer-3音频称作MP3音频。
MP3音频通过离散余弦变换(DCT)、基于心理声学(psychoacoustic)模型2的位分配、量化等而产生。更具体地,在保持用于压缩音频数据的位数为最小的同时,利用心理声学模型2的结果来执行修改的DCT(MDCT)。
在音频压缩技术中,人的耳朵是最重要的。如果声音强度等于或低于预定级别,人耳就听不到。如果某人在办公室里大声说话,则可以容易地识别谁在说话。然而,如果这时飞机经过,则不能听到该谈话。即使在飞机经过后,因为回绕声音,仍然不能听到该谈话。因此,在心理声学模型2中,从具有等于或大于与安静时对应的最小可听限度的音量的数据中采样具有等于或大于掩蔽阈值的音量的数据。对于每一子带执行该采样。
然而,当以不高于64Kbps的低速位速率压缩声音信号时,心理声学模型2是不适合的,因为用于量化诸如前回声信号的信号的位数有限。因此,为了克服低速MP3音频引起的这个问题,本发明提供了一种通过利用心理声学模型2中采用的快速傅立叶变换(FFT)来从原始信号中去除谐波分量并利用MDCT仅压缩瞬态分量而有效处理低速音频信号的方法。
在传统心理声学模型中采用的FFT处理中,仅执行信号分析,而使用FFT的结果。由于FFT的结果不用于信号压缩,可以视其为资源浪费。
韩国专利公开第1995-022322号中公开了一种采用心理声学模型的位分配方法。然而,该公开的方法与本发明的方法不同,因为本发明通过利用心理声学模型中采用的FFT结果从原始信号中去除谐波分量,来提高压缩效率。
韩国专利公开第1998-072457号中公开了一种心理声学模型2中的信号处理方法和设备,利用该方法和设备,通过在压缩音频信号的同时降低计算过载而显著降低计算量。也就是说,该公开的信号处理方法包括利用FFT结果获得单独掩蔽边界值的步骤、选择全局掩蔽边界值的步骤、以及移动到下一频率位置的步骤。该方法与本发明的相同之处在于都使用FFT结果值,而不同之处在于其使用不同的量化方法。
美国专利第5,930,373号中公开了一种利用低频信号的残余谐波来增强声音信号质量的方法。然而,该公开的方法与根据本发明的量化方法的差别在于它们使用不同的利用残余谐波的技术。
发明内容
为了解决以上和其它问题,本发明一个方面提供了一种通过利用心理声学模型2中采用的快速傅立叶变换(FFT)的结果,从原始音频信号中去除谐波分量,并利用修改的离散余弦变换(MDCT)仅压缩剩余瞬态分量,而有效处理低速音频信号的方法。
通过一种利用谐波分量的音频编码方法实现本发明的以上和其它方面。在该方法中,首先,接收脉码调制(PCM)音频数据,并通过应用心理声学模型2而从所接收的PCM音频数据中提取谐波分量。接下来,对已从其中去除了所提取的谐波分量的所接收PCM音频数据执行修改的离散余弦变换(MDCT)。其后,对经过MDCT的音频数据进行量化,并从量化的音频数据和提取的谐波分量产生音频分组。
也可通过一种利用谐波分量的音频编码方法实现本发明的以上和其它方面,其中首先接收和存储PCM音频数据。然后,对所存储的数据应用基于人的听觉限制特性的心理声学模型2,以获得快速傅立叶变换(FFT)结果、关于所接收数据的知觉能量信息、和用于量化的位分配信息。其后,利用FFT结果信息而从所接收的PCM音频数据中提取谐波分量。接下来,对所提取的谐波分量进行编码,并对编码的谐波分量进行解码。然后,根据知觉能量信息的值,对已从其中去除了所提取的谐波分量的所接收PCM音频数据的多个样本执行MDCT。其后,通过根据位分配信息来分配位,而对经过MDCT的音频数据进行量化。最后,从量化的经过MDCT的音频数据和编码的谐波分量产生音频分组。
也可通过一种利用谐波分量的音频编码设备实现本发明的以上和其它方面。该设备中,PCM音频数据存储单元接收和存储PCM音频数据。心理声学模型2执行单元从该PCM音频数据存储单元接收PCM音频数据,并执行心理声学模型2,以获得FFT结果信息、关于所接收数据的知觉能量信息、和用于量化的位分配信息。谐波提取单元利用FFT结果信息而从所接收的PCM音频数据中提取谐波分量。谐波编码单元对所提取的谐波分量进行编码,并输出编码的谐波分量。谐波解码单元对编码的谐波分量进行解码。MDCT单元根据该知觉能量信息,而对已从其中去除了解码的谐波分量的所存储PCM音频数据执行MDCT。量化单元根据该位分配信息而对经过MDCT的音频数据进行量化。MPEG层III位流产生单元用于将已量化的经过MDCT的音频数据和从谐波编码单元输出的编码的谐波分量进行打包,以获得压缩的音频数据。
为了实现以上和其它方面,本发明提供了一种存储有用于执行以上方法的计算机程序的计算机可读记录介质。
附图说明
图1示出了MPEG-1 layer III音频流的格式;
图2是用于产生MPEG-1 layer III音频流的设备的方框图;
图3是图示了心理声学模型中的计算处理的流程图;
图4是根据本发明的用于产生低速MPEG-1 layer III音频流的设备的方框图;
图5是图示了基于心理声学模型2的谐波提取、谐波编码、和谐波解码的流程图;
图6A、6B、6C和6D图示了为了利用心理声学模型2中的FFT结果来提取谐波分量,而分级提取的谐波分量样本;
图7是示出了根据K值变化的限制频率范围的表格;以及
图8是图示了根据本发明的用于通过去除谐波分量而产生音频流的处理的流程图。
具体实施方式
参考图1,运动图像专家组(MPEG)-1 layer III音频流由音频存取单元(AAU,audio access unit)100组成。AAU 100是可以被独立存取的最小单元,并压缩和存储具有固定数目样本的数据。AAU 100包括报头110、循环冗余校验(CRC)120、音频数据130、和辅助数据140。
报头110存储同步字、ID信息、层信息、关于是否存在保护位的信息、位速率指数(index)信息、采样频率信息、关于是否存在填充位的信息、专用(private)位、模式信息、模式扩展信息、版权信息、关于音频流是原始音频流还是拷贝的信息、以及有关加重特性的信息。
CRC 120是可选的。在报头110中定义了CRC 120的存在与否,并且CRC120的长度为6位。
音频数据130是插入压缩的音频数据的部分。
辅助数据140是当音频数据130的末端达不到AAU的末端时填满剩余空白的数据。可以将除MPEG音频之外的任意数据插入到辅助数据140中。
图2是用于产生MPEG-1 layer III音频流的设备的方框图。脉码调制(PCM)音频信号输入单元210具有存储PCM音频数据的缓冲区。这里,PCM音频信号输入单元210接收每一个由576个样本组成的区组(granule)作为PCM音频数据。
心理声学模型2执行单元220从PCM音频信号输入单元210的缓冲区接收PCM音频数据,并执行心理声学模型2。离散余弦变换(DCT)单元230接收以区组为单位的PCM音频数据,并在执行心理声学模型2的同时执行DCT操作。
修改的DCT(MDCT)单元240利用应用心理声学模型2的结果和由DCT单元230执行DCT的结果来执行MDCT。如果知觉能量大于预定阈值,则利用短窗执行MDCT。如果知觉能量小于预定阈值,则利用长窗执行MDCT。
在作为音频信号压缩技术的知觉编码中,再现信号不同于原始信号。也就是说,可以忽略人类利用人耳特性不能感知的详细信息。知觉能量表示人类能感知的能量。
量化单元250利用作为应用心理声学模型2的结果而产生的位分配信息,并利用MDCT操作的结果,来执行量化。MPEG-1 layer III位流产生单元260利用霍夫曼编码,将量化的数据变换为要插入到MPEG-1位流的音频数据区中的数据。
图3是图示了心理声学模型中的计算处理的流程图。首先,在步骤310,以每一个都由576个样本组成的区组接收PCM音频数据。接下来,在步骤320,利用所接收的PCM音频数据,形成每一个都由1024个样本组成的长窗或每一个都由256个样本组成的短窗。也就是说,一个分组由多个样本构成。
其后,在步骤330,以每次一个窗的方式,对步骤320中形成的窗,来执行快速傅立叶变换(FFT)。
然后,在步骤340,应用心理声学模型2。
在步骤350,通过应用心理声学模型2而获得知觉能量值,并将其施加到MDCT单元,而该MDCT单元选择将施加的窗。计算每个阈值带宽的信号掩蔽比(SMR)值,并将其施加到量化单元,以确定将分配的位的数目。
最后,在步骤360,利用该知觉能量值和SMR值来执行MDCT和量化。
图4是根据本发明的用于产生低速MPEG-1 layerIII音频流的设备的方框图。PCM音频信号存储单元410具有其中存储有PCM音频数据的缓冲区。心理声学模型2执行单元420每次对1024个样本或256个样本执行FFT,并输出知觉能量信息和位分配信息。
如以上参考图3所述,当应用心理声学模型2时,输出知觉能量信息和依赖于SMR的位分配信息。由于心理声学模型2执行单元420执行FFT,谐波提取单元430从FFT的结果中提取谐波分量。这将稍后参考图6进行描述。
谐波编码单元440对所提取的谐波分量进行编码,并将编码的谐波分量传输到MPEG-1 layer III位流产生单元480。编码的谐波分量与量化的音频数据一起形成MPEG-1音频。稍后将详细描述谐波分量的编码处理。
谐波解码单元450对编码的谐波分量进行解码,以获得时域中的PCM数据。MDCT单元460从原始输入的PCM数据中减去解码的谐波分量,并对相减结果执行MDCT。更具体地,如果从心理声学模型2单元420中接收到的知觉能量信息值大于预定阈值,则每次对18个样本执行MDCT。如果从心理声学模型2执行单元420中接收到的知觉能量信息值等于或小于预定阈值,则每次对36个样本执行MDCT。
利用音调/非音调判决条件和在心理声学模型2中定义的听觉限制特性,来对频域中布置的数据执行谐波分量提取。这将在稍后进行详细描述。
量化单元470利用由心理声学模型2执行单元420获得的位分配信息执行量化。MPEG-1 layer III位流产生单元480对由谐波编码单元440生成的谐波分量数据和由量化单元470获得的量化音频数据进行打包,以获得压缩的音频数据。
图5是图示了基于心理声学模型2的谐波提取步骤510、谐波编码步骤520、和谐波解码步骤530的流程图。图5中心理声学模型2中执行的步骤与图3中心理声学模型2中执行的步骤相同。在提取谐波分量的步骤510中使用基于心理声学模型2执行单元而执行的FFT的结果。在步骤520中,将所提取的谐波分量编码为MPEG-1位流。现在将参考图6A到6D更详细地描述谐波提取步骤510。
图6A、6B、6C和6D图示了当利用在心理声学模型2中执行的FFT结果提取谐波分量时分级提取的样本。如果输入图6A所示的PCM音频数据,则为了确定每个数据的声压,而首先对接收的数据执行FFT。选择已获得其声压的多个所接收PCM音频数据中的一个。如果所选择的数据左侧和右侧的PCM音频数据的值小于所选择的PCM音频数据值,则仅提取所选择的PCM音频数据。将该处理施加到所有所接收的PCM音频数据。
声压是频域中样本的能量值。在本发明中,仅将声压大于预定级别的样本确定为谐波分量。因此,提取图6B所示的样本。其后,仅提取声压大于预定级别的样本。例如,如果预定级别被设置为7.0dB,则不选择声压小于7.0dB的样本,而仅剩余图6C所示的样本。剩余的样本不全部视为谐波分量,而根据图7的表格从剩余样本中提取一些样本。这样,最后,剩余了图6D所示的样本。
图7是示出了根据K值变化的限制频率范围的表格。给定K是代表频域中样本的位置的值,如果K值小于3或大于500,则出现在0的限制频率范围内的样本值为0,因此不选择。同样,如图7所示,如果K值等于或大于3并小于63,则对应的范围值设置为2。如果K值等于或大于63并小于127,则对应的范围值设置为3。如果K值等于或大于127并小于255,则对应的范围值设置为6。如果K值等于或大于255并小于500,则对应的范围值设置为12。
设置500为限是考虑到人的可听频率的限制,并基于当考虑与等于或大于500的频率对应的样本值时和不考虑它们时再现的声音质量没有差别的假设,而做出的。
结果,仅提取图6D的样本值,并确定其为谐波分量。
谐波编码520包括振幅编码、频率编码、和相位编码。这三种编码方法使用公式1和2:
其中AmpMax表示峰值振幅,Enc_peak_AmpMax表示通过对AmpMax值进行编码而获得的结果值,而Amp表示除了峰值振幅之外的振幅。
在该振幅编码中,当峰值振幅被设置为值AmpMax时,首先以8位对数比例对该峰值振幅进行编码以获得公式1所示的Enc_peak_AmpMax,并以5位对数比例对其它振幅Amp进行编码以获得公式2所示的Enc_Amp。
在频率编码中,考虑到人的听觉特性而仅对与范围从58(2498Hz)到372(16KHz)的值K对应的样本进行编码。由于从372减去58而得到314,所以利用9位来对这些样本进行编码。
利用3位实现相位编码。
在这样的谐波提取和谐波编码之后,对编码的谐波分量进行解码,然后经历MDCT。
图8是图示了根据本发明的用于通过去除谐波分量而产生音频流的处理的流程图。首先,在步骤810,接收并存储PCM音频数据。然后,在步骤820,将利用人的听觉限制特性的心理声学模型2施加到所存储的数据,从而获得FFT结果信息、关于所接收的数据的知觉能量信息、和用于量化的位分配信息。其后,在步骤830,利用FFT结果信息从所接收的PCM音频数据中提取谐波分量。
在以下处理中提取谐波分量。首先,利用FFT结果信息获得多个所接收的PCM音频数据中的每一个的声压。接下来,选择已获得其声压的多个所接收的PCM音频数据中的一个。如果所选择的数据的左侧和右侧的PCM音频数据的值小于所选的PCM音频数据值,则仅提取所选择的PCM音频数据。将该处理施加到所有所接收的PCM音频数据。其后,从前一步骤中提取的PCM音频数据中仅提取每一个声压大于7.0dB预定值的PCM音频数据。最后,通过从前一步骤中提取的音频数据中不选择预定频率范围内的PCM音频数据,来提取谐波分量。
在步骤830的谐波提取之后,在步骤840,对所提取的谐波分量进行编码并输出。然后,在步骤850,对所编码的谐波分量进行解码。
接下来,在步骤860,根据知觉能量信息,对已从中去除了解码的谐波分量的所接收的PCM音频数据进行MDCT。更具体地,如果知觉能量值大于预定阈值,则利用短窗,以例如每次对18个样本的方式,执行MDCT。如果知觉能量值小于预定阈值,则利用长窗,以例如每次对36个样本的方式,执行MDCT。
其后,在步骤870,通过根据位分配信息来分配位,而对MDCT结果值进行量化。
最后,在步骤880,对量化的音频数据和编码的谐波分量进行霍夫曼编码,以获得音频分组。
本发明的实施例可以写成计算机程序,并可以利用计算机可读记录介质在执行该程序的通用用途数字计算机中实现。计算机可读记录介质的例子包括磁存储介质(例如ROM、软盘、硬盘等)、光记录介质(例如CD-ROM、或DVD)、和诸如载波(例如通过因特网传输)的存储介质。
尽管已参考其优选实施例具体示出和描述了本发明,但本领域普通技术人员应该理解,在不脱离所附权利要求限定的本发明的精神和范围的情况下,可进行各种形式和细节的改变。因此,所公开的实施例应视为示例性的而非限制性的。本发明的范围不在以上描述而在所附权利要求中给出,并且在与权利要求的范围等同的范围内的所有差别应解释为包括在本发明中。
工业实用性
如上所述,在本发明中,在产生低速MPEG-1 layer III音频流时产生的量化位的数目被最小化。利用心理声学模型2中使用的FFT结果,简单地从输入音频信号中去除了谐波分量,并利用MDCT仅压缩瞬变部分。所以,可以以低速位速率有效地压缩输入音频信号。
Claims (8)
1.一种利用谐波分量的音频编码方法,该方法包括:
(a)接收脉码调制音频数据,并通过应用心理声学模型2而从所接收的脉码调制音频数据中提取谐波分量;
(b)对已从其中去除了所提取的谐波分量的所接收脉码调制音频数据执行修改的离散余弦变换;以及
(c)对经过修改的离散余弦变换的音频数据进行量化,并从量化的音频数据和提取的谐波分量中产生音频分组。
2.一种利用谐波分量的音频编码方法,该方法包括:
(a)接收和存储脉码调制音频数据,并基于人的听觉限制特性而将心理声学模型2应用于所存储的数据,以获得快速傅立叶变换结果、关于所接收的数据的知觉能量信息、和用于量化的位分配信息;
(b)利用该快速傅立叶变换结果信息而从所接收的脉码调制音频数据中提取谐波分量;
(c)对所提取的谐波分量进行编码、输出编码的谐波分量、并对编码的谐波分量进行解码;
(d)根据知觉能量信息的值,对已从其中去除了所提取的谐波分量的所接收脉码调制音频数据的多个样本执行修改的离散余弦变换;
(e)通过根据位分配信息来分配位,而对经过修改的离散余弦变换的音频数据进行量化;以及
(f)从量化的经过修改的离散余弦变换的音频数据和编码的谐波分量产生音频分组。
3.根据权利要求2的音频编码方法,其中步骤(b)包括:
(b1)利用该快速傅立叶变换结果信息获得所述多个所接收脉码调制音频数据的声压;
(b2)从已获得其声压的多个脉码调制音频数据中选择数据值,并且作为第一级提取,如果所选择的脉码调制音频数据值的右侧和左侧的脉码调制音频数据值小于所选择的脉码调制音频数据值,则仅提取所选择的脉码调制音频数据;
(b3)将步骤(b2)施加到所有所接收的脉码调制音频数据;
(b4)作为第二级提取,从第一级提取的脉码调制音频数据中仅提取其声压大于预定声压的脉码调制音频数据;以及
(b5)在步骤(b4)中第二级提取的脉码调制音频数据中,根据频率位置,不选择存在于预定频率范围内的脉码调制音频数据。
4.根据权利要求3的音频编码方法,其中步骤b5中的预定声压为7.0dB。
5.根据权利要求2的音频编码方法,其中在步骤(d)中,如果知觉能量信息的值大于预定阈值,则每次对18个样本执行修改的离散余弦变换,或者如果知觉能量信息的值小于预定阈值,则每次对36个样本执行修改的离散余弦变换。
6.一种利用谐波分量的音频编码设备,该设备包括:
脉码调制音频数据存储单元,用于接收和存储脉码调制音频数据;
心理声学模型2执行单元,用于从该脉码调制音频数据存储单元接收脉码调制音频数据,并执行心理声学模型2,以获得FFT结果信息、关于所接收数据的知觉能量信息、和用于量化的位分配信息;
谐波提取单元,用于利用快速傅立叶变换结果信息而从所接收的脉码调制音频数据中提取谐波分量;
谐波编码单元,用于对所提取的谐波分量进行编码,并输出编码的谐波分量;
谐波解码单元,用于对编码的谐波分量进行解码;
修改的离散余弦变换单元,用于根据知觉能量信息,对已从其中去除了解码的谐波分量的所存储脉码调制音频数据执行修改的离散余弦变换;
量化单元,用于根据位分配信息,对经过修改的离散余弦变换的音频数据进行量化;以及
MPEG层III位流产生单元,用于将已量化的经过修改的离散余弦变换的音频数据和从谐波编码单元输出的编码的谐波分量进行打包,以获得压缩的音频数据。
7.根据权利要求6的音频编码设备,其中该谐波提取单元通过以下步骤执行谐波提取:
利用快速傅立叶变换结果信息获得所述多个所接收脉码调制音频数据的声压,从已获得其声压的多个脉码调制音频数据中选择数据,并且作为第一级提取,如果所选择的脉码调制音频数据的右侧和左侧的脉码调制音频数据值小于所选择的脉码调制音频数据值,则仅提取所选择的脉码调制音频数据;
对所有所接收的脉码调制音频数据施加第一级提取,并且作为第二级提取,从第一级提取的脉码调制音频数据中仅提取其声压大于预定声压的脉码调制音频数据;以及
从第二级提取的脉码调制音频数据中,根据频率位置而丢弃存在于预定频率范围内的脉码调制音频数据。
8.根据权利要求6的音频编码设备,其中如果知觉能量信息的值大于预定阈值,则该修改的离散余弦变换单元每次对18个样本执行修改的离散余弦变换,或者如果知觉能量信息的值小于预定阈值,则该修改的离散余弦变换单元每次对36个样本执行修改的离散余弦变换。
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
KR10-2002-0036310A KR100462611B1 (ko) | 2002-06-27 | 2002-06-27 | 하모닉 성분을 이용한 오디오 코딩방법 및 장치 |
KR2002/36310 | 2002-06-27 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN1639769A CN1639769A (zh) | 2005-07-13 |
CN1262990C true CN1262990C (zh) | 2006-07-05 |
Family
ID=27607091
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CNB028293487A Expired - Fee Related CN1262990C (zh) | 2002-06-27 | 2002-12-12 | 利用谐波提取的音频编码方法和设备 |
Country Status (9)
Country | Link |
---|---|
US (1) | US20040002854A1 (zh) |
JP (1) | JP2005531014A (zh) |
KR (1) | KR100462611B1 (zh) |
CN (1) | CN1262990C (zh) |
CA (1) | CA2490064A1 (zh) |
DE (1) | DE10297751B4 (zh) |
GB (1) | GB2408184B (zh) |
RU (1) | RU2289858C2 (zh) |
WO (1) | WO2003063135A1 (zh) |
Families Citing this family (21)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2005094183A2 (en) * | 2004-03-30 | 2005-10-13 | Guy Fleishman | Apparatus and method for digital coding of sound |
WO2007075098A1 (en) | 2005-12-26 | 2007-07-05 | Intel Corporation | Generalized multi-threshold decoder for low-density parity check codes |
WO2005096509A1 (en) | 2004-03-31 | 2005-10-13 | Intel Corporation | Multi-threshold message passing decoding of low-density parity check codes |
DE602005023503D1 (de) * | 2004-10-28 | 2010-10-21 | Panasonic Corp | Skalierbare codierungsvorrichtung, skalierbare decodierungsvorrichtung und verfahren dafür |
EP1849236A1 (en) | 2004-12-29 | 2007-10-31 | Intel Corporation | Channel estimation and fixed thresholds for multi-threshold decoding of low-density parity check codes |
KR100707186B1 (ko) * | 2005-03-24 | 2007-04-13 | 삼성전자주식회사 | 오디오 부호화 및 복호화 장치와 그 방법 및 기록 매체 |
JP4720302B2 (ja) * | 2005-06-07 | 2011-07-13 | トヨタ自動車株式会社 | 自動変速機のクラッチ装置 |
KR100684029B1 (ko) * | 2005-09-13 | 2007-02-20 | 엘지전자 주식회사 | 푸리에 변환을 이용한 배음 생성 방법 및 이를 위한 장치,다운 샘플링에 의한 배음 생성 방법 및 이를 위한 장치와소리 보정 방법 및 이를 위한 장치 |
KR100788706B1 (ko) * | 2006-11-28 | 2007-12-26 | 삼성전자주식회사 | 광대역 음성 신호의 부호화/복호화 방법 |
CA2691993C (en) | 2007-06-11 | 2015-01-27 | Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. | Audio encoder for encoding an audio signal having an impulse-like portion and stationary portion, encoding methods, decoder, decoding method, and encoded audio signal |
US8631060B2 (en) | 2007-12-13 | 2014-01-14 | Qualcomm Incorporated | Fast algorithms for computation of 5-point DCT-II, DCT-IV, and DST-IV, and architectures |
RU2464540C2 (ru) * | 2007-12-13 | 2012-10-20 | Квэлкомм Инкорпорейтед | Быстрые алгоритмы для вычисления 5-точечного dct-ii, dct-iv и dst-iv, и архитектуры |
CN101552005A (zh) * | 2008-04-03 | 2009-10-07 | 华为技术有限公司 | 编码方法、解码方法、系统及装置 |
WO2010003479A1 (en) | 2008-07-11 | 2010-01-14 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Audio encoder and audio decoder |
EP3246918B1 (en) | 2008-07-11 | 2023-06-14 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Audio decoder, method for decoding an audio signal and computer program |
CN101751928B (zh) * | 2008-12-08 | 2012-06-13 | 扬智科技股份有限公司 | 应用音频帧频谱平坦度简化声学模型分析的方法及其装置 |
CN102667923B (zh) | 2009-10-20 | 2014-11-05 | 弗兰霍菲尔运输应用研究公司 | 音频编码器、音频解码器、用于将音频信息编码的方法、用于将音频信息解码的方法 |
EP2676270B1 (en) * | 2011-02-14 | 2017-02-01 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Coding a portion of an audio signal using a transient detection and a quality result |
MY164164A (en) * | 2011-05-13 | 2017-11-30 | Samsung Electronics Co Ltd | Bit allocating, audio encoding and decoding |
RU2464649C1 (ru) * | 2011-06-01 | 2012-10-20 | Корпорация "САМСУНГ ЭЛЕКТРОНИКС Ко., Лтд." | Способ обработки звукового сигнала |
CN103516440B (zh) | 2012-06-29 | 2015-07-08 | 华为技术有限公司 | 语音频信号处理方法和编码装置 |
Family Cites Families (26)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US5023910A (en) * | 1988-04-08 | 1991-06-11 | At&T Bell Laboratories | Vector quantization in a harmonic speech coding arrangement |
JPH0364800A (ja) * | 1989-08-03 | 1991-03-20 | Ricoh Co Ltd | 音声符号化及び復号化方式 |
JP3266920B2 (ja) * | 1991-09-25 | 2002-03-18 | 三菱電機株式会社 | 音声符号化装置及び音声復号化装置並びに音声符号化復号化装置 |
US5285498A (en) * | 1992-03-02 | 1994-02-08 | At&T Bell Laboratories | Method and apparatus for coding audio signals based on perceptual model |
ATE211326T1 (de) * | 1993-05-31 | 2002-01-15 | Sony Corp | Verfahren und vorrichtung zum kodieren oder dekodieren von signalen und aufzeichnungsmedium |
BR9405445A (pt) * | 1993-06-30 | 1999-09-08 | Sony Corp | Aparelho codificador e decodificador de sinal apropriado para codificar um sinal de entrada e decodificar um sinal codificado, suporte de gravação onde sinais codificados são gravados, e processo de codificação e de decodificação de sinal para codificar um sinal de entrada e decodificar um sinal codificado. |
JPH0736486A (ja) * | 1993-07-22 | 1995-02-07 | Matsushita Electric Ind Co Ltd | 音声符号化装置 |
JP3131542B2 (ja) * | 1993-11-25 | 2001-02-05 | シャープ株式会社 | 符号化復号化装置 |
TW321810B (zh) * | 1995-10-26 | 1997-12-01 | Sony Co Ltd | |
JP2778567B2 (ja) * | 1995-12-23 | 1998-07-23 | 日本電気株式会社 | 信号符号化装置及び方法 |
JPH09246983A (ja) * | 1996-03-08 | 1997-09-19 | Nec Eng Ltd | ディジタル信号処理装置 |
JPH10178349A (ja) * | 1996-12-19 | 1998-06-30 | Matsushita Electric Ind Co Ltd | オーディオ信号の符号化方法および復号方法 |
KR19980072457A (ko) * | 1997-03-05 | 1998-11-05 | 이준우 | 오디오 신호의 압축시 심리음향에서의 신호처리방법 및 그 장치 |
US5930373A (en) * | 1997-04-04 | 1999-07-27 | K.S. Waves Ltd. | Method and system for enhancing quality of sound signal |
DE19742201C1 (de) * | 1997-09-24 | 1999-02-04 | Fraunhofer Ges Forschung | Verfahren und Vorrichtung zum Codieren von Audiosignalen |
US6704705B1 (en) * | 1998-09-04 | 2004-03-09 | Nortel Networks Limited | Perceptual audio coding |
KR100300887B1 (ko) * | 1999-02-24 | 2001-09-26 | 유수근 | 디지털 오디오 데이터의 역방향 디코딩 방법 |
JP2000267700A (ja) * | 1999-03-17 | 2000-09-29 | Yrp Kokino Idotai Tsushin Kenkyusho:Kk | 音声符号化復号方法および装置 |
JP2000276194A (ja) * | 1999-03-25 | 2000-10-06 | Yamaha Corp | 波形圧縮方法及び波形生成方法 |
US6377916B1 (en) * | 1999-11-29 | 2002-04-23 | Digital Voice Systems, Inc. | Multiband harmonic transform coder |
DE10000934C1 (de) * | 2000-01-12 | 2001-09-27 | Fraunhofer Ges Forschung | Vorrichtung und Verfahren zum Bestimmen eines Codierungs-Blockrasters eines decodierten Signals |
JP4055336B2 (ja) * | 2000-07-05 | 2008-03-05 | 日本電気株式会社 | 音声符号化装置及びそれに用いる音声符号化方法 |
KR100348899B1 (ko) * | 2000-09-19 | 2002-08-14 | 한국전자통신연구원 | 캡스트럼 분석을 이용한 하모닉 노이즈 음성 부호화기 및부호화 방법 |
KR100378796B1 (ko) * | 2001-04-03 | 2003-04-03 | 엘지전자 주식회사 | 디지탈 오디오 부호화기 및 복호화 방법 |
US6732071B2 (en) * | 2001-09-27 | 2004-05-04 | Intel Corporation | Method, apparatus, and system for efficient rate control in audio encoding |
KR100472442B1 (ko) * | 2002-02-16 | 2005-03-08 | 삼성전자주식회사 | 웨이브렛 패킷 변환을 이용한 오디오 압축 방법 및 그시스템 |
-
2002
- 2002-06-27 KR KR10-2002-0036310A patent/KR100462611B1/ko not_active IP Right Cessation
- 2002-12-12 GB GB0427660A patent/GB2408184B/en not_active Expired - Fee Related
- 2002-12-12 CN CNB028293487A patent/CN1262990C/zh not_active Expired - Fee Related
- 2002-12-12 JP JP2003562916A patent/JP2005531014A/ja active Pending
- 2002-12-12 RU RU2004138088/09A patent/RU2289858C2/ru not_active IP Right Cessation
- 2002-12-12 WO PCT/KR2002/002348 patent/WO2003063135A1/en active Application Filing
- 2002-12-12 DE DE10297751T patent/DE10297751B4/de not_active Expired - Fee Related
- 2002-12-12 CA CA002490064A patent/CA2490064A1/en not_active Abandoned
-
2003
- 2003-01-13 US US10/340,828 patent/US20040002854A1/en not_active Abandoned
Also Published As
Publication number | Publication date |
---|---|
JP2005531014A (ja) | 2005-10-13 |
KR20040001184A (ko) | 2004-01-07 |
CN1639769A (zh) | 2005-07-13 |
KR100462611B1 (ko) | 2004-12-20 |
WO2003063135A1 (en) | 2003-07-31 |
GB2408184A (en) | 2005-05-18 |
RU2004138088A (ru) | 2005-06-27 |
US20040002854A1 (en) | 2004-01-01 |
DE10297751B4 (de) | 2005-12-22 |
DE10297751T5 (de) | 2005-07-07 |
GB2408184B (en) | 2006-01-04 |
GB0427660D0 (en) | 2005-01-19 |
RU2289858C2 (ru) | 2006-12-20 |
CA2490064A1 (en) | 2003-07-31 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN1262990C (zh) | 利用谐波提取的音频编码方法和设备 | |
CN1110145C (zh) | 可变规模语音编码/解码的方法和装置 | |
CN103258541B (zh) | 音频解码方法 | |
CN101055720A (zh) | 对音频信号编码和解码的方法和设备 | |
CN1154085C (zh) | 可变规模语音编码/解码的方法和装置 | |
CN1684523A (zh) | 用于编码/解码具有辅助信息的音频比特流的方法和设备 | |
JP2006011456A (ja) | 低ビット率符号化/復号化方法及び装置並びにコンピュータ可読媒体 | |
CN1756086A (zh) | 多通道音频数据编码/解码方法和设备 | |
CN101030373A (zh) | 使用自适应掩蔽阈值的立体声感知音频编码的系统和方法 | |
CN1465137A (zh) | 音频信号解码装置及音频信号编码装置 | |
JP2005338850A (ja) | デジタル信号の符号化方法及び装置ならびに復号化方法及び装置 | |
CN1767394A (zh) | 对音频信号进行编码和解码的方法和设备 | |
JP2005531014A5 (zh) | ||
JP5587599B2 (ja) | 量子化方法、符号化方法、量子化装置、符号化装置、逆量子化方法、復号化方法、逆量子化装置、復号化装置、処理装置 | |
CN1822185A (zh) | 音频编码及解码的方法及其装置 | |
CN1252678C (zh) | 可缩放的立体声音频编码/解码方法及装置 | |
CN1266672C (zh) | 用较少的计算量重构高频分量的声频解码方法和装置 | |
WO2006125342A1 (fr) | Procede de compression d'information pour fichier audio numerique | |
CN1485849A (zh) | 数字音频编码器及解码方法 | |
US20080133250A1 (en) | Method and Related Device for Improving the Processing of MP3 Decoding and Encoding | |
CN100343895C (zh) | 音频编码方法和装置,音频解码方法和装置 | |
CN1375817A (zh) | 一种基于小波变换的音频信号压缩编/解码方法 | |
CN1273955C (zh) | 采用带宽扩展技术编码和/或解码音频数据的方法和装置 | |
KR100754389B1 (ko) | 음성 및 오디오 신호 부호화 장치 및 방법 | |
CN1388517A (zh) | 一种基于伪小波滤波的音频编/解码技术 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
C14 | Grant of patent or utility model | ||
GR01 | Patent grant | ||
CF01 | Termination of patent right due to non-payment of annual fee | ||
CF01 | Termination of patent right due to non-payment of annual fee |
Granted publication date: 20060705 Termination date: 20171212 |