CN102870155A - 处理音频信号的方法和装置 - Google Patents

处理音频信号的方法和装置 Download PDF

Info

Publication number
CN102870155A
CN102870155A CN2011800138425A CN201180013842A CN102870155A CN 102870155 A CN102870155 A CN 102870155A CN 2011800138425 A CN2011800138425 A CN 2011800138425A CN 201180013842 A CN201180013842 A CN 201180013842A CN 102870155 A CN102870155 A CN 102870155A
Authority
CN
China
Prior art keywords
pulse
information
harmonic
track
noise
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN2011800138425A
Other languages
English (en)
Other versions
CN102870155B (zh
Inventor
丁奎赫
金大焕
姜仁圭
金洛榕
洪起烽
朴志刚
李寅诚
林钟下
文鐌铉
李炳锡
田惠晶
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
LG Electronics Inc
Industry Academic Cooperation Foundation of CBNU
Original Assignee
LG Electronics Inc
Industry Academic Cooperation Foundation of CBNU
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by LG Electronics Inc, Industry Academic Cooperation Foundation of CBNU filed Critical LG Electronics Inc
Priority to CN201410433417.7A priority Critical patent/CN104252862B/zh
Publication of CN102870155A publication Critical patent/CN102870155A/zh
Application granted granted Critical
Publication of CN102870155B publication Critical patent/CN102870155B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/16Vocoder architecture
    • G10L19/18Vocoders using multiple modes
    • G10L19/20Vocoders using multiple modes using sound class specific coding, hybrid encoders or object based coding
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • G10L19/032Quantisation or dequantisation of spectral components
    • G10L19/038Vector quantisation, e.g. TwinVQ audio
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/002Dynamic bit allocation
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/012Comfort noise or silence coding
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • G10L19/0204Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders using subband decomposition
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • G10L19/028Noise substitution, i.e. substituting non-tonal spectral components by noisy source
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • G10L19/032Quantisation or dequantisation of spectral components
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/08Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters
    • G10L19/09Long term prediction, i.e. removing periodical redundancies, e.g. by using adaptive codebook or pitch predictor
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/08Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters
    • G10L19/10Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters the excitation function being a multipulse excitation
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/16Vocoder architecture
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/16Vocoder architecture
    • G10L19/18Vocoders using multiple modes
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Processing of the speech or voice signal to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/038Speech enhancement, e.g. noise reduction or echo cancellation using band spreading techniques
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • G10L19/0212Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders using orthogonal transformation
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/16Vocoder architecture
    • G10L19/18Vocoders using multiple modes
    • G10L19/22Mode decision, i.e. based on audio signal content versus external parameters

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Quality & Reliability (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)

Abstract

本发明涉及用于处理音频信号的方法,包括:对音频信号执行频率转换处理以获得多个频率转换系数的步骤;基于脉冲比来选择一般模式或非一般模式,用于在多个频率转换系数之中具有高频带的频率转换系数的步骤;以及如果选择非一般模式,则执行以下步骤的步骤:从具有高频带的频率转换系数提取预定数目的脉冲,以及生成脉冲信息;从具有高频带的频率转换系数生成原始噪声信号,排除脉冲;使用多个频率转换系数之中具有低频带的频率转换系数生成基准噪声信号;以及使用原始噪声信号和基准噪声信号生成噪声位置信息和噪声能量信息。

Description

处理音频信号的方法和装置
技术领域
本发明涉及一种用于编码或解码音频信号的音频信号处理方法和装置。
背景技术
通常,音频信号包括具有多种频率的信号。人耳听得见的频率范围是20Hz到20kHz,并且人声通常在约200Hz到3kHz的范围内。
在具有不存在人声的7kHz或更大的高频带的音频信号的编码中,多个编译模式或编译方案之一根据音频特性是可应用的。
发明内容
【技术问题】
如果应用不适用于音频特性的编译模式或编译方案,则声音质量会劣化。
【技术的解决方案】
本发明的目标在于提供用于对诸如敲打声的、在特定频带中具有高能量的信号的脉冲单独编码的音频信号处理方法和装置。
本发明的另一个目标在于提供用于对诸如弦音的具有谐波的信号的谐波轨迹(harmonic track)单独编码的音频信号处理方法和装置。
本发明的另一个目标在于提供用于基于脉冲比和/或谐波比应用适用于音频特性的编译模式的音频信号处理方法和装置。
【有益效果】
本发明提供以下效果和优点。
首先,在特定频带中具有高能量的信号中,仅对信号的特定频带的脉冲进行单独编码。从而,恢复率高于仅使用低频带的编码模式(一般模式)的恢复率,并且从而能够显著改进声音质量。
第二,在包括谐波的信号中,不分别编码对应于谐波的脉冲,而是对整体谐波轨迹编码。从而,可以在不增加比特数的情况下增加恢复率。
第三,通过根据帧的音频特性适应性地应用对应于总计四个模式的编码和解码方案中的一个,可以改进声音质量。
第四,在应用修改后的离散余弦变换(MDCT)的情况下,由于根据MDCT特性提取主脉冲和与其邻近的子脉冲以便准确地提取映射至特定频带的脉冲,可以增加非一般模式编码方案的性能。
第五,通过在谐波模式下从多个谐波轨迹提取并且单独量化仅最佳脉冲和与其邻近的脉冲,可以减少比特数。
第六,在谐波模式下,由于相对于属于具有相同节距(pitch)的一组的谐波轨迹将开始位置设置为预定位置中的一个,所以可以在多个谐波轨迹的开始位置的显示中减少比特数。
附图说明
图1是示出根据本发明实施例的音频信号处理装置的编码器的配置的示意图。
图2是示出确定帧间相似度(音调)的实例的示意图。
图3是示出在一般模式或非一般模式下被适当编译的信号的实例的示意图。
图4是示出一般模式编码单元140的详细配置的示意图。
图5是示出在一般模式下执行编码的情况下的语法的实例的示意图。
图6是示出非一般模式编码单元150的详细配置的示意图。
图7和图8是示出脉冲提取处理的示意图。
图9是示出脉冲提取之前的信号(SWB信号)和脉冲提取之后的信号(原始噪声信号)的实例的示意图。
图10是示出基准噪声生成处理的示意图。
图11是示出在非一般模式下执行编码的情况下的语法的实例的示意图。
图12是示出在一般模式和非一般模式下对特定音频信号进行编码的结果的示意图。
图13是示出谐波比确定单元160的详细配置的示意图。
图14是示出具有高谐波比的音频信号的示意图。
图15是示出非谐波模式编码单元170的详细配置的示意图。
图16是示出在非谐波模式的情况下提取固定脉冲的规则的示意图。
图17是示出在非谐波模式下执行编码的情况下的语法的实例的示意图。
图18是示出谐波模式编码单元180的详细配置的示意图。
图19是示出谐波轨迹的提取的示意图。
图20是示出谐波轨迹位置信息的量化的示意图。
图21是示出在谐波模式下执行编码的情况下的语法的示意图。
图22是示出在非谐波模式和谐波模式下对特定音频信号编码的结果的示意图。
图23是示出根据本发明实施例的音频信号处理装置的解码器的配置的示意图。
图24是示出其中实现根据本发明实施例的音频信号处理装置的产品的配置的示意图。
图25是示出其中实现根据本发明实施例的音频信号处理装置的产品之间的关系的示意图。
具体实施方式
【最佳模式】
根据本发明的一方面,提供一种音频信号处理方法,包括:相对于音频信号执行频率转换以获取多个频率转换系数,相对于在多个频率转换系数之中高频带的频率转换系数,基于脉冲比来选择一般模式和非一般模式中的一个,以及如果选择非一般模式,则执行以下步骤:从高频带的频率转换系数提取预定数目的脉冲并且生成脉冲信息,从高频带的频率转换系数排除脉冲来生成原始噪声信号,使用在多个频率转换系数之中低频带的频率转换系数来生成基准噪声信号,以及使用原始噪声信号和基准噪声信号来生成噪声位置信息和噪声能量信息。
脉冲比可以是多个脉冲的能量与当前帧的总能量的比。
提取预定数目的脉冲可以包括:提取主脉冲最高能量,提取邻近主脉冲的子脉冲,以及从高频带的频率转换系数排除主脉冲和子脉冲以便生成目标噪声信号,并且主脉冲和子脉冲的提取被重复预定次数,以便生成目标噪声信号。
脉冲信息可以包括脉冲位置信息、脉冲符号信息、脉冲幅度信息和脉冲子带信息中的至少一个。
生成基准噪声信号可以包括:基于低频带的总能量设置阈值,以及排除超过阈值的脉冲以便生成基准噪声信号。
生成噪声能量信息可以包括:生成预定数目的脉冲的能量,生成原始噪声信号的能量,使用脉冲的能量和原始噪声信号的能量来获取脉冲比,以及生成脉冲比作为噪声能量信息。
根据本发明的另一方面,提供一种音频信号处理装置,包括:频率转换单元,其被配置成相对于音频信号执行频率转换,以便获取多个频率转换系数;脉冲比确定单元,其被配置成相对于在多个频率转换系数之中的高频带的频率转换系数,基于脉冲比来选择一般模式和非一般模式之一;以及非一般模式编码单元,其被配置成在非一般模式下操作并且包括:脉冲提取器,其被配置成从高频带的频率转换系数提取预定数目的脉冲并且生成脉冲信息;基准噪声发生器,其被配置成使用在多个频率转换系数之中的低频带的频率转换系数来生成基准噪声信号;以及噪声搜索单元,其被配置成使用原始噪声信号和基准噪声信号来生成噪声位置信息和噪声能量信息,其中,通过从高频带的频率转换系数排除脉冲来生成原始噪声信号。
根据本发明的另一方面,提供一种音频信号处理方法,包括:接收指示当前帧是处于一般模式还是非一般模式的第二模式信息;如果第二模式信息指示当前帧处于非一般模式,则接收脉冲信息、噪声位置信息和噪声能量信息;使用脉冲信息来生成相对于频率转换系数的预定数目的脉冲;使用对应于噪声位置信息的低频带的频率转换系数来生成基准噪声信号;使用噪声能量信息来调节基准噪声信号的能量;以及使用基准噪声信号、被调节的能量、以及多个脉冲来生成对应于高频带的频率转换系数。
根据本发明的另一方面,提供一种音频信号处理方法,包括:接收音频信号,相对于音频信号执行频率转换以便获取多个频率转换系数,相对于频率转换系数、基于谐波比来选择非谐波模式和谐波模式中的一个,并且如果选择谐波模式,则执行以下步骤:判定对应于第一节距的第一组的谐波轨迹,判定对应于第二节距的第二组的谐波轨迹,以及生成多个谐波轨迹的开始位置信息,其中,第一组的谐波轨迹包括第一谐波轨迹和第二谐波轨迹,其中,第二组的谐波轨迹包括第三谐波轨迹和第四谐波轨迹,其中,第一谐波轨迹和第三谐波轨迹的开始位置信息对应于第一位置集合中的一个,并且其中,第二谐波轨迹和第四谐波轨迹的开始位置信息对应于第二位置集合中的一个。
可以基于多个谐波轨迹的能量和多个脉冲的能量来生成谐波比。
第一位置集合可以对应于偶数位置,并且第二位置集合可以对应于奇数位置。
音频信号处理方法可以进一步包括:生成第一目标矢量,所述第一目标矢量包括第一谐波轨迹中的最佳脉冲和与其邻近的脉冲以及第二谐波轨迹中的最佳脉冲和与其邻近的脉冲;生成第二目标矢量,所述第二目标矢量包括第三谐波轨迹中的最佳脉冲和与其邻近的脉冲以及第四谐波轨迹中的最佳脉冲和与其邻近的脉冲;矢量-量化第一目标矢量和第二目标矢量;以及相对于从谐波轨迹排除第一目标矢量和第二目标矢量的残余部分来执行频率转换。
第一谐波轨迹可以是具有第一节距的多个脉冲的集合,第二谐波轨迹可以是具有第一节距的多个脉冲的集合,第三谐波轨迹可以是具有第二节距的多个脉冲的集合,以及第四谐波轨迹可以是具有第二节距的多个脉冲的集合。
音频信号处理方法可以进一步包括:生成指示第一节距和第二节距的节距信息。
根据本发明的另一方面,提供一种音频信号处理方法,包括:接收包括对应于第一节距的第一组的谐波轨迹和对应于第二节距的第二组的谐波轨迹的多个谐波轨迹的开始位置信息;生成对应于开始位置信息的多个谐波轨迹;以及使用多个谐波轨迹来生成对应于当前帧的音频信号,其中,第一组的谐波轨迹包括第一谐波轨迹和第二谐波轨迹,其中,第二组的谐波轨迹包括第三谐波轨迹和第四谐波轨迹,其中,第一谐波轨迹和第三谐波轨迹的开始位置信息对应于第一位置集合中的一个,并且其中,第二谐波轨迹和第四谐波轨迹的开始位置信息对应于第二位置集合中的一个。
根据本发明的一方面,提供一种音频信号处理方法,包括:相对于音频信号执行频率转换,以便获取多个频率转换系数;相对于频率转换系数、基于帧间相似度来选择非音调模式和音调模式;如果选择非音调模式,则基于脉冲比来选择一般模式和非一般模式中的一个;如果选择音调模式,则基于谐波比来选择非谐波模式和谐波模式中的一个;以及根据所选模式对音频信号进行编码以便生成参数,其中,参数包括一般模式下的包络位置信息和缩放信息,其中,参数包括非一般模式下的脉冲信息和噪声能量信息,其中,在非谐波模式下,参数包括作为关于固定脉冲的信息的固定脉冲信息、每子带预定的数目,并且其中,参数包括在谐波模式下的第一组的谐波轨迹的位置信息和第二组的谐波轨迹的位置信息。
音频信号处理方法可以进一步包括:根据所选模式来生成第一模式信息和第二模式信息,第一模式信息可以指示非音调模式和音调模式中的一个,并且如果第一模式信息指示非音调模式,则第二模式信息可以指示一般模式或非一般模式中的一个,并且如果第一模式信息指示音调模式,则第二模式信息指示非谐波模式和谐波模式中的一个。
根据本发明的另一方面,提供一种音频信号处理方法,包括:通过比特流来提取第一模式信息和第二模式信息;基于第一模式信息和第二模式信息来判定对应于当前帧的当前模式;如果当前模式是一般模式,则使用包络位置信息和缩放信息来恢复当前帧的音频信号;如果当前模式是非一般模式,则使用脉冲信息和噪声能量信息来恢复当前帧的音频信号;如果当前模式是非谐波模式,则使用作为关于固定脉冲的信息的固定脉冲信息、每子带预定的数目来恢复当前帧的音频信号,并且如果当前模式是谐波模式,则使用第一组的谐波轨迹的位置信息和第二组的谐波轨迹的位置信息来恢复当前帧的音频信号。
【本发明的模式】
此后,参考附图来详细地描述本发明的示例性实施例。在本说明书和权利要求中使用的术语不限于其一般意义并且基于适当地定义术语的概念的规则被解释为适于本发明的技术精神的意义和概念,以便可能以最佳方式图示本发明。本说明书中描述的实施例和图中示出的配置仅是示例性的并且可以做出多种修改及其等同物。
在本发明中,以下术语可以基于以下标准解释,并且在此未使用的术语可以基于以下标准解释。术语编译可以被解释为编码或解码,并且术语信息包括值、参数、系数、元素等,并且其意义可以根据环境不同地解释,并且本发明不限于此。
术语音频信号在广义上与术语视频信号相区分,并且是指当被回放时被可听识别的信号,并且在狭义上与语音信号相区分,并且是指语言特性不存在或很少的信号。在本发明中,在广义上解释音频信号,并且当用于区分语音信号时,被解释为具有狭义的音频信号。
术语编译可以仅指编码或可以包括编码和解码。
图1是示出根据本发明实施例的音频信号处理装置的编码器的配置的示意图。根据实施例的编码器100包括脉冲比确定单元130、谐波比确定单元160、非一般模式编码单元150和谐波模式编码单元180中的至少一个,并且可以进一步包括频率转换单元110、相似度(音调)确定单元120、一般模式编码单元140和非谐波模式编码单元180中的至少一个。
总之,存在总计四个编译模式:1)一般模式、2)非一般模式、3)非谐波模式以及4)谐波模式。1)一般模式和2)非一般模式对应于非音调模式,以及3)非谐波模式和4)谐波模式对应于音调模式。
关于是否应用非音调模式或音调模式的确定由相似度确定单元120根据帧间相似度作出。即,如果相似度不高,则应用非音调模式,并且如果相似度高,则应用音调模式。在非音调模式的情况下,脉冲比确定单元130确定如果脉冲比(脉冲的能量与总能量的比)高,则应用1)一般模式,并且确定如果脉冲比低,则应用2)非一般模式。
另外,在音调模式下,谐波比确定单元160确定如果谐波比(谐波轨迹的能量与脉冲的能量的比)不高,则应用3)非谐波模式,并且如果谐波比高,则应用4)谐波模式。
频率转换单元110相对于输入音频信号执行频率转换,以便获取多个频率转换系数。修改的离散余弦变换(MDCT)方法、快速傅里叶变换(FFT)方法等可以被应用于频率转换,但是本发明不限于此。
频率转换系数包括对应于相对低频带的频率转换系数和对应于高频带的频率转换系数。低频带的频率转换系数被称为宽带信号、WB信号或WB系数,并且高频带的频率转换系数被称为超宽带信号、SWB信号或WB系数。用于划分低频带和高频带的标准可以为约7kHz,但是本发明不限于特定频率。
如果MDCT方法被用作频率转换方法,则相对于整个音频信号可以生成总计640个频率转换系数。此时,对应于最低带的约280个系数可以称为WB信号,并且对应于下一个带的约280个系数可以称为SWB信号。然而,本发明不限于此。
相似度确定单元120相对于输入音频信号来确定帧间相似度。帧间相似度涉及当前帧的频率转换系数的频谱与先前帧的频率转换系数的频谱相似的程度。帧间相似度可以称为音调(tonality)。将省略用于帧间相似度的等式的描述。
图2是示出确定帧间相似度(音调)的实例的示意图。图2(A)示出先前帧的频谱和当前帧的频谱的实例。可以直观地看出,在约40到60的频率窗口中相似度最低。从图2(B)可以看出,在约40到60的频率窗口中相似度最低,类似于直观结果。
作为经由相似度确定单元120确定帧间相似度的结果,低相似度信号类似于噪声并且对应于非音调模式,并且高相似度信号不同于噪声并且对应于音调模式。指示帧是对应于非音调模式还是音调模式的第一模式信息被生成并且发送至解码器。
如果确定帧对应于非音调模式(例如,如果第一模式信息是0),则将高频带的频率转换系数发送至脉冲比确定单元130,并且如果确定帧对应于音调模式(例如,如果第一模式信息是1),则将系数发送至谐波比确定单元160。
再次参考图1,如果帧间相似度低,即,在非音调模式的情况下,激活脉冲比确定单元130。
脉冲比确定单元130基于多个脉冲的能量与当前帧的总能量的比,来确定一般模式或非一般模式。术语脉冲是指在频率转换系数的域(例如,MDCT域)中具有相对高能量的系数。
图3是示出在一般模式或非一般模式下适当编译的信号的实例的示意图。参考图3(A),可以看出,信号不是仅包括特定频带,而是包括所有频带。信号具有类似于噪声的性能,可以在一般模式下被适当地编译。参考图3(B),可以看出,信号不包括所有频带,而是在特定频带(线)中具有高能量。特定频带在频率转换系数的域中可以表现为脉冲。如果该脉冲的能量高于总能量,则脉冲比高,并且从而该信号可以在非一般模式下被适当地编码。图3(A)中所示的信号可以接近噪声,并且图3(b)中所示的信号可以接近敲打声。
由于通过脉冲比确定单元130从频率转换系数的域提取具有高能量的脉冲的处理可以等于当应用非一般模式的编译方法时执行的脉冲提取处理,以下将描述非一般模式编码单元150的详细配置。
如果提取总计八个脉冲,则这可以表示如下。
[等式1]
P(j)=max({M32(k+280)}2),j=0,...,7  k=280,...,560
其中,M32(k)是SWB系数(高频带的频率转换系数),k是频率转换系数的索引,P(j)是脉冲(或峰值),以及j是脉冲索引。
脉冲比可以由以下等式表示。
[等式2]
R peak 8 = E peak E total
其中, E peak = Σ k = 0 7 { P ( k ) 2 } 以及 E total = Σ k = 0 280 { P ( k + 280 ) 2 } .
其中,Rpeak8是脉冲比,Epeak是脉冲的总能量,以及Etotal是总能量。
如果在估计脉冲比Rpeak8之后,脉冲比不超过特定基准值(例如,0.6),则信号被确定为一般模式,并且如果脉冲比超过基准值,则信号被确定为非一般模式。
再次参考图1,脉冲比确定单元130通过以上处理、基于脉冲比来确定一般模式或非一般模式,并且生成在非音调模式下指示一般模式或非一般模式的第二模式信息并发送到解码器。将参考其他图描述一般模式编码单元140的详细配置和非一般模式编码单元150的详细配置。
将参考其他图描述谐波比确定单元160、非谐波模式编码单元170和谐波模式编码单元180的详细配置。
图4是示出一般模式编码单元140的详细配置的示意图,并且图5是示出在一般模式下执行编码的情况下的语法的实例的示意图。
首先,参考图4,一般模式编码单元140包括归一化单元142、子带发生器144和搜索单元146。在一般模式下,使用与编码的低频带信号(WB信号)的包络的相似度对高频带信号(SWB信号)编码。
归一化单元142对在对数域中的WB信号的包络进行归一化。由于WB信号应该甚至由解码器确认,WB信号优选是使用编码的WB信号恢复的信号。由于WB信号的包络快速地变化,所以不能准确地执行两个缩放因子的量化,并且从而在对数域中的归一化处理会是必须的。
子带发生器144将SWB信号划分为多个(例如,四个)子带。例如,如果SWB信号的频率转换系数的总数是280,则子带可以分别具有40、70、70和100个系数。
搜索单元146搜索WB信号的归一化包络,以便计算与SWB信号的每个子带的相似度,并且基于相似度来确定具有类似于每个子带的包络部分的最类似的WB信号。生成最类似的WB信号的开始位置作为包络位置信息。
然后,搜索单元146可以确定两条缩放信息,以便使得最类似的WB信号可听地类似于原始SWB信号。此时,第一缩放信息可以在线性域中每子带来确定,并且可以在对数域中每子带来确定。
一般模式编码单元140使用WB信号的包络对SWB信号编码,并且生成包络位置信息和缩放信息。
参考图5,作为在一般模式的情况下的语法的实例,如果SWB信号处于一般模式下,指示SWB信号是处于非音调模式还是音调模式的1比特第一模式信息以及指示SWB信号是处于一般模式还是非一般模式的1比特第二模式信息被分配。可以将总计30比特的包络位置信息分配给每个子带。
作为缩放信息,可以分配总计4比特的每子带缩放符号信息、总计16比特的(总计四条)第一每子带缩放信息,并且基于8比特码本来矢量量化总计四条的第二每子带缩放信息,并且可以分配总计8比特的第二每子带缩放信息。然而,本发明不限于此。
此后,参考图6及其随后图描述非一般模式下的编码处理。图6是示出非一般模式编码单元150的详细配置的示意图。参考图6,非一般模式编码单元150包括脉冲提取器152、基准噪声发生器154和噪声搜索单元156。
脉冲提取器152从高频带的频率转换系数(SWB信号)提取预定数目的脉冲,并且生成脉冲信息(例如,脉冲位置信息、脉冲符号信息、脉冲幅度信息等)。该脉冲类似于在上述脉冲比确定单元130中定义的脉冲。此后,将参考图7至图9详细地描述脉冲提取处理的实施例。
首先,脉冲提取器152将SWB信号划分为以下多个子带信号。此时,每个子带都可以对应于总计64个频率转换系数。
[等式3]
M 32 0 ( k ) = M 32 ( k + 280 ) , k=0,...,63
M 32 1 ( k ) = M 32 ( k + 344 ) , k=0,...,63
M 32 2 ( k ) = M 32 ( k + 408 ) , k=0,...,63
M 32 3 ( k ) = M 32 ( k + 472 ) , k=0,...,63
Figure BDA00002137038000145
是SWB信号的第一子带。
然后,如下计算每子带能量。
[等式4]
E 0 = Σ k = 0 63 { M 32 ( k + 280 ) } 2
E 1 = Σ k = 0 63 { M 32 ( k + 344 ) } 2
E 2 = Σ k = 0 63 { M 32 ( k + 408 ) } 2
E 3 = Σ k = 0 63 { M 32 ( k + 472 ) } 2
E0是第一子带的能量。
图7和图8是示出脉冲提取处理的示意图。首先,参考图7(A),在SWB中存在总计四个子带,并且示出每个子带的脉冲的实例。
然后,选择分别具有最高能量E0、E1、E2和E3的子带中的任何一个(j是0、1、2和3中的任何一个)。参考图7(B),示出第一子带的能量E0最高并且从而选择第一子带(j=0)的实例。
然后,子带中具有最高能量的脉冲被设置为主脉冲。然后,在邻近主脉冲的两个脉冲之间,即,在主脉冲的左和右脉冲之间,具有高能量的脉冲被设置为子脉冲。参考图7(C),示出在第一子带中设置主脉冲和子脉冲的实例。
具体地,当通过MDCT生成频率转换系数时,优选提取主脉冲和与其邻近的子脉冲的处理。这是因为MDCT对时间偏移敏感并且具有相位变化。从而,由于频率分辨率不准确,所以一个特定频率可以不对应于一个MDCT系数,并且可以对应于两个或更多MDCT系数。从而,为了从MDCT域更准确地提取脉冲,不仅提取MDCT的主脉冲,而且另外提取与其邻近的子脉冲。
由于子脉冲邻近主脉冲的左侧或右侧,所以可以仅使用指示主脉冲的左侧或右侧的1个比特来编码子脉冲的位置信息,并且使用相对小数目的比特可以更准确地估计脉冲。
提取主脉冲和子脉冲的处理在逻辑上被概括如下。本发明不限于以下表示。
Figure BDA00002137038000151
Figure BDA00002137038000161
脉冲提取器152排除从SWB信号提取的第一集合的主脉冲和子脉冲,以便生成目标噪声信号。
参考图8(A),可以看出,在图7(C)中提取的第一集合的脉冲被排除。相对于目标噪声信号重复提取主脉冲和子脉冲的处理。即,设置具有最高能量的子带,在子带中具有最高能量的脉冲被设置为主脉冲,并且邻近主脉冲的脉冲之一被设置为子脉冲。通过排除在以上处理中提取的第二集合的主脉冲和子脉冲并且再次定义目标噪声信号,该处理被重复一直到第N个集合。例如,以上处理可以被重复一直到第三集合,并且两个独立脉冲可以进一步从排除第三集合的目标噪声信号中提取。独立脉冲指在目标噪声信号中具有最高能量的脉冲,而不管主脉冲和子脉冲如何。
如上所述脉冲提取器152提取预定数目的脉冲,并且然后生成关于脉冲的信息。虽然脉冲的总数可以例如是八个(总计三个集合的主脉冲和子脉冲和总计三个独立脉冲),但是本发明不限于此。关于脉冲的信息可以包括脉冲位置信息、脉冲符号信息、脉冲幅度信息和脉冲子带信息中的至少一个。脉冲子带信息指示脉冲所属的子带。
图11是示出在非一般模式下执行编码的情况下的语法的实例的示意图,其中,仅参考关于脉冲的信息。图11示出子带的总数是4并且脉冲的总数是8(三个主脉冲、三个子脉冲和两个独立脉冲)的情况。在图11的脉冲子带信息的情况下,需要2比特表示一个脉冲,并且从而分配总计10比特。如果子带的总数是4,则需要2比特表示一个脉冲。由于每个集合的主脉冲和子脉冲属于相同子带,所以消耗总计2比特以表示一个集合(主脉冲和子脉冲)。然而,在独立脉冲的情况下,消耗2比特以表示一个脉冲。
从而,为了对脉冲子带信息编码,需要2比特表示第一集合,需要2比特表示第二集合,需要2比特表示第三集合,需要2比特表示第一独立脉冲,以及需要2比特表示第二独立脉冲。即,需要总计10比特。
另外,由于脉冲位置信息指示特定子带中存在脉冲的系数,所以消耗6比特用于第一至第三集合中的每个,消耗6比特用于第一独立脉冲,以及消耗6比特用于第二独立脉冲。即,消耗总计30比特。
在脉冲符号信息中,消耗1比特用于每个脉冲,即,消耗总计8比特。通过使用8比特码本矢量量化四个脉冲的幅度信息将总计16比特分配给脉冲幅度信息。
再次参考图6,通过从高频带的信号(SWB信号)通过以上处理排除由脉冲提取器152提取的脉冲来生成原始噪声信号(
Figure BDA00002137038000171
等)。例如,如果从总计280个系数排除对应于总计8个脉冲的系数,则原始噪声信号可以对应于总计272个系数。图9示出脉冲提取之前的信号(SWB信号)和脉冲提取之后的信号(原始噪声信号)的实例。在图9(A)中,原始SWB信号包括在频率转换系数域中每个都具有高峰值能量的多个脉冲。然而,在图9(b)中,仅排除脉冲的类似噪声信号保留。
图6的基准噪声发生器154基于低频带的频率转换系数(WB信号)生成基准噪声信号。更具体地,基于WB信号的总能量设置阈值,并且具有等于或大于阈值的能量的脉冲被排除,以便生成基准噪声信号。
图10是示出生成基准噪声信号的处理的示意图。参考图10(A),在频率转换域上示出WB信号的实例。当根据总能量设置阈值时,在阈值范围之外存在脉冲,并且在阈值范围内存在脉冲。如果排除在阈值范围之外存在的脉冲,则图10(B)中所示的信号保留。在生成基准噪声信号之后,执行归一化处理。然后,获得图10(C)中所示的表示。
基准噪声发生器154通过以上处理使用WB信号来生成基准噪声信号
Figure BDA00002137038000181
图6的噪声搜索单元156比较原始噪声信号和基准噪声信号
Figure BDA00002137038000182
以便设置基准噪声信号最类似原始噪声信号(
Figure BDA00002137038000183
等)的部分,并且生成噪声位置信息和噪声能量信息。以下详细地描述该处理的实施例。
首先,如下将原始噪声信号(通过从SWB信号排除脉冲获得的信号)划分为多个子带信号。
[等式5]
M ~ 32 0 ( k ) = M ~ 32 ( k + 280 ) , k=0,...,39
M ~ 32 1 ( k ) = M ~ 32 ( k + 320 ) , k=0,...,69
M ~ 32 2 ( k ) = M ~ 32 ( k + 390 ) , k=0,...,69
M ~ 32 3 ( k ) = M ~ 32 ( k + 460 ) , k=0,...,99
在一般模式下,每个子带的大小可以与上述子带相同。子带的长度dj(k) j=0,...,3可以对应于40、70、70和100频率转换系数。所有子带都具有不同搜索开始位置kj和不同搜索范围wj,并且检测与基准噪声信号
Figure BDA00002137038000188
的相似度。在j=0,2的情况下,搜索开始位置kj固定为0,并且在J=1,3的情况下,依赖于具有先前子带的最佳相似度的子带的开始位置。第j个子带的搜索开始位置kj和搜索范围wj可以如下表示:
[等式6]
k j = 0 j = 0 BestIdx j - 1 + d j - 1 - w j 2 j = 1 0 j = 2 BestIdx j - 1 + d j - 1 - w j 2 j = 3
w j = 240 j = 0 128 j = 1 210 j = 2 128 j = 3
kj是搜索开始位置,BestIdxj是最佳相似度开始位置,dj是子带的长度,并且wj是搜索范围。
如果kj变为负数,则kj被校正为0,并且如果kj变为大于280-dj-wj,则kj被校正为280-dj-wj。通过以下处理每子带估计最佳相似度开始位置BestIdxj
首先,通过以下等式计算对应于相似度索引k′的相似度corr(k′)。使用类似于一般模式的方法执行编码,但是以四个采样为单位而不是以一个采样为单位(一个系数)执行搜索。
[等式7]
corr ( k &prime; ) = &Sigma; k = 0 k < d j M 32 j ( k ) M ~ 16 ( k j + k &prime; + k ) , k′=0,3,7,...,wj-1
corr(k′)是相似度,
Figure BDA00002137038000194
是原始噪声(参见等式5),
Figure BDA00002137038000195
是基准噪声,kj是搜索开始位置,k′是相似度索引,以及wj是搜索范围。
通过以下等式计算对应于相似度索引k′的能量。
[等式8]
Ene ( k &prime; ) = &Sigma; k = 0 k < d j M ~ 16 ( k j + k &prime; + k ) 2 , k′=0,3,7,...,wj-1
实质相似度S(k′)由以下等式表示。
[等式9]
S ( k &prime; ) = | corr ( k &prime; ) Ene ( k &prime; ) |
如下计算其中实质相似度S(k′)具有最佳值的子带的开始位置BestIdxj。BestIdxj被转换为参数LagIndexj并且包括在比特流中作为噪声位置信息。
到目前为止,描述了通过噪声搜索单元156生成噪声位置信息的处理。此后,将描述生成噪声能量信息的处理。基准噪声信号可以具有类似于原始噪声信号的波长,但是可以具有的能量不同于原始噪声信号的能量。必须生成关于原始噪声信号的能量的信息的噪声能量信息并且发送到解码器,使得解码器具有的噪声信号具有与原始噪声信号的能量相类似的能量。
噪声能量的值可以被转换为脉冲比值并且可以被发送,这是因为动态范围大。由于脉冲比是0%到100%的百分比,动态范围小并且从而比特数可以减少。将描述该转换处理。
噪声信号的能量等于通过从SWB信号的总能量排除脉冲能量获得的值,如以下等式中所示。
[等式10]
Noise energy = &Sigma; k = 0 280 { M 32 ( 280 + k ) } 2 - P ^ energy
Noiseenergy是噪声能量,M32是SWB信号,以及
Figure BDA00002137038000212
是脉冲能量 ( P ^ energy = &Sigma; k = 0 7 { P amp ( k ) } 2 ) .
如下通过为百分比的脉冲比
Figure BDA00002137038000214
表示以上等式。
[等式11]
R ^ percent = P ^ energy P ^ energy + Noise energy &times; 100
Figure BDA00002137038000216
是脉冲比,
Figure BDA00002137038000217
是脉冲能量,以及Noiseenergy是噪声能量。
即,编码器发送等式11中所示的脉冲比
Figure BDA00002137038000221
而不是等式10中所示的噪声能量Noiseenergy。可以使用4比特来编码对应于该脉冲比的噪声能量信息,如图11中所示。
此后,首先,解码器基于通过脉冲提取器152生成的脉冲信息来生成脉冲能量 P ^ energy = &Sigma; k = 0 7 { P amp ( k ) } 2 . 然后,脉冲能量
Figure BDA00002137038000223
和所发送的脉冲比
Figure BDA00002137038000224
被带入以下等式,以便生成噪声能量Noiseenergy
[等式12]
No i ^ se energy = ( 100 - P ^ energy ) &times; R ^ percent R ^ percent
等式12通过重新整理等式11获得。
解码器可以将所发送的脉冲比转换为上述噪声能量,并且使噪声能量和基准噪声信号的每个系数相乘,以便使用基准噪声信号来获取具有类似于原始噪声信号的能量分布的噪声信号。
[等式13]
S ^ amp = No i ^ se energy &times; 1 272
M &CenterDot; &CenterDot; ~ 32 ( k + 280 ) = M &CenterDot; ~ 32 ( k + 280 ) &times; S ^ amp k=0,...,280
噪声搜索单元156通过以上处理生成噪声位置信息,将噪声能量值转换为脉冲比,并且将脉冲比作为噪声能量信息发送至解码器。
图12是示出在一般模式和非一般模式下对特定音频信号编码的结果的示意图。首先,参考图12,在一般模式下编码和合成特定信号(例如,在特定频带中具有高能量的信号,诸如,敲打声)的结果和在非一般模式下对特定信号编码并且解码特定信号的结果是不同的,如图12(A)中所示。参考图12(B),可以看出,在非一般模式下对图12中所示的原始信号编码的结果比在一般模式下对原始信号编码的结果更佳。
即,如果根据音频信号的特性,预定脉冲的能量高,则可以根据本发明的实施例,通过在非一般模式下执行编码来增加声音质量,而不实质上增加比特数。
此后,将描述在由于高帧间相似度而导致音频信号处于音调模式的情况下在图1中示出的谐波比确定单元150、非谐波模式编码单元170和谐波模式编码单元180。
首先,图13是示出谐波比确定单元160的详细配置的示意图。参考图13,谐波比确定单元160可以包括谐波跟踪提取器162、固定脉冲提取器164和谐波比判定单元166,并且基于音频信号的谐波比来判定非谐波模式和谐波模式。谐波模式适用于对其中单个仪器的谐波分量强的信号或者包括由多个仪器生成的多倍节距信号的信号进行编码。
图14示出具有高谐波比的音频信号。参考图14,可以看出,在频率转换系数域中作为基础频率的倍数的谐波强。如果使用传统方法对这样的谐波特性强的信号编码,则对应于谐波的所有脉冲都应该被编码。从而,所消耗的比特数增加并且编码器性能劣化。相反,如果应用用于仅提取预定数目的脉冲的编码方法,则难以提取所有脉冲。从而,声音质量劣化。从而,本发明提出适用于这样的信号的编译方法。
谐波轨迹提取器162从对应于高频带的频率转换系数提取谐波轨迹。该处理执行与谐波模式编码单元180的谐波轨迹提取器182相同的处理,并且从而以下将详细地描述。
固定脉冲提取器164提取在预定区域(164)中判定的预定数目的脉冲。该处理执行与非谐波模式编码单元170的固定脉冲提取器172相同的处理,并且从而将在以下详细地描述。
如果作为固定脉冲能量与所提取的轨迹的能量总和的比的谐波比低,则谐波比判定单元166判定非谐波模式,并且如果谐波比高,则判定谐波模式。如上所述,在非谐波模式下激活非谐波模式编码单元170,并且在谐波模式下激活谐波模式编码单元180。
图15是示出非谐波模式编码单元170的详细配置的示意图,图16是示出在非谐波模式的情况下提取固定脉冲的规则的示意图,以及图17是示出在非谐波模式下执行编码的情况下的语法的实例的示意图。
首先,参考图15,非谐波模式编码单元170包括固定脉冲提取器172和脉冲位置信息发生器174。
固定脉冲提取器172从图16中所示的固定区域提取固定数目的固定脉冲。
[等式14]
D ( k ) = | M &CenterDot; &CenterDot; 32 ( k ) - M 32 ( k ) | , k=280,...,560
其中,M32(k)是SWB信号,并且
Figure BDA00002137038000242
是HF合成信号。
HF合成信号
Figure BDA00002137038000243
不存在,并且从而被设置为0。另外,执行寻找M32(k)的最大值的处理。D(k)被划分为5个子带以便产生Dj,并且每个子带的脉冲的数目具有预定值Nj。以下执行寻找每子带Nj个最大值的处理。以下算法是用于在序列input_data中寻找并存储最大值N的对准算法。
Figure BDA00002137038000251
参考图16,每子带示出从多个位置集合(即,第一位置集合(例如,偶数位置)或第二位置集合(例如,奇数位置))中的一个提取预定数目(例如,10)的脉冲的实例。在第一子带中,从偶数位置(280等)提取两个脉冲(轨迹0),并且从奇数位置(281等)提取两个脉冲(轨迹1)。甚至在第二子带中,类似地,从偶数位置(280等)提取两个脉冲(轨迹2),并且从奇数位置(281等)提取两个脉冲(轨迹3)。然后,在第三子带中,提取一个脉冲(轨迹4),而不管位置如何。甚至在第四子带中,提取一个脉冲(轨迹5),而不管位置如何。
用于提取固定脉冲的原因,即,用于在预定位置处提取预定数目的脉冲的原因,是因为对应于固定脉冲的位置信息的比特数被保存。
再次参考图15,脉冲位置信息发生器174相对于所提取的固定脉冲、根据预定规则来生成固定脉冲位置信息。图17示出在非谐波模式下执行编码的情况下的语法的实例。参考图17,如果根据图16中所示的规则提取固定脉冲,则从轨迹0到轨迹3的总计8个脉冲的位置被设置为偶数或奇数,并且从而用于对固定脉冲位置信息编码的比特数可以变为32比特,而不是64比特。由于对应于轨迹4的脉冲不限于偶数或奇数,所以消耗64比特。对应于轨迹5的脉冲不限于偶数或奇数,但是其位置限于472至503。从而,32比特是必须的。
此后,将参考图18至图20描述谐波模式编码处理。
图18是示出谐波模式编码单元180的详细配置的示意图,图19是示出谐波轨迹的提取的示意图,以及图20是示出谐波轨迹位置信息的量化的示意图。
参考图18,谐波模式编码单元180包括谐波轨迹提取器182和谐波信息编码单元184。
谐波轨迹提取器182从对应于高频带的频率转换系数提取多个谐波轨迹。更具体地,提取对应于第一节距的第一组的谐波轨迹(第一谐波轨迹和第二谐波轨迹),并且提取对应于第二节距的第二组的谐波轨迹(第三谐波轨迹和第四谐波轨迹)。第一谐波轨迹和第三谐波轨迹的开始位置信息可以对应于第一位置集合中的一个(例如,奇数),并且第二谐波轨迹和第四谐波轨迹的开始位置信息可以对应于第二位置集合中的一个(例如,偶数)。
参考图19(A),示出具有第一节距的第一谐波轨迹和具有第一节距的第二谐波轨迹。例如,第一谐波轨迹的开始位置可以由偶数表示,并且第二谐波轨迹的开始位置可以由奇数表示。参考图19(B),示出具有第二节距的第三和第四谐波轨迹。第三谐波轨迹的开始位置可以被设置为奇数,并且第四谐波轨迹的开始位置可以被设置为偶数。如果每组的谐波轨迹的数目是3或更多(即,第一组包括谐波轨迹A、谐波轨迹B和谐波轨迹C,并且第二组包括谐波轨迹K、谐波轨迹L和谐波轨迹M),对应于谐波轨迹A/K的第一位置集合是3N(N是整数),对应于谐波轨迹B/L的第二位置集合是3N+1(N是整数),并且对应于谐波轨迹C/M的第三位置集合是3N+2(N是整数)。
可以通过以下等式来获取上述多个谐波轨迹。
[等式14]
D ( k ) = | M &CenterDot; &CenterDot; 32 ( k ) - M 32 ( k ) | , k=280,...,560
其中,M32(k)是SWB信号,并且
Figure BDA00002137038000272
是HF合成信号。
由于HF合成信号不存在,所以如果初始值被设置为0,则执行寻找M32(k)的最大值的处理。
D(k)由预定数目(例如,总计四个)的谐波轨迹的总和表示。每个谐波轨迹Dj都可以包括两个或更多节距分量作为最大值,并且可以从一个节距分量提取两个谐波轨迹Dj。以下是寻找每节距分量具有两个最大值的谐波轨迹Dj的处理。
以下等式使用自相关函数寻找包括最高能量的谐波轨迹Dj的节距Pi。节距范围可以限于频率转换系数的20到27的系数,以限制所提取的谐波的数目。
[等式15]
P i ( m ) = &Sigma; n = 280 560 - m ( | M 32 ( n ) | &times; | M 32 ( n + m ) | ) , m=20,...,27,i=1,2
以下等式是计算每节距Pi包括最高能量的总计两个谐波轨迹Dj的开始位置PSi以便提取谐波轨迹Dj的处理。谐波轨迹Dj的开始位置PSi的范围通过包括所提取的谐波的数目来计算,并且根据MDCT域信号的特性,通过每节距Pi的两个开始位置PSi来提取总计两个谐波轨迹Dj
[等式16]
Figure BDA00002137038000281
m=1,...,16
Figure BDA00002137038000282
m=1,...,16
图19(c)中示出四个提取的谐波轨迹Dj的节距Pi和开始位置PSi的范围和数目。
谐波信息编码单元184编码和矢量-量化关于谐波轨迹的上述信息。
在以上处理中提取的谐波轨迹具有节距Pi和开始位置PSi的位置信息。以下对所提取的节距Pi和开始位置PSi编码。通过限制可以在HF中存在的谐波的数目,使用3比特来量化节距Pi,并且分别使用四比特来量化开始位置PSi。虽然总计22比特可以被用作用于通过使用两个节距Pi的开始位置PSi提取总计四个谐波轨迹的位置信息,但是本发明不限于此。
通过以上处理提取的四个谐波轨迹包括最多44个脉冲。为了量化44个脉冲的幅度值和符号信息,需要许多比特。从而,使用脉冲峰值提取算法从每个谐波轨迹的脉冲提取包括高能量的脉冲,并且如以下等式中所示对幅度值和符号信息单独编码。
以下算法是用于从每个谐波轨迹提取脉冲峰值PPi的算法,其寻找包括高能量的连续脉冲,量化幅度值,并且对符号信息单独编码,如以下等式中所示。使用3比特从每个谐波轨迹提取脉冲峰值,使用8比特量化从两个谐波轨迹提取的四个脉冲的幅度值,并且将1比特分配给符号信息。通过脉冲峰值提取算法提取的脉冲被量化为总计24比特。
[等式17]
PPi(n)=(|M32(n)|2+|M32(n+1)|2),n=1,...,5
PPi(n-1)=(|M32(n)|2+|M32(n+1)|2),n=7
PPi(n-2)=(|M32(n)|2+|M32(n+1)|2),n=9
PPi(n-3)=(|M32(n)|2+|M32(n+1)|2),n=11
Figure BDA00002137038000291
Figure BDA00002137038000292
排除由以上处理提取的8个脉冲的谐波轨迹被合并为一个轨迹,并且其幅度值和符号信息使用DCT被同时量化。为了DCT量化,使用19比特。
图20中示出对通过四个提取的谐波轨迹和排除脉冲的谐波轨迹的脉冲峰值提取算法提取的脉冲进行编码的处理。参考图20,相对于第一组的第一谐波轨迹的最佳脉冲和与其邻近的脉冲以及第一组的第二谐波轨迹的最佳脉冲和与其邻近的脉冲来生成第一目标矢量targetA,并且相对于第三谐波轨迹的最佳脉冲和与其邻近的脉冲以及第四谐波轨迹的最佳脉冲和与其邻近的脉冲来生成第二目标矢量targetB。相对于第一目标矢量和第二目标矢量执行矢量量化,并且排除每个谐波轨迹的最佳脉冲和与其邻近的脉冲的残余部分被组合并且经受频率转换。此时,在频率转换中可以使用DCT,如上所述。
图21中示出关于上述谐波轨迹的信息的实例。
图22是示出在非谐波模式和谐波模式下对特定音频信号编码的结果的示意图。参考图22,可以看出,对在谐波模式下具有强谐波分量的信号编码的结果比对具有强谐波分量的信号编码的结果更接近原始信号,并且从而可以改进声音质量。
图23是示出根据本发明实施例的音频信号处理装置的解码器的配置的示意图。参考图23,根据本发明实施例的解码器200包括模式判定单元210、非一般模式解码单元230以及谐波模式解码单元250中的至少一个,并且可以进一步包括一般模式解码单元220和非谐波模式解码单元240。解码器可以进一步包括用于解析接收到的音频信号的比特流的解复用器(未示出)。
模式判定单元210基于通过比特流接收的第一模式信息和第二模式信息来判定对应于当前帧的模式,即,当前模式。第一模式信息指示非音调模式和音调模式中的一个,并且如果第一模式信息指示非音调模式,则第二模式信息指示一般模式或非一般模式中的一个,类似于上述编码器100。
根据所判定的当前模式,在当前帧中激活四个解码单元220、230、240和250中的一个,并且根据当前模式,通过解复用器(未示出)提取对应于每个模式的参数。
如果当前模式是一般模式,则提取包络位置信息、缩放信息等。然后,一般模式解码单元220从所恢复的低频带的频率转换系数(WB信号)提取对应于包络位置信息的部分,即,最类似频带的包络。然后,使用缩放信息缩放包络,以便恢复当前帧的高频带(SWB信号)。
如果当前模式是非一般模式,则提取脉冲信息、噪声位置信息、噪声能量信息等。然后,非一般模式解码单元230基于脉冲信息生成多个脉冲(例如,主脉冲和子脉冲以及两个独立脉冲的总计三个集合)。脉冲信息可以包括脉冲位置信息、脉冲符号信息和脉冲幅度信息。根据脉冲符号信息来判定每个脉冲的符号。根据脉冲幅度信息和脉冲位置信息来判定每个脉冲的幅度和位置。然后,使用噪声位置信息判定在所恢复的WB信号中用作噪声的部分,使用噪声能量信息来调节噪声能量,并且总计脉冲,由此恢复当前帧的SWB信号。
如果当前模式是非谐波模式,则提取固定脉冲信息。非谐波模式解码单元240使用固定脉冲信息来获取每子带的位置集合以及预定数目的固定脉冲。使用固定脉冲来生成当前帧的SWB信号。
如果当前模式是谐波模式,则提取谐波轨迹的位置信息等。谐波轨迹的位置信息包括具有第一节距的第一组的谐波轨迹的开始位置信息和具有第二节距的第二组的谐波轨迹的开始位置信息。第一组的谐波轨迹可以包括第一谐波轨迹和第二谐波轨迹,并且第二组的谐波轨迹可以包括第三谐波轨迹和第四谐波轨迹。第一谐波轨迹和第三谐波轨迹的开始位置信息可以对应于第一位置集合中的一个,并且第二谐波轨迹和第四谐波轨迹的开始位置信息可以对应于第二位置集合中的一个。
可以进一步接收指示第一节距和第二节距的节距信息。谐波模式解码单元250使用节距信息和开始位置信息来生成对应于开始位置信息的多个谐波轨迹,并且使用多个谐波轨迹来生成对应于当前帧的音频信号,即,SWB信号。
根据本发明的音频信号处理装置可以包括在各种产品中。这样的产品可以主要划分为独立组和便携式组。独立组可以包括TV、监控器、机顶盒等,并且便携式组可以包括PMP、移动电话、导航系统等。
图24是示出其中实现根据本发明实施例的音频信号处理装置的产品的配置的示意图。首先,参考图24,有线/无线通信单元510使用有线/无线通信方案来接收比特流。更具体地,有线/无线通信单元510可以包括有线通信单元510A、红外线单元510B、蓝牙单元510C和无线LAN单元510D中的至少一个。
用户认证单元520接收用户信息并且执行用户认证,并且可以包括指纹识别单元520A、虹膜识别单元520B、面部识别单元520C和语音识别单元520D,所有都分别接收并转换指纹信息、虹膜信息、面部轮廓信息和语音信息为用户信息,并且确定用户信息是否与先前记录的用户数据匹配,以便执行用户认证。
输入单元530使用户能够输入多种类型的命令,并且可以包括键盘单元530A、触摸板单元530B和遥控器单元530C中的至少一个,本发明不限于此。
信号编译单元540对通过有线/无线通信单元510接收的音频信号和/或视频信号编码和解码,并且输出时域的音频信号。信号编译单元包括对应于本发明的上述实施例的音频信号处理装置545(根据第一实施例的编码器100和/或解码器200或者根据第二实施例的编码器300和/或解码器400)。音频信号处理装置545和包括其的信号编译单元可以通过一个或多个处理器实现。
控制单元550从输入设备接收输入信号,并且控制信号解码单元540和输出单元560的所有处理。输出单元560是用于输出通过信号解码单元540生成的输出信号的组件,并且包括扬声器单元560A和显示单元560B。当输出信号是音频信号时,输出信号通过扬声器输出,并且如果输出信号是视频信号,则输出信号通过显示器输出。
图25是示出其中实现根据本发明实施例的音频信号处理装置的产品之间的关系的示意图。图25示出对应于图24中所示的产品的终端和服务器之间的关系。参考图25(A),第一终端500.1和第二终端500.2可以通过有线/无线通信单元双向通信数据或比特流。参考图16(B),服务器600和第一终端500.1可以相互执行有线/无线通信。
根据本发明的音频信号处理装置可以制作为计算机可执行程序并且存储在计算机可读记录介质中,并且具有根据本发明的数据结构的多媒体数据可以存储在计算机可读记录介质中。计算机可读记录介质的实例包括ROM、RAM、CD-ROM、磁带、软盘、光学数据贮存器、以及载波(例如,基于互联网的数据传输)。通过编码方法生成的比特流可以被存储在计算机可读记录介质中或者在有线/无线通信网络上发送。
在不脱离本发明的精神或范围的情况下,本领域技术人员显然可以在本发明中进行多种修改和改变,。从而,意在如果本发明的修改和改变落入在所附权利要求及其等同物的范围内,本发明覆盖对本发明的修改和改变。
【工业应用性】
本发明可应用至音频信号的编码和解码。

Claims (18)

1.一种音频信号处理方法,包括:
相对于音频信号通过执行频率转换,获得多个频率转换系数;
相对于在所述多个频率转换系数之中的高频带的频率转换系数,基于脉冲比来选择一般模式和非一般模式中的一个;以及
如果选择所述非一般模式,则执行以下步骤:
从所述高频带的所述频率转换系数提取预定数目的脉冲并且生成脉冲信息;
从所述高频带的所述频率转换系数排除所述脉冲,生成原始噪声信号;
使用在所述多个频率转换系数之中的低频带的频率转换系数来生成基准噪声信号;以及
使用所述原始噪声信号和所述基准噪声信号来生成噪声位置信息和噪声能量信息。
2.根据权利要求1所述的音频信号处理方法,其中,所述脉冲比是多个脉冲的能量与当前帧的总能量的比。
3.根据权利要求1所述的音频信号处理方法,其中,提取所述预定数目的脉冲包括:
提取具有最高能量的主脉冲;
提取邻近所述主脉冲的子脉冲;以及
通过从所述高频带的所述频率转换系数排除所述主脉冲和所述子脉冲来生成目标噪声信号,
其中,提取所述主脉冲和所述子脉冲以用于所述目标噪声信号被重复预定次数。
4.根据权利要求1所述的音频信号处理方法,其中,所述脉冲信息包括脉冲位置信息、脉冲符号信息、脉冲幅度信息和脉冲子带信息中的至少一个。
5.根据权利要求1所述的音频信号处理方法,其中,生成所述基准噪声信号包括:
基于低频带的总能量来设置阈值;以及
通过排除超过所述阈值的脉冲来生成所述基准噪声信号。
6.根据权利要求1所述的音频信号处理方法,其中,生成所述噪声能量信息包括:
生成所述预定数目的脉冲的能量;
生成所述原始噪声信号的能量;
使用所述脉冲的能量和所述原始噪声信号的能量来获取脉冲比;以及
生成所述脉冲比作为所述噪声能量信息。
7.一种音频信号处理装置,包括:
频率转换单元,所述频率转换单元被配置成通过相对于音频信号执行频率转换来获取多个频率转换系数;
脉冲比确定单元,所述脉冲比确定单元被配置成相对于所述多个频率转换系数之中的高频带的频率转换系数、基于脉冲比来选择一般模式和非一般模式中的一个;以及
非一般模式编码单元,所述非一般模式编码单元被配置成在所述非一般模式下操作,并且包括:
脉冲提取器,所述脉冲提取器被配置成从所述高频带的所述频率转换系数提取预定数目的脉冲以及被配置成生成脉冲信息;
基准噪声发生器,所述基准噪声发生器被配置成使用在所述多个频率转换系数之中的低频带的频率转换系数来生成基准噪声信号;以及
噪声搜索单元,所述噪声搜索单元被配置成使用原始噪声信号和所述基准噪声信号来生成噪声位置信息和噪声能量信息,
其中,通过从所述高频带的所述频率转换系数排除所述脉冲来生成所述原始噪声信号。
8.一种音频信号处理方法,包括:
接收指示当前帧是处于一般模式还是非一般模式的第二模式信息;
如果所述第二模式信息指示所述当前帧处于所述非一般模式,则接收脉冲信息、噪声位置信息和噪声能量信息;
使用所述脉冲信息,相对于频率转换系数,来生成预定数目的脉冲;
使用与所述噪声位置信息相对应的低频带的频率转换系数来生成基准噪声信号;
使用所述噪声能量信息来调节所述基准噪声信号的能量;以及
使用所述能量被调节的所述基准噪声信号和所述多个脉冲来生成与高频带相对应的频率转换系数。
9.一种音频信号处理方法,包括:
接收音频信号;
相对于所述音频信号,通过执行频率转换来获取多个频率转换系数;
相对于所述频率转换系数,基于谐波比来选择非谐波模式和谐波模式中的一个;以及
如果选择所述谐波模式,则执行以下步骤:
判定与第一节距相对应的第一组的谐波轨迹;
判定与第二节距相对应的第二组的谐波轨迹;以及
生成所述多个谐波轨迹的开始位置信息,
其中,所述第一组的所述谐波轨迹包括第一谐波轨迹和第二谐波轨迹,
其中,所述第二组的所述谐波轨迹包括第三谐波轨迹和第四谐波轨迹,
其中,所述第一谐波轨迹和所述第三谐波轨迹的开始位置信息对应于第一位置集合中的一个,以及
其中,所述第二谐波轨迹和所述第四谐波轨迹的开始位置信息对应于第二位置集合中的一个。
10.根据权利要求9所述的音频信号处理方法,其中,基于所述多个谐波轨迹的能量和所述多个脉冲的能量来生成所述谐波比。
11.根据权利要求9所述的音频信号处理方法,其中,所述第一位置集合对应于偶数位置,以及所述第二位置集合对应于奇数位置。
12.根据权利要求9所述的音频信号处理方法,进一步包括:
生成第一目标矢量,所述第一目标矢量包括所述第一谐波轨迹中的最大脉冲和邻近所述最大脉冲的脉冲以及所述第二谐波轨迹中的最大脉冲和邻近所述最大脉冲的脉冲;
生成第二目标矢量,所述第二目标矢量包括所述第三谐波轨迹中的最大脉冲和邻近所述最大脉冲的脉冲以及所述第四谐波轨迹中的最大脉冲和邻近所述最大脉冲的脉冲;
矢量-量化所述第一目标矢量和所述第二目标矢量;以及
相对于从所述谐波轨迹排除所述第一目标矢量和所述第二目标矢量的残余部分来执行频率转换。
13.根据权利要求9所述的音频信号处理方法,其中:
所述第一谐波轨迹是具有第一节距的多个脉冲的集合,
所述第二谐波轨迹是具有第一节距的多个脉冲的集合,
所述第三谐波轨迹是具有第二节距的多个脉冲的集合,以及
所述第四谐波轨迹是具有第二节距的多个脉冲的集合。
14.根据权利要求9所述的音频信号处理方法,进一步包括:生成指示所述第一节距和所述第二节距的节距信息。
15.一种音频信号处理方法,包括:
接收多个谐波轨迹的开始位置信息,所述多个谐波轨迹包括与第一节距相对应的第一组的谐波轨迹以及与第二节距相对应的第二组的谐波轨迹;
生成与所述开始位置信息相对应的多个谐波轨迹;以及
使用所述多个谐波轨迹来生成与当前帧相对应的音频信号,
其中,所述第一组的谐波轨迹包括第一谐波轨迹和第二谐波轨迹,
其中,所述第二组的谐波轨迹包括第三谐波轨迹和第四谐波轨迹,
其中,所述第一谐波轨迹和所述第三谐波轨迹的开始位置信息对应于第一位置集合中的一个,以及
其中,所述第二谐波轨迹和所述第四谐波轨迹的开始位置信息对应于第二位置集合中的一个。
16.一种音频信号处理方法,包括:
相对于音频信号,通过执行频率转换来获取多个频率转换系数;
相对于所述频率转换系数,基于帧间相似度来选择非音调模式和音调模式;
如果选择所述非音调模式,则基于脉冲比来选择一般模式和非一般模式中的一个;
如果选择所述音调模式,则基于谐波比来选择非谐波模式和谐波模式中的一个;以及
根据所选模式,通过对所述音频信号进行编码来生成参数,
其中,在所述一般模式的情况下,所述参数包括包络位置信息和缩放信息,
其中,在所述非一般模式的情况下,所述参数包括脉冲信息和噪声能量信息,
其中,在所述非谐波模式的情况下,所述参数包括作为关于固定脉冲的信息的固定脉冲信息、每子带预定的数目,以及
其中,在所述谐波模式的情况下,所述参数包括第一组的谐波轨迹的位置信息和第二组的谐波轨迹的位置信息。
17.根据权利要求16所述的音频信号处理方法,进一步包括:根据所选模式来生成第一模式信息和第二模式信息,
其中,所述第一模式信息指示所述非音调模式和所述音调模式中的一个,以及
其中,如果所述第一模式信息指示所述非音调模式,则所述第二模式信息指示所述一般模式或非一般模式中的一个,以及如果所述第一模式信息指示所述音调模式,则所述第二模式信息指示所述非谐波模式和所述谐波模式中的一个。
18.一种音频信号处理方法,包括:
通过比特流来提取第一模式信息和第二模式信息;
基于所述第一模式信息和所述第二模式信息来判定与当前帧相对应的当前模式;
如果所述当前模式是一般模式,则使用包络位置信息和缩放信息来恢复所述当前帧的音频信号;
如果所述当前模式是非一般模式,则使用脉冲信息和噪声能量信息来恢复所述当前帧的所述音频信号;
如果所述当前模式是非谐波模式,则使用作为关于固定脉冲的信息的固定脉冲信息、每子带预定的数目来恢复所述当前帧的所述音频信号;以及
如果所述当前模式是谐波模式,则使用第一组的谐波轨迹的位置信息和第二组的谐波轨迹的位置信息来恢复所述当前帧的所述音频信号。
CN201180013842.5A 2010-01-15 2011-01-17 处理音频信号的方法和装置 Expired - Fee Related CN102870155B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201410433417.7A CN104252862B (zh) 2010-01-15 2011-01-17 处理音频信号的方法和装置

Applications Claiming Priority (9)

Application Number Priority Date Filing Date Title
US29517010P 2010-01-15 2010-01-15
US61/295,170 2010-01-15
US34919210P 2010-05-27 2010-05-27
US61/349,192 2010-05-27
US37744810P 2010-08-26 2010-08-26
US61/377,448 2010-08-26
US201061426502P 2010-12-22 2010-12-22
US61/426,502 2010-12-22
PCT/KR2011/000324 WO2011087332A2 (ko) 2010-01-15 2011-01-17 오디오 신호 처리 방법 및 장치

Related Child Applications (1)

Application Number Title Priority Date Filing Date
CN201410433417.7A Division CN104252862B (zh) 2010-01-15 2011-01-17 处理音频信号的方法和装置

Publications (2)

Publication Number Publication Date
CN102870155A true CN102870155A (zh) 2013-01-09
CN102870155B CN102870155B (zh) 2014-09-03

Family

ID=44352281

Family Applications (2)

Application Number Title Priority Date Filing Date
CN201180013842.5A Expired - Fee Related CN102870155B (zh) 2010-01-15 2011-01-17 处理音频信号的方法和装置
CN201410433417.7A Expired - Fee Related CN104252862B (zh) 2010-01-15 2011-01-17 处理音频信号的方法和装置

Family Applications After (1)

Application Number Title Priority Date Filing Date
CN201410433417.7A Expired - Fee Related CN104252862B (zh) 2010-01-15 2011-01-17 处理音频信号的方法和装置

Country Status (5)

Country Link
US (2) US9305563B2 (zh)
EP (2) EP2525357B1 (zh)
KR (1) KR101764633B1 (zh)
CN (2) CN102870155B (zh)
WO (1) WO2011087332A2 (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102893718A (zh) * 2012-09-07 2013-01-30 中国农业大学 带状旋耕播种机主动覆土方法

Families Citing this family (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2011087332A2 (ko) * 2010-01-15 2011-07-21 엘지전자 주식회사 오디오 신호 처리 방법 및 장치
EP2763137B1 (en) * 2011-09-28 2016-09-14 LG Electronics Inc. Voice signal encoding method and voice signal decoding method
US8731911B2 (en) * 2011-12-09 2014-05-20 Microsoft Corporation Harmonicity-based single-channel speech quality estimation
WO2014030928A1 (ko) * 2012-08-21 2014-02-27 엘지전자 주식회사 오디오 신호 부호화 방법 및 오디오 신호 복호화 방법 그리고 이를 이용하는 장치
NL2012567B1 (en) * 2014-04-04 2016-03-08 Teletrax B V Method and device for generating improved fingerprints.
CN104978968A (zh) * 2014-04-11 2015-10-14 鸿富锦精密工业(深圳)有限公司 水印加载装置及水印加载的方法
JP2018191145A (ja) * 2017-05-08 2018-11-29 オリンパス株式会社 収音装置、収音方法、収音プログラム及びディクテーション方法
US10586546B2 (en) 2018-04-26 2020-03-10 Qualcomm Incorporated Inversely enumerated pyramid vector quantizers for efficient rate adaptation in audio coding
US10734006B2 (en) 2018-06-01 2020-08-04 Qualcomm Incorporated Audio coding based on audio pattern recognition
US10580424B2 (en) * 2018-06-01 2020-03-03 Qualcomm Incorporated Perceptual audio coding as sequential decision-making problems
CN109102811B (zh) * 2018-07-27 2021-03-30 广州酷狗计算机科技有限公司 音频指纹的生成方法、装置及存储介质
WO2020183732A1 (ja) * 2019-03-14 2020-09-17 日本電気株式会社 情報処理装置、情報処理システム、情報処理方法及び記録媒体
CN111223491B (zh) * 2020-01-22 2022-11-15 深圳市倍轻松科技股份有限公司 一种提取音乐信号主旋律的方法、装置及终端设备

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20060078362A (ko) * 2004-12-31 2006-07-05 삼성전자주식회사 광대역 음성 부호화 및 복호화 시스템에서 고대역 음성부호화 및 복호화 장치와 그 방법
CN1957398A (zh) * 2004-02-18 2007-05-02 沃伊斯亚吉公司 在基于代数码激励线性预测/变换编码激励的音频压缩期间低频加重的方法和设备
KR100788706B1 (ko) * 2006-11-28 2007-12-26 삼성전자주식회사 광대역 음성 신호의 부호화/복호화 방법
KR20080095491A (ko) * 2007-04-24 2008-10-29 삼성전자주식회사 오디오/스피치 신호 부호화 및 복호화 방법 및 장치

Family Cites Families (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
SE9903553D0 (sv) * 1999-01-27 1999-10-01 Lars Liljeryd Enhancing percepptual performance of SBR and related coding methods by adaptive noise addition (ANA) and noise substitution limiting (NSL)
CN100395817C (zh) * 2001-11-14 2008-06-18 松下电器产业株式会社 编码设备、解码设备和解码方法
US8630863B2 (en) 2007-04-24 2014-01-14 Samsung Electronics Co., Ltd. Method and apparatus for encoding and decoding audio/speech signal
KR101377667B1 (ko) * 2007-04-24 2014-03-26 삼성전자주식회사 오디오/스피치 신호의 시간 도메인에서의 부호화 방법
US8527265B2 (en) 2007-10-22 2013-09-03 Qualcomm Incorporated Low-complexity encoding/decoding of quantized MDCT spectrum in scalable speech and audio codecs
EP2434485A4 (en) 2009-05-19 2014-03-05 Korea Electronics Telecomm METHOD AND APPARATUS FOR ENCODING AND DECODING AUDIO SIGNAL USING HIERARCHICAL ENCODING IN SINUSOIDAL PULSES
WO2011087332A2 (ko) * 2010-01-15 2011-07-21 엘지전자 주식회사 오디오 신호 처리 방법 및 장치

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1957398A (zh) * 2004-02-18 2007-05-02 沃伊斯亚吉公司 在基于代数码激励线性预测/变换编码激励的音频压缩期间低频加重的方法和设备
KR20060078362A (ko) * 2004-12-31 2006-07-05 삼성전자주식회사 광대역 음성 부호화 및 복호화 시스템에서 고대역 음성부호화 및 복호화 장치와 그 방법
KR100788706B1 (ko) * 2006-11-28 2007-12-26 삼성전자주식회사 광대역 음성 신호의 부호화/복호화 방법
KR20080095491A (ko) * 2007-04-24 2008-10-29 삼성전자주식회사 오디오/스피치 신호 부호화 및 복호화 방법 및 장치

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
KIM, HYEON U ET AL.: "The Trend of G.729.1 Wideband Multi-codec Technology", 《ELECTRONICS AND TELECOMMUNICATIONS TRENDS》, vol. 21, no. 6, 31 December 2006 (2006-12-31), pages 77 - 85, XP008148134 *

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102893718A (zh) * 2012-09-07 2013-01-30 中国农业大学 带状旋耕播种机主动覆土方法

Also Published As

Publication number Publication date
WO2011087332A2 (ko) 2011-07-21
EP2525357B1 (en) 2015-12-02
US9305563B2 (en) 2016-04-05
WO2011087332A3 (ko) 2011-12-01
US9741352B2 (en) 2017-08-22
EP3002752A1 (en) 2016-04-06
CN102870155B (zh) 2014-09-03
EP2525357A2 (en) 2012-11-21
KR101764633B1 (ko) 2017-08-04
EP2525357A4 (en) 2014-11-05
US20160217801A1 (en) 2016-07-28
US20130060365A1 (en) 2013-03-07
KR20120121895A (ko) 2012-11-06
CN104252862B (zh) 2018-12-18
CN104252862A (zh) 2014-12-31

Similar Documents

Publication Publication Date Title
CN102870155B (zh) 处理音频信号的方法和装置
US9313593B2 (en) Ranking representative segments in media data
EP2791935B1 (en) Low complexity repetition detection in media data
JP5826291B2 (ja) 音声信号からの特徴フィンガープリントの抽出及びマッチング方法
CN101297356B (zh) 用于音频压缩的方法和设备
JP6069341B2 (ja) オーディオ・コーデックからの向上したクロマ抽出のための方法、エンコーダ、デコーダ、ソフトウェア・プログラム、記憶媒体
CN103081006B (zh) 处理音频信号的方法和设备
CN104718571A (zh) 用于隐藏帧错误的方法和设备以及用于音频解码的方法和设备
CN104641414A (zh) 立体声音频信号编码器
EP1441330B1 (en) Method of encoding and/or decoding digital audio using time-frequency correlation and apparatus performing the method
CN104217727A (zh) 信号解码方法及设备
CN106233112A (zh) 信号编码方法和设备以及信号解码方法和设备
US8271291B2 (en) Method and an apparatus for identifying frame type
Li et al. Robust audio identification for MP3 popular music
CN102214219B (zh) 音视频内容检索系统及其方法
You et al. Music identification system using MPEG-7 audio signature descriptors
CN104715756A (zh) 音频数据的处理方法及装置
Yin et al. Robust online music identification using spectral entropy in the compressed domain
CN103733256A (zh) 音频信号处理方法、音频编码设备、音频解码设备和采用所述方法的终端
Moriai et al. Application of the wavelet transform to the low‐bit‐rate speech coding system

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
CF01 Termination of patent right due to non-payment of annual fee
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20140903

Termination date: 20170117