CN101091108A - 用于对音频信号进行编码的编码模型的选择 - Google Patents

用于对音频信号进行编码的编码模型的选择 Download PDF

Info

Publication number
CN101091108A
CN101091108A CNA200580015656XA CN200580015656A CN101091108A CN 101091108 A CN101091108 A CN 101091108A CN A200580015656X A CNA200580015656X A CN A200580015656XA CN 200580015656 A CN200580015656 A CN 200580015656A CN 101091108 A CN101091108 A CN 101091108A
Authority
CN
China
Prior art keywords
encoding model
audio content
sound signal
encoding
model
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CNA200580015656XA
Other languages
English (en)
Other versions
CN100485337C (zh
Inventor
雅里·马基南
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nokia Technologies Oy
Original Assignee
Nokia Oyj
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nokia Oyj filed Critical Nokia Oyj
Publication of CN101091108A publication Critical patent/CN101091108A/zh
Application granted granted Critical
Publication of CN100485337C publication Critical patent/CN100485337C/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/16Vocoder architecture
    • G10L19/18Vocoders using multiple modes
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/16Vocoder architecture
    • G10L19/18Vocoders using multiple modes
    • G10L19/22Mode decision, i.e. based on audio signal content versus external parameters
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/08Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters
    • G10L19/12Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters the excitation function being a code excitation, e.g. in code excited linear prediction [CELP] vocoders
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/16Vocoder architecture
    • G10L19/18Vocoders using multiple modes
    • G10L19/20Vocoders using multiple modes using sound class specific coding, hybrid encoders or object based coding

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)
  • Transmission Systems Not Characterized By The Medium Used For Transmission (AREA)
  • Reduction Or Emphasis Of Bandwidth Of Signals (AREA)

Abstract

本发明涉及用于选择对音频信号的连续部分进行编码的各编码模型的方法,其中为第一种类型的音频内容优化的至少一个编码模型和为第二种类型的音频内容优化的至少一个编码模型可用于选择。通常,对于每个部分的编码模型是基于指示各个部分内的音频内容的类型的信号特性选择的。可是,对于某些剩余部分,此种选择是不可行的。对于这些部分,用统计方式评估为各相邻部分执行的选择。然后,基于这些统计评估,为剩余部分选择编码模型。

Description

用于对音频信号进行编码的编码模型的选择
技术领域
本发明涉及用于选择对音频信号的连续部分进行编码的各编码模型的方法,其中为第一种类型的音频内容优化的至少一个编码模型和为第二种类型的音频内容优化的至少一个编码模型可用于选择。本发明同样涉及对应的模块,涉及包含编码器的电子设备并涉及包含编码器和解码器的音频编码系统。最后,本发明还涉及对应的软件程序产品。
背景技术
对音频信号进行编码以便有效传输和/或存储音频信号是众所周知的。
音频信号可以是语音信号或诸如音乐的另一种类型的音频信号,并且对于不同类型的音频信号,不同的编码模型可能是适合的。
广泛使用的对语音信号进行编码的技术是代数编码激励线性预测(ACELP)编码。ACELP模拟人的语音产生系统,并且非常适合于对语音信号的周期进行编码。因此,可以用非常低的比特率获得高的语音质量。例如,自适应多速率宽带(AMR-WB)是基于ACELP技术的语音编解码器。有关AMR-WB的描述例如可以参阅技术规范3GPP TS 26.190:“Speech Codec speech processing functions;AMRWideband speech codec;Transcoding functions”,V5.1.0(2001-12)。然而,基于人的语音产生系统的语音编解码器通常对例如音乐的其它类型的音频信号的表现相当差。
广泛使用的用于对不同于语音的音频信号进行编码的技术是变换编码(TCX)。用于音频信号的变换编码的优越性是基于知觉掩蔽和频域编码的。通过为变换编码选择适合的编码帧长度,可以进一步改善最后得到的音频信号的质量。但是尽管变换编码技术导致对于不同于语音的音频信号的高质量,但是,对于周期性的语音信号,其性能并不好。因此,变换编码的语音的质量通常相当低,特别是用长TCX帧长度时。
扩展AMR-WB(AMR-WB+)编解码器将立体声音频信号编码为高比特率的单声道信号,并且提供用于立体声扩展的辅助信息。AMR-WB+编解码器同时使用ACELP编码和TCX模型对0Hz到6400Hz的频带内的核心单声道信号进行编码。对于TCX模型,使用20ms、40ms或80ms的编码帧长度。
因为ACELP模型可能使音频质量降级,并且变换编码通常对语音的表现不佳,特别是在使用长编码帧时,所以必须根据要编码的信号的性质选择各自的最好的编码模型。可以用不同方式实现要实际使用的编码模型的选择。
在例如移动多媒体业务(MMS)的需要低复杂性技术的系统中,通常使用音乐/语音分类算法选择最佳的编码模型。这些算法基于对音频信号的能量和频率性质的分析,把全部源信号分类为音乐或语音。
如果音频信号仅由语音或仅由音乐组成,则基于此种音乐/语音分类对全部信号使用相同的编码模型是令人满意的。然而,在许多其它情况中,要编码的音频信号是混合类型的音频信号。例如,语音可以与音乐同时出现和/或在时间上与音频信号中的音乐交错。
在这些情况中,把全部源信号分类成音乐或语音类别是一种非常局限的方法。因此,在对音频信号编码时,只有通过编码模型之间的瞬时切换,才能使总的音频质量最大化。亦即,最好部分地使用ACELP模型对被分类为不同于语音的音频信号的源信号进行编码,同时最好部分地使用TCX模型对被分类为语音信号的源信号进行编码。从编码模型的观点看,可以把信号称为类似语音的信号或类似音乐的信号。依据信号的性质,或者ACELP编码模型或者TCX模型具有更好的性能。
扩展AMR-WB(AMR-WB+)编解码器被设计用来以逐帧为基础利用混合编码模型对此种混合类型的音频信号进行编码。
可以用几种方式实现AMR-WB+中的编码模型的选择。
在最复杂的方法中,首先用ACELP和TCX模型的所有可能组合对该信号进行编码。接着,针对每种组合再次合成该信号。然后基于合成的语音信号的质量选择最好的激励。例如,通过确定其信噪比(SNR),可以测量以具体组合得到的合成语音的质量。这种综合分析类型的方法将提供好的结果。然而,在某些应用中,它是不可行的,因为它具有非常高的复杂性。此类应用包括例如移动应用。复杂性主要是由ACELP编码产生的,ACELP编码是编码器的最复杂的部分。
例如,在类似MMS的系统中,全闭环综合分析方法太复杂以至于不能执行。因此,在MMS编码器中,使用低复杂度的开环方法确定是选择ACELP编码模型还是选择TCX模型对特定帧进行编码。
AMR-WB+提供两种不同的低复杂度的开环方法以便为每一帧选择相应的编码模型。两种开环方法均评估源信号特性和编码参数以选择相应的编码模型。
在第一种开环方法中,首先把每一帧内的音频信号分成若干频带,并且分析较低频带内的能量和较高频带内的能量之间的关系,以及这些频带内的能级变化。然后,基于所执行的两种测量或者基于使用不同分析窗口和决策阈值的这些测量的不同组合,把该音频信号的每一帧内的音频内容分类成类似音乐的内容或类似语音的内容。
在第二种开环方法中,该方法也称为模型分类改进,编码模型选择基于音频信号的各帧内的音频内容的周期性和稳定性的评估。更具体地说,通过确定相关性、长期预测(LTP)参数和频谱距测量,评估周期性和稳定性。
尽管可以使用两种不同的开环方法选择每一个音频信号帧的最佳编码模型,但是在某些情况中,利用现有的编码模型选择算法仍然找不到最佳的编码模型。例如,为某一帧评估的信号特性的值可能既不明确地指示语音也不指示音乐。
发明内容
本发明的目的是,改进用于对音频信号的各个部分进行编码所用的编码模型的选择。
提出了用于选择对音频信号的连续部分进行编码的各编码模型的方法,其中为第一种类型的音频内容优化的至少一个编码模型和为第二种类型的音频内容优化的至少一个编码模型可用于选择。该方法包括:如果可行的话,基于指示各个部分中的音频内容的类型的至少一个信号特性为该音频信号的每个部分选择一个编码模型。该方法还包括:对于不能基于至少一个信号特性进行选择的该音频信号的每个剩余部分,基于多个编码模型(即,基于至少一个信号特性为各剩余部分的相邻部分选择的编码模型)的统计评估选择一个编码模型。
请注意,不要求在对该音频信号的剩余部分执行第二选择步骤之前对该音频信号的所有部分执行第一选择步骤,尽管可以这么做。
此外,提出了利用各编码模型对音频信号的连续部分进行编码的模块。在该编码器中,为第一种类型的音频内容优化的至少一个编码模型和为第二种类型的音频内容优化的至少一个编码模型为可用的。该模块包括第一评估部分,该部分适合于如果可行的话,基于指示该部分中该音频信号的类型的至少一个信号特性为该音频信号的该部分选择编码模型。该模块还包括第二评估部分,对于该第一评估部分尚未为其选择编码模型的音频信号的每个剩余部分的相邻部分,该第二评估部分适合于统计评估该第一评估部分为其选择的编码模型,并且适合于基于各统计评估为每个剩余部分选择编码模型。该模块还包括编码部分,该部分用于利用为各部分选择的编码模型对该音频信号的每个部分进行编码。该模块可以是例如编码器或编码器的一部分。
此外,提出了包含带有所提出的模块的功能特征的编码器的电子设备。
此外,提出了包含编码器和解码器的音频编码系统,其中编码器带有所提出的模块的功能特征,另外解码器用于利用对各部分进行编码所用的编码模型对音频信号的连续编码部分进行解码。
最后,提出了软件程序产品,其中该软件程序产品中存储有用于选择对音频信号的连续部分进行编码的各编码模型的软件代码。此外,为第一种类型的音频内容优化的至少一个编码模型和为第二种类型的音频内容优化的至少一个编码模型可用于选择。当在编码器的处理部件上运行时,该软件实现所提出的方法的步骤。
本发明源于以下考虑,音频信号的某一部分内的音频内容的类型多半与该音频信号的相邻部分内的音频内容的类型类似。因此,提出了如果不能基于评估的信号特性明确选择具体部分的最佳编码模型,则用统计方式评估为该具体部分的相邻部分选择的编码模型。请注意,这些编码模型的统计评估也可以是所选择的编码模型的间接评估,例如其形式可以是确定为相邻部分包含的内容的类型的统计评估。然后使用该统计评估为具体部分选择多半是最好的编码模型。
本发明的优势在于,它允许为音频信号的绝大部分查找最佳的编码模型,甚至为常规开环方法不能为其选择编码模型的那些部分的绝大部分查找最佳的编码模型。
特别地,尽管非排他地,不同类型的音频内容包括语音和例如音乐的不同于语音的内容。这种不同于语音的音频内容通常也简称为音频。因此,有利地,为语音优化的可选编码模型是代数编码激励线性预测编码模型,而为其它内容优化的可选编码模型是变换编码模型。
为剩余部分的统计评估所考虑的音频信号的那些部分可以包括仅该剩余部分前面的那些部分,但是同样可以包括该剩余部分前面和后面的那些部分。后一种方案进一步提高了为剩余部分选择最好的编码模型的可能性。
在本发明的一个实施例中,该统计评估包括为每个编码模型计数已经为其选择各编码模型的相邻部分的数目。然后可以彼此比较不同编码模型的选择的数目。
在本发明的一个实施例中,该统计评估是关于该编码模型的非均匀统计评估。例如,如果第一种类型的音频内容是语音而第二种类型的音频内容是不同于语音的音频内容,则带有语音内容的那些部分的数目的权重高于带有其它音频内容的那些部分的数目的权重。这可以确保全部音频信号的编码语音内容的高质量。
在本发明的一个实施例中,指派了编码模型的音频信号的每个部分相当于一帧。
通过连同附图一起考虑下面的详细描述,本发明的其它目的和特征将变得明显。然而,应该懂得,附图只是为说明目的设计的,不能作为本发明的限制的定义,有关本发明的限制请参阅所附权利要求书。另外,应该懂得,附图不是按比例绘制的,并且它们只是用来从概念上说明本文描述的结构和过程的。
附图说明
图1是根据本发明的实施例的系统的示意图;
图2是一个流程图,说明图1的系统中的操作;以及
图3是一个帧的图示,说明图1的系统中的操作。
具体实施方式
图1是根据本发明的实施例的音频编码系统的示意图,该系统使得为音频信号的任意一帧均能选择最佳的编码模型。
该系统包括第一设备1和第二设备2,第一设备1包括AMR-WB+编码器10,而第二设备2包括AMR-WB+解码器20。第一设备1可以是例如MMS服务器,而第二设备2可以例如是一部移动电话或别的移动设备。
第一设备1的编码器10包括对输入音频信号的特性进行评估的第一评估部分12,用于统计评估的第二评估部分13以及编码部分14。一方面,第一评估部分12与编码部分14相连,另一方面,其又与第二评估部分13相连。第二评估部分13同样与编码部分14相连。优选地,编码部分14能够将ACELP编码模型或TCX模型应用于接收的音频帧。
特别地,可以利用在虚线指示的编码器10的处理部件11上运行的软件SW实现第一评估部分12、第二评估部分13和编码部分14。
以下参照图2的流程图更详细地描述编码器10的操作。
编码器10接收已向第一设备1提供的音频信号。
线性预测(LP)滤波器(未示出)计算每个音频信号帧中的线性预测系数(LPC),以建立谱包络的模型。编码部分14或者基于ACELP编码模型或者基于TCX模型对用于每一帧的由滤波器输出的LPC激励进行编码。
对于AMR-WB+中的编码结构,按照80ms的超帧对音频信号进行分组,每个超帧包括四个20ms的帧。只有为该超帧中的所有音频信号帧选择完编码方式之后,才开始用于传输的4*20ms的超帧的编码的编码处理。
为了为该音频信号帧选择各编码模型,第一评估部分12例如利用上面提及的开环方法中的一个方法以逐帧为基础确定所接收的音频信号的信号特性。因此,例如可以以不同分析窗口为每一帧将较低和较高频带之间的能级关系以及较低和较高频带内的能级变化确定为信号特性。可选地,或者另外,为每一帧可以将例如相关值、LTP参数和/或频谱距测量的定义音频信号的周期性和稳定性的参数确定为信号特性。应该懂得,代替上面提及的分类方法,第一评估部分12同样可以使用适合于将音频信号帧的内容分类为类似音乐的内容或类似语音的内容的任何其它的分类方法。
接着,第一评估部分12基于用于所确定的信号特性或其组合的阈值,设法把该音频信号的每一帧的内容分类成类似音乐的内容或类似语音的内容。
这样,可以确定大部分的音频信号帧明确地包含类似语音的内容还是包含类似音乐的内容。
对于能够明确识别其音频内容的类型的所有帧,选择适合的编码模型。更具体地说,例如,为所有语音帧选择ACELP编码模型,而为所有音频帧选择TCX模型。
如上所述,也可以用某些其它方式选择编码模型,例如,对于剩余的编码模型选项采用闭环方法,或者借助于开环方法继之以闭环方法的方式预先选择可选的编码模型。
由第一评估部分12向编码部分14提供与选择的编码模型有关的信息。
然而,在某些情况中,信号特性不适合于明确地识别内容的类型。在这些情况中,把一个不确定(UNCERTAIN)方式和该帧联系起来。
由第一评估部分12向第二评估部分13提供与为所有帧的选定的编码模型有关的信息。如果为各不确定方式帧设置了声音活动指示符VADflag的话,现在,第二评估部分13也基于与各相邻帧关联的编码模型的统计评估为该不确定方式帧选择具体的编码模型。如果没有设置声音活动指示符VADflag,从而该标志指示静默周期时,在默认情况下选择的方式是TCX,并且无需执行任何一个方式选择算法。
对于统计评估,考虑不确定方式帧所属的当前超帧以及该当前超帧前面的前一个超帧。第二评估部分13借助于计数器计数该当前超帧中的和前一个超帧中的第一评估部分12已为其选择ACELP编码模型的帧数。此外,第二评估部分13计数前一个超帧中的第一评估部分12已为其选择编码帧长度为40ms或80ms的TCX模型,而且设置声音活动指示符并且总能量超过预定阈值的帧数。总能量可以这样计算,将音频信号分成不同的频带,分别确定所有频带的信号电平,然后计算得到的电平的总和。对于一个帧中的总能量的预定阈值可以设置成例如60。
因此对已为其指派ACELP编码模型的帧的计数并不限于不确定方式帧前面的帧。除非该不确定方式帧是当前超帧中的最后一帧,同时也考虑即将到来的帧的选定的编码模型。
图3说明这种情况,该图举例表示第一评估部分12向第二评估部分13指示的使第二评估部分13能够为具体的不确定方式帧选择编码模型的编码模型的分布。
图3是当前超帧n和前面的超帧n-1的示意图。每个超帧的长度为80ms并且包括长度为20ms的四个音频信号帧。在描绘的示例中,前一个超帧n-1包括已由第一评估部分12为其指派ACELP编码模型的四个帧。当前超帧n包括:已为其指派TCX模型的第一帧,已为其指派不确定方式的第二帧,已为其指派ACELP编码模型的第三帧以及已为其指派TCX模型的第四帧。
如上所述,在可以对当前超帧n编码之前,已经为全部的当前超帧n指派完了编码模型。因此,在为了选择对于当前超帧的第二帧的编码模型而执行的统计评估中,可以考虑到给第三帧和第四帧分别指派ACELP编码模型和TCX模型。
可以例如用以下伪码概括帧的计数:
if((prevMode(i)==TCX80 or prevMode(i)==TCX40)and
vadFlagold(i)==1 and TotEi>60)
     TCXCount=TCXCount+1
if(prevMode(i)==ACELP_MODE)
     ACELPCount=ACELPCount+1
if (j!=i)
     if(Mode(i)==ACELP_MODE)
     ACELPCount=ACELPCount+1
在该伪码中,i指示各超帧中的帧的编号,其值为1,2,3,4,而j指示当前超帧中的当前帧的编号。prevMode(i)是前一个超帧中的第i个20ms的帧的方式,而Mode(i)是当前超帧中的第i个20ms的帧的方式。TCX80代表选定的使用80ms的编码帧的TCX模型,而TCX40代表选定的使用40ms的编码帧的TCX模型。vadFlagold(i)代表用于前一个超帧中的第i个帧的声音活动指示符VAD。TotEi是第i个帧中的总能量。计数器值TCXCount代表前一个超帧中的选定的长TCX帧的数目,而计数器值ACELPCount代表前一个超帧和当前超帧中的ACELP帧的数目。
统计评估是按以下方式执行的:
如果前一个超帧中的编码帧长度为40ms或80ms的长TCX方式帧的计数值大于3,则同样为该不确定方式帧选择TCX模型。
否则,如果当前超帧和前一个超帧中的ACELP方式帧的计数值大于1,则为该不确定方式帧选择ACELP模型。
在所有其它情况中,为该不确定方式帧选择TCX模型。
显然,关于该方法,ACELP模型比TCX模型更受欢迎。
可以例如用以下伪码概括对于第j个帧Mode(j)的编码模型的选择:
if(TCXCount>3)
   Mode(j)=TCX_MODE;
else if(ACELPCount>1)
   Mode(j)=ACELP_MODE
else
   Mode(j)=TCX_MODE
在图3的示例中,为当前超帧n中的不确定方式帧选择ACELP编码模型。
请注意,也可以使用另外的更复杂的统计评估来确定用于不确定帧的编码模型。此外,也可以使用两个以上的超帧来收集用于确定不确定帧的编码模型的与相邻帧有关的统计信息。然而,在AMR-WB+中,有利的是,使用相对简单的基于统计的算法以实现低复杂度的解决方案。在基于统计的方式选择中,当仅仅使用相应的当前超帧和前一个超帧时,也可以实现对于在音乐内容之间有语音或在音乐内容之上有语音的音频信号的快速适应。
现在,第二评估部分13向编码部分14提供为各不确定方式帧选择的编码模型方面的信息。
编码部分14利用或者由第一评估部分12或者由第二评估部分13指示的分别选择的编码模型对各超帧的所有帧进行编码。TCX基于例如快速傅立叶变换(FFT),FFT被应用于对于各帧的LP滤波器的LPC激励输出。ACELP编码将例如LTP和固定码本参数用于对于各帧的LP滤波器输出的LPC激励。
接着,编码部分14向第二设备2提供用于传输的编码帧。在第二设备2中,解码器20分别利用ACELP编码模型或利用TCX模型对所有接收的帧进行解码。经过解码的帧被提供给第二设备2的用户以便例如进行展示。
尽管以应用于其优选实施例的方式展示、描述并指出了本发明的基本的新颖特征,但是应该懂得,本领域的熟练技术人员可以对所描述的设备和方法的形式和细节作出各种删节、替换和变更而并不背离本发明的实质。例如,其确切意图是,用大致相同的方式执行大致相同的功能以获得相同结果的那些要素和/或方法步骤的所有组合均在本发明的范围内。此外,应该认识到,作为总的设计选择,可以把连同本发明的任一公开形式或实施例一起展示和/或描述的结构和/或要素和/或方法步骤溶合到任何其它公开的或描述的或建议的形式或实施例中。因此,其意图是仅受如所附权利要求书的范围所指示的限制。

Claims (21)

1.一种用于选择对音频信号的连续部分进行编码的各编码模型的方法,其中为第一种类型的音频内容优化的至少一个编码模型和为第二种类型的音频内容优化的至少一个编码模型可用于选择,所述方法包括:
如果可行的话,为所述音频信号的每个部分,基于指示各个部分中的音频内容的类型的至少一个信号特性选择编码模型;以及
对于不能基于所述至少一个信号特性进行选择的所述音频信号的每个剩余部分,基于多个编码模型的统计评估选择编码模型,其中所述多个编码模型是基于所述至少一个信号特性为各剩余部分的相邻部分选择的。
2.根据权利要求1的方法,其中所述第一种类型的音频内容是语音,并且其中所述第二种类型的音频内容是不同于语音的音频内容。
3.根据权利要求1的方法,其中所述编码模型包括代数编码激励线性预测编码模型和变换编码模型。
4.根据权利要求1的方法,其中所述统计评估考虑为各剩余部分前面的部分选择的编码模型,并且如果可用的话考虑为所述剩余部分后面的部分选择的编码模型。
5.根据权利要求1的方法,其中所述统计评估是关于所述编码模型的非均匀统计评估。
6.根据权利要求1的方法,其中所述统计评估包括为所述编码模型的每个编码模型计数已经为其选择相应编码模型的所述相邻部分的数目。
7.根据权利要求6的方法,其中所述第一种类型的音频内容是语音,并且其中所述第二种类型的音频内容是不同于语音的音频内容,并且其中在所述统计评估中,已经为其选择为所述第一种类型的音频内容优化的所述编码模型的相邻部分的数目的权重高于已经为其选择为所述第二种类型的音频内容优化的所述编码模型的部分的数目的权重。
8.根据权利要求1的方法,其中所述音频信号的所述部分的每个部分相当于一帧。
9.一种用于选择对音频信号的连续帧进行编码的各编码模型的方法,所述方法包括:
为其信号特性指示其内容为语音的所述音频信号的每一帧,选择代数编码激励线性预测编码模型;
为其信号特性指示其内容为不同于语音的音频内容的所述音频信号的每一帧,选择变换编码模型;以及
基于多个编码模型的统计评估,为所述音频信号的每个剩余帧选择编码模型,其中所述多个编码模型是基于所述信号特性为各剩余帧的相邻帧选择的。
10.一种利用各编码模型对音频信号的连续部分进行编码的模块,其中为第一种类型的音频内容优化的至少一个编码模型和为第二种类型的音频内容优化的至少一个编码模型是可用的,所述模块包括:
第一评估部分,该部分适合于如果可行的话,基于指示所述音频信号的各部分内的音频内容的类型的至少一个信号特性为所述音频信号的各部分选择编码模型;
第二评估部分,对于所述第一评估部分尚未为其选择编码模型的音频信号的每个剩余部分的相邻部分,该第二评估部分适合于统计评估所述第一评估部分为其选择的编码模型,并且适合于基于各统计评估为所述剩余部分的每个部分选择编码模型;以及
编码部分,该部分用于利用为各部分选择的该编码模型对所述音频信号的每个部分进行编码。
11.根据权利要求10的模块,其中所述第一种类型的音频内容是语音,并且其中所述第二种类型的音频内容是不同于语音的音频内容。
12.根据权利要求10的模块,其中所述编码模型包括代数编码激励线性预测编码模型和变换编码模型。
13.根据权利要求10的模块,其中在所述统计评估中,所述第二评估部分适合于考虑所述第一评估部分为各剩余部分前面的部分选择的编码模型,并且如果可用的话,考虑所述第一评估部分为所述剩余部分后面的部分选择的编码模型。
14.根据权利要求10的模块,其中所述第二评估部分适合于相对于所述编码模型执行非均匀统计评估。
15.根据权利要求10的模块,其中所述第二评估部分适合于所述统计评估,对于所述编码模型的每一个编码模型计数所述第一评估部分已经为其选择各编码模型的所述相邻部分的数目。
16.根据权利要求15的模块,其中所述第一种类型的音频内容是语音,并且其中所述第二种类型的音频内容是不同于语音的音频内容,并且其中在所述统计评估中,所述第二评估部分适合于使得所述第一评估部分已经为其选择为所述第一种类型的音频内容优化的所述编码模型的相邻部分的数目的权重高于所述第一评估部分已经为其选择为所述第二种类型的音频内容优化的所述编码模型的部分的数目的权重。
17.根据权利要求10的模块,其中所述音频信号的所述部分的每个部分相当于一帧。
18.根据权利要求10的模块,其中所述模块是编码器。
19.一种电子设备,该设备包括利用各编码模型对音频信号的连续部分进行编码的编码器,其中为第一种类型的音频内容优化的至少一个编码模型和为第二种类型的音频内容优化的至少一个编码模型是可用的,所述编码器包括:
第一评估部分,该部分适合于如果可行的话,基于指示所述音频信号的各部分内的音频内容的类型的至少一个信号特性为所述音频信号的各部分选择编码模型;
第二评估部分,对于所述第一评估部分尚未为其选择编码模型的音频信号的每个剩余部分的相邻部分,该第二评估部分适合于统计评估所述第一评估部分为其选择的编码模型,并且适合于基于各统计评估为所述剩余部分的每个部分选择编码模型;以及
编码部分,该部分用于利用为各部分选择的该编码模型对所述音频信号的每个部分进行编码。
20.一种包含编码器和解码器的音频编码系统,其中该编码器利用各编码模型对音频信号的连续部分进行编码,该解码器利用对各部分进行编码时所用的编码模型对音频信号的连续编码部分进行解码,其中在所述编码器和所述解码器中为第一种类型的音频内容优化的至少一个编码模型和为第二种类型的音频内容优化的至少一个编码模型是可用的,所述编码器包括:
第一评估部分,该部分适合于如果可行的话,基于指示所述音频信号的各部分内的音频内容的类型的至少一个信号特性为所述音频信号的各部分选择编码模型;
第二评估部分,对于所述第一评估部分尚未为其选择编码模型的音频信号的每个剩余部分的相邻部分,该第二评估部分适合于统计评估所述第一评估部分为其选择的编码模型,并且适合于基于各统计评估为所述剩余部分的每个部分选择编码模型;以及
编码部分,该部分用于利用为各部分选择的该编码模型对所述音频信号的每个部分进行编码。
21.一种软件程序产品,其中存储有用于选择对音频信号的连续部分进行编码的各编码模型的软件代码,其中为第一种类型的音频内容优化的至少一个编码模型和为第二种类型的音频内容优化的至少一个编码模型可用于选择,当在编码器的处理部件上运行时,所述软件代码实现以下步骤:
如果可行的话,为所述音频信号的每个部分,基于指示各部分内的音频内容的类型的至少一个信号特性选择编码模型;以及
对于不能基于所述至少一个信号特性进行选择的所述音频信号的每个剩余部分,基于多个编码模型的统计评估选择编码模型,其中所述多个编码模型是基于所述至少一个信号特性为各剩余部分的相邻部分选择的。
CNB200580015656XA 2004-05-17 2005-04-06 用于对音频信号进行编码的编码模型的选择 Active CN100485337C (zh)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US10/847,651 US7739120B2 (en) 2004-05-17 2004-05-17 Selection of coding models for encoding an audio signal
US10/847,651 2004-05-17

Publications (2)

Publication Number Publication Date
CN101091108A true CN101091108A (zh) 2007-12-19
CN100485337C CN100485337C (zh) 2009-05-06

Family

ID=34962977

Family Applications (1)

Application Number Title Priority Date Filing Date
CNB200580015656XA Active CN100485337C (zh) 2004-05-17 2005-04-06 用于对音频信号进行编码的编码模型的选择

Country Status (17)

Country Link
US (1) US7739120B2 (zh)
EP (1) EP1747442B1 (zh)
JP (1) JP2008503783A (zh)
KR (1) KR20080083719A (zh)
CN (1) CN100485337C (zh)
AT (1) ATE479885T1 (zh)
AU (1) AU2005242993A1 (zh)
BR (1) BRPI0511150A (zh)
CA (1) CA2566353A1 (zh)
DE (1) DE602005023295D1 (zh)
HK (1) HK1110111A1 (zh)
MX (1) MXPA06012579A (zh)
PE (1) PE20060385A1 (zh)
RU (1) RU2006139795A (zh)
TW (1) TW200606815A (zh)
WO (1) WO2005111567A1 (zh)
ZA (1) ZA200609479B (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7835906B1 (en) 2009-05-31 2010-11-16 Huawei Technologies Co., Ltd. Encoding method, apparatus and device and decoding method
CN101221766B (zh) * 2008-01-23 2011-01-05 清华大学 音频编码器切换的方法
CN104919524A (zh) * 2012-11-13 2015-09-16 三星电子株式会社 用于确定编码模式的方法和设备、用于对音频信号进行编码的方法和设备以及用于对音频信号进行解码的方法和设备

Families Citing this family (24)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2006136179A1 (en) * 2005-06-20 2006-12-28 Telecom Italia S.P.A. Method and apparatus for transmitting speech data to a remote device in a distributed speech recognition system
WO2007083931A1 (en) * 2006-01-18 2007-07-26 Lg Electronics Inc. Apparatus and method for encoding and decoding signal
JP5235684B2 (ja) * 2006-02-24 2013-07-10 フランス・テレコム 信号包絡線の量子化インデックスをバイナリ符号化する方法、信号包絡線を復号化する方法、および、対応する符号化および復号化モジュール
US9159333B2 (en) * 2006-06-21 2015-10-13 Samsung Electronics Co., Ltd. Method and apparatus for adaptively encoding and decoding high frequency band
KR101434198B1 (ko) * 2006-11-17 2014-08-26 삼성전자주식회사 신호 복호화 방법
KR100964402B1 (ko) * 2006-12-14 2010-06-17 삼성전자주식회사 오디오 신호의 부호화 모드 결정 방법 및 장치와 이를 이용한 오디오 신호의 부호화/복호화 방법 및 장치
US20080202042A1 (en) * 2007-02-22 2008-08-28 Azad Mesrobian Drawworks and motor
PL2165328T3 (pl) * 2007-06-11 2018-06-29 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Kodowanie i dekodowanie sygnału audio zawierającego część impulsową i część stacjonarną
US9653088B2 (en) * 2007-06-13 2017-05-16 Qualcomm Incorporated Systems, methods, and apparatus for signal encoding using pitch-regularizing and non-pitch-regularizing coding
EP2198426A4 (en) * 2007-10-15 2012-01-18 Lg Electronics Inc METHOD AND DEVICE FOR PROCESSING A SIGNAL
WO2010003254A1 (en) * 2008-07-10 2010-01-14 Voiceage Corporation Multi-reference lpc filter quantization and inverse quantization device and method
RU2515704C2 (ru) * 2008-07-11 2014-05-20 Фраунхофер-Гезелльшафт Цур Фердерунг Дер Ангевандтен Форшунг Е.Ф. Аудиокодер и аудиодекодер для кодирования и декодирования отсчетов аудиосигнала
EP2144230A1 (en) 2008-07-11 2010-01-13 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Low bitrate audio encoding/decoding scheme having cascaded switches
BR112012009032B1 (pt) * 2009-10-20 2021-09-21 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e. V. Codificador de sinal de áudio, decodificador de sinal de áudio, método para prover uma representação codificada de um conteúdo de áudio, método para prover uma representação decodificada de um conteúdo de áudio para uso em aplicações de baixo retardamento
US8442837B2 (en) * 2009-12-31 2013-05-14 Motorola Mobility Llc Embedded speech and audio coding using a switchable model core
IL205394A (en) * 2010-04-28 2016-09-29 Verint Systems Ltd A system and method for automatically identifying a speech encoding scheme
CN105355209B (zh) 2010-07-02 2020-02-14 杜比国际公司 音高增强后置滤波器
CN103180899B (zh) * 2010-11-17 2015-07-22 松下电器(美国)知识产权公司 立体声信号的编码装置、解码装置、编码方法及解码方法
WO2014118136A1 (en) 2013-01-29 2014-08-07 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus and method for selecting one of a first audio encoding algorithm and a second audio encoding algorithm
CN107452390B (zh) 2014-04-29 2021-10-26 华为技术有限公司 音频编码方法及相关装置
CN107424622B (zh) * 2014-06-24 2020-12-25 华为技术有限公司 音频编码方法和装置
EP2980794A1 (en) * 2014-07-28 2016-02-03 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Audio encoder and decoder using a frequency domain processor and a time domain processor
EP2980795A1 (en) * 2014-07-28 2016-02-03 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Audio encoding and decoding using a frequency domain processor, a time domain processor and a cross processor for initialization of the time domain processor
EP3000110B1 (en) 2014-07-28 2016-12-07 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Selection of one of a first encoding algorithm and a second encoding algorithm using harmonics reduction

Family Cites Families (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6134518A (en) * 1997-03-04 2000-10-17 International Business Machines Corporation Digital audio signal coding using a CELP coder and a transform coder
DE69926821T2 (de) 1998-01-22 2007-12-06 Deutsche Telekom Ag Verfahren zur signalgesteuerten Schaltung zwischen verschiedenen Audiokodierungssystemen
US6633841B1 (en) 1999-07-29 2003-10-14 Mindspeed Technologies, Inc. Voice activity detection speech coding to accommodate music signals
ATE341074T1 (de) 2000-02-29 2006-10-15 Qualcomm Inc Multimodaler mischbereich-sprachkodierer mit geschlossener regelschleife
WO2002023530A2 (en) 2000-09-11 2002-03-21 Matsushita Electric Industrial Co., Ltd. Quantization of spectral sequences for audio signal coding
US6658383B2 (en) 2001-06-26 2003-12-02 Microsoft Corporation Method for coding speech and music signals
US6785645B2 (en) * 2001-11-29 2004-08-31 Microsoft Corporation Real-time speech and music classifier
US7613606B2 (en) 2003-10-02 2009-11-03 Nokia Corporation Speech codecs

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101221766B (zh) * 2008-01-23 2011-01-05 清华大学 音频编码器切换的方法
US7835906B1 (en) 2009-05-31 2010-11-16 Huawei Technologies Co., Ltd. Encoding method, apparatus and device and decoding method
CN104919524A (zh) * 2012-11-13 2015-09-16 三星电子株式会社 用于确定编码模式的方法和设备、用于对音频信号进行编码的方法和设备以及用于对音频信号进行解码的方法和设备
CN104919524B (zh) * 2012-11-13 2018-01-23 三星电子株式会社 用于确定编码模式的方法和设备、用于对音频信号进行编码的方法和设备以及用于对音频信号进行解码的方法和设备
US10468046B2 (en) 2012-11-13 2019-11-05 Samsung Electronics Co., Ltd. Coding mode determination method and apparatus, audio encoding method and apparatus, and audio decoding method and apparatus
US11004458B2 (en) 2012-11-13 2021-05-11 Samsung Electronics Co., Ltd. Coding mode determination method and apparatus, audio encoding method and apparatus, and audio decoding method and apparatus

Also Published As

Publication number Publication date
HK1110111A1 (en) 2008-07-04
ZA200609479B (en) 2008-09-25
JP2008503783A (ja) 2008-02-07
WO2005111567A1 (en) 2005-11-24
PE20060385A1 (es) 2006-05-19
BRPI0511150A (pt) 2007-11-27
CA2566353A1 (en) 2005-11-24
ATE479885T1 (de) 2010-09-15
CN100485337C (zh) 2009-05-06
DE602005023295D1 (de) 2010-10-14
US20050256701A1 (en) 2005-11-17
TW200606815A (en) 2006-02-16
MXPA06012579A (es) 2006-12-15
EP1747442B1 (en) 2010-09-01
US7739120B2 (en) 2010-06-15
RU2006139795A (ru) 2008-06-27
EP1747442A1 (en) 2007-01-31
KR20080083719A (ko) 2008-09-18
AU2005242993A1 (en) 2005-11-24

Similar Documents

Publication Publication Date Title
CN100485337C (zh) 用于对音频信号进行编码的编码模型的选择
CN1954365B (zh) 使用不同编码模型的音频编码
CN1954367B (zh) 支持音频编码器模式间的转换
CN1954364A (zh) 带有不同编码帧长度的音频编码
CN101681627B (zh) 使用音调规则化及非音调规则化译码的信号编码方法及设备
CN1957399B (zh) 语音/音频解码装置以及语音/音频解码方法
CN101320563B (zh) 一种背景噪声编码/解码装置、方法和通信设备
CN101622666B (zh) 非因果后置滤波器
CN101494055A (zh) 用于码分多址无线系统的方法和装置
CN1244090C (zh) 具备背景噪声再现的语音编码
CN102760441B (zh) 一种背景噪声编码/解码装置、方法和通信设备
KR20070017379A (ko) 오디오 신호를 부호화하기 위한 부호화 모델들의 선택
KR20080091305A (ko) 서로 다른 코딩 모델들을 통한 오디오 인코딩
Drygajilo Speech Coding Techniques and Standards
KR20070017378A (ko) 서로 다른 코딩 모델들을 통한 오디오 인코딩
KR20070017380A (ko) 서로 다른 코딩 프레임 길이의 오디오 인코딩
ZA200609478B (en) Audio encoding with different coding frame lengths

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
REG Reference to a national code

Ref country code: HK

Ref legal event code: DE

Ref document number: 1110111

Country of ref document: HK

C14 Grant of patent or utility model
GR01 Patent grant
REG Reference to a national code

Ref country code: HK

Ref legal event code: GR

Ref document number: 1110111

Country of ref document: HK

C41 Transfer of patent application or patent right or utility model
TR01 Transfer of patent right

Effective date of registration: 20160206

Address after: Espoo, Finland

Patentee after: Technology Co., Ltd. of Nokia

Address before: Espoo, Finland

Patentee before: Nokia Oyj