CN1969319B - 在通信系统中对帧进行编码的方法和编码器 - Google Patents
在通信系统中对帧进行编码的方法和编码器 Download PDFInfo
- Publication number
- CN1969319B CN1969319B CN2005800202784A CN200580020278A CN1969319B CN 1969319 B CN1969319 B CN 1969319B CN 2005800202784 A CN2005800202784 A CN 2005800202784A CN 200580020278 A CN200580020278 A CN 200580020278A CN 1969319 B CN1969319 B CN 1969319B
- Authority
- CN
- China
- Prior art keywords
- frame
- mode
- value
- excitation
- normcorr
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 230000005284 excitation Effects 0.000 claims abstract description 133
- 238000000034 method Methods 0.000 claims abstract description 120
- 238000004891 communication Methods 0.000 claims abstract description 12
- 238000006243 chemical reaction Methods 0.000 claims description 27
- 230000005236 sound signal Effects 0.000 claims description 25
- 238000010606 normalization Methods 0.000 claims description 14
- 238000001228 spectrum Methods 0.000 claims description 11
- 230000003595 spectral effect Effects 0.000 claims description 7
- 230000001934 delay Effects 0.000 claims description 5
- 239000000203 mixture Substances 0.000 claims description 5
- 230000007774 longterm Effects 0.000 claims description 4
- 230000004913 activation Effects 0.000 claims description 3
- 239000004615 ingredient Substances 0.000 claims 2
- 238000004458 analytical method Methods 0.000 description 28
- 238000001914 filtration Methods 0.000 description 13
- 238000007906 compression Methods 0.000 description 8
- 230000006835 compression Effects 0.000 description 7
- 230000010267 cellular communication Effects 0.000 description 6
- 238000005070 sampling Methods 0.000 description 6
- 238000004364 calculation method Methods 0.000 description 5
- 238000005259 measurement Methods 0.000 description 5
- 238000005516 engineering process Methods 0.000 description 4
- 238000012545 processing Methods 0.000 description 4
- 230000001052 transient effect Effects 0.000 description 4
- 230000008859 change Effects 0.000 description 3
- 238000010586 diagram Methods 0.000 description 3
- 230000000694 effects Effects 0.000 description 3
- 230000000737 periodic effect Effects 0.000 description 3
- FVEYIFISRORTDD-ROUUACIJSA-N 2-(4-phenoxyphenoxy)-6-[(1S,4S)-5-prop-2-enoyl-2,5-diazabicyclo[2.2.1]heptan-2-yl]pyridine-3-carboxamide Chemical compound C(C=C)(=O)N1[C@@H]2CN([C@H](C1)C2)C1=NC(=C(C(=O)N)C=C1)OC1=CC=C(C=C1)OC1=CC=CC=C1 FVEYIFISRORTDD-ROUUACIJSA-N 0.000 description 2
- 230000008901 benefit Effects 0.000 description 2
- 230000003111 delayed effect Effects 0.000 description 2
- 238000010295 mobile communication Methods 0.000 description 2
- BYHQTRFJOGIQAO-GOSISDBHSA-N 3-(4-bromophenyl)-8-[(2R)-2-hydroxypropyl]-1-[(3-methoxyphenyl)methyl]-1,3,8-triazaspiro[4.5]decan-2-one Chemical compound C[C@H](CN1CCC2(CC1)CN(C(=O)N2CC3=CC(=CC=C3)OC)C4=CC=C(C=C4)Br)O BYHQTRFJOGIQAO-GOSISDBHSA-N 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 239000007795 chemical reaction product Substances 0.000 description 1
- 230000000052 comparative effect Effects 0.000 description 1
- 238000012937 correction Methods 0.000 description 1
- 238000007323 disproportionation reaction Methods 0.000 description 1
- 238000000605 extraction Methods 0.000 description 1
- 230000005484 gravity Effects 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 210000000867 larynx Anatomy 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 238000005457 optimization Methods 0.000 description 1
- 230000008569 process Effects 0.000 description 1
- 230000001172 regenerating effect Effects 0.000 description 1
- 230000006641 stabilisation Effects 0.000 description 1
- 238000011105 stabilization Methods 0.000 description 1
- 238000012795 verification Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/04—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
- G10L19/16—Vocoder architecture
- G10L19/18—Vocoders using multiple modes
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/04—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
- G10L19/08—Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters
- G10L19/12—Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters the excitation function being a code excitation, e.g. in code excited linear prediction [CELP] vocoders
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/04—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
- G10L19/16—Vocoder architecture
- G10L19/18—Vocoders using multiple modes
- G10L19/22—Mode decision, i.e. based on audio signal content versus external parameters
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Signal Processing (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Compression, Expansion, Code Conversion, And Decoders (AREA)
- Reduction Or Emphasis Of Bandwidth Of Signals (AREA)
- Compression Or Coding Systems Of Tv Signals (AREA)
Abstract
本发明提供一种在通信系统的编码器中对帧进行编码的方法,所述方法包括以下步骤:计算与所述帧相关联的第一参数集,其中,所述第一参数集包含滤波器组参数;在第一阶段中,基于所述第一参数集,选择多个编码方法中的一个,作为用于编码的模式中的一个;计算与所述帧相关联的第二参数集;在第二阶段中,基于所述第一阶段的选择结果与所述第二参数集,选择所述多个编码方法中的一个,作为用于编码的模式中的一个;以及使用从所述第二阶段选择的编码激励方法对所述帧进行编码。
Description
技术领域
本发明涉及一种在通信系统的编码器中对信号进行编码的方法。
背景技术
如今,蜂窝通信系统已经普及。典型地,蜂窝通信系统依照给定的标准或规范运行。例如,这些标准或规范可以定义用于连接的通信协议和/或参数。各种标准或规范包括(但不仅仅局限于),GSM(全球移动通信系统),GSM/EDGE(增强型数据速率GSM演进技术),AMPS(美国移动电话系统),WCDMA(宽带码分多址),第三代(3G)UMTS(通用移动通信系统),IMT 2000(国际移动通信2000),等等。
在蜂窝通信系统及普通信号处理应用中,总是压缩信号以减少表示所述信号所需的数据量。例如,典型地,将音频信号作为模拟信号捕获,在模数(A/D)转换器中进行数字化,而后进行编码。在蜂窝通信系统中,所编码的信号可以通过用户设备之间的无线空中接口来传输,所述用户设备例如移动终端和基站。或者,在更为普通的信号处理系统中,可以将所编码的音频信号存储于存储介质中以备日后使用和重现该音频信号。
在蜂窝通信系统中,编码处理将信号压缩,然后通过空中接口以最小的数据量进行发送,同时保持可接受的信号质量水平。这一点非常重要,这是因为在蜂窝通信系统中无线空中接口上的无线信道容量受限。
理想的编码方法以尽可能少的比特压缩音频信号,由此最优化信道容量,而同时产生的解码信号尽可能得逼真于原始音频信号。在实际中,通常在压缩方法的比特率和解码语音的质量之间进行折衷。
压缩或编码可以是有损的或无损的。在有损压缩中,压缩过程中会损失部分信息,因而不可能从压缩信号完全重构原始信号;在无损压缩中, 通常无信息损失,因而可以从压缩信号完全重构原始信号。
音频信号可以被认为是语音、音乐(或非语音)或两者都有。语音与音乐的不同特征使得设计处理语音与音乐的性能都很好的编码方法很困难。通常,对于语音信号的最佳编码方法对于音乐或非语音信号来说并不是最佳的。因此,为了解决这个问题,已经开发了对于语音和音乐的不同编码方法。但是,在可以选择合适的编码方法之前,必须将音频信号分类为语音或音乐。
将音频信号分类为语音信号或音乐/非语音信号是一项困难的任务。所述分类所需的精确度依赖于使用该信号的应用。在有些应用中,例如在语音识别中或在为了存储或检索而进行的归档中,所述精确度非常关键。
然而,有可能对于部分主要包括语音的音频信号的编码方法,对于部分主要包含音乐的音频信号也非常有效。事实上,有可能对于具有强音调成分的音乐的编码方法也非常适用于语音。因此,纯粹基于信号是由语音还是音乐构成的来进行音频信号分类的方法并一定能选出对于所述音频信号的最佳压缩方法。
自适应多码率(AMR)编解码器是第三代合作伙伴项目(3GPP)为GSM/EDGE和WCDMA通信网络开放的一种编码方法。此外,还设想AMR将用于未来的分组交换网络。AMR是基于代数码激励线性预测(ACELP)激励编码。AMR和AMR-WB(自适应多码率宽带)编解码器分别包括8和9种有效比特率,并且还包括语音不活动性检测(VAD)和不连续发送(DTX)功能。在AMR编解码器中的抽样率是8kHz。在AMR-WB编解码器中的抽样率是16kHz。
AMR和AMR-WB编码器的描述参见3GPP TS 26.090和3GPP TS26.190技术规范。关于AMR-WB和VAD的更多细节详见3GPP TS 26.194技术规范。
在另一编码方法中,扩展AMR-WB(AMR-WB+)编解码器,编码基于两种不同的激励方法:ACELP类脉冲激励和变换码激励(TCX)。ACELP激励与原始的AMR-WB编解码器中所用的相似,TCX激励是AMR-WB+ 特定的修改。
ACELP激励编码使用如何在源处生成信号的模型来进行,并且从信号提取该模型的参数。更具体地说,ACELP激励编码基于的是生理声学系统,其中,将喉和嘴建模成线性滤波器,并且由空气激励该滤波器的周期振动产生信号。编码器在逐帧的基础上分析所述信号,并且为每一帧产生代表建模信号的参数集,并且由所述编码器将其输出。所述参数集可以包括激励参数和滤波器的系数,以及其它参数。这种类型的编码器的输出通常被称为输入信号的参数表示。所述参数集被用于适当地配置解码器以再生所述输入信号。
在AMR-WB+编解码器中,在信号的每一帧中计算线性预测编码(LPC),以将所述信号的谱包络建模成线性滤波器。然后,采用ACELP激励或TCX激励对LPC的结果(通常称为LPC激励)进行编码。
典型地,ACELP激励利用长期预测器和固定码本参数,而TCX则采用快速傅立叶变换(FFTs)。此外,在AMR-WB+编解码器中,TCX激励可以使用3种不同的帧长度(20,40和80ms)中的一种来工作。
TCX激励被广泛地运用于非语音音频编码中。基于非语音信号编码的TCX激励的优越性是由利用了声学隐蔽效应和频域编码产生的。尽管TCX技术能产生高质量的音乐信号,但是对于周期性的语音信号却显得有些无力。相反,基于生理声学系统的编解码器(例如ACELP),提供优质的语音信号,而提供的音乐信号质量却很差。
因此,通常,ACELP激励常主要用于语音信号的编码而TCX激励则主要用于音乐和非语音信号的编码。不过,也并不总是这样,在有些情况下,语音信号含有类似音乐信号的部分,或音乐信号含有类似语音的部分,又或者音频信号中既含有语音又含有音乐,这时,选择仅仅基于ACELP激励或TCX激励之一的编码方法可能不是最佳的。
在AMR-WB+中,可以采用多种方法进行激励的选择。
第一种,也是最简单的方法,用于在对信号进行编码之前分析信号的性质,由此将信号分类成语音或音乐/非语音信号,并且从ACELP激励和 TCX中选出对于信号类型的最佳激励方法。这就是所谓的“预选”方法。但是,这种方法并不适用于同时含有语音和音乐的变化特性的信号,从而导致所编码的信号对于语音或音乐都不是最佳的。
另外一种更为复杂的方法,同时采用ACELP激励和TCX激励对音频信号进行编码,然后基于质量较好的所合成的音频信号选择激励方法。信号质量可以利用信噪比参数来衡量。这种“分析合成”类型的方法,也被称为“强力”法,因为这种方法计算了所有不同的激励,并且选择最好的一种。尽管该方法提供了很好的结果,但是因为其进行多重计算的运算复杂度,并不适合实际应用。
本发明的实施例目的在于提供一种改进方法,用于选择对信号编码的激励方法,至少部分地减少上述问题中的某些。
发明内容
根据本发明的第一方面,提供一种在通信系统的编码器中对帧进行编码的方法,所述方法包括以下步骤:计算与所述帧相关联的第一参数集,其中所述第一参数集包含滤波器组参数;在第一阶段,基于关联于所述第一参数集的预定条件,选择多个编码方法中的一个;计算与所述帧相关联的第二参数集;在第二阶段,基于所述第一阶段的选择结果与所述第二参数集,选择多个编码方法中一个;以及使用从所述第二阶段选择的编码方法对所述帧进行编码。
优选地,所述多个编码方法包括第一激励方法和第二激励方法。
所述第一参数集可以基于关联于所述帧的一个或多个频带的能量水平。并且,对于所述第一参数集的不同预定条件,在所述第一阶段可以不选中编码方法。
所述第二参数集可以包括频谱参数、LTP参数和关联于所述帧的相关参数中的至少一个。
优选地,所述第一激励方法是代数码激励线性预测激励,并且所述第二激励方法是变换码激励。
当使用所述第二激励方法对所述帧进行编码时,用于编码的方法可以进一步包括,基于所述第一和第二阶段的选择,选择利用所述第二激励编码方法进行编码的帧的长度。
编码帧长度的选择可以取决于所述帧的信噪比。
优选地,所述编码器是从AMR-WB+编码器。
所述帧可以是音频帧。优选地,所述音频帧包括语音或非语音。所述该非语音可以包括音乐。
根据本发明的另一方面,提供一种用于在通信系统中对帧进行编码的编码器,所述编码器包括:第一计算模块,其用于计算与所述帧相关联的第一参数集,其中所述第一参数集包含滤波器组参数;第一阶段选择模块,其用于在所述第一参数集的基础上选择多个编码方法中的一个;第二计算模块,其用于计算与所述帧相关联的第二参数集;第二阶段选择模块,其用于在所述第一阶段的选择结果与所述第二参数集的基础上,选择所述多个编码方法中的一个;以及编码模块,其用于使用所述第二阶段所选择的编码方法对所述帧进行编码。
根据本发明的进一步的方面,提供一种在通信系统的编码器中对帧进行编码的方法,所述方法包括以下步骤:计算与所述帧相关联的第一参数集,其中所述第一参数集包含滤波器组参数;在第一阶段,基于所述第一参数集,选择第一或第二激励方法中的一个;使用所选的激励方法对所述帧进行编码。
附图说明
为了更好的理解本发明,现将结合以下附图进行说明,其中:
图1示出了可以应用本发明实施例的通信网络图;
图2示出了本发明实施例的框图;以及
图3是本发明实施例中的VAD滤波器组的结构图。
具体实施方式
在此,结合特定的例子来描述本发明。但本发明并不局限于这些例子。
图1示出了通信系统100,其支持根据本发明的一个实施例使用AMR-WB+编解码器进行信号处理。
系统100包括模数(A/D)转换器104,编码器106,发射机108,接收机110,解码器112和数模(D/A)转换器114。A/D转换器104,编码器106和发射机108可以构成移动终端的一部分。接收机110,解码器112和D/A转换器114可以构成基站的一部分。
系统100还包括一个或多个音频源,例如未示于图1中的扩音器。产生的音频信号102包括语音和/或非语音信号。A/D转换器104接收模拟信号102,将模拟信号102转换成数字信号105。应理解,如果所述音频源产生的是数字信号而不是模拟信号,则可以略过A/D转换器104。
数字信号105被输入到编码器106,在其中进行编码,以利用所选的编码方法在逐帧的基础上将数字信号105编码和压缩,从而产生编码帧107。编码器106可以利用AMR-WB+编解码器或其他适当的编解码器来工作,并且将在下文中对其进行详细描述。
所述编码帧可以存储在适当的存储介质(例如数字声音记录器)中,以在稍后进行处理。可选地,如图1所示,所述编码帧被输入到发射机108,发射机108发射编码帧109。
编码帧109由接收机110接收,接收机110对编码帧109进行处理,并将编码帧111输入到解码器112。解码器112对编码帧111进行解码和解压缩。解码器112还包括判定装置,以判定在编码器中对于所接收的每一编码帧111所使用的特定编码方法。解码器112基于所述判定选择用于对编码帧111进行解码的解码方法。
解码帧以解码信号113的形式被解码器112输出,解码信号113被输入到D/A转换器114,以用于将数字信号的解码信号113转换成模拟信号116。随后,可以处理模拟信号116,例如通过扬声器变换成音频。
图2示出了在优选实施例中图1的编码器106的框图。编码器106依照AMR-WB+编解码器工作,并且选择ACELP激励或TCX激励中的一 个用于对信号进行编码。通过分析在所述编码模块产生的参数,基于判定用于所述输入信号的最佳编码模型而进行所述选择。
编码器106包括话音激活检测(VAD)模块202,线性预测编码(LPC)分析模块206,长期预测(LTP)分析模块208和激励发生模块212。激励发生模块212利用ACELP激励或TCX激励中的一个对信号进行编码。
编码器106还包括激励选择模块216,其被连接到第一阶段选择模块204、第二阶段选择模块210和第三阶段选择模块214。激励选择模块216判定激励发生模块212用于进行信号编码的激励方法,即ACELP激励或TCX激励。
第一阶段选择模块204被连接在VAD模块202和LPC分析模块206之间。第二阶段选择模块210被连接在LTP分析模块208和激励发生模块212之间。第三阶段选择模块214连接激励发生模块212和编码器106的输出。
编码器106在VAD模块接收输入信号105,VAD模块判定输入信号105包含激活音频还是静音期间。所述信号被发送到LPC分析模块206,并且LPC分析模块206在逐帧的基础上进行处理。
VAD模块还计算可用于激励选择的滤波器组参数。在静音期间,激励选择状态始终不更新。
激励选择模块216确定在第一阶段选择模块204中的第一激励方法。所述第一激励方法是ACELP激励或TCX激励中的一个,并且被用于在激励发生模块212中对所述信号进行编码。如果在第一阶段选择模块204中不能判定激励方法,则视为激励方法未明确定义。
所述第一激励方法是激励选择模块216根据从VAD模块202接收的参数来确定的。具体来说,输入信号105被VAD模块分成多个频带,每一频带中的信号具有相关联的能量水平。第一阶段选择模块204接收所述多个频带和相关联的能量水平,并且传递给激励选择模块216,在激励选择模块216中使用第一激励选择方法对所述多个频带和相关联的能量水平进行分析,以将所述信号大致分类为类语音或类音乐信号。
所述第一激励选择方法可以包括分析所述信号的高低频带之间的关系以及这些频带中的能量水平变化。激励选择模块216在分析中,也可以使用不同的分析窗和判决门限。与所述信号相关联的其他参数也可以用于所述分析中。
图3示出了生成不同频带的VAD模块202所利用的滤波器组300的例子。与每一频带相关联的能量水平是通过统计分析而产生的。滤波器组结构300包括3阶滤波器单元306,312,314,316,318和320。滤波器组300还包括5阶滤波器单元302,304,308,310和313。其中,滤波器单元的“阶”指的是在抽样数量方面,用于生成每一输出抽样的最大时延。例如,y(n)=a*x(n)+b*x(n-1)+c*x(n-2)+d*x(n-3)说明了3阶滤波器的一个例子。
信号301被输入到滤波器组中,并且被一系列3和/或5阶滤波器单元处理,产生滤波信号频带:3224.8-6.4kHz,3244.0-4.8kHz,3263.2-4.0kHz,3282.4-3.2kHz,3302.0-2.4kHz,3321.6-2.0kHz,3341.2-1.6kHz,3360.8-1.2kHz,3380.6-0.8kHz,3400.4-0.6kHz,3420.2-0.4kHz,3440.0-0.2kHz。
滤波信号频带3224.8-6.4kHz由信号顺次经过5阶滤波器单元302和5阶滤波器单元304而产生;滤波信号频带3244.0-4.8kHz由信号顺次经过5阶滤波器单元302、5阶滤波器单元304和3阶滤波器单元306而产生;滤波信号频带3263.2-4.0kHz由信号顺次经过5阶滤波器单元302、5阶滤波器单元304和3阶滤波器单元306而产生;滤波信号频带3282.4-3.2kHz由信号顺次经过5阶滤波器单元302、5阶滤波器单元308和5阶滤波器单元310而产生;滤波信号频带3302.0-2.4kHz由信号顺次经过5阶滤波器单元302、5阶滤波器单元308、5阶滤波器单元310和3阶滤波器单元312而产生;滤波信号频带3321.6-2.0kHz由信号顺次经过5阶滤波器单元302、5阶滤波器单元308、5阶滤波器单元310和3阶滤波器单元312而产生;滤波信号频带3341.2-1.6kHz由信号顺次经过5阶滤波器单元302、5阶滤波器单元308、5阶滤波器单元313和3阶滤波器单元314而产生;滤波信 号频带3360.8-1.2kHz由信号顺次经过5阶滤波器单元302、5阶滤波器单元308、5阶滤波器单元313和3阶滤波器单元314而产生;滤波信号频带3380.6-0.8kHz由信号顺次经过5阶滤波器单元302、5阶滤波器单元308、5阶滤波器单元313、3阶滤波器单元316和3阶滤波器单元318而产生;滤波信号频带3400.4-0.6kHz由信号顺次经过5阶滤波器单元302、5阶滤波器单元308、5阶滤波器单元313、3阶滤波器单元316和3阶滤波器单元318而产生;滤波信号频带3420.2-0.4kHz由信号顺次经过5阶滤波器单元302、5阶滤波器单元308、5阶滤波器单元313、3阶滤波器单元316和3阶滤波器单元320而产生;滤波信号频带3440.0-0.2kHz由信号顺次经过5阶滤波器单元302、5阶滤波器单元308、5阶滤波器单元313、3阶滤波器单元316和3阶滤波器单元320而产生。
激励选择模块216进行的参数分析以及特别地信号的分类结果,被用于从ACELP或TCX中选择第一激励方法,以用于在激励发生模块212中对信号进行编码。然而,如果所分析的信号没有得出清晰的类语音或类音乐的信号分类,例如,当所述信号同时具有语音和音乐特征时,则视为未选择激励方法或选择为未确定,并且等到下一方法选择阶段再进行选择判定。例如,可以在LPC和LTP分析后,在第二阶段选择模块210中进行明确的选择。
以下将举例说明用于选择激励方法的第一激励选择方法。
在确定激励方法中,AMR-WB编解码器利用了AMR-WB VAD滤波器组,其中,对于每20ms的输入信号帧,确定0-6400Hz频带范围内的12个子频带中的每一个中的信号能量E(n)。通过以每一子频带的带宽(单位:Hz)除以来自每一子频带的能量水平E(n),可以对每一子频带的能量水平进行归一化,所述子频带产生每一频带的归一化能量水平EN(n)。
在第一阶段激励选择模块204中,可以利用短窗stdshort(n)和长窗stdlong(n)这两个窗口,来为所述12个子频带中的每一个计算能量水平的标准差。在AMR-WB+的情况下,所述短窗的长度是4个帧长,而所述长窗的长度是16个帧长。通过这种算法,来自当前帧的12个能量水平,连 同来自先前的3或15个帧(导致4和16帧窗口),被用于导出两个标准差值。这种算法的一个特性是,仅当VAD模块202判定输入信号105含有激活音频时才执行。这个特性使得当统计参数有可能失真时,所述算法能够在语音/音乐停顿延的延长期后作出更加准确的反应。
于是,对于每一帧,计算对于所述长窗和短窗的所有12个子频带的平均标准差,还计算stdalong和stdashort的平均标准差值。
对于音频信号的每一帧,可以计算低频带和高频带之间的关系。在AMR-WB+编解码器中,通过对低频子频带2至8的能量水平求和计算得到LevL,并且,通过将该和值除以低频子频带2至8的带宽总长(单位:Hz)进行归一化。对于高频子频带9至12,计算其能量水平之和并进行归一化,从而得到LevH。在本例中,没有使用最低子频带1,这是由于最低子频带1通常包含能量的歧化量,其可能使运算失真并且使来自其他子频带的贡献微乎其微。通过这样的测量,低频带和高频带之间的关系LPH可由下式获得:
LPH=LevL/LevH
此外,利用当前和前3个LPH值计算得到对于每一帧的活动的平均LPHa值。基于对当前和前7个活动的平均LPHa值的加权求和,还可以计算对于当前帧的高低频关系LPHaF,在所述加权求和中,越新近的值赋予的权重越大。
通过从每一滤波器块的输出减去所估计的背景噪音的能量水平,然后将差值能量水平中的每一个乘以所对应的滤波器块的最高频率,将最后结果相累加,可以计算出对于当前帧的滤波器块的平均能量水平AVL。这样,平衡了高频子频带,其与包含较高能量子频带的低频相比,包含的能量相对较低。
通过合并所有滤波器块的能量水平,并且减去每一滤波器组的背景噪音估计,计算出当前帧的总能量TotE0。
完成上述计算后,可以使用下述方法在ACELP激励和TCX激励方法之间进行选择,其中,假设当给定标志位被设置时其他标志位将被清除, 以防设置冲突。
首先,将对于所述长窗的平均标准差值stdalong与第一阈值TH1(例如0.4)进行比较。如果标准差值stdalong小于所述第一阈值TH1,则设置TCX MODE标志位,以指示选择TCX激励算法来进行编码;否则,比较所计算的高低频关系测量LPHaF与第二阈值TH2(例如280)。
如果所计算的高低频关系测量LPHaF大于第二阈值TH2,则TCXMODE标志位被设置。否则,计算标准差值stdalong减去第一阈值TH1所得的差值的倒数,并且将所减差值的倒数与第一常数C1(例如5)相加。比较该和值与所计算的高低频关系测量LPHaF,如下:
C1+(1/(stdalong-TH1))>LPHaF (1)
如果比较式(1)的比较结果为真,则TCX MODE标志位被设置为指示选择TCX激励算法来进行编码。否则,用第一被乘数M1(例如-90)乘以标准差值stdalong,然后将所乘结果加上第二常数C2(例如120)。比较该和值与所计算的高低频关系测量LPHaF的大小,如下:
(M1*stdalong)+C2<LPHaF (2)
如果该和值小于所计算的高低频关系测量LPHaF,即比较式(2)的结果为真,则设置ACELP MODE标志位,以指示选择ACELP激励算法来进行编码。否则设置标志位UNCERTAIN MODE,指示仍未判定用于当前帧选的激励方法。
然后,在确认为当前帧所选的激励方法之前,可以进行进一步的检验。
所述进一步的检验首先判定是否设置了ACELP MODE标志位或UNCERTAIN MODE标志位。如果所述两个标志位中的任一个被设置,并且如果所计算的对于当前帧的滤波器组的平均能量水平AVL大于第三阈值TH3(例如2000),则设置TCX MODE标志位,并且清除ACELPMODE标志位和UNCERTAIN MODE标志位。
接着,如果UNCERTAIN MODE仍然被设置,则对所述短窗的平均标准差值stdashort进行与上述对长窗标准差值stalong的计算相似的计算,但在比较中所使用的常数和阈值有微小的区别。
如果对所述短窗的平均标准差值stdashort小于第四阈值TH4(例如0.2),则设置TCX MODE标志位,以指示选择TCX激励算法来进行编码。否则,计算标准差值stdashort减去第四阈值TH4所得的差值的倒数,并且将所减差值的倒数加上第三常数C3(例如2.5)。比较该和值与所计算的高低频关系测量LPHaF的大小,如下:
C3+(1/(stdashort-TH4))>LPHaF (3)
如果比较式(3)的结果为真,则设置TCX MODE标志位,以指示选择TCX激励算法来进行编码。如果所述比较的结果不为真,则用第二被乘数M2(例如-90)乘以标准差值stdalong,然后将所乘结果加上第四常数C4(例如140)。比较该和值与所计算的高低频关系测量LPHaF的大小,如下:
M2*stdashort+C4<LPHaF (4)
如果式该和值小于所计算的高低频关系测量LPHaF,即比较式(4)的结果为真,则设置ACELP MODE标志位,以指示选择ACELP激励算法来进行编码。否则设置UNCERTAIN MODE标志位,指示仍未判定用于当前帧的激励方法。
在下一阶段,可以检验当前帧和先前帧的能量水平。如果在当前帧的总能量TotE0与先前帧的总能量TotE-1的能量大于第五阈值TH5(例如25),则设置ACELP MODE标志位,并且清除TCX MODE标志位和UNCERTAIN MODE标志位。
最后,如果设置了TCX MODE标志位或UNCERTAIN MODE标志位均,并且如果所计算的对于当前帧的滤波器组300的平均能量水平AVL大于第三阈值TH3,同时当前帧的总能量TotE0小于第六阈值TH6(例如60),则设置ACELP MODE标志位。
当执行了上述第一激励选择方法时,如果TCX MODE标志位被设置,则在第一激励块204中选择的第一激励方法是TCX,如果ACELP MODE标志位被设置,则在第一激励块204中选择的第一激励方法是ACELP。然而,如果UNCERTAIN MODE标志位被设置,则所述第一激励选择方 法还未判定第一激励方法。这种情况下,TCX或ACELP激励在另一激励选择模块(例如第二阶段激励选择模块210)中选择,其中可以进行进一步的分析以选择将使用TCX或ACELP激励中的哪一个。
上述第一激励选择方法可以由以下伪代码来说明:
if(stdalong<TH1)
SET TCX_MODE
else if(LPHaF>TH2)
SETTCX_MODE
else if((C1+(1/(stdalong-TH1)))>LPHaF)
SET TCX_MODE
else if((M1*stdalong+C2)<LPHaF)
SET ACELP_MODE
else
SET UNCERTAIN_MODE
if(ACELP_MODE or UNCERTAIN_MODE)and(AVL>TH3)
SET TCX_MODE
if(UNCERTAIN_MODE)
if(stdashort<TH4)
SET TCX_MODE
else if((C3+(1/(stdashort-TH4)))>LPHaF)
SET TCX_MODE
else if((M2*stdashort+C4)<LPHaF)
SET ACELP_MODE
else
SET UNCERTAIN_MODE
if(UNCERTAIN_MODE)
if((TotE0/TotE-1)>TH5)
SET ACELP_MODE
if(TCX_MODE||UNCERTAIN_MODE))
if(AVL>TH3and TotE0<TH6)
SET ACELP_MODE
在第一阶段选择模块204已经完成上述方法,并且选择了用于对所述信号进行编码的第一激励方法之后,所述信号被从VAD模块202发送到LPC分析模块206,LPC分析模块206在逐帧的基础上对所述信号进行处理。
具体来说,LPC分析模块206通过最小化所述帧的残差来判定对应于帧的LPC滤波器。一旦确定了LPC滤波器,就可以用对于所确定的LPC滤波器的系数集来代表所确定的LPC滤波器。被LPC分析模块206处理的帧连同该模块确定的任何参数(例如LPC滤波器系数),被发送到LTP分析模块208的输入端。
LTP分析模块208对接收到的帧和参数进行处理。特别地,LTP分析模块208计算LTP参数,所述LTP参数与所述帧的基音频率密切相关,并且通常被称为“音调滞后”参数或“音调时延”参数,用来描述在语音采样方面的语音信号周期性。LTP分析模块208还计算LTP增益,此增益与语音信号的基音周期密切相关。
由LTP分析模块208处理的帧与所计算的参数一起被发送到激励发生模块212,其中,激励发生模块212利用ACELP或TCX激励方法中的一个,对帧进行编码。关于ACELP或TCX激励方法中的一个的选择,由激励选择模块216联合第二阶段选择模块210而完成。
第二阶段选择模块210接收由LTP分析模块208处理的帧,以及由LPC分析模块206与LTP分析模块208计算的参数。激励选择模块216分析所述参数,从而基于LPC和LTP参数以及来自ACELP激励和TCX激励的归一化相关性,确定最佳激励方法,以用于当前帧。特别地,激励选择模块216分析来自LPC分析模块206和特别地来自LTP模块的参数,以及相关性参数,以用于从ACELP激励和TCX激励中选择最佳激励方法。所述第二阶段选择模块验证第一阶段选择模块所选择的第一激励方法,或者如果第一阶段选择模块确定的第一激励选择方法为未确定,则激励选择模块210在本阶段选择最佳的激励方法。因此,对用于帧编码的激励方法的选择将被延迟,直到已经执行LTP分析后。
在所述第二阶段选择模块中,可以使用归一化的相关性,可以按如下方法计算:
其中,N表示帧长,T0表示具有帧长N的帧的开环延迟,Xi表示编码帧的第i个抽样,Xi-T0表示从抽样Xi移除了T0个抽样后的编码帧抽样。
在所述第二阶段激励选择中还存在一些例外的情况,其中,可以改变或重选第一阶段的ACELP或TCX选择。
在稳定信号中,在当前帧和先前帧的最大最小延迟之间的差别低于预定阈值TH2,前后帧之间的延迟变化可能不太大。AMR-WB+编解码器的LTP增益范围通常在0至1.2之间,归一化相关性的范围通常在0至1.0之间。例如,指示高LTP增益的阈值可以超过0.8。LTP增益与归一化相关性的高相关性(或相似性)可以通过检验它们的差来观察。如果该差小于第三阈值,例如在当前帧和/或前一帧中为0.1,则认为LTP增益与归一化相关性之间具有高相关性。
如果信号是具有瞬态特征的,在本发明的实施例中,则可以利用第一激励方法进行编码,例如ACELP。可以使用相邻帧的频谱距离SD来检测瞬态序列。例如,如果从当前帧和先前帧的导抗频谱对(ISP)系数计算得到的帧n的频谱距离SDn超出第一预定阈值,则该信号被分类为瞬态的。ISP系数源自已被转换成ISP的LPC滤波系数。
类噪音序列可以利用第二激励方法进行编码,例如TCX。可以通过检验LTP系数和所述帧在频域中的平均频率来检测所述类噪音序列。如果LTP参数非常不稳定并且/或者平均频率超出预定阈值,则所述帧被确定为包含类噪音信号。
以下描述可以用于所述第二激励选择方法的算法例子。
如果设置了VAD标志位从而指示激活的音频信号,并且在所述第一阶段选择模块中已经判定第一激励方法为未确定(例如,被定义为 TCX_OR_ACELP),则按照以下方法选择第二激励方法:
If(SDn>0.2)
Mode=ACELP_MODE;
else
if(LagDifbuf<2)
if(Lagn==HIGH LIMIT or Lagn==LOW LIMIT){
if(Gainn-NormCorrn<0.1and NormCorrn>0.9)
Mode=ACELP_MODE
else
Mode=TCX_MODE
elseif(Gainn-NormCorrn<0.1and NormCorrn>0.88)
Mode=ACELP_MODE
else if(Gainn-NormCorrn>0.2)
Mode=TCX_MODE
else
NoMtcx=NoMtcx+1
if(MaxEnergybuf<60)
if(SDn>0.15)
Mode=ACELP_MODE;
else
NoMtcx=NoMtcx+1.
帧n的频谱距离SDn由ISP参数计算得到,如下:
其中,ISPn为帧n的ISP系数矢量,ISPn(i)为ISPn的第i个成分。
LagDifbuf为包含前10帧(20ms)的开环延迟值的缓冲器。
Lagn包含当前帧n的两个开环延迟值。
Gainn包括当前帧n的两个LTP增益值。
NormCorrn包含当前帧n的两个归一化相关性值。
MaxEnergybuf为包含能量值的最大值缓冲器;该能量缓冲器包含当前 帧和先前帧(20ms)的最后6个能量值。
Iphn表示频谱的倾斜。
NoMtcx是标志位,用于进行指示,从而避免在选择了TCX激励的情况下,以长帧长度(80ms)进行TCX编码。
如果设置了VAD标志位从而指示激活的音频信号,并且在所述第一阶段选择模块中已经判定第一激励方法为ACELP,则依据下述算法对第一激励方法判定进行验证,在下述算法中可以将所述激励方法转换为TCX:
if(LagDifbuf<2)
if(NormCorrn<0.80 and SDn<0.1)
Mode=TCX_MODE;
if(Iphn>200 and SDn<0.1)
Mode=TCX_MODE
如果在当前帧中设置了VAD标志位,并且在先前的超帧(一个超帧长为80ms,其中包含4个帧长为20ms的帧)中的至少一个帧中,VAD标志位被设置为零,同时,已经选择所述模式为TCX模式,则导致80ms帧的TCX激励--TCX80的使用,被无效(设置NoMtcx)。
if(vadFlagold==0and vadFlag==1and Mode==TCX_MODE))
NoMtcx=NoMtcx+1
如果设置了VAD标志位,并且已经判定第一激励选择方法为未确定(TCX_OR_ACELP)或TCX,则按照以下算法执行所述第一激励选择方法:
if(Gainn-NormCorrn<0.006 and NormCorrn>0.92 and Lagn>21)
DFTSum=0;
for(i=1;i<40;i++){
DFTSum=DFTSum+mag[i];
if(DFTSum>95 and mag[0]<5){
Mode=TCX_MODE;
else
Mode=ACELP_MODE;
NoMtcx=NoMtcx+1
vadFlagold表示先前帧的VAD标志位,并且vadFlag表示当前帧的VAD标志位。
NoMtcx是标志位,用于进行指示,从而避免在选择了TCX激励的情况下,以长帧长度(80ms)进行TCX编码。
Mag表示从当前帧的LP滤波系数Ap创建的离散余弦变换(DFT)频谱包络。
DFTSum表示除了第1成分(mag(0))外的矢量mag的前40个成分的和。
于是,在第二阶段选择模块210之后的帧被发送到激励发生模块212,激励发生模块212利用在第一阶段选择模块204或第二阶段选择模块210所选择的一个激励方法,对从LTP分析模块208接收的帧,以及从上述先前的模块所接收的参数,进行编码。所述编码由激励选择模块216控制。
激励发生模块212所输出的帧是由LPC分析模块206、LTP分析模块208和激励发生模块212确定的参数所表示的编码帧。最后,通过第三阶段选择模块214输出所述编码帧。
如果使用ACELP激励对帧进行编码,则编码帧直接通过第三阶段选择模块214,并且作为编码帧107而输出。但是,如果使用TCX激励对帧进行编码,则必须依据在超帧中的先前所选ACELP帧的数量,来确定编码帧的长度,其中超帧长度为80ms,包含4×20ms个帧。换句话说,TCX编码帧的长度取决于在前的帧中的ACELP帧的数量。
TCX编码帧的最大帧长为80ms,并且可以由单个80ms的TCX编码帧(TCX80),或2个40ms(2×40ms)的TCX编码帧(TCX40),或4个20ms(4×20ms)的TCX编码帧(TCX20)组成。如何对80ms TCX帧进行编码的决定是由激励选择模块216利用第三阶段选择模块214来确 定的,并且还依赖于在超帧中的所选ACELP帧的数量。
例如,第三阶段选择模块214可以测量来自激励发生模块212的编码帧的信噪比,并且因此要么选择2×40ms编码帧,要么选择单个80ms编码帧。
仅当在一个80ms的超帧内,在第一和第二激励选择阶段所选的ACELP方法的数量小于3(ACELP<3)时,才会执行第三激励选择阶段。以下的表1显示了第三激励选择阶段前后的可能的方法组合。在所述第三激励选择阶段,例如根据SNR,来选择TCX方法的帧长。
表1TCX中的方法组合
本实施例描述了选择ACELP激励,用于具有高长期相关性的周期信号(可能包含语音信号)和瞬态信号。另一方面,选择TCX激励,用于平稳信号、类噪音信号和单频信号(tone-like signal)等类型,TCX激励更适合对这些信号的频域解析进行编码和处理。
在实施例中激励方法的选择被延迟,但其应用于当前帧,并且因此提供了一种比现有方法的复杂度更低的信号编码方法。同时,上述方法也比 现有方法耗费更少的存储量。这个改进对于仅含有有限存储量和处理能力的移动设备显得尤为重要。
此外,使用来自VAD模块、LPC和LTP分析模块的参数使得对信号的分类变得更为精确,因此用于信号编码的最佳激励方法的选择更为准确。
应注意,尽管本发明的实施例采用的编解码器是AMR-WB+,但是对于本领域技术人员而言,作为本发明可变换的和可添加的实施例,本发明所述的技术也可以容易的运用到含有多个激励方法的其他编解码器中。
此外,尽管上述实施例使用的是ACELP和TCX中的一个或两个,但是作为本发明可变换的和可添加的实施例,对于作为本领域的技术人员而言,本发明也可采用其他激励方法。
除移动终端外,上述编码器还可应用到其他终端,例如计算机或其他信号处理设备。
在此还值得注意的是,本发明的实施例不仅仅局限于以上所述,在不脱离本发明权利要求所公开的解决方案范围的情况下,还可进行多种变化和改动。
Claims (18)
1.一种在通信系统的编码器中对帧进行编码的方法,所述方法包括以下步骤:
计算与所述帧相关联的第一参数集,其中,所述第一参数集包含与频带和它们的关联能量水平相关的参数;
在第一阶段,基于关联于所述第一参数集的预定条件,选择代数码激励线性预测激励、变换码激励或未确定模式中的一个;
计算与所述帧相关联的第二参数集,所述第二参数集包括频谱参数、长期预测参数和关联于所述帧的相关性参数中的至少一个;
在第二阶段,基于所述第一阶段选择的结果与所述第二参数集,选择代数码激励线性预测激励和变换码激励中的一个;以及
使用从所述第二阶段选择的代数码激励线性预测激励和变换码激励中的一个对所述帧进行编码。
2.如权利要求1中所述的方法,其中,如果已经选择代数码激励线性预测激励,则在所述第二阶段的选择包括根据第一算法再选择代数码激励线性预测激励或取而代之选择变换码激励,
其中,所述第一算法包括检测激活的音频信号,并且如果是的话执行以下操作:
如果LagDifbuf小于2,并且如果NormCorrn小于0.8且SDn小于0.1,则将MODE的值设置为TCX_MODE;
如果Iphn大于200并且SDn小于0.1,则将MODE的值设置为TCX_MODE,
其中LagDifbuf为包含前10帧的开环延迟值的缓冲器;
NormCorrn包含当前帧n的两个归一化相关性值;
SDn是帧n的频谱距离;以及
Iphn指示频谱的倾斜。
3.如权利要求1中所述的方法,其中,如果已经选择变换码激励或 未确定模式,则在所述第二阶段中的选择包括根据第二算法再选择变换码激励或取而代之选择代数码激励线性预测激励,
其中,所述第二算法包括:检测激活的音频信号,并且如果有的话执行以下操作:
如果Gainn-NormCorrn小于0.006并且NormCorrn大于0.92并且Lagn大于21,则将DFTSum的值设置为0;
从变量i的初始值为1开始,循环执行DFTSum=DFTSum+mag[i],其中每次执行之后i值增加1,该循环直到i值不小于40为止;以及
如果DFTSum大于95并且mag[0]小于5,则将MODE的值设置为TCX_MODE,否则将MODE的值设置为ACELP_MODE,并且将NoMtcx值加1,
其中,Gainn包括当前帧n的两个LTP增益值;
NormCorrn包含当前帧n的两个归一化相关性值;
Lagn包含当前帧n的两个开环延迟值;
NoMtcx是标志位,用于进行指示,从而避免在选择了变换码激励的情况下,以长帧长度进行变换码激励编码;
Mag是从当前帧的LP滤波系数Ap创建的离散余弦变换DFT频谱包络;以及
DFTSum是除了第1成分mag[0]外的矢量mag的前40个成分的和。
4.如权利要求1中所述的方法,其中,如果已经选择未确定模式,则在所述第二阶段中的选择包括根据第三算法选择代数码激励线性预测激励和变换码激励中的一个,
其中,所述第三算法包括:检测激活的音频信号,并且如果有的话执行以下操作:
如果SDn大于0.2,则将MODE的值设置为ACELP_MODE;
否则确定LagDifbuf是否小于2,如果是则
在Lagn等于HIGH LIMIT或Lagn等于LOW LIMIT的情况下:
确定是否Gainn-NormCorrn小于0.1且NormCorrn大于0.9,
如果是则将MODE的值设置为ACELP_MODE,
否则将MODE的值设置为TCX_MODE,
另外,在Gainn-NormCorrn小于0.1且NormCorrn大于0.88的情况下,将MODE的值设置为ACELP_MODE;
另外,在Gainn-NormCorrn大于0.2的情况下,将MODE的值设置为TCX_MODE;
在其它情况下,将NoMtcx值加1;以及
确定MaxEnergybuf是否小于60,如果是则在SDn大于0.15的情况下将MODE的值设置为ACELP_MODE,在其它情况下,将NoMtcx值加1,
其中SDn是帧n的频谱距离;
LagDifbuf为包含前10帧的开环延迟值的缓冲器;
Lagn包含当前帧n的两个开环延迟值;
Gainn包括当前帧n的两个LTP增益值;
NormCorrn包含当前帧n的两个归一化相关性值;
NoMtcx是标志位,用于进行指示,从而避免在选择了变换码激励的情况下,以长帧长度进行变换码激励编码;以及
MaxEnergybuf为包含能量值的缓冲器中的能量值最大值,该能量缓冲器包含当前帧和先前帧的最后6个能量值。
5.如权利要求1中所述的方法,其中,当使用变换码激励对所述帧进行编码时,所述方法进一步包括:
基于在所述第一阶段和所述第二阶段的选择,选择将利用变换码激励进行编码的帧的长度。
6.如权利要求5中所述的方法,其中,所述编码帧长度的选择取决于所述帧的信噪比。
7.如权利要求1中所述的方法,其中,所述编码器是自适应多码率-宽带加编码器。
8.如权利要求1中所述的方法,其中,所述帧是音频帧,所述音频帧包括语音和非语音,其中所述非语音包括音乐。
9.如先前任一权利要求所述的方法,其中,所述第一参数集是滤波器组参数。
10.一种用于在通信系统中对帧进行编码的编码器,所述编码器包括:
第一计算模块,其用于计算与所述帧相关联的第一参数集,其中,所述第一参数集包含与频带和它们的关联能量水平相关的参数;
第一阶段选择模块,其基于关联于所述第一参数集的预定条件,选择代数码激励线性预测激励、变换码激励或未确定模式中的一个;
第二计算模块,其用于计算与所述帧相关联的第二参数集,所述第二参数集包括频谱参数、长期预测参数和关联于所述帧的相关性参数中的至少一个;
第二阶段选择模块,其基于所述第一阶段的选择结果与所述第二参数集,选择代数码激励线性预测激励和变换码激励中的一个;以及
编码模块,其使用从所述第二阶段选择的代数码激励线性预测激励和变换码激励中的一个对所述帧进行编码。
11.如权利要求10中所述的编码器,其中,所述第二阶段选择模块包括:如果在第一阶段选择模块中已经选择代数码激励线性预测激励,则根据第一算法再选择代数码激励线性预测激励或取而代之选择变换码激励的装置,
其中,所述第一算法包括检测激活的音频信号,并且如果有的话执行以下操作:
如果LagDifbuf小于2,并且如果NormCorrn小于0.8且SDn小于0.1,则将MODE的值设置为TCX_MODE;
如果Iphn大于200并且SDn小于0.1,则将MODE的值设置为TCX_MODE,
其中LagDifbuf为包含前10帧的开环延迟值的缓冲器;
NormCorrn包含当前帧n的两个归一化相关性值;
SDn是帧n的频谱距离;以及
Iphn指示频谱的倾斜。
12.如权利要求10中所述的编码器,其中,所述第二阶段选择模块包括:如果在所述第一阶段选择模块已经选择变换码激励或未确定模式,则根据第二算法再选择变换码激励或取而代之选择代数码激励线性预测激励的装置,
其中,所述第二算法包括:检测激活的音频信号,并且如果有的话执行以下操作:
如果Gainn-NormCorrn小于0.006并且NormCorrn大于0.92并且Lagn大于21,则将DFTSum的值设置为0;
从变量i的初始值为1开始,循环执行DFTSum=DFTSum+mag[i],其中每次执行之后i值增加1,该循环直到i值不小于40为止;以及
如果DFTSum大于95并且mag[0]小于5,则将MODE的值设置为TCX_MODE,否则将MODE的值设置为ACELP_MODE,并且将NoMtcx值加1,
其中,Gainn包括当前帧n的两个LTP增益值;
NormCorrn包含当前帧n的两个归一化相关性值;
Lagn包含当前帧n的两个开环延迟值;
NoMtcx是标志位,用于进行指示,从而避免在选择了变换码激励的情况下,以长帧长度进行变换码激励编码;
Mag是从当前帧的LP滤波系数Ap创建的离散余弦变换(DFT)频谱包络;以及
DFTSum是除了第1成分mag[0]外的矢量mag的前40个成分的和。
13.如权利要求10中所述的编码器,其中,所述第二阶段选择模块包括:如果在所述第一阶段选择模块中已经选择未确定模式,则根据第三算法选择代数码激励线性预测激励和变换码激励中的一个的装置,
其中,所述第三算法包括:检测激活的音频信号,并且如果有的话执行以下操作:
如果SDn大于0.2,则将MODE的值设置为ACELP_MODE;
否则确定LagDifbuf是否小于2,如果是则
在Lagn等于HIGH LIMIT或Lagn等于LOW LIMIT的情况下:
确定是否Gainn-NormCorrn小于0.1且NormCorrn大于0.9,
如果是则将MODE的值设置为ACELP_MODE,
否则将MODE的值设置为TCX_MODE,
另外,在Gainn-NormCorrn小于0.1且NormCorrn大于0.88的情况下,将MODE的值设置为ACELP_MODE;
另外,在Gainn-NormCorrn大于0.2的情况下,将MODE的值设置为TCX_MODE;
在其它情况下,将NoMtcx值加1;以及
确定MaxEnergybuf是否小于60,如果是则在SDn大于0.15的情况下将MODE的值设置为ACELP_MODE,在其它情况下,将NoMtcx值加1,
其中SDn是帧n的频谱距离;
LagDifbuf为包含前10帧的开环延迟值的缓冲器;
Lagn包含当前帧n的两个开环延迟值;
Gainn包括当前帧n的两个LTP增益值;
NormCorrn包含当前帧n的两个归一化相关性值;
NoMtcx是标志位,用于进行指示,从而避免在选择了变换码激励的情况下,以长帧长度进行变换码激励编码;以及
MaxEnergybuf为包含能量值的缓冲器中的能量值最大值,该能量缓冲器包含当前帧和先前帧的最后6个能量值。
14.如权利要求10中所述的编码器,进一步包括:
第三阶段选择模块,其被配置为基于在所述第一阶段选择模块和所述第二阶段选择模块处的选择,选择将利用变换码激励进行编码的帧的长度。
15.如权利要求14中所述的编码器,其中,所述第三阶段选择模块被配置为基于所述帧的信噪比选择将进行编码的帧的长度。
16.如权利要求10中所述的编码器,其中,所述编码器是自适应多码率-宽带加编码器。
17.如权利要求10中所述的编码器,其中,所述帧是音频帧,所述音频帧包括语音和非语音,其中所述非语音包括音乐。
18.如权利要求10至17中任意一项所述的编码器,其中,所述第一参数集是滤波器组参数。
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
GB0408856.3 | 2004-04-21 | ||
GBGB0408856.3A GB0408856D0 (en) | 2004-04-21 | 2004-04-21 | Signal encoding |
PCT/IB2005/001033 WO2005104095A1 (en) | 2004-04-21 | 2005-04-19 | Signal encoding |
Publications (2)
Publication Number | Publication Date |
---|---|
CN1969319A CN1969319A (zh) | 2007-05-23 |
CN1969319B true CN1969319B (zh) | 2011-09-21 |
Family
ID=32344124
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN2005800202784A Active CN1969319B (zh) | 2004-04-21 | 2005-04-19 | 在通信系统中对帧进行编码的方法和编码器 |
Country Status (18)
Country | Link |
---|---|
US (1) | US8244525B2 (zh) |
EP (1) | EP1738355B1 (zh) |
JP (1) | JP2007534020A (zh) |
KR (2) | KR20070001276A (zh) |
CN (1) | CN1969319B (zh) |
AT (1) | ATE483230T1 (zh) |
AU (1) | AU2005236596A1 (zh) |
BR (1) | BRPI0510270A (zh) |
CA (1) | CA2562877A1 (zh) |
DE (1) | DE602005023848D1 (zh) |
ES (1) | ES2349554T3 (zh) |
GB (1) | GB0408856D0 (zh) |
HK (1) | HK1104369A1 (zh) |
MX (1) | MXPA06011957A (zh) |
RU (1) | RU2006139793A (zh) |
TW (1) | TWI275253B (zh) |
WO (1) | WO2005104095A1 (zh) |
ZA (1) | ZA200609627B (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
RU2667380C2 (ru) * | 2014-06-24 | 2018-09-19 | Хуавэй Текнолоджиз Ко., Лтд. | Способ и устройство кодирования аудио |
Families Citing this family (47)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
DE602004025517D1 (de) * | 2004-05-17 | 2010-03-25 | Nokia Corp | Audiocodierung mit verschiedenen codierungsrahmenlängen |
US7702407B2 (en) * | 2005-07-29 | 2010-04-20 | Lg Electronics Inc. | Method for generating encoded audio signal and method for processing audio signal |
JP2009524100A (ja) * | 2006-01-18 | 2009-06-25 | エルジー エレクトロニクス インコーポレイティド | 符号化/復号化装置及び方法 |
US9185487B2 (en) | 2006-01-30 | 2015-11-10 | Audience, Inc. | System and method for providing noise suppression utilizing null processing noise subtraction |
JP2009533992A (ja) * | 2006-04-19 | 2009-09-17 | ノキア コーポレイション | アップリンク移動体通信の修正2重シンボル速度 |
JP4847246B2 (ja) * | 2006-07-31 | 2011-12-28 | キヤノン株式会社 | 通信装置、通信装置の制御方法、及び当該制御方法をコンピュータに実行させるためのコンピュータプログラム |
MY152845A (en) * | 2006-10-24 | 2014-11-28 | Voiceage Corp | Method and device for coding transition frames in speech signals |
KR100964402B1 (ko) * | 2006-12-14 | 2010-06-17 | 삼성전자주식회사 | 오디오 신호의 부호화 모드 결정 방법 및 장치와 이를 이용한 오디오 신호의 부호화/복호화 방법 및 장치 |
JP4410792B2 (ja) * | 2006-12-21 | 2010-02-03 | 株式会社日立コミュニケーションテクノロジー | 暗号化装置 |
FR2911228A1 (fr) * | 2007-01-05 | 2008-07-11 | France Telecom | Codage par transformee, utilisant des fenetres de ponderation et a faible retard. |
KR101379263B1 (ko) * | 2007-01-12 | 2014-03-28 | 삼성전자주식회사 | 대역폭 확장 복호화 방법 및 장치 |
US8982744B2 (en) * | 2007-06-06 | 2015-03-17 | Broadcom Corporation | Method and system for a subband acoustic echo canceller with integrated voice activity detection |
KR101403340B1 (ko) * | 2007-08-02 | 2014-06-09 | 삼성전자주식회사 | 변환 부호화 방법 및 장치 |
WO2009038422A2 (en) * | 2007-09-20 | 2009-03-26 | Lg Electronics Inc. | A method and an apparatus for processing a signal |
US8050932B2 (en) | 2008-02-20 | 2011-11-01 | Research In Motion Limited | Apparatus, and associated method, for selecting speech COder operational rates |
KR20100006492A (ko) | 2008-07-09 | 2010-01-19 | 삼성전자주식회사 | 부호화 방식 결정 방법 및 장치 |
KR20100007738A (ko) * | 2008-07-14 | 2010-01-22 | 한국전자통신연구원 | 음성/오디오 통합 신호의 부호화/복호화 장치 |
KR101297026B1 (ko) * | 2009-05-19 | 2013-08-14 | 광운대학교 산학협력단 | Mdct―tcx 프레임과 celp 프레임 간 연동을 위한 윈도우 처리 장치 및 윈도우 처리 방법 |
CN101615910B (zh) * | 2009-05-31 | 2010-12-22 | 华为技术有限公司 | 压缩编码的方法、装置和设备以及压缩解码方法 |
US20110040981A1 (en) * | 2009-08-14 | 2011-02-17 | Apple Inc. | Synchronization of Buffered Audio Data With Live Broadcast |
US9838784B2 (en) | 2009-12-02 | 2017-12-05 | Knowles Electronics, Llc | Directional audio capture |
US8798290B1 (en) | 2010-04-21 | 2014-08-05 | Audience, Inc. | Systems and methods for adaptive signal equalization |
US9558755B1 (en) * | 2010-05-20 | 2017-01-31 | Knowles Electronics, Llc | Noise suppression assisted automatic speech recognition |
US9224403B2 (en) | 2010-07-02 | 2015-12-29 | Dolby International Ab | Selective bass post filter |
AR085224A1 (es) | 2011-02-14 | 2013-09-18 | Fraunhofer Ges Forschung | Codec de audio utilizando sintesis de ruido durante fases inactivas |
MY165853A (en) | 2011-02-14 | 2018-05-18 | Fraunhofer Ges Forschung | Linear prediction based coding scheme using spectral domain noise shaping |
TWI469136B (zh) | 2011-02-14 | 2015-01-11 | Fraunhofer Ges Forschung | 在一頻譜域中用以處理已解碼音訊信號之裝置及方法 |
EP4243017A3 (en) | 2011-02-14 | 2023-11-08 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Apparatus and method decoding an audio signal using an aligned look-ahead portion |
CA2920964C (en) * | 2011-02-14 | 2017-08-29 | Christian Helmrich | Apparatus and method for coding a portion of an audio signal using a transient detection and a quality result |
MY159444A (en) | 2011-02-14 | 2017-01-13 | Fraunhofer-Gesellschaft Zur Forderung Der Angewandten Forschung E V | Encoding and decoding of pulse positions of tracks of an audio signal |
EP3471092B1 (en) | 2011-02-14 | 2020-07-08 | FRAUNHOFER-GESELLSCHAFT zur Förderung der angewandten Forschung e.V. | Decoding of pulse positions of tracks of an audio signal |
WO2012110478A1 (en) | 2011-02-14 | 2012-08-23 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Information signal representation using lapped transform |
MX2013009301A (es) | 2011-02-14 | 2013-12-06 | Fraunhofer Ges Forschung | Aparato y metodo para ocultamiento de error en voz unificada con bajo retardo y codificacion de audio. |
JP5934259B2 (ja) | 2011-02-14 | 2016-06-15 | フラウンホーファー−ゲゼルシャフト・ツール・フェルデルング・デル・アンゲヴァンテン・フォルシュング・アインゲトラーゲネル・フェライン | オーディオコーデックにおけるノイズ生成 |
CN108831501B (zh) * | 2012-03-21 | 2023-01-10 | 三星电子株式会社 | 用于带宽扩展的高频编码/高频解码方法和设备 |
US8645128B1 (en) * | 2012-10-02 | 2014-02-04 | Google Inc. | Determining pitch dynamics of an audio signal |
US9640194B1 (en) | 2012-10-04 | 2017-05-02 | Knowles Electronics, Llc | Noise suppression for speech processing based on machine-learning mask estimation |
EP2951821B1 (en) * | 2013-01-29 | 2017-03-01 | Fraunhofer Gesellschaft zur Förderung der angewandten Forschung e.V. | Concept for coding mode switching compensation |
US9147397B2 (en) * | 2013-10-29 | 2015-09-29 | Knowles Electronics, Llc | VAD detection apparatus and method of operating the same |
MY178026A (en) | 2014-04-17 | 2020-09-29 | Voiceage Corp | Methods, encoder and decoder for linear predictive encoding and decoding of sound signals upon transition between frames having different sampling rates |
CN106448688B (zh) * | 2014-07-28 | 2019-11-05 | 华为技术有限公司 | 音频编码方法及相关装置 |
RU2632151C2 (ru) * | 2014-07-28 | 2017-10-02 | Фраунхофер-Гезелльшафт Цур Фердерунг Дер Ангевандтен Форшунг Е.Ф. | Устройство и способ выбора одного из первого алгоритма кодирования и второго алгоритма кодирования с использованием уменьшения гармоник |
DE112015003945T5 (de) | 2014-08-28 | 2017-05-11 | Knowles Electronics, Llc | Mehrquellen-Rauschunterdrückung |
DE112015004185T5 (de) | 2014-09-12 | 2017-06-01 | Knowles Electronics, Llc | Systeme und Verfahren zur Wiederherstellung von Sprachkomponenten |
US9668048B2 (en) | 2015-01-30 | 2017-05-30 | Knowles Electronics, Llc | Contextual switching of microphones |
CN105242111B (zh) * | 2015-09-17 | 2018-02-27 | 清华大学 | 一种采用类脉冲激励的频响函数测量方法 |
CN111739543B (zh) * | 2020-05-25 | 2023-05-23 | 杭州涂鸦信息技术有限公司 | 音频编码方法的调试方法及其相关装置 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US6134518A (en) * | 1997-03-04 | 2000-10-17 | International Business Machines Corporation | Digital audio signal coding using a CELP coder and a transform coder |
US6633841B1 (en) * | 1999-07-29 | 2003-10-14 | Mindspeed Technologies, Inc. | Voice activity detection speech coding to accommodate music signals |
US6640209B1 (en) * | 1999-02-26 | 2003-10-28 | Qualcomm Incorporated | Closed-loop multimode mixed-domain linear prediction (MDLP) speech coder |
Family Cites Families (14)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US5479559A (en) * | 1993-05-28 | 1995-12-26 | Motorola, Inc. | Excitation synchronous time encoding vocoder and method |
FI101439B (fi) * | 1995-04-13 | 1998-06-15 | Nokia Telecommunications Oy | Transkooderi, jossa on tandem-koodauksen esto |
JP2882463B2 (ja) * | 1995-11-01 | 1999-04-12 | 日本電気株式会社 | Vox判定装置 |
DE69926821T2 (de) | 1998-01-22 | 2007-12-06 | Deutsche Telekom Ag | Verfahren zur signalgesteuerten Schaltung zwischen verschiedenen Audiokodierungssystemen |
US7139700B1 (en) * | 1999-09-22 | 2006-11-21 | Texas Instruments Incorporated | Hybrid speech coding and system |
JP4221537B2 (ja) * | 2000-06-02 | 2009-02-12 | 日本電気株式会社 | 音声検出方法及び装置とその記録媒体 |
US7031916B2 (en) * | 2001-06-01 | 2006-04-18 | Texas Instruments Incorporated | Method for converging a G.729 Annex B compliant voice activity detection circuit |
FR2825826B1 (fr) * | 2001-06-11 | 2003-09-12 | Cit Alcatel | Procede pour detecter l'activite vocale dans un signal, et codeur de signal vocal comportant un dispositif pour la mise en oeuvre de ce procede |
US6658383B2 (en) * | 2001-06-26 | 2003-12-02 | Microsoft Corporation | Method for coding speech and music signals |
US6785645B2 (en) * | 2001-11-29 | 2004-08-31 | Microsoft Corporation | Real-time speech and music classifier |
KR100880480B1 (ko) * | 2002-02-21 | 2009-01-28 | 엘지전자 주식회사 | 디지털 오디오 신호의 실시간 음악/음성 식별 방법 및시스템 |
KR100477701B1 (ko) * | 2002-11-07 | 2005-03-18 | 삼성전자주식회사 | Mpeg 오디오 인코딩 방법 및 mpeg 오디오 인코딩장치 |
US7613606B2 (en) * | 2003-10-02 | 2009-11-03 | Nokia Corporation | Speech codecs |
US7120576B2 (en) * | 2004-07-16 | 2006-10-10 | Mindspeed Technologies, Inc. | Low-complexity music detection algorithm and system |
-
2004
- 2004-04-21 GB GBGB0408856.3A patent/GB0408856D0/en not_active Ceased
- 2004-11-22 US US10/993,492 patent/US8244525B2/en active Active
-
2005
- 2005-04-19 AU AU2005236596A patent/AU2005236596A1/en not_active Abandoned
- 2005-04-19 DE DE602005023848T patent/DE602005023848D1/de active Active
- 2005-04-19 CN CN2005800202784A patent/CN1969319B/zh active Active
- 2005-04-19 JP JP2007508996A patent/JP2007534020A/ja not_active Abandoned
- 2005-04-19 CA CA002562877A patent/CA2562877A1/en not_active Abandoned
- 2005-04-19 WO PCT/IB2005/001033 patent/WO2005104095A1/en active Search and Examination
- 2005-04-19 MX MXPA06011957A patent/MXPA06011957A/es not_active Application Discontinuation
- 2005-04-19 KR KR1020067024315A patent/KR20070001276A/ko active IP Right Grant
- 2005-04-19 EP EP05734033A patent/EP1738355B1/en active Active
- 2005-04-19 BR BRPI0510270-7A patent/BRPI0510270A/pt not_active Application Discontinuation
- 2005-04-19 ES ES05734033T patent/ES2349554T3/es active Active
- 2005-04-19 KR KR1020087026297A patent/KR20080103113A/ko not_active Application Discontinuation
- 2005-04-19 RU RU2006139793/09A patent/RU2006139793A/ru not_active Application Discontinuation
- 2005-04-19 AT AT05734033T patent/ATE483230T1/de not_active IP Right Cessation
- 2005-04-20 TW TW094112500A patent/TWI275253B/zh not_active IP Right Cessation
-
2006
- 2006-11-20 ZA ZA200609627A patent/ZA200609627B/xx unknown
-
2007
- 2007-08-20 HK HK07109017.3A patent/HK1104369A1/xx unknown
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US6134518A (en) * | 1997-03-04 | 2000-10-17 | International Business Machines Corporation | Digital audio signal coding using a CELP coder and a transform coder |
US6640209B1 (en) * | 1999-02-26 | 2003-10-28 | Qualcomm Incorporated | Closed-loop multimode mixed-domain linear prediction (MDLP) speech coder |
US6633841B1 (en) * | 1999-07-29 | 2003-10-14 | Mindspeed Technologies, Inc. | Voice activity detection speech coding to accommodate music signals |
Non-Patent Citations (2)
Title |
---|
Bruno Bessette et al.The adaptive multirate wideband speech codec (AMR-WB).《IEEE Transactions on Speech and Audio Processing》.2002,第10卷(第8期),620 - 636. |
Bruno Bessette et al.The adaptive multirate wideband speech codec (AMR-WB).《IEEE Transactions on Speech and Audio Processing》.2002,第10卷(第8期),620- 636. * |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
RU2667380C2 (ru) * | 2014-06-24 | 2018-09-19 | Хуавэй Текнолоджиз Ко., Лтд. | Способ и устройство кодирования аудио |
Also Published As
Publication number | Publication date |
---|---|
DE602005023848D1 (de) | 2010-11-11 |
KR20070001276A (ko) | 2007-01-03 |
AU2005236596A1 (en) | 2005-11-03 |
GB0408856D0 (en) | 2004-05-26 |
HK1104369A1 (en) | 2008-01-11 |
CA2562877A1 (en) | 2005-11-03 |
MXPA06011957A (es) | 2006-12-15 |
US20050240399A1 (en) | 2005-10-27 |
EP1738355B1 (en) | 2010-09-29 |
CN1969319A (zh) | 2007-05-23 |
TWI275253B (en) | 2007-03-01 |
BRPI0510270A (pt) | 2007-10-30 |
US8244525B2 (en) | 2012-08-14 |
WO2005104095A1 (en) | 2005-11-03 |
ATE483230T1 (de) | 2010-10-15 |
JP2007534020A (ja) | 2007-11-22 |
EP1738355A1 (en) | 2007-01-03 |
TW200605518A (en) | 2006-02-01 |
RU2006139793A (ru) | 2008-05-27 |
ES2349554T3 (es) | 2011-01-05 |
ZA200609627B (en) | 2008-09-25 |
KR20080103113A (ko) | 2008-11-26 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN1969319B (zh) | 在通信系统中对帧进行编码的方法和编码器 | |
CN1820306B (zh) | 可变比特率宽带语音编码中增益量化的方法和装置 | |
CN101305423B (zh) | 自适应的基于时间/频率的音频编码和解码设备和方法 | |
JP5037772B2 (ja) | 音声発話を予測的に量子化するための方法および装置 | |
CN101681627B (zh) | 使用音调规则化及非音调规则化译码的信号编码方法及设备 | |
JP4971351B2 (ja) | トーンコンポーネントの検出のためのシステム、方法および装置 | |
EP1204969B1 (en) | Spectral magnitude quantization for a speech coder | |
EP1719119B1 (en) | Classification of audio signals | |
US6094629A (en) | Speech coding system and method including spectral quantizer | |
CN103050121A (zh) | 线性预测语音编码方法及语音合成方法 | |
CN105814631A (zh) | 盲带宽扩展系统和方法 | |
JP3353852B2 (ja) | 音声の符号化方法 | |
Saleem et al. | Comparative Analysis of Speech Compression Algorithms with Perceptual and LP based Quality Evaluations | |
Dimolitsas | Speech Coding | |
Li et al. | A Low-Complexity 3.6 kbps Speech Coding Algorithm Based on Mixed Excitation | |
KR20070063729A (ko) | 음성 부호화장치, 음성 부호화 방법, 이를 이용한 이동통신단말기 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
REG | Reference to a national code |
Ref country code: HK Ref legal event code: DE Ref document number: 1104369 Country of ref document: HK |
|
C14 | Grant of patent or utility model | ||
GR01 | Patent grant | ||
C41 | Transfer of patent application or patent right or utility model | ||
TR01 | Transfer of patent right |
Effective date of registration: 20160127 Address after: Espoo, Finland Patentee after: Technology Co., Ltd. of Nokia Address before: Espoo, Finland Patentee before: Nokia Oyj |