CN1890713A - 用于数字信号压缩编码的多脉冲字典的索引间的编码转换 - Google Patents
用于数字信号压缩编码的多脉冲字典的索引间的编码转换 Download PDFInfo
- Publication number
- CN1890713A CN1890713A CNA2004800366046A CN200480036604A CN1890713A CN 1890713 A CN1890713 A CN 1890713A CN A2004800366046 A CNA2004800366046 A CN A2004800366046A CN 200480036604 A CN200480036604 A CN 200480036604A CN 1890713 A CN1890713 A CN 1890713A
- Authority
- CN
- China
- Prior art keywords
- pulse
- subframe
- pulse position
- duration
- sampling frequency
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000007906 compression Methods 0.000 title claims abstract description 10
- 230000006835 compression Effects 0.000 title claims abstract description 10
- 238000000034 method Methods 0.000 claims description 76
- 238000006243 chemical reaction Methods 0.000 claims description 69
- 238000005070 sampling Methods 0.000 claims description 61
- 238000012545 processing Methods 0.000 claims description 21
- 238000001514 detection method Methods 0.000 claims description 10
- 238000013139 quantization Methods 0.000 claims description 8
- 238000001914 filtration Methods 0.000 claims description 7
- 238000011002 quantification Methods 0.000 claims description 7
- 238000003860 storage Methods 0.000 claims description 3
- 230000007812 deficiency Effects 0.000 claims description 2
- 238000012886 linear function Methods 0.000 claims 3
- 230000000153 supplemental effect Effects 0.000 claims 1
- 230000008569 process Effects 0.000 description 22
- 239000013598 vector Substances 0.000 description 20
- 238000004422 calculation algorithm Methods 0.000 description 19
- 238000005516 engineering process Methods 0.000 description 14
- 230000005284 excitation Effects 0.000 description 14
- 239000002131 composite material Substances 0.000 description 13
- 239000000284 extract Substances 0.000 description 12
- 238000003786 synthesis reaction Methods 0.000 description 11
- 238000000605 extraction Methods 0.000 description 9
- 230000006870 function Effects 0.000 description 9
- 101150067286 STS1 gene Proteins 0.000 description 7
- 101100028967 Saccharomyces cerevisiae (strain ATCC 204508 / S288c) PDR5 gene Proteins 0.000 description 7
- 101150027289 Ubash3b gene Proteins 0.000 description 7
- 102100040338 Ubiquitin-associated and SH3 domain-containing protein B Human genes 0.000 description 7
- 150000001875 compounds Chemical class 0.000 description 6
- 239000000243 solution Substances 0.000 description 6
- 230000006978 adaptation Effects 0.000 description 5
- 230000005540 biological transmission Effects 0.000 description 5
- 230000008859 change Effects 0.000 description 5
- 230000000694 effects Effects 0.000 description 5
- GVVPGTZRZFNKDS-JXMROGBWSA-N geranyl diphosphate Chemical compound CC(C)=CCC\C(C)=C\CO[P@](O)(=O)OP(O)(O)=O GVVPGTZRZFNKDS-JXMROGBWSA-N 0.000 description 5
- 230000006872 improvement Effects 0.000 description 5
- 239000000203 mixture Substances 0.000 description 5
- 101100364962 Arabidopsis thaliana STE1 gene Proteins 0.000 description 4
- 101100018717 Mus musculus Il1rl1 gene Proteins 0.000 description 4
- 101100096884 Rattus norvegicus Sult1e1 gene Proteins 0.000 description 4
- 101150006985 STE2 gene Proteins 0.000 description 4
- 101100219191 Schizosaccharomyces pombe (strain 972 / ATCC 24843) byr1 gene Proteins 0.000 description 4
- 238000004458 analytical method Methods 0.000 description 4
- 238000013475 authorization Methods 0.000 description 4
- 230000008901 benefit Effects 0.000 description 4
- 238000004891 communication Methods 0.000 description 4
- OVOUKWFJRHALDD-UHFFFAOYSA-N 2-[2-(2-acetyloxyethoxy)ethoxy]ethyl acetate Chemical compound CC(=O)OCCOCCOCCOC(C)=O OVOUKWFJRHALDD-UHFFFAOYSA-N 0.000 description 3
- 238000004364 calculation method Methods 0.000 description 3
- 230000004087 circulation Effects 0.000 description 3
- 238000009826 distribution Methods 0.000 description 3
- 238000005457 optimization Methods 0.000 description 3
- YBJHBAHKTGYVGT-ZKWXMUAHSA-N (+)-Biotin Chemical compound N1C(=O)N[C@@H]2[C@H](CCCCC(=O)O)SC[C@@H]21 YBJHBAHKTGYVGT-ZKWXMUAHSA-N 0.000 description 2
- 101000902411 Pinus strobus Pinosylvin synthase 1 Proteins 0.000 description 2
- 238000013459 approach Methods 0.000 description 2
- 238000005520 cutting process Methods 0.000 description 2
- 125000004122 cyclic group Chemical group 0.000 description 2
- 238000006073 displacement reaction Methods 0.000 description 2
- RVRCFVVLDHTFFA-UHFFFAOYSA-N heptasodium;tungsten;nonatriacontahydrate Chemical compound O.O.O.O.O.O.O.O.O.O.O.O.O.O.O.O.O.O.O.O.O.O.O.O.O.O.O.O.O.O.O.O.O.O.O.O.O.O.O.[Na+].[Na+].[Na+].[Na+].[Na+].[Na+].[Na+].[W].[W].[W].[W].[W].[W].[W].[W].[W].[W].[W] RVRCFVVLDHTFFA-UHFFFAOYSA-N 0.000 description 2
- 230000007774 longterm Effects 0.000 description 2
- 238000007726 management method Methods 0.000 description 2
- 230000004044 response Effects 0.000 description 2
- 239000004576 sand Substances 0.000 description 2
- FEPMHVLSLDOMQC-UHFFFAOYSA-N virginiamycin-S1 Natural products CC1OC(=O)C(C=2C=CC=CC=2)NC(=O)C2CC(=O)CCN2C(=O)C(CC=2C=CC=CC=2)N(C)C(=O)C2CCCN2C(=O)C(CC)NC(=O)C1NC(=O)C1=NC=CC=C1O FEPMHVLSLDOMQC-UHFFFAOYSA-N 0.000 description 2
- 102100036044 Conserved oligomeric Golgi complex subunit 4 Human genes 0.000 description 1
- 102100040998 Conserved oligomeric Golgi complex subunit 6 Human genes 0.000 description 1
- 241000196324 Embryophyta Species 0.000 description 1
- 240000004859 Gamochaeta purpurea Species 0.000 description 1
- 101000876012 Homo sapiens Conserved oligomeric Golgi complex subunit 4 Proteins 0.000 description 1
- 101000748957 Homo sapiens Conserved oligomeric Golgi complex subunit 6 Proteins 0.000 description 1
- 101001104102 Homo sapiens X-linked retinitis pigmentosa GTPase regulator Proteins 0.000 description 1
- LTXREWYXXSTFRX-QGZVFWFLSA-N Linagliptin Chemical compound N=1C=2N(C)C(=O)N(CC=3N=C4C=CC=CC4=C(C)N=3)C(=O)C=2N(CC#CC)C=1N1CCC[C@@H](N)C1 LTXREWYXXSTFRX-QGZVFWFLSA-N 0.000 description 1
- 238000007476 Maximum Likelihood Methods 0.000 description 1
- 208000036448 RPGR-related retinopathy Diseases 0.000 description 1
- 201000000467 X-linked cone-rod dystrophy 1 Diseases 0.000 description 1
- 201000000465 X-linked cone-rod dystrophy 2 Diseases 0.000 description 1
- 238000003556 assay Methods 0.000 description 1
- 239000002585 base Substances 0.000 description 1
- 239000003637 basic solution Substances 0.000 description 1
- 230000007850 degeneration Effects 0.000 description 1
- 238000009795 derivation Methods 0.000 description 1
- 230000009977 dual effect Effects 0.000 description 1
- 230000008030 elimination Effects 0.000 description 1
- 238000003379 elimination reaction Methods 0.000 description 1
- 238000009472 formulation Methods 0.000 description 1
- 210000000867 larynx Anatomy 0.000 description 1
- 238000002386 leaching Methods 0.000 description 1
- 238000013507 mapping Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000008447 perception Effects 0.000 description 1
- 230000000737 periodic effect Effects 0.000 description 1
- 230000002265 prevention Effects 0.000 description 1
- 230000000717 retained effect Effects 0.000 description 1
- 230000002441 reversible effect Effects 0.000 description 1
- 229920006395 saturated elastomer Polymers 0.000 description 1
- 230000011218 segmentation Effects 0.000 description 1
- 238000001228 spectrum Methods 0.000 description 1
- 238000012360 testing method Methods 0.000 description 1
- 238000012546 transfer Methods 0.000 description 1
- 230000007704 transition Effects 0.000 description 1
- 230000001755 vocal effect Effects 0.000 description 1
- 239000002699 waste material Substances 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/04—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
- G10L19/08—Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters
- G10L19/10—Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters the excitation function being a multipulse excitation
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/04—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
- G10L19/16—Vocoder architecture
- G10L19/173—Transcoding, i.e. converting between two coded representations avoiding cascaded coding-decoding
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/04—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
- G10L19/08—Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters
- G10L19/12—Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters the excitation function being a code excitation, e.g. in code excited linear prediction [CELP] vocoders
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Signal Processing (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Compression, Expansion, Code Conversion, And Decoders (AREA)
- Analogue/Digital Conversion (AREA)
- Reduction Or Emphasis Of Bandwidth Of Signals (AREA)
Abstract
本发明与在使用多脉冲字典的脉冲编码器之间的压缩编码转换有关,在该字典中的每个脉冲都有一个由索引标识的位置。对于每个由一个第一编码器提供的当前脉冲位置,围绕该位置形成一个邻域(Vg e,Vd e)。由所述邻域的并集构成的一个集合中的脉冲的位置作为被第二编码器所接受的脉冲位置的函数而被选择。所述第二编码器最终接收所述选择(sj),其包括数量少于该第二编码器的字典的脉冲的总数的脉冲位置。
Description
技术领域
本发明涉及对数字信号的编码和解码,尤其是涉及传输或存储多媒体信号,例如音频(语音和/或声音)信号的应用。
背景技术
在压缩编码领域,许多编码器(coder)采用大量脉冲对L个样本的信号建立模型,这些脉冲数量远少于样本总数。这是某些音频编码器的情况,例如在美国专利公布文本US-2001/027393所描述的“TDAC”音频编码器,其中在每个波段中被修改的标准化离散余弦变换系数被通过使用交叉存取尺寸的代数字典的矢量量词所量化,这些代数编码通常包括一些非零的要素(component),以及另一些等于零的要素。这也是多数使用综合分析的语音编码器的情况,尤其是代数码本激励线性预测编码(AlgebraicCode Excited Linear Prediction,ACELP)、多脉冲最大似然量化(MultiPulseMaximum Likelihood Quantization,MP-MLQ)以及其他类型的编码器。为了对改良(innovation)信号建立模型,这些编码器使用一个由波形(waveform)组成的路径(directory),这些波形具有很少部分的非零要素、具有额外遵守预先制订的规则的位置和振幅。
下面简要描述上述类型的使用综合分析的编码器。
在使用综合分析的编码器中,一个综合模型被用来编码以提取用于建立被编码信号的模型的参数,例如电话频率(Fe=8千赫兹(khz)),或者一个更高的频率,例如用于宽带编码的16khz(传输频带为从50hz到7khz)。取决于应用以及所需要的质量,压缩率在1到16之间变化。这些编码器在电话波段中工作于从2千比特每秒(kbps)到16千比特每秒(kbps)的比特率,在宽带中工作于6千比特每秒(kbps)到32千比特每秒(kbps)的比特率。
下面简要描述CELP数字编解码器,其使用综合分析并且是目前最广泛用于语音信号编码、解码的编码器之一。一个语音信号被取样并被转化为称为帧的L’个样本的一系列块。作为通用的规则,每个帧被划分为称为子帧的L个样本的更小的块。每个块通过过滤一个波形而被综合,该波形是从一个借助两个滤波器实时变化的结果而增加的路径(也称为字典)中提取出来的。该激励(excitation)字典是一个L个样本的波形的有限集合。上述第一个滤波器是一个长期预测(long-term prediction,LTP)滤波器。一个LTP分析评价该LTP滤波器的参数,该滤波器发现有声声音(voicedsound)的周期特征(典型地表示基础音调(pitch)的频率(有声和弦(vocalchord)的振动频率))。上述第二个滤波器是一个短期预测(short-termprediction,STP)滤波器。线性预测编码(Linear prediction coding,LPC)分析方法被用来获取表示语音通道(vocal tract)的传输函数和该信号频谱的特征(典型地表示由唇设定的轮廓、舌头和喉的位置等等得到的调制(modulation))的短期预测参数。
用来确定改良序列的方法是被大家所知道的综合分析。在编码器中,来自于激励字典中的大量的改良序列被LTP和LPC滤波器所过滤,并且根据一个感知(perceptual)加权标准产生了最接近于原始信号的综合信号的波形被选择,该标准通常是CELP标准。
下面简要描述多脉冲字典在这些综合编码器分析中的用途,假设对于本领域的技术人员而言,CELP编码器和CELP解码器都是可以被理解的。
符合ITU-T的G.723.1标准的复合比特率编码器是使用综合分析的编码器的一个好例子,该分析使用了多脉冲(multipulse)字典。在此,该脉冲位置都是分离的。编码器(6.3kbps和5.3kbps)的两个比特率通过从字典中提取出来的波形对改良信号建立模型,该字典仅包括少量的非零脉冲:6个或者5个高比特率,4个低比特率。这些脉冲振幅是+1或-1。在其6.3kbps模式中,可选地,G.723.1编码器使用两个字典:
在第一字典中,用于偶数子帧,波形由6个脉冲组成,并且
在第二字典中,用于奇数子帧,波形由5个脉冲组成。
在两个字典中,一个单一限制被强加于任何编码矢量的脉冲位置上,该编码矢量均具有同样的奇偶性,例如必须都是偶数或者必须都是奇数。在5.3kbps模式字典中,四个脉冲的位置被更加严格地限制。除了同样的作为高比特率模式的字典的奇偶性限制以外,对每个脉冲存在对其位置的有限选择。
上述5.3kbps模式多脉冲字典属于众所周知的ACELP字典家族。一个ACELP路径的结构是基于交叉存取单脉冲置换(interleaved single-pulsepermutation,ISPP)技术,其包括将L个位置的一个集合分割为K个交叉存取声道(track),第N个脉冲位于特定的预定义声道中。在一些应用中,码字(code words)的维度(dimension)L可以被扩展为L+N。因此,在一个ITU-T G.723.1编码器的低比特率模式路径的例子中,60个样本的块的维度被扩展到64个样本,且其中32个偶数(或者在这样的例子中也可以是奇数)位置被分割为4个非重叠(non-overlapping)的长度为8的交叉存取声道。于是,存在2组4个声道,每组都具有相同的奇偶性。下表1描述了对i0至i3的每个脉冲的偶数位置的四个声道。
表1:5.3kbps模式G.723.1编码器的ACELP字典的脉冲的位置和振幅。
脉冲 | 信号 | 位置 |
i0 | ±1 | 0、8、16、24、32、40、48、56 |
i1 | ±1 | 2、10、18、26、34、42、50、58 |
i2 | ±1 | 4、12、20、28、36、44、52、(60) |
i3 | ±1 | 6、14、22、30、38、46、54、(62) |
ACELP改良字典被使用在许多使用综合分析的标准编码器(ITU-TG.723.1、ITU-T G.729、IS-641、3GPP NB-AMR、3GPP WB-AMR)中。以下表2至表4展示了这些用于块长度为40个样本的ACELP字典的一些例子。注意,在这些字典中没有使用奇偶性限制。表2描述了用于8kbps模式ITU-T G.729编码器、IS-6417.4kbps模式编码器和7.4以及7.95kbps模式3GPP NB-AMR编码器中的适用于17位(bit)和四个振幅为±1的非零脉冲的ACELP字典。
表2:8kbps模式ITU-T G.729编码器、7.4kbps模式IS-641编码器和7.4以及7.95kbps模式3GPP NB-AMR编码器的ACELP字典的脉冲的位置和振幅。
脉冲 | 信号 | 位置 |
i0 | ±1 | 0、5、10、15、20、25、30、35 |
i1 | ±1 | 1、6、11、16、21、26、31、36 |
i2 | ±1 | 2、7、12、17、22、27、32、37 |
i3 | ±1 | 3、8、13、18、23、28、33、384、9、14、19、24、29、34、39 |
表3描述了使用在12.2kbps模式3GPP NB-AMR编码器中的用于35位(bit)的ACELP字典,其中每个码矢量(code-vector)包括10个振幅为±1的非零脉冲。40个样本的块被分割为5个长度为8的声道,每个声道包含2个脉冲。注意,同一个声道的2个脉冲可以重叠并且形成振幅为±2的单脉冲。
表3:12.2kbps模式3GPP NB-AMR编码器的ACELP字典的脉冲的位置和振幅。
脉冲 | 信号 | 位置 |
i0、i5 | ±1 | 0、5、10、15、20、25、30、35 |
I1、i6 | ±1 | 1、6、11、16、21、26、31、36 |
I2、i7 | ±1 | 2、7、12、17、22、27、32、37 |
i3、i8 | ±1 | 3、8、13、18、23、28、33、38 |
i4、i9 | ±1 | 4、9、14、19、24、29、34、39 |
最后,表4描述了使用在ITU-T G.729编码器和5.9kbps模式3GPPNB-AMR编码器的低比特率(6.4kbps)扩展中的用于11位(bit)和2个振幅为±1的非零脉冲的ACELP字典。
表4:6.4kbps模式ITU-T G.729编码器和5.9kbps模式3GPPNB-AMR编码器的ACELP字典的脉冲的位置和振幅。
脉冲 | 信号 | 位置 |
i0 | ±1 | 1、3、6、8、11、13、16、18、21、23、26、28、31、33、36、38 |
i1 | ±1 | 0、1、2、4、5、6、7、9、10、11、12、14、15、16、17、19、20、21、22、24、25、26、27、29、30、31、32、34、35、36、37、39 |
下面将解释“探测(exploring)”多脉冲字典的含义。
伴随任何量化操作(quantizing operation),寻找最佳的(optimum)用于编码的矢量的模型包括从最相似的字典的码矢量(code-vector)的集合(或子集)中选择,例如选择与所输入的矢量之间的被测距离最小的那个矢量。为了这个目的,一个称之为“探测”字典的步骤被执行。
在多脉冲字典的例子中,这相当于寻找那些待建模信号的最优化脉冲以及由脉冲选择所得到信号的结合。取决于字典的尺寸和/或结构,该探测可以是穷举的或非穷举的(于是更复杂或不那么复杂)。
既然使用在上述TDAC编码器中的字典是第二种类型的置换码(permutation codes)的逻辑相加,用于对一个标准转换系数矢量进行编码的算法,仅仅计算有限个距离标准(使用所谓的“绝对指标(absoluteleader)”矢量),探测该特性以从所有的码矢量中确定离其最近的矢量。
在使用综合分析的编码器中,除了在小型字典的情况下,多脉冲字典探测是非穷举的。只有高比特率字典的一小部分被探测。例如,多脉冲ACELP字典通常在两个阶段被探测。为了简化该搜索,第一阶段通过基于上述输入信号简单量化一个信号来预选择每个可能的脉冲位置的振幅(以及该信号,参见上述内容)。既然脉冲的振幅被确定了,其就是脉冲的位置,该等脉冲然后被使用一综合分析技术搜索(以符合CELP标准)。尽管使用了ISPP结构,并且尽管只是少数脉冲,对位置结合的穷举搜索仅仅对低比特率字典(典型地,不大于12位(bit))实施。这应用于6.4kbps模式G.729编码器用的11位ACELP字典(参见表4),例如,其中两个脉冲的位置的512种组合都被测试来选择最好的一个,也就是计算相应的512个CELP标准。
对于高比特率的字典,已经提出了不同的聚焦(focusing)方法。词语“聚焦搜索(focused search)”从而被使用。
这些在先技术的部分被用于上述的标准编码器中。其目标是减少位置的组合数量以基于将被建模的信号的特征来探测。一个例子是在许多个标准ACELP编码器中“深度优先树”算法被使用,例如一个目标信号的声道的局部最大量,该目标信号基于输入信号、之前的综合信号以及一个由综合和感性权重组成的滤波器。取决于所使用的字典的尺寸,在这一点上有不同的情况。为了探索适用于35位和10个脉冲的ACELP字典(参考图3),第一脉冲被设于目标信号的全局最大量的相同位置。其后续有对连续声道的四个循环置换。在每次置换中,第二脉冲的位置确定于其他四个声道之一的局部最大量,剩余的其他8个脉冲的位置被成对地隔行循环连续搜索。在每次循环中,256个(8×8×4对)不同的组合被测试,也就是说,在字典中的225个中,只有10个脉冲的1024个组合被探测。在IS641编码器中,使用了一个不同的变量,其中适用于17位和4个脉冲的字典(参考表2)的更高比例的组合被探测。脉冲位置的8192(=213)个组合中的768个组合被测试。在8kbpsG.729编码器中,同样的ACELP字典被使用一个不同的聚焦方法探测。该算法通过隔行4脉冲搜索循环(每个脉冲1个)来完成于一个循环搜索。该搜索通过进入内部循环(搜索属于声道3或声道4的最后一个脉冲)来聚焦,该内部循环取决于超过一个合适阈值,而该起点也取决于目标信号(第一个三声道的局部最大值和中间值)的特征。而且,4脉冲的组合的探测的最大值被确定在1440(表示8192个组合的17.6%)。
在6.3kbps模式G.723.1编码器中,不是所有的5(或6)脉冲的组合2×25×C30 5(或2×26×C30 6)都被探测。对于每个图表(chart),算法使用一个著名的“多脉冲”分析来连续搜索脉冲的位置和振幅。对于ACELP字典,存在用于对所测试组合的数量加以限制的变量。
但是,上述技术存在下述问题。
一个多脉冲字典的探测,甚至是一个次优的探测,在很多编码器中都在计算时间的方面构成了成本比较大的操作。例如,在6.3kbps模式G.723.1编码器和8kbps模式G.729编码器中,搜索的工作量几乎占了编码器整个复杂性的一半。对于NB-AMR编码器,占有整个复杂性的1/3。对于TDAC编码器,占有整个复杂性的1/4。
很明显,如果大量的编码操作在同一个处理单元内执行,则复杂性问题会变得严重,例如一个网关管理许多并行呼叫,或者一个服务器用于分配很多多媒体内容。由于在网络上传输内容的压缩格式的多样性,应更加强调复杂性问题。
为了保证灵活性和连续性,现代的、改良的多媒体通讯服务必须可以在一个多变的环境下予以运行。多媒体通讯部门(sector)的活力以及网络、接入点和终端的不同特征,使得压缩格式过剩,其在通讯系统中的出现使得复合编码(multiple coding)不论在串行(编码转换(transcoding))或并行(复合格式编码(multiformat coding)或者复合模式编码(multimodecoding))中都成为必要。
下面解释词语“编码转换(transcoding)”的含义。在一个传播系统中,如果由一个编码器发送的一个压缩信号帧无法继续以同样的格式存在,则编码转换就是必要的。编码转换将该帧转换为另一种格式,而该格式与该传播系统内其余部分相兼容。最基本的解决方案(并且也是目前最广泛使用的)是背对背(back to back)设置一个解码器和一个编码器。具有第一格式的压缩帧到达后被解压缩(decompressed)。然后,该等解压缩信号被以第二格式压缩,而该第二格式信号可以被传播系统内的其余部分所接受。这样的一个解码器和一个编码器串行连接并称之为“串接(tandem)”。这样的解决方案在复杂性方面是非常浪费的(主要是因为重新编码),而且降低了质量,因为第二次编码基于一个解码信号(decoded signal),该解码信号是原始信号的有损(degraded)版本。而且,一个帧在到达目的地之前可能要经历多个串接(tandem)。计算浪费和质量损耗并不难想象。而且,每个串接(tandem)操作之间的延迟也会累积并损害通话的交互。
不仅如此,在一个同样的内容被压缩成多于一个格式的复合格式压缩系统内,复杂性也会导致问题。一个根据不同用户的接入条件、网络和终端来采取众多格式来广播同样内容的内容服务商就是这方面的例子。该复合(multicoding)编码操作变得特别复杂,因为所要求的格式的数量增加,导致系统资源迅速地饱和。
并行复合编码的另一个例子是后决策(posterior decision)复合模式压缩。大量压缩模式应用于待编码信号的每个段,其中按照一给定标准最优化或者得到最好的比特率/失真度比(trade-off)的模式被选择。再一次地,每个压缩模式的复杂性限制了压缩模式的数量和/或导致在很少数量的模式中的优先(priori)选择。
下面描述那些解决上述问题的在先技术。
新的多媒体通讯应用(例如音频和视频应用程序)经常使得大量的编码操作不论在串行(编码转换)或并行(复合格式编码或者复合模式编码)中都成为必要。尽管当前的处理能力已经提高,但在所有编码操作中产生的复杂性问题的负担仍然需要解决。多数在先技术的复合编码操作都没有考虑在格式彼此之间,以及在编码器E的格式和其内容彼此之间的交互影响。不过,一些智能的编码转换技术已经提出不仅仅满足于解码和再编码,而相反地探测在编码格式之间的相似性以便在限制质量降低的同时降低复杂性。
下面描述被称为“智能(intelligent)”编码转换方法。
在同一个编码器(CELP、参量(parametric)、波形,等等)家族(family)中的所有编码器都从信号中提取同样的物理参数。不过,在建模和量化这些参数方面有很大的不同。于是,在一个编码器和另一个编码器之间,同样的参数可能被以同样的或者非常不同的方式编码。
而且,编码可以严格一致,或者可以在建模和对参数的计算方面严格一致,但只是在如何将编码转换为位的形式方面不同。最终,编码可以在对参数建模和量化方面完全不同,或者甚至在其分析和对频率进行抽样方面完全不同。
如果建模和参数计算严格一致,包括转化为位格式,其就足以从以第一格式生成的位流(bit stream)中复制相应的位域(bit field)至第二格式的位域中。例如,这样高度喜人的情形出现在对合适的激励(excitation)(LTP延迟)从G.729标准向IS-641标准的编码转换过程中。
对于同一个参数,如果两个编码器仅仅在将所计算的参数转换为位形式方面存在区别,其足以对第一格式的位域进行解码然后将其返回给使用第二格式的编码方法的二进制域(binary domain)。这种转化也可以通过相应的一对一表格来完成。例如,这种情形在确定的激励(fixed excitations)从G.729标准向AMR标准(7.4kbps和7.95kbps模式)编码转换时出现。
在上述两种情形中,对参数的编码转换仍然停留在位(bit)的级别(level)。简单的位操作提供了与第二编码格式相适应的参数。另一方面,如果一个从信号中提取出来的参数被采用两种编码格式不同地建模或量化,则从一个格式向另一个格式转换就不这么容易。已经提出几种方法,这些方法工作在参数级(level)、激励级或者被解码的信号级。
为了在参数域中进行编码转换,如果两种编码格式以同样的方式计算参数并以不同的方式对其量化,则仍然可以停留在参数级。量化的不同可以与精度或所选择的方法(标量的(scalar)、矢量的(vectorial)、预示的(predictive)等等)相关。然后,其足以对参数解码并以第二编码格式进行量化。特别地,该在先技术的方法被用于编码转换激励(excitation)获得。被解码的参数必须经常在其被重新量化之前被修改(modified)。例如,如果编码器有不同的参数分析频率或不同的帧/子帧长度。例如,插补可以通过如公开文献US2003/033142所述的方法完成。另一个修改的选择是使用第二编码格式来强行使参数符合精度的要求。这种情形发生在用于基础频率(音调(pitch))的高度的大部分情况。
如果不能在参数域内对参数进行编码转换,解码可以在更高的级别进行。不考虑更高级别的信号域,则就应在激励域内考虑。该技术已经在文档“Improving transcoding capability of speech coders in clean and frameerasured channel enviroents”(作者:Hong-Goo Kang,Hong Kook Kim,Cox,R.V.Speech Coding,2000,Proceeding,2000,IEEE Workshop on SpeechCoding,第78~80页)中被提出。
最后,一个最后的解决方案(最复杂且最不“智能”的),包括编码器直接重新计算参数,但是基于综合后的信号。该操作相当于一种局部的串接(tandem),只是部分参数被完全重新计算。这种方法被应用于不同的参数,例如确定的激励(excitation)、在上述IEEE文献中提到的获得(gains),或者音调(pitch)。
对于编码转换脉冲,尽管几种技术都被开发来快速并低成本地计算上述参数,但今天只有少数几个解决方案使用一个智能的方法来计算脉冲相同参数的一个格式转换为另一种格式。在使用综合分析的编码中,智能的脉冲编码的编码转换仅仅应用在建模是一致的(或接近的)情况下。相反,如果建模是不同的,则部分串接被使用。需要注意的是,为了限制这种操作的复杂性,已经提出探测被解码信号或者源信号(derived signal),例如目标信号的特征。在US-2001/027393文献中提到,在一个实现MDCT波形编码器的实施例中,其中描述了一个比特率改变的过程,其可以被认为是一个特殊的上述智能的编码转换的例子。该过程使用第二字典的矢量来对来自于第一字典的矢量重新量化。为了这个目的,其根据将被量化的矢量是否属于第二字典来区别处理两种情况。如果被量化的矢量属于新的字典,则建模是一致的,否则应用部分编码方法。
发明内容
与上述在先技术相区别,本发明提出一种多脉冲编码转换的方法,该方法基于选择脉冲集合的全集的脉冲位置的组合的一个子集,该脉冲来自于另一个脉冲集合的全集的脉冲位置的组合,该两个全集的区别在于其所包括的脉冲数量以及管理脉冲位置的规则和/或脉冲振幅。这种形式的编码转换特别在串行(cascade)(编码转换)或并行(parrel)(复合格式编码或者复合模式编码)中对复合编码都非常有益。
为了这个目的,本发明首先提出了在一第一压缩编解码器(codec)和一第二压缩编解码器(codec)之间编码转换的一种方法。上述第一和第二编解码器都是脉冲类型并使用多脉冲字典,在该字典中每个脉冲有一个由相应索引标识(marked)的位置。
本发明所述的编码转换的方法包括如下步骤:
a)需要时,使编码参数在所述第一和第二编解码器间匹配;
b)从第一编解码器获得一个所选择数量的脉冲位置以及伴生的各个位置索引;
c)对每个给定索引的当前脉冲位置,形成一组脉冲位置,至少包括当前脉冲位置和具有伴生的该给定索引直接向下或直接向上的索引的脉冲位置;
d)在步骤c中形成的所述组的并集(union)所组成的一全集内选择至少部分脉冲位置,作为一个被第二编解码器所接受的脉冲位置的函数;
e)将所选择的脉冲位置发送至从所发送的位置进行编码/解码的第二编解码器。
所述选择步骤d)包括许多脉冲位置,其数量小于所述第二编解码器的字典内的脉冲位置的总数。
清楚的是,在步骤e)中,特别是如果上述第二编解码器是一个编码器(coder),所选择的脉冲位置被传送给那个编码器来通过仅搜索所传送的位置来进行编码。如果上述的第二编解码器是一个解码器,则所选择的脉冲位置被传送来解码该位置。
优选的,所述步骤b使用由所述第一编解码器提供位流的部分解码来确定第一数量个脉冲位置,该脉冲位置由所述第一编解码器用于一第一编码格式。在步骤b中选择的数量,优选地,与该脉冲位置第一数量相对应。
在一个进一步的实施例中,上述步骤由一个软件产品执行,该产品包括执行上述步骤的程序指令。在这点上,本发明也涉及上述的适于存储在一个处理单元的存储器内的一种软件产品,尤其是一个计算机或一个移动终端,或者一个适于与该处理单元的阅读器相配合的可移除存储介质。
本发明也涉及一个用于在第一压缩编解码器和第二编解码器间进行编码转换的装置,其包括一个用于存储上述软件产品的指令的存储器。
附图说明
本发明的其他特征和优点在阅读下述具体描述以及附图后即更加清楚,其中:
图1a是根据本发明的在一个“串行(cascade)”配置的情况下的一个编码转换的图;
图1b是根据本发明的在一个“并行(parallel)”配置的情况下的一个编码转换的图;
图2是执行不同编码转换过程的图;
图2a是当第一编解码器E和第二编解码器S的取样频率不同时所使用的适应处理的图;
图2b是图2a所示过程的一个变化;
图3总结了本发明的编码转换方法的步骤;
图4是两个编码器E和S的子帧的图表,两个编码器各自具有不同持续时间Le以及Ls,其中Le>Ls,但却具有相同的取样频率;
图4b表示图4的一个实施例,其显示了与G.723.1编码器和G.729编码器相适应的时间;
图5是一个显示第一编码器E的激励以第二编码器S的比率划分的图表;
图6显示了其中一个伪子帧SET’0为空的情形;并且
图7是一个当第一编码器E和第二编码器S的子帧持续时间不同时所使用的适应处理的图。
具体实施方式
首先,需要注意的是,本发明与使用多脉冲字典对数字多媒体信号,例如音频(语音和/或声音)信号进行建模和编码有关。其可以在串行或并行中复合编码/解码的情况或其他系统中通过一个多脉冲表示实现对一个信号的建模,并且其基于属于第一全集的脉冲的第一集合的知识不得不确定一个第二全集的至少一个脉冲集合。为了简明起见,仅对从第一全集向另一个全集的转换予以描述,但本发明可以同样地应用在n(n≥2)个全集的情况。而且,下面仅描述在两个编码器间进行编码转换的情况,但是在一个编码器和一个解码器间进行的编码转换可以没有任何主要困难的情况下被推出。
因此考虑与两个编码系统相对应的脉冲集合来对一个信号进行建模的情况。图1a和1b表示一个在使用第一编码格式COD1的第一个编码器E和使用第二编码格式COD2的第二编码器S之间的编码转换器D。所述编码器E以连续的被编码帧的方式向所述编码转换器D传送一个被编码的位流SCE,其包括一部分解码器模块10,用来恢复用于第一编码格式的脉冲位置的数量Ne以及这些脉冲的位置Pe。如下面详细地显示,本发明所述的编码转换器提取每个脉冲位置Pe的右手邻域Ve d以及左手邻域Ve g,并且在该等邻域的结合中选择将由第二编码器S识别的脉冲位置。如图1a和图1b描述的编码转换器的模块11执行这些步骤来向所述第二编码器S传送位置的选择(在图1a和1b中表示为Sj)。特别地清楚的是,从这个选择Sj组成了一个小于通常被第二编码器S使用的路径的子路径,这是本发明的优点之一。使用这个子路径,由编码器S执行的编码当然地快速,因为其更严格却没有降低编码质量。
在图1a所描述的实施例中,编码转换器D进一步包括一个模块12,至少用来对第一编码器E传送的编码流SCE进行部分解码。然后,所述模块12向第二编码器S提供原始信号S0的一个至少部分解码版本S’0。然后,所述第二编码器S传送一个基于上述版本S’0的编码位流SCS。
在这样的配置下,编码转换器D在第一编码器E和第二编码器S之间完成编码适应,且由所述第二编码器S更加快速(因为限制更多)地完成编码。当然,作为这样的配置的一个可替换的配置,图1a和图1b中称之为S的实体也可以是一个解码器,而且在这样的变化下,本发明的编码转换器D在一个编码器E和一个解码器S之间完成编码转换,由于由编码转换器D提供信息,所以该解码的过程是快速的。很清楚,既然上述过程是可逆的,通常可以理解的是,本发明所述的编码转换器D可以在一第一编解码器E和一第二编解码器S之间工作。
需要注意的是所述编码器E、编码转换器D以及编码器S的设置可以按照图1a所示构成“串行”配置。在图1b所示的变化中,这个设置可以构成“并行”配置。在这样的情况下,两个编码器E和S接收原始信号S0并且所述两个编码器E和S分别传送编码流SCE和SCS。当然,这样,所述第二编码器S不必再从图1a中接收版本S’0,而且编码转换器D的用于至少部分解码的模块12也不再是必需的。进一步请注意,如果编码器E可以提供一个与所述模块11的输入相兼容的输出(脉冲数量以及脉冲位置),则所述模块10可以被简单地忽略。
进一步请注意,所述编码转换器D可以被配备一个用于存储用于实现上述步骤的指令的存储器,以及一个用于执行这些指令的处理器。
本发明按照如下所述予以应用。所述第一编码器E已经针对一个给定信号S0(例如原始信号)完成编码操作。于是,可获得由所述第一编码器E选择的脉冲的位置。该编码器在编码过程中确定使用其自身的技术的这些位置Pe。所述第二编码器S也必须执行其编码过程。在编码转换的情况下,所述第二编码器S仅仅有由所述第一编码器生成的位流,而且本发明在此应用了上述提及的“智能”编码转换。在并行复合编码的情况下,所述第二编码器S也拥有所述第一编码器拥有的信号,而且本发明在此应用了“智能复合编码”。一个需要对同样内容以大量不同编码格式进行编码的系统可以探测第一格式的信息来简单地编码其他格式。本发明也可以应用在由后决策(posteriori decision)复合模式编码组成的并行复合编码的特定环境。
本发明可以被用来根据第一格式的脉冲的位置pe(以下可交替表示为ei)快速地决定用于另一个编码格式的脉冲的位置ps(以下可交替表示为si)。其通过限制可能位置的数量相当地降低了用于第二编码器的操作的计算复杂性。为了这个目的,其使用了由第一编码器选择的位置来从第二编码器的所有可能位置中定义一个受限的位置集合,在其受限集合中用于脉冲的最佳位置集合被搜索。这相对于一个标准穷举或聚焦搜索(focusedsearch),在限制信号质量降低的同时导致复杂性的显著增长。
于是,清楚的是,本发明通过基于第一编码格式的位置定义了一个限制的位置集合来限制了可能位置的数量。这区别于现有解决方案,该等方案仅使用待建模的信号的特征,通过给定优选位置和/或消除位置,来限制可能的位置的数量。
对于一个第一全集(ensemble)的集合的每一个脉冲,可变宽度内的两个邻域(一个在右侧、一个在左侧)以及更多或更少的限制被优选地定义,且一个从与所述第二全集的限制相适应的脉冲的至少一个组合中提取的可能位置的全集被预先选择。
上述编码转换方法通过使每个脉冲的右手和左手邻域的脉冲位置的数量和/或各个尺寸匹配(根据脉冲位置的组合),具有优化复杂性/质量比的优点,既在处理的开始,也对每个子帧作为一个经审定的复杂性的函数和/或起点位置集合。本发明也通过选择直接的邻域来调整/限制位置组合的数量。
如上所述,本发明也涉及上述算法应用其中的软件产品,在其中,该算法特别被设计来提取用于促进形成所述第二全集的脉冲组合的临近位置。
如上所述,网络和内容的不同特征可充分发挥高度变化的编码格式。编码器可以由很多特征区别,特别是其中的两个,即取样频率以及子帧的持续时间,其充分决定本发明的操作模式。通过如下描述适用于这些情况的本发明的实施例的关系来说明模式的选择。
图2简要描述了这些情况。其初始地分别获得由编码器E和S使用的(步骤21):
脉冲位置的数量Ne,Ns;
各自的取样频率Fe,Fs
子帧持续时间Le,Ls;
于是,已经清楚,适应步骤和恢复脉冲位置的数量Ne、Ns的步骤可以被交替执行或简单地同时执行。
取样频率在判断22中被比较。如果频率相等,则子帧持续时间在判断23中被比较。如果不同,则在一个如下描述的步骤32中采用合适的取样频率。在判断23之后,如果子帧持续时间相等,则由所述第一和第二编码格式所使用的脉冲位置的数量Ne和Ns,分别地,在判断24中被比较。如果不同,则也在一个如下描述的步骤33中采用合适的子帧持续时间。清楚的是,步骤22、23、32和33共同定义了使编码参数适应的上述步骤a)。需要注意的是,一方面,步骤22和32(使取样频率适应),另一方面,步骤23和33(使子帧持续时间适应),可以交互执行。
下面,首先描述取样频率相等和子帧持续时间相等的情况。
这是最好的情况,但其中不必要根据上述判断24的结果来区分第一格式所使用的脉冲多于第二格式(Ne≥Ns)的情况以及相反的情况(Ne<Ns)。
*在图2中Ne≥Ns。
具体原则如下所述。两个编码器E和S的路径,分别地,在每个子帧中使用Ne和Ns个脉冲。
编码器E在子帧Se之上计算其Ne脉冲的位置。这些位置在下面可交替地表示为ei和pe。对于编码器S的路径的脉冲的特别的位置的受限全集Ps由Ne位置ei和其邻域组成:
其中,vd i和vg i,是脉冲i的右手和左手邻域的尺寸,且均≥0。在图2的步骤27中被选择的vd i和vg i的值根据复杂性和质量的需要而相应地更大或更小。这些尺寸可以在处理的开始被任意地确定或者对于每个子帧se选择。
在图2的步骤29中,全集Ps包括每个位置ei以及其右手邻域vd i以及其左手邻域vg i。
然后,有必要对于编码器S的路径中的每个Ns脉冲定义位置,该脉冲被审定认为处于Ps具有的这些位置之中。
为了这个目的,引入了用于管理S路径设置的规则。假设S的Ns脉冲属于位置的预定义的子集,一个给定数量的脉冲分享被审定的位置的相同子集。例如,12.2kbps模式3GPP NB-AMR编码器的10个脉冲被两两分割为5个不同的子集,如上述表3所示。N’s表示不同位置的子集的数量(在这个例子中由于N′s=5,所以N′s ≤Ns)并且Tj(j=1至N′s)表示定义S的路径的位置的子集。
从全集Ps开始,Ps与全集Tj的其中一个相交获得的N′s个子集Sj通过等式Sj=Ps∩Tj,按照图2的步骤30形成。
邻域vd i和vg i必须具有足够大的尺寸以便上述交集不为空。因此有必要对邻域的尺寸进行校正,如果需要的话,作为脉冲的开始集合的函数。这是图2中的判断步骤34的目的,随着邻域的尺寸有所增加(步骤35)返回到步骤c)中形成的组的结合Ps的定义(图2中的步骤29),如果其中的一个交集是空的。另一方面,如果没有交集Sj是空的,则其是由被发送至编码器S(最后步骤31)的这些交集Sj构成的子路径。
本发明还探测路径的结构。例如,如果编码器S的路径是ACELP类型的,则其是具有被计算的Ps的声道的位置的交集。如果编码器E的路径也是ACELP类型的,邻域提取过程也探测声道结构,且提取邻域和组成位置的受限子集的步骤被明智地组合起来。特别地,对于邻域提取算法而言,考虑根据第二全集的限制来组合脉冲是有益的。如稍后将提到的,邻域提取算法被提出来促使根据第二全集的脉冲组合。稍后介绍的实施例之一(从具有2个脉冲的ACELP到具有4个脉冲的ACELP)是这种算法的一个例子。
位置的可能组合的数量是很小的,而且编码器S的路径的子集的尺寸通常远小于原始路径的尺寸,其大大降低了编码转换的倒数第二个步骤的复杂性。脉冲位置的组合的数量定义前述子集的尺寸。是本发明减少的脉冲位置的数量,导致脉冲位置的组合的数量的减少并且使得获得一个受限尺寸的子路径成为可能。
然后,图3的步骤46包括加载在受限尺寸的子集中搜索Ns个脉冲的位置的最好集合。该选择的标准与编码过程的标准相类似。为了进一步降低复杂性,使用前述提到的聚焦技术的在先技术该子路径的探测可以被加速。
图3简要描述了在编码器E使用至少与编码器S相同脉冲的情况下的本发明步骤。但是,正如在图2中已经指出的,如果第二格式(S的格式)的位置的数量Ns大于第一格式(E的格式)的位置的数量Ne,则该过程仅在一些有益的变量上不同,如后所述。
概括地,图3的步骤如下简要地描述。在步骤a)中采用了合适的编码参数(仅在需要时存在并且以虚线表示为图3中的块41)之后:
恢复编码器E的脉冲的位置ei,并且优选地恢复数量Ne个位置(步骤42与上述步骤b)相对应);
提取邻域并且根据所述等式形成邻域的组(与上述步骤c)相对应的步骤43);
组成位置的受限子集{Sj=Ps∩Tj},该等位置形成上述步骤d)的选择且对应于如图3表示的步骤44;且
转发对编码器S的选择(步骤45与上述步骤e)相对应)。在步骤45后,编码器S在从步骤44中取得的受限路径中选择一个位置集合。
接下来的一个步骤46,搜索由编码器S接收到的子路径以查找包括位置的第二数量Ns个位置的最佳位置的集合,如上所述。为了加速该子路径的探测,搜索最合适的的位置集合的步骤46优选地由一个聚焦搜索来实现。随后的处理很自然地借助由第二编码器的编码进行。
下面描述在由第一编码格式所使用的脉冲数量Ne低于由第二编码格式所使用的脉冲数量Ns的情况下的处理形式。
*在图2中Ne<Ns
如果S格式使用了多于E格式的脉冲,则处理过程与上面描述的类似。但是,S的格式的脉冲可能在受限路径内并没有位置。在这样的情况下,在第一实施例中,所有可能的位置为了这些脉冲而被审定。在一个第二优选实施例中,邻域的尺寸v’d和v’g在图2的步骤28中被简单地增加。
*在图2中Ne<Ns<2Ne
一个特殊的情况必须在此强调。如果Ne与Ns接近,典型地如果Ne<Ns<2Ne,则可以采取一个确定所述位置的优选方式,尽管上述处理方式仍然被全部应用。在E的位置的基础上直接确定S的脉冲的位置可以使得复杂性进一步被降低。S的Ne个第一脉冲被置于E的脉冲的位置。剩余的Ns-Ne个脉冲被尽量地置于第一Ne个脉冲附近(在他们的直接邻域中)。然后在图2中的步骤25进行判断,数量Ne和Ns是否接近(Ne>Ns),如果接近,则步骤26中对脉冲位置的选择如上所述。
当然,不论Ne<Ns和Ne<Ns<2Ne的哪种情况,尽管已经进行了提防,但如果其中一个交集Sj仍然为空,则邻域的尺寸V+ g、V+ d将在步骤35中被增加,就如Ne≥Ns的情况。
最后,在全部情况中,如果没有交集Sj为空,则由交集Sj形成的子路径被转发给所述第二编码器S(步骤31)。
如果第一编码格式和第二编码格式的编码参数不同,尤其是取样频率和子帧持续时间不同,则使用于适应步骤a)的处理方式如下描述。
区分下述情况:
*子帧持续时间相同但取样频率不同
这种情况对应于图2中判断步骤22的结果为否定以及判断步骤23的结果为肯定。适应步骤a)就被应用于图2的步骤32。
之前的处理不能直接应用于此,因为两个格式没有相同的时分(timesubdivision)。由于取样频率不同,两个帧在相同的持续时间内没有同样的取样数量。
一个串接(tandem)的处理方式是在确定编码器S的格式的脉冲位置时不考虑编码器E的格式的脉冲位置,与该处理方式不同,本发明提出两个由两个不同的实施例组成的处理方式。他们通过在两种格式的位置间建立一种关系来限制复杂性,然后转回上述的处理方式继续处理(就如同取样频率相等一样)。
第一个实施例的处理方式采取根据第二格式的时间范围直接对第一格式的时间范围进行量化。该量化操作,其可以通过制表或通过一个公式计算,对于第一格式的子帧的每个位置在所述第二格式的子帧内寻找等价的位置,或者反之亦然。
例如,在两个格式的子帧的位置Pe和Ps之间的关系可以通过如下等式定义:
其中,Fe和Fs分别是E和S的取样频率。
Le和Ls是他们的子帧长度,并且
表示取整。
基于处理单元的特征,所述关系可以使用上述公式或者进一步针对Le的值制表。一个中间解也可以通过对仅仅第一个Le的值(
d是Le和Ls的最大公因子)制表而选择,其余的位置就可以比较容易地得出。
需要注意的是,也可以得出与E的子帧的位置相对应的S的子帧的大量位置。例如,保留直接向下和直接向上的位置
如上描述的通用处理过程从与位置Pe相对应的位置Ps的全集开始应用(提取邻域、组合脉冲组合、选择优选组合)。
如下表5a和5b描述了子帧持续时间相等而取样频率不等的情况,并以3GPP NB-AMR类型的编码器E的一个实施例以及WB-AMR类型的编码器S予以阐述。所述NB-AMR编码器具有一个40个样本的子帧,取样频率为8khz。所述WB-AMR编码器采用每子帧64个样本,取样频率为12.8khz。在两种情况下,子帧持续时间都是5毫秒(ms)。表5a给出了NB-AMR子帧与WB-AMR子帧的位置的对应关系,表5b给出了转换关系。
表5c和5d是受限的对应关系表。
NB-AMR | 0 | 1 | 2 | 3 | 4 | 5 | 6 | 7 | 8 | 9 | 10 | 11 | 12 | 13 | 14 | 15 | 16 | 17 | 18 | 19 | 20 | 21 | 22 | 23 | 24 | 25 | 26 | 27 | 28 | 29 | 30 | 31 | 32 | 33 | 34 | 35 | 36 | 37 | 38 | 39 |
WB-AMR | 0 | 2 | 3 | 5 | 6 | 8 | 10 | 11 | 13 | 14 | 16 | 18 | 19 | 21 | 22 | 24 | 26 | 27 | 29 | 30 | 32 | 34 | 35 | 37 | 38 | 40 | 42 | 43 | 45 | 46 | 48 | 50 | 51 | 53 | 54 | 56 | 58 | 59 | 61 | 62 |
表5a:NB-AMR对WB-AMR的时间对应关系表
WB-AMR | 0 | 1 | 2 | 3 | 4 | 5 | 6 | 7 | 8 | 9 | 10 | 11 | 12 | 13 | 14 | 15 | 16 | 17 | 18 | 19 | 20 | 21 | 22 | 23 | 24 | 25 | 26 | 27 | 28 | 29 | 30 | 31 |
NB-AMR | 0 | 1 | 1 | 2 | 3 | 3 | 4 | 4 | 5 | 6 | 6 | 7 | 8 | 8 | 9 | 9 | 10 | 11 | 11 | 12 | 13 | 13 | 14 | 14 | 15 | 16 | 16 | 17 | 18 | 18 | 19 | 19 |
WB-AMR | 32 | 33 | 34 | 35 | 36 | 37 | 38 | 39 | 40 | 41 | 42 | 43 | 44 | 45 | 46 | 47 | 48 | 49 | 50 | 51 | 52 | 53 | 54 | 55 | 56 | 57 | 58 | 59 | 60 | 61 | 62 | 63 |
NB-AMR | 20 | 21 | 21 | 22 | 23 | 23 | 24 | 24 | 25 | 26 | 26 | 27 | 28 | 28 | 29 | 29 | 30 | 31 | 31 | 32 | 33 | 33 | 34 | 34 | 35 | 36 | 36 | 37 | 38 | 38 | 39 | 39 |
表5b:WB-AMR对NB-AMR的时间对应关系表
NB-AMR位置 | 0 | 1 | 2 | 3 | 4 |
WB-AMR位置 | 0 | 2 | 3 | 5 | 6 |
表5c:NB-AMR与WB-AMR受限时间对应表
WB-AMR位置 | 0 | 1 | 2 | 3 | 4 | 5 | 6 | 7 |
NB-AMR位置 | 0 | 1 | 1 | 2 | 2 | 3 | 4 | 4 |
表5d:WB-AMR与NB-AMR受限时间对应表
简单地讲,应用了下述步骤(参考图2a):
a1)直接时间范围(timescale)从第一个频率量化为第二频率(图2a中步骤51);
a2)作为上述量化的函数,从具有由第一取样频率标识的第一编码格式的子帧中的一个脉冲位置确定具有由第二取样频率标识的第二编码格式的子帧中的每个脉冲位置(图2a中步骤52)。
通常,上述量化步骤a1)通过由一函数计算和/或制表来完成,该函数使一个具有第二编码格式的子帧中的一个脉冲位置ps对应于具有第一编码格式的子帧中的一个脉冲位置pe,确切地讲,该函数采用一个包括一乘数系数的线性组合的方式,该系数对应于第二取样频率与第一取样频率的比率。
而且,为了实现从具有第二编码格式的子帧中的一个脉冲位置ps向具有第一编码格式的子帧中的一个脉冲位置pe的相反方向进行,当然地将上述线性组合的反转函数应用于具有第二编码格式ps的一子帧内的一脉冲位置。
清楚地,上述编码转换过程是完全可逆的,并可以同等地适用于从一个编码转换方向(E→S)以及相反的方向(S→E)。
取样频率适应的第二实施例采用了对取样频率原则的传统改变。从包含由第一格式发现的脉冲的子帧开始,过度取样被应用于与两个取样频率Fe和Fs的最小公倍数相等的频率。然后,在低通过率过滤后,不足取样被应用来回复第二格式的取样频率,也就是说Fs。于是在频率Fs获得一个包含从E中过滤后的脉冲的子帧。再一次地,过度取样/LP过滤/不足取样操作的结果可以对E的一个子帧的每个可能的位置制表。该过程也可以通过“在线”计算来完成。在取样频率适应的第一个实施例中,S的一个或更多位置可以与E的位置相关联,如下所述,以及根据上面所述的本发明应用的通常的过程。
如在图2b中描述的变化,应用了下述步骤:
a′1)对具有由第一取样频率标识的第一编码格式的子帧在一个等于第一和第二取样频率的最小公倍数的频率Fpcm过度取样(图2b中步骤53);并且
a′2)对过度取样的子帧应用低通过率过滤(图2b中步骤54),然后再由不足取样获得一个与第二取样频率相对应的取样频率(图2b中步骤55)。
上述过程继续执行,优选地通过一个阈值方法,从E的脉冲中合适地选取并获得一些位置,可能是一些数量变化的位置(步骤56),如上述第一个实施例所述。
*取样频率相同但子帧持续时间不同
在取样频率相同但子帧持续时间不同的情况下该过程被执行,如下所述。这种情况对应于图2中判断步骤23的结果为否定,但判断步骤22的结果为“o”。适应步骤a)就被应用于图2的步骤33。
在上述的情况下,邻域提取步骤不能被直接应用。首先需要使得两个子帧相适应。这里的子帧的尺寸不同。对于这样的不同,与所述串接(tandem)所进行的计算脉冲位置的处理不同的是,一个优选的实施例提供了一种低复杂性的解决方案,其从第一格式的脉冲位置对第二格式的脉冲确定一个位置组合的受限路径。但是,S的子帧和E的子帧并不是同样的尺寸,不能在S的子帧和E的子帧之间建立一个直接的、临时的对应。如图4所示(其中E和S的子帧分别被指定为STE和STS),两种格式的子帧的分界线并不对准(aligned),并且随着时间变动两个子帧相互移动(shift)。
在一个优选的实施例中,提出将E的激励分割为伪子帧,其尺寸为S的尺寸并以S的时间比率(timing rate)为基准。在图5中该伪子帧被表示为STE′。在实践中,这相当于,考虑子帧尺寸的差异,相对于E和S的一共同原点来对准其位置,在两个格式之间建立一个临时的对应。下面将详细地描述如何确定两者的共同原点(common origin)。
相对于那个原点(origin),第一格式(对应地,第二格式)的一个位置p0 e(对应地,p0 s)与相对于那个子帧的E(对应地,S)的子帧ie(对应地,js)的位置pe(对应地,ps)相一致。于是:
p0 e=pe+ieLe and p0=ps+jsLs with 0≤pe<Le and 0≤ps<Ls
对于E的格式的子帧ie的一个位置pe,存在对应的S的格式的子帧js的位置ps,ps和js分别是相对于E和S的一共同原点O的pe的位置p0 e被Ls进行欧几里得除法得到的余数和商:
且有0≤pe<Le and 0≤ps<Ls
其中,表示取整,≡表示取模,E(对应地,S)的子帧的索引相对于共同原点O给定。
因此,在一个子帧js的位置pe被用来通过上述描述的通用过程对子帧js内的S的脉冲确定位置的一个受限全集。但是,如果Le>Ls,则S的子帧可能不包括任何脉冲。在图6所示的例子中,子帧STE0的脉冲用垂直线表示。E的格式可以在该子帧的末尾高度集中子帧STE0,而在这种情况下,伪子帧STE’0不包含任何脉冲。基于除法,所有由E设置的脉冲都在STE’1中被发现。在这样的例子中,优选地,一个传统的聚焦搜索被应用于所述伪子帧STE’0。
用于确定两个格式的共同的时间原点的优选实施例将在下面描述。该共同的参照(reference)构成所述位置(数量0),从该位置起脉冲的位置在随后的子帧内被编号。该位置0可以根据实现本发明的编码转换方法的系统,通过多种方式定义。例如,对于一个包括在一个传播系统设备内的编码转换模块,其将自然地取该设备启动后所收到的第一个帧的第一个位置作为原点。
但是,上述选择的缺点是这些位置占用了大量的值,有必要对其作出限制。为了这个目的,一旦可能,其足以更新共同原点的位置。因此,如果E和S的子帧的各自的长度Le和Ls对于时间是不变的,则共同原点的位置在每次E和S的子帧分界线对准的情况下都被重置。这周期性地发生,(在样本中表示的)该周期与Le和Ls的最小公倍数相等。
这种情形在Le和/或Ls不是恒量时也可以考虑。在当前表示为Le(n)和Ls(n)时,n表示子帧号,已经不再可能找到两个子帧长度的倍数。在这样的情况下,有必要对Le(n)和Ls(n)分别求和,并对在每个子帧中获得的两个和进行比较:
每次Te(k)=Ts(k’)时,共同原点被更新(并取在k×Le或k’×Ls的位置)。两个和Te和Ts被优选地重置。
简单地讲,更加通常地,调用第一(对应地,第二)编码格式的第一(对应地,第二)子帧持续时间,当子帧持续时间不同时被执行的适应步骤在图7中描述,并且优选地如下:
a20)对具有第一和第二格式的子帧定义一个共同原点(步骤70);
a21)将具有由第一子帧持续时间标识的第一编码格式的连续的子帧划分为持续时间L’e的伪子帧,持续时间L’e与第二子帧持续时间相对应(步骤71);
a22)更新共同原点O(步骤79);
a23)在伪子帧p’e内和在具有第二格式的子帧内的脉冲位置之间确定对应(步骤80)。
为了确定共同原点O,优选地,在图7的判断步骤72中区别下述情况:
第一和第二持续时间是确定的(从判断72中得到“o”);
第一和第二持续时间是变化的(从判断72中得到“n”)。
在前一个情况中,当每次第一持续时间St(Le)和第二持续时间St(Ls)的分界线对准时(判断73应用于这些分界线),共同原点的时间位置周期性地被更新(步骤74)。
在第二种情况下,其优选的,如果:
a221)具有第一格式Te(k)的子帧的总和与具有第二格式Ts(k’)的子帧的总和各自连续完成(步骤76);
a222)上述两个总和是否相等被检测,定义一个时间来更新所述共同原点(判断77);
a223)在上述是否相等被检测后,为了将来对下一个共同原点进行检测,上述两个总和被重置(步骤78)。
现在,在子帧持续时间和取样频率不同的情况下,其足以明智地组合在上述两种情况中描述的E和S的位置间对应的算法。
*实施例
下面描述根据本发明的编码转换的3个实施例。这些实施例描述了使用综合分析的标准语音编码器内,在所提供的上述情况下的处理的应用。前两个实施例描述了取样频率和子帧持续时间相同的情况。最后一个实施例描述了子帧持续时间不同的情况。
*实施例1
第一个实施例应用于具有4脉冲的6.3kbps模式G.723.1 MP-MLQ模型和5.3kbps模式G.723.1 ACELP模型之间的智能的编码转换。
从G.723.1的高比特率向低比特率的智能编码转换使用一个具有6个或5个脉冲MP-MLQ模型,这些脉冲具有4脉冲的ACELP模型。这里所描述的实施例从MP-MLQ脉冲位置确定4个ACELP脉冲位置。
如下简要描述G.723.1编码器的操作。
ITU-T G.723.1多比特率编码器和其多脉冲字典已经在上面予以说明。足以说明一个包含8khz的240样本的G.723.1帧,并且被分割为4个每个具有60个样本的子帧。相同的限制被应用在3个多脉冲字典中任一个的任何码矢量的脉冲位置。这些位置必须都有同样的奇偶性(他们必须都是偶数或都是奇数)。60(+4)位置的子帧被分割为两个网格(grid),每个网格有32个位置。偶数格包括编号为[0、2、4、……、58(60、62)]的位置。奇数格包括[1、3、5、……、59(61、63)]的位置。对于每个比特率,尽管不是穷举的,但路径的探测仍然很复杂,如上所述。
下面描述从6.3kbps模式G.723.1MP-MLQ路径的一个元素中选择5.3kbps模式G.723.1 ACELP路径的子集。
我们的目的是通过从5.3kbps模式G.723.1 ACELP路径中的一个元素来对一个子帧的改良信号进行建模,已知在第一编码操作中确定的6.3kbps模式MP-MLQ G.723.1路径的元素。被6.3kbps模式G.723.1编码器选择的脉冲的Ne个位置(Ne=5或6)就可用。
例如,可以假设对于一个子帧,其激励被Ne=5脉冲所建模,从6.3kbps模式G.723.1编码器的位流中提取的位置如下:
e0=0;e1=8;e2=28;e3=38;e4=46;
记住,在此不需要取样频率或持续时间的适应。在这一步恢复位置ei后,一个连续步骤包括直接从这5个脉冲中提取右手和左手邻域。所述右手和左手邻域被取为等于2。所选择的位置的全集ps是:
Ps={-2,-1,0,1,2}∪{6,7,8,9,10}∪{26,27,28,29,30}∪{36,37,38,39,40}∪{44,45,46,47,48}
第三步骤包括通过取具有所述路径审定的偶数(对应地,奇数)声道的位置的4个全集的ps的Ns=4的交集(如表1所表示),对5.3kbps模式G.723.1编码器的ACELP路径的每个脉冲(在此为一个声道)组成可能位置的受限全集。
对偶数对:
S0=Ps∩{0,8,16,…,56};S1=Ps∩{2,10,18,…,58};S2=Ps∩{4,12,20,…,52,(60)};
S3=Ps∩{6,,14,22,…,54,(62)};
由此:S0={0,8,40,48};S1={2,10,26,};S2={28,36,44};S3={6,30,38,46};对奇数对:
S0=Ps∩{1,9,,…,57};S1=Ps∩{3,11,…,59};S2=Ps∩{5,13,…,53,(61)};
S3=Ps∩{7,,15,…,55,(63)};
由此:S0={1,9};S1={27};S2={29,37,45};S3={7,39,47};
这些被选择的位置的组合构成了新的受限路径,在其中所述搜索将被完成。对于这个步骤,选择优选位置的集合的过程时基于CELP标准,如在5.3kbps模式G.723.1编码器中。所述探测可以是穷举的,但优选的是聚焦。
在所述受限路径内的位置的组合的数量等于180(=4*3*3*4+2*1*3*3),而不是8192(=2*8*8*8*8)个5.3kbps模式G.723.1编码器的ACELP路径的位置的组合。
在仅仅考虑为6.3kbps模式选择奇偶性的情况下,上述组合的数量可以进一步被减小(在本例子中,其是偶数)。在这样的例子中,在受限路径内的组合的数量等于144。
取决于有关的邻域的尺寸,对于4个脉冲之一,全集ps可能不包含对于ACELP模型的一个声道的任何位置(当全集si之一为空的情况)。因此,对于尺寸为2的邻域,当Ne脉冲的位置都在同一个声道上,ps仅仅包含那个声道和临近声道的位置。在这样的例子中,取决于所需要的质量/复杂性比,其可以要么用Ti替换全集Si(相当于没有限制那个声道的位置的全集),要么增加脉冲的右手(或左手)邻域。例如,如果6.3kbps模式编码器的所有脉冲都在声道2上,右手和左手邻域等于2,则不论奇偶性,声道0将没有任何位置。然后就足以将左手和/或右手邻域的尺寸加2来向那个声道0赋予位置。
为了描述这个实施例,请考虑下述例子:
e0=4;e1=12;e2=20;e3=36;e4=52;
所选择的位置的全集Ps如下:
Ps={2,3,4,5,6}∪{10,11,12,13,14}∪{18,19,20,21,22}∪{34,35,36,37,38}∪{50,51,52,53,54}假设希望保持同样的奇偶性,对于4脉冲的这些位置的初始分割如下:
S0=空集;S1={2、10、18、34、50};S2={4、12、20、36、52};
S3={6、14、22、38、54};
通过对脉冲的左手邻域加2,我们得到:
S0={0、8、16、32、48};S1={2、10、18、34、50};
S2={4、12、20、36、52};S3={6、14、22、38、54};
(因此,在此S0≠空集)
*实施例2
接下来的第二个实施例描述了本发明在具有同样长度的ACELP模型之间进行智能编码转换的应用。特别地,该第二个实施例是应用于在具有4个8kbps模式G.729的脉冲的ACELP模型和具有2个6.4kbps模式G.729脉冲的ACELP模型之间的智能编码转换。
在G.729编码器的6.4kbps模式和8kbps模式之间进行明智的编码转换使用了一个具有2脉冲的一个ACELP路径和一个具有4脉冲的第二ACELP路径。在此描述的实施例从2脉冲(6.4kbps模式)的位置决定4脉冲(8kbps模式)的位置,同时也可以进行相反操作。
简要地描述ITU-T G.729解码器的运行。该解码器可以在3个比特率运行:6.4、8、11.8kbps。在此考虑前两个比特率。一个G.729帧包括8khz的80个样本,并且被分割为每个具有40个样本的2个子帧。对于每个子帧,G.729通过符合ACELP模型的脉冲对改良信号进行建模。其对于8kbps模式使用4脉冲,对6.4kbps模式使用2脉冲。上述的表2和表4给出了脉冲可以对这两个比特率所采用的位置。在6.4kps,一个对所有(512)位置的组合的穷举搜索被完成。在8kbps模式,优选地使用一个聚焦搜索。
本发明的通常过程在此再次被使用。但是,两个路径的共同的ACELP结构在此被探测。在位置的集合之间建立对应,探测一个分割,该分割将40个样本的子帧分割为每个具有8个位置的5个声道,如下表6所示:
声道 | 位置 |
P0 | 0、5、10、15、20、25、30、35 |
P1 | 1、6、11、16、21、26、31、36 |
P2 | 2、7、12、17、22、27、32、37 |
P3 | 3、8、13、18、23、28、33、38 |
P4 | 4、9、14、19、24、29、34、39 |
表6:在G.729ACELP字典中的将位置分为5个声道的分割。
在所述的两个路径中,脉冲的位置分享这些声道,如下表7所示。
所有的脉冲被他们的声道以及其在声道内的排列所标识。8kbps模式在第一个3个声道的每一个中设置脉冲并且最后一个脉冲设置于最后两个声道中的一个。6.4kbps模式设置其第一个脉冲于声道P1或P3,并且设置其第二个声道于声道P0、P1、P2或P4。
模式 | 脉冲 | 声道 |
6.4kbps | i0 | P1、P3 |
i1 | P0、P1、P2、P4 | |
8kbps | i0 | P0 |
i1 | P1 | |
i2 | P2 | |
i3 | P3、P4 |
表7:8kbps和6.4kbps模式的G.729 ACELP字典的脉冲分为5个声道的分布。
该实施例交叉探测声道(ISSP结构)来促使提取邻域并形成位置的受限的次全集。因此,为了从一个声道移动到另一个声道,其足以向左或向右移动一个单元。例如,在声道2的第5个位置(绝对位置22),向右移动一个单元(+1)移到声道3的第5个位置(绝对位置23),而向左移动一个单元(-1)移到声道1的第5个位置(绝对位置21)。
更通常地,±d单位的位置移动在此反映如下效果。
在声道pi的级别(level):
右手邻域:PiP(i+d)≡5
左手邻域:PiP(i-d)≡5
在声道的排列的级别:
*右手邻域:
如果(I+d)≤4:mimi
如果不是:mimi+1
*左手邻域:
如果(I-d)≥0:mimi
如果不是:mimi-1
下面描述从6.4kbps模式G.729编码器的具有2脉冲的一个ACELP路径的一个元素选择8kbps模式G.729编码器的具有4脉冲的ACELP路径的次全集(subensemble)。
考虑一个6.4kbps模式G.729子帧。由编码器设置2个脉冲,但需要确定6.4kbps模式G.729必须设置的其他脉冲的位置。为了从根本上限制复杂性,每个脉冲只有一个位置被选择并且只有一个位置组合被保留。其优点是选择步骤是迅速的。8kbps模式G.729的4个脉冲中的2个被选择于6.4kbps模式的同样的位置,此后,剩余2个脉冲被放置于前两个的直接邻域。如上所述,声道结构被探测。在通过对两个位置的二进制索引(9位)解码恢复两个位置的第一步骤中,相应的两个声道也被确定。从这两个声道(其可以相同),然后,最后三个提取邻域、组成受限次全集并选择脉冲的一个组合的步骤被联合。根据包含2个6.4kbps模式脉冲的声道Pi(i=0至4),可以区分不同的情况。
6.4kbps模式脉冲的位置表示为ek,并且8kbps模式的脉冲的位置表示为sk。下表8给出了在每种情况中所选择的位置。标记为“pj+d=pi”的列提供了处于声道级别和在声道Pi结束的邻域。在声道Pi级别:
*对右手邻域:PiP(i+d)≡5;
*对左手邻域:PiP(i-d)≡5。
e0(Track) | e1(Track) | s0 | s1 | s2 | s3 | ||||||
Pos | P1+d=p0 | Pos | P1+d=P1 | Pos | Pi+d=P2 | Pos | Pi+d=P3/P4 | ||||
P1 | e0=e1 | P1 | e1-1 | P1-1 | E1 | P1 | e1+1 | P1+1 | e1+2 | P1+2 | |
e0≠e1 | e0-1 | P1-1 | E0 | P1 | e1+1 | P1+1 | e1+2 | P1+2 | |||
P1 | P0 | e1 | P0 | E0 | P1 | e0+1 | P1+1 | e1-1(1) | P0 (1)-1 | ||
P1 | P2 | e0-1 | P1-1 | E0 | P1 | e1 | P2 | e1+1 | P2+1 | ||
P1 | P4 | e1+1(2) | P4 (2)+1 | E0 | P1 | e0+1 | P1+1 | e1 | P4 | ||
P3 | P0 | e1 | P0 | E1+1 | P0+1 | e0-1 | P3-1 | e0 | P3 | ||
P3 | P1 | e1-1 | P1-1 | E1 | P1 | e0-1 | P3-1 | e0 | P3 | ||
P3 | P2 | e0+2(3) | P3 (3)+2 | E1-1 | P2-1 | e1 | P2 | e0 | P3 | ||
P3 | P4 | e1+1(4) | P4 (4)+1 | E0-2 | P3-2 | e0-1 | P3-1 | e1 | P4 |
表8:从6.4kbps模式G.729 ACELP路径的2个脉冲选择8kbps模式G.729受限路径。
我们的目标是,优选地,平衡相对于2个起始位置的4个位置的分布,尽管可以作出不同的选择。4种情况被提出(表8内的括号内的指数来指示)来解决边缘效应问题:
情况(1):如果e1=0,不能取s3=e1-1,所以选择s3=e0+2;
情况(2):如果e1=39,不能取s0=e1+1,所以选择s0=e0-1;
情况(3):如果e1=38,不能取s0=e0+2,所以选择s0=e1-2;
情况(4):如果e1=39,不能取s0=e1+1,所以选择s0=e0-3。
为了进一步降低复杂性,每个脉冲sk的信号可以取与由其导出的脉冲ej相等的值。
下面描述从具有4脉冲的8kbps模式G.729 ACELP路径的一个元素选择具有2脉冲的6.4kbps模式G.729 ACELP路径的一个次全集。
对于一个8kbps模式G.729子帧,第一步骤是恢复由8kbps模式生成的4个脉冲的位置。对这些4位置的二进制索引(13位)进行解码产生了对于第一3个位置(声道0至2)的在其各自声道内的排列,以及4脉冲的声道(3或4)以及在该声道内的排列。每个位置ei(0≤i<4)由一对(Pi,mi)所标识,其中pi是其声道的索引而mi是在该声道内的排列。我们有:
ei=5mi+pi
且,对于I<3且p3=3或4,0≤mi<8且Pi=i
如同已经阐述的,邻域的提取和受限次全集组成被组合并且利用两个路径的共同ISSP结构。具有5个声道pj的4个位置的邻域的全集ps的5个交集T’j,通过利用由隔行扫描声道所感应产生的临近位置的特征而构建:
T’j=ps ∩pj
因此,如果p<4,则脉冲(p,m)的+1(对应地,-1)的一个右手(对应地,左手)邻域属于T’p+1(相应地,如果p>0,则属于T’p-1),如果不是(p=4)则在m<7(对应地,则在m>0的情况下属于T’4(I=0))的情况下属于T’0。对于属于第4个声道的第4个脉冲的位置,对右手邻域(对应地,对于第一个声道的一个位置的左手邻域)的限制保证临近位置不在子帧之外。
因此,使用模5的符号(≡5),脉冲(p,m)的+1(对应地,-1)的一个右手(对应地,左手)邻域属于T’(p+1)≡5(对应地,T’(p-1)≡5)。需要注意的是,有必要考虑边缘效应。概括到一个邻域的尺寸d,脉冲(p,m)的+d(对应地,-d的左手邻域)的一个右手邻域属于T’(p+d)≡5(对应地,T’(p-d)≡5)。如果p+d≤4(或者p-d≥0),则±d的邻域的排列等于m,否则对于一个右手邻域增加排列m,对于一个左手邻域减小排列m。考虑边缘效应相当于保证如果p+d>4则m<7,以及如果p-d<0,则m>0。
从在所述5个声道内的邻域的分布开始,确定两个脉冲的位置的次全集S0和S1是非常简单的事情:
S0=T′1∪T′3 and S1=T′0∪T′1∪T′2∪T′4
第4个和最后一个步骤包括在所获得的两个次全集种搜索最优的配对。所述搜索算法(类似于利用声道结构的标准算法)和脉冲的声道对声道存储再一次简化了搜索算法。在实施例中,因为全集T’j可以单独使用,所以没有直接构建受限次全集S0和S1的应用。
在下述的例子中,4个8kbps模式G.729脉冲被放置在如下位置:
e0=5;e1=21;e2=22;e3=34。
这4个位置由4对标识:
(pi,mi)=(0,1),(1,4),(2,4),(4,6)
取一个确定的邻域等于1,所述的5个交集T’j按照如下构建:
e0:(0,1)产生:(4,0)在左边和(1,1)在右边
e1:(1,4)产生:(0,4)在左边和(2,4)在右边
e2:(2,4)产生:(1,4)在左边和(3,4)在右边
e3:(4,6)产生:(3,6)在左边和(0,7)在右边
于是我们有:
T’0={(0,1),(0,4),(0,7)}
T’1={(1,4),(1,1)}
T’2={(2,4)}
T’3={(3,4),(3,6)}
T’4={(4,6),(4,0)}
转换为位置符号:
T’0={5,20,35}
T’1={21,6}
T’2={22}
T’3={23,33}
T’4={34,4}
在最后一步,一个与G.7296.4kbps模式的算法类似的算法完成对脉冲的最佳配对的搜索。在此,该算法没有那么复杂,因为待探测的位置的组合的数量很小。在本例子中,待检测的组合的数量为4(纯数(T’1)+纯数(T’3))乘上8(纯数(T’0)+纯数(T’1)+纯数(T’2)+纯数(T’4)),也就是说,32个组合而不是512个。
对于尺寸为1的邻域,位置组合的少于8%平均被探测,不超过10%(50个组合)。对于尺寸为2的邻域,位置组合的少于17%平均被探测,最多不超过25%。对于尺寸为2的邻域,对于同样质量的穷举搜索,本发明(将搜索受限路径的开销以及提取相关交集组合的邻域的开销予以总体考虑)所提出的方法的复杂性小于30%。
*实施例3
最后一个实施例描述在8kbps模式G.729 ACELP模型和6.3kbps模式G.723.1 MP-MLQ模型之间的转换。
在G.723.1(6.3kbps模式)与G.729(8kbps模式)之间的脉冲的智能编码转换存在两个难题。首先,帧的尺寸不同(对于G.729为40个样本,而对于G.723.1为60个样本)。第二个难题与字典的结构不同有关(对于G.729为ACELP类型,而对于G.723.1为MP-MLQ类型)。这里所描述的实施例显示本发明如何解决这两个问题以便在保证编码转换质量的同时以小的开销对脉冲进行编码转换。
首先,在两个格式的位置之间建立一个临时对应,考虑子帧的尺寸区别来相对于E和S的一个共同原点对准所述位置。G.729和G.723.1子帧长度有一个最小公倍数120,临时对应通过120个样本的块组建,也就是说,对应3个G.729子帧存在2个G.723.1子帧,如表4b的例子。可选地,也可以在帧的整块上工作。在这样的例子中,选择了240个样本的块,也就是说,对于每3个G.729帧(6个子帧)存在1个G.723.1帧(4个子帧)。
下面描述从具有4脉冲的8kbps模式G.729 ACELP路径的单元中选择6.3kbps模式G.723.1 MP-MLQ路径的次全集。第一步包括通过3个G.729子帧(具有索引ie,0≤ie≤2)的块恢复脉冲位置。在子帧ie内的块的位置表示为pe(ie)。
在邻域提取之前,上述12个位置pe(ie)被转换为分成2个G.723.1子帧(索引js,0≤js≤1的)的12个位置ps(js)。上述通用等式可以被用来(包括子帧长度的模数(modulus))完成对子帧持续时间的适应。但是,在此优选地根据索引ie的值来区分三种情况:
如果ie=0,则js=0并且ps=pe;
如果ie=2,则js=1并且ps=pe+20;
如果ie=1,则如果pe<20,则js=0并且ps=pe+40;
如果否(pe≥20),则js=1并且ps=pe-20。
于是,没有任何除法和没有任何运算的模数n被影响。
在上述块的子帧STE0内恢复的4个位置是直接分配给具有同样位置的子帧STS0,在上述块的子帧STE2内恢复的位置直接分配给具有+20增量的位置的子帧STS1,在20以下的子帧STE1的位置被分配给具有40增量的位置的子帧STS0,其余的被分配给具有-20增量的子帧STE1。
然后,这12个位置的邻域被提取。需要注意的是,从他们的子帧中提取的子帧STE0(对应地,STS1)的位置的右手(对应地,左手)邻域可以被审定,这些邻近的位置处在子帧STS 1(对应地,STS0)中。
上述临时对应和邻域提取的步骤是可以交互的。在这样的情况下,从他们的子帧中提取的子帧STE0(对应地,STE2)的位置的右手(对应地,左手)邻域可以被审定(authorized),这些邻近的位置处在子帧STS1中。类似地,在STE1中的位置的右手(对应地,左手)邻域可以导致在STE2(对应地,STE0)中的邻近位置。
一旦对每个子帧STS的受限位置的全集被构建,则由探测受限路径所组成的最后步骤以这样的方式对于每个子帧STS来选择具有同样奇偶性的Np(=6或5)脉冲。这个过程可以源于标准算法,或者从其他聚焦过程中得到启示。
为了描述这个实施例,考虑可以被用来构建2个G.723.1子帧的子路径的3个G.729子帧。假设G.729产生下列位置:
STE0:e00=5;e01=1;e02=3;e03=39;
STE1:e10=15;e1=31;e12=22;e13=4;
STE2:e20=0;e21=1;e22=37;e23=24。
在应用上述临时对应的步骤后,将这12个位置赋予子帧STS0和STS1如下:
STS0:s00=5;s01=1;s02=32;s03=39(s0k=e0k);
STS0:s’1=55;s’13=44(s’0k=e1k+40,如果e1k<20);
STS1:s’11=11;s’12=2(s’1k=e1k-20,如果e1k≥20);
STS1:s20=20;s21=21;s22=57;s23=44(s0k=e2k+20)。
于是,对于子帧STS0我们得到位置{1、5、32、39、44、55}的集合,对于子帧STS 1我们得到{2、11、20、21、44、57}。
在这个阶段,有必要提取邻域。取邻域为确定的1,则我们得到:
Ps0={0,1,2}∪{4,5,6}∪{31,32,33}∪{38,39,40}∪{43,44,45}∪{54,55,56}
Ps1={1,2,3}∪{10,11,12}∪{20,21,22}∪{21,22,23}∪{43,44,45}∪{56,57,58}
MP-MLQ对脉冲没有任何限制,除了奇偶性之外。基于一个子帧,他们必须都具有同样的奇偶性。因此,有必要将Ps0和Ps1分割为如下的两个次全集:
Ps0:{0、2、4、6、32、40、44、54、56}且{1、5、31、33、39、43、35、55}
Ps1:{2、10、12、20、22、44、56}且{1、3、11、21、23、43、45、57}
最后,这个子路径被传送给选择算法,该算法对于所述G.723.1子帧FTS0以及(et)STS1,以CELP标准来确定Np个最好的位置。这显著减少需要测试的组合的数量。例如,在子帧STS0中剩余了9个偶数位置和8个奇数位置,而不是30个偶数位置和30个奇数位置。
在由G.729所选择的位置是邻域的提取产生的可能的位置N低于G.723.1的位置的数量(N<Np)情况下,适当的预防还是需要的。特别是如果G.729的位置都是顺次的(例如:{0、1、2、3})。接下来,有两种选择:
要么对每个相关的子帧增加邻域的尺寸直到对于Ps获得了足够的尺寸(尺寸≥Np);
或者如上所述,选择第一N个脉冲,并且对于剩余的Np-N个脉冲,在网格内的30-N个剩余位置内执行一次搜索。
相反的处理过程,包括从一个6.3kbps模式G.723.1 MP-MLQ路径中选择一个具有4脉冲的8kbps模式G.729 ACELP路径的次全集,将在下面描述。
总之,过程是类似的。2个G.723.1子帧与3个G.729子帧相对应。再一次地,所述G.723.1位置被提取并被转换为G.729时间帧(time frame)。这些位置可以进一步地被转换为“声道-声道中的排列”的形式以便如以前一样从ACELP结构来在提取邻域以及搜索最佳位置的过程中受益。
与之前系统同样的设置被采用来防止邻域提取产生不足够的位置数量(在此少于4个位置)的情况。
于是,本发明以较低成本从一个第一脉冲集合中确定脉冲集合的位置,脉冲的两个集合属于两个多脉冲路径。这两个路径可以通过他们的尺寸、长度和他们的码字的脉冲数量,以及管理这些脉冲的位置和/或振幅的规则来区分。对于在第一路径中的所选择集合的脉冲的位置的邻域,给定了优先选择以确定在第二路径内的一个集合的脉冲的位置的邻域。本发明进一步利用起点和/或目标路径的结构来减小复杂性。从以上所描述的,需要从一个MP-MLQ模型转换为一个ACELP模型的第一个实施例中,可以清楚地知道本发明很容易应用于具有不同结构限制的两个多脉冲模型。从需要在两个基于同样的ACELP结构但具有不同脉冲数量的模型中传输信号的第二个实施例中,可以清楚地知道本发明进一步利用路径的结构来降低复杂性。从需要在一个MP-MLQ模型与一个ACELP模型间传输信号的第三个实施例中,可以清楚地知道,本发明甚至可以应用于具有不同子帧长度或取样频率的编码器。本发明校正了质量/复杂性比,尤其是与一个对多脉冲模型进行的传统搜索相比在一个最低退化下大大降低了计算复杂性。
Claims (23)
1.一种在一个第一压缩编解码器与一个第二压缩编解码器之间的编码转换方法,所述第一和第二编解码器是脉冲类型,并且使用多脉冲字典,在该字典中每个脉冲都有一个由相应索引标识的位置,其特征在于,所述方法包括如下步骤:
a)需要时,使编码参数在所述第一和第二编解码器之间匹配;
b)从所述第一编解码器获得一选择数量(Ne)的脉冲位置以及与其伴生的各个位置索引(ei);
c)对给定索引的每个当前脉冲位置,形成一组脉冲位置,至少包括所述当前脉冲位置和具有伴生的该给定索引直接向下或直接向上的索引的所述脉冲位置;
d)在步骤c中形成的所述组的并集(union)所构成的一个全集(Ps)内选择至少部分所述脉冲位置,作为一个被所述第二编解码器所接受的脉冲位置(Tj)的函数;
e)将所选择的脉冲位置发送至用于从所发送的位置进行编码/解码的第二编解码器;
所述选择步骤d)包括许多脉冲位置,所述脉冲位置的数量少于所述第二编解码器的字典内的脉冲位置的总数。
2.根据权利要求1所述的方法,其中,所述第一编解码器(E)在第一编码格式中使用一个第一数量个脉冲,其特征在于,在步骤b)中被选择的所述数量(Ne)与脉冲位置的所述第一数量相对应。
3.根据权利要求2所述的方法,其中:
所述第一编解码器(E)在第一编码格式中使用一个第一数量(Ne)个脉冲位置;
所述第二编解码器(E)在第二编码格式中使用一个第二数量(Ns)个脉冲位置;
其特征在于,所述方法进一步包括一个在下述两种情况之间区别的步骤:
所述第一数量(Ne)不小于所述第二数量(Ns);以及
所述第一数量(Ne)小于所述第二数量(Ns)。
4.根据权利要求3所述的方法,其中,所述第一数量(Ne)不小于所述第二数量(Ns)(Ne≥Ns),其特征在于,每个在步骤c)中形成的组包括给定索引的所述当前脉冲位置的右手邻近脉冲位置(vi d)和左手邻近脉冲位置(vi g),以及左手和右手邻近脉冲位置的数量作为一个复杂性/编码转换质量对比的函数被选择。
5.根据权利要求4所述的方法,其特征在于,在步骤d)中构建了一个根据如下内容的交集(Sj)得到的脉冲位置的组合的子路径:
由在步骤c)中形成的所述组的一个并集构建的一个全集(Ps);
由所述第二编解码器所接受的脉冲位置(Tj),以便所述子路径有一个小于被所述第二编解码器所接受的脉冲位置(Tj)组合的数量的尺寸。
6.根据权利要求5所述的方法,其特征在于,在步骤e)之后,所述子路径被搜索来查找位置的一个最佳集合,该集合包括在所述第二编码器(S)级别的所述第二数量(Ns)的位置。
7.根据权利要求6所述的方法,其特征在于,搜索位置的最佳集合的步骤通过一个聚焦搜索(focused search)来完成以加速对所述子路径的探测。
8.根据前述权利要求中的任一个所述的方法,其中,所述第一编解码器被用来传送一系列的编码帧,其特征在于,在步骤c)中形成的组中的脉冲位置的各自数量被从一个帧到另一个帧连续地选择。
9.根据权利要求3所述的方法,其中,所述第一数量(Ne)少于所述第二数量(Ns)(Ne<Ns),其特征在于,一个进一步的判断被执行来确定第二数量(Ns)个脉冲位置提供的脉冲位置是否包括在步骤c)中形成的所述组的脉冲位置中,并且当所述判断的结果是否定时,在步骤c)中形成的所述组中的脉冲位置的数量被增加。
10.根据权利要求3所述的方法,其特征在于,其进一步区别处理所述第二数量Ns在第一数量Ne与2倍的第一数量Ne的范围之间(Ne<Ns<2Ne)的情况,且如果是这种情况,则:
c1)从开始(outset)选择所述Ne个脉冲位置;
c2)在定义于步骤c1)中所选择的脉冲位置的直接邻域内进一步选择补充数量个脉冲位置Ns-Ne。
11.根据前述权利要求中的任一项所述的方法,其中,所述第一编解码器以一个给定的第一取样频率以及来自一个给定的第一子帧的持续时间运行,其特征在于,在步骤a)中进行匹配的所述编码参数,包括一个子帧持续时间和一个取样频率;以及所述第二编解码器以一第二取样频率和一第二子帧的持续时间运行,且其特征在于,在步骤a)中区分下述4种情况:
所述第一和第二持续时间相等并且所述第一和第二频率相等;
所述第一和第二持续时间相等并且所述第一和第二频率不同;
所述第一和第二持续时间不同并且所述第一和第二频率相等;
所述第一和第二持续时间不同并且所述第一和第二频率不同。
12.根据权利要求11所述的方法,其中,所述第一和第二持续时间相等且所述第一和第二取样频率不同,其特征在于,包括步骤:
a1)从第一频率向第二频率直接量化时间比例(direct time scalequantization);以及
a2)从一个具有由所述第一取样频率标识的第一编码格式的子帧内的脉冲位置,确定,作为一个在一个具有由所述第二取样频率标识的第二编码格式的子帧内的每个脉冲位置的所述量化的函数。
13.根据权利要求12所述的方法,其特征在于,所述量化步骤a1)通过在一个函数的基础上计算和/或制表来完成,所述函数在一个具有第一个格式(pe)的一个子帧内的脉冲位置建立与具有第二格式(ps)的子帧内的一个脉冲位置的关系,所述函数主要采取一个线性函数的形式,该线性函数包括一个与第二取样频率和第一取样频率比值相应的乘数系数。
14.根据权利要求13所示的方法,其特征在于,为了反方向传送一个具有第二格式(ps)的一个子帧内的脉冲位置至一个具有第一格式(pe)的一个子帧内的脉冲位置,反函数应用到上述应用于具有第二格式(ps)的一个子帧内的一个脉冲位置的线性函数。
15.根据权利要求11所述的方法,其中,第一和第二持续时间相等且第一和第二取样频率不同,其特征在于,包括如下步骤:
a’1)在一个与第一和第二取样频率的最小公倍数相等的频率,对由第一取样频率标识的具有第一编码格式的一个子帧过度取样(oversampling);
a’2)向上述过度取样所获得的子帧应用低通过率(low-pass)过滤(filtering),该过滤后跟随不足取样,以获得一个与第二取样频率相对应的取样频率。
16.根据权利要求15所述的方法,其特征在于,所述方法通过一个阈值(thresholding)方法获得许多位置的方式,需要时,继续可变数量的位置。
17.根据权利要求12所述的方法,其特征在于,进一步包括一个为由第一取样频率标识的具有第一编码格式的子帧的一个脉冲的每个位置(pe)建立对应关系的步骤,所述位置(pe)属于由第二取样频率标识的具有第二编码格式的一个子帧内的一组脉冲位置(ps)中,每个组包括许多位置且所述位置是第二取样频率和第一取样频率的比值(Fs/Fe)的函数。
18.根据权利要求11所述的方法,其中,第一和第二子帧持续时间不同,其特征在于,其包括如下步骤:
a20)对具有第一和第二格式的子帧定义一个共同原点(O);
a21)将由第一子帧持续时间标识的第一编码格式连续的子帧划分来形成与第二子帧持续时间相适应的持续时间的伪子帧;
a22)更新所述共同原点;
a23)在伪子帧p’e中的脉冲位置和具有第二格式的子帧中的脉冲位置之间确定对应(correspondence)关系。
19.根据权利要求18所述的方法,其特征在于,其也区分如下情况:
所述第一和第二持续时间被实时地(in time)确定;
所述第一和第二持续时间被实时改变。
20.根据权利要求19所述的方法,其中,第一和第二持续时间被实时确定,其特征在于,只要第一和第二持续时间的各个子帧的边界被实时地调整(aligned)则所述共同原点的实时位置周期性地更新。
21.根据权利要求19所述的方法,其中,第一和第二持续时间实时改变,其特征在于:
a221)具有第一格式的子帧的所述持续时间和具有第二格式的子帧的所述持续时间的各自的总和被连续地完成;
a222)上述两个总和是否相等被检测,以定义更新所述共同原点的一个时间;
a223)在上述是否相等被检测后,为了将来对下一个共同原点进行检测,上述两个总和被重置。
22.一种软件产品,存储于一个处理单元,特别是一计算机或一移动终端的存储器内,或在一个被用来与一个所述处理单元的读取器配合的可移除存储介质内,其特征在于,所述软件产品包括用于执行根据前述任一权利要求所述的编码转换方法的指令。
23.一种在一第一压缩编解码器和一第二压缩编解码器间进行编码转换的系统,所述第一和第二编解码器是脉冲类型,且使用多脉冲字典,在所述字典中每个脉冲有一个由相应索引标识的位置,其特征在于,所述系统包括一个存储器,用来存储根据权利要求22所述的一个软件产品的指令。
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
FR0314489A FR2867648A1 (fr) | 2003-12-10 | 2003-12-10 | Transcodage entre indices de dictionnaires multi-impulsionnels utilises en codage en compression de signaux numeriques |
FR0314489 | 2003-12-10 | ||
PCT/FR2004/003008 WO2005066936A1 (fr) | 2003-12-10 | 2004-11-24 | Transcodage entre indices de dictionnaires multi-impulsionnels utilises en codage en compression de signaux numeriques |
Publications (2)
Publication Number | Publication Date |
---|---|
CN1890713A true CN1890713A (zh) | 2007-01-03 |
CN1890713B CN1890713B (zh) | 2010-12-08 |
Family
ID=34746280
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN2004800366046A Expired - Fee Related CN1890713B (zh) | 2003-12-10 | 2004-11-24 | 用于数字信号压缩编码的多脉冲字典的索引间的编码转换的方法及系统 |
Country Status (12)
Country | Link |
---|---|
US (1) | US7574354B2 (zh) |
EP (1) | EP1692687B1 (zh) |
JP (1) | JP4970046B2 (zh) |
KR (1) | KR101108637B1 (zh) |
CN (1) | CN1890713B (zh) |
AT (1) | ATE389933T1 (zh) |
DE (1) | DE602004012600T2 (zh) |
ES (1) | ES2303129T3 (zh) |
FR (1) | FR2867648A1 (zh) |
MX (1) | MXPA06006621A (zh) |
PL (1) | PL1692687T3 (zh) |
WO (1) | WO2005066936A1 (zh) |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2008134974A1 (fr) * | 2007-04-29 | 2008-11-13 | Huawei Technologies Co., Ltd. | Procédé de codage et de décodage, codeur et décodeur |
WO2010145474A1 (zh) * | 2009-06-19 | 2010-12-23 | 华为技术有限公司 | 脉冲编码方法及装置、脉冲解码方法及装置 |
CN101295506B (zh) * | 2007-04-29 | 2011-11-16 | 华为技术有限公司 | 脉冲编解码方法及脉冲编解码器 |
US10446164B2 (en) | 2010-06-24 | 2019-10-15 | Huawei Technologies Co., Ltd. | Pulse encoding and decoding method and pulse codec |
Families Citing this family (14)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
FR2867649A1 (fr) * | 2003-12-10 | 2005-09-16 | France Telecom | Procede de codage multiple optimise |
WO2006024977A1 (en) * | 2004-08-31 | 2006-03-09 | Koninklijke Philips Electronics N.V. | Method and device for transcoding |
FR2880724A1 (fr) * | 2005-01-11 | 2006-07-14 | France Telecom | Procede et dispositif de codage optimise entre deux modeles de prediction a long terme |
US20060262851A1 (en) * | 2005-05-19 | 2006-11-23 | Celtro Ltd. | Method and system for efficient transmission of communication traffic |
KR100918377B1 (ko) * | 2006-05-30 | 2009-09-22 | 주식회사 메디슨 | 영상압축 방법 |
US8214200B2 (en) * | 2007-03-14 | 2012-07-03 | Xfrm, Inc. | Fast MDCT (modified discrete cosine transform) approximation of a windowed sinusoid |
EP2045800A1 (en) * | 2007-10-05 | 2009-04-08 | Nokia Siemens Networks Oy | Method and apparatus for transcoding |
US8738679B2 (en) * | 2009-07-03 | 2014-05-27 | Stmicroelectronics International N.V. | Offset-free sinc interpolator and related methods |
US8805697B2 (en) * | 2010-10-25 | 2014-08-12 | Qualcomm Incorporated | Decomposition of music signals using basis functions with time-evolution information |
CN102623012B (zh) * | 2011-01-26 | 2014-08-20 | 华为技术有限公司 | 矢量联合编解码方法及编解码器 |
CN103946918B (zh) * | 2011-09-28 | 2017-03-08 | Lg电子株式会社 | 语音信号编码方法、语音信号解码方法及使用其的装置 |
US8731081B2 (en) * | 2011-12-07 | 2014-05-20 | Motorola Mobility Llc | Apparatus and method for combinatorial coding of signals |
WO2019028602A1 (zh) * | 2017-08-07 | 2019-02-14 | 深圳市汇顶科技股份有限公司 | 应用于超取样转换器的向量量化数模转换电路 |
CN114598558B (zh) * | 2022-03-28 | 2023-10-31 | 厦门亿联网络技术股份有限公司 | 音频设备级联自修复系统及自修复方法 |
Family Cites Families (17)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP3109594B2 (ja) * | 1998-08-18 | 2000-11-20 | 日本電気株式会社 | 移動通信システムおよび移動端末接続方法 |
US6604070B1 (en) * | 1999-09-22 | 2003-08-05 | Conexant Systems, Inc. | System of encoding and decoding speech signals |
US7222070B1 (en) * | 1999-09-22 | 2007-05-22 | Texas Instruments Incorporated | Hybrid speech coding and system |
US7315815B1 (en) * | 1999-09-22 | 2008-01-01 | Microsoft Corporation | LPC-harmonic vocoder with superframe structure |
FR2802329B1 (fr) * | 1999-12-08 | 2003-03-28 | France Telecom | Procede de traitement d'au moins un flux binaire audio code organise sous la forme de trames |
US6687668B2 (en) * | 1999-12-31 | 2004-02-03 | C & S Technology Co., Ltd. | Method for improvement of G.723.1 processing time and speech quality and for reduction of bit rate in CELP vocoder and CELP vococer using the same |
US6704703B2 (en) * | 2000-02-04 | 2004-03-09 | Scansoft, Inc. | Recursively excited linear prediction speech coder |
JP4231987B2 (ja) * | 2001-06-15 | 2009-03-04 | 日本電気株式会社 | 音声符号化復号方式間の符号変換方法、その装置、そのプログラム及び記憶媒体 |
US7272555B2 (en) * | 2001-09-13 | 2007-09-18 | Industrial Technology Research Institute | Fine granularity scalability speech coding for multi-pulses CELP-based algorithm |
US6829579B2 (en) * | 2002-01-08 | 2004-12-07 | Dilithium Networks, Inc. | Transcoding method and system between CELP-based speech codes |
WO2003058407A2 (en) * | 2002-01-08 | 2003-07-17 | Dilithium Networks Pty Limited | A transcoding scheme between celp-based speech codes |
JP4304360B2 (ja) * | 2002-05-22 | 2009-07-29 | 日本電気株式会社 | 音声符号化復号方式間の符号変換方法および装置とその記憶媒体 |
JP4238535B2 (ja) * | 2002-07-24 | 2009-03-18 | 日本電気株式会社 | 音声符号化復号方式間の符号変換方法及び装置とその記憶媒体 |
CN1703736A (zh) * | 2002-10-11 | 2005-11-30 | 诺基亚有限公司 | 用于源控制可变比特率宽带语音编码的方法和装置 |
US7363218B2 (en) * | 2002-10-25 | 2008-04-22 | Dilithium Networks Pty. Ltd. | Method and apparatus for fast CELP parameter mapping |
US7523032B2 (en) * | 2003-12-19 | 2009-04-21 | Nokia Corporation | Speech coding method, device, coding module, system and software program product for pre-processing the phase structure of a to be encoded speech signal to match the phase structure of the decoded signal |
US7177804B2 (en) * | 2005-05-31 | 2007-02-13 | Microsoft Corporation | Sub-band voice codec with multi-stage codebooks and redundant coding |
-
2003
- 2003-12-10 FR FR0314489A patent/FR2867648A1/fr active Pending
-
2004
- 2004-11-24 KR KR1020067011552A patent/KR101108637B1/ko not_active IP Right Cessation
- 2004-11-24 ES ES04805537T patent/ES2303129T3/es active Active
- 2004-11-24 AT AT04805537T patent/ATE389933T1/de not_active IP Right Cessation
- 2004-11-24 EP EP04805537A patent/EP1692687B1/fr not_active Not-in-force
- 2004-11-24 US US10/582,126 patent/US7574354B2/en not_active Expired - Fee Related
- 2004-11-24 MX MXPA06006621A patent/MXPA06006621A/es active IP Right Grant
- 2004-11-24 WO PCT/FR2004/003008 patent/WO2005066936A1/fr active IP Right Grant
- 2004-11-24 CN CN2004800366046A patent/CN1890713B/zh not_active Expired - Fee Related
- 2004-11-24 JP JP2006543573A patent/JP4970046B2/ja not_active Expired - Fee Related
- 2004-11-24 DE DE602004012600T patent/DE602004012600T2/de active Active
- 2004-11-24 PL PL04805537T patent/PL1692687T3/pl unknown
Cited By (17)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US9225354B2 (en) | 2007-04-29 | 2015-12-29 | Huawei Technologies Co., Ltd. | Coding method, decoding method, coder, and decoder |
US10153780B2 (en) | 2007-04-29 | 2018-12-11 | Huawei Technologies Co.,Ltd. | Coding method, decoding method, coder, and decoder |
WO2008134974A1 (fr) * | 2007-04-29 | 2008-11-13 | Huawei Technologies Co., Ltd. | Procédé de codage et de décodage, codeur et décodeur |
CN101295506B (zh) * | 2007-04-29 | 2011-11-16 | 华为技术有限公司 | 脉冲编解码方法及脉冲编解码器 |
US10666287B2 (en) | 2007-04-29 | 2020-05-26 | Huawei Technologies Co., Ltd. | Coding method, decoding method, coder, and decoder |
US10425102B2 (en) | 2007-04-29 | 2019-09-24 | Huawei Technologies Co., Ltd. | Coding method, decoding method, coder, and decoder |
US9912350B2 (en) | 2007-04-29 | 2018-03-06 | Huawei Technologies Co., Ltd. | Coding method, decoding method, coder, and decoder |
US9444491B2 (en) | 2007-04-29 | 2016-09-13 | Huawei Technologies Co., Ltd. | Coding method, decoding method, coder, and decoder |
US8988256B2 (en) | 2007-04-29 | 2015-03-24 | Huawei Technologies Co., Ltd. | Coding method, decoding method, coder, and decoder |
US8294602B2 (en) | 2007-04-29 | 2012-10-23 | Huawei Technologies Co., Ltd. | Coding method, decoding method, coder and decoder |
CN101931414A (zh) * | 2009-06-19 | 2010-12-29 | 华为技术有限公司 | 脉冲编码方法及装置、脉冲解码方法及装置 |
US8723700B2 (en) | 2009-06-19 | 2014-05-13 | Huawei Technologies Co., Ltd. | Method and device for pulse encoding, method and device for pulse decoding |
US10026412B2 (en) | 2009-06-19 | 2018-07-17 | Huawei Technologies Co., Ltd. | Method and device for pulse encoding, method and device for pulse decoding |
WO2010145474A1 (zh) * | 2009-06-19 | 2010-12-23 | 华为技术有限公司 | 脉冲编码方法及装置、脉冲解码方法及装置 |
CN101931414B (zh) * | 2009-06-19 | 2013-04-24 | 华为技术有限公司 | 脉冲编码方法及装置、脉冲解码方法及装置 |
US9349381B2 (en) | 2009-06-19 | 2016-05-24 | Huawei Technologies Co., Ltd | Method and device for pulse encoding, method and device for pulse decoding |
US10446164B2 (en) | 2010-06-24 | 2019-10-15 | Huawei Technologies Co., Ltd. | Pulse encoding and decoding method and pulse codec |
Also Published As
Publication number | Publication date |
---|---|
FR2867648A1 (fr) | 2005-09-16 |
US7574354B2 (en) | 2009-08-11 |
ES2303129T3 (es) | 2008-08-01 |
PL1692687T3 (pl) | 2008-10-31 |
US20070124138A1 (en) | 2007-05-31 |
CN1890713B (zh) | 2010-12-08 |
DE602004012600T2 (de) | 2009-04-30 |
DE602004012600D1 (de) | 2008-04-30 |
MXPA06006621A (es) | 2006-08-31 |
EP1692687A1 (fr) | 2006-08-23 |
ATE389933T1 (de) | 2008-04-15 |
JP4970046B2 (ja) | 2012-07-04 |
EP1692687B1 (fr) | 2008-03-19 |
WO2005066936A1 (fr) | 2005-07-21 |
KR101108637B1 (ko) | 2012-02-09 |
JP2007515676A (ja) | 2007-06-14 |
KR20060131781A (ko) | 2006-12-20 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN1205603C (zh) | 在用于宽带信号编码的代数码本中索引脉冲位置和符号的方法和设备 | |
CN1248195C (zh) | 语音编码转换方法和装置 | |
CN100338648C (zh) | 在基于线性预测的语音编码解码器中有效帧删除隐藏的方法和器件 | |
CN1890713A (zh) | 用于数字信号压缩编码的多脉冲字典的索引间的编码转换 | |
CN1229775C (zh) | 宽带语音和音频信号解码器中的增益平滑 | |
CN1242380C (zh) | 利用原型波形的周期性语音编码 | |
CN1200403C (zh) | 线性预测编码参数的矢量量化装置 | |
CN1296888C (zh) | 音频编码装置以及音频编码方法 | |
CN1131507C (zh) | 音频信号编码装置、解码装置及音频信号编码·解码装置 | |
CN1154976C (zh) | 再现语音信号的方法和装置以及传输该信号的方法 | |
CN1240049C (zh) | 语音编码系统 | |
CN1165891C (zh) | 对过采样合成宽带信号进行高频分量恢复的方法与设备 | |
CN1145142C (zh) | 矢量量化方法和语音编码方法及其装置 | |
CN1331826A (zh) | 可变速率语音编码 | |
CN1245706C (zh) | 多模式语音编码器 | |
CN1185625C (zh) | 语音编码方法及语音编码装置 | |
CN1160703C (zh) | 语音编码方法和装置以及声音信号编码方法和装置 | |
CN1161751C (zh) | 语音分析方法和语音编码方法及其装置 | |
CN1097396C (zh) | 声音编码装置和方法 | |
CN1703736A (zh) | 用于源控制可变比特率宽带语音编码的方法和装置 | |
CN1890714A (zh) | 一种优化的复合编码方法 | |
CN1484756A (zh) | 编码设备,解码设备以及音频数据分配系统 | |
CN1265355C (zh) | 音源矢量生成装置及语音编码/解码装置 | |
CN1898723A (zh) | 信号解码装置以及信号解码方法 | |
CN1669071A (zh) | 用于在音频代码的编码/解码处理之间转换代码的方法和装置以及使用该方法和装置的存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
C14 | Grant of patent or utility model | ||
GR01 | Patent grant | ||
CF01 | Termination of patent right due to non-payment of annual fee |
Granted publication date: 20101208 Termination date: 20161124 |
|
CF01 | Termination of patent right due to non-payment of annual fee |