CN1306473C - 快速码向量搜索装置和方法 - Google Patents

快速码向量搜索装置和方法 Download PDF

Info

Publication number
CN1306473C
CN1306473C CNB028147359A CN02814735A CN1306473C CN 1306473 C CN1306473 C CN 1306473C CN B028147359 A CNB028147359 A CN B028147359A CN 02814735 A CN02814735 A CN 02814735A CN 1306473 C CN1306473 C CN 1306473C
Authority
CN
China
Prior art keywords
vector
pulse
value
impulse response
tone
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
CNB028147359A
Other languages
English (en)
Other versions
CN1535462A (zh
Inventor
A·肯德哈代
A·P·德贾科
S·曼居纳斯
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Qualcomm Inc
Original Assignee
Qualcomm Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Qualcomm Inc filed Critical Qualcomm Inc
Publication of CN1535462A publication Critical patent/CN1535462A/zh
Application granted granted Critical
Publication of CN1306473C publication Critical patent/CN1306473C/zh
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/08Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/08Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters
    • G10L19/10Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters the excitation function being a multipulse excitation
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L2019/0001Codebooks
    • G10L2019/0013Codebook search algorithms

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)

Abstract

这里给出了从码本快速选择一最佳激励波形的方法和装置。在使用前向和后向音调增强的编码方案中,通过使二维自相关矩阵与一维自相关向量近似而降低了存储器和处理器负载。当互相关元件被配置成确定脉冲响应的自相关矩阵、并且脉冲能量确定元件被配置成确定包含次脉冲位置的脉冲码向量的能量时,近似是可能的。

Description

快速码向量搜索装置和方法
技术领域
本发明一般涉及通信系统,尤其涉及通信系统内的语音处理。
背景技术
无线通信领域有许多应用,包括如无绳电话、寻呼、无线本地环路、电子记事簿(PDA)、因特网电话以及卫星通信系统。特定的重要应用是移动订户的蜂窝电话系统。如这里所使用的,术语“蜂窝”系统包含蜂窝和个人通信服务(PCS)两种频率。已经为这种蜂窝电话系统开发了各种空中接口,包括如频分多址(FDMA)、时分多址(TDMA)和码分多址(CDMA)。与此相连,建立了各种本国和国际标准,包括如高级移动电话服务(AMPS)、全球移动电话系统(GSM)以及中间标准95(IS-95)。特别是,电信工业协会(TIA)以及其它公知标准团体公布了IS-95及其衍生标准IS-95A、IS-95B、ANSI J-STD-008(通常总称为IS-95)以及对数据所提出的高数据速率系统。
按照IS-95标准的使用而配置的蜂窝电话系统采用CDMA信号处理技术来提供高效且稳健的蜂窝电话服务。美国专利号5103459和4901307中描述了大致按照IS-95标准的使用而配置的示例性蜂窝电话系统,这两个专利被转让给本发明的受让人并且通过引用被结合于此。使用CDMA技术的示例性系统是由TIA发布的cdma2000 ITU-R Radio Transmission Technology(RTT)Candidate Submission(这里称为cdma2000)。cdma2000标准已在IS-2000的草案中给出,并且已经由TIA认可。cdma2000提案在许多方面与IS-95系统兼容。另一CDMA标准是W-CDMA标准,它包含在第三代合伙人计划“3GPP”中,文档号为3G TS 25.211,3G TS 25.212,3G TS 25.213和3G TS 25.211。
随着数字通信系统的快速扩展,对有效频率使用率的需求也是恒定的。提高系统效率的一种方法是发射经压缩的信号。在常规的陆上通信线电话系统中,使用每秒64千比特(kbps)的样本率来重新创建数字传输中模拟语音信号的质量。然而,通过使用利用语音信号冗余度的压缩技术,可以减少在空中发射的信息量,而仍然维持高质量。
一般而言,编码器执行模拟语音信号到数字信号的转换,解码器执行数字信号回到语音信号的转换。在示例性CDMA系统中,由编码部分和解码部分两者所组成的声码器位于远程站和基站内。题为“可变速率声码器(Variable Rate Vocoder)”的美国专利号5414796中描述了示例性声码器,该专利被转让给本发明的受让人并且通过引用被结合于此。声码器中,编码部分提取与人类语音生成模型有关的参数。解码部分使用在传输信道上接收到的参数来重新合成语音。模型不断变化从而能对时变语音信号准确地建模。因此,语音被分成多个时间块,即解析帧,在此期间计算参数。然后,为每个新的帧更新参数。如这里所使用的,单词“解码器”是指可以用来转换在传输媒介上接收到的数字信号的任何设备或设备的任何部分。单词“编码器”是指可以用来把声信号转换成数字信号的任何设备或设备的任何部分。因此,这里所描述的实施例可以用CDMA系统的声码器来实现,或者用非CDMA系统的编码器和解码器来实现。
在语音编码器的各种类别中,编码激励的线性预测编码(CELP)、随机编码或向量激励的语音编码编码器属于一类。这个特定类别的编码算法的示例在中间标准127(IS-127)中已作描述,该标准题为“增强型可变速率编码器(EVRC)”。这个特定类别的另一编码器示例在一待批草案中已作描述,该草案题为“宽带扩频通信系统的模式可选声码器服务选项(Selectable Mode Vocoder Service Option forWideband Spread Spectrum Communication Systems)”,文档号为3GPP2C.P9001。声码器的功能是:通过去除语音内固有的所有自然冗余而把数字化的语音信号压缩为低比特率的信号。在CELP编码器中,用短期共振峰(或LPC)滤波器来去除冗余。一旦去除了这些冗余,所产生的残留信号可被建模成白高斯噪声或白周期信号,该信号也必须编码。因此,通过使用语音分析,随后使用适当的编码、传输和接收机处的重新合成,可以实现数据速率的显著减小。
首先通过确定线性预测编码(LPC)滤波器的系数来确定给定语音帧的编码参数。系数的适当选择会去除帧内语音信号的短期冗余。通过确定信号的音调时滞L和音调增益gp,去除了语音信号内的长期周期冗余。可能音调时滞值和音调增益值的组合被存储为自适应码本内的向量。然后,从激励波形码本内存储的许多波形中选择一激励信号。当适当的激励信号被给定的音调时滞和音调增益所激励,并且然后被输入到LPC滤波器内时,可以产生与原始语音信号的近似。这样,通过发射LPC滤波器系数、自适应码本向量的标识以及固定码本激励向量的标识,可以执行经压缩的语首传输。
有效的激励码本结构被称为代数码本。代数码本的实际结构是本领域公知的并且在论文“基于代数编码的快速CELP编码(Fast CELP coding based on AlgebraicCodes)”中已作描述,该论文作者为J.P.Adoul等人,登载于ICASSP学报,1987年4月6-9日。美国专利号5444816进一步公开了代数编码的使用,该专利题为“基于代数编码的有效语音编码的动态码本(Dynamic Codebook for Efficient SpeechBased on Algebraic Codes)”,公开内容通过引用结合于此。
由于实现最佳激励向量的码本搜索的密集计算和存储要求,总是需要提高码本搜索的速度。
发明内容
给出了用于实现编码器内快速代码向量搜索的新颖方法和装置。一方面,给出了用于在代数码本内搜索码向量的一种方法,其中快速码本搜索使用了预先计算的托普勒兹(Toeplitz)自相关矩阵(被存储为加权滤波器脉冲响应的一维向量)以及经音调锐化的脉冲,这大大节省了实施码本搜索所需的内存。
另一方面,给出了从脉冲向量码本中选择一最佳脉冲向量的装置,其中线性预测编码器使用该最佳脉冲向量来对残留波形进行编码。装置包括:脉冲响应发生器,用于输出一脉冲响应向量;相关元件,用于接收该脉冲响应向量以及多个目标信号样本,并且根据脉冲响应向量输出一自相关值,根据合成的脉冲响应向量和多个目标信号样本输出一互相关向量,其中合成脉冲响应向量是脉冲响应向量经过音调锐化来确定的;以及脉冲能量确定元件,它使用来自脉冲向量码本的一脉冲向量、由脉冲向量经音调锐化确定的合成脉冲向量以及自相关值产生一能量值,其中度量计算器使用该能量值和自相关值来确定一比值,该比值用于选择最佳脉冲向量,其中所述脉冲能量确定元件包括:脉冲向量发生器;音调锐化器,用于接收脉冲向量并且用于产生合成脉冲向量;以及能量计算元件,用于从脉冲向量发生器接收脉冲向量,从音调锐化器接收合成脉冲向量,以及从相关元件接收自相关向量,并且用于确定所述能量值。
另一方面,给出了从脉冲向量的码本选择一最佳脉冲向量的方法。所述方法包括:确定脉冲响应向量的自相关值;确定目标信号和经音调锐化的脉冲响应向量之间的互相关值,其中所述经音调锐化的脉冲响应向量是从脉冲响应向量中确定的;为多个脉冲向量的每一个脉冲向量确定一能量值,其中所述能量值是用各个脉冲向量以及与每个脉冲向量相关的经音调锐化的脉冲向量来确定的;以及用多个能量值和互相关值来确定多个比率,其中通过使用被选择为具有多个比率的最高比率的脉冲向量对残留波形进行编码。
另一方面,给出了一种从脉冲向量的码本选择一最佳脉冲向量的装置,它包括:用于确定脉冲响应向量的一自相关值的装置;用于确定目标信号和经音调锐化的脉冲响应向量之间的一互相关值的装置,其中所述经音调锐化的脉冲响应向量是从脉冲响应向量中确定的;用于为来自多个脉冲向量的每一个脉冲向量确定一能量值的装置,其中所述能量值是用每个脉冲向量以及与每个脉冲向量相关的经音调锐化的脉冲向量而确定的;使用所述多个能量值和互相关值来确定多个比率的装置;以及用于选择具有多个比率的最高比率的脉冲向量的装置。
附图说明
图1是示例性通信系统的框图。
图2是用于执行码本搜索的常规装置的框图。
图3是在使用音调增强脉冲响应的编码器内执行缓慢码本搜索的装置框图。
图4是在使用音调增强脉冲响应的编码器内执行快速码本搜索的装置框图。
图5是用于执行快速码本搜索的方法步骤的流程图。
具体实施方式
如图1所示,无线通信网络10一般包括多个远程站(也称为移动站或订户单元或用户设备)12a-12d、多个基站(也称为基站收发器(BTS)或节点B)14a-14c、基站控制器(BSC)(也称为无线电网络控制器或分组控制函数)16、移动交换中心(MSC)或转换器18、分组数据服务节点(PDSN)或网间函数(IWF)20、公共交换电话网(PSTN)22(一般是电话公司)以及因特网协议(IP)网络24(一般是因特网)。为了简洁,示出四个远程站12a-12d、三个基站14a-14c、一个BSC 16、一个MSC 18以及一个PDSN。本领域的技术人员会理解,可以有任何数量的远程站12、基站14、BSC 16、MSC 18和PDSN 20。
在一实施例中,无线通信网络10是分组数据服务网络。远程站12a-12d可以是许多不同类型的无线通信设备的任一个,譬如便携式电话、与运行基于IP的网页浏览应用程序的笔记本电脑相连的蜂窝电话、与免提汽车部件相关的蜂窝电话、运行基于IP的网页浏览应用程序的电子记事簿(PDA)、结合在便携式电脑内的无线通信模块、或者可能在无线本地环路或仪表读数系统内找到的固定位置通信模块。在最普通的实施例中,远程站可以是任何类型的通信单元。
远程站12a-12d可被配置成执行一个或多个无线分组数据协议,譬如EIA/TIA/IS-707标准内描述的协议。在一特定实施例中,远程站12a-12d产生指向IP网络24的IP分组,并且用点到点协议(PPP)把IP分组封装到帧内。
一实施例中,IP网络24与PDSN 20耦合,PDSN 20与MSC 18耦合,MSC 18与BSC 16和PSTN 22耦合,BSC 16与基站14a-14c耦合,这些耦合都是通过为按照几种已知协议的任一种的语音和/或数据分组的传输所配置的电缆线进行的,已知协议包括如:E1、T1、异步传输模式(ATM)、IP、帧中继、HDSL、ADSL或xDSL。在另一实施例中,BSC 16直接与PDSN 20耦合,且MSC 18不与PDSN 20耦合。在另一实施例中,远程站12a-12d在RF接口上与基站14a-14c进行通信,所述RF接口在第三代合伙人计划2“3GPP2”:“cdma2000扩展谱系统的物理层标准(Physical Layer Standard for cdma2000 Spread Spectrum Systems)”中被定义,3GPP2文档号为C.P0002-A,TIA PN-4694,要被公布为TIA/EIA/IS-2000-2-A(草案,修订版30)(1999年11月19日),该文档完全通过引用被结合于此。在另一实施例中,远程站12a-12d在一RF接口上与基站14a-14c进行通信,所述RF接口在第三代合伙人计划“3GPP”中定义,文档号为3G TS 25.211、3G TS 25.212、3G TS25.213和3G TS 25.214。
在无线通信网络10的典型操作期间,基站14a-14c接收并解调来自电话呼叫、网页浏览或其它数据通信中所涉及的各远程站12a-12d的逆向链路信号集。给定基站14a-14c所接收到的每个逆向链路信号都在基站14a-14c内被处理。每个基站14a-14c可能通过调制并把正向链路信号集发送至远程站12a-12d而与多个远程站12a-12d进行通信。例如,如图1所示,基站14a同时与第一和第二远程站12a、12b进行通信,而基站14c同时与第三和第四远程站12c、12d进行通信。所产生的分组被转发至BSC 16,后者提供呼叫资源分配和移动管理功能,包括把特定远程站12a-12d的呼叫从一个基站14a-14c协调地软切换到另一个基站14a-14c。例如,远程站正同时与两个基站14b、14c进行通信。最终,当远程站12c移至离开一个基站14c足够远时,呼叫会被切换至另一基站14b。
如果传输是常规的电话呼叫,则BSC 16会把接收到的数据路由至MSC 18,后者为与PSTN 22接口提供附加的路由服务。如果传输是基于分组的传输,譬如指向IP网络24的数据呼叫,MSC 18会把数据分组路由至PDSN 20,后者会把分组发送至IP网络24。或者,BSC 16会把分组直接路由至PDSN 20,后者把分组发送至IP网络24。
如上所讨论的,语音信号可被分成几个帧,并且通过使用LPC滤波器系数、自适应码本向量和固定码本向量来建模。为了创建语音信号的最佳模型,实际语音和重建语音间的差异必须最小。确定差异是否最小的一种技术是确定实际语音和重建语音间的相关值,然后选择具有最大相关属性的一组分量。
图2是常规编码器内从码本选择一最佳激励向量的装置的框图。这个编码器被设计成在输入信号与滤波器脉冲响应卷积时使计算复杂度最小,为了确定哪个输入信号与目标信号最匹配而卷积多个输入信号,所述复杂度还会增加。为了降低复杂度,该编码器把一组输入信号与已经用零值延长的脉冲响应进行卷积。这种延长导致平稳的脉冲响应。平稳脉冲响应的自相关矩阵具有托普勒兹形式。
感知加权滤波器230对语音样本帧s(n)滤波以产生目标信号x(n)。感知加权滤波器的设计和实现在上述美国专利号5414796中已作描述。脉冲响应发生器210产生一脉冲响应h(n)。通过使用脉冲响应h(n)和目标信号x(n),按照下列关系在计算元件290处产生一互相关向量d(i):
d ( i ) = Σ j = 1 M x ( i ) h ( i - j ) , for j=1 to M
计算元件250也使用脉冲响应h(n)来产生自相关矩阵:
φ ( i , j ) = Σ n = j M h ( n - i ) h ( n - j ) , for i≥j
如果解析窗从M个样本延长到M+L-1个样本,自相关矩阵φ就变为托普勒兹矩阵,其中额外样本为零值。托普勒兹矩阵是一方阵,它的各项沿每条对角线都是常数。因此,托普勒兹自相关矩阵由一维向量表示,而不是二维矩阵。
自相关矩阵φ的项被发送到计算元件240。脉冲码本发生器200产生多个脉冲向量{ck,k=1,...,M},它们也被输入到计算元件240中。激励波形码本,在这里或者被称为脉冲波形码本或脉冲码本,可以响应多个脉冲位置信号而生成{pi,i=1,...,M}(图中未示出),其中i是脉冲向量中单位脉冲的位置。Np是表示脉冲向量内脉冲数目的值。计算元件240按照下列公式用自相关矩阵φ过滤脉冲向量:
E yy = Σ i = 0 N p - 1 φ ( p i , p j ) + 2 . Σ i = 0 N p - 1 Σ j = i + 1 N p - 1 c k ( p i ) c k ( p j ) φ ( p i , p j )
计算元件290也按照下列公式使用脉冲向量{ck,k=1,...,M}来确定d(n)和ck(n)之间的互相关:
E xy 2 = ( Σ i = 0 N p - 1 c k ( p i ) . d ( p i ) ) 2
一旦Eyy和Exy的值已知,计算元件260就使用下列关系式确定值Tk
T k = ( E xy ) 2 E yy
与Tk最大值对应的脉冲向量被选择为最佳向量来对残留波形进行编码。
由于自相关矩阵φ的简化,因此使用上述方案来搜索最佳脉冲向量是有效的。然而,图2的装置不能在新一代语音编码器中实现,譬如增强型可变速率编解码器(EVRC)和可选模式声码器(SMV)。在图2的装置中,通过用零值来延伸语音帧的窗,自相关矩阵φ的简化是可行的,从而使脉冲响应h(n)变得平稳。因而,自相关矩阵φ的项使φ(i,j)=φ(i-j)。
然而,在某些新的声码器中,譬如上面提到的那些,由于结合了来自音调周期性的非零值作用,不能用零值来延伸语音帧窗。在这些声码器中,通过把增益调整的前向和后向音调锐化过程结合到语音信号的解析帧内,从而增强了码本脉冲的音调周期性作用。
音调锐化的一例是按照下列关系式从h(n)形成一合成脉冲响应
Figure C0281473500103
h ~ ( n ) = g p P - 1 h ( n - ( P - 1 ) L ) + . . . + g p 3 h ( n - 3 L ) + g p 2 h ( n - 2 L ) + g p h ( n - L )
+h(n)
+ g p h ( n + L ) + g p 2 h ( n + 2 L ) + g p 3 h ( n + 3 L ) + . . . + g p P - 1 h ( n + ( P - 1 ) L )
其中P是子帧内包含的长度为L的音调时滞周期(全部或部分的)的数目,L是音调时滞,gp是音调增益。
图3是用于搜索激励码本的装置框图,其中滤波器的脉冲响应已被音调增强。感知加权滤波器330过滤一语音样本帧s(n)以产生目标信号x(n)。脉冲响应发生器310产生一脉冲响应h(n)。脉冲响应h(n)被输入到音调锐化器元件370内,并且产生合成脉冲响应
Figure C0281473500107
合成脉冲响应 和目标信号x(n)被输入到计算元件390内,按照下列关系式确定互相关向量d(i):
d ( i ) = Σ j = 1 M x ( i ) h ~ ( i - j ) , for j = 1 to M
计算元件350也使用合成脉冲响应 来产生一自相关矩阵:
φ ( i , j ) = Σ n = j M h ~ ( n - i ) h ~ ( n - j ) , for i≥j
自相关矩阵φ的项被发送到计算元件340。脉冲码本发生器300产生多个脉冲向量{ck,k=1,...,M},它们也被输入到计算元件340内。计算元件340按照下列公式用自相关矩阵过滤这些脉冲向量:
E yy = Σ i = 0 N p - 1 φ ( p i , p j ) + 2 . Σ i = 0 N p - 1 Σ j = i + 1 N p - 1 c k ( p i ) c k ( p j ) φ ( p i , p j )
计算元件390也使用脉冲向量{ck,k=1,...,M}按照下列公式确定d(n)和ck(n)间的互相关:
E xy 2 = ( Σ i = 0 N p - 1 c k ( p i ) . d ( p i ) ) 2
一旦Eyy和Exy的值已知,计算元件360就使用下列关系式确定值Tk
T k = ( E xy ) 2 E yy
与Tk最大值对应的脉冲向量被选择为最佳向量来对残留波形进行编码。由于合成脉冲响应
Figure C0281473500115
不再是平稳的,因此不能把自相关矩阵简化为一维矩阵,并且存储φ矩阵所需的元件总数仍然很大。
下面描述的实施例解决了对新一代编码器内更多有效计算方案的需求,新一代编码器被设计成增强音调周期的作用。这些实施例描述了可能被本领域技术人员视为违反直觉的,然而某些音调周期值的适当选择会产生有益的结果。特别是,本领域普遍认为,脉冲码向量内的脉冲数应该保持很小,以便使表示向量所需的比特数最小。脉冲码向量是具有指明间隔的单位脉冲的向量,其中剩余的间隔被指定为零值。一例具有少量脉冲的脉冲向量是少于14%的可用间隔被单位脉冲占据的脉冲向量。
这里所公开的实施例特意增加了码向量内的脉冲数目。在增强脉冲响应的音调的编码器内,前向和后向时滞值被折叠到窗口帧内,所述窗口帧正在被解析以形成合成脉冲响应。在这些编码器中,根据合成脉冲响应确定自相关矩阵φ。
这里所公开的实施例避免使用合成脉冲响应来确定自相关矩阵φ。这些实施例确定合成脉冲码本向量,而不是使用合成脉冲响应,其中脉冲码向量的前向和后向时滞值被折回码向量内。时滞值的这种结合增加了码向量内的脉冲数目,这又违背了码向量脉冲数目应该保持最小的通常见解。如果使用合成脉冲码向量,由于以下关系式而不再需要根据合成脉冲响应来确定自相关矩阵φ:
c ⊗ h ~ = c ~ ⊗ h
上述公式表明,脉冲码向量与经音调锐化的脉冲响应的卷积结果等价于经音调锐化的脉冲码向量与脉冲响应的卷积结果。
如果使用脉冲响应而不是合成脉冲响应来确定自相关矩阵φ,则这里的实施例隐含地假定可以用零值来延伸脉冲响应。这个假定与上述把非零时滞值折回到脉冲响应内的实践相反。通过使用该假定,实施例使二维自相关矩阵φ与一维自相关矩阵近似,以便在使用经音调锐化的脉冲响应的编码器内执行对最佳激励或脉冲波形的快速搜索。
图4是会使用合成脉冲向量执行快速码本搜索的装置框图。一实施例中,码本内的脉冲向量长为80个样本,且单位脉冲可以位于任一80个样本位置处。每个码向量内的单位脉冲数应该保持很小,如,如果有80个样本位置则为1或2。在较大尺寸的解析窗内可使用具有更多脉冲的向量。对于每个脉冲pi而言,为每个脉冲分配一相应的符号si。所产生的码向量ck由下列公式给出:
c k ( j ) = Σ i = 0 N p - 1 s i δ ( j - p i )
感知加权滤波器430对语音样本帧s(n)滤波以产生目标信号x(n)。脉冲响应发生器410产生一脉冲响应h(n)。脉冲响应h(n)被输入音调锐化器元件470并且产生合成脉冲响应 合成脉冲响应
Figure C0281473500124
和目标信号x(n)被输入到计算元件490内,按照下列关系式确定互相关向量d(i):
d ( i ) = Σ j = 1 M x ( i ) h ~ ( i - j ) , for j=1 to M
计算元件450也使用脉冲响应h(n)来产生一维自相关矩阵:
φ ( i ) = Σ n = 0 M - 1 h ( n ) h ( n - i )
自相关矩阵φ的项被发送到计算元件440。脉冲码本发生器400产生多个脉冲向量{ck,k=1,...,M},它们被音调锐化元件420所改变,从而按照下列公式形成合成脉冲向量:
p i k = p i 0 + kL , k = - k 1 , - k 1 + 1 , . . . , 0,1,2 , . . . , k 2 ,
其中选择k1和k2是范围0≤k1,k2≤M内的最大值,使 0 &le; p i k < M . 根据向量内的主脉冲位置和音调时滞,每个主脉冲pi 0会有0个或多个次脉冲。例如,对于时滞L=33,向量尺寸M=80,第i个脉冲的主位置为 p i 0 = 46 , 次脉冲位置为 p i - 1 = 13 , 以及 p i 1 = 79 . 因此,合成脉冲向量包括主脉冲和次脉冲。
合成脉冲向量、脉冲向量以及自相关矩阵φ被输入计算元件440。计算元件440按照下列公式过滤脉冲向量和合成脉冲向量:
E yy = &Sigma; i = 0 N p - 1 &Sigma; v = - k 1 k 2 g p | v | &phi; ( 0 )
+ 2 . &Sigma; i = 0 N p - 1 &Sigma; w = - k 1 k 2 &Sigma; j = i + 1 N p - 1 &Sigma; v = - k 1 k 2 g p | w | g p | v | c k ( p i 0 ) c k ( p j 0 ) &phi; ( | p i w - p j v )
计算元件490也使用脉冲向量{ck,k=1,...,M}按照下列公式确定d(n)和ck(n)间的互相关:
E xy 2 = ( &Sigma; i = 0 N p - 1 c k ( p i ) . d ( p i ) ) 2
一旦Eyy和Exy的值已知,计算元件460就使用下列关系式确定值Tk
T k = ( E xy ) 2 E yy
与Tk最大值对应的脉冲向量被选择为最佳向量来对残留波形进行编码。上述Eyy的计算优点是以低复杂度方法把前向和后向音调锐化结合在码本搜索中,从而把存储一维φ(i)向量所需的内存要求减少为仅仅M个值,不像现有技术要求二维矩阵φ(i,j)的M×M个值那样。
在另一配置中,可以实现互相关元件401,它能产生自相关矩阵φ和互相关值Exy。另一实施例中,可以用脉冲能量确定元件402产生能量值Eyy,该元件402被配置成产生一码本以及码本的合成表示,并且用接收到的自相关矩阵来计算能量值。或者,音调锐化器470可以独立于脉冲码确定元件402而实现。在还有一实施例中,可以配置单个处理器和内存来执行图4的各个元件的所有功能。
图5是说明在使用音调增强的脉冲响应的编码器内执行快速码本搜索的方法流程图。可以配置处理器和内存来执行方法步骤。在步骤500中,产生主脉冲向量。步骤502中,产生包括主脉冲和次脉冲的合成脉冲向量。步骤504中,过滤语音信号s(n)以产生目标信号x(n)。步骤506中,产生脉冲响应h(n)。步骤508中,使用脉冲响应h(n)来产生音调增强的合成脉冲响应 步骤510中,根据合成脉冲响应
Figure C0281473500139
和目标信号x(n)确定互相关值d(i)。步骤512中,使用脉冲响应h(n)确定一维自相关矩阵φ。步骤514中,使用互相关值d(i)和脉冲向量确定值Exy。步骤516中,使用自相关矩阵φ、合成脉冲向量和主脉冲向量确定能量值Eyy。步骤518中,使用Exy和Eyy确定最大指标Tk。步骤520中,为码本的下一个脉冲向量重复该过程,直到耗尽所有脉冲向量为止。步骤522中,选择具有最大的最大指标Tk的脉冲向量作为最佳激励波形来对解析帧内的语音信号进行编码。
上述方法步骤可以交换而不影响这里所描述的实施例的范围。例如,完全可能在值Exy之前确定值Eyy,而不影响Tk的计算。
本领域的技术人员可以理解,信息和信号可以用多种不同技术和工艺中的任一种来表示。例如,上述说明中可能涉及的数据、指令、命令、信息、信号、比特、码元和码片可以用电压、电流、电磁波、磁场或其粒子、光场或其粒子、或它们的任意组合来表示。
本领域的技术人员能进一步理解,结合这里所公开的实施例所描述的各种说明性的逻辑块、模块、电路和算法步骤可以作为电子硬件、计算机软件或两者的组合来实现。为了清楚说明硬件和软件间的互换性,各种说明性的元件、框图、模块、电路和步骤一般按照其功能性进行了阐述。这些功能性究竟作为硬件或软件来实现取决于整个系统所采用的特定的应用程序和设计。技术人员可能以对于每个特定应用不同的方式来实现所述功能,但这种实现决定不应被解释为造成背离本发明的范围。
结合这里所描述的实施例来描述的各种说明性的逻辑块、模块和电路的实现或执行可以用:通用处理器、数字信号处理器(DSP)、专用集成电路(ASIC)、现场可编程门阵列(FPGA)或其它可编程逻辑器件、分立门电路或晶体管逻辑、分立硬件元件或为执行这里所述功能而设计的任意组合。通用处理器可能是微处理器,然而或者,处理器可以是任何常规的处理器、控制器、微控制器或状态机。处理器也可能用计算设备的组合来实现,如DSP和微处理器的组合、多个微处理器、结合DSP内核的一个或多个微处理器,或任意其它这种配置。
结合这里所公开实施例描述的方法或算法的步骤可能直接包含在硬件中、由处理器执行的软件模块中,或两者的组合。软件模块可能驻留在RAM存储器、闪耀(flash)存储器、ROM存储器、EPROM存储器、EEPROM存储器、寄存器、硬盘、可卸盘、CD-ROM或本领域中已知的任何其它形式的存储媒体中。示例性存储媒体与处理器耦合,使得处理器可以从存储媒体读取信息或把信息写入存储媒体。或者,存储媒体可以与处理器合成一体。处理器和存储媒体可能驻留在ASIC中。ASIC可能驻留在订户终端中。或者,处理器和存储媒体可能作为分立元件驻留在用户终端中。
上述公开实施例的描述使本领域的技术人员能制造或使用本发明。这些实施例的各种修改对于本领域的技术人员来说是显而易见的,这里定义的一般原理可以被应用于其它实施例中而不违背本发明的精神或范围。因此,本发明并不限于这里示出的实施例,而要符合与这里揭示的原理和新颖特征一致的最宽泛的范围。

Claims (6)

1.一种用于从脉冲向量码本中选择一最佳脉冲向量的装置,其特征在于,线性预测编码器使用该最佳脉冲向量对残留波形进行编码,所述装置包括:
脉冲响应发生器,用于输出一脉冲响应向量;
相关元件,用于接收所述脉冲响应向量和多个目标信号样本,根据所述脉冲响应向量输出一自相关值,以及根据合成脉冲响应向量和所述多个目标信号样本输出一互相关向量,其中所述合成脉冲响应向量是脉冲响应向量经过音调锐化来确定的;以及
脉冲能量确定元件,它使用来自脉冲向量码本的一脉冲向量、由脉冲向量经音调锐化确定的合成脉冲向量以及自相关值来产生一能量值,其中度量计算器使用所述能量值和所述自相关值来确定一比值,该比值用于选择最佳脉冲向量;
其中所述脉冲能量确定元件包括:
脉冲向量发生器;
音调锐化器,用于接收脉冲向量并且用于产生合成脉冲向量;以及
能量计算元件,用于从脉冲向量发生器接收脉冲向量,从音调锐化器接收合成脉冲向量,以及从相关元件接收自相关向量,并且用于确定所述能量值。
2.如权利要求1所述的装置,其特征在于,所述装置还用于为脉冲向量码本的每个脉冲向量产生一能量值,具有最大比值的脉冲向量用来对残留波形进行编码。
3.如权利要求1所述的装置,其特征在于,所述音调锐化器按照预定的音调时滞参数和预定的音调增益参数来确定所述合成脉冲向量。
4.如权利要求1所述的装置,其特征在于,所述能量计算元件按照以下公式确定所述能量值:
E yy = &Sigma; i = 0 N p - 1 &Sigma; v = - k 1 k 2 g p | v | &phi; ( 0 ) + 2 . &Sigma; i = 0 N p - 1 &Sigma; w = - k 1 k 2 &Sigma; j = i + 1 N p - 1 &Sigma; v = - k 1 k 2 g p | w | g p | v | c k ( p i 0 ) c k ( p j 0 ) &phi; ( | p i w - p j v | )
其中Eyy是能量值,gp是音调增益值,px是脉冲向量内第x个元的脉冲位置,φ()是脉冲响应的自相关向量,NP是表示脉冲向量内脉冲数目的值,k是表示分析窗口中M个样本中一个样本的值,-k1和k2被选为使得 0 &le; p i k < M 成立的k的最小值和最大值,其中0≤k1,k2≤M,pi 0是第i个脉冲的主位置,pj 0是第j个脉冲的主位置。
5.一种从脉冲向量的码本选择一最佳脉冲向量的方法,包括:
确定脉冲响应向量的一自相关值;
确定目标信号和经音调锐化的脉冲响应向量之间的一互相关值,其中所述经音调锐化的脉冲响应向量是从脉冲响应向量中确定的;
为来自多个脉冲向量的每一个脉冲向量确定一能量值,其中所述能量值是用每个脉冲向量以及与每个脉冲向量相关的经音调锐化的脉冲向量而确定的;以及
使用所述多个能量值和互相关值来确定多个比率,其中通过使用具有最大比率的脉冲向量而对残留波形进行编码。
6.一种从脉冲向量的码本选择一最佳脉冲向量的装置,包括:
用于确定脉冲响应向量的一自相关值的装置;
用于确定目标信号和经音调锐化的脉冲响应向量之间的一互相关值的装置,其中所述经音调锐化的脉冲响应向量是从脉冲响应向量中确定的;
用于为来自多个脉冲向量的每一个脉冲向量确定一能量值的装置,其中所述能量值是用每个脉冲向量以及与每个脉冲向量相关的经音调锐化的脉冲向量而确定的;
使用所述多个能量值和互相关值来确定多个比率的装置;以及
用于选择具有多个比率的最高比率的脉冲向量的装置。
CNB028147359A 2001-06-04 2002-05-31 快速码向量搜索装置和方法 Expired - Fee Related CN1306473C (zh)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US09/874,657 US6766289B2 (en) 2001-06-04 2001-06-04 Fast code-vector searching
US09/874,657 2001-06-04

Publications (2)

Publication Number Publication Date
CN1535462A CN1535462A (zh) 2004-10-06
CN1306473C true CN1306473C (zh) 2007-03-21

Family

ID=25364269

Family Applications (1)

Application Number Title Priority Date Filing Date
CNB028147359A Expired - Fee Related CN1306473C (zh) 2001-06-04 2002-05-31 快速码向量搜索装置和方法

Country Status (7)

Country Link
US (1) US6766289B2 (zh)
EP (1) EP1399918A1 (zh)
KR (1) KR100935174B1 (zh)
CN (1) CN1306473C (zh)
HK (1) HK1066901A1 (zh)
TW (1) TW559784B (zh)
WO (1) WO2002099787A1 (zh)

Families Citing this family (23)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6993099B2 (en) * 2001-11-07 2006-01-31 Texas Instruments Incorporated Communications receiver architectures and algorithms permitting hardware adjustments for optimizing performance
US20030210659A1 (en) * 2002-05-02 2003-11-13 Chu Chung Cheung C. TFO communication apparatus with codec mismatch resolution and/or optimization logic
CA2392640A1 (en) * 2002-07-05 2004-01-05 Voiceage Corporation A method and device for efficient in-based dim-and-burst signaling and half-rate max operation in variable bit-rate wideband speech coding for cdma wireless systems
US7003461B2 (en) * 2002-07-09 2006-02-21 Renesas Technology Corporation Method and apparatus for an adaptive codebook search in a speech processing system
KR100754439B1 (ko) 2003-01-09 2007-08-31 와이더댄 주식회사 이동 전화상의 체감 음질을 향상시키기 위한 디지털오디오 신호의 전처리 방법
WO2004084182A1 (en) * 2003-03-15 2004-09-30 Mindspeed Technologies, Inc. Decomposition of voiced speech for celp speech coding
US7788091B2 (en) * 2004-09-22 2010-08-31 Texas Instruments Incorporated Methods, devices and systems for improved pitch enhancement and autocorrelation in voice codecs
US7860710B2 (en) * 2004-09-22 2010-12-28 Texas Instruments Incorporated Methods, devices and systems for improved codebook search for voice codecs
US8265929B2 (en) * 2004-12-08 2012-09-11 Electronics And Telecommunications Research Institute Embedded code-excited linear prediction speech coding and decoding apparatus and method
US7571094B2 (en) * 2005-09-21 2009-08-04 Texas Instruments Incorporated Circuits, processes, devices and systems for codebook search reduction in speech coders
JP3981399B1 (ja) * 2006-03-10 2007-09-26 松下電器産業株式会社 固定符号帳探索装置および固定符号帳探索方法
US20100153100A1 (en) * 2008-12-11 2010-06-17 Electronics And Telecommunications Research Institute Address generator for searching algebraic codebook
CN101599272B (zh) * 2008-12-30 2011-06-08 华为技术有限公司 基音搜索方法及装置
SG188327A1 (en) 2010-09-02 2013-04-30 Microsoft Corp Generation and application of a sub-codebook of an error control coding codebook
JP5722916B2 (ja) * 2011-01-14 2015-05-27 パナソニック インテレクチュアル プロパティ コーポレーション オブアメリカPanasonic Intellectual Property Corporation of America 符号化装置および符号化方法
CN102901953B (zh) * 2012-09-28 2017-05-31 罗森伯格(上海)通信技术有限公司 一种相关峰锐化方法及装置
ES2701402T3 (es) * 2012-10-05 2019-02-22 Fraunhofer Ges Forschung Aparato para codificar una señal de voz empleando ACELP en el dominio de autocorrelación
US9728200B2 (en) * 2013-01-29 2017-08-08 Qualcomm Incorporated Systems, methods, apparatus, and computer-readable media for adaptive formant sharpening in linear prediction coding
US9620134B2 (en) 2013-10-10 2017-04-11 Qualcomm Incorporated Gain shape estimation for improved tracking of high-band temporal characteristics
US10614816B2 (en) 2013-10-11 2020-04-07 Qualcomm Incorporated Systems and methods of communicating redundant frame information
US10083708B2 (en) 2013-10-11 2018-09-25 Qualcomm Incorporated Estimation of mixing factors to generate high-band excitation signal
US9384746B2 (en) 2013-10-14 2016-07-05 Qualcomm Incorporated Systems and methods of energy-scaled signal processing
US10163447B2 (en) 2013-12-16 2018-12-25 Qualcomm Incorporated High-band signal modeling

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5265190A (en) * 1991-05-31 1993-11-23 Motorola, Inc. CELP vocoder with efficient adaptive codebook search
EP0619574A1 (en) * 1993-04-09 1994-10-12 SIP SOCIETA ITALIANA PER l'ESERCIZIO DELLE TELECOMUNICAZIONI P.A. Speech coder employing analysis-by-synthesis techniques with a pulse excitation
CN1181151A (zh) * 1995-03-10 1998-05-06 舍布鲁克大学 快速语音编码的代数码书深度优先搜索
CN1189264A (zh) * 1996-02-15 1998-07-29 菲利浦电子有限公司 降低了复杂度的信号传输系统
US5864650A (en) * 1992-09-16 1999-01-26 Fujitsu Limited Speech encoding method and apparatus using tree-structure delta code book

Family Cites Families (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CA2010830C (en) 1990-02-23 1996-06-25 Jean-Pierre Adoul Dynamic codebook for efficient speech coding based on algebraic codes
US5732389A (en) * 1995-06-07 1998-03-24 Lucent Technologies Inc. Voiced/unvoiced classification of speech for excitation codebook selection in celp speech decoding during frame erasures
US5664055A (en) * 1995-06-07 1997-09-02 Lucent Technologies Inc. CS-ACELP speech compression system with adaptive pitch prediction filter gain based on a measure of periodicity
US5751901A (en) * 1996-07-31 1998-05-12 Qualcomm Incorporated Method for searching an excitation codebook in a code excited linear prediction (CELP) coder
US6169970B1 (en) * 1998-01-08 2001-01-02 Lucent Technologies Inc. Generalized analysis-by-synthesis speech coding method and apparatus
US6807527B1 (en) * 1998-02-17 2004-10-19 Motorola, Inc. Method and apparatus for determination of an optimum fixed codebook vector
US6141638A (en) * 1998-05-28 2000-10-31 Motorola, Inc. Method and apparatus for coding an information signal

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5265190A (en) * 1991-05-31 1993-11-23 Motorola, Inc. CELP vocoder with efficient adaptive codebook search
US5864650A (en) * 1992-09-16 1999-01-26 Fujitsu Limited Speech encoding method and apparatus using tree-structure delta code book
EP0619574A1 (en) * 1993-04-09 1994-10-12 SIP SOCIETA ITALIANA PER l'ESERCIZIO DELLE TELECOMUNICAZIONI P.A. Speech coder employing analysis-by-synthesis techniques with a pulse excitation
CN1181151A (zh) * 1995-03-10 1998-05-06 舍布鲁克大学 快速语音编码的代数码书深度优先搜索
CN1189264A (zh) * 1996-02-15 1998-07-29 菲利浦电子有限公司 降低了复杂度的信号传输系统

Also Published As

Publication number Publication date
US20030028373A1 (en) 2003-02-06
WO2002099787A1 (en) 2002-12-12
KR20040006011A (ko) 2004-01-16
CN1535462A (zh) 2004-10-06
KR100935174B1 (ko) 2010-01-06
EP1399918A1 (en) 2004-03-24
TW559784B (en) 2003-11-01
US6766289B2 (en) 2004-07-20
HK1066901A1 (en) 2005-04-01

Similar Documents

Publication Publication Date Title
CN1306473C (zh) 快速码向量搜索装置和方法
CN100336101C (zh) 减少对于码本搜索的存储要求的装置和方法
CN1223989C (zh) 可变速率语音编码器中的帧擦除补偿法及用该方法的装置
CN1250028C (zh) 无线通信系统中使用非对称语音编码器来产生非对称链路的方法和装置
CN1432176A (zh) 用于预测量化有声语音的方法和设备
CN1154086C (zh) Celp转发
CN1375096A (zh) 话音编码设备的频谱幅度量化
CN101030377A (zh) 提高声码器基音周期参数量化精度的方法
KR101081781B1 (ko) 대역폭 적응 양자화
CN1210685C (zh) 语音编码中噪音鲁棒分类方法
CN105976830A (zh) 音频信号编码和解码方法、音频信号编码和解码装置
CN1272939A (zh) 语音编码设备和语音解码设备
WO2004057577A1 (en) Sub-sampled excitation waveform codebooks
CN1271596C (zh) 话音编码设备中计算帧原型间线性相移的频带识别方法和装置
CN1717944A (zh) 通过提取系统内或系统间的tfo信息在非兼容通信系统间进行免串接声码器操作的装置和方法
CN1766988A (zh) 一种新型的快速固定码本搜索方法
CN1132157C (zh) 线性预测分析合成的编码方法和编码器
CN1748244A (zh) 用于分布式语音识别的音高量化
CN1284138C (zh) 自适应帧选择线谱频率参数量化方法
CN1711590A (zh) 概率式码簿的声源的编码方法
CN1672193A (zh) 用于语音帧误差降低的语音通信单元和方法
CN101055722A (zh) 音频变换方法和设备

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
REG Reference to a national code

Ref country code: HK

Ref legal event code: DE

Ref document number: 1066901

Country of ref document: HK

C14 Grant of patent or utility model
GR01 Patent grant
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20070321

Termination date: 20190531

CF01 Termination of patent right due to non-payment of annual fee