CN1361912A - 保持语言编码中目标比特率的方法和装置 - Google Patents
保持语言编码中目标比特率的方法和装置 Download PDFInfo
- Publication number
- CN1361912A CN1361912A CN00810597A CN00810597A CN1361912A CN 1361912 A CN1361912 A CN 1361912A CN 00810597 A CN00810597 A CN 00810597A CN 00810597 A CN00810597 A CN 00810597A CN 1361912 A CN1361912 A CN 1361912A
- Authority
- CN
- China
- Prior art keywords
- speech coder
- performance threshold
- occurrence
- frame
- speech
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 52
- 238000004891 communication Methods 0.000 claims description 18
- 238000013139 quantization Methods 0.000 claims description 18
- 230000007115 recruitment Effects 0.000 claims description 16
- 230000001105 regulatory effect Effects 0.000 claims 2
- 230000008569 process Effects 0.000 description 14
- 238000011002 quantification Methods 0.000 description 12
- 238000010586 diagram Methods 0.000 description 11
- 230000007704 transition Effects 0.000 description 11
- 230000015572 biosynthetic process Effects 0.000 description 10
- 238000003786 synthesis reaction Methods 0.000 description 10
- 238000005259 measurement Methods 0.000 description 9
- 230000005540 biological transmission Effects 0.000 description 7
- 230000008859 change Effects 0.000 description 6
- 238000005516 engineering process Methods 0.000 description 6
- 238000001228 spectrum Methods 0.000 description 6
- 238000000605 extraction Methods 0.000 description 5
- 230000006870 function Effects 0.000 description 5
- 230000002349 favourable effect Effects 0.000 description 4
- 238000012545 processing Methods 0.000 description 4
- 238000005070 sampling Methods 0.000 description 4
- 206010038743 Restlessness Diseases 0.000 description 3
- 230000006835 compression Effects 0.000 description 3
- 238000007906 compression Methods 0.000 description 3
- 239000012634 fragment Substances 0.000 description 3
- 238000012360 testing method Methods 0.000 description 3
- 238000012546 transfer Methods 0.000 description 3
- 239000002131 composite material Substances 0.000 description 2
- 238000013461 design Methods 0.000 description 2
- 238000011161 development Methods 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 230000006872 improvement Effects 0.000 description 2
- 239000002245 particle Substances 0.000 description 2
- 101150012579 ADSL gene Proteins 0.000 description 1
- 102100020775 Adenylosuccinate lyase Human genes 0.000 description 1
- 108700040193 Adenylosuccinate lyases Proteins 0.000 description 1
- 206010003497 Asphyxia Diseases 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 230000003416 augmentation Effects 0.000 description 1
- 238000005311 autocorrelation function Methods 0.000 description 1
- 230000033228 biological regulation Effects 0.000 description 1
- 230000008878 coupling Effects 0.000 description 1
- 238000010168 coupling process Methods 0.000 description 1
- 238000005859 coupling reaction Methods 0.000 description 1
- 238000001514 detection method Methods 0.000 description 1
- 239000000284 extract Substances 0.000 description 1
- 238000001914 filtration Methods 0.000 description 1
- 230000008676 import Effects 0.000 description 1
- 230000007774 longterm Effects 0.000 description 1
- 238000012423 maintenance Methods 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 238000010295 mobile communication Methods 0.000 description 1
- 238000010606 normalization Methods 0.000 description 1
- 230000009467 reduction Effects 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 238000012827 research and development Methods 0.000 description 1
- 230000035807 sensation Effects 0.000 description 1
- 230000003595 spectral effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/04—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
- G10L19/16—Vocoder architecture
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/002—Dynamic bit allocation
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/04—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
- G10L19/16—Vocoder architecture
- G10L19/18—Vocoders using multiple modes
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04W—WIRELESS COMMUNICATION NETWORKS
- H04W24/00—Supervisory, monitoring or testing arrangements
- H04W24/02—Arrangements for optimising operational condition
Landscapes
- Engineering & Computer Science (AREA)
- Signal Processing (AREA)
- Physics & Mathematics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Computational Linguistics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Computer Networks & Wireless Communication (AREA)
- Compression, Expansion, Code Conversion, And Decoders (AREA)
- Reduction Or Emphasis Of Bandwidth Of Signals (AREA)
- Transmission Systems Not Characterized By The Medium Used For Transmission (AREA)
- Detection And Correction Of Errors (AREA)
Abstract
保持语言编码器中目标比特率的方法和装置包括语言编码器,用于以预选编码率对帧编码,计算预定个数编码帧的运行平均比特率;从预定目标平均比特率中减去运行平均比特率,并用差值除以预选编码率。如果商值是负的,累加预定个数小于当前性能阈值的语言编码器性能阈值的可能具体值,累加数大于商值的绝对值。如果商值是正的,累加预定个数大于当前性能阈值的语言编码器性能阈值的可能具体值,累加数大于商值。
Description
发明背景
I.发明领域
本发明一般涉及语言处理领域,尤其涉及保持语言编码器中目标比特率的方法和装置。
II.背景技术
用数字技术发送话音已非常普及,尤其在长距离和数字无线电话应用中。这反过来产生了对确定在信道上发送的最小信息量的兴趣,同时又保持重建语言的感觉质量。如果通过简单地采样和数字化发送语言,那么需要大约每秒64千比特(kbps)的数据率,以获得传统模拟电话的语言质量。然而,通过使用语言分析,接着通过适当的编码、发送、并在接收机端再合成,可以大大降低数据率。
用于压缩语言的装置在电信的众多领域中可找到其应用。典型的领域是无线通信。无线通信领域具有很多应用,包括如无绳电话、寻呼、无线局域环路、如蜂窝和PCS电话系统的无线电话,移动因特网协议(IP)电话,和卫星通信系统。尤其重要的应用是移动用户的无线电话。
已经发展了各种空中接口用于无线通信系统,包括如频分多址(FDMA)、时分多址(TDMA)、和码分多址(CDMA)。在与之的连接中,建立了各种国内和国际的标准,包括如高级移动电话业务(AMPS),全球移动通信系统(GSM)、和临时标准(IS-95)。典型的无线电话通信系统是码分多址(CDMA)系统。电信工业协会(TIA)和其它公知的标准团体颁布了IS-95标准及其衍生物IS-95A、ANSIJ-STD-008、IS-95B、提议的第三代标准的IS-95C和IS-2000等等(这里统称为IS-95),以规定CDMA空中接口在蜂窝或PCS电话通信系统中的使用。美国专利号5,103,459和4,901,307中描述了根据使用IS-95标准实质性构造的典型无线通信系统,这两个申请都转让给本发明的受让人,并通过引用全面结合于此。
使用通过提取关于人类语言产生模型的参数以压缩语言技术的装置称为语言编码器。语言编码器将输入语言信号分成时间块或分析帧。语言编码器通常包括编码器和解码器。编码器分析输入语言帧,以提取某些相关的参数,然后将参数量化成二进制表示,也就是一组比特或二进制数据包。在通信信道上将数据包从接收机发送到解码器。解码器处理数据包,将它们去量化以产生参数,并使用去量化参数再合成语言帧。
语言编码器的功能是通过除去语言中的所有固有冗余将数字化的语言信号压缩成低比特率的信号。通过用一组参数表示输入语言帧并使用量化用一组比特表示参数,以实现数字压缩。如果输入语言帧具有比特数Ni且语言编码器产生的数据包具有比特数No,那么语言编码器获得的压缩因数为Cr=Ni/No。问题是在获得目标压缩因数的同时要保持解码语言的高话音质量。语言编码器的性能依赖于(1)语言模型、或上述分析和合成过程的组合执行得多好,(2)以目标比特率每帧No比特执行的参数量化过程执行得多好。因此,语言模型的目标是用每个帧一小组参数获取语言信号的本质,或目标语言质量。
也许语言编码器设计中最重要的是搜索一组好的参数(包括向量),以描述语言信号。一组好的参数要求有较低的系统带宽,用于感觉上精确的语言信号的重建。音调、信号功率、频谱包络(或共振峰),振幅和相位谱都是语言编码参数的实例。
语言编码器可以是时域编码器,它通过使用较高的时间分辨处理每次对小片段语言(通常是5毫秒(ms)子帧)编码,以试图获取时域语言波形。对于每个子帧,通过本领域所熟知的各种搜索算法从码本空间找出高精度的表示。另外,语言编码器可以用频域编码器实现,它试图用一组参数(分析)获取输入语言帧的短期语言频谱,并使用相应的合成过程从频谱参数中重建语言波形。参数量化器根据A.Gersho & R.M.Gray,VectorQuantization and Signal Compression(1992)中描述的熟知的量化技术通过用存储的代码向量表示法表示参数,以保存参数。
公知的时域语言编码器是L.B.Rabiner & R.W.Schafer,Digital Processingof Speech Signal 396-453(1978)中描述的代码受激线性预测编码器(CELP),它通过引用全面结合于此。在CELP编码器中,线性预测(LP)分析除去语言信号中的短期相关或冗余,它找出短期共振峰滤波器的系数。将短期预测滤波器施加到输入语言帧产生LP剩余信号,用长期预测滤波器参数和随后的随机码本将该信号进一步模型化和量化。因此,CELP编码将时域语言波形的编码任务分成LP短期滤波器系数编码和LP剩余编码的分开的任务。可以以固定的速率(也就是对每个帧使用相同的比特数No)或变化的速率(其中不同比特率用于不同类型的帧内容)执行时域编码。变化速率编码器试图只使用将编译码参数编码以达到目标质量水平所需的比特量。美国专利号5,414,796中描述了典型的变化速率CELP编码器,该申请转让给了本发明的受让人,并通过引用全面结合于此。
时域编码器如CELP编码器通常依赖于每帧高的比特数No,以保持时域语言波形的精确度。这种编码器通常传送由相对大的每帧比特数No(如8kbps或更大)提供的较好语言质量。然而,在低比特率(4kbps或更低)时,由于有限的可获得比特数,时域编码器就不能保持高质量和稳健的性能。在低比特率时,有限的码本空间箝制了传统时域编码器的波形匹配能力,编码器在较高速率的工业应用中已成功发展。因此,尽管随着时间推移而进行了改进,但是以低比特率工作的很多CELP编码系统遭受感觉上严重的失真,通常表征为噪声。
当前涌现了研究兴趣和较强的工业需要以发展在中到低比特率(也就是在2.4到4kbps范围内或更小)上工作的高质量的语言编码器。应用领域包括无线电话、卫星通信、因特网电话、各种多媒体和话音流应用、话音邮件和其它语音存储系统。驱动力是高容量的需要和在包丢失情况下的稳键性能的要求。各种近来的语言编码标准化努力是另一直接驱动力,用于推进低速率语言编码算法的研究和发展。低速率语言编码器在每个允许的应用带宽中产生更多的信道或用户,而且与适当的信道编码附加层耦合的低速率语言编码器能够适应编码器规范的总比特预算,并能在信道误差条件下传送较稳健的性能。
以低比特率将语言高效编码的有效技术是多模编码。1998年12月21日提交的美国申请序号09/217,341题为“VARIABLE RATE SPEECH CODING”的申请中描述了典型的多模编码技术,该申请转让给了本发明的受让人,并通过引用全面结合于此。传统的多模编码对于不同类型的输入语言帧使用不同的模式或编码-解码算法。定制每种模式或编码-解码过程以最佳地用最有效地方式表示某些类型的语言片段,如有声语言、无声语言、过渡语言(例介于有声和无声之间)、和背景噪声(无语言)。外部、开环模式判定机构测试输入语言帧,并确定对该帧施加何种模式。通常通过从输入帧中提取多个参数,估计关于某些时频特征的参数,并使模式判定基于该估计,以执行开环模式判定。因此,进行模式判定无需事先知道输出语言的精确情况,也就是在语言质量或其它性能测量方面输出语言和输入语言有多接近。
以大约2.4kbps速率工作的编码系统一般在本质上是参数式的。也就是说,这种编码系统通过在规则时间间隔上发送表示语言信号音调周期和频谱包络(或共振峰)的参数而进行工作。这些所谓参数编码器的实例是LP声音编码器系统。
LP声音编码器用每个音调周期的单脉冲模型化有声语言信号。可以增广该基本技术,包括还另外发送关于频谱包络的信息。虽然LP声音编码器一般提供合理的性能,但是它们可能传入感觉上严重的失真,典型的表征为蜂音。
近几年来,形成了混合波形编码器和参数编码器的编码器。这些所谓混合编码器的实例是原型波形内插(PWI)语言编码系统。PWI编码系统也熟知为原型音调周期(PPP)语言编码器。PWI编码系统提供将有声语言编码的有效方法。PWI的基本概念是在固定时间间隔提取典型音调周期(原型波形),发送它的描述,并通过在原型波形中内插而重建语言信号。PWI方法可用于对LP剩余信号或语言信号操作。1998年12月21日提交的美国申请序号09/217,494题为“PERIODICSPEECH CODING”的申请中描述了典型的PWI或PPP语言编码器,该申请转让给了本发明的受让人,并通过引用全面结合于此。美国专利号5,884,253中和W.Bastiaan Kleijn & Wolfgang Granzow,Methods for Waveform Interpolationin Speech Coding,in 1 Digital Signal Processing 215-230(1991)中描述了其它PWI或PPP语言编码器。
传统的低比特率、变化速率语言编码器根据帧的能量使用开环编码模式判定,以确定何时将较低的编码率切换成较高的编码率。这允许语言编码器使用存在的不同分类的语言,并以不同的速率将它们编码。然而,以开环分类确定的速率编码可能导致使特定帧具有较差或普通的质量。因此,改进开环判定的效率是有利的。期望使用质量估计以改变(也就是如果必要就增加)给定帧的编码率。然而,提高帧的编码率将改变(增加)语言编码器的平均编码率。因此提供语言编码器保持固定平均比特率,同时允许一帷一帧的基础上的编码率偏离开环分类所确定的值是更有利的。还期望指定语言编码器的目标平均速率。保持语言编码器的目标总比特率是更有利的。因此,需要语言编码器,用于精细化带有闭环判定过程的编码模式判定,以给出最佳的话音质量,并保持目标编码比特率。
发明内容
本发明是针对语言编码器,用于精细化带有闭环判定过程的编码模式判定,以给出最佳的话音质量,并保持目标编码比特率。因此,本发明的一方面,在被构造成以变化的编码率将多个帧编码的语言编码器中,保持语言编码器目标平均比特率的方法最好包括以下步骤:以预选编码率将帧编码;计算预定个数编码帧的运行平均比特率;从预定目标平均比特率中减去运行平均比特率,以获得差值;用差值除以预选的编码率以获得商值;如果商值小于零,累加第一预定个数可能小于当前性能阈值的语言编码器性能阈值的具体值,以产生第一累加值,选择语言编码器性能阈值具体值的预定个数,使得第一累加值大于商值的绝对值;如果商值小于零,从当前性能阈值中减去两项的乘积,其中一项是每个语言编码器性能阈值具体值的减小量,另一项是语言编码器性能阈值具体值的第一预定个数,以获得新的性能阈值;如果商值大于或等于零,累加第二预定个数可能大于当前性能阈值的语言编码器性能阈值的具体值,以产生第二累加值,选择语言编码器性能阈值出现值的预定个数,使得第二累加值大于商值;并且如果商值大于或等于零,将每个语言编码器性能阈值具体值的增加量和语言编码器性能阈值的第二预定出现个数的乘积与当前性能阈值相加,以获得新的性能阈值。
本发明的另一方面,编码器最好包括以预选编码率将帧编码的装置;计算预定个数编码帧的运行平均比特率的装置;从预定目标平均比特率中减去运行平均比特率以获得差值的装置;用差值除以预选的编码率以获得商值的装置;累加第一预定个数可能小于当前性能阈值的语言编码器性能阈值的具体值,以产生第一累加值,选择语言编码器性能阈值具体值的预定个数,使得第一累加值大于商值的绝对值的装置;从当前性能阈值中减去两项的乘积,其中一项是每个语言编码器性能阈值具体值的减小量,另一项是语言编码器性能阈值具体值的第一预定个数,如果商值小于零,以获得新的性能阈值的装置;累加第二预定的可能大于当前性能阈值的语言编码器性能阈值的具体值个数,以产生第二累加值,选择语言编码器性能阈值具体值的预定个数,使得第二累加值大于商值的装置;和将每个语言编码器性能阈值具体值的增加量和语言编码器性能阈值具体值的第二预定个数的乘积与当前性能阈值相加,如果商值小于零,以获得新的性能阈值。
本发明的另一方面,语言编码器最好包括分析模块,用于分析多个帧;和量化模块,耦合到分析模块用于将分析模块产生的帧参数编码,其中量化模块还被构造成以预选编码率将帧编码;计算预定个数编码帧的运行平均比特率;从预定目标平均比特率中减去运行平均比特率,以获得差值;用差值除以预选的编码率以获得商值;累加第一预定的可能小于当前性能阈值的语言编码器性能阈值的具体值个数,以产生第一累加值,选择语言编码器性能阈值具体值的预定个数,使得第一累加值大于商值的绝对值;从当前性能阈值中减去两项的乘积,其中一项是每个语言编码器性能阈值具体值的减小量,另一项是语言编码器性能阈值具体值的第一预定个数,如果商值小于零,以获得新的性能阈值;累加第二预定个数可能大于当前性能阈值的语言编码器性能阈值的具体值,以产生第二累加值,选择语言编码器性能阈值具体值的预定个数,使得第二累加值大于商值;并将每个语言编码器性能阈值具体值的增加量和语言编码器性能阈值具体值的第二预定个数的乘积与当前性能阈值相加,如果商值大于或等于零,以获得新的性能阈值。
附图说明
图1是无线电话系统的框图。
图2是语言编码器在每个终端处终止的通信信道的框图。
图3是编码器的框图。
图4是解码器的框图。
图5是表示语言编码判定过程的流程图。
图6A是语言信号振幅相对于时间的图像;图6B是线性预测(LP)剩余振幅相对于时间的图像。
图7是原型音调周期(PPP)语言编码器的框图。
图8是表示语言编码器执行的算法步骤的流程图,如图7的语言编码器,将闭环编码性能测量应用于每个被编码帧,并同时保持语言编码器的目标平均比特率。
图9是表示语言编码器执行的算法步骤的流程图,用于在语言帧的编码期间更新直方图区间的值。
较佳实施例的详细描述
这里以下所述的典型实施例存在于被构造成使用CDMA空中接口的无线电话通信系统中。然而,本领域熟练的技术人员应该理解使用本发明特征的子采样方法和装置可以存在于使用本领域熟练技术人员所熟知的较宽范围技术的任何各种通信系统中。
如图1所示,CDMA无线电话系统一般包括多个移动用户单元10、多个基站12、基站控制器(BSC)14,和移动交换中心(MSC)16。MSC 16被构造成与传统公共交换电话网(PSTN)18连接。MSC 16还被构造成与BSC 14连接。BSC 14还通过回传线路耦合到基站12。回传线路可以被构造成支持几个已知接口中的任何一个,如E1/T1、ATM、IP、PPP、Frame Relay、HDSL、ADSL或xDSL。应该理解系统中多于两个的BSC 14。每个基站12最好包括至少一个扇区(未图示),每个扇区包括一全向天线或从基站12指特定径向方向的天线。另一种情况是,每个扇区可以包括两个天线用于分集接收。每个基站12最好被设计成支持多个频率分配。扇区的相交和频率分配可以被称为CDMA信道。基站12也熟知为基站收发机子系统(BTS)12。另一种情况是,“基站”可用于工业中统称为BSC 14和一个和多个BTS 12。BTS 12也可以表示为“区站”12。另一种情况是,给定BTS 12的各个扇区可称为区站。移动用户单元10通常是蜂窝或PCS电话10。系统最好被构造成根据IS-95标准使用。
在蜂窝电话系统的典型工作中,基站12从移动单元组10接收反向链路信号组。移动单元10进行电话呼叫或其它通信。特定基站12接收到的每个反向链路信号在该基站12中被处理。所得的数据被发送到BSC 14。BSC 14提供呼叫源定位和移动管理功能,包括基站12之间软越区切换的控制。BSC 14还将接收到的数据发送到MSC 16,MSC 16为与PSTN 18接口提供附加的路由服务。类似地,PSTN 18和MSC 16连接,MSC 16和BSC 14连接,BSC 14依次控制基站12发送前向链路信号组到移动单元组10。
在图2中,第一编码器100接收数字化的语言样本s(n)并将样本s(n)编码,用于在传输介质102、或通信信道102上发送到第一解码器104。解码器104将编码语言样本解码,并合成输出语言信号SSYNTH(n)。为了在反方向上发送,第二编码器106将对通信信道108上传输的数字化语言样本s(n)编码。第二解码器110接收并将编码语言样本解码,产生合成的输出语言信号SSYNTH(n)。
语言样本s(n)表示根据本领域中各种熟知的任何方法数字化并量化的语言信号,这些方法例如包括脉冲编码调制(PCM)、压扩μ律、或A律。如本领域中所熟知的,语言样本s(n)组合成输入数据帧,其中每个帧包括预定个数的数字化语言样本s(n)。在典型实施例中,使用8kHz的采样速率,每个20ms的帧包括160个样本。在以下描述的实施例中,数据传输速率最好在帧到帧的基础上从13.2kbps(全速率)变化到6.2kbps(半速率)到2.6kbps(四分之一速率)到1kbps(八分之一速率)。数据传输速率的变化是有利的,因为对于包含相对较少语言信息的帧可以选用较低的比特率。本领域熟练的技术人员能够理解还可以使用其它采样速率和数据传输速率。
第一编码器100和第二解码器110一同组成第一语言编码器。语言编码器可用于发送语言信号的任何通信装置,包括如以上参考图1描述的用户单元、BTS或BSC。类似地,第二编码器106和第一解码器104一同组成第二语言编码器。本领域熟练的技术人员应该理解语言编码器可以用数字信号处理器(DSP)、专用集成电路(ASIC)、离散门逻辑、固件、或任何传统可编程软件模块和微处理器实现。软件模块可驻留在RAM存储器、快闪存储器、寄存器或本领域中所熟知的任何其它形式的可写存储媒介中。另一种情况是,任何传统的处理器、控制器或状态机械都可以替代微处理器。美国专利号5,727,123中中和1994年2月16日提交的美国申请序号08/197,417题为“VOCODER ASIC”的申请中都描述了专门为语言编码设计的典型ASIC,这两个申请都转让给了本发明的受让人,并通过引用全面结合于此。
在图3中,可用于语言编码器的编码器200包括模式判定模块202、音调估计模块204、LP分析模块206、LP分析滤波器208、LP量化模块210、和剩余量化模块212。输入语言帧s(n)提供给模式判定模块202、音调估计模块204、LP分析模块206、LP分析滤波器208。模式判定模块202根据每个输入语言帧s(n)的周期、能量信噪比(SNR)或过零速率以及其它特征产生模式索引IM和模式M。美国专利号5,911,128中描述了根据周期将语言帧分类的各种方法,该申请转让给了本发明的受让人,并通过引用全面结合于此。这种方法还结合入电信工业协会工业临时标准TIA/EIA IS-127和TIA/EIA IS-733。上述的美国申请序号09/217,341中还描述了典型的模式判定方案。
音调估计模块204根据每个输入语言帧s(n)产生音调索引IP和滞后值P0。LP分析模块206执行每个输入语言帧s(n)的线性预测分析,以产生LP参数a。LP参数a提供给LP量化模块210。LP量化模块210还接收模式M,以此执行模式依赖方式的量化过程。LP量化模块210产生LP索引ILP和量化LP参数。除了输入语言帧s(n)外LP分析滤波器208还接收量化LP参数。LP分析滤波器208产生LP剩余信号R[n],它表示输入语言帧s(n)和根据量化线性预测参数重建的语言之间的误差。LP剩余R[n]、模式M和量化LP参数被提供给剩余量化模块212。根据这些值,剩余量化模块212产生剩余索引IR和量化剩余信号
。
在图4中,可用于语言编码器的解码器300包括LP参数解码模块302、剩余解码模块304、模式解码模块306和LP合成滤波器308。模式解码模块306接收并将模式索引IM解码,从中产生模式M。LP参数解码模块302接收模式M和LP索引ILP。LP参数解码模块302将接收到的值解码,产生量化LP参数。剩余解码模块304接收剩余索引IR、音调索引IP、和模式索引IM。剩余解码模块304将接收到的值解码,产生量化剩余信号
。量化剩余信号
和量化LP参数被提供给LP合成滤波器308,它从中合成解码输出信号[n]。
本领域中熟知图3中编码器200和图4中解码器300中各种模块的操作和实施,并且在上述美国专利号5,414,196和L.B.Rabiner & R.W.Schafer,Digital Processing of Speech Signals 396-453(1978)中对其进行了描述。
如图5中流程图所示,根据一个实施例的语言编码器遵循处理语言样本用于发送的一组步骤。在步骤400中,语言编码器接收连续帧中的语言信号的数字样本。通过接收特定的帧,语言编码器进入步骤402。在步骤402中,语言编码器检测帧的能量。能量是帧中语言活动性的衡量。通过将数字化语言样本振幅的平方求和并将所得的能量和阈值比较,执行语言检测。在一个实施例中,阈值根据背景噪声电平的变化而改变。上述美国专利号5,414,796中描述了典型的可变阈值语言活动性检测器。一些无声的语言声很可能是极低能量样本,它可能被当做背景噪声而错误编码。为了防止这种情况的发生,使用低能量样本的频谱倾斜,以区别无声语言和背景噪声,如上述美国专利号5,414,796中所描述的。
在检测帧的能量之后,语言编码器执行步骤404。在步骤404中,语言编码器确定检测到的帧能量是否足以将帧分类为包含语言信息。如果检测到的帧能量低于预定的阈值等级,那么语言编码器执行步骤406。在步骤406中,语言编码器将帧作为背景噪声(也就是无语言或静音)编码。在一个实施例中,以1/8速率或1kbps将背景噪声帧编码。如果在步骤404中检测到的帧能量符合或超过预定的阈值等级,那么帧被分类为语言,语言编码器执行步骤408。
在步骤408中,语言编码器确定帧是否为无声语言,也就是语言编码器测试帧的周期性。各种已知的周期确定方法包括如使用零交叉和使用规一化自相关函数(NACF)。尤其,上述美国专利号5,911,128中和美国申请序号09/217,341中描述了使用零交叉和NACF检测周期。此外,以上用于区别有声语言和无声语言的方法被结合入电信工业协会临时标准TIA/EIA IS-127和TIA/EIA IS-733。如果在步骤408中确定帧是无声语言,语言编码器执行步骤410。在步骤410中,语言编码器将帧作为无声语言编码。在一个实施例中,以1/4速率或2.6kbps将无声语言帧编码。如果在步骤408中,确定帧不是无声语言,语言编码器执行步骤412。
在步骤412中,语言编码器使用本领域中熟知的周期检测方法确定帧是否是过渡语言,如上述美国专利号5,911,128中所描述的方法。如果确定帧是过渡语言,语言编码器执行步骤414。在步骤414中,将帧作为过渡语言(也就是从无声语言过渡到有声语言)编码。在一个实施例中,根据多脉冲内插编码法将过渡语言帧编码,1999年5月7日提交的美国申请序号09/307,294题为“MULTIPULSE INTERPOLATIVE CODING OF TRANSITION SPEECH FRAMES”的申请中描述了该方法,该申请转让给了本发明的受让人,并通过引用全面结合于此。在另一实施例中,以全速率或13.2kbps将过渡语言帧编码。
如果在步骤412中语言编码器确定帧不是过渡语言,那么语言编码器执行步骤416。在步骤416中,语言编码器将帧作为有声语言编码。在一个实施例中,可以以半速率或6.2kbps将有声语言帧编码。也可以以全速率或13.2kbps(或者在8k CELP编码器中以全速率8kbps)将有声语言帧编码。然而,本领域熟练的技术人员将理解以半速率将有声帧编码,通过开发有声帧的稳态本质,允许编码器节省有用的带宽。此外,不考虑有声语言编码所用的速率,最好使用来自过去帧的信息将有声语言编码,因此称为预测编码。
本领域熟练的技术人员应该理解遵循图5的步骤可以将语言信号或相应的LP剩余编码。从图6A的曲线图中可以看出作为时间函数的噪声、无声、过渡和有声语言的波形特征。从图6B的曲线图中可以看出作为时间函数的噪声、无声、过渡和有声LP剩余的波形特征。
如图7所示,在一个实施例中,原型音调周期(PPP)语言编码器500包括反向滤波器502、原型提取器504、原型量化器506、原型去量化器508、内插/合成模块510、和LPC合成模块512。语言编码器500最好作为DSP的一部分实现,并存在于如PCS或蜂窝电话系统的用户单元或基站中,或者在卫星系统的用户单元或网关中。
在语言编码器500中,数字化语言信号s(n)被提供给反向LP滤波器502,其中n是帧号。在特殊实施例中,帧长为20ms。根据以下等式计算反向滤波器A(z)的传递函数:
A(z)=1-a1z-1-a2z-2-...-aPz-P,
其中系数aI是滤波器抽头,它具有根据已知方法选出的预定值,上述美国专利号5,414,796中和美国申请序号09/217,494中描述了该方法,这两个申请都通过引用全面结合于此。数字p表示反向LP滤波器502用于预测目的的先前样本数。在特定的实施例中,p设置为10。
反向滤波器502将LP剩余信号r(n)提供给原型提取器504。原型提取器504从当前帧中提取原型。原型是当前帧的一部分,内插/合成模块510用类似地位于先前帧中的原型线性内插入当前帧,为了在解码器处重建LP剩余信号。
原型提取器504将原型提供给原型量化器506,量化器根据本领域中所熟知的各种量化技术中的任何一种将原型量化。可以通过查表(未图示)获得的量化值被装配成用于在信道上发送的数据包,该数据包包括滞后和其它码本参数。该数据包被提供给发射机(未图示),并通过信道被发射到接收机(未图示)。也就是说反向LP滤波器502、原型提取器504、和原型量化器506执行当前帧的PPP分析。
接收机接收数据包,并将数据包提供给原型去量化器508。原型去量化器508可以根据各种已知技术中的任何一种将数据包去量化。原型去量化器508将去量化的原型提供给内插/合成模块510。内插/合成模块510用类似地位于先前帧中的原型内插原型,以重建当前帧的LP剩余信号。最好根据美国专利号5,884,253和上述美国申请序号09/217,494中描述的已知方法实施内插和帧的合成。
内插/合成模块510将重建的LP剩余信号
提供给LPC合成模块512。LPC合成模块512还接收来自发射数据包的线谱对(LSP)值,它用于执行重建LP剩余信号
的LPC滤波,以产生当前帧的重建语言信号(n)。在另一实施例中,在执行当前帧的内插/合成之前,对于原型可以执行语言信号(n)的LPC合成。也就是说原型去量化器508、内插/合成模块510、和LPC合成模块512执行当前帧的PPP合成。
在一个实施例中,如图7中PPP语言编码器500的语言编码器将闭环编码性能测量应用于每个编码帧,并同时保持语言编码器的目标平均比特率。语言编码器可以是PPP语言编码器或任何其它类型的可以通过提高以每帧为基础的编码率以改进话音质量的低比特率语言编码器。
在语言帧(在一个实施例,一个帧包括20ms的语言片段)的开环分类之后,使用预选速率Rp对语言帧编码。然后执行闭环性能参数。用预选速率Rp完全或部分编码之后得到编码器性能测量值。相关领域中熟知的典型性能测量值包括如信噪比(SNR)、编码方案如PPP语言编码器中的SNR预测、预测误差量化SNR、相位量化SNR、振幅量化SNR、感觉SNR、和作为稳态测量值的当前和过去帧之间归一化的互相关。如果性能测量值PNM低于阈值PNM TH,那么编码率变化成期望编码方案给出较佳质量的值。通常,这意味着编码率的变化是增加。1998年11月13日提交的美国申请序号09/191,643题为“CLOSED-LOOP VARIABLE-RATE MULTIMODE PREDICTIVE SPEECH CODER”的申请中描述了保持可变速率语言编码器质量的典型闭环分类方案,该申请转让给了本发明的受让人,并通过引用全面结合于此。
性能测量值PNM最好用于更新当前阈值PNM_TH周围的阈值直方图。直方图用于用以下方式实现语言编码器平均比特率的总体控制。语言编码器计算W帧窗口上的运行平均比特率,在W帧之后将运行平均比特率清零,并再次计算下一W帧的运行平均比特率。在一个W帧周期的末端,从目标平均比特率AVR中减去平均比特率,将该差值除以初始预选的编码率值Rp。
如果除法AVR/RP的商值NR是正的,累加PNM_TH右边最初BR个区间或直方图直条宽度(也就是与高于阈值的编码率关联的最初BR个区间)的直方图值。最好选择BR的值,使得累加值大于NR。然后,阈值PNM_TH增加等于DTH_HI*BR的乘积的量值,其中DTH_HI是每个区间的增加量。应该注意到DTH_HI被首次初始化成适当的值。一个这种适当的值是(MAX_TH-PNM_TH)/HB(在下文中定义的参数)。
如果商值NR是负的,累加PNM_TH左边最初BL个区间的直方图值。最好选择BL的值,使得累加值大于-NR。然后阈值PNM_TH减小等于DTH_LO*BL的乘积的量值,其中DTH_LO是每个区间的减小量。应该注意到DTH_LO被首次初始化成适当的值。一个这种适当的值是(PNM_TH-MIN_TH)/HB(下文中定义的参数)。
性能阈值PNM_TH分别限制在最大值MAX_TH和最小值MIN_TH之间,如果这种最大值和最小值或它们的估计值已知。有利的是,如果需要每个区间的减小量DTH_LO和每个区间的增加量DTH_HI可以分别被更新成商值(PNM_TH-MIN_TH)/HB和(MAX_TH-PNM_TH)/HB,其中HB等于直方图中区间数的一半。当语言编码器完成了使W帧窗口的平均比特率接近于目标平均比特率AVR,所有直方图中2HB个区间的直方图值最好被清零。
在一个实施例中,在使用预选速率Rp编码期间发生直方图值的更新。这通过以下方式实现。首先,更新区间。设置阈值PNM_TH左边HB个区间中的每一个,对于阈值PNM_TH(阈值PNM_TH位于直方图的中心)左边的第i个区间等于PNM_TH-DTH_LO*i的差值。设置阈值PNM_TH右边HB个区间中的每一个,对于阈值PNM_TH右边的第i个区间等于PNM_TH+DTH_LO*i的和。其次,将包括当前性能测量值PNM的区间的直方图值增加1。
在一个实施例中,如图7中PPP语言编码器500的语言编码器执行图8流程图所示的算法步骤,它将闭环编码性能测量值PNM应用于每个帧,并同时保持语言编码器的目标平均比特率。语言编码器可以是PPP语言编码器或任何其它类型的能通过增加以每帧为基础的编码率而改进话音质量的低比特率语言编码器。
根据帧内容的开环分类,以速率Rp将当前语言帧编码。然后对帧进行闭环测试,使得如果语言编码性能测量值PNM低于性能阈值PNM_TH,就提高编码率。然后根据以下方法步骤调节阈值PNM_TH,以保持语言编码器的运行平均比特率,或接近于目标平均比特率AVR。
在步骤600中,语言编码器计算长度为W的帧窗口的运行平均比特率。然后语言编码器执行步骤602。在步骤602中语言编码器计算商值NR=(AVR-运行平均比特率)/Rp。然后语言编码器执行步骤604。在步骤604中语言编码器确定NR是否大于或等于零。如果NR大于或等于零,语言编码器执行步骤606。如果相反,NR不大于或等于零,语言编码器执行步骤608。
在步骤606中语言编码器累加PNM_TH(它位于直方图的中心)右边最初BR个直方图区间值,选择BR使得累加值大于NR。然后语言编码器执行步骤610。在步骤610中语言编码器将PNM_TH设置为等于PNM_TH和DTH_HI*BR之和,其中DTH_HI等于每个直方图区间的增加量。然后语言编码器执行步骤612。
在步骤608中语言编码器累加PNM_TH左边最初BL个直方图区间值,选择BL使得累加值大于-NR。然后语言编码器执行步骤614。在步骤614中语言编码器将PNM_TH设置为等于PNM_TH和DTH_LO*BR之差,其中DTH_LO等于每个直方图区间的减少量。然后语言编码器执行步骤612。
如果需要可以在步骤612之前执行分别将PNM_TH限制在最大值MAX_TH和最小值MIN_TH之间的步骤。此外,如果需要可以在步骤612之前,执行将每个区间减小量DTH_LO和每个区间增加量DTH_HI分别更新为商值(PNM_TH-MIN_TH)/HB和(MAX_TH-PNM_TH)/HB的步骤,其中HB等于直方图中区间数的一半。应该注意到DTH_HI和DTH_LO应该首次被初始化成适当的值,如分别为(MAX_TH-PNM_TH)/HB和(PNM_TH-MIN_TH)/HB。
在步骤612中,语言编码器将所有2HB个直方图区间的直方图值清零。然后语言编码器回到步骤600计算下一W帧的运行平均比特率。
在一个实施例中,语言编码器执行图9流程图所示的算法步骤,在以编码率Rp对W帧中每个帧的语言帧编码期间更新直方图区间值。在步骤700中,语言编码器设置阈值PNM_TH左边的所有直方图区间,对于阈值PNM_TH(阈值PNM_TH位于直方图的中心)左边的第i个区间等于PNM_TH-DTH_LO*i的差值。然后语言编码器执行步骤702。步骤702中语言编码器设置阈值PNM_TH右边的所有直方图区间,对于阈值PNM_TH右边的第i个区间等于PNM_TH+DTH_HI*i的和。然后语言编码器执行步骤704。在步骤704中,语言编码器将包括当前性能测量值PNM的直方图区间值增加1。
因此,已经描述了语言编码器中保持目标比特率的新颖方法和装置。本领域熟练的技术人员将理解结合这里所揭示实施例描述的各种说明性逻辑模块和算法步骤可以通过以下装置实现或执行:数字信号处理器(DSP)、专用集成电路(ASIC)、离散门或晶体管逻辑、离散硬件如寄存器和FIFO,执行一组固件指令的处理器,或任何传统可编程软件模块和处理器。处理器最好是微处理器,但是另外处理器也可以是任何传统的处理器、控制器、微控制器、或状态机。软件模块可驻留在RAM存储器、快闪存储器、寄存器或本领域中所熟知的任何其它形式的可写存储媒介中。本领域熟练的技术人员还应该理解以上描述中参考的数据、指令、命令、信息、信号、比特、码元和码片最好用电压、电流、电磁波、磁场或粒子、光场或粒子或它们的任何其它组合表示。
因此显示并描述了本发明的较佳实施例。然而对本领域熟练的技术人员显而易见的是不脱离本发明的精神和范围可以对这里揭示的实施例进行各种变化。因此,本发明只受以下权利要求书的限制。
Claims (36)
1.在以变化的编码率将多个帧编码的语言编码器中,保持语言编码器目标平均比特率的方法,其特征在于,包括以下步骤:
以预选编码率将帧编码;
计算预定个数编码帧的运行平均比特率;
从预定目标平均比特率中减去运行平均比特率,以获得差值;
用差值除以预选的编码率以获得商值;
如果商值小于零,累加第一预定个数小于当前性能阈值的语言编码器性能阈值的可能具体值,以产生第一累加值,选择语言编码器性能阈值具体值的预定个数,使得第一累加值大于商值的绝对值;
如果商值小于零,从当前性能阈值中减去两项的乘积,其中一项是每个语言编码器性能阈值具体值的减小量,另一项是语言编码器性能阈值具体值的第一预定个数,以获得新的性能阈值;
如果商值大于或等于零,累加第二预定个数大于当前性能阈值的语言编码器性能阈值的可能具体值,以产生第二累加值,选择语言编码器性能阈值具体值的预定个数,使得第二累加值大于商值;和
如果商值大于或等于零,将每个语言编码器性能阈值具体值的增加量和语言编码器性能阈值具体值的第二预定个数的乘积与当前性能阈值相加,以获得新的性能阈值。
2.如权利要求1所述的方法,其特征在于,还包括以下步骤,将语言编码器性能和预定性能测量值比较,并且如果帧的语言编码器性能低于当前性能阈值,则调节帧的预选编码率。
3.如权利要求2所述的方法,其特征在于,调节步骤包括提高帧的编码率。
4.如权利要求2所述的方法,其特征在于,在编码步骤期间,还包括以下步骤:
对于每个小于当前性能阈值的语言编码器性能阈值的具体值,从当前性能阈值中减去两项的乘积,其中一项是每个语言编码器性能阈值具体值的减小量,另一项是语言编码器性能阈值的具体值和当前性能阈值之间的语言编码器性能阈值具体值数加1,并将语言编码器性能阈值的具体值设置成等于该减法的结果;
对于每个大于当前性能阈值的语言编码器性能阈值的具体值,将两项的乘积加上当前性能阈值,其中一项是每个语言编码器性能阈值具体值的增加量,另一项是语言编码器性能阈值的具体值和当前性能阈值之间的语言编码器性能阈值具体值数加1,并将语言编码器性能阈值的具体值设置成等于该加法的结果;和
将对应于当前语言编码器性能的语言编码器性能阈值的具体值增加1。
5.如权利要求1所述的方法,其特征在于,还包括从帧的开环分类中获得预选编码率的步骤。
6.如权利要求1所述的方法,其特征在于,还包括使当前性能阈值限制于最大值的步骤。
7.如权利要求1所述的方法,其特征在于,还包括使当前性能阈值限制于最小值的步骤。
8.如权利要求1所述的方法,其特征在于,还包括对每个语言编码器性能阈值具体值的减小量和每个语言编码器性能阈值具体值的增加量赋初值的步骤。
9.如权利要求1所述的方法,其特征在于,还包括在执行加或减步骤之后,对所有语言编码器性能阈值的具体值清零的步骤。
10.如权利要求1所述的方法,其特征在于,帧是语言帧。
11.如权利要求1所述的方法,其特征在于,帧是线性预测剩余帧。
12.如权利要求1所述的方法,其特征在于,语言编码器位于无线通信系统的用户单元中。
13.一种语言编码器,其特征在于,包括:
以预选编码率将帧编码的装置;
计算预定个数编码帧的运行平均比特率的装置;
从预定目标平均比特率中减去运行平均比特率以获得差值的装置;
用差值除以预选的编码率以获得商值的装置;
累加第一预定个数可能小于当前性能阈值的语言编码器性能阈值的具体值,以产生第一累加值,选择语言编码器性能阈值具体值的预定个数,使得第一累加值大于商值的绝对值的装置;
从当前性能阈值中减去两项的乘积,其中一项是每个语言编码器性能阈值具体值的减小量,另一项是语言编码器性能阈值具体值的第一预定个数,如果商值小于零,获得一新的性能阈值的装置;
累加第二预定个数可能大于当前性能阈值的语言编码器性能阈值的具体值,以产生第二累加值,选择语言编码器性能阈值具体值的预定个数,使得第二累加值大于商值的装置;和
将每个语言编码器性能阈值具体值的增加量和语言编码器性能阈值具体值的第二预定个数的乘积与当前性能阈值相加,如果商值小于零,获得一新的性能阈值。
14.如权利要求13所述的语言编码器,其特征在于,还包括将语言编码器性能和预定性能测量值比较的装置,和如果帧的语言编码器性能低于当前性能阈值,调节帧的预选编码率的装置。
15.如权利要求14所述的语言编码器,其特征在于,调节装置包括提高帧的编码率的装置。
16.如权利要求14所述的语言编码器,其特征在于,还包括:
在帧的编码期间,对于每个小于当前性能阈值的语言编码器性能阈值的具体值,从当前性能阈值中减去两项的乘积,其中一项是每个语言编码器性能阈值具体值的减小量,另一项是语言编码器性能阈值的具体值和当前性能阈值之间的语言编码器性能阈值具体值数加1,并将语言编码器性能阈值的具体值设置成等于该减法结果的装置;
在帧的编码期间,对于每个大于当前性能阈值的语言编码器性能阈值的具体值,将两项的乘积加上当前性能阈值,其中一项是每个语言编码器性能阈值具体值的增加量,另一项是语言编码器性能阈值的具体值和当前性能阈值之间的语言编码器性能阈值具体值数加1,并将语言编码器性能阈值的具体值设置成等于该加法结果的装置;和
在帧的编码期间,将对应于当前语言编码器性能的语言编码器性能阈值的具体值增加1的装置。
17.如权利要求13所述的语言编码器,其特征在于,还包括从帧的开环分类中获得预选编码率的装置。
18.如权利要求13所述的语言编码器,其特征在于,还包括使当前性能阈值限制于最大值的装置。
19.如权利要求13所述的语言编码器,其特征在于,还包括使当前性能阈值限制于最小值的装置。
20.如权利要求13所述的语言编码器,其特征在于,还包括对每个语言编码器性能阈值具体值的减小量和每个语言编码器性能阈值具体值的增加量赋初值的装置。
21.如权利要求13所述的语言编码器,其特征在于,还包括在调节当前性能阈值之后,对所有语言编码器性能阈值的具体值清零的装置。
22.如权利要求13所述的语言编码器,其特征在于,帧是语言帧。
23.如权利要求13所述的语言编码器,其特征在于,帧是线性预测剩余帧。
24.如权利要求13所述的语言编码器,其特征在于,语言编码器位于无线通信系统的用户单元中。
25.阈值语言编码器,其特征在于,包括:
分析模块,它被构造成分析多个帧;和
量化模块,它耦合到分析模块,并被构造成将分析模块产生的帧参数编码,
其中量化模块还被进一步构造成:
以预选编码率将帧编码;
计算预定个数编码帧的运行平均比特率;
从预定目标平均比特率中减去运行平均比特率,以获得差值;
用差值除以预选的编码率以获得商值;
累加第一预定个数可能小于当前性能阈值的语言编码器性能阈值的具体值,以产生第一累加值,选择语言编码器性能阈值具体值的预定个数,使得第一累加值大于商值的绝对值;
从当前性能阈值中减去两项的乘积,其中一项是每个语言编码器性能阈值具体值的减小量,另一项是语言编码器性能阈值具体值的第一预定个数,如果商值小于零,获得一新的性能阈值;
累加第二预定个数可能大于当前性能阈值的语言编码器性能阈值的具体值,以产生第二累加值,选择语言编码器性能阈值具体值的预定个数,使得第二累加值大于商值;和
将每个语言编码器性能阈值具体值的增加量和语言编码器性能阈值具体值的第二预定个数的乘积与当前性能阈值相加,如果商值大于或等于零,获得一新的性能阈值。
26.如权利要求25所述的语言编码器,其特征在于,量化模块还被构造成将语言编码器性能和预定性能测量值比较,并且如果帧的语言编码器性能低于当前性能阈值,就调节帧的预选编码率。
27.如权利要求26所述的语言编码器,其特征在于,以增加调节编码率。
28.如权利要求26所述的语言编码器,其特征在于,量化模块还被构造成:
在帧的编码期间,对于每个小于当前性能阈值的语言编码器性能阈值的具体值,从当前性能阈值中减去两项的乘积,其中一项是每个语言编码器性能阈值具体值的减小量,另一项是语言编码器性能阈值的具体值和当前性能阈值之间的语言编码器性能阈值具体值数加1,并将语言编码器性能阈值的具体值设置成等于该减法的结果;
在帧的编码期间,对于每个大于当前性能阈值的语言编码器性能阈值的具体值,将两项的乘积加上当前性能阈值,其中一项是每个语言编码器性能阈值具体值的增加量,另一项是语言编码器性能阈值的具体值和当前性能阈值之间的语言编码器性能阈值具体值数加1,并将语言编码器性能阈值的具体值设置成等于该加法的结果;和
在帧的编码期间,将对应于当前语言编码器性能的语言编码器性能阈值的具体值增加1。
29.如权利要求25所述的语言编码器,其特征在于,量化模块还被构造成从帧的开环分类中获得预选编码率。
30.如权利要求25所述的语言编码器,其特征在于,量化模块还被构造成使当前性能阈值限制于最大值。
31.如权利要求25所述的语言编码器,其特征在于,量化模块还被构造成使当前性能阈值限制于最小值。
32.如权利要求25所述的语言编码器,其特征在于,量化模块还被构造成对每个语言编码器性能阈值具体值的减小量和每个语言编码器性能阈值具体值的增加量赋初值。
33.如权利要求25所述的语言编码器,其特征在于,量化模块还被构造成在调节当前性能阈值之后,将所有语言编码器性能阈值的具体值清零。
34.如权利要求25所述的语言编码器,其特征在于,帧是语言帧。
35.如权利要求25所述的语言编码器,其特征在于,帧是线性预测剩余帧。
36.如权利要求25所述的语言编码器,其特征在于,语言编码器位于无线通信系统的用户单元中。
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US09/356,493 US6330532B1 (en) | 1999-07-19 | 1999-07-19 | Method and apparatus for maintaining a target bit rate in a speech coder |
US09/356,493 | 1999-07-19 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN1361912A true CN1361912A (zh) | 2002-07-31 |
CN1161749C CN1161749C (zh) | 2004-08-11 |
Family
ID=23401670
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CNB008105979A Expired - Fee Related CN1161749C (zh) | 1999-07-19 | 2000-07-19 | 保持语言编码中目标比特率的方法和装置 |
Country Status (12)
Country | Link |
---|---|
US (1) | US6330532B1 (zh) |
EP (1) | EP1214705B1 (zh) |
JP (1) | JP4782332B2 (zh) |
KR (1) | KR100754591B1 (zh) |
CN (1) | CN1161749C (zh) |
AT (1) | ATE288122T1 (zh) |
AU (1) | AU6112000A (zh) |
BR (1) | BR0012538A (zh) |
DE (1) | DE60017763T2 (zh) |
ES (1) | ES2240121T3 (zh) |
HK (1) | HK1045397B (zh) |
WO (1) | WO2001006490A1 (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102483922A (zh) * | 2009-06-29 | 2012-05-30 | 三星电子株式会社 | 使用加权线性预测变换对音频信号进行编码和解码的设备和方法 |
CN107004409A (zh) * | 2014-09-26 | 2017-08-01 | 密码有限公司 | 利用运行范围归一化的神经网络语音活动检测 |
Families Citing this family (23)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US6456964B2 (en) * | 1998-12-21 | 2002-09-24 | Qualcomm, Incorporated | Encoding of periodic speech using prototype waveforms |
EP1095370A1 (en) * | 1999-04-05 | 2001-05-02 | Hughes Electronics Corporation | Spectral phase modeling of the prototype waveform components for a frequency domain interpolative speech codec system |
US6954727B1 (en) * | 1999-05-28 | 2005-10-11 | Koninklijke Philips Electronics N.V. | Reducing artifact generation in a vocoder |
US6658112B1 (en) * | 1999-08-06 | 2003-12-02 | General Dynamics Decision Systems, Inc. | Voice decoder and method for detecting channel errors using spectral energy evolution |
EP1338114B1 (en) * | 2000-11-30 | 2009-03-11 | ArrayComm LLC | Training sequence for a radio communications system |
US8090577B2 (en) * | 2002-08-08 | 2012-01-03 | Qualcomm Incorported | Bandwidth-adaptive quantization |
GB0321093D0 (en) * | 2003-09-09 | 2003-10-08 | Nokia Corp | Multi-rate coding |
US7483701B2 (en) * | 2005-02-11 | 2009-01-27 | Cisco Technology, Inc. | System and method for handling media in a seamless handoff environment |
US7634413B1 (en) * | 2005-02-25 | 2009-12-15 | Apple Inc. | Bitrate constrained variable bitrate audio encoding |
US8090573B2 (en) * | 2006-01-20 | 2012-01-03 | Qualcomm Incorporated | Selection of encoding modes and/or encoding rates for speech compression with open loop re-decision |
US8346544B2 (en) * | 2006-01-20 | 2013-01-01 | Qualcomm Incorporated | Selection of encoding modes and/or encoding rates for speech compression with closed loop re-decision |
US8032369B2 (en) * | 2006-01-20 | 2011-10-04 | Qualcomm Incorporated | Arbitrary average data rates for variable rate coders |
US8260609B2 (en) | 2006-07-31 | 2012-09-04 | Qualcomm Incorporated | Systems, methods, and apparatus for wideband encoding and decoding of inactive frames |
US8725499B2 (en) * | 2006-07-31 | 2014-05-13 | Qualcomm Incorporated | Systems, methods, and apparatus for signal change detection |
US8532984B2 (en) * | 2006-07-31 | 2013-09-10 | Qualcomm Incorporated | Systems, methods, and apparatus for wideband encoding and decoding of active frames |
US8780717B2 (en) * | 2006-09-21 | 2014-07-15 | General Instrument Corporation | Video quality of service management and constrained fidelity constant bit rate video encoding systems and method |
EP1918909B1 (en) * | 2006-11-03 | 2010-07-07 | Psytechnics Ltd | Sampling error compensation |
US8279889B2 (en) * | 2007-01-04 | 2012-10-02 | Qualcomm Incorporated | Systems and methods for dimming a first packet associated with a first bit rate to a second packet associated with a second bit rate |
US9653088B2 (en) * | 2007-06-13 | 2017-05-16 | Qualcomm Incorporated | Systems, methods, and apparatus for signal encoding using pitch-regularizing and non-pitch-regularizing coding |
US8600740B2 (en) * | 2008-01-28 | 2013-12-03 | Qualcomm Incorporated | Systems, methods and apparatus for context descriptor transmission |
FR2944640A1 (fr) * | 2009-04-17 | 2010-10-22 | France Telecom | Procede et dispositif d'evaluation objective de la qualite vocale d'un signal de parole prenant en compte la classification du bruit de fond contenu dans le signal. |
US9263054B2 (en) * | 2013-02-21 | 2016-02-16 | Qualcomm Incorporated | Systems and methods for controlling an average encoding rate for speech signal encoding |
US9437205B2 (en) * | 2013-05-10 | 2016-09-06 | Tencent Technology (Shenzhen) Company Limited | Method, application, and device for audio signal transmission |
Family Cites Families (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US4901307A (en) | 1986-10-17 | 1990-02-13 | Qualcomm, Inc. | Spread spectrum multiple access communication system using satellite or terrestrial repeaters |
EP0725384A3 (en) * | 1988-05-26 | 1996-12-27 | Pacific Comm Sciences Inc | Adaptive transform coding |
US5103459B1 (en) | 1990-06-25 | 1999-07-06 | Qualcomm Inc | System and method for generating signal waveforms in a cdma cellular telephone system |
ES2225321T3 (es) | 1991-06-11 | 2005-03-16 | Qualcomm Incorporated | Aparaato y procedimiento para el enmascaramiento de errores en tramas de datos. |
US5884253A (en) | 1992-04-09 | 1999-03-16 | Lucent Technologies, Inc. | Prototype waveform speech coding with interpolation of pitch, pitch-period waveforms, and synthesis filter |
US5784532A (en) | 1994-02-16 | 1998-07-21 | Qualcomm Incorporated | Application specific integrated circuit (ASIC) for performing rapid speech compression in a mobile telephone system |
US5761636A (en) * | 1994-03-09 | 1998-06-02 | Motorola, Inc. | Bit allocation method for improved audio quality perception using psychoacoustic parameters |
TW271524B (zh) | 1994-08-05 | 1996-03-01 | Qualcomm Inc | |
US5668925A (en) * | 1995-06-01 | 1997-09-16 | Martin Marietta Corporation | Low data rate speech encoder with mixed excitation |
JPH10247098A (ja) * | 1997-03-04 | 1998-09-14 | Mitsubishi Electric Corp | 可変レート音声符号化方法、可変レート音声復号化方法 |
BR9804811A (pt) * | 1997-04-07 | 1999-08-17 | Koninkl Philips Electronics Nv | Sistema de transmissÆo transmissor codificador de voz e processo de codifica-Æo de voz |
JP2002530706A (ja) * | 1998-11-13 | 2002-09-17 | クゥアルコム・インコーポレイテッド | 閉ループ可変速度マルチモード予測スピーチコーダ |
-
1999
- 1999-07-19 US US09/356,493 patent/US6330532B1/en not_active Expired - Lifetime
-
2000
- 2000-07-19 WO PCT/US2000/019670 patent/WO2001006490A1/en active IP Right Grant
- 2000-07-19 ES ES00947533T patent/ES2240121T3/es not_active Expired - Lifetime
- 2000-07-19 DE DE60017763T patent/DE60017763T2/de not_active Expired - Lifetime
- 2000-07-19 BR BR0012538-5A patent/BR0012538A/pt not_active IP Right Cessation
- 2000-07-19 JP JP2001511665A patent/JP4782332B2/ja not_active Expired - Fee Related
- 2000-07-19 KR KR1020027000693A patent/KR100754591B1/ko active IP Right Grant
- 2000-07-19 EP EP00947533A patent/EP1214705B1/en not_active Expired - Lifetime
- 2000-07-19 CN CNB008105979A patent/CN1161749C/zh not_active Expired - Fee Related
- 2000-07-19 AU AU61120/00A patent/AU6112000A/en not_active Abandoned
- 2000-07-19 AT AT00947533T patent/ATE288122T1/de not_active IP Right Cessation
-
2002
- 2002-09-20 HK HK02106875.5A patent/HK1045397B/zh not_active IP Right Cessation
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102483922A (zh) * | 2009-06-29 | 2012-05-30 | 三星电子株式会社 | 使用加权线性预测变换对音频信号进行编码和解码的设备和方法 |
CN107004409A (zh) * | 2014-09-26 | 2017-08-01 | 密码有限公司 | 利用运行范围归一化的神经网络语音活动检测 |
CN107004409B (zh) * | 2014-09-26 | 2021-01-29 | 密码有限公司 | 利用运行范围归一化的神经网络语音活动检测 |
Also Published As
Publication number | Publication date |
---|---|
ES2240121T3 (es) | 2005-10-16 |
JP2003505723A (ja) | 2003-02-12 |
HK1045397A1 (en) | 2002-11-22 |
KR100754591B1 (ko) | 2007-09-05 |
ATE288122T1 (de) | 2005-02-15 |
US6330532B1 (en) | 2001-12-11 |
CN1161749C (zh) | 2004-08-11 |
AU6112000A (en) | 2001-02-05 |
EP1214705B1 (en) | 2005-01-26 |
DE60017763D1 (de) | 2005-03-03 |
HK1045397B (zh) | 2005-04-22 |
JP4782332B2 (ja) | 2011-09-28 |
WO2001006490A1 (en) | 2001-01-25 |
EP1214705A1 (en) | 2002-06-19 |
DE60017763T2 (de) | 2006-01-12 |
BR0012538A (pt) | 2002-07-02 |
KR20020013963A (ko) | 2002-02-21 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN1161749C (zh) | 保持语言编码中目标比特率的方法和装置 | |
CN1223989C (zh) | 可变速率语音编码器中的帧擦除补偿法及用该方法的装置 | |
CN1158647C (zh) | 话音编码设备的频谱幅度量化 | |
CN1148721C (zh) | 提供解码器到编码器的反馈以改进帧删除情况下预测语言编码装置性能的方法和装置 | |
CN1432176A (zh) | 用于预测量化有声语音的方法和设备 | |
JP4511094B2 (ja) | 音声コーダにおける線スペクトル情報量子化方法を交錯するための方法および装置 | |
CN1290077C (zh) | 用来对相位谱信息进行子抽样的方法和设备 | |
WO2004015689A1 (en) | Bandwidth-adaptive quantization | |
CN1271596C (zh) | 话音编码设备中计算帧原型间线性相移的频带识别方法和装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
C14 | Grant of patent or utility model | ||
GR01 | Patent grant | ||
REG | Reference to a national code |
Ref country code: HK Ref legal event code: GR Ref document number: 1045397 Country of ref document: HK |
|
CF01 | Termination of patent right due to non-payment of annual fee |
Granted publication date: 20040811 Termination date: 20190719 |
|
CF01 | Termination of patent right due to non-payment of annual fee |