CN102067212A - 用于低位速率应用的对过渡语音帧的译码 - Google Patents
用于低位速率应用的对过渡语音帧的译码 Download PDFInfo
- Publication number
- CN102067212A CN102067212A CN2009801231388A CN200980123138A CN102067212A CN 102067212 A CN102067212 A CN 102067212A CN 2009801231388 A CN2009801231388 A CN 2009801231388A CN 200980123138 A CN200980123138 A CN 200980123138A CN 102067212 A CN102067212 A CN 102067212A
- Authority
- CN
- China
- Prior art keywords
- frame
- tone
- peak value
- value
- shape
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 claims abstract description 147
- 238000005086 pumping Methods 0.000 claims description 66
- 238000012360 testing method Methods 0.000 claims description 42
- 238000001514 detection method Methods 0.000 claims description 22
- 239000000523 sample Substances 0.000 description 118
- 230000007704 transition Effects 0.000 description 114
- 238000010586 diagram Methods 0.000 description 81
- 230000000875 corresponding effect Effects 0.000 description 52
- 230000008569 process Effects 0.000 description 41
- 239000013598 vector Substances 0.000 description 31
- 238000004891 communication Methods 0.000 description 18
- 239000002131 composite material Substances 0.000 description 17
- 239000004148 curcumin Substances 0.000 description 17
- 238000001228 spectrum Methods 0.000 description 17
- 238000005070 sampling Methods 0.000 description 16
- 239000001752 chlorophylls and chlorophyllins Substances 0.000 description 14
- 238000013139 quantization Methods 0.000 description 14
- 239000004334 sorbic acid Substances 0.000 description 14
- 230000002596 correlated effect Effects 0.000 description 13
- 239000004173 sunset yellow FCF Substances 0.000 description 13
- 239000004233 Indanthrene blue RS Substances 0.000 description 12
- 230000005540 biological transmission Effects 0.000 description 12
- 230000000737 periodic effect Effects 0.000 description 11
- 239000005711 Benzoic acid Substances 0.000 description 10
- 230000033228 biological regulation Effects 0.000 description 10
- 239000004106 carminic acid Substances 0.000 description 10
- 230000008878 coupling Effects 0.000 description 10
- 238000010168 coupling process Methods 0.000 description 10
- 238000005859 coupling reaction Methods 0.000 description 10
- 238000005516 engineering process Methods 0.000 description 10
- 238000001914 filtration Methods 0.000 description 10
- 238000004364 calculation method Methods 0.000 description 9
- 239000004291 sulphur dioxide Substances 0.000 description 9
- 230000008859 change Effects 0.000 description 8
- 230000000694 effects Effects 0.000 description 8
- 230000002123 temporal effect Effects 0.000 description 8
- 238000004458 analytical method Methods 0.000 description 7
- 238000005259 measurement Methods 0.000 description 7
- 230000009466 transformation Effects 0.000 description 7
- 230000001747 exhibiting effect Effects 0.000 description 6
- 239000004300 potassium benzoate Substances 0.000 description 6
- 238000011002 quantification Methods 0.000 description 6
- 239000004149 tartrazine Substances 0.000 description 6
- 239000011668 ascorbic acid Substances 0.000 description 5
- 238000013500 data storage Methods 0.000 description 5
- 238000010606 normalization Methods 0.000 description 5
- 206010038743 Restlessness Diseases 0.000 description 4
- 238000005311 autocorrelation function Methods 0.000 description 4
- 238000006243 chemical reaction Methods 0.000 description 4
- 230000005284 excitation Effects 0.000 description 4
- 238000004088 simulation Methods 0.000 description 4
- 230000036962 time dependent Effects 0.000 description 4
- 241001185697 Fenestella Species 0.000 description 3
- 230000000903 blocking effect Effects 0.000 description 3
- 230000001413 cellular effect Effects 0.000 description 3
- 238000006073 displacement reaction Methods 0.000 description 3
- 230000007774 longterm Effects 0.000 description 3
- 239000003550 marker Substances 0.000 description 3
- 230000002194 synthesizing effect Effects 0.000 description 3
- 125000002015 acyclic group Chemical group 0.000 description 2
- 239000004403 ethyl p-hydroxybenzoate Substances 0.000 description 2
- 238000007689 inspection Methods 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- 239000004302 potassium sorbate Substances 0.000 description 2
- 238000012545 processing Methods 0.000 description 2
- 230000004044 response Effects 0.000 description 2
- 239000004065 semiconductor Substances 0.000 description 2
- 230000003595 spectral effect Effects 0.000 description 2
- 230000009471 action Effects 0.000 description 1
- 230000008901 benefit Effects 0.000 description 1
- 238000004422 calculation algorithm Methods 0.000 description 1
- 230000006835 compression Effects 0.000 description 1
- 238000007906 compression Methods 0.000 description 1
- 238000004590 computer program Methods 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 230000007423 decrease Effects 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000011156 evaluation Methods 0.000 description 1
- 238000000605 extraction Methods 0.000 description 1
- 230000008676 import Effects 0.000 description 1
- 238000003780 insertion Methods 0.000 description 1
- 230000037431 insertion Effects 0.000 description 1
- 230000008447 perception Effects 0.000 description 1
- 238000006116 polymerization reaction Methods 0.000 description 1
- 238000004080 punching Methods 0.000 description 1
- 238000011084 recovery Methods 0.000 description 1
- 230000009467 reduction Effects 0.000 description 1
- 230000002441 reversible effect Effects 0.000 description 1
- 230000035945 sensitivity Effects 0.000 description 1
- 230000005236 sound signal Effects 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
- 230000001360 synchronised effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/04—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
- G10L19/16—Vocoder architecture
- G10L19/18—Vocoders using multiple modes
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/04—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
- G10L19/16—Vocoder architecture
- G10L19/18—Vocoders using multiple modes
- G10L19/20—Vocoders using multiple modes using sound class specific coding, hybrid encoders or object based coding
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/04—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
- G10L19/08—Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters
- G10L19/09—Long term prediction, i.e. removing periodical redundancies, e.g. by using adaptive codebook or pitch predictor
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/04—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
- G10L19/08—Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters
- G10L19/12—Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters the excitation function being a code excitation, e.g. in code excited linear prediction [CELP] vocoders
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/04—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
- G10L19/08—Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters
- G10L19/12—Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters the excitation function being a code excitation, e.g. in code excited linear prediction [CELP] vocoders
- G10L19/125—Pitch excitation, e.g. pitch synchronous innovation CELP [PSI-CELP]
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/04—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
- G10L19/16—Vocoder architecture
- G10L19/18—Vocoders using multiple modes
- G10L19/22—Mode decision, i.e. based on audio signal content versus external parameters
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/90—Pitch determination of speech signals
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/02—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
- G10L19/022—Blocking, i.e. grouping of samples in time; Choice of analysis windows; Overlap factoring
- G10L19/025—Detection of transients or attacks for time/frequency resolution switching
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Signal Processing (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Compression, Expansion, Code Conversion, And Decoders (AREA)
Abstract
本发明揭示用于过渡语音帧的低位速率译码的系统、方法和设备。
Description
技术领域
本发明涉及语音信号的处理。
背景技术
通过数字技术来传输音频信号(例如,话音和音乐)特别在长途电话、例如IP话音(还称为VoIP,其中IP表示因特网协议)的包交换电话,和例如蜂窝式电话的数字无线电电话中已变得普遍。此激增已产生对减小用以经由传输信道传送话音通信的信息量同时维持经重建语音的感知质量的兴趣。举例来说,需要最佳地利用可用无线系统带宽。有效使用系统带宽的一种方式为使用信号压缩技术。对于载运语音信号的无线系统来说,出于此目的通常使用语音压缩(或“语音译码”)技术。
经配置以通过提取与人类语音产生模型有关的参数来压缩语音的装置通常称为声码器、“音频译码器”或“语音译码器”。(本文中互换地使用这三个术语。)语音译码器通常包括编码器和解码器。编码器通常将传入的语音信号(表示音频信息的数字信号)划分成称为“帧”的时间区段,分析每一帧以提取某些相关参数,且将所述参数量化成经编码帧。经编码帧经由传输信道(即,有线或无线网络连接)传输到包括解码器的接收器。解码器接收并处理经编码帧、将其解量化以产生参数,且使用经解量化的参数来重新创建语音帧。
在典型通话中,每一说话者在约百分之六十的时间中不发声。语音编码器通常经配置以区别语音信号的含有语音的帧(“有效帧”)与语音信号的仅含有静默或背景噪声的帧(“无效帧”)。此编码器可经配置以使用不同译码模式和/或速率来编码有效与无效帧。举例来说,语音编码器通常经配置以与编码有效帧相比使用较少位来编码无效帧。语音译码器可对于无效帧使用较低位速率以支持在少许或甚至无察觉到的质量损失的情况下以较低平均位速率来传送语音信号。
用以编码有效帧的位速率的实例包括每帧171个位、每帧80个位和每帧40个位。用以编码无效帧的位速率的实例包括每帧16个位。在蜂窝式电话系统(尤其为依照如由电信工业协会(Arlington,VA)发布的临时标准(IS)-95或类似工业标准的系统)的情形下,这四个位速率还分别称作“全速率”、“半速率”、“四分之一速率”和“八分之一速率”。
发明内容
一种根据一个配置的编码语音信号的帧的方法包括编码语音信号的第一帧以作为第一经编码帧,和编码语音信号的第二帧以作为第二经编码帧。在此方法中,编码第一帧包括:基于来自第一帧的至少一个音调脉冲的信息而选择多个时域音调脉冲形状中的一者;计算第一帧的终端音调脉冲的位置;以及估计第一帧的音调周期。在此方法中,编码第二帧包括:计算在第二帧的音调脉冲形状与第一帧的音调脉冲形状之间的音调脉冲形状差别;以及计算在第二帧的音调周期与第一帧的音调周期之间的音调周期差别。在此方法中,第一经编码帧包括选定的时域音调脉冲形状、所计算位置和所估计音调周期中的每一者的表示。在此方法中,第二经编码帧包括音调脉冲形状差别和音调周期差别中的每一者的表示,且在语音信号中第二帧在所述第一帧之后。
根据一个配置的解码语音信号的激励信号的方法包括:解码第一经编码帧的一部分以获得第一激励信号;以及解码第二经编码帧的一部分以获得第二激励信号。在此方法中,第一经编码帧的所述部分包括时域音调脉冲形状、音调峰值位置和音调周期中的每一者的表示。在此方法中,第二经编码帧的所述部分包括音调脉冲形状差别和音调周期差别中的每一者的表示。在此方法中,解码第一经编码帧的一部分包括:根据所述音调峰值位置将所述时域音调脉冲形状的第一副本布置于所述第一激励信号内;以及根据所述音调峰值位置和所述音调周期将所述时域音调脉冲形状的第二副本布置于所述第一激励信号内。在此方法中,解码第二经编码帧的一部分包括:基于所述时域音调脉冲形状和所述音调脉冲形状差别而计算第二音调脉冲形状;基于所述音调周期和所述音调周期差别而计算第二音调周期;以及根据所述音调峰值位置和所述第二音调周期将所述第二音调脉冲形状的多个副本布置于所述第二激励信号内。
一种根据一个配置的检测语音信号的帧的音调峰值的方法包括:检测所述帧的第一音调峰值;从所述帧的第一搜索窗内的多个样本中选择候选样本;从多个距离中选择候选距离,所述多个距离中的每一者对应于所述帧的第二搜索窗内的不同样本。此方法包括选择(A)所述候选样本和(B)对应于所述候选距离的所述样本中的一者作为所述帧的第二音调峰值。在此方法中,所述多个距离中的每一者是A)对应样本与B)第一音调峰值之间的距离。
本文中还明确预期并揭示经配置以执行这些方法的设备和其它装置以及具有在通过处理器执行时致使处理器执行此些方法的要素的指令的计算机可读媒体。
附图说明
图1展示语音信号的有声区段的实例。
图2A展示语音区段的随时间流逝的振幅的实例。
图2B展示LPC残差的随时间流逝的振幅的实例。
图3A展示根据一般配置的语音编码方法M100的流程图。
图3B展示编码任务E100的实施方案E102的流程图。
图4展示帧中的特征的示意性表示。
图5A展示编码任务E200的实施方案E202的图表。
图5B展示方法M100的实施方案M110的流程图。
图5C展示方法M100的实施方案M120的流程图。
图6A展示根据一般配置的设备MF100的框图。
图6B展示装置FE100的实施方案FE102的框图。
图7A展示根据一般配置的解码语音信号的激励信号的方法M200的流程图。
图7B展示解码任务D100的实施方案D102的流程图。
图8A展示根据一般配置的设备MF200的框图。
图8B展示用于解码的装置FD100的实施方案FD102的流程图。
图9A展示语音编码器AE10和对应的语音解码器AD10。
图9B展示语音编码器AE10的例子AE10a、AE10b和语音解码器AD10的例子AD10a、AD10b。
图10A展示根据一般配置的用于编码语音信号的帧的设备A100的框图。
图10B展示编码器100的实施方案102的框图。
图11A展示根据一般配置的用于解码语音信号的激励信号的设备A200的框图。
图11B展示第一帧解码器300的实施方案302的框图。
图12A展示语音编码器AE10的多模式实施方案AE20的框图。
图12B展示语音解码器AD10的多模式实施方案AD20的框图。
图13展示残差产生器R10的框图。
图14展示用于卫星通信的系统的示意图。
图15A展示根据一般配置的方法M300的流程图。
图15B展示任务L100的实施方案L102的框图。
图15C展示任务L200的实施方案L202的流程图。
图16A展示通过任务L120进行的搜索的实例。
图16B展示通过任务L130进行的搜索的实例。
图17A展示任务L210的实施方案L210a的流程图。
图17B展示任务L220的实施方案L220a的流程图。
图17C展示任务L230的实施方案L230a的流程图。
图18A到图18F说明任务L212的迭代的搜索操作。
图19A展示任务L214的测试条件的表。
图19B和图19C说明任务L222的迭代的搜索操作。
图20A说明任务L232的搜索操作。
图20B说明任务L234的搜索操作。
图20C说明任务L232的迭代的搜索操作。
图21展示任务L300的实施方案L302的流程图。
图22A说明任务L320的搜索操作。
图22B和图22C说明任务L320的替代搜索操作。
图23展示任务L330的实施方案L332的流程图。
图24A展示可由任务L334的实施使用的测试条件的四个不同集合。
图24B展示任务L338的实施方案L338a的流程图。
图25展示任务L300的实施方案L304的流程图。
图26展示语音编码器AE10的实施方案的各种译码方案的位分配表。
图27A展示根据一般配置的设备MF300的框图。
图27B展示根据一般配置的设备A300的框图。
图27C展示根据一般配置的设备MF350的框图。
图27D展示根据一般配置的设备A350的框图。
图28展示根据一般配置的方法M500的流程图。
图29A到图29D展示160位帧的各个区。
图30展示根据一般配置的方法M600的流程图。
图31A展示将滞后范围均匀划分为若干频段的实例。
图31B展示将滞后范围非均匀划分为若干频段的实例。
图32展示在帧分类方案中使用的特征的列表。
图33展示用于计算基于音调的规格化自相关函数的程序的流程图。
图34为说明帧分类方案的高级流程图。
图35为说明在帧分类方案中的状态之间的可能过渡的状态图。
图36到图37、图38到图40以及图41到图44展示帧分类方案的三个不同程序的代码列表。
图45到图52B展示帧重新分类的条件。
图53展示语音编码器AE20的实施方案AE30的框图。
图54A展示语音编码器AE10的实施方案AE40的框图。
图54B展示周期性帧编码器E70的实施方案E72的框图。
图55展示周期性帧编码器E72的实施方案E74的框图。
图56A到图56D展示使用过渡帧译码模式可能为合意的一些典型帧序列。
图57展示代码列表。
图58展示用于取消使用过渡帧译码的决策的四个不同条件。
图59展示根据一般配置的方法M700的图。
参考标记可出现于一个或一个以上图中以指示同一结构。
具体实施方式
如本文中所描述的系统、方法和设备(例如,方法M100、M200、M300、M500、M600和/或M700)可用以支持处于低恒定位速率或处于低最大位速率(例如,每秒二千位)的语音译码。此受约束位速率语音译码的应用包括经由卫星链路的话音电话的传输(还称为“卫星话音”),其可用以支持缺少蜂窝式或有线电话的通信基础架构的偏远地区的电话服务。卫星电话还可用以支持用于例如车队的移动接收器的连续广域覆盖,从而实现例如即按即说的服务。更一般来说,此受约束位速率语音译码的应用并不限于涉及卫星的应用,且可延伸到任何功率受限信道。
除非其上下文明确地限制,否则术语“信号”在本文中用以指示其普通意义中的任一者,包括如在导线、总线或其它传输媒体上表达的存储器位置(或存储器位置的集合)的状态。除非其上下文明确地限制,否则术语“产生”在本文中用以指示其普通意义中的任一者,例如,计算或以其它方式产生。除非其上下文明确地限制,否则术语“计算”在本文中用以指示其普通意义中的任一者,例如,计算、评估、产生和/或从一组值中进行选择。除非其上下文明确地限制,否则术语“获得”用以指示其普通意义中的任一者,例如计算、导出、接收(例如,从外部装置)和/或检索(例如,从存储元件的阵列)。除非其上下文明确地限制,否则术语“估计”用以指示其普通意义中的任一者,例如,计算和/或评估。在本描述和权利要求书中使用术语“包含”的地方,其并不排除其它元件或操作。术语“基于”(如在“A是基于B”中)用以指示其普通意义中的任一者,其包括以下情况:(i)“至少基于”(例如,“A至少基于B”)和(在特定情形下适当的)(ii)“等于”(例如,“A等于B”)。任何以引用方式对文献的一部分的并入还应理解为并入在所述部分内引用的术语或变量的定义(其中这些定义出现于所述文献的其它地方)。
除非另外指示,否则具有特定特征的语音编码器的任何揭示内容还明确地意欲揭示具有类似特征的语音编码方法(且反之亦然),且根据特定配置的语音编码器的任何揭示内容还明确地意欲揭示根据类似配置的语音编码方法(且反之亦然)。除非另外指示,否则用于对语音信号的帧执行操作的设备的任何揭示内容还明确地意欲揭示用于对语音信号的帧执行操作的对应方法(且反之亦然)。除非另外指示,否则具有特定特征的语音解码器的任何揭示内容还明确地意欲揭示具有类似特征的语音解码方法(且反之亦然),且根据特定配置的语音解码器的任何揭示内容还明确地意欲揭示根据类似配置的语音解码方法(且反之亦然)。互换地使用术语“译码器”、“编解码器”和“译码系统”以表示一系统,所述系统包括经配置以接收语音信号的帧(可能在例如感知加权和/或其它滤波操作的一个或一个以上预处理操作之后)的至少一个编码器和经配置以产生帧的经解码表示的对应解码器。
出于语音译码的目的,语音信号通常经数字化(或经量化)以获得样本流。可根据此项技术中已知的包括(例如)脉码调制(PCM)、压扩μ定律PCM和压扩A定律PCM的各种方法中的任一者执行数字化过程。窄带语音编码器通常使用8kHz的取样速率,而宽带语音编码器通常使用更高的取样速率(例如,12或16kHz)。
语音编码器经配置以将数字化的语音信号处理为一系列帧。尽管处理帧或帧的区段(还称为子帧)的操作还可包括其输入中的一个或一个以上邻近帧的区段,但此系列通常实施为非重叠系列。语音信号的帧通常足够短,使得可预期信号的频谱包络在整个帧期间保持相对固定。帧通常对应于5与35毫秒之间的语音信号(或约40到200个样本),其中10、20和30毫秒为常见帧大小。经编码帧的实际大小可随译码位速率而在帧间改变。
20毫秒的帧长度在7千赫兹(kHz)的取样速率下对应于140个样本,在8kHz的取样速率下对应于160个样本,且在16kHz的取样速率下对应于320个样本,但可使用据认为适合于特定应用的任何取样速率。可用于语音译码的取样速率的另一实例为12.8kHz,且其它实例包括在从12.8kHz到38.4kHz的范围内的其它速率。
通常,所有帧具有相同的长度,且在本文中描述的特定实例中假定均匀帧长度。然而,还明确预期且在此揭示可使用非均匀的帧长度。举例来说,本文中所描述的各种设备和方法的实施方案还可用于对于有效帧和无效帧和/或对于有声帧和无声帧使用不同帧长度的应用中。
如上所提及,可能需要配置语音编码器以使用不同译码模式和/或速率来编码有效帧和无效帧。为了区分有效帧与无效帧,语音编码器通常包括语音活动性检测器(通常称为话音活动性检测器或VAD),或以其它方式执行检测语音活动性的方法。此检测器或方法可经配置以基于一个或一个以上因素(例如,帧能量、信噪比、周期性和过零率)将帧分类为有效或无效的。此分类可包括:将此因素的值或量值与阈值比较,和/或将此因素的改变的量值与阈值比较。
检测语音活动性的语音活动性检测器或方法还可经配置以将有效帧分类为两个或两个以上不同类型中的一者,例如,有声(例如,表示元音声)、无声(例如,表示摩擦音声),或过渡(例如,表示字的开头或结尾)。此分类可基于以下因素:例如,语音和/或残差的自相关、过零率、第一反射系数和/或如(例如,关于译码方案选择器C200和/或帧重新分类器RC10)在本文中更详细描述的其它特征。对于语音编码器来说,可能需要使用不同译码模式和/或位速率来编码不同类型的有效帧。
有声语音的帧倾向于具有为长期的(即,持续一个以上帧周期)且涉及音调的周期性结构。使用编码此长期频谱特征的描述的译码模式来编码有声帧(或有声帧的序列)通常为更有效。此译码模式的实例包括码激励线性预测(CELP)和例如原型波形内插(PWI)的波形内插技术。PWI译码模式的一个实例称为原型音调周期(PPP)。另一方面,无声帧和无效帧通常缺少任何显著长期频谱特征,且语音编码器可经配置以使用不试图描述此特征的译码模式来编码这些帧。噪声激励线性预测(NELP)为此译码模式的一个实例。
语音编码器或语音编码的方法可经配置以在位速率和译码模式(还称为“译码方案”)的不同组合中作出选择。举例来说,语音编码器可经配置以针对含有有声语音的帧和过渡帧使用全速率CELP方案,针对含有无声语音的帧使用半速率NELP方案,且针对无效帧使用八分之一速率NELP方案。此语音编码器的其它实例支持用于一个或一个以上译码方案的多个译码速率,例如,全速率CELP方案和半速率CELP方案,和/或全速率PPP方案和四分之一速率PPP方案。
如通过语音编码器或语音编码方法产生的经编码帧通常含有可借以重建语音信号的对应帧的值。举例来说,经编码帧可包括帧内的能量在频谱上的分布的描述。此能量分布还称为帧的“频率包络”或“频谱包络”。经编码帧通常包括描述帧的频谱包络的有序值序列。在一些情况下,有序序列的每一值指示在对应频率处或在对应频谱区上的信号振幅或量值。此描述的一个实例为有序傅立叶(Fourier)变换系数序列。
在其它情况下,有序序列包括译码模型的参数值。此有序序列的一个典型实例为线性预测译码(LPC)分析的系数值集合。这些LPC系数值编码经编码语音的共振(还被称为“共振峰”),且可配置为滤波器系数或反射系数。多数现代语音译码器的编码部分包括提取每一帧的LPC系数值集合的分析滤波器。集合(其通常经布置为一个或一个以上向量)中的系数值的数目还称为LPC分析的“阶数”。如由通信装置(例如,蜂窝式电话)的语音编码器所执行的LPC分析的典型阶数的实例包括4、6、8、10、12、16、20、24、28和32。
语音译码器通常经配置成以量化形式越过传输信道传输频谱包络的描述(例如,作为进入对应查找表或“码簿”中的一个或一个以上索引)。因此,对于语音编码器,可能需要以可经有效量化的形式计算LPC系数值的集合,例如线频谱对(LSP)、线频谱频率(LSF)、导抗频谱对(ISP)、导抗频谱频率(ISF)、倒频谱系数或对数面积比的值的集合。语音编码器还可经配置以在转换和/或量化之前对有序值序列执行其它操作(例如,感知加权)。
在一些情况下,帧的频谱包络的描述还包括帧的时间信息的描述(例如,如在傅立叶变换系数的有序序列中)。在其它情况下,经编码帧的语音参数集合还可包括帧的时间信息的描述。时间信息的描述的形式可视用以编码帧的特定译码模式而定。对于一些译码模式来说(例如,对于CELP译码模式来说),时间信息的描述包括对LPC分析的残差的描述(还称为激励信号的描述)。对应的语音解码器使用激励信号来激励(例如,如由频谱包络的描述所界定的)LPC模型。激励信号的描述通常以量化形式(例如,作为进入对应码簿中的一个或一个以上索引)出现于经编码帧中。
时间信息的描述还可包括与激励信号的音调分量有关的信息。对于PPP译码模式来说,例如,经编码的时间信息可包括待通过语音解码器使用的原型的描述以再现激励信号的音调分量。与音调分量有关的信息的描述通常以量化形式(例如,作为进入对应码簿中的一个或一个以上索引)出现于经编码帧中。对于其它译码模式来说(例如,对于NELP译码模式来说),时间信息的描述可包括对帧的时间包络(还称为帧的“能量包络”或“增益包络”)的描述。
图1展示随时间变化的有声语音区段(例如,元音)的振幅的一个实例。对于有声帧来说,激励信号通常类似以音调频率为周期性的一系列脉冲,而对于无声帧来说,激励信号通常类似于白高斯(Gaussian)噪声。CELP或PWI编码器可采用为有声语音区段的特性的较高周期性以实现较好译码效率。图2A展示随时间变化的从背景噪声过渡到有声语音的语音区段的振幅的实例,且图2B展示随时间变化的从背景噪声过渡到有声语音的语音区段的LPC残差的振幅的实例。由于LPC残差的译码占用大量经编码信号流,所以已开发各种方案以减小译码残差所需要的位速率。这些方案包括:CELP、NELP、PWI和PPP。
可能需要以提供长途电话质量解码信号的方式以低位速率(例如,每秒2千位)执行语音信号的受约束位速率编码。长途电话质量通常经特征化为具有大约200到3200Hz的带宽和大于30dB的信噪比(SNR)。在一些情况下,长途电话质量还经特征化为具有小于2%或3%的谐波失真。遗憾的是,以接近每秒2千位的位速率编码语音的现有技术通常产生听起来为人工(例如,机器人)、有噪音和/或过度谐波(例如,嗡嗡声)的合成语音。
可通常使用噪声激励线性预测(NELP)译码模式以低位速率来执行例如静默和无声帧的非话音帧的高质量编码。然而,可能更难以以低位速率来执行有声帧的高质量编码。已通过针对例如包括从无声语音到有声语音的过渡的帧(还称为开始帧或向上瞬变帧)的困难帧使用较高位速率且针对后续有声帧使用较低位速率以实现低平均位速率而获得良好结果。然而,对于受约束位速率声码器,针对困难帧使用较高位速率的选项可能不可行。
例如增强型可变速率编解码器(EVRC)的现有可变速率声码器通常使用例如CELP的波形译码模式以较高位速率来编码此些困难帧。可用于以低位速率存储或传输有声语音区段的其它译码方案包括例如PPP译码方案的PWI译码方案。此些PWI译码方案在残差信号中周期性地定位具有一个音调周期的长度的原型波形。在解码器处,在原型之间的音调周期内内插所述残差信号以获得原始高度周期性残差信号的近似。PPP译码的一些应用使用混合位速率,使得经高位速率编码的帧为一个或一个以上后续经低位速率编码的帧提供参考。在此情况下,低位速率帧中的信息的至少一些可被有差别地编码。
可能需要以为序列中的后续帧的差别PWI(例如,PPP)编码提供良好原型(即,良好音调脉冲形状参考)和/或音调脉冲相位参考的无差别方式来编码过渡帧(例如,开始帧)。
可能需要在位速率受约束的译码系统中提供用于开始帧和/或其它过渡帧的译码模式。举例来说,可能需要在受约束而具有低恒定位速率或低最大位速率的译码系统中提供此译码模式。此译码系统的应用的典型实例为(例如,如本文中参看图14所描述的)卫星通信链路。
如上所论述,语音信号的帧可经分类为有声、无声或静默。有声帧通常为高度周期性的,而无声和静默帧通常为非周期性的。其它可能帧分类包括开始帧、瞬变帧和向下瞬变帧。开始帧(还称为向上瞬变帧)通常出现于字的开始处。如在图2B中的400与600样本之间的区中,开始帧在帧开始时可为非周期性的(例如,无声),且在帧结束时变为周期性的(例如,有声)。瞬变类别包括有声但具有较不周期性语音的帧。瞬变帧展现音调的改变和/或减小的周期性,且通常在有声区段的中间或结束处(例如,在语音信号的音调正在改变的地方)出现。典型向下瞬变帧具有低能量有声语音且在字的结束处出现。开始帧、瞬变帧和向下瞬变帧也可称为“过渡”帧。
对于语音编码器来说,可能需要以无差别方式编码脉冲的位置、振幅和形状。举例来说,可能需要编码开始帧或一系列有声帧中的第一帧,使得经编码帧为后续经编码帧的激励信号提供良好参考原型。此编码器可经配置以:定位帧的最终音调脉冲,定位邻近于最终音调脉冲的音调脉冲,根据所述音调脉冲的峰值之间的距离估计滞后值,以及产生指示最终音调脉冲的位置和所估计滞后值的经编码帧。此信息在解码已于无相位信息情况下经编码的后续帧中可用作相位参考。编码器还可经配置以产生经编码帧以包括音调脉冲的形状的指示,其在解码已被有差别地编码(例如,使用QPPP译码方案)的后续帧中可用作参考。
在译码过渡帧(例如,开始帧)中,向后续帧提供良好的参考比实现帧的准确再现可能更重要。此经编码帧可用以向使用PPP或其它编码方案编码的后续有声帧提供良好参考。举例来说,可能需要经编码帧包括音调脉冲的形状的描述(例如,以提供良好的形状参考)、音调滞后的指示(例如,以提供良好的滞后参考)和帧的最终音调脉冲的位置的指示(例如,以提供良好的相位参考),同时可使用较少位来编码或甚至忽略开始帧的其它特征。
图3A展示根据一配置的包括编码任务E100和E200的语音编码方法M100的流程图。任务E100编码语音信号的第一帧,且任务E200编码语音信号的第二帧,其中第二帧在第一帧之后。任务E100可实施为无差别地编码第一帧的参考译码模式,且任务E200可实施为相对于第一帧编码第二帧的相对译码模式(例如,差别译码模式)。在一个实例中,第一帧为开始帧,且第二帧为紧跟在开始帧之后的有声帧。第二帧还可为紧跟在开始帧之后的一系列连续有声帧中的第一者。
编码任务E100产生包括激励信号的描述的第一经编码帧。此描述包括指示音调脉冲在时域中的形状(即,音调原型)和音调脉冲所重复的位置的一组值。通过编码滞后值连同例如帧的终端音调脉冲的位置的参考点来指示音调脉冲位置。在此描述中,使用音调脉冲峰值的位置来指示音调脉冲的位置,尽管本发明的范围明确地包括音调脉冲的位置等效地通过脉冲的另一特征(例如,其第一或最后样本)的位置来指示的情形。第一经编码帧还可包括其它信息的表示,例如,帧的频谱包络(例如,一个或一个以上LSP索引)的描述。
任务E100包括基于来自第一帧的至少一个音调脉冲的信息而选择一组时域音调脉冲形状中的一者的子任务E110。任务E110可经配置以选择与帧中的具有最高峰值的音调脉冲最紧密匹配(例如,在最小平方意义上)的形状。或者,任务E110可经配置以选择与帧中的具有最高能量(例如,经平方样本值的最高和)的音调脉冲最紧密匹配的形状。或者,任务E110可经配置以选择与帧的两个或两个以上音调脉冲(例如,具有最高峰值和/或能量的脉冲)的平均值最紧密匹配的形状。任务E110可经实施以包括穿过音调脉冲形状(还称为“形状向量”)的码簿(即,量化表)的搜索。
编码任务T100还包括计算帧的终端音调脉冲位置(例如,帧的初始音调峰值或帧的最终音调峰值的位置)的子任务E120。可相对于帧的开始、相对于帧的结束或相对于帧内的另一参考位置来指示终端音调脉冲的位置。任务E120可经配置以通过(例如,基于样本的振幅或能量与帧平均值之间的关系,其中能量通常被计算为样本值的平方)选择接近帧边界的样本并在接近此样本的区域内搜索具有最大值的样本而找到终端音调脉冲峰值。举例来说,可根据以下描述的终端音调峰值定位任务L100的配置中的任一者来实施任务E120。
编码任务E100还包括估计帧的音调周期的子任务E130。音调周期(还称为“音调滞后值”、“滞后值”、“音调滞后”或简称为“滞后”)指示音调脉冲之间的距离(即,邻近音调脉冲的峰值之间的距离)。典型音调频率范围为约70到100Hz(对于男性说话者)到约150到200Hz(对于女性说话者)。对于为8kHz的取样速率来说,这些音调频率范围对应于约40到50个样本的滞后范围(对于典型女性说话者)和约90到100个样本的滞后范围(对于典型男性说话者)。为了适应具有在这些范围外的音调频率的说话者,可能需要支持约50到60Hz到约300到400Hz的音调频率范围。对于8kHz的取样速率,此频率范围对应于约20到25个样本到约130到160个样本的滞后范围。
音调周期估计任务E130可经实施以使用任何合适的音调估计程序(例如,作为如以下描述的滞后估计任务L200的实施方案的例子)来估计音调周期。此程序通常包括找到邻近于终端音调峰值的音调峰值(或以其它方式找到至少两个邻近的音调峰值)并将滞后计算为峰值之间的距离。任务E130可经配置以基于样本的能量的测量(例如,样本能量与帧平均能量之间的比率)和/或样本的邻域与所确认音调峰值的类似邻域(例如,终端音调峰值)相关的程度的测量而将样本识别为音调峰值。
编码任务E100产生包括用于第一帧的激励信号的特征的表示(例如,由任务E110选择的时域音调脉冲形状、由任务E120计算的终端音调脉冲位置和由任务E130估计的滞后值)的第一经编码帧。通常,任务E100将经配置以在音调周期估计任务E130之前执行音调脉冲位置计算任务E120,且在音调脉冲形状选择任务E110之前执行音调周期估计任务E130。
第一经编码帧可包括直接指示所估计滞后值的值。或者,可能需要经编码帧将滞后值指示为相对于最小值的偏移。对于二十个样本的最小滞后值来说,例如,七位数字可用以指示在20到147(即,20+0到20+127)个样本的范围中的任何可能整数滞后值。对于25个样本的最小滞后值来说,7位数字可用以指示在25到152(即,25+0到25+127)个样本的范围中的任何可能整数滞后值。以此方式,将滞后值编码为相对于最小值的偏移可用以最大化所预期滞后值的范围的覆盖同时最小化编码值的所述范围所要求的位的数目。其它实例可经配置以支持非整数滞后值的编码。第一经编码帧还可能包括与音调滞后相关的一个以上值,例如第二滞后值或以其它方式指示滞后值从帧的一侧(例如,帧的开始或结束)到另一侧的改变的值。
很可能帧的音调脉冲的振幅将彼此不同。在开始帧中,例如,能量可随时间增加,使得接近帧的结束的音调脉冲与接近帧的开始的音调脉冲相比较将具有较大振幅。至少在此情况下,对于第一经编码帧来说,可能需要包括帧的平均能量随时间的变化(还称为“增益轮廓”)的描述,例如,音调脉冲的相对振幅的描述。
图3B展示编码任务E100的包括子任务E140的实施方案E102的流程图。任务E140计算帧的增益轮廓作为对应于第一帧的不同音调脉冲的一组增益值。举例来说,增益值中的每一者可对应于帧的不同音调脉冲。任务E140可包括:穿过增益轮廓的码簿(例如,量化表)的搜索,以及对与帧的增益轮廓最紧密地匹配(例如,在最小平方意义上)的码簿条目的选择。编码任务E102产生包括以下各项的表示的第一经编码帧:由任务E110选择的时域音调脉冲形状、由任务E120计算的终端音调脉冲位置、由任务E130估计的滞后值和由任务E140计算的所述组增益值。图4展示帧中的这些特征的示意性表示,其中标记“1”指示终端音调脉冲位置,标记“2”指示所估计滞后值,标记“3”指示选定的时域音调脉冲形状,且标记“4”指示在增益轮廓中经编码的值(例如,音调脉冲的相对振幅)。通常,任务E102将经配置以在增益值计算任务E140之前执行音调周期估计任务E130,增益值计算任务E140可与音调脉冲形状选择任务E110串行或并行地执行。在一个实例中(如图26的表中所示),编码任务E102以四分之一速率操作以产生四十位的经编码帧,其包括指示参考脉冲位置的七个位、指示参考脉冲形状的七个位、指示参考滞后值的七个位、指示增益轮廓的四个位、载运一个或一个以上LSP索引的十三个位,和指示帧的译码模式的两个位(例如,指示例如NELP的无声译码模式的“00”,指示例如QPPP的相对译码模式的“01”,和指示参考译码模式E102的“10”)。
第一经编码帧可包括帧中的音调脉冲(或音调峰值)的数目的显性指示。或者,帧中的音调脉冲或音调峰值的数目可经隐式编码。举例来说,第一经编码帧可仅使用音调滞后和终端音调脉冲的位置(例如,终端音调峰值的位置)来指示帧中的所有音调脉冲的位置。对应的解码器可经配置以从滞后值和终端音调脉冲的位置计算音调脉冲的潜在位置并从增益轮廓获得每一潜在脉冲位置的振幅。对于帧含有少于潜在脉冲位置的脉冲的情况,增益轮廓可针对潜在脉冲位置中的一者或一者以上指示为零(或其它极小值)的增益值。
如本文中所提及,开始帧可以无声开始并以有声结束。对于对应的经编码帧来说,与支持整个开始帧的准确再现相比可能更需要为后续帧提供良好参考,且可实施方法M100以仅提供对编码此开始帧的初始无声部分的有限支持。举例来说,任务E140可经配置以选择指示无声部分内的任何音调脉冲周期的为零(或接近零)的增益值的增益轮廓。或者,任务E140可经配置以选择指示无声部分内的音调周期的非零增益值的增益轮廓。在一个此类实例中,任务E140选择以零或接近零开始,并单调地上升到帧的有声部分的第一音调脉冲的增益水平的一般增益轮廓。
任务E140可经配置以计算所述组增益值作为对一组增益向量量化(VQ)表中的一者的索引,其中不同的增益VQ表用于不同数目个脉冲。所述组表可经配置以使得每一增益VQ表含有相同数目个条目,且不同增益VQ表含有不同长度的向量。在此编码系统中,任务E140基于终端音调脉冲的位置和音调滞后来计算音调脉冲的所估计数目,且此所估计数目被用以选择所述组增益VQ表中的一者。在此情况下,还可通过解码经编码帧的对应方法来执行类似操作。如果音调脉冲的所估计数目大于帧中的音调脉冲的实际数目,则任务E140还可通过如上所描述将帧中的每一额外音调脉冲周期的增益设定为较小值或零而传达此信息。
编码任务E200编码语音信号的在第一帧之后的第二帧。任务E200可实施为相对于第一帧的对应特征编码第二帧的特征的相对译码模式(例如,差别译码模式)。任务E200包括计算当前帧的音调脉冲形状与先前帧的音调脉冲形状之间的音调脉冲形状差别的子任务E210。举例来说,任务E210可经配置以从第二帧提取音调原型,并将音调脉冲形状差别计算为所提取原型与第一帧的音调原型(即,选定的音调脉冲形状)之间的差。可由任务E210执行的原型提取操作的实例包括在2004年6月22日发布的第6,754,630号美国专利(Das等人)和2006年11月14日发布的第7,136,812号美国专利(Manjunath等人)中描述的原型提取操作。
可能需要配置任务E210以将音调脉冲形状差别计算为在频域中两个原型之间的差。图5A展示包括音调脉冲形状差别计算任务E210的实施方案E212的编码任务E200的实施方案E202的图。任务E212包括计算当前帧的频域音调原型的子任务E214。举例来说,任务E214可经配置以对经提取的原型执行快速傅立叶变换运算,或以其它方式将所提取的原型转换到频域。任务E212的此实施方案还可经配置以通过以下操作而计算音调脉冲形状差别:将频域原型划分为多个频段(例如,一组非重叠频段),计算其要素为每一频段中的平均量值的对应频率量值向量,以及将音调脉冲形状差别计算为原型的频率量值向量与先前帧的原型的频率量值向量之间的向量差。在此情况下,任务E212还可经配置以向量量化音调脉冲形状差别,使得对应的经编码帧包括经量化的差别。
编码任务E200还包括计算当前帧的音调周期与先前帧的音调周期之间的音调周期差别的子任务E220。举例来说,任务E220可经配置以估计当前帧的音调滞后并减去先前帧的音调滞后值以获得音调周期差别。在一个此类实例中,任务E220经配置以将音调周期差别计算为(当前滞后估计-先前滞后估计+7)。为了估计音调滞后,任务E220可经配置以使用任何合适的音调估计技术,例如,以上描述的音调周期估计任务E130的例子、以下描述的滞后估计任务L200的例子,或如在以上参考的EVRC文献C.S0014-C的章节4.6.3(第4-44到4-49页)中描述的程序,所述章节在此作为一实例以引用方式并入。对于先前帧的未经量化的音调滞后值不同于先前帧的经解量化的音调滞后值的情况来说,可能需要任务E220通过从当前滞后估计减去经解量化值来计算音调周期差别。
可使用例如四分之一速率PPP(QPPP)的具有受限时间同步性的译码方案来实施编码任务E200。QPPP的实施方案在2007年1月的标题为“用于宽带扩频数字系统的增强型可变速率编解码器、语音服务选项3、68和70(Enhanced Variable Rate Codec,Speech Service Options 3,68,and 70 for Wideband Spread Spectrum Digital Systems)”的第三代合作伙伴计划2(3GPP2)的文献C.S0014-C版本1.0(在www.3gpp.org可在线获得)的章节4.2.4(第4-10到4-17页)和4.12.28(第4-132到4-138页)中描述,所述章节在此作为一实例以引用的方式并入。此译码方案使用带宽随频率增加的二十一个频段的非均匀集合来计算原型的频率量值向量。使用QPPP产生的经编码帧的四十个位包括:载运一个或一个以上LSP索引的十六个位、载运增量滞后值的四个位、载运帧的振幅信息的十八个位、指示模式的一个位和一个保留位(如图26的表中所示)。相对的译码方案的此实例不包括用于脉冲形状的位和用于相位信息的位。
如上所提及,任务E100中经编码的帧可为开始帧,且任务E200中经编码的帧可为紧跟在开始帧之后一系列连续有声帧中的第一者。图5B展示方法M100的包括子任务E300的实施方案M110的流程图。任务E300编码在第二帧之后的第三帧。举例来说,第三帧可为紧跟在开始帧之后的一系列连续有声帧中的第二者。编码任务E300可实施为如本文中所描述的任务E200的实施的例子(例如,实施为QPPP编码的例子)。在一个此类实例中,任务E300包括:任务E210的(例如,任务E212的)例子,其经配置以计算第三帧的音调原型与第二帧的音调原型之间的音调脉冲形状差别;以及任务E220的例子,其经配置以计算第三帧的音调周期与第二帧的音调周期之间的音调周期差别。在另一个此类实例中,任务E300包括:任务E210的(例如,任务E212的)例子,其经配置以计算第三帧的音调原型与第一帧的选定的音调脉冲形状之间的音调脉冲形状差别;以及任务E220的例子,其经配置以计算第三帧的音调周期与第一帧的音调周期之间的音调周期差别。
图5C展示方法M100的包括子任务T100的实施方案M120的流程图。任务T100检测包括从无声语音到有声语音的过渡的帧(还称为向上瞬变帧或开始帧)。任务T100可经配置以根据以下描述(例如,参看译码方案选择器C200)的EVRC分类方案执行帧分类,且还可经配置以(例如,如以下参看帧重新分类器RC10所描述)对帧进行重新分类。
图6A展示经配置以编码语音信号的帧的设备MF100的框图。设备MF100包括用于编码语音信号的第一帧的装置FE100和用于编码语音信号的第二帧的装置FE200,其中第二帧在第一帧之后。装置FE100包括用于(例如,如上文参看任务E110的各种实施方案所描述)基于来自第一帧的至少一个音调脉冲的信息而选择一组时域音调脉冲形状中的一者的装置FE110。装置FE100还包括用于(例如,如上文参看任务E120的各种实施方案所描述)计算第一帧的终端音调脉冲的位置的装置FE120。装置FE100还包括用于(例如,如上文参看任务E130的各种实施方案所描述)估计第一帧的音调周期的装置FE130。图6B展示装置FE100的实施方案FE102的框图,所述实施方案FE102还包括用于(例如,如上文参看任务E140的各种实施方案所描述)计算对应于第一帧的不同音调脉冲的一组增益值的装置FE140。
装置FE200包括用于(例如,如上文参看任务E210的各种实施方案所描述)计算在第二帧的音调脉冲形状与第一帧的音调脉冲形状之间的音调脉冲形状差别的装置FE210。装置FE200还包括用于(例如,如上文参看任务E220的各种实施方案所描述)计算在第二帧的音调周期与第一帧的音调周期之间的音调周期差别的装置FE220。
图7A展示根据一般配置的解码语音信号的激励信号的方法M200的流程图。方法M200包括解码第一经编码帧的一部分以获得第一激励信号的任务D100,其中所述部分包括时域音调脉冲形状、音调脉冲位置和音调周期的表示。任务D100包括根据音调脉冲位置将时域音调脉冲形状的第一副本布置于第一激励信号内的子任务D110。任务D100还包括根据音调脉冲位置和音调周期将时域音调脉冲形状的第二副本布置于第一激励信号内的子任务D120。在一个实例中,任务D110和D120(例如,根据来自第一经编码帧的表示形状的索引)从码簿获得时域音调脉冲形状,并将其复制到激励信号缓冲器。任务D100和/或方法M200还可经实施以包括进行以下操作的任务:(例如,通过解量化来自第一经编码帧的一个或一个以上经量化LSP向量并对结果进行逆变换)从第一经编码帧获得一组LPC系数值,根据所述组LPC系数值配置合成滤波器,以及向经配置的合成滤波器施加第一激励信号以获得第一经解码帧。
图7B展示解码任务D100的实施方案D102的流程图。在此情况下,第一经编码帧的部分还包括一组增益值的表示。任务D102包括向时域音调脉冲形状的第一副本应用所述组增益值中的一者的子任务D130。任务D102还包括向时域音调脉冲形状的第二副本应用所述组增益值中的一不同者的子任务D140。在一个实例中,任务D130在任务D110期间将其增益值应用到形状,且任务D140在任务D120期间将其增益值应用到形状。在另一实例中,任务D130在已执行任务D110之后将其增益值应用到激励信号缓冲器的对应部分,且任务D140在已执行任务D120之后将其增益值应用到激励信号缓冲器的对应部分。方法M200的包括任务D102的实施方案可经配置以包括向经配置的合成滤波器施加所得的经增益调整的激励信号以获得第一经解码帧的任务。
方法M200还包括解码第二经编码帧的部分以获得第二激励信号的任务D200,其中所述部分包括音调脉冲形状差别和音调周期差别的表示。任务D200包括基于时域音调脉冲形状和音调脉冲形状差别而计算第二音调脉冲形状的子任务D210。任务D200还包括基于音调周期和音调周期差别而计算第二音调周期的子任务D220。任务D200还包括根据音调脉冲位置和第二音调周期将第二音调脉冲形状的两个或两个以上副本布置于第二激励信号内的子任务D230。任务D230可包括将第二激励信号内的副本中的每一者的位置计算为从音调脉冲位置的对应偏移,其中每一偏移为第二音调周期的整数倍数。任务D200和/或方法M200还可经实施以包括进行以下操作的任务:(例如,通过解量化来自第二经编码帧的一个或一个以上经量化LSP向量并对结果进行逆变换)从第二经编码帧获得一组LPC系数值,根据所述组LPC系数值配置合成滤波器,以及向经配置的合成滤波器施加第二激励信号以获得第二经解码帧。
图8A展示用于解码语音信号的激励信号的设备MF200的框图。设备MF200包括用于解码第一经编码帧的一部分以获得第一激励信号的装置FD100,其中所述部分包括时域音调脉冲形状、音调脉冲位置和音调周期的表示。装置FD100包括用于根据音调脉冲位置将时域音调脉冲形状的第一副本布置于第一激励信号内的装置FD110。装置FD100还包括用于根据音调脉冲位置和音调周期将时域音调脉冲形状的第二副本布置于第一激励信号内的装置FD120。在一个实例中,装置FD110和FD120经配置以(例如,根据来自第一经编码帧的表示形状的索引)从码簿获得时域音调脉冲形状,并将其复制到激励信号缓冲器中。装置FD200和/或设备MF200还可经实施以包括:(例如,通过解量化来自第一经编码帧的一个或一个以上经量化LSP向量并对结果进行逆变换)从第一经编码帧获得一组LPC系数值的装置,用于根据所述组LPC系数值配置合成滤波器的装置,以及用于向经配置的合成滤波器施加第一激励信号以获得第一经解码帧的装置。
图8B展示用于解码的装置FD100的实施方案FD102的流程图。在此情况下,第一经编码帧的所述部分还包括一组增益值的表示。装置FD102包括用于向所述时域音调脉冲形状的第一副本应用所述组增益值中的一者的装置FD130。装置FD102还包括用于向时域音调脉冲形状的第二副本应用所述组增益值中的一不同者的装置FD140。在一个实例中,装置FD130将其增益值应用到装置FD110内的形状,且装置FD140将其增益值应用到装置FD120内的形状。在另一实例中,装置FD130将其增益值应用到激励信号缓冲器的装置FD110已布置第一副本的一部分,且装置FD140将其增益值应用到激励信号缓冲器的装置FD120已布置第二副本的一部分。设备MF200的包括装置FD102的实施方案可经配置以包括用于向经配置的合成滤波器施加所得经增益调整的激励信号以获得第一经解码帧的装置。
设备MF200还包括用于解码第二经编码帧的一部分以获得第二激励信号的装置FD200,其中所述部分包括音调脉冲形状差别和音调周期差别的表示。装置FD200包括用于基于时域音调脉冲形状和音调脉冲形状差别而计算第二音调脉冲形状的装置FD210。装置FD200还包括用于基于音调周期和音调周期差别而计算第二音调周期的装置FD220。装置FD200还包括用于根据音调脉冲位置和第二音调周期将第二音调脉冲形状的两个或两个以上副本布置于第二激励信号内的装置FD230。装置FD230可经配置以将第二激励信号内的副本中的每一者的位置计算为从音调脉冲位置的对应偏移,其中每一偏移为第二音调周期的整数倍数。装置FD200和/或设备MF200还可经实施以包括:(例如,通过解量化来自第二经编码帧的一个或一个以上经量化LSP向量并对结果进行逆变换)从第二经编码帧获得一组LPC系数值的装置,用于根据所述组LPC系数值配置合成滤波器的装置,以及用于向经配置的合成滤波器施加第二激励信号以获得第二经解码帧的装置。
图9A展示语音编码器AE10,其经布置以接收数字化的语音信号S100(例如,作为一系列帧)并产生对应的经编码信号S200(例如,作为一系列对应的经编码帧)以供在通信信道C100(例如,有线、光学和/或无线通信链路)上传输到语音解码器AD10。语音解码器AD10经布置以解码经编码的语音信号S200的所接收版本S300并合成对应的输出语音信号S400。语音编码器AE10可经实施以包括设备MF100的例子和/或执行方法M100的实施方案。语音解码器AD10可经实施以包括设备MF200的例子和/或执行方法M200的实施方案。
如上文所描述,语音信号S100表示已根据在此项技术中已知的各种方法中的任一者(例如脉码调制(PCM)、压扩μ定律或A定律)而数字化和量化的模拟信号(例如,如由麦克风所俘获)。所述信号还可能已在模拟和/或数字域中经受其它预处理操作,例如噪声抑制、感知加权和/或其它滤波操作。另外或替代地,可在语音编码器AE10内执行此些操作。语音信号S100的例子还可表示已经数字化和量化的模拟信号(例如,如由麦克风的阵列所俘获)的组合。
图9B展示语音编码器AE10的第一例子AE10a,其经布置以接收经数字化的语音信号S100的第一例子S110并产生经编码信号S200的对应例子S210以供在通信信道C100的第一例子C110上传输到语音解码器AD10的第一例子AD10a。语音解码器AD10a经布置以解码经编码的语音信号S210的所接收版本S310并合成输出语音信号S400的对应例子S410。
图9B还展示语音编码器AE10的第二例子AE10b,其经布置以接收经数字化的语音信号S100的第二例子S120并产生经编码信号S200的对应例子S220以供在通信信道C100的第二例子C120上传输到语音解码器AD10的第二例子AD10b。语音解码器AD10b经布置以解码经编码的语音信号S220的所接收版本S320并合成输出语音信号S400的对应例子S420。
语音编码器AE10a和语音解码器AD10b(类似地,语音编码器AE10b和语音解码器AD10a)可在用于传输并接收语音信号的包括(例如)以下参看图14所描述的用户终端、地面站或网关的任何通信装置中一起使用。如本文中所描述,语音编码器AE10可以许多不同方式来实施,且语音编码器AE10a和AE10b可为语音编码器AE10的不同实施方案的例子。同样,语音解码器AD10可以许多不同方式来实施,且语音解码器AD10a和AD10b可为语音解码器AD10的不同实施方案的例子。
图10A展示根据一般配置的用于编码语音信号的帧的设备的框图,所述设备包括:第一帧编码器100,其经配置以编码语音信号的第一帧以作为第一经编码帧;以及第二帧编码器200,其经配置以编码语音信号的第二帧以作为第二经编码帧,其中第二帧在第一帧之后。语音编码器AE10可经实施以包括设备A100的例子。第一帧编码器100包括音调脉冲形状选择器110,其经配置以(例如,如上文参看任务E110的各种实施方案所描述)基于来自第一帧的至少一个音调脉冲的信息来选择一组时域音调脉冲形状中的一者。编码器100还包括音调脉冲位置计算器120,其经配置以(例如,如上文参看任务E120的各种实施方案所描述)计算第一帧的终端音调脉冲的位置。编码器100还包括音调周期估计器130,其经配置以(例如,如上文参看任务E130的各种实施方案所描述)估计第一帧的音调周期。图10B展示编码器100的还包括增益值计算器140的实施方案102的框图,所述增益值计算器140经配置以(例如,如上文参看任务E140的各种实施方案所描述)计算对应于第一帧的不同音调脉冲的一组增益值。
第二帧编码器200包括音调脉冲形状差别计算器210,其经配置以(例如,如上文参看任务E210的各种实施方案所描述)计算第二帧的音调脉冲形状与第一帧的音调脉冲形状之间的音调脉冲形状差别。编码器200还包括音调脉冲差别计算器220,其经配置以(例如,如上文参看任务E220的各种实施方案所描述)计算第二帧的音调周期与第一帧的音调周期之间的音调周期差别。
图11A展示根据一般配置的用于解码语音信号的激励信号的包括第一帧解码器300和第二帧解码器400的设备A200的框图。解码器300经配置以解码第一经编码帧的一部分以获得第一激励信号,其中所述部分包括时域音调脉冲形状、音调脉冲位置和音调周期的表示。解码器300包括第一激励信号产生器310,其经配置以根据音调脉冲位置将时域音调脉冲形状的第一副本布置于第一激励信号内。激励产生器310还经配置以根据音调脉冲位置和音调周期将时域音调脉冲形状的第二副本布置于第一激励信号内。举例来说,产生器310可经配置以执行如本文中所描述的任务D110和D120的实施方案。在此实例中,解码器300还包括合成滤波器320,合成滤波器320根据由解码器300从第一经编码帧(例如,通过解量化来自第一经编码帧的一个或一个以上经量化的LSP向量并对结果进行逆变换)获得的一组LPC系数值而经配置,且经布置以对激励信号进行滤波而获得第一经解码帧。
图11B展示第一激励信号产生器310的实施方案312的框图,其针对第一经编码帧的部分还包括一组增益值的表示的情况而包括第一乘法器330和第二乘法器340。第一乘法器330经配置以向时域音调脉冲形状的第一副本应用所述组增益值中的一者。举例来说,第一乘法器330可经配置以执行如本文中所描述的任务D130的实施方案。第二乘法器340经配置以向时域音调脉冲形状的第二副本应用所述组增益值中的一不同者。举例来说,第二乘法器340可经配置以执行如本文中所描述的任务D140的实施方案。在解码器300的包括产生器312的实施方案中,合成滤波器320可经布置以对所得经增益调整的激励信号进行滤波从而获得第一经解码帧。第一乘法器330和第二乘法器340在不同时间可使用不同结构或使用同一结构来实施。
第二帧解码器400经配置以解码第二经编码帧的部分以获得第二激励信号,其中所述部分包括音调脉冲形状差别和音调周期差别的表示。解码器400包括第二激励信号产生器440,所述第二激励信号产生器440包括音调脉冲形状计算器410和音调周期计算器420。音调脉冲形状计算器410经配置以基于时域音调脉冲形状和音调脉冲形状差别而计算第二音调脉冲形状。举例来说,音调脉冲形状计算器410可经配置以执行如本文中所描述的任务D210的实施方案。音调周期计算器420经配置以基于音调周期和音调周期差别而计算第二音调周期。举例来说,音调周期计算器420可经配置以执行如本文中所描述的任务D220的实施方案。激励产生器440经配置以根据音调脉冲位置和第二音调周期将第二音调脉冲形状的两个或两个以上副本布置于第二激励信号内。举例来说,产生器440可经配置以执行如本文中所描述的任务D230的实施方案。在此实例中,解码器400还包括合成滤波器430,合成滤波器430根据由解码器400从第一经编码帧(例如,通过解量化来自第一经编码帧的一个或一个以上经量化LSP向量并对结果进行逆变换)获得的一组LPC系数值而经配置,且经布置以对第二激励信号进行滤波而获得第二经解码帧。合成滤波器320、合成滤波器430在不同时间可使用不同结构或使用同一结构来实施。语音解码器AD10可经实施以包括设备A200的例子。
图12A展示语音编码器AE10的多模式实施方案AE20的框图。编码器AE20包括:第一帧编码器100的实施方案(例如,编码器102)、第二帧编码器200的实施方案、无声帧编码器UE10(例如,QNELP编码器)和译码方案选择器C200。译码方案选择器C200经配置以(例如,根据如以下描述的经修改EVRC帧分类方案)分析语音信号S100的传入帧的特性,以经由选择器50a、50b来选择用于每一帧的编码器100、200和UE10中的适当一者。可能需要实施第二帧编码器200以应用四分之一速率PPP(QPPP)译码方案且实施无声帧编码器UE10以应用四分之一速率NELP(QNELP)译码方案。图12B展示语音编码器AD10的包括以下各项的类似多模式实施方案AD20的框图:第一帧解码器300的实施方案(例如,解码器302)、第二帧编码器400的实施方案、无声帧解码器UD10(例如,QNELP解码器)和译码方案检测器C300。译码方案检测器C300经配置以(例如,根据经编码帧的一个或一个以上模式位,例如第一位和/或最后位)确定接收到的经编码语音信号S300的经编码帧的格式,以经由选择器90a、90b选择用于每一经编码帧的解码器300、400和UD10中的适当对应一者。
图13展示可包括于语音编码器AE10的实施方案内的残差产生器R10的框图。产生器R10包括LPC分析模块R110,LPC分析模块R110经配置以基于语音信号S100的当前帧计算一组LPC系数值。变换块R120经配置以将所述组LPC系数值转换为一组LSF,且量化器R130经配置以量化LSF(例如,作为一个或一个以上码簿索引)以产生LPC参数SL10。逆量化器R140经配置以从经量化的LPC参数SL10获得一组经解码的LSF,且逆变换块R150经配置以从所述组经解码的LSF获得一组经解码的LPC系数值。根据所述组经解码的LPC系数值配置的白化滤波器R160(还称为分析滤波器)处理语音信号S100以产生LPC残差SR10。残差产生器R10还可经实施以根据据认为适合于特定应用的任何其它设计而产生LPC残差。残差产生器R10的例子可实施于帧编码器104、204和UE10内,和/或在帧编码器104、204和UE10中的任何一者或一者以上中共享。
图14展示包括卫星10、地面站20a、20b和用户终端30a、30b的卫星通信系统的示意图。卫星10可经配置以可能经由一个或一个以上其它卫星在地面站20a与20b之间、用户终端30a与30b之间或地面站与用户终端之间的半双工信道或全双工信道上中继话音通信。用户终端30a、30b中的每一者可为用于无线卫星通信的便携式装置,例如,移动电话或装备有无线调制解调器的便携式计算机、安装于陆地车辆或航天器内的通信单元或用于卫星话音通信的另一装置。地面站20a、20b中的每一者经配置以将话音通信信道路由到相应网络40a、40b,所述网络40a、40b可为模拟或脉码调制(PCM)网络(例如,公共交换电话网络或PSTN)和/或数据网络(例如,因特网、局域网(LAN)、校域网(CAN)、城域网(MAN)、广域网(WAN)、环形网络、星形网络和/或权标环形网络)。地面站20a、20b中的一者或两者还可包括网关,网关经配置以将话音通信信号代码转换到另一形式(例如,模拟、PCM、较高位速率译码方案等)和/或从另一形式(例如,模拟、PCM、较高位速率译码方案等)代码转换话音通信信号。
在PWI编码期间提取的原型的长度通常等于音调滞后的当前值,其在帧间可改变。量化原型以传输到解码器因此提出了量化其尺寸为可变的向量的问题。在常规的PWI和PPP译码方案中,可变尺寸原型向量的量化通常通过将时域向量转换为复合值频域向量(例如,使用离散时间傅立叶变换(DTFT)操作)来执行。上文参看音调脉冲形状差别计算任务E210来描述此操作。接着对此复合值可变尺寸向量的振幅进行取样以获得固定尺寸的向量。振幅向量的取样可能为非均匀的。举例来说,可能需要在低频率下以较高分辨率对向量进行取样(与高频率相比)。
可能需要执行对在开始帧之后的有声帧的差别PWI编码。在全速率PPP译码模式中,频域向量的相位以类似于振幅的方式经取样以获得固定尺寸的向量。然而在QPPP译码模式中,无位可用于将此相位信息载运到解码器。在此情况下,音调滞后经差别编码(例如,相对于先前帧的音调滞后),且必须还基于来自一个或一个以上先前帧的信息来估计相位信息。举例来说,当将过渡帧译码模式(例如,任务E100)用以编码开始帧时,可从音调滞后和脉冲位置信息导出后续帧的相位信息。
对于编码开始帧来说,可能需要执行可预期检测帧内的所有音调脉冲的程序。举例来说,可预期使用稳健的音调峰值检测操作以提供后续帧的较好滞后估计和/或相位参考。可靠参考值对于后续帧是使用例如差别译码方案的相对译码方案(例如,任务E200)而经编码的情况可尤其重要,这是由于此些方案对于误差传播通常为敏感的。如上所提及,在此描述中,音调脉冲的位置通过其峰值的位置来指示,但在另一情形下,音调脉冲的位置可等效地通过脉冲的另一特征(例如,其第一样本或最后样本)的位置来指示。
图15A展示根据一般配置的包括任务L100、L200和L300的方法M300的流程图。任务L100定位帧的终端音调峰值。在特定实施中,任务L100经配置以根据(A)基于样本振幅的量与(B)帧的所述量的平均值之间的关系而选择一样本作为终端音调峰值。在一个此类实例中,所述量为样本量值(即,绝对值),且在此情况下帧平均值可计算如下:
其中s表示样本值(即,振幅),N表示帧中的样本的数目,且i为样本索引。在另一个此类实例中,所述量为样本能量(即,经平方的振幅),且在此情况下,帧平均值可计算如下:
其中s表示样本值(即,振幅),N表示帧中的样本的数目,且i为样本索引。在以下描述中,使用能量。
任务L100可经配置以定位终端音调峰值作为帧的初始音调峰值或作为帧的最终音调峰值。为了定位初始音调峰值,任务L100可经配置以在帧的第一样本开始且按时间顺序操作。为了定位最终的音调峰值,任务L100可经配置以在帧的最后样本开始且按时间反向操作。在以下描述的特定实例中,任务L100经配置以定位终端音调峰值作为帧的最终音调峰值。
图15B展示任务L100的包括子任务L110、L120和L130的实施方案L102的框图。任务L110定位帧中的有资格成为终端音调峰值的最后样本。在此实例中,任务L110定位相对于帧平均值的能量超出(或者,不小于)对应阈值TH1的最后样本。在一个实例中,TH1的值为六。如果在帧中未发现此样本,则方法M300终止且另一译码模式(例如,QPPP)用于帧。否则,任务L120(如图16A中所示)在此样本之前的窗内进行搜索以找到具有最大振幅的样本,且选择此样本作为临时峰值候选者。对于任务L120中的搜索窗来说,可能需要具有等于最小容许滞后值的宽度WL1。在一个实例中,WL1的值为二十个样本。对于搜索窗中的一个以上样本具有最大振幅的情况来说,任务L120可经不同地配置以选择第一此类样本、最后此类样本或任何其它此类样本。
任务L130(如图16B中所示)通过在临时峰值候选者之前的窗内找到具有最大振幅的样本而检验最终音调峰值选择。对于任务L130中的搜索窗来说,可能需要具有在初始滞后估计的50%与100%之间或50%与75%之间的宽度WL2。初始滞后估计通常等于最新滞后估计(即,来自先前帧的滞后估计)。在一个实例中,WL2的值等于初始滞后估计的八分之五。如果新样本的振幅大于临时峰值候选者的振幅,则任务L130替代地选择新样本作为最终音调峰值。在另一实施方案中,如果新样本的振幅大于临时峰值候选者的振幅,则任务L130选择新样本作为新的临时峰值候选者,并重复在新的临时峰值候选者之前的具有宽度WL2的窗内的搜索,直到找不到样本为止。
任务L200计算帧的所估计滞后值。任务L200通常经配置以定位邻近于终端音调峰值的音调脉冲的峰值并将滞后估计计算为这两个峰值之间的距离。可能需要配置任务L200以仅在帧边界内进行搜索和/或要求终端音调峰值与邻近音调峰值之间的距离大于(或者,不小于)最小容许滞后值(例如,二十个样本)。
可能需要配置任务L200以使用初始滞后估计来找到相邻峰值。然而,首先,对于任务L200来说,可能需要检查音调加倍误差(其可包括音调三倍和/或音调四倍误差)的初始滞后估计。通常,将已使用基于相关的方法确定初始滞后估计。音调加倍误差对于音调估计的基于相关的方法为常见的,且通常为相当可听的。图15C展示任务L200的实施方案L202的流程图。任务L202包括检查音调加倍误差的初始滞后估计的可选但推荐的子任务L210。任务L210经配置以在距终端音调峰值(例如)1/2、1/3和1/4滞后的距离的窄窗内搜索音调峰值,且可如下所描述进行迭代。
图17A展示任务L210的包括子任务L212、L214和L216的实施方案L210a的流程图。对于待检查的最小音调分数(例如,滞后/4),任务L212在其中心从终端音调峰值偏移实质上等于音调分数(例如,在截断或舍入误差内)的距离的小窗(例如,五个样本)内进行搜索,以找到具有(例如,在振幅、量值或能量方面的)最大值的样本。图18A说明此操作。
任务T214评估最大值样本(即,“候选者”)的一个或一个以上特征,且比较这些值与相应阈值。经评估的特征可包括候选者的样本能量、候选者能量与平均帧能量(例如,峰值对RMS能量)的比率和/或候选者能量与终端峰值能量的比率。任务L214可经配置而以任何次序执行这些评估,且评估可串行和/或彼此并行地执行。
对于任务L214来说,还可能需要使候选者的邻域与终端音调峰值的类似邻域相关。对于此特征评估来说,任务L214通常经配置以使以候选者为中心的长度为N1个样本的区段与以终端音调峰值为中心的具有相等长度的区段相关。在一个实例中,N1的值等于十七个样本。可能需要配置任务L214以执行规格化的相关(例如,具有在从零到一的范围内的结果)。可能需要配置任务L214以:重复以(例如)候选者之前和之后的一个样本为中心的长度为N1的区段的相关(例如,以解决时序偏移和/或取样误差),和选择最大相关结果。对于相关窗将延伸超出帧边界的情况,可能需要移位或截断相关窗。(对于相关窗经截断的情况,可能需要规格化相关结果,除非所述相关结果已经规格化。)在一个实例中,如果满足展示为图19A中的各栏的三组条件中的任一者,则接受候选者作为邻近音调峰值,其中阈值T可等于六。
如果任务T214找到邻近音调峰值,则任务L216计算当前滞后估计作为终端音调峰值与邻近音调峰值之间的距离。否则,任务L210a在终端峰值的另一侧上迭代(如图18B中所示),接着对于待检查的其它音调分数在终端峰值的两侧之间从最小到最大进行交替,直到找到邻近的音调峰值为止(如图18C到图18F中所示)。如果在终端音调峰值与最接近的帧边界之间找到邻近音调峰值,则终端音调峰值被重新标记为邻近的音调峰值,且新峰值被标记为终端音调峰值。在替代实施方案中,任务L210经配置以在前导侧之前在终端音调峰值的结尾侧(即,在任务L100中已经搜索的侧)上进行搜索。
如果分数滞后测试任务L210并不定位音调峰值,则任务L220根据初始滞后估计(例如,在从终端峰值位置偏移初始滞后估计的窗内)搜索邻近于终端音调峰值的音调峰值。图17B展示任务L220的包括子任务L222、L224、L226和L228的实施方案L220a的流程图。任务L222在具有宽度WL3的以到最终峰值的左侧一个滞后的距离为中心的窗内找到候选者(例如,具有在振幅或量值方面的最大值的样本)(如图19B中所示,其中经填充的圆指示终端音调峰值)。在一个实例中,WL3的值等于0.55倍初始滞后估计。任务L224评估候选样本的能量。举例来说,任务L224可经配置以确定候选者的能量的测量(例如,样本能量与帧平均能量的比率,例如峰值对RMS能量)是否大于(或者不小于)对应阈值TH3。TH3的实例值包括1、1.5、3和6。
任务L226使候选者的邻域与终端音调峰值的类似邻域相关。任务L226通常经配置以使以候选者为中心的长度为N2个样本的区段与以终端音调峰值为中心的具有相等长度的区段相关。N2的值的实例包括十、十一和十七个样本。可能需要配置任务L226以执行规格化相关。可能需要配置任务L226以:重复以(例如)候选者之前和之后的一个样本为中心的区段的相关(例如,以解决时序偏移和/或取样误差),以及选择最大相关结果。对于相关窗将延伸超出帧边界的情况,可能需要移位或截断相关窗。(对于相关窗经截断的情况,可能需要规格化相关结果,除非所述相关结果已经规格化。)任务L226还确定相关结果是否大于(或者不小于)对应阈值TH4。TH4的实例值包括0.75、0.65和0.45。可根据不同组的TH3和TH4值来组合任务L224和L226的测试。在一个此类实例中,如果以下组值中的任一者产生正结果,则L224和L226的结果为正:TH3=1且TH4=0.75;TH3=1.5且TH4=0.65;TH3=3且TH4=0.45;TH3=6(在此情况下,任务L226的结果被认为是正)。
如果任务L224和L226的结果为正,则接受候选者作为邻近音调峰值,且任务T228计算当前滞后估计作为此样本与终端音调峰值之间的距离。任务L224和L226可依序和/或彼此并行地执行。任务L220还可经实施以仅包括任务L224和L226中的一者。如果任务L220在未找到邻近音调峰值的情况下结束,则可能需要在终端音调峰值的结尾侧上迭代任务L220(如图19C中所示,其中经填充的圆指示终端音调峰值)。
如果任务L210和L220中的任一者均不定位音调峰值,则任务L230在终端音调峰值的前导侧上执行对音调峰值的开放窗搜索。图17C展示任务L230的包括子任务L232、L234、L236和L238的实施方案L230a的流程图。开始于距终端音调峰值某一距离D1的样本,任务L232找到相对于平均帧能量的能量超出(或者不小于)阈值(例如,TH1)的样本。图20A说明此操作。在一个实例中,D1的值为例如二十个样本的最小容许滞后值。任务L234在此样本的具有宽度WL4的窗内找到候选者(例如,具有在振幅或量值方面的最大值的样本)(如图20B中所示)。在一个实例中,WL4的值等于二十个样本。
任务L236使候选者的邻域与终端音调峰值的类似邻域相关。任务L236通常经配置以使以候选者为中心的长度为N3个样本的区段与以终端音调峰值为中心的具有相等长度的区段相关。在一个实例中,N3的值等于十一个样本。可能需要配置任务L326以执行规格化相关。可能需要配置任务L326以:重复以(例如)候选者之前和之后的一个样本为中心的区段的相关(例如,以解决时序偏移和/或取样误差),以及选择最大相关结果。对于相关窗将延伸超出帧边界的情况,可能需要移位或截断相关窗。(对于相关窗经截断的情况,可能需要规格化相关结果,除非所述相关结果已经规格化。)任务T326确定相关结果是否超出(或者,不小于)阈值TH5。在一个实例中,TH5的值等于0.45。如果任务L236的结果为正,则接受候选者作为邻近音调峰值,且任务T238计算当前滞后估计作为此样本与终端音调峰值之间的距离。否则,任务L230a跨越帧进行迭代(例如,如图20C中所示,开始于先前搜索窗的左侧),直到找到音调峰值或搜索完为止。
当滞后估计任务L200已结束时,任务L300执行以定位帧中的任何其它音调脉冲。任务L300可经实施以使用相关和当前滞后估计来定位更多脉冲。举例来说,任务L300可经配置以使用例如相关和样本对RMS能量值的准则来测试围绕滞后估计的窄窗内的最大值样本。与滞后估计任务L200相比,任务L300可经配置以使用较小搜索窗和/或宽松的准则(例如,较低阈值),尤其在已找到邻近于终端音调峰值的峰值情况下。举例来说,在开始或其它过渡帧中,脉冲形状可改变,使得帧内的一些脉冲可能并非强烈相关,且可能需要第二脉冲之后的脉冲宽松或甚至忽略相关准则,只要脉冲的振幅足够高且位置(例如,根据当前滞后值)是正确的便可。可能需要最小化遗漏有效脉冲的概率,且尤其对于大滞后值来说,帧的有声部分可能并非非常有峰。在一个实例中,方法M300允许每帧最大八个音调脉冲。
任务L300可经实施以计算下一音调峰值的两个或两个以上不同候选者并根据这些候选者中的一者选择音调峰值。举例来说,任务L300可经配置以:基于样本值选择候选样本;且基于相关结果来计算候选距离。图21展示任务L300的包括子任务L310、L320、L330、L340和L350的实施方案L302的流程图。任务L310初始化候选者搜索的锚定位置。举例来说,任务L310可经配置以使用最新近接受的音调峰值的位置作为初始锚定位置。在任务L302的第一迭代中,例如,锚定位置可为邻近于终端音调峰值的音调峰值的位置(如果此峰值由任务L200来定位)或否则为终端音调峰值的位置。对于任务L310来说,还可能需要初始化滞后乘数m(例如,为值1)。
任务L320选择候选样本并计算候选距离。任务L320可经配置以如图22A中所示搜索窗内的这些候选者,其中大的有界水平线指示当前帧,左侧大垂直线指示帧开始,右侧大垂直线指示帧结束,点指示锚定位置,且阴影框指示搜索窗。在此实例中,窗以其距锚定位置的距离为当前滞后估计与滞后乘数m的乘积的样本为中心,且所述窗向左延伸WS个样本(即,在时间上向后)且向右延伸(WS-1)个样本(即,在时间上向前)。
任务L320可经配置以将窗大小参数WS初始化为当前滞后估计的五分之一的值。对于窗大小参数WS来说,可能需要至少具有例如十二个样本的最小值。或者,如果尚未找到邻近于终端音调峰值的音调峰值,则对于任务L320来说可能需要将窗大小参数WS初始化为例如当前滞后估计的一半的可能较大值。
为了找到候选样本,任务L320搜索窗以找到具有最大值的样本并记录此样本的位置和值。任务L320可经配置以在搜索窗内选择其值具有最高振幅的样本。或者,任务L320可经配置以在搜索窗内选择其值具有最高量值或最高能量的样本。
候选距离对应于搜索窗内的与锚定位置的相关为最高的样本。为了找到此样本,任务L320使窗内的每一样本的邻域与锚定位置的类似邻域相关,且记录最大相关结果和对应距离。任务L320通常经配置以使以每一测试样本为中心的长度为N4个样本的区段与以锚定位置为中心的具有相等长度的区段相关。在一个实例中,N4的值为十一个样本。对于任务L320来说,可能需要执行规格化相关。
如上所陈述,任务T320可经配置以使用同一搜索窗来找到候选样本和候选距离。然而,任务T320还可经配置以将不同搜索窗用于这两个操作。图22B展示其中任务L320在具有大小参数WS1的窗上执行对候选样本的搜索的实例,且图22C展示任务L320的同一例子在具有为不同值的大小参数WS2的窗上执行对候选距离的搜索的实例。
任务L302包括在候选样本和对应于候选距离的样本中选择一者作为音调峰值的子任务L330。图23展示任务L330的包括子任务L334、L336和L338的实施方案L332的流程图。
任务L334测试候选距离。任务L334通常经配置以比较相关结果与阈值。对于任务L334来说还可能需要比较基于对应样本的能量的测量(例如,样本能量与帧平均能量的比率)与阈值。对于已识别仅一个音调脉冲的情况来说,任务L334可经配置以检验候选距离至少等于最小值(例如,例如二十个样本的最小容许滞后值)。图24A的表的各栏展示基于此些参数的值的四组不同测试条件,所述参数值可由任务L334的实施方案使用以确定是否接受对应于候选距离的样本作为音调峰值。
对于任务L334接受对应于候选距离的样本作为音调峰值的情况来说,如果那个样本具有较高振幅(或者,较高量值),则可能需要向左或向右调整峰值位置(例如,一个样本)。替代地或另外,对于任务L334来说,在此情况下可能需要针对任务L300的其它迭代将窗大小参数WS的值设定为较小值(例如,十个样本)(或将参数WS1和WS2中的一者或两者设定为此值)。如果新音调峰值仅为对于帧所确认的第二者,则对于任务L334来说,还可能需要将当前滞后估计计算为锚定位置与峰值位置之间的距离。
任务L302包括测试候选样本的子任务L336。任务L336可经配置以确定样本能量的测量(例如,样本能量与帧平均能量的比率)是否超出(或者,不小于)阈值。可能需要视对于帧已确认多少个音调峰值而改变阈值。举例来说,对于任务L336来说,可能需要使用较低阈值(例如,T-3)(如果对于帧已确认仅一个音调峰值)且使用较高阈值(例如,T)(如果对于帧已确认一个以上音调峰值)。
对于任务L336选择候选样本作为第二所确认音调峰值的情况下,对于任务L336来说还可能需要基于与终端音调峰值的相关的结果而向左或向右调整峰值位置(例如,一个样本)。在此情况下,任务L336可经配置以使以每一此样本为中心的长度为N5个样本的区段与以终端音调峰值为中心的具有相等长度的区段相关(在一个实例中,N5的值为十一个样本)。替代地或另外,对于任务L336来说,在此情况下可能需要针对任务L300的其它迭代将窗大小参数WS的值设定为较小值(例如,十个样本)(或将参数WS1和WS2中的一者或两者设定为此值)。
对于测试任务L334和L336中的两者已失败且对于帧已确认仅一个音调峰值的情况来说,任务L302可经配置以:(经由任务L350)使滞后估计乘数m的值加一,以m的新值迭代任务L320而选择新候选样本和新候选距离,且对于新候选者重复任务L332。
如图23中所示,任务L336可经布置以在候选距离测试任务L334失败之后执行。在任务T332的另一实施中,候选样本测试任务L336可经布置以首先执行,使得候选距离测试任务L334仅在任务L336失败后执行。
任务L332还包括子任务L338。对于其中测试任务L334和L336中的两者已失败且对于帧已确认一个以上音调峰值的情况下,任务L338测试候选者中的一者或两者与当前滞后估计的一致性。
图24B展示任务L338的实施方案L338a的流程图。任务L338a包括测试候选距离的子任务L362。如果候选距离与当前滞后估计之间的绝对差小于(或者,不大于)阈值,则任务L362接受候选距离。在一个实例中,阈值为三个样本。对于任务L362来说,还可能需要检验相关结果和/或对应样本的能量是否为可接受地高。在一个此类实例中,如果相关结果不小于0.35且样本能量与帧平均能量的比率不小于0.5,则任务L362接受小于(或者,不大于)阈值的候选距离。对于其中任务L362接受候选距离的情况来说,如果那个样本具有较高振幅(或者,较高量值),则对于任务L362来说还可能需要向左或向右调整峰值位置(例如,一个样本)。
任务L338a还包括测试候选样本的滞后一致性的子任务L364。如果(A)候选样本与最接近音调峰值之间的距离与(B)当前滞后估计之间的绝对差小于(或者,不大于)阈值,则任务L364接受候选样本。在一个实例中,阈值为例如两个样本的低值。对于任务L364来说,还可能需要检验候选样本的能量为可接受地高。在一个此类实例中,如果候选样本通过滞后一致性测试且如果样本能量与帧平均能量的比率不小于(T-5),则任务L364接受所述候选样本。
展示于图24B中的任务L338a的实施方案还包括另一子任务L366,其对照比任务L364的低阈值松散的界限而测试候选样本的滞后一致性。如果(A)候选样本与最接近所确认峰值之间的距离与(B)当前滞后估计之间的绝对差小于(或者,不大于)阈值,则任务L366接受候选样本。在一个实例中,阈值为(0.175*滞后)。对于任务L366来说,还可能需要检验候选样本的能量为可接受地高。在一个此类实例中,如果样本能量与帧平均能量的比率不小于(T-3),则任务L366接受候选样本。
如果候选样本和候选距离两者均未通过所有测试,则任务T302(经由任务T350)使滞后估计乘数m加一,以m的新值迭代任务L320从而选择新候选样本和新候选距离,并针对新候选者重复任务L330直到到达帧边界为止。一旦已确认新音调峰值,就可能需要在同一方向上搜索另一峰值直到到达帧边界为止。在此情况下,任务L340将锚定位置移动到新音调峰值,并将滞后估计乘数m的值复位为一。当到达帧边界时,可能需要将锚定位置初始化到终端音调峰值位置并在相反方向上重复任务L300。
滞后估计从一帧到下一帧的较大减小可指示音调溢出错误。此错误由音调频率的下降引起,使得当前帧的滞后值超出最大容许滞后值。对于方法M300来说,可能需要将先前滞后估计与当前滞后估计之间的绝对或相对差与阈值(例如,在计算新滞后估计时或在方法结束时)进行比较,并在检测到错误的情况下仅保持帧的最大音调峰值。在一个实例中,阈值等于先前滞后估计的50%。
对于具有两个具大量值平方比的脉冲的经分类为瞬变的帧(例如,通常靠近字的末尾的具有大音调改变的帧)来说,可能需要在接受较小峰值作为音调峰值之前在整个当前滞后估计上而非仅在较小窗上进行相关。此情况可在男性话音中出现,所述男性话音通常具有在小窗上可与主要峰值良好相关的次要峰值。任务L200和L300中的一者可经实施以包括此操作。
应明确地注意到,方法M300的滞后估计任务L200可为与方法M100的滞后估计任务E130相同的任务。应明确地注意到,方法M300的终端音调峰值位置任务L100可为与方法M100的终端音调峰值位置计算任务E120相同的任务。对于执行方法M100和M300两者的应用来说,可能需要布置音调脉冲形状选择任务E110以在结束方法M300后即刻执行。
图27A展示经配置以检测语音信号的帧的音调峰值的设备MF300的框图。设备MF300包括用于(例如,如上文参看任务L100的各种实施方案所描述)定位帧的终端音调峰值的装置ML100。设备MF300包括用于(例如,如上文参看任务L200的各种实施方案所描述)估计帧的音调滞后的装置ML200。设备MF300包括用于(例如,如上文参看任务L300的各种实施方案所描述)定位帧的额外音调峰值的装置ML300。
图27B展示经配置以检测语音信号的帧的音调峰值的设备A300的框图。设备A300包括终端音调峰值定位器A310,其经配置以(例如,如上文参看任务L100的各种实施方案所描述)定位帧的终端音调峰值。设备A300包括音调滞后估计器A320,音调滞后估计器A320经配置以(例如,如上文参看任务L200的各种实施方案所描述)估计帧的音调滞后。设备A300包括额外的音调峰值定位器A330,其经配置以(例如,如上文参看任务L300的各种实施方案所描述)定位帧的额外的音调峰值。
图27C展示经配置以检测语音信号的帧的音调峰值的设备MF350的框图。设备MF350包括用于(例如,如上文参看任务L100的各种实施方案所描述)检测帧的音调峰值的装置ML150。设备MF350包括用于(例如,如上文参看任务L320和L320b的各种实施方案所描述)选择候选样本的装置ML250。设备MF350包括用于(例如,如上文参看任务L320和L320a的各种实施方案所描述)选择候选距离的装置ML260。设备MF350包括用于(例如,如上文参看任务L330的各种实施方案所描述)选择候选样本和对应于候选距离的样本中的一者作为帧的音调峰值的装置ML350。
图27D展示经配置以检测语音信号的帧的音调峰值的设备A350的框图。设备A350包括峰值检测器150,其经配置以(例如,如上文参看任务L100的各种实施方案所描述)检测帧的音调峰值。设备A350包括样本选择器250,其经配置以(例如,如上文参看任务L320和L320b的各种实施方案所描述)选择候选样本。设备A350包括距离选择器260,其经配置以(例如,如上文参看任务L320和L320a的各种实施方案所描述)选择候选距离。设备A350包括峰值选择器350,其经配置以(例如,如上文参看任务L330的各种实施方案所描述)选择候选样本和对应于候选距离的样本中的一者作为帧的音调峰值。
可能需要实施任务E100、第一帧编码器100和/或装置FE100来产生唯一地指示帧的终端音调脉冲的位置的经编码帧。与滞后值组合的终端音调脉冲的位置提供用于随后帧的重要相位信息,随后帧可能缺少此时间同步性信息(例如,QPPP)。还可能需要最小化传达此信息所需要的位的数目。虽然将通常需要八个位(个位)来表示160位(N位)帧中的唯一位置,但如本文中所描述的方法可用以在仅七个位(个位)中编码终端音调脉冲的位置。此方法保留七位值中的一者(在此实例中,127)以用作模式值。
对于相对于最后样本给定终端音调脉冲的位置的情形来说,帧将与以下三种情况中的一种情况匹配:
情况1:终端音调脉冲相对于帧的最后样本的位置小于(例如,如图29A中所示,对于160位帧小于127),且帧含有一个以上音调脉冲。在此情况下,将终端音调脉冲的位置编码到个位(七个位)中,且音调滞后也(例如,在七个位中)被传输。
情况2:终端音调脉冲相对于帧的最后样本的位置小于(例如,如图29A中所示,对于160位帧小于127),且帧仅含有一个音调脉冲。在此情况下,将终端音调脉冲的位置编码到个位(例如,七个位)中,且音调滞后被设定为模式值(例如,127)。
情况3:如果终端音调脉冲相对于帧的最后样本的位置大于(例如,如图29B中所示,对于160位帧大于126),则帧含有一个以上音调脉冲是不大可能的。对于160位帧和8kHz的取样速率来说,此将暗示在帧的约前20%中至少250Hz的音调处的活动性,在帧的残差部分中无音调脉冲。此帧将不大可能被分类为开始帧。在此情况下,传输数字(例如,127)来取代实际脉冲位置,且将滞后位用以载运终端音调脉冲相对于帧的第一样本的位置。对应解码器可经配置以测试经编码帧的位置位是否指示的脉冲位置。如果如此,则解码器可接着替代地从滞后位获得终端音调脉冲相对于帧的第一样本的位置。
在如应用到160位帧的情况3下,三十三个此些位置是可能的(即,零到32)。通过将位置中的一者舍入到另一者(例如,通过将位置159舍入到位置158,或通过将位置127舍入到位置128),可仅在五个位中传输实际位置,从而留下七个滞后位中的两者为空闲的以载运其它信息。
图28展示根据以上三种情况操作的根据一般配置的方法M500的流程图。方法M500经配置以使用r个位在q位帧中编码终端音调脉冲的位置,其中r小于log2q。在如上所论述的一个实例中,q等于160且r等于七。可通过第一帧编码器100的实施方案(例如,通过音调脉冲位置计算器120)和/或通过装置FE100的实施方案(例如,通过装置FE120)在任务E100的实施方案内(例如,在任务E120内)执行方法M500。
方法M500包括任务T510、T520和T530。任务T510确定终端音调脉冲位置(相对于帧的结束)是否大于(2r-2)(例如,大于126)。如果结果为真,则帧与以上情况三匹配。在此情况下,任务T520将终端音调脉冲位置位设定为(2r-1)(例如,设定为127)且将滞后位设定为等于终端音调脉冲相对于帧的开始的位置。
如果任务T510的结果为假,则任务T530确定帧是否仅含有一个音调脉冲。如果任务T530的结果为真,则帧与以上情况二匹配,且不需要传输滞后值。在此情况下,任务T540将滞后位设定为模式值(2r-1)。
如果任务T530的结果为假,则帧含有一个以上音调脉冲且终端音调脉冲相对于帧的结束的位置不大于(2r-2)(例如,不大于126)。此帧与以上情况一匹配,且任务T550在r个位中编码所述位置且将滞后值编码到滞后位中。
对于相对于第一样本给定终端音调脉冲的位置的情形来说,帧将与以下三种情况中的一种情况匹配:
情况1:终端音调脉冲相对于帧的第一样本的位置大于(例如,如图29C中所示,对于160位帧大于32),且帧含有一个以上音调脉冲。在此情况下,终端音调脉冲的位置减去被编码到个位(例如,七个位)中,且音调滞后也被传输(例如,在七个位中)。
情况2:终端音调脉冲相对于帧的第一样本的位置大于(例如,如图29C中所示,对于160位帧大于32),且帧仅含有一音调脉冲。在此情况下,终端音调脉冲的位置减去被编码到个位(例如,七个位)中,且将音调滞后设定为模式值(例如,127)。
情况3:如果终端音调脉冲的位置不大于(例如,如图29D中所示,对于160位帧不大于32),则帧含有一个以上音调脉冲是不大可能的。对于160位帧和8kHz的取样速率来说,此将暗示在帧的约前20%中至少250Hz的音调处的活动性,在帧的残差部分中无音调脉冲。此帧将不大可能被分类为开始帧。在此情况下,传输数字(例如,127)来取代实际脉冲位置,且将滞后位用以传输终端音调脉冲相对于帧的第一样本的位置。对应解码器可经配置以测试经编码帧的位置位是否指示的脉冲位置。如果如此,则解码器可接着替代地从滞后位获得终端音调脉冲相对于帧的第一样本的位置。
在如应用到160位帧的情况3下,三十三个此些位置为可能的(零到32)。通过将位置中的一者舍入到另一者(例如,通过将位置0舍入到位置1,或通过将位置32舍入到位置31),可在仅五个位中传输实际位置,从而留下七个滞后位中的两者为空闲的以载运其它信息。所属领域的技术人员将认识到,方法M500可经修改以用于相对于第一样本给定终端音调脉冲的位置的情形。
四分之一速率允许每帧四十个位。在如由编码任务E100的实施方案、编码器100或装置FE100应用的过渡帧译码格式的一个实例中,将十七个位的区用以指示LSP和编码模式,七个位的区用以指示终端音调脉冲的位置,七个位的区用以指示滞后,七个位的区用以指示脉冲形状,且两个位的区用以指示增益轮廓。其它实例包括用于LSP的区为较小的且用于增益轮廓的区对应地为较大的格式。
对应解码器(例如,解码器300或装置FD100的实施方案,或执行解码任务D100的实施方案的装置)可经配置以通过将所指示脉冲复制到由终端音调脉冲位置和滞后值指示的位置中的每一者并根据增益VQ表输出缩放所得信号而从脉冲形状VQ表输出来建构激励信号。对于所指示的脉冲长于滞后值的情况下,可通过以下操作来处置邻近脉冲之间的任何重叠:对每一对重叠的值进行平均,选择每一对中的一个值(例如,最高或最低值,或属于左侧或右侧上的脉冲的值)或简单地丢弃超出滞后值的样本。
激励信号的音调脉冲并非简单地为脉冲或尖峰。而是,音调脉冲通常具有说话者相依的随时间变化的振幅轮廓或形状,且保持此形状对于说话者辨识可为重要的。可能需要编码脉冲形状的良好表示以充当后续有声帧的参考(例如,原型)。
音调脉冲的形状提供在感知上对于说话者识别和辨识为重要的信息。为了向解码器提供此信息,过渡帧译码模式(例如,如由任务E100的实施方案、编码器100或装置FE100执行)可经配置以在经编码帧中包括脉冲形状信息。编码脉冲形状可呈现量化其尺寸为可变的向量的问题。举例来说,残差中的音调周期的长度且因此音调脉冲的长度可在广泛范围上改变。在一个实例中,可容许的音调滞后值范围为20到146个样本。
可能需要在不将脉冲转换到频域的情况下编码音调脉冲的形状。图30展示根据一般配置的方法M600的流程图,可通过第一帧编码器100的实施方案(例如,通过音调脉冲形状选择器110)和/或通过装置FE100的实施方案(例如,通过装置FE110)在任务E100的实施方案内(例如,在任务E110内)执行所述方法M600。方法M600包括任务T610、T620、T630、T640和T650。任务T610依据帧是具有单一音调脉冲还是多个音调脉冲而选择两个处理路径中的一者。
对于单一脉冲帧来说,任务T620根据帧内的音调脉冲的位置而选择一组不同单一脉冲向量量化(VQ)表中的一者。这些表中的每一者具有等于帧的长度(例如,160个样本)的向量尺寸。在一个实例中,所述组单一脉冲VQ表包括三个表。任务T630接着通过在选定的VQ表内找到最佳匹配而量化脉冲形状。
在一个特定实例中,此编码系统包括用于单一脉冲帧的三个脉冲形状VQ表。每一表具有128个条目,所述条目各自具有长度160,使得脉冲形状经编码为七位索引。
对应解码器(例如,解码器300或装置FD100的实施方案或执行解码任务D100的实施方案的装置)可经配置以在脉冲位置值等于模式值(例如,127)的情况下将帧识别为单一脉冲。替代地或另外,此解码器可经配置以在滞后值等于模式值(例如,127)的情况下将帧识别为单一脉冲。
对于多个脉冲的帧来说,任务T640可经配置以提取具有最大增益(例如,最高峰值)的音调脉冲。在提取脉冲时,可能需要需要确保峰值并非为所提取脉冲的第一或最后样本,其将导致一个或一个以上重要样本的间断和/或忽略。在一些情况下,峰值之后的信息与峰值之前的信息相比对于语音质量可能更重要,因此可能需要提取脉冲以使得峰值接近开始处。在一个实例中,任务T640从音调周期提取在音调峰值之前两个样本处开始的形状。此方法允许俘获在峰值之后出现且可能含有重要形状信息的样本。在另一实例中,可能需要俘获峰值之前的更多样本,所述样本也可能含有重要信息。在其它实例中,任务T640经配置以提取以峰值为中心的音调周期。可能需要从一帧提取一个以上音调脉冲并计算来自具有最高增益的两个或两个以上音调脉冲的平均形状。可能需要在执行形状选择之前规格化脉冲振幅。
对于多个脉冲的帧来说,任务T650基于滞后值(或所提取原型的长度)来选择脉冲形状VQ表且接着从选定的表选择最佳匹配。可能需要提供九个或十个脉冲形状VQ表来编码多个脉冲的帧。每一表具有不同向量尺寸,且与不同滞后范围或“频段”相关联。因为脉冲的长度可能并非与表条目的长度准确地匹配,所以任务T650可经配置以在从表选择最佳匹配之前向形状向量垫零(zero-pad)(例如,在结束处)以与对应的表向量大小匹配。替代地或另外,任务T650可经配置以在从表选择最佳匹配之前截断形状向量从而与对应的表向量大小匹配。在一个实例中,多脉冲脉冲形状VQ表中的每一者具有128个条目,使得脉冲形状经编码为七位索引。
对应解码器(例如,解码器300或装置FD100的实施方案或执行解码任务D100的实施方案的装置)可经配置以:从经编码帧获得滞后值和脉冲形状索引值,使用滞后值来选择适当的脉冲形状VQ表,以及使用脉冲形状索引值来从选定的脉冲形状VQ表选择所要脉冲形状。
可以均匀方式或非均匀方式将可能(容许)的滞后值的范围划分为频段。在如图31A中所说明的均匀划分的一个实例中,20到146个样本的滞后范围被划分为以下九个频段:20到33、34到47、48到61、62到75、76到89、90到103、104到117、118到131和132到146。在此实例中,除最后频段外的所有频段具有十四个样本的宽度,所述最后频段具有十五个样本的宽度。
如上所阐述的均匀划分与低音调频率处的质量相比可导致高音调频率处的降低的质量。在以上实例中,具有二十个样本的长度的音调脉冲在匹配之前将延伸(例如,垫零)65%,而具有132个样本的长度的音调脉冲将延伸(例如,垫零)仅11%。使用非均匀划分的一个潜在优点为等化不同滞后频段间的最大相对延伸。在如图31B中所说明的非均匀划分的一个实例中,20到146个样本的滞后范围被划分为以下九个频段:20到23、24到29、30到37、38到47、48到60、61到76、77到96、97到120和121到146。在此情况下,具有二十个样本的长度的音调脉冲在匹配之前将延伸(例如,垫零)15%,具有121个样本的长度的音调脉冲将延伸(例如,垫零)21%,且在20到146个样本的范围内的任何音调脉冲的最大延伸为25%。
根据一配置(例如,根据语音编码器AE20的实施方案)的语音编码器使用三或四种译码方案来编码不同类别帧:四分之一速率NELP(QNELP)译码方案、四分之一速率PPP(QPPP)译码方案和如上所描述的过渡帧译码方案。QNELP译码方案用以编码无声帧和向下瞬变帧。QNELP译码方案或八分之一速率NELP译码方案可用以编码静默帧(例如,背景噪声)。QPPP译码方案用以编码有声帧。过渡帧译码方案可用以编码向上瞬变(即,开始)帧和瞬变帧。图26的表展示这四种译码方案中的每一者的位分配的实例。
现代声码器通常执行语音帧的分类。举例来说,此声码器可根据将帧分类为以上所论述的六个不同类别(静默、无声、有声、瞬变、向下瞬变和向上瞬变)中的一者的方案来操作。此些方案的实例在第2002/0111798号美国公开专利申请案(Huang)中进行描述。此分类方案的一个实例还在3GPP2(第三代合作伙伴计划2)文献“用于宽带扩频数字系统的增强型可变速率编解码器、语音服务选项3、68和70(Enhanced Variable Rate Codec,Speech Service Options 3,68,and 70for Wideband Spread Spectrum Digital Systems)”(在www.3gpp2.org可在线获得的2007年1月的3GPP2 C.S0014-C)章节4.8(第4-57到4-71页)中进行描述。此方案使用在图32的表中列出的特征来对帧进行分类,且此章节作为本文中所描述的“EVRC分类方案”的实例以引用的方式并入。
出现于图32的表中的参数E、EL和EH可计算如下(对于160位帧来说):
其中SL(n)与SH(n)分别为输入语音信号的(使用12阶极零低通滤波器)经低通滤波和(使用12阶极零高通滤波器)经高通滤波的版本。可用于EVRC分类方案中的其它特征包括先前帧模式决策(“prev_mode”)、先前帧中的固定有声语音的存在(“prev_voiced”),和当前帧的话音活动性检测结果(“curr_va”)。
在分类方案中使用的重要特征为基于音调的规格化自相关函数(NACF)。图33展示用于计算基于音调的NACF的程序的流程图。首先,经由具有约100Hz处的3-dB截止频率的三阶高通滤波器对当前帧的和下一帧(还称为先行帧)的LPC残差进行滤波。可能需要使用非量化的LPC系数值来计算此残差。接着,经滤波的残差由具有长度13的有限脉冲响应(FIR)滤波器低通滤波,且以因子二进行抽取。经抽取的信号由rd(n)表示。
当前帧的两个子帧的NACF计算如下:
等式4
对于k=1、2,其中在所有整数i上完成最大化使得
其中lag(k)为如由音调估计例程(例如,基于相关的技术)估计的子帧k的滞后值。当前帧的第一子帧和第二子帧的这些值还可分别称作nacf_at_pitch[2](还写为“nacf_ap[2]”)和nacf_ap[3]。先前帧的第一子帧和第二子帧的根据以上表达计算的NACF值可分别称作nacf_ap[0]和nacf_ap[1]。
先行帧的NACF计算如下:
其中在所有整数i上完成最大化,使得
此值还可称作nacf_ap[4]。
图34为说明处于高水平的EVRC分类方案的流程图。模式决策可被视为状态之间的基于先前模式决策且基于例如NACF的特征的过渡,其中状态为不同帧分类。图35为说明EVRC分类方案中状态之间的可能过渡的状态图,其中标记S、UN、UP、TR、V和DOWN分别表示帧分类静默、无声、向上瞬变、瞬变、有声和向下瞬变。
视nacf_at_pitch[2](当前帧的第二子帧NACF,还写为“nacf_ap[2]”)与阈值VOICEDTH和UNVOICEDTH之间的关系而定,EVRC分类方案可通过选择三个不同程序中的一者而实施。延伸跨越图36和图37的代码列表描述在nacf_ap[2]>VOICEDTH时可使用的程序。延伸跨越图38到图40的代码列表描述在nacf_ap[2]<UNVOICEDTH时可使用的程序。延伸跨越图41到图44的代码列表描述在nacf_ap[2]>=UNVOICEDTH且nacf_ap[2]<=VOICEDTH时可使用的程序。
可能需要根据特征curr_ns_snr的值来改变阈值VOICEDTH、LOWVOICEDTH和UNVOICEDTH的值。举例来说,如果curr_ns_snr的值不小于为25dB的SNR阈值,则可应用针对干净语音的以下阈值:VOICEDTH=0.75,LOWVOICEDTH=0.5,UNVOICEDTH=0.35;且如果curr_ns_snr的值小于为25dB的SNR阈值,则可应用针对有噪音语音的以下阈值:VOICEDTH=0.65,LOWVOICEDTH=0.5,UNVOICEDTH=0.35。
帧的准确分类对于在低速率声码器中确保良好质量可尤其重要。举例来说,可能需要仅在开始帧具有至少一个独特峰值或脉冲的情况下使用如本文中所描述的过渡帧译码模式。此特征对于可靠的脉冲检测来说是重要的,在没有其的情况下,过渡帧译码模式可产生失真的结果。可能需要使用NELP译码方案而非PPP或过渡帧译码方案来编码缺少至少一个独特峰值或脉冲的帧。举例来说,可能需要将此瞬变或向上瞬变帧重新分类为无声帧。
此重新分类可基于一个或一个以上规格化自相关函数(NACF)值和/或其它特征。重新分类还可基于在EVRC分类方案中并未使用的特征,例如,帧的峰值对RMS能量值(“最大样本/RMS能量”)和/或帧中的音调脉冲的实际数目(“峰值计数”)。展示于图45的表中的八个条件中的任何一者或一者以上和/或展示于图46的表中的十个条件中的任何一者或一者以上可用于将向上瞬变帧重新分类为无声帧。展示于图47的表中的十一个条件中的任何一者或一者以上和/或展示于图48的表中的十一个条件中的任何一者或一者以上可用于将过渡帧重新分类为无声帧。展示于图49的表中的四个条件中的任何一者或一者以上可用于将有声帧重新分类为无声帧。还可能需要将此重新分类限于相对无低频带噪声的帧。举例来说,可能需要仅在curr_ns_snr的值不小于25dB情况下根据图46、48或49中的条件中的任一者或图47的七个最右侧条件中的任一者来对帧进行重新分类。
相反,可能需要将包括至少一个独特峰值或脉冲的无声帧重新分类为向上瞬变或瞬变帧。此重新分类可基于一个或一个以上规格化自相关函数(NACF)值和/或其它特征。重新分类还可基于在EVRC分类方案中并未使用的特征,例如,帧的峰值对RMS能量值和/或峰值计数。展示于图50的表中的七个条件中的任何一者或一者以上可用于将无声帧重新分类为向上瞬变帧。展示于图51的表中的九个条件中的任何一者或一者以上可用于将无声帧重新分类为瞬变帧。展示于图52A中的条件可用于将向下瞬变帧重新分类为有声帧。展示于图52B中的条件可用于将向下瞬变帧重新分类为瞬变帧。
作为对帧重新分类的替代,例如EVRC分类方案的帧分类方法可经修改以产生等于EVRC分类方案与以上所描述和/或在图45到图52B中阐述的重新分类条件中的一者或一者以上的组合的分类结果。
图53展示语音编码器AE20的实施方案AE30的框图。译码方案选择器C200可经配置以应用例如在图36到图44中的代码列表中描述的EVRC分类方案的分类方案。语音编码器AE30包括帧重新分类器RC10,其经配置以根据以上所描述和/或在图45到图52B中所阐述的条件中的一者或一者以上来对帧进行重新分类。帧重新分类器RC10可经配置以从译码方案选择器C200接收帧分类和/或其它帧特征的值。帧重新分类器RC10还可经配置以计算额外帧特征(例如,峰值对RMS能量值、峰值计数)的值。或者,语音编码器AE30可经实施以包括译码方案选择器C200的实施方案,其产生等于EVRC分类方案与以上所描述和/或在图45到图52B中所阐述的重新分类条件中的一者或一者以上的组合的分类结果。
图54A展示语音编码器AE10的实施方案AE40的框图。语音编码器AE40包括经配置以编码周期性帧的周期性帧编码器E70和经配置以编码非周期性帧的非周期性帧编码器E80。举例来说,语音编码器AE40可包括译码方案选择器C200的实施方案,其经配置以引导选择器60a、60b针对经分类为有声、瞬变、向上瞬变或向下瞬变的帧而选择周期性帧编码器E70,且针对经分类为无声或静默的帧而选择非周期性帧编码器E80。
图54B展示周期性帧编码器E70的实施方案E72的框图。编码器E72包括如本文中所描述的第一帧编码器100和第二帧编码器200的实施方案。编码器E72还包括选择器80a、80b,其经配置以根据来自译码方案选择器C200的分类结果而选择编码器100和200中的一者以用于当前帧。可能需要配置周期性帧编码器来选择第二帧编码器200(例如,QPPP编码器)作为周期性帧的默认编码器。非周期性帧编码器E80可类似地经实施以选择无声帧编码器(例如,QNELP编码器)和静默帧编码器(例如,八分之一速率NELP编码器)中的一者。或者,非周期性帧编码器E80可实施为无声帧编码器UE10的例子。
图55展示周期性帧编码器E72的实施方案E74的框图。编码器E74包括帧重新分类器RC10的例子,帧重新分类器RC10经配置以:根据以上所描述和/或在图45到图52B所阐述的条件中的一者或一者以上对帧进行重新分类,并控制选择器80a、80b以根据重新分类的结果选择编码器100和200中的一者以用于当前帧。在又一实例中,译码方案选择器C200可经配置以:包括帧重新分类器RC10,或执行等于EVRC分类方案与以上所描述和/或在图45到图52B中阐述的重新分类条件中的一者或一者以上的组合的分类方案,且选择如由此分类或重新分类指示的第一帧编码器100。
可能需要使用如上所描述的过渡帧译码模式来编码瞬变和/或向上瞬变帧。图56A到图56D展示使用如本文中所描述的过渡帧译码模式可能为所要的一些典型帧序列。在这些实例中,使用过渡帧译码模式通常将经指示以用于以粗体画出轮廓的帧。此译码模式通常对具有相对恒定的音调周期和尖锐脉冲的全部或部分有声帧表现良好。然而当帧缺少尖锐脉冲时或当帧先于发声的实际开始时,经解码语音的质量可降低。在一些情况下,可能需要跳过或取消过渡帧译码模式的使用,或以其它方式延迟此译码模式的使用直到较迟帧(例如,随后帧)。
脉冲错误检测可引起音调错误、遗漏脉冲和/或外来脉冲的插入。这些错误可在经解码语音中导致例如啪啪、咔哒和/或其它间断的失真。因此,可能需要检验帧适合于过渡帧译码,且在帧为不适合时取消使用过渡帧译码模式可有助于减少此类问题。
可确定瞬变或向上瞬变帧不适合于过渡帧译码模式。举例来说,帧可能缺少独特的尖锐脉冲。在此情况下,可能需要使用过渡帧译码模式来编码在不合适帧之后的第一合适有声帧。举例来说,如果开始帧缺少独特的尖锐脉冲,则可能需要对随后的第一合适有声帧执行过渡帧译码。此技术可有助于确保用于后续有声帧的良好参考。
在一些情况下,过渡帧译码模式的使用可导致脉冲增益失配问题和/或脉冲形状失配问题。仅有限数目个位可用于编码这些参数,且当前帧可能不提供良好参考(即使以其它方式指示了过渡帧译码)。取消对过渡帧译码模式的不必要使用可有助于减少此些问题。因此,可能需要检验过渡帧译码模式与另一译码模式相比更适合于当前帧。
对于其中跳过或取消使用过渡帧译码的情况来说,可能需要使用过渡帧译码模式来编码随后的第一合适帧,这是因为此动作可有助于提供用于后续有声帧的良好参考。举例来说,如果紧跟的下一帧为至少部分有声的,则可能需要强制对所述帧使用过渡帧译码。
可基于例如以下各项的准则来确定对过渡帧译码的需要和/或对帧的过渡帧译码的适用性:当前帧分类、先前帧分类、初始滞后值(例如,如由例如基于相关的技术的音调估计例程所确定)、经修改的滞后值(例如,如由例如方法M200的脉冲检测操作所确定)、先前帧的滞后值和/或NACF值。
因为在无良好参考情况下使用QPPP的结果为不可预测的,所以可能需要接近有声区段的开始使用过渡帧译码模式。然而在一些情况下,可预期QPPP与过渡帧译码模式相比提供较好结果。举例来说,在一些情况下,可预期使用过渡帧译码模式与使用QPPP相比产生不良参考或甚至引起更不满意的结果。
如果对于当前帧为不必要的,则可能需要跳过过渡帧译码。在此情况下,可能需要默认为例如QPPP的有声译码模式(例如,以保持QPPP的连续性)。对过渡帧译码模式的不必要使用(例如,归因于这些特征的有限位预算)可导致较迟帧中的脉冲增益和/或脉冲形状的失配问题。具有有限时间同步性的有声译码模式(例如,QPPP)可尤其对此类错误敏感。
在使用过渡帧译码方案编码帧之后,可能需要检查经编码结果,并在经编码结果为不良的情况下拒绝对帧使用过渡帧译码。对于多数无声且仅接近结束变为有声的帧来说,过渡译码模式可经配置以编码无脉冲(例如,为零或低值)的无声部分,过渡译码模式可经配置以用脉冲填充无声部分的至少部分。如果在无脉冲情况下编码无声部分,则在经解码信号中帧可产生可听的咔哒或间断。在此情况下,可能需要替代地将NELP译码方案用于帧。然而,可能需要避免对有声区段使用NELP,此可引起失真。如果针对帧取消过渡译码模式,则在多数情况下,可能需要使用有声译码模式(例如,QPPP)而非无声译码模式(例如,QNELP)以编码帧。如上所描述,对使用过渡译码模式的选择可实施为过渡译码模式与有声译码模式之间的选择。虽然在无良好参考的情况下使用QPPP的结果可为不可预测的(例如,帧的相位将从前一无声帧导出),但不大可能在经解码信号中产生咔哒或间断。在此情况下,过渡译码模式的使用可延期到下一帧。
在检测到帧之间的音调间断时,可能需要超驰将过渡译码模式用于帧的决策。在一个实例中,任务T710检查与先前帧的音调连续性(例如,检查音调加倍错误)。如果帧经分类为有声或瞬变,且当前帧的由脉冲检测例程指示的滞后值远小于先前帧的由脉冲检测例程指示的滞后值(例如,为先前帧的由脉冲检测例程指示的滞后值的约1/2、1/3或1/4),则任务取消使用过渡译码模式的决策。
在另一实例中,任务T720检查与先前帧相比的音调溢出。当语音具有导致高于最大容许滞后的滞后值的极低音调频率时,音调溢出出现。此任务可经配置以在先前帧的滞后值较大(例如,大于100个样本)且当前帧的由音调估计和脉冲检测例程指示的滞后值均远小于先前音调(例如,小50%以上)的情况下取消使用过渡译码模式的决策。在此情况下,还可能需要仅保持帧的最大音调脉冲作为单一脉冲。或者,可使用先前滞后估计和有声和/或相对译码模式(例如,任务E200、QPPP)来编码帧。
在检测到来自两个不同例程的结果中的不一致性时,可能需要超驰将过渡译码模式用于帧的决策。在一个实例中,任务T730检查在存在强NACF的情况下来自音调估计例程和脉冲检测例程的滞后值的一致性。第二脉冲的音调处的极高NACF指示良好音调估计,使得两个滞后估计之间的不一致性将为意料之外的。此任务可经配置以在来自脉冲检测例程的滞后估计非常不同于来自音调估计例程的滞后估计(例如,大于1.6倍)的情况下取消使用过渡译码模式的决策。
在另一实例中,任务T740检查滞后值与终端脉冲的位置之间的一致性。在如使用滞后估计(其可为峰值之间的距离的平均值)编码的峰值位置中的一者或一者以上过于不同于对应实际峰值位置时,可能需要取消使用过渡帧译码模式的决策。任务T740可经配置以使用终端脉冲的位置与由脉冲检测例程计算的滞后值来计算经重建的音调脉冲位置、比较经重建的位置中的每一者与如由脉冲检测算法检测到的实际音调峰值位置,且在差中的任一者为过大的(例如,大于八个样本)情况下取消使用过渡帧译码的决策。
在又一实例中,任务T750检查滞后值与脉冲位置之间的一致性。此任务可经配置以在最终音调峰值距最终帧边界大于一个滞后周期的情况下取消使用过渡帧译码的决策。举例来说,此任务可经配置以在最终音调脉冲的位置与帧的结束之间的距离大于最终滞后估计(例如,由滞后估计任务L200和/或方法M300计算的滞后值)的情况下取消使用过渡帧译码的决策。此条件可指示脉冲误检测或尚非稳定的滞后。
如果当前帧具有两个脉冲且经分类为瞬变,且如果两个脉冲的峰值的经平方量值的比率较大,则可能需要在整个滞后值上使两个脉冲相关,并拒绝较小峰值,除非相关结果大于(或者,不小于)对应阈值。如果较小峰值被拒绝,则还可能需要取消将过渡帧译码用于帧的决策。
图57展示可用以取消将过渡帧译码用于帧的决策的两个例程的代码列表。在此列表中,mod_lag指示来自脉冲检测例程的滞后值;orig_lag指示来自音调估计例程的滞后值;pdelay_transient_coding指示先前帧的来自脉冲检测例程的滞后值;PREV_TRANSIENT_FRAME_E指示过渡译码模式是否用于先前帧;且loc[0]指示帧的最终音调峰值的位置。
图58展示可用以取消使用过渡帧译码的决策的四个不同条件。在此表中,curr_mode指示当前帧分类;prev_mode指示先前帧的帧分类;number_of_pulses指示当前帧中的脉冲的数目;prev_no_of_pulses指示先前帧中的脉冲的数目;pitch_doubling指示在当前帧中是否已检测到音调加倍错误;delta_lag_intra指示来自音调估计例程和脉冲检测例程的滞后值之间的差的绝对值(例如,整数)(或如果检测到音调加倍,则为来自音调估计例程的滞后值的一半与来自脉冲检测例程的滞后值之间的差的绝对值);delta_lag_inter指示先前帧的最终滞后值与当前帧的来自音调估计例程的滞后值(或在检测到音调加倍时那个滞后值的一半)之间的差的绝对值(例如,浮点);NEED_TRANS指示在先前帧的译码期间是否指示将过渡帧译码模式用于当前帧;TRANS_USED指示过渡译码模式是否用以编码先前帧;且fully_voiced指示终端音调脉冲的位置与如通过最终滞后值划分的帧的相反端之间的距离的整数部分是否等于number_of_pulses减一。阈值的值的实例包括T1A=[0.1*(来自脉冲检测例程的滞后值)+0.5],T1B=[0.05*(来自脉冲检测例程的滞后值)+0.5],T2A=[0.2*(先前帧的最终滞后值)],且T2B=[0.15*(先前帧的最终滞后值)]。
帧重新分类器RC10可经实施以包括以上所描述的用于取消使用过渡译码模式的决策的规定中的一者或一者以上(例如,任务T710到T750、图57中的代码列表和展示于图58中的条件)。举例来说,帧重新分类器RC10可经实施以:执行如图59中所示的方法M700,并在测试任务T710到T750中的任一者失败的情况下取消使用过渡译码模式的决策。
在如本文中所描述的方法(例如,方法M100、M200、M300、M500、M600或M700或另一例程或代码列表)的实施方案的典型应用中,逻辑元件(例如,逻辑门)的阵列经配置以执行所述方法的各种任务中的一者、一个以上或甚至全部。还可将任务中的一者或一者以上(可能全部)实施为体现于计算机程序产品(例如,一个或一个以上数据存储媒体,例如磁盘、快闪或其它非易失性存储器卡、半导体存储器芯片等)中的代码(例如,一组或一组以上指令),其可由包括逻辑元件的阵列(例如,处理器、微处理器、微控制器或其它有限状态机)的机器(例如,计算机)读取和/或执行。实施此方法的任务还可由一个以上此阵列或机器来执行。在这些或其它实施方案中,所述任务可执行于用于无线通信的装置内,例如移动用户终端或具有此通信能力的其它装置。此装置可经配置以(例如,使用例如VoIP(因特网协议话音)的一个或一个以上协议)与电路交换网络和/或包交换网络通信。举例来说,此装置可包括RF电路,其经配置以传输包括经编码帧的信号和/或接收此信号。此装置还可经配置以在RF传输之前对经编码的帧执行一个或一个以上其它操作,例如,交错、打孔、卷积译码、错误校正译码和/或应用网络协议的一个或一个以上层。
本文中所描述的设备(例如,设备A100、A200、A300、A500、A600、A700或语音编码器AE20或其组件)的实施方案的各种元件可实施为驻留于(例如)同一芯片或芯片组中的两个或两个以上芯片中的电子和/或光学装置,虽然还预料到无此限制的其它布置。此设备的一个或一个以上元件可整体或部分地实施为经布置以在逻辑元件(例如,晶体管、门)的一个或一个以上固定或可编程阵列上执行的一组或一组以上指令,所述逻辑元件阵列例如为微处理器、嵌入式处理器、IP核心、数字信号处理器、FPGA(现场可编程门阵列)、ASSP(专用标准产品)和ASIC(专用集成电路)。
实施此设备的一个或一个以上元件可能用以执行与设备的操作不直接相关的任务或执行与设备的操作不直接相关的其它组指令(例如与其中嵌入设备的装置或系统的另一操作相关的任务)。实施本文中所描述的设备的一个或一个以上元件还可能具有共同结构(例如,用以在不同时间执行代码的对应于不同元件的部分的处理器、经执行以在不同时间执行对应于不同元件的任务的一组指令,或在不同时间执行用于不同元件的操作的电子和/或光学装置的布置)。
提供所描述配置的以上陈述以使所属领域的任何技术人员能够制作或使用本文中所揭示的方法和其它结构。本文所展示并描述的流程图和其它结构仅为实例,且这些结构的其它变体也在本发明的范围内。对这些配置的各种修改为可能的,且本文中所呈现的一般原理也可应用于其它配置。
本文中所描述的配置中的每一者可部分或整体实施为硬连线电路、实施为制造成专用集成电路的电路配置,或实施为加载到非易失性存储器中的固件程序或作为机器可读代码而从数据存储媒体加载或加载到数据存储媒体中的软件程序,此代码为可由逻辑元件阵列(例如,微处理器或其它数字信号处理单元)执行的指令。数据存储媒体可为存储元件阵列,例如,半导体存储器(其可包括(不限于)动态或静态RAM(随机存取存储器)、ROM(只读存储器)和/或快闪RAM),或铁电、磁阻、双向、聚合或相变存储器;或磁盘媒体,例如,磁盘或光盘。术语“软件”应理解为包括源代码、汇编语言代码、机器代码、二进制代码、固件、宏代码、微码、可由逻辑元件阵列执行的任何一组或一组以上指令或指令序列,和此些实例的任何组合。
本文中所揭示的方法中的每一者还可确切地体现(例如,在如以上列出的一个或一个以上数据存储媒体中)为可由包括逻辑元件阵列(例如,处理器、微处理器、微控制器或其它有限状态机)的机器读取和/或执行的一组或一组以上指令。因此,本发明不欲限于以上所展示的配置,而是将赋予其与在本文中以任何方式揭示的包括于所申请的所附权利要求书中的原理和新颖特征一致的最广泛范围,所附权利要求书形成原始揭示内容的一部分。
Claims (51)
1.一种编码语音信号的帧的方法,所述方法包含:
编码所述语音信号的第一帧以作为第一经编码帧;以及
编码所述语音信号的第二帧以作为第二经编码帧,
其中所述编码第一帧包括:
基于来自所述第一帧的至少一个音调脉冲的信息而选择多个时域音调脉冲形状中的一者;
计算所述第一帧的终端音调脉冲的位置;以及
估计所述第一帧的音调周期,且
其中所述编码第二帧包括:
计算所述第二帧的音调脉冲形状与所述第一帧的音调脉冲形状之间的音调脉冲形状差别;以及
计算所述第二帧的音调周期与所述第一帧的音调周期之间的音调周期差别,且
其中所述第一经编码帧包括所述选定的时域音调脉冲形状、所述所计算位置,和所述所估计音调周期中的每一者的表示,且
其中所述第二经编码帧包括所述音调脉冲形状差别和所述音调周期差别中的每一者的表示,且
其中在所述语音信号中所述第二帧在所述第一帧之后。
2.根据权利要求1所述的编码帧的方法,其中在所述语音信号中所述第二帧紧跟在所述第一帧之后。
3.根据权利要求1所述的编码帧的方法,其中所述方法包含检测所述第一帧为开始帧。
4.根据权利要求1所述的编码帧的方法,其中所述编码第二帧包括基于来自所述第二帧的至少一个音调脉冲的信息而计算频域音调原型,且
其中所述音调脉冲形状差别是基于(A)所述所计算频域音调原型与(B)所述选定的时域音调脉冲形状的频域表示之间的差。
5.根据权利要求1所述的编码帧的方法,其中所述编码第一帧包括计算多个增益值,所述多个增益值中的每一者对应于所述第一帧的多个音调脉冲中的一不同者,且
其中所述第一经编码帧包括所述多个增益值的表示。
6.根据权利要求1所述的编码帧的方法,其中所述方法包括编码所述语音信号的第三帧以作为第三经编码帧,
其中在所述语音信号中所述第二帧在所述第一帧之后,且
其中在所述语音信号中所述第三帧在所述第二帧之后,且
其中所述编码第三帧包括:
计算所述第三帧的音调脉冲形状与所述第二帧的音调脉冲形状之间的第二音调脉冲形状差别;以及
计算所述第三帧的音调周期与所述第二帧的音调周期之间的第二音调周期差别,且
其中所述第三经编码帧包括所述第二音调脉冲形状差别和所述第二音调周期差别的表示。
7.一种用于编码语音信号的帧的设备,所述设备包含:
用于编码所述语音信号的第一帧以作为第一经编码帧的装置;以及
用于编码所述语音信号的第二帧以作为第二经编码帧的装置,
其中所述用于编码第一帧的装置包括:
用于基于来自所述第一帧的至少一个音调脉冲的信息而选择多个时域音调脉冲形状中的一者的装置;
用于计算所述第一帧的终端音调脉冲的位置的装置;以及
用于估计所述第一帧的音调周期的装置,且
其中所述用于编码第二帧的装置包括:
用于计算所述第二帧的音调脉冲形状与所述第一帧的音调脉冲形状之间的音调脉冲形状差别的装置;以及
用于计算所述第二帧的音调周期与所述第一帧的音调周期之间的音调周期差别的装置,且
其中所述第一经编码帧包括所述选定的时域音调脉冲形状、所述所计算位置,和所述所估计音调周期的表示,且
其中所述第二经编码帧包括所述音调脉冲形状差别和所述音调周期差别的表示,且
其中在所述语音信号中所述第二帧在所述第一帧之后。
8.根据权利要求7所述的用于编码帧的设备,其中所述设备包括用于检测所述第一帧为开始帧的装置。
9.根据权利要求7所述的用于编码帧的设备,其中所述用于编码第二帧的装置包括用于基于来自所述第二帧的至少一个音调脉冲的信息而计算频域音调原型的装置,且
其中所述音调脉冲形状差别是基于(A)所述所计算频域音调原型与(B)所述选定的时域音调脉冲形状的频域表示之间的差。
10.根据权利要求7所述的用于编码帧的设备,其中所述用于编码第一帧的装置包括用于计算多个增益值的装置,所述多个增益值中的每一者对应于所述第一帧的多个音调脉冲中的一不同者,且
其中所述第一经编码帧包括所述多个增益值的表示。
11.根据权利要求7所述的用于编码帧的设备,其中所述设备包括用于编码所述语音信号的第三帧以作为第三经编码帧的装置,
其中在所述语音信号中所述第二帧在所述第一帧之后,且
其中在所述语音信号中所述第三帧在所述第二帧之后,且
其中所述用于编码第三帧的装置包括:
用于计算所述第三帧的音调脉冲形状与所述第二帧的音调脉冲形状之间的第二音调脉冲形状差别的装置;以及
用于计算所述第三帧的音调周期与所述第二帧的音调周期之间的第二音调周期差别的装置,且
其中所述第三经编码帧包括所述第二音调脉冲形状差别和所述第二音调周期差别的表示。
12.一种用于编码语音信号的帧的设备,所述设备包含:
第一帧编码器,其经配置以编码所述语音信号的第一帧以作为第一经编码帧;以及
第二帧编码器,其经配置以编码所述语音信号的第二帧以作为第二经编码帧,
其中所述第一帧编码器包括:
音调脉冲形状选择器,其经配置以基于来自所述第一帧的至少一个音调脉冲的信息而选择多个时域音调脉冲形状中的一者;
音调峰值位置计算器,其经配置以计算所述第一帧的终端音调脉冲的位置;以及
音调周期估计器,其经配置以估计所述第一帧的音调周期,且
其中所述第二帧编码器包括:
音调脉冲形状差别计算器,其经配置以计算所述第二帧的音调脉冲形状与所述第一帧的音调脉冲形状之间的音调脉冲形状差别;以及
音调周期差别计算器,其经配置以计算所述第二帧的音调周期与所述第一帧的音调周期之间的音调周期差别,且
其中所述第一经编码帧包括所述选定的时域音调脉冲形状、所述所计算位置,和所述所估计音调周期的表示,且
其中所述第二经编码帧包括所述音调脉冲形状差别和所述音调周期差别的表示,且
其中在所述语音信号中所述第二帧在所述第一帧之后。
13.根据权利要求12所述的用于编码帧的设备,其中所述设备包括经配置以检测所述第一帧为开始帧的帧分类器。
14.根据权利要求12所述的用于编码帧的设备,其中所述第二帧编码器包括音调原型计算器,其经配置以基于来自所述第二帧的至少一个音调脉冲的信息而计算频域音调原型,且
其中所述音调脉冲形状差别是基于(A)所述所计算频域音调原型与(B)所述选定的时域音调脉冲形状的频域表示之间的差。
15.根据权利要求12所述的用于编码帧的设备,其中所述第一帧编码器包括经配置以计算多个增益值的增益值计算器,所述多个增益值中的每一者对应于所述第一帧的多个音调脉冲中的一不同者,且
其中所述第一经编码帧包括所述多个增益值的表示。
16.根据权利要求12所述的用于编码帧的设备,其中所述第二帧编码器经配置以编码所述语音信号的第三帧以作为第三经编码帧,
其中在所述语音信号中所述第二帧在所述第一帧之后,且
其中在所述语音信号中所述第三帧在所述第二帧之后,且
其中所述音调脉冲形状差别计算器经配置以计算所述第三帧的音调脉冲形状与所述第二帧的音调脉冲形状之间的第二音调脉冲形状差别,且
其中所述音调周期差别计算器经配置以计算所述第三帧的音调周期与所述第二帧的音调周期之间的第二音调周期差别,且
其中所述第三经编码帧包括所述第二音调脉冲形状差别和所述第二音调周期差别的表示。
17.一种包含指令的计算机可读媒体,所述指令在由处理器执行时致使所述处理器:
编码所述语音信号的第一帧以作为第一经编码帧;以及
编码所述语音信号的第二帧以作为第二经编码帧,
其中所述致使所述处理器编码第一帧的指令包括:
致使所述处理器基于来自所述第一帧的至少一个音调脉冲的信息而选择多个时域音调脉冲形状中的一者的指令;
致使所述处理器计算所述第一帧的终端音调峰值的位置的指令;以及
致使所述处理器估计所述第一帧的音调周期的指令,且
其中所述致使所述处理器编码第二帧的指令包括:
致使所述处理器计算所述第二帧的音调脉冲形状与所述第一帧的音调脉冲形状之间的音调脉冲形状差别的指令;以及
致使所述处理器计算所述第二帧的音调周期与所述第一帧的音调周期之间的音调周期差别的指令,且
其中所述第一经编码帧包括所述选定的时域音调脉冲形状、所述所计算位置和所述所估计音调周期的表示,且
其中所述第二经编码帧包括所述音调脉冲形状差别和所述音调周期差别的表示,且
其中在所述语音信号中所述第二帧在所述第一帧之后。
18.根据权利要求17所述的计算机可读媒体,其中所述媒体包括在由处理器执行时致使所述处理器检测所述第一帧为开始帧的指令。
19.根据权利要求17所述的计算机可读媒体,其中所述致使所述处理器编码第二帧的指令包括致使所述处理器基于来自所述第二帧的至少一个音调脉冲的信息而计算频域音调原型的指令,且
其中所述音调脉冲形状差别是基于(A)所述所计算频域音调原型与(B)所述选定的时域音调脉冲形状的频域表示之间的差。
20.根据权利要求17所述的计算机可读媒体,其中所述致使所述处理器编码第一帧的指令包括致使所述处理器计算多个增益值的指令,所述多个增益值中的每一者对应于所述第一帧的多个音调脉冲中的一不同者,且
其中所述第一经编码帧包括所述多个增益值的表示。
21.根据权利要求17所述的计算机可读媒体,其中所述媒体包括在由处理器执行时致使所述处理器编码所述语音信号的第三帧以作为第三经编码帧的指令,
其中在所述语音信号中所述第二帧在所述第一帧之后,且
其中在所述语音信号中所述第三帧在所述第二帧之后,且
其中所述致使所述处理器编码第三帧的指令包括:
致使所述处理器计算所述第三帧的音调脉冲形状与所述第二帧的音调脉冲形状之间的第二音调脉冲形状差别的指令;以及
致使所述处理器计算所述第三帧的音调周期与所述第二帧的音调周期之间的第二音调周期差别的指令,且
其中所述第三经编码帧包括所述第二音调脉冲形状差别和所述第二音调周期差别的表示。
22.一种解码语音信号的激励信号的方法,所述方法包含:
解码第一经编码帧的一部分以获得第一激励信号;以及
解码第二经编码帧的一部分以获得第二激励信号,
其中所述第一经编码帧的所述部分包括时域音调脉冲形状、音调峰值位置和音调周期中的每一者的表示,且
其中所述第二经编码帧的所述部分包括音调脉冲形状差别和音调周期差别中的每一者的表示,且
其中所述解码第一经编码帧的一部分包括:
根据所述音调峰值位置将所述时域音调脉冲形状的第一副本布置于所述第一激励信号内;以及
根据所述音调峰值位置和所述音调周期将所述时域音调脉冲形状的第二副本布置于所述第一激励信号内,且
其中所述解码第二经编码帧的一部分包括:
基于所述时域音调脉冲形状和所述音调脉冲形状差别而计算第二音调脉冲形状;
基于所述音调周期和所述音调周期差别而计算第二音调周期;以及
根据所述音调峰值位置和所述第二音调周期将所述第二音调脉冲形状的多个副本布置于所述第二激励信号内。
23.根据权利要求22所述的解码激励信号的方法,其中所述第一经编码帧的所述部分包括多个增益值的表示,且
其中所述解码第一经编码帧的一部分包括:
向所述时域音调脉冲形状的所述第一副本应用所述多个增益值中的一者;以及
向所述时域音调脉冲形状的所述第二副本应用所述多个增益值中的一不同者。
24.一种检测语音信号的帧的音调峰值的方法,所述方法包含:
检测所述帧的第一音调峰值;
从所述帧的第一搜索窗内的多个样本中选择候选样本;
从多个距离中选择候选距离,所述多个距离中的每一者对应于所述帧的第二搜索窗内的不同样本;以及
将(A)所述候选样本和(B)对应于所述候选距离的所述样本中的一者选择为所述帧的第二音调峰值,
其中所述多个距离中的每一者是A)所述对应样本与B)所述第一音调峰值之间的距离。
25.根据权利要求24所述的检测音调峰值的方法,其中对应于所述候选距离的所述样本不同于所述候选样本。
26.根据权利要求24所述的检测音调峰值的方法,其中所述选择候选样本包括以下操作中的至少一者:(A)将所述第一搜索窗内的所述样本中的具有最大振幅的所述样本选择为所述候选样本,(B)将所述第一搜索窗内的所述样本中的具有最大量值的所述样本选择为所述候选样本,和(C)将所述第一搜索窗内的所述样本中的具有最大能量的所述样本选择为所述候选样本。
27.根据权利要求24所述的检测音调峰值的方法,其中所述选择候选样本包括将所述第一搜索窗内的所述样本中的具有所述最大振幅的所述样本选择为所述候选样本。
28.根据权利要求24所述的检测音调峰值的方法,其中所述方法包含针对所述多个距离中的每一者计算所述对应样本的邻域与所述第一音调峰值的邻域之间的相关的值,且
其中所述选择候选距离包括将对应于所述所计算相关值中的最大值的所述距离选择为所述候选距离。
29.根据权利要求28所述的检测音调峰值的方法,其中所述选择所述候选样本与对应于所述候选距离的所述样本中的一者是基于以下各项中的至少一者:(A)基于所述候选样本的能量的值与第一阈值之间的关系,和(B)对应于所述候选距离的所述所计算相关值与第二阈值之间的关系。
30.根据权利要求24所述的检测音调峰值的方法,其中所述第一音调峰值为所述帧的终端音调峰值。
31.根据权利要求24所述的检测音调峰值的方法,其中所述方法包含在所述检测所述帧的第一音调峰值之前检测所述帧的第三音调峰值,其中所述第三音调峰值为所述帧的终端音调峰值。
32.根据权利要求31所述的检测音调峰值的方法,其中所述检测所述帧的第一音调峰值是基于:(A)所述帧内的所述第三音调峰值的位置,(B)音调周期估计,和(C)第一能量阈值与基于所述第一音调峰值的能量的值之间的关系。
33.根据权利要求32所述的检测音调峰值的方法,其中所述选择所述候选样本与对应于所述候选距离的所述样本中的一者是基于以下各项中的至少一者:(A)基于所述候选样本的能量的值与第二阈值之间的关系,和(B)基于对应于所述候选距离的所述样本的能量的值与所述第二阈值之间的关系,
其中所述第二阈值小于所述第一阈值。
34.一种用于检测语音信号的帧的音调峰值的设备,所述设备包含:
用于检测所述帧的第一音调峰值的装置;
用于从所述帧的第一搜索窗内的多个样本中选择候选样本的装置;
用于从多个距离中选择候选距离的装置,所述多个距离中的每一者对应于所述帧的第二搜索窗内的不同样本;以及
用于将(A)所述候选样本和(B)对应于所述候选距离的所述样本中的一者选择为所述帧的第二音调峰值的装置,
其中所述多个距离中的每一者是A)所述对应样本与B)所述第一音调峰值之间的距离。
35.根据权利要求34所述的用于检测音调峰值的设备,其中所述用于选择候选样本的装置经配置以将所述第一搜索窗内的所述样本中的具有最大振幅的所述样本选择为所述候选样本。
36.根据权利要求34所述的用于检测音调峰值的设备,其中所述设备包含用于针对所述多个距离中的每一者计算所述对应样本的邻域与所述第一音调峰值的邻域之间的相关的值的装置,且
其中所述用于选择候选距离的装置经配置以将对应于所述所计算相关值中的最大值的所述距离选择为所述候选距离。
37.根据权利要求36所述的用于检测音调峰值的设备,其中所述用于选择所述候选样本与对应于所述候选距离的所述样本中的一者的装置经配置以基于以下各项中的至少一者来选择所述候选样本与对应于所述候选距离的所述样本中的所述一者:(A)基于所述候选样本的能量的值与第一阈值之间的关系,和(B)对应于所述候选距离的所述所计算相关值与第二阈值之间的关系。
38.根据权利要求34所述的用于检测音调峰值的设备,其中所述设备包含用于检测所述帧的第三音调峰值的装置,其中所述第三音调峰值为所述帧的终端音调峰值,且
其中所述用于检测所述帧的第一音调峰值的装置经配置以基于以下各项来检测所述第一音调峰值:(A)所述帧内的所述第三音调峰值的位置,(B)音调周期估计,和(C)第一能量阈值与基于所述第一音调峰值的能量的值之间的关系。
39.根据权利要求38所述的用于检测音调峰值的设备,其中所述用于选择所述候选样本与对应于所述候选距离的所述样本中的一者的装置经配置以基于以下各项中的至少一者来选择所述候选样本与对应于所述候选距离的所述样本中的所述一者:(A)基于所述候选样本的能量的值与第二阈值之间的关系,和(B)基于对应于所述候选距离的所述样本的能量的值与所述第二阈值之间的关系,
其中所述第二阈值小于所述第一阈值。
40.一种用于检测语音信号的帧的音调峰值的设备,所述设备包含:
峰值检测器,其经配置以检测所述帧的第一音调峰值;
样本选择器,其经配置以从所述帧的第一搜索窗内的多个样本中选择候选样本;
距离选择器,其经配置以从多个距离中选择候选距离,所述多个距离中的每一者对应于所述帧的第二搜索窗内的不同样本;以及
峰值选择器,其经配置以将(A)所述候选样本和(B)对应于所述候选距离的所述样本中的一者选择为所述帧的第二音调峰值,
其中所述多个距离中的每一者是A)所述对应样本与B)所述第一音调峰值之间的距离。
41.根据权利要求40所述的用于检测音调峰值的设备,其中所述样本选择器经配置以将所述第一搜索窗内的所述样本中的具有最大振幅的所述样本选择为所述候选样本。
42.根据权利要求40所述的用于检测音调峰值的设备,其中所述设备包含相关器,所述相关器经配置以针对所述多个距离中的每一者计算所述对应样本的邻域与所述第一音调峰值的邻域之间的相关的值,且
其中所述距离选择器经配置以将对应于所述所计算相关值中的最大值的所述距离选择为所述候选距离。
43.根据权利要求42所述的用于检测音调峰值的设备,其中所述峰值选择器经配置以基于以下各项中的至少一者来选择所述候选样本与对应于所述候选距离的所述样本中的一者:(A)基于所述候选样本的能量的值与第一阈值之间的关系,和(B)对应于所述候选距离的所述所计算相关值与第二阈值之间的关系。
44.根据权利要求40所述的用于检测音调峰值的设备,其中所述设备包含终端峰值检测器,所述终端峰值检测器经配置以检测所述帧的第三音调峰值,其中所述第三音调峰值为所述帧的终端音调峰值,且
其中所述峰值检测器经配置以基于以下各项来检测所述第一音调峰值:(A)所述帧内的所述第三音调峰值的位置,(B)音调周期估计,和(C)第一能量阈值与基于所述第一音调峰值的能量的值之间的关系。
45.根据权利要求44所述的用于检测音调峰值的设备,其中所述峰值选择器经配置以基于以下各项中的至少一者来选择所述候选样本与对应于所述候选距离的所述样本中的一者:(A)基于所述候选样本的能量的值与第二阈值之间的关系,和(B)基于对应于所述候选距离的所述样本的能量的值与所述第二阈值之间的关系,
其中所述第二阈值小于所述第一阈值。
46.一种包含指令的计算机可读媒体,所述指令在由处理器执行时致使所述处理器:
检测所述帧的第一音调峰值;
从所述帧的第一搜索窗内的多个样本中选择候选样本;
从多个距离中选择候选距离,所述多个距离中的每一者对应于所述帧的第二搜索窗内的不同样本;以及
将(A)所述候选样本和(B)对应于所述候选距离的所述样本中的一者选择为所述帧的第二音调峰值,
其中所述多个距离中的每一者是A)所述对应样本与B)所述第一音调峰值之间的距离。
47.根据权利要求46所述的计算机可读媒体,其中所述致使所述处理器选择候选样本的指令包括致使所述处理器将所述第一搜索窗内的所述样本中的具有最大振幅的样本选择为所述候选样本的指令。
48.根据权利要求46所述的计算机可读媒体,其中所述媒体包含在由处理器执行时致使所述处理器针对所述多个距离中的每一者计算所述对应样本的邻域与所述第一音调峰值的邻域之间的相关的值的指令,且
其中所述致使所述处理器选择候选距离的指令包括致使所述处理器将对应于所述所计算相关值中的最大值的所述距离选择为所述候选距离的指令。
49.根据权利要求48所述的计算机可读媒体,其中所述致使所述处理器选择所述候选样本与对应于所述候选距离的所述样本中的一者的指令包括致使所述处理器基于以下各项中的至少一者来选择所述候选样本与对应于所述候选距离的所述样本中的所述一者的指令:(A)基于所述候选样本的能量的值与第一阈值之间的关系,和(B)对应于所述候选距离的所述所计算相关值与第二阈值之间的关系。
50.根据权利要求46所述的计算机可读媒体,其中所述媒体包含在由处理器执行时致使所述处理器检测所述帧的第三音调峰值的指令,其中所述第三音调峰值为所述帧的终端音调峰值,且
其中所述致使所述处理器检测所述帧的第一音调峰值的指令包括致使所述处理器基于以下各项来检测所述第一音调峰值的指令:(A)所述帧内的所述第三音调峰值的位置,(B)音调周期估计,和(C)第一能量阈值与基于所述第一音调峰值的能量的值之间的关系。
51.根据权利要求50所述的计算机可读媒体,其中所述致使所述处理器选择所述候选样本与对应于所述候选距离的所述样本中的一者的指令包括致使所述处理器基于以下各项中的至少一者来选择所述候选样本与对应于所述候选距离的所述样本中的所述一者的指令:(A)基于所述候选样本的能量的值与第二阈值之间的关系,和(B)基于对应于所述候选距离的所述样本的能量的值与所述第二阈值之间的关系,
其中所述第二阈值小于所述第一阈值。
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US12/143,719 US20090319261A1 (en) | 2008-06-20 | 2008-06-20 | Coding of transitional speech frames for low-bit-rate applications |
US12/143,719 | 2008-06-20 | ||
PCT/US2009/048047 WO2009155569A1 (en) | 2008-06-20 | 2009-06-19 | Coding of transitional speech frames for low-bit-rate applications |
Publications (1)
Publication Number | Publication Date |
---|---|
CN102067212A true CN102067212A (zh) | 2011-05-18 |
Family
ID=41128256
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN2009801231388A Pending CN102067212A (zh) | 2008-06-20 | 2009-06-19 | 用于低位速率应用的对过渡语音帧的译码 |
Country Status (7)
Country | Link |
---|---|
US (1) | US20090319261A1 (zh) |
EP (1) | EP2308043A1 (zh) |
JP (1) | JP2011525256A (zh) |
KR (1) | KR20110033227A (zh) |
CN (1) | CN102067212A (zh) |
TW (1) | TW201007704A (zh) |
WO (1) | WO2009155569A1 (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103548081A (zh) * | 2011-05-24 | 2014-01-29 | 高通股份有限公司 | 噪声稳健语音译码模式分类 |
CN106448688A (zh) * | 2014-07-28 | 2017-02-22 | 华为技术有限公司 | 音频编码方法及相关装置 |
Families Citing this family (23)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US8768690B2 (en) * | 2008-06-20 | 2014-07-01 | Qualcomm Incorporated | Coding scheme selection for low-bit-rate applications |
US20090319263A1 (en) * | 2008-06-20 | 2009-12-24 | Qualcomm Incorporated | Coding of transitional speech frames for low-bit-rate applications |
KR20100006492A (ko) | 2008-07-09 | 2010-01-19 | 삼성전자주식회사 | 부호화 방식 결정 방법 및 장치 |
US8380498B2 (en) * | 2008-09-06 | 2013-02-19 | GH Innovation, Inc. | Temporal envelope coding of energy attack signal by using attack point location |
JP5293329B2 (ja) * | 2009-03-26 | 2013-09-18 | 富士通株式会社 | 音声信号評価プログラム、音声信号評価装置、音声信号評価方法 |
US8700410B2 (en) * | 2009-06-18 | 2014-04-15 | Texas Instruments Incorporated | Method and system for lossless value-location encoding |
US8831933B2 (en) | 2010-07-30 | 2014-09-09 | Qualcomm Incorporated | Systems, methods, apparatus, and computer-readable media for multi-stage shape vector quantization |
US9208792B2 (en) | 2010-08-17 | 2015-12-08 | Qualcomm Incorporated | Systems, methods, apparatus, and computer-readable media for noise injection |
US8990094B2 (en) * | 2010-09-13 | 2015-03-24 | Qualcomm Incorporated | Coding and decoding a transient frame |
US9082416B2 (en) * | 2010-09-16 | 2015-07-14 | Qualcomm Incorporated | Estimating a pitch lag |
US8862465B2 (en) * | 2010-09-17 | 2014-10-14 | Qualcomm Incorporated | Determining pitch cycle energy and scaling an excitation signal |
US9711158B2 (en) | 2011-01-25 | 2017-07-18 | Nippon Telegraph And Telephone Corporation | Encoding method, encoder, periodic feature amount determination method, periodic feature amount determination apparatus, program and recording medium |
JP6178305B2 (ja) | 2011-04-21 | 2017-08-09 | サムスン エレクトロニクス カンパニー リミテッド | 量子化方法 |
CA2833868C (en) | 2011-04-21 | 2019-08-20 | Samsung Electronics Co., Ltd. | Apparatus for quantizing linear predictive coding coefficients, sound encoding apparatus, apparatus for de-quantizing linear predictive coding coefficients, sound decoding apparatus, and electronic device therefor |
WO2013056388A1 (en) * | 2011-10-18 | 2013-04-25 | Telefonaktiebolaget L M Ericsson (Publ) | An improved method and apparatus for adaptive multi rate codec |
EP2721610A1 (en) * | 2011-11-25 | 2014-04-23 | Huawei Technologies Co., Ltd. | An apparatus and a method for encoding an input signal |
CN107342094B (zh) | 2011-12-21 | 2021-05-07 | 华为技术有限公司 | 非常短的基音周期检测和编码 |
CN103310787A (zh) * | 2012-03-07 | 2013-09-18 | 嘉兴学院 | 一种用于楼宇安防的异常声音快速检方法 |
CN103426441B (zh) | 2012-05-18 | 2016-03-02 | 华为技术有限公司 | 检测基音周期的正确性的方法和装置 |
US9208775B2 (en) | 2013-02-21 | 2015-12-08 | Qualcomm Incorporated | Systems and methods for determining pitch pulse period signal boundaries |
EP3306609A1 (en) * | 2016-10-04 | 2018-04-11 | Fraunhofer Gesellschaft zur Förderung der Angewand | Apparatus and method for determining a pitch information |
CN106533391A (zh) * | 2016-11-16 | 2017-03-22 | 上海艾为电子技术股份有限公司 | 无限冲激响应滤波器及其控制方法 |
CN112767953B (zh) * | 2020-06-24 | 2024-01-23 | 腾讯科技(深圳)有限公司 | 语音编码方法、装置、计算机设备和存储介质 |
Family Cites Families (55)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
NL8400552A (nl) * | 1984-02-22 | 1985-09-16 | Philips Nv | Systeem voor het analyseren van menselijke spraak. |
US5127053A (en) * | 1990-12-24 | 1992-06-30 | General Electric Company | Low-complexity method for improving the performance of autocorrelation-based pitch detectors |
US5187745A (en) * | 1991-06-27 | 1993-02-16 | Motorola, Inc. | Efficient codebook search for CELP vocoders |
US5233660A (en) * | 1991-09-10 | 1993-08-03 | At&T Bell Laboratories | Method and apparatus for low-delay celp speech coding and decoding |
US5765127A (en) * | 1992-03-18 | 1998-06-09 | Sony Corp | High efficiency encoding method |
US5884253A (en) * | 1992-04-09 | 1999-03-16 | Lucent Technologies, Inc. | Prototype waveform speech coding with interpolation of pitch, pitch-period waveforms, and synthesis filter |
JP3537008B2 (ja) * | 1995-07-17 | 2004-06-14 | 株式会社日立国際電気 | 音声符号化通信方式とその送受信装置 |
US5704003A (en) * | 1995-09-19 | 1997-12-30 | Lucent Technologies Inc. | RCELP coder |
JPH09185397A (ja) * | 1995-12-28 | 1997-07-15 | Olympus Optical Co Ltd | 音声情報記録装置 |
JP4063911B2 (ja) * | 1996-02-21 | 2008-03-19 | 松下電器産業株式会社 | 音声符号化装置 |
JP4134961B2 (ja) * | 1996-11-20 | 2008-08-20 | ヤマハ株式会社 | 音信号分析装置及び方法 |
US6073092A (en) * | 1997-06-26 | 2000-06-06 | Telogy Networks, Inc. | Method for speech coding based on a code excited linear prediction (CELP) model |
US6233550B1 (en) * | 1997-08-29 | 2001-05-15 | The Regents Of The University Of California | Method and apparatus for hybrid coding of speech at 4kbps |
JP3579276B2 (ja) * | 1997-12-24 | 2004-10-20 | 株式会社東芝 | 音声符号化/復号化方法 |
US5963897A (en) * | 1998-02-27 | 1999-10-05 | Lernout & Hauspie Speech Products N.V. | Apparatus and method for hybrid excited linear prediction speech encoding |
EP1093230A4 (en) * | 1998-06-30 | 2005-07-13 | Nec Corp | speech |
US6240386B1 (en) * | 1998-08-24 | 2001-05-29 | Conexant Systems, Inc. | Speech codec employing noise classification for noise compensation |
US6480822B2 (en) * | 1998-08-24 | 2002-11-12 | Conexant Systems, Inc. | Low complexity random codebook structure |
US7272556B1 (en) * | 1998-09-23 | 2007-09-18 | Lucent Technologies Inc. | Scalable and embedded codec for speech and audio signals |
US6754630B2 (en) * | 1998-11-13 | 2004-06-22 | Qualcomm, Inc. | Synthesis of speech from pitch prototype waveforms by time-synchronous waveform interpolation |
US6691084B2 (en) * | 1998-12-21 | 2004-02-10 | Qualcomm Incorporated | Multiple mode variable rate speech coding |
US6311154B1 (en) * | 1998-12-30 | 2001-10-30 | Nokia Mobile Phones Limited | Adaptive windows for analysis-by-synthesis CELP-type speech coding |
JP4008607B2 (ja) * | 1999-01-22 | 2007-11-14 | 株式会社東芝 | 音声符号化/復号化方法 |
US6324505B1 (en) * | 1999-07-19 | 2001-11-27 | Qualcomm Incorporated | Amplitude quantization scheme for low-bit-rate speech coders |
US6581032B1 (en) * | 1999-09-22 | 2003-06-17 | Conexant Systems, Inc. | Bitstream protocol for transmission of encoded voice signals |
US7039581B1 (en) * | 1999-09-22 | 2006-05-02 | Texas Instruments Incorporated | Hybrid speed coding and system |
WO2001052241A1 (en) * | 2000-01-11 | 2001-07-19 | Matsushita Electric Industrial Co., Ltd. | Multi-mode voice encoding device and decoding device |
ATE420432T1 (de) * | 2000-04-24 | 2009-01-15 | Qualcomm Inc | Verfahren und vorrichtung zur prädiktiven quantisierung von stimmhaften sprachsignalen |
US6584438B1 (en) * | 2000-04-24 | 2003-06-24 | Qualcomm Incorporated | Frame erasure compensation method in a variable rate speech coder |
US7363219B2 (en) * | 2000-09-22 | 2008-04-22 | Texas Instruments Incorporated | Hybrid speech coding and system |
US7472059B2 (en) * | 2000-12-08 | 2008-12-30 | Qualcomm Incorporated | Method and apparatus for robust speech classification |
US6480821B2 (en) * | 2001-01-31 | 2002-11-12 | Motorola, Inc. | Methods and apparatus for reducing noise associated with an electrical speech signal |
KR100347188B1 (en) * | 2001-08-08 | 2002-08-03 | Amusetec | Method and apparatus for judging pitch according to frequency analysis |
CA2365203A1 (en) * | 2001-12-14 | 2003-06-14 | Voiceage Corporation | A signal modification method for efficient coding of speech signals |
US6829579B2 (en) * | 2002-01-08 | 2004-12-07 | Dilithium Networks, Inc. | Transcoding method and system between CELP-based speech codes |
US7236927B2 (en) * | 2002-02-06 | 2007-06-26 | Broadcom Corporation | Pitch extraction methods and systems for speech coding using interpolation techniques |
US20040002856A1 (en) * | 2002-03-08 | 2004-01-01 | Udaya Bhaskar | Multi-rate frequency domain interpolative speech CODEC system |
AU2002307884A1 (en) * | 2002-04-22 | 2003-11-03 | Nokia Corporation | Method and device for obtaining parameters for parametric speech coding of frames |
CA2388439A1 (en) * | 2002-05-31 | 2003-11-30 | Voiceage Corporation | A method and device for efficient frame erasure concealment in linear predictive based speech codecs |
JP2004109803A (ja) * | 2002-09-20 | 2004-04-08 | Hitachi Kokusai Electric Inc | 音声符号化装置及び方法 |
KR100463417B1 (ko) * | 2002-10-10 | 2004-12-23 | 한국전자통신연구원 | 상관함수의 최대값과 그의 후보값의 비를 이용한 피치검출 방법 및 그 장치 |
RU2331933C2 (ru) * | 2002-10-11 | 2008-08-20 | Нокиа Корпорейшн | Способы и устройства управляемого источником широкополосного кодирования речи с переменной скоростью в битах |
WO2004084182A1 (en) * | 2003-03-15 | 2004-09-30 | Mindspeed Technologies, Inc. | Decomposition of voiced speech for celp speech coding |
US7433815B2 (en) * | 2003-09-10 | 2008-10-07 | Dilithium Networks Pty Ltd. | Method and apparatus for voice transcoding between variable rate coders |
US8155965B2 (en) * | 2005-03-11 | 2012-04-10 | Qualcomm Incorporated | Time warping frames inside the vocoder by modifying the residual |
US8355907B2 (en) * | 2005-03-11 | 2013-01-15 | Qualcomm Incorporated | Method and apparatus for phase matching frames in vocoders |
JP4599558B2 (ja) * | 2005-04-22 | 2010-12-15 | 国立大学法人九州工業大学 | ピッチ周期等化装置及びピッチ周期等化方法、並びに音声符号化装置、音声復号装置及び音声符号化方法 |
US7177804B2 (en) * | 2005-05-31 | 2007-02-13 | Microsoft Corporation | Sub-band voice codec with multi-stage codebooks and redundant coding |
US7571094B2 (en) * | 2005-09-21 | 2009-08-04 | Texas Instruments Incorporated | Circuits, processes, devices and systems for codebook search reduction in speech coders |
US20070174047A1 (en) * | 2005-10-18 | 2007-07-26 | Anderson Kyle D | Method and apparatus for resynchronizing packetized audio streams |
JP5052514B2 (ja) * | 2006-07-12 | 2012-10-17 | パナソニック株式会社 | 音声復号装置 |
PT2102619T (pt) * | 2006-10-24 | 2017-05-25 | Voiceage Corp | Método e dispositivo para codificação de tramas de transição em sinais de voz |
EP2101320B1 (en) * | 2006-12-15 | 2014-09-03 | Panasonic Corporation | Adaptive excitation vector quantization apparatus and adaptive excitation vector quantization method |
US8768690B2 (en) * | 2008-06-20 | 2014-07-01 | Qualcomm Incorporated | Coding scheme selection for low-bit-rate applications |
US20090319263A1 (en) * | 2008-06-20 | 2009-12-24 | Qualcomm Incorporated | Coding of transitional speech frames for low-bit-rate applications |
-
2008
- 2008-06-20 US US12/143,719 patent/US20090319261A1/en not_active Abandoned
-
2009
- 2009-06-19 WO PCT/US2009/048047 patent/WO2009155569A1/en active Application Filing
- 2009-06-19 EP EP09767877A patent/EP2308043A1/en not_active Withdrawn
- 2009-06-19 KR KR1020117001466A patent/KR20110033227A/ko not_active Application Discontinuation
- 2009-06-19 CN CN2009801231388A patent/CN102067212A/zh active Pending
- 2009-06-19 JP JP2011514870A patent/JP2011525256A/ja active Pending
- 2009-06-22 TW TW098120890A patent/TW201007704A/zh unknown
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103548081A (zh) * | 2011-05-24 | 2014-01-29 | 高通股份有限公司 | 噪声稳健语音译码模式分类 |
CN103548081B (zh) * | 2011-05-24 | 2016-03-30 | 高通股份有限公司 | 噪声稳健语音译码模式分类 |
CN106448688A (zh) * | 2014-07-28 | 2017-02-22 | 华为技术有限公司 | 音频编码方法及相关装置 |
CN106448688B (zh) * | 2014-07-28 | 2019-11-05 | 华为技术有限公司 | 音频编码方法及相关装置 |
US10504534B2 (en) | 2014-07-28 | 2019-12-10 | Huawei Technologies Co., Ltd. | Audio coding method and related apparatus |
US10706866B2 (en) | 2014-07-28 | 2020-07-07 | Huawei Technologies Co., Ltd. | Audio signal encoding method and mobile phone |
Also Published As
Publication number | Publication date |
---|---|
KR20110033227A (ko) | 2011-03-30 |
JP2011525256A (ja) | 2011-09-15 |
US20090319261A1 (en) | 2009-12-24 |
WO2009155569A1 (en) | 2009-12-23 |
EP2308043A1 (en) | 2011-04-13 |
WO2009155569A9 (en) | 2010-02-18 |
TW201007704A (en) | 2010-02-16 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN102067212A (zh) | 用于低位速率应用的对过渡语音帧的译码 | |
CN102203855B (zh) | 用于低位速率应用的译码方案选择 | |
CN102197423A (zh) | 用于低位速率应用的过渡语音帧的译码 | |
US8219392B2 (en) | Systems, methods, and apparatus for detection of tonal components employing a coding operation with monotone function | |
US6691084B2 (en) | Multiple mode variable rate speech coding | |
US6456964B2 (en) | Encoding of periodic speech using prototype waveforms | |
US7039581B1 (en) | Hybrid speed coding and system | |
KR101019936B1 (ko) | 음성 파형의 정렬을 위한 시스템, 방법, 및 장치 | |
US7222070B1 (en) | Hybrid speech coding and system | |
WO2008157296A1 (en) | Signal encoding using pitch-regularizing and non-pitch-regularizing coding | |
CN1303508A (zh) | 语音编码的方法和装置 | |
US7139700B1 (en) | Hybrid speech coding and system | |
Jeong et al. | Bandwidth Scalable Wideband Codec Using Hybrid Matching Pursuit Harmonic/CELP Scheme | |
Kövesi et al. | A Multi-Rate Codec Family Based on GSM EFR and ITU-T G. 729 | |
McClellan et al. | Speech Signal Processing |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
C02 | Deemed withdrawal of patent application after publication (patent law 2001) | ||
WD01 | Invention patent application deemed withdrawn after publication |
Application publication date: 20110518 |