CN103098127B - 译码及解码瞬时帧 - Google Patents
译码及解码瞬时帧 Download PDFInfo
- Publication number
- CN103098127B CN103098127B CN201180043611.9A CN201180043611A CN103098127B CN 103098127 B CN103098127 B CN 103098127B CN 201180043611 A CN201180043611 A CN 201180043611A CN 103098127 B CN103098127 B CN 103098127B
- Authority
- CN
- China
- Prior art keywords
- decoding mode
- frame
- decoding
- electronic installation
- peak
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/02—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/04—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
- G10L19/16—Vocoder architecture
- G10L19/18—Vocoders using multiple modes
- G10L19/20—Vocoders using multiple modes using sound class specific coding, hybrid encoders or object based coding
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/02—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
- G10L19/022—Blocking, i.e. grouping of samples in time; Choice of analysis windows; Overlap factoring
- G10L19/025—Detection of transients or attacks for time/frequency resolution switching
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/04—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
- G10L19/08—Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/04—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
- G10L19/16—Vocoder architecture
- G10L19/18—Vocoders using multiple modes
- G10L19/22—Mode decision, i.e. based on audio signal content versus external parameters
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/04—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
- G10L19/08—Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters
- G10L19/097—Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters using prototype waveform decomposition or prototype waveform interpolative [PWI] coders
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/93—Discriminating between voiced and unvoiced parts of speech signals
Abstract
描述一种用于译码瞬时帧的电子装置。所述电子装置包括处理器及存储于与所述处理器电子连通的存储器中的可执行指令。所述电子装置获得当前瞬时帧。所述电子装置还基于所述当前瞬时帧而获得残余信号。另外,所述电子装置基于所述残余信号而确定峰值位置集合。所述电子装置进一步至少基于所述峰值位置集合而确定是使用第一译码模式还是第二译码模式来译码所述当前瞬时帧。如果确定所述第一译码模式,则所述电子装置还基于所述第一译码模式而合成激励。如果确定所述第二译码模式,则所述电子装置还基于所述第二译码模式而合成激励。
Description
依据35U.S.C.§119主张优先权
本申请案主张2010年9月13日申请的题目为“译码一瞬时语音帧(CODING ATRANSIENT SPEECH FRAME)”的第61/382,460号临时专利申请案的优先权,且所述案已转让给本受让人并借此以引用的方式明确地并入本文中。
技术领域
本发明大体来说涉及信号处理。更具体来说,本发明涉及译码及解码一瞬时帧。
背景技术
在过去的几十年中,电子装置的使用已变得常见。特定来说,电子技术的进步已减少了越加复杂且有用的电子装置的成本。成本减少及消费者需求已使电子装置的使用激增,以致电子装置在现代社会中实际上为普遍存在的。随着电子装置的使用扩大,对于电子装置的新的且改进的特征的需求也扩大。更具体来说,常常寻找更快更有效率地或以较高质量执行功能的电子装置。
一些电子装置(例如,蜂窝式电话、智能电话、计算机等)使用音频或语音信号。这些电子装置可编码语音信号以用于存储或发射。举例来说,蜂窝式电话使用麦克风俘获用户的话音或语音。举例来说,蜂窝式电话使用麦克风将声学信号转换成电子信号。接着可将此电子信号格式化以用于发射到另一装置(例如,蜂窝式电话、智能电话、计算机等)或用于存储。
举例来说,发射或发送一未经压缩的语音信号在带宽及/或存储资源方面可为昂贵的。存在试图更有效率地(例如,使用较少数据)表示一语音信号的一些方案。然而,这些方案可能不会很好地表示语音信号的一些部分,从而导致降级的性能。如从前述论述可理解,改进信号译码的系统及方法可为有益的。
发明内容
揭示一种用于译码瞬时帧的电子装置。所述电子装置包括处理器,及存储于与所述处理器电子连通的存储器中的可执行指令。所述电子装置获得当前瞬时帧。所述电子装置还基于所述当前瞬时帧而获得残余信号。所述电子装置另外基于所述残余信号而确定峰值位置集合。此外,所述电子装置至少基于所述峰值位置集合而确定是使用第一译码模式还是第二译码模式来译码所述当前瞬时帧。如果确定所述第一译码模式,则所述电子装置还基于所述第一译码模式而合成激励。如果确定所述第二译码模式,则所述电子装置另外基于所述第二译码模式而合成激励。所述电子装置还可基于所述激励及所述当前瞬时帧而确定多个比例因子。所述第一译码模式可为“浊音瞬时(voiced transient)”译码模式且所述第二译码模式可为“其它瞬时”译码模式。确定是使用第一译码模式还是第二译码模式可进一步基于音调滞后(pitch lag)、先前帧类型及能量比。
确定峰值位置集合可包括基于所述残余信号的样本的绝对值及窗口信号而计算包络信号,及基于所述包络信号与所述包络信号的时间移位版本之间的差异而计算第一梯度信号。确定峰值位置集合可进一步包括基于所述第一梯度信号与所述第一梯度信号的时间移位版本之间的差异而计算第二梯度信号,及选择第二梯度信号值降低到第一阈值以下的第一位置索引集合。确定峰值位置集合还可包括通过消除包络值降低到相对于包络中的最大值的第二阈值以下的位置索引而从所述第一位置索引集合确定第二位置索引集合,及通过消除不满足相对于相邻位置索引的差异阈值的位置索引而从所述第二位置索引集合确定第三位置索引集合。
所述电子装置还可使用所述当前瞬时帧及在所述当前瞬时帧之前的信号执行线性预测分析以获得线性预测系数集合,且基于所述线性预测系数集合而确定经量化线性预测系数集合。获得所述残余信号可进一步基于所述经量化线性预测系数集合。
确定是使用所述第一译码模式还是所述第二译码模式可包括确定峰值的所估计数目,及在峰值位置的数目大于或等于峰值的所述所估计数目的情况下,选择所述第一译码模式。确定是使用所述第一译码模式还是所述第二译码模式另外可包括在所述峰值位置集合中的最后峰值在距所述当前瞬时帧的结束第一距离内且所述峰值位置集合中的第一峰值在距所述当前瞬时帧的开始第二距离内的情况下,选择所述第一译码模式。确定是使用所述第一译码模式还是所述第二译码模式另外可包括在先前帧与所述当前瞬时帧之间的能量比在预定范围外的情况下,选择所述第二译码模式,及在所述先前帧的帧类型为清音或静音的情况下,选择所述第二译码模式。可基于音调滞后而确定所述第一距离且可基于所述音调滞后而确定所述第二距离。
基于所述第一译码模式而合成激励可包括基于先前帧中的最后峰值位置及所述当前瞬时帧的音调滞后而确定所述当前瞬时帧中的最后峰值的位置。基于所述第一译码模式而合成激励还可包括使用波形内插法使用基于所述音调滞后及谱形的原型波形在所述先前帧的最后样本与所述当前瞬时帧中的所述最后峰值的第一样本位置之间合成所述激励。
基于所述第二译码模式而合成激励可包括通过以第一位置开始重复地置放原型波形而合成所述激励。可基于来自所述峰值位置集合的第一峰值位置而确定所述第一位置。所述原型波形可基于音调滞后及谱形,且可重复地将所述原型波形置放若干次数,所述次数是基于所述音调滞后、所述第一位置及帧大小。
还揭示一种用于解码瞬时帧的电子装置。所述电子装置包括处理器,及存储于与所述处理器电子连通的存储器中的可执行指令。所述电子装置获得帧类型,且如果所述帧类型指示瞬时帧,则所述电子装置获得瞬时译码模式参数并基于所述瞬时译码模式参数而确定是使用第一译码模式还是第二译码模式。如果所述帧类型指示瞬时帧,则所述电子装置还在确定使用所述第一译码模式的情况下基于所述第一译码模式而合成激励,且在确定使用所述第二译码模式的情况下基于所述第二译码模式而合成激励。所述电子装置还可获得音调滞后参数并基于所述音调滞后参数而确定音调滞后。所述电子装置还可获得多个比例因子并基于所述多个比例因子而按比例调整所述激励。
所述电子装置还可获得经量化线性预测系数参数并基于所述经量化线性预测系数参数而确定经量化线性预测系数集合。所述电子装置还可基于所述激励信号及所述经量化线性预测系数集合而产生经合成语音信号。
基于所述第一译码模式而合成所述激励可包括基于先前帧中的最后峰值位置及当前瞬时帧的音调滞后而确定所述当前瞬时帧中的最后峰值的位置。基于所述第一译码模式而合成所述激励还可包括使用波形内插法使用基于所述音调滞后及谱形的原型波形在所述先前帧的最后样本与所述当前瞬时帧中的所述最后峰值的第一样本位置之间合成所述激励。
基于所述第二译码模式而合成激励可包括获得第一峰值位置,及通过以第一位置开始重复地置放原型波形而合成所述激励。可基于所述第一峰值位置而确定所述第一位置。所述原型波形可基于所述音调滞后及谱形且可重复地将所述原型波形置放若干次数,所述次数是基于音调滞后、所述第一位置及帧大小。
还揭示一种用于在电子装置上译码瞬时帧的方法。所述方法包括获得当前瞬时帧。所述方法还包括基于所述当前瞬时帧而获得残余信号。所述方法进一步包括基于所述残余信号而确定峰值位置集合。所述方法另外包括至少基于所述峰值位置集合而确定是使用第一译码模式还是第二译码模式来译码所述当前瞬时帧。此外,所述方法包括在确定所述第一译码模式的情况下,基于所述第一译码模式而合成激励。所述方法还包括在确定所述第二译码模式的情况下,基于所述第二译码模式而合成激励。
还揭示一种用于在电子装置上解码瞬时帧的方法。所述方法包括获得帧类型。如果所述帧类型指示瞬时帧,则所述方法还包括获得瞬时译码模式参数并基于所述瞬时译码模式参数而确定是使用第一译码模式还是第二译码模式。如果所述帧类型指示瞬时帧,则所述方法还包括在确定使用所述第一译码模式的情况下,基于所述第一译码模式而合成激励,及在确定使用所述第二译码模式的情况下,基于所述第二译码模式而合成激励。
还揭示一种用于译码瞬时帧的计算机程序产品。所述计算机程序产品包括具有指令的非暂时性有形计算机可读媒体。所述指令包括用于使电子装置获得当前瞬时帧的代码。所述指令还包括用于使所述电子装置基于所述当前瞬时帧而获得残余信号的代码。所述指令另外包括用于使所述电子装置基于所述残余信号而确定峰值位置集合的代码。所述指令进一步包括用于使所述电子装置至少基于所述峰值位置集合而确定是使用第一译码模式还是第二译码模式来译码所述当前瞬时帧的代码。所述指令还包括用于使所述电子装置在确定所述第一译码模式的情况下基于所述第一译码模式而合成激励的代码。此外,所述指令包括用于使所述电子装置在确定所述第二译码模式的情况下基于所述第二译码模式而合成激励的代码。
还揭示一种用于解码瞬时帧的计算机程序产品。所述计算机程序产品包括具有指令的非暂时性有形计算机可读媒体。所述指令包括用于使电子装置获得帧类型的代码。如果所述帧类型指示瞬时帧,则所述指令还包括用于使所述电子装置获得瞬时译码模式参数的代码,及用于使所述电子装置基于所述瞬时译码模式参数而确定是使用第一译码模式还是第二译码模式的代码。如果所述帧类型指示瞬时帧,则所述指令另外包括用于使所述电子装置在确定使用所述第一译码模式的情况下基于所述第一译码模式而合成激励的代码,及用于使所述电子装置在确定使用所述第二译码模式的情况下基于所述第二译码模式而合成激励的代码。
还揭示一种用于译码瞬时帧的设备。所述设备包括用于获得当前瞬时帧的装置。所述设备还包括用于基于所述当前瞬时帧而获得残余信号的装置。所述设备进一步包括用于基于所述残余信号而确定峰值位置集合的装置。另外,所述设备包括用于至少基于所述峰值位置集合而确定是使用第一译码模式还是第二译码模式来译码所述当前瞬时帧的装置。所述设备进一步包括用于在确定所述第一译码模式的情况下基于所述第一译码模式而合成激励的装置。所述设备还包括用于在确定所述第二译码模式的情况下基于所述第二译码模式而合成激励的装置。
还揭示一种用于解码瞬时帧的设备。所述设备包括用于获得帧类型的装置。如果所述帧类型指示瞬时帧,则所述设备还包括用于获得瞬时译码模式参数的装置,及用于基于所述瞬时译码模式参数而确定是使用第一译码模式还是第二译码模式的装置。如果所述帧类型指示瞬时帧,则所述设备进一步包括用于在确定使用所述第一译码模式的情况下基于所述第一译码模式而合成激励的装置,及用于在确定使用所述第二译码模式的情况下基于所述第二译码模式而合成激励的装置。
附图说明
图1为说明可实施用于译码瞬时帧的系统及方法的电子装置的一个配置的框图;
图2为说明用于译码瞬时帧的方法的一个配置的流程图;
图3为说明用于译码瞬时帧的方法的更特定配置的流程图;
图4为说明先前帧及当前瞬时帧的实例的曲线图;
图5为说明先前帧及当前瞬时帧的另一实例的曲线图;
图6为说明可实施用于译码瞬时帧的系统及方法的瞬时编码器的一个配置的框图;
图7为说明用于选择译码模式的方法的一个配置的流程图;
图8为说明用于合成激励信号的方法的一个配置的流程图;
图9为说明可实施用于解码瞬时帧的系统及方法的瞬时解码器的一个配置的框图;
图10为说明用于解码瞬时帧的方法的一个配置的流程图;
图11为说明用于合成激励信号的方法的一个配置的流程图;
图12为说明可实施用于编码瞬时帧的系统及方法的电子装置的一个实例的框图;
图13为说明可实施用于解码瞬时帧的系统及方法的电子装置的一个实例的框图;
图14为说明一音调同步增益按比例调整及线性预测译码(LPC)合成块/模块的一个配置的框图;
图15说明可在电子装置中利用的各种组件;及
图16说明可包括于无线通信装置内的特定组件。
具体实施方式
本文中所揭示的系统及方法可应用于多种电子装置。电子装置的实例包括声音记录器、摄像机、音频播放器(例如,动画专家组-1(MPEG-1)或MPEG-2音频层3(MP3)播放器)、视频播放器、音频记录器、桌上型计算机/膝上型计算机、个人数字助理(PDA)、游戏系统等。一种电子装置为通信装置,其可与另一装置通信。通信装置的实例包括电话、膝上型计算机、桌上型计算机、蜂窝式电话、智能电话、无线或有线调制解调器、电子阅读器(e-reader)、平板装置、游戏系统、蜂窝式电话基站或节点、接入点、无线网关及无线路由器。
一电子装置或通信装置可根据特定工业标准而操作,例如国际电信联盟(ITU)标准及/或电气及电子工程师学会(IEEE)标准(例如,无线保真或“Wi-Fi”标准,例如802.11a、802.11b、802.11g、802.11n及/或802.11ac)。通信装置可遵照的标准的其它实例包括IEEE802.16(例如,微波接入全球互通或“WiMAX”)、第三代合作伙伴计划(3GPP)、3GPP长期演进(LTE)、全球移动电信系统(GSM)及其它标准(其中通信装置可被称作(例如)用户设备(UE)、节点B、演进型节点B(eNB)、移动装置、移动台、订户台、远程台、接入终端、移动终端、终端、用户终端、订户单元等)。虽然本文中所揭示的系统及方法中的一些系统及方法可能依据一个或一个以上标准来描述,但此情形不应限制本发明的范围,这是因为所述系统及方法可适用于许多系统及/或标准。
应注意,一些通信装置可以无线方式通信及/或可使用有线连接或链路来通信。举例来说,一些通信装置可使用以太网协议与其它装置通信。本文中所揭示的系统及方法可应用于以无线方式通信及/或使用有线连接或链路来通信的通信装置。在一个配置中,本文中所揭示的系统及方法可应用于使用卫星与另一装置通信的通信装置。
本文中所揭示的系统及方法可应用于如下描述的通信系统的一个实例。在此实例中,本文中所揭示的系统及方法可提供低位速率(例如,2千位/秒(Kbps))语音编码用于地球移动卫星空中接口(GMSA)卫星通信。更具体来说,本文中所揭示的系统及方法可用于集成的卫星及移动通信网络中。此些网络可提供无缝、透明、可互操作及普遍存在的无线涵盖。基于卫星的服务可用于陆地涵盖不可达到的远程位置中的通信。举例来说,此服务可用于人为灾害或自然灾害、广播及/或船队管理及资产追踪。可使用L及/或S频带(无线)频谱。
在一个配置中,前向链路可使用1x演进数据优化(EV-DO)版本A空中接口作为用于空中卫星链路的基础技术。反向链路可使用频分多路复用(FDM)。举例来说,反向链路频谱的1.25兆赫(MHz)块可划分成192个窄带频道,每一窄带频道具有6.4千赫(kHz)的带宽。可限制反向链路数据速率。此情形可提出对于低位速率编码的需要。在一些状况下,例如,一信道可能仅能够支持2.4Kbps。然而,在较佳信道条件下,2个FDM信道可能为可用的,从而有可能提供4.8Kbps发射。
在反向链路上,例如,可使用低位速率语音编码器。此情形可允许2Kbps的固定速率用于反向链路上的单一FDM信道指派的主动语音。在一个配置中,反向链路使用1/4卷积译码器用于基本信道译码。
在一些配置中,除其它译码模式外或者与其它译码模式交替,还可使用本文中所揭示的系统及方法。举例来说,除使用原型音调周期波形内插法的四分之一速率浊音译码外或者与使用原型音调周期波形内插法的四分之一速率浊音译码交替,还可使用本文中所揭示的系统及方法。在原型音调周期波形内插法(PPPWI)中,可使用原型波形来产生可替换实际波形的内插波形,从而允许减少的数目个样本产生一经重建信号。举例来说,PPPWI可在全速率或四分之一速率下可用及/或可产生一时间同步输出。此外,可在PPPWI中在频域中执行量化。QQQ可用于浊音编码模式(而非(例如)FQQ(有效二分之一速率))。QQQ为使用四分之一速率原型音调周期波形内插法(QPPP-WI)以40个位/帧(有效地,2千位/秒(kbps))编码三个连续浊音帧的译码模式。FQQ为分别使用全速率PPP、QPPP及QPPP编码三个连续浊音帧的译码模式。此情形实现4kbps的平均速率。后者可能不用于2kbps声码器中。应注意,可以一修改的方式使用四分之一速率原型音调周期(QPPP),其中无频域中的原型表示的振幅的Δ编码且具有13位线谱频率(LSF)量化。在一个配置中,QPPP可使用13个位用于LSF,12个位用于原型波形振幅,6个位用于原型波形功率,7个位用于音调滞后及2个位用于模式,从而产生总共40个位。
特定来说,本文中所揭示的系统及方法可用于一瞬时编码模式(其可提供QPPP所需的种子)。此瞬时编码模式(例如,在2Kbps声码器中)可使用统一模型用于译码上升瞬时、下降瞬时及浊音瞬时。
本文中所揭示的系统及方法描述译码一个或一个以上瞬时音频或语音帧。在一个配置中,本文中所揭示的系统及方法可使用残余信号中的峰值的分析,及用于激励中的峰值的置放及经合成激励的线性预测译码(LPC)滤波的合适译码模型的确定。
以非常低位速率译码语音信号中的瞬时帧是语音译码中的一个挑战。瞬时帧通常可标记一新语音事件的开始或结束。此些帧出现于清音语音与浊音语音的接合处。有时瞬时帧可包括爆破音及其它短语音事件。瞬时帧中的语音信号因此可能为不稳定的,此情形使传统译码方法在译码此些帧时不能令人满意地执行。举例来说,许多传统途径使用相同方法来译码一用于规则浊音帧的瞬时帧。此情形可造成瞬时帧的低效率译码。本文中所揭示的系统及方法可改进瞬时帧的译码。
现参看诸图描述各种配置,其中相似参考数字可指示功能上类似的元件。如本文中诸图中大体描述及说明的系统及方法可以广泛多种不同配置来布置及设计。因此,如诸图中所表示的若干配置的以下更详细描述既定并不限制如所主张的范围,而是仅表示系统及方法。
图1为说明可实施用于译码一瞬时帧的系统及方法的电子装置102的一个配置的框图。或者或另外,用于解码一瞬时帧的系统及方法可实施于电子装置102中。电子装置A102可包括一瞬时编码器104。瞬时编码器104的一个实例为线性预测译码(LPC)编码器。瞬时编码器104可由电子装置A102使用以编码一语音(或音频)信号106。举例来说,瞬时编码器104通过估计或产生可用以合成语音信号106的一参数集合而将语音信号106的瞬时帧编码成“经压缩”格式。在一个配置中,此些参数可表示可用以合成语音信号106的音调(例如,频率)、振幅及共振峰(例如,共振)的估计。
电子装置A102可获得语音信号106。在一个配置中,电子装置A102通过使用麦克风俘获一声学信号及/或对一声学信号取样而获得语音信号106。在另一配置中,电子装置A102接收来自另一装置(例如,蓝牙头戴式耳机、通用串行总线(USB)驱动器、安全数字(SD)卡、网络接口、无线麦克风等)的语音信号106。可将语音信号106提供到一成帧块/模块108。如本文中所使用,术语“块/模块”可用以指示一特定元件可以硬件、软件或硬件与软件两者的组合来实施。
电子装置A102可使用成帧块/模块108将语音信号106分段成一个或一个以上帧110(例如,一序列帧110)。举例来说,帧110可包括特定数目个语音信号106样本及/或包括一时间量(例如,10到20毫秒)的语音信号106。当将语音信号106分段成若干帧110时,可根据帧110所含有的信号而将帧110分类。举例来说,可将帧110提供到一帧类型确定块/模块124,帧类型确定块/模块124可确定帧110是浊音帧、清音帧、静音帧还是瞬时帧。在一个配置中,本文中所揭示的系统及方法可用以编码瞬时帧。
一瞬时帧(例如)可位于一个语音类别与另一语音类别之间的边界上。举例来说,语音信号106可从一清音声音(例如,f、s、sh、th等)转变到一浊音声音(例如,a、e、i、o、u等)。一些瞬时类型包括上升瞬时(例如,当从语音信号106的清音部分转变到浊音部分时)、爆破音、浊音瞬时(例如,线性预测译码(LPC)改变及音调滞后变化)及下降瞬时(例如,当从语音信号106的浊音部分转变到清音或静音部分(例如,词结尾)时)。在两个语音类别之间的帧110可为瞬时帧。此外,瞬时帧可经进一步分类为浊音瞬时帧或其它瞬时帧。本文中所揭示的系统及方法可有益地应用于瞬时帧。
帧类型确定块/模块124可将一帧类型126提供到一编码器选择块/模块130及一译码模式确定块/模块184。或者或另外,可将帧类型126提供到发射(TX)及/或接收(RX)块/模块160以用于发射到另一装置(例如,电子装置B168)及/或可将帧类型126提供到一解码器162。编码器选择块/模块130可选择一编码器以译码帧110。举例来说,如果帧类型126指示帧110为瞬时的,则编码器选择块/模块130可将瞬时帧134提供到瞬时编码器104。然而,如果帧类型126指示帧110为并非瞬时(例如,浊音、清音、静音等)的另一种帧136,则编码器选择块/模块130可将另一帧136提供到另一编码器140。应注意,编码器选择块/模块130因此可产生一序列瞬时帧134及/或其它帧136。因此,除当前瞬时帧134外,还可通过编码器选择块/模块130来提供一个或一个以上先前帧134、136。在一个配置中,电子装置A102可包括一个或一个以上其它编码器140。下文给出关于此些其它编码器的更多细节。
瞬时编码器104可使用线性预测译码(LPC)分析块/模块122来对一瞬时帧134执行线性预测分析(例如,LPC分析)。应注意,LPC分析块/模块122或者或另外可使用来自先前帧110的一个或一个以上样本。举例来说,在先前帧110为一瞬时帧134的状况下,LPC分析块/模块122可使用来自先前瞬时帧134的一个或一个以上样本。此外,如果先前帧110为另一种帧(例如,浊音、清音、静音等)136,则LPC分析块/模块122可使用来自先前其它帧136的一个或一个以上样本。
LPC分析块/模块122可产生一个或一个以上LPC系数120。LPC系数120的实例包括线谱频率(LSF)及线谱对(LSP)。可将LPC系数120提供到一量化块/模块118,量化块/模块118可产生一个或一个以上经量化LPC系数116。可将经量化LPC系数116及来自一个或一个以上瞬时帧134的一个或一个以上样本提供到残余确定块/模块112,残余确定块/模块112可用以确定一残余信号114。举例来说,残余信号114可包括已将共振峰或共振峰的效应(例如,系数)从语音信号106中移除的语音信号106的瞬时帧134。可将残余信号114提供到一峰值搜索块/模块128。
峰值搜索块/模块128可搜索残余信号114中的峰值。换句话说,瞬时编码器104可搜索残余信号114中的峰值(例如,高能量的区)。可识别这些峰值以获得包括一个或一个以上峰值位置的峰值132的列表或集合。峰值132的列表或集合中的峰值位置可依据(例如)样本数目及/或时间而指定。下文给出关于获得峰值132的列表或集合的更多细节。
可将峰值132的集合提供到译码模式确定块/模块184、音调滞后确定块/模块138及/或比例因子确定块/模块152。音调滞后确定块/模块138可使用峰值132的集合来确定一音调滞后142。“音调滞后”可为瞬时帧134中的两个连续音调尖峰之间的“距离”。音调滞后142可以(例如)样本的数目及/或时间量来指定。在一些配置中,音调滞后确定块/模块138可使用峰值132的集合或音调滞后候选者(其可为峰值132之间的距离)的集合来确定音调滞后142。举例来说,音调滞后确定块/模块138可使用一平均化或平滑化算法来根据一候选者集合确定音调滞后142。可使用其它途径。可将由音调滞后确定块/模块138确定的音调滞后142提供到译码模式确定块/模块184、激励合成块/模块148及/或比例因子确定块/模块152。
译码模式确定块/模块184可确定一用于瞬时帧134的译码模式(指示符或参数)186。在一个配置中,译码模式确定块/模块184可确定是使用第一译码模式用于瞬时帧134还是使用第二译码模式用于瞬时帧134。举例来说,译码模式确定块/模块184可确定瞬时帧134为浊音瞬时帧还是其它瞬时帧。译码模式确定块/模块184可使用一种或一种以上信息来作出此确定。举例来说,译码模式确定块/模块184可使用峰值132的集合、音调滞后142、能量比182、帧类型126及/或其它信息来作出此确定。可由一能量比确定块/模块180基于先前帧与当前瞬时帧134之间的能量比而确定能量比182。先前帧可为瞬时帧134或另一种帧136(例如,静音、浊音、清音等)。因此,瞬时编码器块/模块104可识别瞬时帧134中的重要区。应注意,可识别这些区,这是由于瞬时帧134可能并非非常均匀及/或稳定。大体来说,瞬时编码器104可识别残余信号114中的峰值132的一集合并使用峰值132来确定一译码模式186。接着可使用选定译码模式186来“编码”或“合成”瞬时帧134中的语音信号。
译码模式确定块/模块184可产生指示一用于瞬时帧134的选定译码模式186的译码模式186。举例来说,如果当前瞬时帧为“浊音瞬时”帧,则译码模式186可指示第一译码模式,或如果当前瞬时帧为“其它瞬时”帧,则译码模式186可指示第二译码模式。可将译码模式186发送(例如,提供)到激励合成块/模块148、到存储装置、到一(本地)解码器162及/或到一远程解码器174。举例来说,可将译码模式186提供到TX/RX块/模块160,TX/RX块/模块160可格式化译码模式186并将译码模式186发送到电子装置B168,在电子装置B168中,可将译码模式186提供到一解码器174。
激励合成块/模块148可基于译码模式186、音调滞后142及由原型波形产生块/模块144提供的原型波形146而产生或合成一激励150。原型波形产生块/模块144可基于一谱形及/或一音调滞后142而产生原型波形146。可将激励150、峰值132的集合、音调滞后142及/或经量化LPC系数116提供到一比例因子确定块/模块152,比例因子确定块/模块152可基于激励150、峰值132的集合、音调滞后142及/或经量化LPC系数116而产生增益(例如,比例因子)154的一集合。可将增益154的集合提供到一增益量化块/模块156,增益量化块/模块156量化增益154的集合以产生经量化增益158的一集合。
在一个配置中,可使用音调滞后142、经量化LPC系数116、经量化增益158、帧类型126及/或译码模式186来解码瞬时帧,以便产生一经解码语音信号。可将音调滞后142、经量化LPC系数116、经量化增益158、帧类型126及/或译码模式186发射到另一装置、加以存储及/或加以解码。
在一个配置中,电子装置A102可包括一发射(TX)及/或接收(RX)块/模块160。在当前帧110并非瞬时帧134而是某一其它种类的帧136的状况下,另一编码器140(例如,静音编码器、四分之一速率原型音调周期(QPPP)编码器、噪声激励线性预测(NELP)编码器等)可用以编码帧136。其它编码器140可产生一经编码非瞬时语音信号178,可将经编码非瞬时语音信号178提供到TX/RX块/模块160。还可将一帧类型126提供到TX/RX块/模块160。TX/RX块/模块160可将经编码非瞬时语音信号178及帧类型126格式化成一个或一个以上消息166以用于发射到另一装置(例如,电子装置B168)。可使用一无线及/或有线连接或链路来发射所述一个或一个以上消息166。在一些配置中,可通过卫星、基站、路由器、开关及/或其它装置或媒体来将所述一个或一个以上消息166中继到电子装置B168。电子装置B168可使用一TX/RX块/模块170接收所述一个或一个以上消息166,并解除格式化所述一个或一个以上消息166以产生语音信号信息172。举例来说,TX/RX块/模块170可解调、解码(并不与由解码器174提供的语音信号解码混淆)及/或以其它方式解除格式化所述一个或一个以上消息166。在当前帧并非瞬时帧134的状况下,语音信号信息172可包括一经编码非瞬时语音信号及一帧类型参数。
电子装置B168可包括解码器174。解码器174可包括一种或一种以上类型的解码器,例如用于静音帧的解码器(例如,静音解码器)、用于清音帧的解码器(例如,噪声激励线性预测(NELP)解码器)、瞬时解码器及/或用于浊音帧的解码器(例如,四分之一速率原型音调周期(QPPP)解码器)。语音信号信息172中的帧类型参数可用以确定使用哪个解码器(包括于解码器174中)。在当前帧110并非瞬时帧134的状况下,解码器174可解码经编码非瞬时语音信号以产生经解码语音信号176,经解码语音信号176可被输出(例如,使用扬声器)、存储于存储器中及/或发射到另一装置(例如,蓝牙头戴式耳机等)。
在一个配置中,电子装置A102可包括解码器162。在当前帧110并非瞬时帧134而是某一其它种类的帧136的状况下,另一编码器140可产生经编码非瞬时语音信号178,可将经编码非瞬时语音信号178提供到解码器162。还可将帧类型126提供到解码器162。解码器162可包括一种或一种以上类型的解码器,例如用于静音帧的解码器(例如,静音解码器)、用于清音帧的解码器(例如,噪声激励线性预测(NELP)解码器)、瞬时解码器及/或用于浊音帧的解码器(例如,四分之一速率原型音调周期(QPPP)解码器)。帧类型126可用以确定使用哪个解码器(包括于解码器162中)。在当前帧110并非瞬时帧134的状况下,解码器162可解码经编码非瞬时语音信号178以产生经解码语音信号164,经解码语音信号164可被输出(例如,使用扬声器)、将其存储于存储器中及/或发射到另一装置(例如,蓝牙头戴式耳机等)。
在电子装置A102包括TX/RX块/模块160的配置中及在当前帧110为瞬时帧134的状况下,可将若干参数提供到TX/RX块/模块160。举例来说,可将音调滞后142、经量化LPC系数116、经量化增益158、帧类型126及/或译码模式186提供到TX/RX块/模块160。TX/RX块/模块160可将音调滞后142、经量化LPC系数116、经量化增益158、帧类型126及/或译码模式186格式化成适合于发射的格式。举例来说,TX/RX块/模块160可将音调滞后142、经量化LPC系数116、经量化增益158、帧类型126及/或译码模式186编码(不与由瞬时编码器104提供的瞬时帧编码混淆)、调制、按比例调整(例如,放大)及/或以其它方式格式化为一个或一个以上消息166。TX/RX块/模块160可将一个或一个以上消息166发射到另一装置(例如,电子装置B168)。可使用无线及/或有线连接或链路来发射一个或一个以上消息166。在一些配置中,可通过卫星、基站、路由器、开关及/或其它装置或媒体将一个或一个以上消息166中继到电子装置B168。
电子装置B168可使用TX/RX块/模块170接收由电子装置A102发射的一个或一个以上消息166。TX/RX块/模块170可信道解码(不与语音信号解码混淆)、解调及/或以其它方式解除格式化一个或一个以上所接收消息166以产生语音信号信息172。在当前帧为瞬时帧的状况下,语音信号信息172可包含(例如)音调滞后、经量化LPC系数、经量化增益、帧类型参数及/或译码模式参数。可将语音信号信息172提供到解码器174(例如,LPC解码器),解码器174可产生(例如,解码)经解码(或经合成)语音信号176。可使用变换器(例如,扬声器)将经解码语音信号176转换成声学信号(例如,输出)、将其存储于存储器中及/或发射到另一装置(例如,蓝牙头戴式耳机)。
在另一配置中,可将音调滞后142、经量化LPC系数116、经量化增益158、帧类型126及/或译码模式186提供到解码器162(电子装置A102上)。解码器162可使用音调滞后142、经量化LPC系数116、经量化增益158、帧类型126及/或译码模式186来产生经解码语音信号164。举例来说,可使用扬声器输出经解码语音信号164、将其存储于存储器中及/或发射到另一装置。举例来说,电子装置A102可为编码语音信号106并将其存储于存储器中的数字话音记录器,接着可解码语音信号106以产生经解码语音信号164。接着可使用变换器(例如,扬声器)将经解码语音信号164转换成声学信号(例如,输出)。电子装置A102上的解码器162及电子装置B168上的解码器174可执行类似功能。
应注意若干点。可取决于配置而包括及/或使用或不包括及/或不使用说明为包括于电子装置A102中的解码器162。此外,可结合电子装置A102而使用电子装置B168或可不结合电子装置A102而使用电子装置B168。此外,尽管将若干参数或若干种信息186、142、116、158、126说明为提供到TX/RX块/模块160及/或到解码器162,但可在发送到TX/RX块/模块160及/或到解码器162之前将这些参数或这些种类的信息186、142、116、158、126存储于存储器中或不存储于存储器中。
图2为说明用于译码瞬时帧的方法200的一个配置的流程图。举例来说,电子装置102可执行图2中所说明的方法200,以便译码语音信号106的瞬时帧134。电子装置102可获得(202)当前瞬时帧134。在一个配置中,电子装置102可通过使用麦克风俘获一声学语音信号而获得电子语音信号106。或者或另外,电子装置102可接收来自另一装置的语音信号106。电子装置102接着可将语音信号106分段成一个或一个以上帧110。帧110的一个实例可包括语音信号106的特定数目个样本或给定时间量(例如,10到20毫秒)。(例如)当电子装置102确定当前帧110为瞬时帧134时,电子装置102可获得(202)当前瞬时帧134。举例来说,可使用帧类型确定块/模块124来完成此操作。
电子装置102可基于当前瞬时帧134而获得(204)残余信号114。举例来说,电子装置102可将LPC系数116的效应(例如,共振峰)从当前瞬时帧134中移除以获得(202)残余信号114。
电子装置102可基于残余信号114而确定(206)峰值位置132的一集合。举例来说,电子装置102可搜索LPC残余信号114以确定(206)峰值位置132的集合。举例来说,可依据时间及/或样本数目来描述一峰值位置。
电子装置102可确定(208)是使用第一译码模式(例如,“译码模式A”)还是第二译码模式(例如,“译码模式B”)来译码当前瞬时帧134。此确定可基于(例如)峰值位置132的集合、音调滞后142、先前帧类型126(例如,浊音、清音、静音、瞬时)及/或先前帧110(其可为瞬时帧134或其它帧136)与当前瞬时帧134之间的能量比182。在一个配置中,第一译码模式可为浊音瞬时译码模式且第二译码模式可为“其它瞬时”)译码模式。
如果确定(208)或选择第一译码模式(例如,译码模式A),则电子装置102可基于用于当前瞬时帧134的第一译码模式(例如,译码模式A)而合成(210)一激励150。换句话说,电子装置102可响应于所选定译码模式而合成(210)一激励150。
如果确定(208)或选择第二译码模式(例如,译码模式B),则电子装置102可基于用于当前瞬时帧134的第二译码模式(例如,译码模式B)而合成(212)一激励150。换句话说,电子装置102可响应于所选定译码模式而合成(212)一激励150。电子装置102可基于经合成激励150及/或(当前)瞬时帧134而确定(214)多个比例因子(例如,增益)154。应注意,可无关于所选定瞬时译码模式而确定(214)比例因子154。
图3为说明用于译码一瞬时帧的方法300的更特定配置的流程图。举例来说,电子装置102可执行图3中所说明的方法300,以便译码语音信号106的瞬时帧134。电子装置102可获得(302)当前瞬时帧134。在一个配置中,电子装置102可通过使用麦克风俘获一声学语音信号而获得一电子语音信号106。或者或另外,电子装置102可接收来自另一装置的语音信号106。电子装置102接着可将语音信号106分段成一个或一个以上帧110。帧110的一个实例可包括语音信号106的特定数目个样本或给定时间量(例如,10到20毫秒)。(例如)当电子装置102确定当前帧110为瞬时帧134时,电子装置102可获得(302)当前瞬时帧134。举例来说,可使用一帧类型确定块/模块124来完成此操作。
电子装置102可使用当前瞬时帧134及在当前瞬时帧134之前的一信号执行(304)线性预测分析,以获得线性预测(例如,LPC)系数120的一集合。举例来说,电子装置102可使用一先行缓冲器及含有在当前瞬时帧134之前的语音信号106的至少一个样本的缓冲器来获得LPC系数120。
电子装置102可基于LPC系数120的集合而确定(306)经量化线性预测(例如,LPC)系数116的一集合。举例来说,电子装置102可量化LPC系数120的集合以确定(306)经量化LPC系数116的集合。
电子装置102可基于当前瞬时帧134及经量化LPC系数116而获得(308)一残余信号114。举例来说,电子装置102可将LPC系数116的效应(例如,共振峰)从当前瞬时帧134中移除以获得(308)残余信号114。
电子装置102可基于残余信号114而确定(310)峰值位置132的一集合。举例来说,电子装置102可搜索LPC残余信号114以确定峰值位置132的集合。举例来说,可依据时间及/或样本数目来描述峰值位置。
在一个配置中,电子装置102可如下确定(310)峰值位置的集合。电子装置102可基于(LPC)残余信号114的样本的绝对值及一预定窗口信号而计算一包络信号。电子装置102接着可基于包络信号与包络信号的时间移位版本之间的差异而计算第一梯度信号。电子装置102可基于第一梯度信号与第一梯度信号的时间移位版本之间的差异而计算第二梯度信号。电子装置102接着可选择第二梯度信号值降低到一预定负(第一)阈值以下的第一位置索引集合。电子装置102还可通过消除一包络值降低到相对于包络中的最大值的一预定(第二)阈值以下的位置索引而从第一位置索引集合确定第二位置索引集合。举例来说,如果给定峰值位置处的包络值降低到包络中的最大值的10%以下,则将所述峰值位置从列表中消除。另外,电子装置102可通过消除并非相对于相邻位置索引的预定差异阈值的位置索引而从第二位置索引集合确定第三位置索引集合。差异阈值的一个实例为所估计音调滞后值。换句话说,如果两个峰值并不在pitch_lag±Δ内,则消除包络值较小的峰值。位置索引(例如,第一、第二及/或第三集合)可对应于所确定峰值集合的位置。
电子装置102可确定(312)是使用第一译码模式(例如,“译码模式A”)还是第二译码模式(例如,“译码模式B”)来译码当前瞬时帧134。此确定可基于(例如)峰值位置132的集合、音调滞后142、先前帧类型126(例如,浊音、清音、静音、瞬时)及/或先前帧110(其可为瞬时帧134或其它帧136)与当前瞬时帧134之间的能量比182。
在一个配置中,电子装置102可如下确定(312)是使用第一译码模式(例如,译码模式A)还是第二译码模式(例如,译码模式B)。电子装置102可根据方程式(1)确定峰值的所估计数目(例如,“Pest”)
在方程式(1)中,“帧大小”为当前瞬时帧134的大小(例如,以样本的数目或时间量计)。“音调滞后”为当前瞬时帧134的所估计音调滞后142的值(例如,以样本的数目或时间量计)。
如果峰值位置132的数目大于或等于Pest,则电子装置102可选择第一译码模式(例如,译码模式A)。另外,如果峰值位置132的集合中的最后峰值在距当前瞬时帧134的结束(第一)距离d1内且峰值位置132的集合中的第一峰值在距当前瞬时帧134的开始(第二)距离d2内,则电子装置102可选择第一译码模式(例如,译码模式A)。可基于音调滞后142而确定d1与d2两者。d1及d2的一个实例为音调滞后142(例如,d1=d2=pitch_lag)。如果先前帧110(其可为瞬时帧134或其它帧136)与语音信号106的当前瞬时帧134之间的能量比182在预定范围外,则可选择第二译码模式(例如,译码模式B)。举例来说,可通过计算先前帧的语音/残余的能量且计算当前帧的语音/残余的能量并取得这两个能量值的比来确定能量比182。举例来说,范围可为0.00001≤energy_ratio≤100000。另外,如果语音信号106的先前帧110(其可为瞬时帧134或其它帧136)的帧类型126为清音或静音,则可选择第二译码模式(例如,译码模式B)。
如果选择第一译码模式(例如,译码模式A),则电子装置102可基于用于当前瞬时帧134的第一译码模式(例如,译码模式A)而合成(314)一激励150。换句话说,电子装置102可响应于所选定译码模式而合成(314)一激励。
在一个配置中,电子装置102可如下基于第一译码模式(例如,译码模式A)而合成(314)一激励150。电子装置102可基于先前帧110(其可为瞬时帧134或其它帧136)中的最后峰值位置及当前瞬时帧134的音调滞后142而确定当前瞬时帧134中的最后峰值的位置。可使用波形内插法在先前帧110的最后样本与当前瞬时帧134中的最后峰值的第一样本位置之间合成激励150信号。如果选择第一译码模式(例如,译码模式A),则波形内插法可使用一基于音调滞后142及预定谱形的原型波形146。
如果选择第二译码模式(例如,译码模式B),则电子装置102可基于用于当前瞬时帧134的第二译码模式(例如,译码模式B)而合成(316)一激励150。换句话说,电子装置102可响应于所选定译码模式而合成(316)一激励150。
在一个配置中,如果选择第二译码模式(例如,译码模式B),则电子装置102可通过重复置放原型波形146(其可基于音调滞后142及预定谱形)而合成(316)激励信号150。可以一开始或第一位置(其可基于来自峰值位置132的集合的第一峰值位置而确定)开始重复地置放原型波形146。重复地置放原型波形146的次数可基于音调滞后、开始位置及当前瞬时帧134大小而确定。应注意,在一些状况下,整个原型波形146可能不适合整数次数。举例来说,如果需要5.5个原型来填充一帧,则可以6个原型来建构当前帧且可将剩余原型或额外原型用于下一帧(如果其也是一瞬时帧134)或可丢弃(如果帧为非瞬时(例如,QPPP或清音))。
电子装置102可基于经合成激励150及瞬时语音帧134而确定(318)多个(例如,多个)比例因子154(例如,增益)。电子装置102可量化(320)所述多个比例因子154以产生多个经量化比例因子。
电子装置102可将译码模式186、音调滞后142、经量化LPC系数116、比例因子154(或经量化比例因子158)及/或帧类型126发送(322)到一解码器(在相同或不同电子装置上)及/或到一存储装置。
图4为说明先前帧488及当前瞬时帧434的实例的曲线图。在图4中所说明的实例中,曲线图说明可根据本文中所揭示的系统及方法使用的先前帧488及当前瞬时帧434。举例来说,当前瞬时帧434内所说明的波形可为已分类为瞬时帧134的帧110的残余信号114的一实例。先前帧488内所说明的波形可为来自先前帧110(例如,其可为瞬时帧134或其它帧136)的残余信号的一实例。在图4中所说明的实例中,电子装置102可使用本文中所揭示的系统及方法确定使用第一译码模式(例如,浊音译码模式或译码模式A)。举例来说,电子装置102可使用结合图2所描述的方法200,以便确定在此实例中应使用第一译码模式(例如,译码模式A)。
更具体来说,图4说明可被称为“浊音瞬时”帧的当前瞬时帧434的一个实例。当电子装置102检测到“浊音瞬时”帧434时,可使用第一译码模式或译码模式A。如从图4中的曲线图可观测到,当存在相对于先前帧488的周期性及/或连续性时,可出现浊音瞬时帧434(且因此,可使用第一译码模式或译码模式A)。举例来说,如果电子装置102识别出三个峰值490a到490c且将当前瞬时帧434的长度除以音调滞后492(其为峰值之间的距离),则商将很可能约为三。应注意,在此计算中可使用音调滞后492a到492b中的一者或可使用平均音调滞后492。如可在图4中观测到,在先前帧488与当前瞬时帧434之间存在某一连续性。此情形可意味着(例如)可预期在当前瞬时帧434中存在三个峰值,这是因为当前瞬时帧434的长度除以音调滞后492所得结果为三或小于三,且可在当前瞬时帧434中检测到三个峰值490a到490c。此情形可指示当前瞬时帧434相对于先前帧488大致连续。
在当前瞬时帧434经检测为相对于先前帧488大致连续时,可使用第一译码模式(例如,译码模式A)。因此,尽管当前瞬时帧434为瞬时的,但其表现可如同从先前帧488的扩展。关键信息段因此可为如何定位峰值490a到490c。应注意,峰值可为非常不同的,所述情形可使一帧更瞬时。另一可能性为:LPC可在整个帧中的某处改变,此可为帧为瞬时的原因。然而,如在图4中的残余信号中可观测到,可通过扩展过去信号(例如,来自先前帧488)而合成当前瞬时帧434。电子装置102因此可选择第一译码模式(例如,译码模式A),以便相应地译码当前瞬时帧434。
应注意,图4中的y轴或垂直轴标绘波形的振幅(例如,信号振幅)。图4中的x轴或水平轴说明时间(例如,以毫秒计)。取决于配置,信号自身可为电压、电流或压力变化等。
图5为说明先前帧594及当前瞬时帧534的另一实例的曲线图。更具体来说,曲线图说明可根据本文中所揭示的系统及方法使用的先前帧594及当前瞬时帧534的一实例。举例来说,电子装置102可检测当前瞬时帧534或将其分类为“其它瞬时”帧。当检测到“其它瞬时”帧534时,电子装置102可使用第二译码模式(例如,译码模式B)。举例来说,电子装置102可使用结合图2所描述的方法200,以便确定在此实例中应使用第二译码模式(例如,译码模式B)。
如可在图5中观测到(且与图4中所展示的实例形成对比),先前帧594与当前瞬时帧534之间可能存在很少连续性或不存在连续性。当不存在相对于先前帧594的连续性时,电子装置102可使用第二译码模式(例如,译码模式B)。当使用第二译码模式(例如,“其它瞬时”译码模式或译码模式B)时,可确定当前瞬时帧534中的大致开始位置。电子装置102接着可通过以开始位置开始重复地置放原型波形直到到达当前瞬时帧534的结束为止而合成当前瞬时帧534。举例来说,电子装置102可将开始位置确定为当前瞬时帧534中的第一峰值596的位置。此外,电子装置102可基于所检测到的音调滞后598而产生原型波形146并从开始位置重复地置放原型波形146直到当前瞬时帧534的结束为止。
图6为说明可实施用于译码一瞬时帧的系统及方法的瞬时编码器604的一个配置的框图。瞬时编码器604的一个实例为线性预测译码(LPC)编码器。瞬时编码器604可供一电子装置102使用以编码语音(或音频)信号106的瞬时帧。举例来说,瞬时编码器604通过估计或产生可用以合成语音信号106(的瞬时帧)的一参数集合而将语音信号106的瞬时帧编码成“经压缩”格式。在一个配置中,此些参数可表示音调(例如,频率)、振幅及共振峰(例如,共振)的估计。
瞬时编码器604可获得一当前瞬时帧634。举例来说,当前瞬时帧634可包括特定数目个语音信号样本及/或包括语音信号106的时间量(例如,10到20毫秒)。举例来说,瞬时帧可位于一个语音类别与另一语音类别之间的边界上。举例来说,语音信号106可从清音声音(例如,f、s、sh、th等)转变到一浊音声音(例如,a、e、i、o、u等)。一些瞬时类型包括上升瞬时(例如,当从语音信号106的清音部分转变到浊音部分时)、爆破音、浊音瞬时(例如,线性预测译码(LPC)改变及音调滞后变化)及下降瞬时(例如,当从语音信号106的浊音部分转变到清音或静音部分(例如,词结尾)时)。在所述两个语音类别之间的一个或一个以上帧可为一个或一个以上瞬时帧。可通过分析音调滞后、能量等的变化而检测瞬时帧。如果此现象在多个帧上扩展,则可将其标记为瞬时。此外,可将瞬时帧进一步分类为“浊音瞬时”帧或“其它瞬时”帧。
瞬时编码器604还可获得先前帧601或来自先前帧601的一个或一个以上样本。在一个配置中,可将先前帧601提供到能量比确定块/模块680及/或LPC分析块/模块622。瞬时编码器604另外可获得一先前帧类型603,可将先前帧类型603提供到译码模式确定块/模块684。先前帧类型603可指示先前帧的类型,例如静音、清音、浊音或瞬时。
瞬时编码器604可使用线性预测译码(LPC)分析块/模块622来对当前瞬时帧634执行线性预测分析(例如,LPC分析)。应注意,LPC分析块/模块622或者或另外可使用来自先前帧601的信号(例如,一个或一个以上样本)。举例来说,在先前帧601为瞬时帧的状况下,LPC分析块/模块622可使用来自先前瞬时帧601的一个或一个以上样本。此外,如果先前帧601为另一种帧(例如,浊音、清音、静音等),则LPC分析块/模块622可使用来自先前其它帧601的一个或一个以上样本。
LPC分析块/模块622可产生一个或一个以上LPC系数620。可将LPC系数620提供到一量化块/模块618,量化块/模块618可产生一个或一个以上经量化LPC系数616。可将经量化LPC系数616及来自当前瞬时帧634的一个或一个以上样本提供到一残余确定块/模块612,残余确定块/模块612可用以确定残余信号614。举例来说,残余信号614可包括已将共振峰或共振峰的效应(例如,系数)从语音信号106中移除的语音信号106的瞬时帧634。可将残余信号614提供到一规则化块/模块609。
规则化块/模块609可使残余信号614规则化,从而导致一经修改的(例如,经规则化的)残余信号611。举例来说,规则化移动当前帧中的音调脉冲以使其与一平滑演进的音调轮廓(pitch coutour)一致。在一个配置中,可如题目为“增强型可变速率编解码器,宽带扩展频谱数字系统的语音服务选项3、68、70和73(Enhanced Variable Rate Codec,Speech Service Options3,68,70,and73for Wideband Spread Spectrum Digital Systems)”的3GPP2文档C.S0014D的4.11.6章节中详细描述而使用规则化的过程。可将经修改的残余信号611提供到峰值搜索块/模块628、到LPC合成块/模块605及/或激励合成块/模块648。LPC合成块/模块605可产生(例如,合成)一经修改的语音信号607,可将经修改的语音信号607提供到比例因子确定块/模块652。
峰值搜索块/模块628可搜索经修改的残余信号611中的峰值。换句话说,瞬时编码器604可搜索经修改的残余信号611中的峰值(例如,高能量的区)。可识别这些峰值以获得包括一个或一个以上峰值位置的峰值632的列表或集合。举例来说,可依据样本数目及/或时间来指定峰值632的列表或集合中的峰值位置。
可将峰值632的集合提供到译码模式确定块/模块684、音调滞后确定块/模块638及/或比例因子确定块/模块652。音调滞后确定块/模块638可使用峰值632的集合来确定音调滞后642。“音调滞后”可为当前瞬时帧634中的两个连续音调尖峰之间的“距离”。音调滞后642可(例如)以样本的数目及/或时间量来指定。在一些配置中,音调滞后确定块/模块638可使用峰值632的集合或音调滞后候选者(其可为峰值632之间的距离)的集合来确定音调滞后642。举例来说,音调滞后确定块/模块638可使用平均化或平滑化算法来根据一候选者集合确定音调滞后642。可使用其它途径。可将由音调滞后确定块/模块638确定的音调滞后642提供到译码模式确定块/模块684、激励合成块/模块648及/或比例因子确定块/模块652。
译码模式确定块/模块684可确定用于当前瞬时帧634的译码模式686。在一个配置中,译码模式确定块/模块684可确定是使用浊音瞬时译码模式(例如,第一译码模式)用于当前瞬时帧634还是使用“其它瞬时”译码模式(例如,第二译码模式)用于当前瞬时帧634。举例来说,译码模式确定块/模块684可确定瞬时帧是浊音瞬时帧还是其它瞬时帧。浊音瞬时帧可为具有从先前帧601的某一连续性的瞬时帧(上文结合图4描述一个实例)。“其它瞬时”帧可为具有从先前帧601的很少连续性或没有从先前帧601的连续性的瞬时帧(上文结合图5描述一个实例)。译码模式确定块/模块684可使用一种或一种以上信息来作出此确定。举例来说,译码模式确定块/模块684可使用峰值632的集合、音调滞后642、能量比682及/或先前帧类型603来作出此确定。下文结合图7给出译码模式确定块/模块684可如何确定译码模式686的一个实例。
可由能量比确定块/模块680基于先前帧601与当前瞬时帧634之间的能量比而确定能量比682。先前帧601可为一瞬时帧或另一种帧(例如,静音、浊音、清音等)。
译码模式确定块/模块684可产生指示用于当前瞬时帧634的选定译码模式的译码模式686。举例来说,如果当前瞬时帧634为“浊音瞬时”帧,则译码模式686可指示浊音瞬时译码模式,或如果当前瞬时帧634为“其它瞬时”帧,则译码模式686可指示“其它瞬时”译码模式。在一个配置中,译码模式确定块/模块684可基于来自先前帧残余625的最后峰值615而作出此确定。举例来说,向译码模式确定块/模块684中馈送的最后峰值估计块/模块613可基于先前帧残余625而估计先前帧的最后峰值615。此情形可允许瞬时编码器604搜索当前帧或目前帧中的以先前帧的最后峰值615开始的连续性。可将译码模式686发送(例如,提供)到激励合成块/模块648、到存储装置、到“本地”解码器及/或到远程解码器(在另一装置上)。举例来说,可将译码模式686提供到一TX/RX块/模块,所述TX/RX块/模块可格式化译码模式686并将其发送到另一电子装置,在所述另一电子装置中,可将译码模式686提供到一解码器。
激励合成块/模块648可基于以下各者而产生或合成一激励650:原型波形646、译码模式686、(任选地)当前帧的第一峰值位置619、(任选地)经修改的残余信号611、音调滞后642、(任选地)来自当前帧(例如,来自位置632的峰值集合)的所估计最后峰值位置,及/或先前帧残余信号625。举例来说,如果选择“其它瞬时”译码模式686,则第一峰值估计块/模块617可确定第一峰值位置619。在所述状况下,可将第一峰值位置619提供到激励合成块/模块648。在另一实例中,例如,(瞬时)激励合成块/模块648可使用来自当前瞬时帧634(例如,来自峰值位置632的列表及/或基于先前帧615(为便利起见,图6中未说明先前帧615连接)的最后峰值而确定)的一最后峰值位置或值,及音调滞后642。原型波形646可由原型波形产生块/模块644提供,原型波形产生块/模块644可基于预定形状627及音调滞后642而产生原型波形646。下文结合图8给出激励合成块/模块648可如何合成激励650的实例。
激励合成块/模块648可将一个或一个以上经合成激励峰值位置629的一集合提供到峰值映射块/模块621。还可将峰值632的集合(其为来自经修改的残余信号611的峰值632的集合且不应与经合成激励峰值位置629混淆)提供到峰值映射块/模块621。峰值映射块/模块621可基于峰值632的集合及经合成激励峰值位置629而产生一映射623。可将映射623提供到比例因子确定块/模块652。
可将激励650、映射623、峰值632的集合、音调滞后642、经量化LPC系数616及/或经修改的语音信号607提供到一比例因子确定块/模块652,比例因子确定块/模块652可基于其输入650、623、632、642、616、607中的一者或一者以上而产生增益654的一集合。可将增益654的集合提供到一增益量化块/模块656,增益量化块/模块656量化增益654的集合以产生经量化增益658的一集合。
瞬时编码器604可将译码模式686、(任选地)第一峰值位置619、音调滞后642、经量化增益658及经量化LPC系数616中的一者或一者以上发送、输出或提供到一个或一个以上块/模块或装置。举例来说,可将描述为686、619、642、658、616的信息中的一些或所有信息提供到一发射器,所述发射器可格式化所述信息及/或将其发射到另一装置。或者或另外,可将信息686、619、642、658、616中的一些或所有信息存储于存储器中及/或将其提供到一解码器。信息686、619、642、658、616中的一些或所有信息可用以在本地或在远程合成(例如,解码)一语音信号。举例来说,接着可使用扬声器输出经解码语音信号。
图7为说明用于选择一译码模式的方法700的一个配置的流程图。在此配置中,电子装置(例如,其包括一瞬时编码器604)可如下确定是使用“浊音瞬时”译码模式(例如,第一译码模式或译码模式A)还是“其它瞬时”译码模式(例如,第二译码模式或译码模式B)。电子装置可根据方程式(2)确定(702)峰值的所估计数目(例如,“Pest”)。
在方程式(2)中,“帧大小”为当前瞬时帧634的大小(例如,以样本的数目或时间量计)。“音调滞后”为当前瞬时帧634的所估计音调滞后642的值(例如,以样本的数目或时间量计)。如果峰值位置632的数目大于或等于Pest,则电子装置可选择(704)浊音瞬时译码模式(例如,第一译码模式或译码模式A)。
电子装置可基于音调滞后642而确定(706)第一距离(例如,d1)。电子装置可基于音调滞后642而确定(708)第二距离(例如,d2)。在一个配置中,将d1及d2设定为音调滞后642的固定分数。举例来说,d1=0.2*pitch_lag且d2=0.25*pitch_lag。
如果峰值位置632的集合中的最后峰值在距当前瞬时帧634的结束第一距离(d1)内且峰值位置632的集合中的第一峰值在距当前瞬时帧634的开始第二距离(d2)内,则电子装置可选择(710)浊音瞬时译码模式。应注意,可以样本、时间等来测量距离。
如果(例如,语音信号106的)先前帧601与当前瞬时帧634之间的能量比682在预定范围外,则电子装置可选择(712)“其它瞬时”译码模式(例如,第二译码模式或译码模式B)。举例来说,可通过计算先前帧的语音/残余的能量且计算当前帧的语音/残余的能量并得到这两个能量值的比来确定能量比682。预定范围的一个实例为0.00001≤energy_ratio≤100000。如果先前帧类型603为清音或静音的,则电子装置可选择(714)“其它瞬时”译码模式(例如,译码模式B)。
图8为说明用于合成一激励信号的方法800的一个配置的流程图。电子装置602可确定(802)是使用浊音瞬时译码模式(例如,第一译码模式或译码模式A)还是“其它瞬时”译码模式(例如,第二译码模式或译码模式B)。举例来说,电子装置602可使用结合图7所描述的方法700作出此确定。
如果电子装置602确定(802)使用浊音瞬时译码模式(以便合成一激励650),则电子装置602可确定(804)(例如,估计)当前瞬时帧634中的最后峰值位置。可基于以下各者而作出此确定(804):来自先前帧的最后峰值位置(例如,来自最后峰值估计块/模块613的最后峰值615,或来自先前帧的峰值位置632的集合的最后峰值),及来自当前瞬时帧634的音调滞后642。举例来说,可使用先前帧残余信号625及音调滞后642来估计当前瞬时帧634的最后峰值位置。举例来说,如果先前帧为瞬时的,则先前帧中的最后峰值的位置是已知的(例如,来自先前帧的峰值位置632的集合或来自最后峰值估计块/模块613的最后峰值615),且可通过将固定数目个音调滞后642值向前移动到当前帧中直到确定最后音调循环为止来确定目前帧中的最后峰值的位置。如果先前帧是浊音的,则可执行峰值搜索(例如,由最后峰值估计块/模块613或由激励合成块/模块648)以确定先前帧中的最后峰值的位置。浊音瞬时可能决不跟随一清音帧。
电子装置602可合成(806)一激励信号650。可使用波形内插法在先前帧601的最后样本与当前瞬时帧634中的(所估计的)最后峰值位置的第一样本位置之间合成(806)激励信号650。波形内插法可使用基于音调滞后642及预定谱形627的原型波形646。
如果电子装置602确定(802)使用其它瞬时译码模式(例如,第二译码模式或译码模式B),则电子装置602可使用其它瞬时译码模式合成(808)激励650。举例来说,电子装置602可通过重复地置放原型波形646而合成(808)激励信号650。可基于音调滞后642及预定谱形627而产生或确定原型波形646。可以当前瞬时帧634中的第一位置开始重复地置放原型波形646。可基于来自峰值位置632的集合的第一峰值位置619而确定第一位置。可基于音调滞后642、第一位置及当前瞬时帧634大小而确定重复地置放原型波形646的次数。举例来说,可重复地置放原型波形646(及/或原型波形646的部分)直到到达当前瞬时帧634的结束为止。
图9为说明其中可实施用于解码一瞬时帧的系统及方法的瞬时解码器931的一个配置的框图。解码器931可包括任选的第一峰值解封装块/模块953、激励合成块/模块941,及/或音调同步增益按比例调整及LPC合成块/模块947。瞬时解码器931的一个实例为LPC解码器。举例来说,瞬时解码器931可为如图1中所说明的解码器162、174及/或可为与如图1中所说明的解码器162、174包括在一起的解码器中的一者。
瞬时解码器931可获得以下各者中的一者或一者以上:增益945、第一峰值位置933a(参数)、模式935、先前帧残余937、音调滞后939及LPC系数949。举例来说,瞬时编码器104可提供增益945、第一峰值位置933a、模式935、音调滞后939及/或LPC系数949。应注意,先前帧残余可为解码器在解码帧之后(例如,在时间n-1)存储的先前帧的经解码残余。在一个配置中,此信息945、933a、935、939、949可源自在与解码器931相同的电子装置上的编码器104。举例来说,瞬时解码器931可直接从编码器104接收信息945、933a、935、939、949或可从存储器检索信息945、933a、935、939、949。在另一配置中,信息945、933a、935、939、949可源自在与解码器931不同的电子装置102上的编码器104。举例来说,瞬时解码器931可从接收器170获得信息945、933a、935、939、949,所述接收器170已从另一电子装置102接收到信息945、933a、935、939、949。应注意,第一峰值位置933a可能并不总是由编码器104来提供,例如当使用第一译码模式(例如,浊音瞬时译码模式)时。
在一些配置中,可接收增益945、第一峰值位置933a、模式935、音调滞后939及/或LPC系数949作为参数。更具体来说,瞬时解码器931可接收增益参数945、第一峰值位置参数933a、模式参数935、音调滞后参数939及/或LPC系数参数949。举例来说,可使用若干位来表示此信息945、933a、935、939、949的每一类型。在一个配置中,可在一包中接收这些位。可由电子装置及/或瞬时解码器931来解封装、解译、解除格式化及/或解码所述位,以使得瞬时解码器931可使用信息945、933a、935、939、949。在一个配置中,可如表(1)中所阐述将若干位分配用于信息945、933a、935、939、949。
表(1)
应注意,表(1)中所说明的帧类型参数可用以选择一解码器(例如,NELP解码器、QPPP解码器、静音解码器、瞬时解码器等)且帧错误保护可用以保护以免(例如,检测)帧错误。
模式935可指示是使用了第一译码模式(例如,译码模式A或浊音瞬时译码模式)还是第二译码模式(例如,译码模式B或“其它瞬时”译码模式)来编码语音或音频信号。可将模式935提供到第一峰值解封装块/模块953及/或到激励合成块/模块941。
如果模式935指示第二译码模式(例如,其它瞬时译码模式),则第一峰值解封装块/模块953可检索或解封装第一峰值位置933b。举例来说,由瞬时解码器931接收的第一峰值位置933a可为使用若干位(例如,三个位)表示第一峰值位置的第一峰值位置参数933a。或者或另外,可将第一峰值位置933a包括于一具有其它信息(例如,标头信息、其它有效负载信息等)的包中。第一峰值解封装块/模块953可解封装第一峰值位置参数933a及/或解译(例如,解码、解除格式化等)峰值位置参数933a以获得第一峰值位置933b。然而,在一些配置中,可以一使得无需解封装的格式将第一峰值位置933a提供到瞬时解码器931。在所述配置中,瞬时解码器931可能不包括第一峰值解封装块/模块953且可将第一峰值位置933直接提供到激励合成块/模块941。
在模式935指示第一译码模式(例如,浊音瞬时译码模式)的状况下,可能不接收第一峰值位置(参数)933a及/或第一峰值解封装块/模块953可能无需执行任何操作。在此状况下,可能并不将第一峰值位置933提供到激励合成块/模块941。
激励合成块/模块941可基于音调滞后939、先前帧残余937、模式935及/或第一峰值位置933而合成一激励943。举例来说,如果使用第二译码模式(例如,其它瞬时译码模式),则第一峰值位置933可能仅用以合成激励943。下文结合图11给出可如何合成激励943的一个实例。
可将激励943提供到音调同步增益按比例调整及LPC合成块/模块947。音调同步增益按比例调整及LPC合成块/模块947可使用激励943、增益945及LPC系数949来产生一经合成或经解码语音信号951。下文结合图14描述音调同步增益按比例调整及LPC合成块/模块947的一个实例。可将经合成语音信号951存储于存储器中,使用扬声器输出及/或将其发射到另一电子装置。
图10为说明用于解码一瞬时帧的方法1000的一个配置的流程图。电子装置可获得(例如,接收、检索等)(1002)指示一瞬时帧的帧类型(例如,指示符或参数,例如图1中所说明的帧类型126)。换句话说,当帧类型指示当前帧的帧类型为一瞬时帧时,电子装置可执行图10中所说明的方法1000。在一些配置中,帧类型可为从编码电子装置发送的帧类型参数。
电子装置可获得(1004)一个或一个以上参数。举例来说,电子装置可接收、检索或以其它方式获得表示以下各者的参数:增益945、第一峰值位置933a、(瞬时译码)模式935、音调滞后939及/或LPC系数949。举例来说,电子装置可接收来自另一电子装置的这些参数中的一者或一者以上(作为一个或一个以上包或消息),可从存储器检索所述参数中的一者或一者以上及/或可以其它方式从编码器104获得所述参数中的一者或一者以上。在一个配置中,可以无线方式及/或从一卫星接收所述参数。
电子装置可基于一瞬时译码模式参数而确定(1006)瞬时译码模式935。举例来说,电子装置可解封装、解码及/或解除格式化所述瞬时译码模式参数,以便获得可供瞬时解码器931使用的瞬时译码模式935。瞬时译码模式935可指示第一译码模式(例如,译码模式A或浊音瞬时译码模式)或瞬时译码模式935可指示第二译码模式(例如,译码模式B或其它瞬时译码模式)。
电子装置还可基于音调滞后参数而确定(1008)音调滞后939。举例来说,电子装置可解封装、解码及/或解除格式化音调滞后参数,以便获得可供瞬时解码器931使用的音调滞后939。
电子装置可基于瞬时译码模式935而合成(1010)一激励信号943。举例来说,如果瞬时译码模式935指示第二译码模式(例如,其它瞬时译码模式),则电子装置可使用第一峰值位置933合成(1010)激励信号943。否则,电子装置可在不使用第一峰值位置933的情况下合成(1010)激励信号943。下文结合图11给出基于瞬时译码模式935而合成(1010)激励信号943的更详细实例。
电子装置可基于一个或一个以上增益945而按比例调整(1012)激励信号943以产生经按比例调整的激励信号943。举例来说,电子装置可通过将激励信号943与一个或一个以上比例因子或增益945相乘而将增益(例如,比例因子)945应用于激励信号。
电子装置可基于LPC参数而确定(1014)LPC系数949。举例来说,电子装置可解封装、解码及/或解除格式化LPC系数参数949,以便获得可供瞬时解码器931使用的LPC系数949。
电子装置可基于经按比例调整的激励信号943及LPC系数949而产生(1016)经合成语音信号951。下文结合图14描述产生(1016)经合成语音信号951的一个实例。可将经合成语音信号951存储于存储器中,使用扬声器输出及/或将其发射到另一电子装置。
图11为说明用于合成一激励信号的方法1100的一个配置的流程图。举例来说,图11中所说明的方法1100可由瞬时解码器931使用,以便产生经合成语音信号951。电子装置可确定(1102)是使用浊音瞬时译码模式(例如,第一译码模式或译码模式A)还是“其它瞬时”译码模式(例如,第二译码模式或译码模式B)。在一个配置中,电子装置获得或接收一指示是使用浊音瞬时译码模式还是其它瞬时译码模式的译码模式参数。举例来说,译码模式参数可为单一位,其中'1'指示浊音瞬时译码模式且'0'指示“其它瞬时”译码模式,或'0'指示浊音瞬时译码模式且'1'指示“其它瞬时”译码模式。
如果电子装置确定(1102)使用浊音瞬时译码模式,则电子装置可确定(1104)(例如,估计)当前瞬时帧中的最后峰值位置。可基于来自先前帧的最后峰值位置及来自当前瞬时帧的音调滞后939而作出此确定(1104)。举例来说,电子装置可使用先前帧残余信号937及音调滞后939来估计最后峰值位置。
电子装置可合成(1106)一激励信号943。可使用波形内插法在先前帧的最后样本与当前瞬时帧中的(所估计的)最后峰值位置的第一样本位置之间合成(1106)激励信号943。波形内插法可使用基于音调滞后939及预定谱形的原型波形。
如果电子装置确定(1102)使用其它瞬时译码模式(例如,第二译码模式或译码模式B),则电子装置可获得(1108)第一峰值位置933。在一个实例中,电子装置可解封装所接收第一峰值位置参数及/或解译(例如,解码、解除格式化等)所述峰值位置参数以获得第一峰值位置933。在另一实例中,电子装置可从存储器检索第一峰值位置933或可从编码器获得(1108)第一峰值位置933。
电子装置可使用其它瞬时译码模式合成(1110)一激励943。举例来说,电子装置可通过重复地置放原型波形而合成(1110)激励信号943。可基于音调滞后939及预定谱形而产生或确定原型波形。可以第一位置开始重复地置放原型波形。可基于第一峰值位置933而确定第一位置。可基于音调滞后939、第一位置及当前瞬时帧大小而确定重复地置放原型波形的次数。举例来说,可重复地置放原型波形直到到达当前瞬时帧的结束为止。应注意,还可置放原型波形的一部分(在整数数目个完整原型波形确实并不适合帧的状况下)及/或可将留下的部分置放于后续帧中或丢弃。
图12为说明可实施用于编码一瞬时帧的系统及方法的电子装置1202的一个实例的框图。在此实例中,电子装置1202包括预处理及噪声抑制块/模块1255、模型参数估计块/模块1259、速率确定块/模块1257、第一切换块/模块1261、静音编码器1263、噪声激励线性预测(NELP)编码器1265、瞬时编码器1267、四分之一速率原型音调周期(QPPP)编码器1269、第二切换块/模块1271及包格式化块/模块1273。
预处理及噪声抑制块/模块1255可获得或接收语音信号1206。在一个配置中,预处理及噪声抑制块/模块1255可抑制语音信号1206中的噪声及/或对语音信号1206执行其它处理(例如,滤波)。将所得输出信号提供到模型参数估计块/模块1259。
模型参数估计块/模块1259可估计LPC、第一切割音调滞后及在所述第一切割音调滞后下的正规化自相关。举例来说,此程序可类似于在增强型可变速率编解码器/增强型可变速率编解码器B及/或增强型可变速率编解码器宽带(EVRC/EVRC-B/EVRC-WB)中使用的所述程序。速率确定块/模块1257可确定用于编码语音信号1206的译码速率。可将译码速率提供到一解码器以供解码(经编码)语音信号1206中使用。
电子装置1202可确定哪个编码器用于编码语音信号1206。应注意,例如,有时语音信号1206可能并不总是含有实际语音,而是可能含有静音及/或噪声。在一个配置中,电子装置1202可基于模型参数估计1259而确定使用哪个编码器。举例来说,如果电子装置1202检测到语音信号1206中的静音,则电子装置1202可使用第一切换块/模块1261来引导(channel)(静音)语音信号穿过静音编码器1263。第一切换块/模块1261可类似地用以基于模型参数估计1259而切换语音信号1206以用于由NELP编码器1265、瞬时编码器1267或QPPP编码器1269来编码。
静音编码器1263可以一个或一个以上信息段来编码或表示静音。举例来说,静音编码器1263可产生一表示语音信号1206中的静音的长度的参数。可用于本文中所揭示的系统及方法的一些配置的译码静音/背景的两个实例描述于以下文档中:题目为“增强型可变速率编解码器,宽带扩展频谱数字系统的语音服务选项3、68、70和73(EnhancedVariable Rate Codec,Speech Service Options3,68,70,and73for Wideband SpreadSpectrum Digital Systems)”的3GPP2文档C.S0014D的4.15及4.17章节。
噪声激励线性预测(NELP)编码器1265可用以译码分类为清音语音的帧。NELP译码依据信号再现而有效地操作,其中语音信号1206具有很少音调结构或没有音调结构。更具体来说,NELP可用以编码特征上与噪声相似的语音,例如清音语音或背景噪声。NELP使用经滤波的伪随机噪声信号来模型化清音语音。可通过在解码器处产生随机信号且将适当增益应用于所述随机信号而重建此些语音区段的与噪声相似的特征。NELP可使用简单模型用于经译码语音,借此实现较低位速率。
瞬时编码器1267可用以根据本文中所揭示的系统及方法来编码语音信号1206中的瞬时帧。举例来说,上文结合图1及6所描述的瞬时编码器104、604可用作瞬时编码器1267。因此,例如,当检测到一瞬时帧时,电子装置1202可使用瞬时编码器1267来编码语音信号1206。
四分之一速率原型音调周期(QPPP)编码器1269可用以译码分类为浊音语音的帧。浊音语音含有供QPPP编码器1269利用的缓慢时间变化的周期分量。QPPP编码器1269译码每一帧内的音调周期的一子集。通过在这些原型周期之间内插而重建语音信号1206的剩余周期。通过利用浊音语音的周期性,QPPP编码器1269能够以知觉上准确的方式再现语音信号1206。
QPPP编码器1269可使用原型音调周期波形内插法(PPPWI),所述原型音调周期波形内插法(PPPWI)可用以编码本质上为周期性的语音数据。此语音通过类似于“原型”音调周期(PPP)的不同音调周期来特征化。此PPP可为QPPP编码器1269用以编码的话音信息。解码器可使用此PPP来重建语音区段中的其它音调周期。
第二切换块/模块1271可用以将来自用以译码当前帧的编码器1263、1265、1267、1269的(经编码)语音信号引导到包格式化块/模块1273。包格式化块/模块1273可将(经编码)语音信号1206格式化成一个或一个以上包(例如,用于发射)。举例来说,包格式化块/模块1273可格式化一用于瞬时帧的包。在一个配置中,可将由包格式化块/模块1273产生的所述一个或一个以上包发射到另一装置。
图13为说明可实施用于解码一瞬时帧的系统及方法的电子装置1300的一个实例的框图。在此实例中,电子装置1300包括帧/位错误检测器1377、解包化块/模块1379、第一切换块/模块1381、静音解码器1383、噪声激励线性预测(NELP)解码器1385、瞬时解码器1387、四分之一速率原型音调周期(QPPP)解码器1389、第二切换块/模块1391及后滤波器1393。
电子装置1300可接收包1375。可将包1375提供到帧/位错误检测器1377及解包化块/模块1379。解包化块/模块1379可“解封装”来自包1375的信息。举例来说,除有效负载数据外,包1375还可包括标头信息、错误校正信息、路由信息及/或其它信息。解包化块/模块1379可从包1375提取有效负载数据。可将有效负载数据提供到第一切换块/模块1381。
帧/位错误检测器1377可检测是否错误地接收到包1375的部分或全部。举例来说,帧/位错误检测器1377可使用错误检测码(以包1375发送)来确定是否错误地接收到包1375的任一部分。在一些配置中,电子装置1300可基于是否错误地接收到包1375的一些或全部(其可通过帧/位错误检测器1377输出来指示)而控制第一切换块/模块1381及/或第二切换块/模块1391。
或者或另外,包1375可包括指示应使用哪种类型的解码器来解码有效负载数据的信息。举例来说,编码电子装置1202可发送指示编码模式的两个位。(解码)电子装置1300可使用此指示来控制第一切换块/模块1381及第二切换块/模块1391。
电子装置1300因此可使用静音解码器1383、NELP解码器1385、瞬时解码器1387及/或QPPP解码器1389来解码来自包1375的有效负载数据。接着可将经解码数据提供到第二切换块/模块1391,第二切换块/模块1391可将经解码数据路由到后滤波器1393。后滤波器1393可对经解码数据执行某一滤波并输出经合成语音信号1395。
在一个实例中,包1375可指示(通过译码模式指示符)使用了静音编码器1263编码有效负载数据。电子装置1300可控制第一切换块/模块1381以将有效负载数据路由到静音解码器1383。接着可将经解码(静音)有效负载数据提供到第二切换块/模块1391,第二切换块/模块1391可将经解码有效负载数据路由到后滤波器1393。在另一实例中,NELP解码器1385可用以解码一由NELP编码器1265编码的语音信号(例如,清音语音信号)。
在另一实例中,包1375可指示有效负载数据是使用瞬时编码器1267(例如,使用一译码模式指示符)而编码。因此,电子装置1300可使用第一切换块/模块1381来将有效负载数据路由到瞬时解码器1387。瞬时解码器1387可如上文所描述解码有效负载数据。在另一实例中,QPPP解码器1389可用以解码一由QPPP编码器1269编码的语音信号(例如,浊音语音信号)。
可将经解码数据提供到第二切换块/模块1391,第二切换块/模块1391可将经解码数据路由到后滤波器1393。后滤波器1393可对信号执行某一滤波,可将所述信号输出为经合成语音信号1395。接着可存储经合成语音信号1395、输出经合成语音信号1395(例如,使用扬声器)及/或将其发射到另一装置(例如,蓝牙头戴式耳机)。
图14为说明音调同步增益按比例调整及LPC合成块/模块1447的一个配置的框图。图14中所说明的音调同步增益按比例调整及LPC合成块/模块1447可为图9中所展示的音调同步增益按比例调整及LPC合成块/模块947的一个实例。如图14中所说明,音调同步增益按比例调整及LPC合成块/模块1447可包括一个或一个以上LPC合成块/模块1497a到1497c、一个或一个以上比例因子确定块/模块1499a到1499b及/或一个或一个以上乘法器1405a到1405b。
LPC合成块/模块A1497a可获得或接收未经按比例调整的激励1401(例如,在单一音调循环内)。最初,LPC合成块/模块A1497a还可使用零存储器1403。可将LPC合成块/模块A1497a的输出提供到比例因子确定块/模块A1499a。比例因子确定块/模块A1499a可使用来自LPC合成A1497a的输出及目标音调循环能量输入1407产生第一比例因子,可将所述第一比例因子提供到第一乘法器1405a。乘法器1405a将未经按比例调整的激励信号1401乘以第一比例因子。将(经按比例调整的)激励信号或第一乘法器1405a输出提供到LPC合成块/模块B1497b及第二乘法器1405b。
LPC合成块/模块B1497b使用第一乘法器1405a输出以及存储器输入1413(来自先前操作)产生经合成输出,将所述经合成输出提供到比例因子确定块/模块B1499b。举例来说,存储器输入1413可在先前帧的结束处来自存储器。除目标音调循环能量输入1407外,比例因子确定块/模块B1499b还使用LPC合成块/模块B1497b输出以便产生第二比例因子,将所述第二比例因子提供到第二乘法器1405b。第二乘法器1405b将第一乘法器1405a输出(例如,经按比例调整的激励信号)乘以第二比例因子。将所得乘积(例如,已经第二次按比例调整的激励信号)提供到LPC合成块/模块C1497c。除存储器输入1413外,LPC合成块/模块C1497c还使用第二乘法器1405b输出以产生经合成语音信号1409及存储器1411以用于其它操作。
图15说明可在电子装置1500中利用的各种组件。所说明的组件可位于同一物理结构中或单独外壳或结构中。先前所描述的电子装置102、168、1202、1300中的一者或一者以上可以类似于电子装置1500的方式来配置。电子装置1500包括处理器1521。处理器1521可为通用单芯片或多芯片微处理器(例如,ARM)、专用微处理器(例如,数字信号处理器(DSP))、微控制器、可编程门阵列等。处理器1521可被称作中央处理单元(CPU)。尽管在图15的电子装置1500中仅展示单一处理器1521,但在一替代配置中,可使用处理器的组合(例如,ARM及DSP)。
电子装置1500还包括与处理器1521电子连通的存储器1515。即,处理器1521可从存储器1515读取信息及/或将信息写入到存储器1515。存储器1515可为能够存储电子信息的任何电子组件。存储器1515可为随机存取存储器(RAM)、只读存储器(ROM)、磁盘存储媒体、光学存储媒体、RAM中的快闪存储器装置、与处理器一起包括的机载存储器、可编程只读存储器(PROM)、可擦除可编程只读存储器(EPROM)、电可擦除PROM(EEPROM)、寄存器等,包括其组合。
数据1519a及指令1517a可存储于存储器1515中。指令1517a可包括一个或一个以上程序、例程、子例程、函数、过程等。指令1517a可包括单一计算机可读语句或许多计算机可读语句。指令1517a可由处理器1521执行以实施上文所描述的方法200、300、700、800、1000、1100中的一者或一者以上。执行指令1517a可涉及存储于存储器1515中的数据1519a的使用。图15展示加载到处理器1521中的一些指令1517b及数据1519b(其可来自指令1517a及数据1519a)。
电子装置1500还可包括一个或一个以上通信接口1523以用于与其它电子装置通信。通信接口1523可基于有线通信技术、无线通信技术或有线通信技术与无线通信技术两者。不同类型的通信接口1523的实例包括串行端口、并行端口、通用串行总线(USB)、以太网适配器、IEEE1394总线接口、小型计算机系统接口(SCSI)总线接口、红外线(IR)通信端口、蓝牙无线通信适配器等。
电子装置1500还可包括一个或一个以上输入装置1525及一个或一个以上输出装置1529。不同种输入装置1525的实例包括键盘、鼠标、麦克风、远程控制装置、按钮、操纵杆、轨迹球、触控板、光笔等。举例来说,电子装置1500可包括用于俘获声学信号的一个或一个以上麦克风1527。在一个配置中,麦克风1527可为将声学信号(例如,话音、语音)转换成电信号或电子信号的变换器。不同种输出装置1529的实例包括扬声器、打印机等。举例来说,电子装置1500可包括一个或一个以上扬声器1531。在一个配置中,扬声器1531可为将电信号或电子信号转换成声学信号的变换器。通常可包括于电子装置1500中的一个特定类型的输出装置为显示装置1533。与本文中所揭示的配置一起使用的显示装置1533可利用任何合适的图像投影技术,例如阴极射线管(CRT)、液晶显示器(LCD)、发光二极管(LED)、气体等离子、电致发光或其类似者。还可提供显示控制器1535以用于将存储于存储器1515中的数据转换成展示于显示装置1533上的文字、图形及/或移动图像(适当时)。
电子装置1500的各种组件可通过一个或一个以上总线而耦合在一起,所述一个或一个以上总线可包括电力总线、控制信号总线、状态信号总线、数据总线等。为了简单起见,在图15中将各种总线说明为总线系统1537。应注意,图15说明电子装置1500的仅一个可能配置。可利用各种其它架构及组件。
图16说明可包括于无线通信装置1600内的特定组件。上文所描述的电子装置102、168、1202、1300、1500中的一者或一者以上可以类似于图16中展示的无线通信装置1600的方式来配置。
无线通信装置1600包括处理器1657。处理器1657可为通用单芯片或多芯片微处理器(例如,ARM)、专用微处理器(例如,数字信号处理器(DSP))、微控制器、可编程门阵列等。处理器1657可被称作中央处理单元(CPU)。尽管在图16的无线通信装置1600中仅展示单一处理器1657,但在一替代配置中,可使用处理器的组合(例如,ARM及DSP)。
无线通信装置1600还包括与处理器1657电子连通的存储器1639(即,处理器1657可从存储器1639读取信息及/或将信息写入到存储器1639)。存储器1639可为能够存储电子信息的任何电子组件。存储器1639可为随机存取存储器(RAM)、只读存储器(ROM)、磁盘存储媒体、光学存储媒体、RAM中的快闪存储器装置、与处理器一起包括的机载存储器、可编程只读存储器(PROM)、可擦除可编程只读存储器(EPROM)、电可擦除PROM(EEPROM)、寄存器等,包括其组合。
数据1641及指令1643可存储于存储器1639中。指令1643可包括一个或一个以上程序、例程、子例程、函数、过程、代码等。指令1643可包括单一计算机可读语句或许多计算机可读语句。指令1643可由处理器1657执行以实施上文所描述的方法200、300、700、800、1000、1100中的一者或一者以上。执行指令1643可涉及存储于存储器1639中的数据1641的使用。图16展示加载到处理器1657中的一些指令1643a及数据1641a(其可来自指令1643及数据1641)。
无线通信装置1600还可包括发射器1653及接收器1655以允许在无线通信装置1600与远程位置(例如,另一电子装置、通信装置等)之间发射及接收信号。发射器1653及接收器1655可被共同地称作收发器1651。天线1649可电耦合到收发器1651。无线通信装置1600还可包括(未图示)多个发射器、多个接收器、多个收发器及/或多个天线。
在一些配置中,无线通信装置1600可包括用于俘获声学信号的一个或一个以上麦克风1645。在一个配置中,麦克风1645可为将声学信号(例如,话音、语音)转换成电信号或电子信号的变换器。或者或另外,无线通信装置1600可包括一个或一个以上扬声器1647。在一个配置中,扬声器1647可为将电信号或电子信号转换成声学信号的变换器。
无线通信装置1600的各种组件可通过一个或一个以上总线而耦合在一起,所述一个或一个以上总线可包括电力总线、控制信号总线、状态信号总线、数据总线等。为了简单起见,在图16中将各种总线说明为总线系统1659。
在上述描述中,有时结合各种术语使用参考数字。在结合一参考数字使用一术语的情况下,此情形可既定指代诸图中的一者或一者以上中展示的一特定元件。在使用一术语而无参考数字的情况下,此情形可既定大体上指代不限于任何特定图的术语。
术语“确定”涵盖广泛多种动作且,因此,“确定”可包括计算、运算、处理、导出、调查、查找(例如,在表、数据库或另一数据结构中查找)、查明及其类似动作。又,“确定”可包括接收(例如,接收信息)、存取(例如,存取存储器中的数据)及其类似动作。又,“确定”可包括解析、选择、挑选、建立及其类似动作。
除非另有明确指定,否则词组“基于”并不意味着“仅基于”。换句话说,词组“基于”描述“仅基于”与“至少基于”两者。
本文中所描述的功能可作为一个或一个以上指令而存储于处理器可读或计算机可读媒体上。术语“计算机可读媒体”指代可由计算机或处理器存取的任何可用媒体。通过实例且非限制,此媒体可包含RAM、ROM、EEPROM、快闪存储器、CD-ROM或其它光盘存储装置、磁盘存储装置或其它磁性存储装置,或可用以存储呈指令或数据结构的形式的所要程序代码且可由计算机存取的任何其它媒体。如本文中所使用,磁盘及光盘包括压缩光盘(CD)、激光光盘、光学光盘、数字多功能光盘(DVD)、软磁盘及光盘,其中磁盘通常以磁性方式再现数据,而光盘通过激光以光学方式再现数据。应注意,计算机可读媒体可为有形的且非暂时性的。术语“计算机程序产品”指代结合代码或指令(例如,“程序”)的计算装置或处理器,所述代码或指令可由所述计算装置或处理器执行、处理或计算。如本文中所使用,术语“代码”可指代可由计算装置或处理器执行的软件、指令、代码或数据。
还可经由传输媒体传输软件或指令。举例来说,如果使用同轴电缆、光纤缆线、双绞线、数字订户线(DSL)或例如红外线、无线电及微波的无线技术从网站、服务器或其它远程源传输软件,则同轴电缆、光纤缆线、双绞线、DSL或例如红外线、无线电及微波的无线技术包括于传输媒体的定义中。
本文中所揭示的方法包含用于实现所描述方法的一个或一个以上步骤或动作。所述方法步骤及/或动作可在不脱离权利要求书的范围的情况下彼此互换。换句话说,除非所描述的方法的适当操作需要步骤或动作的特定次序,否则可在不脱离权利要求书的范围的情况下修改特定步骤及/或动作的次序及/或使用。
应理解,权利要求书不限于上文所说明的精确配置及组件。在不脱离权利要求书的范围的情况下,可在本文中所描述的系统、方法及设备的布置、操作及细节方面作出各种修改、改变及变更。
Claims (40)
1.一种用于译码瞬时帧的电子装置,其包含:
用于获得当前瞬时帧的装置;
用于基于所述当前瞬时帧而获得残余信号的装置;
用于基于所述残余信号而确定峰值位置集合的装置;
用于至少基于所述峰值位置集合而确定是使用第一译码模式还是第二译码模式来译码所述当前瞬时帧的装置,所述用于确定是使用第一译码模式还是第二译码模式的装置包含用于选择所述第一译码模式来译码经检测为相对于先前帧连续的瞬时帧或选择所述第二译码模式来译码经检测为与先前帧不具有连续性的瞬时帧的装置;
用于如果确定所述第一译码模式,则使用波形内插法来合成激励的装置;及
用于如果确定所述第二译码模式,则使用原型波形的重复置放来合成激励的装置。
2.根据权利要求1所述的电子装置,其中所述电子装置进一步包含用于基于所述激励及所述当前瞬时帧而确定多个比例因子的装置。
3.根据权利要求1所述的电子装置,其中所述用于确定峰值位置集合的装置包含:
用于基于所述残余信号的样本的绝对值及窗口信号而计算包络信号的装置;
用于基于所述包络信号与所述包络信号的时间移位版本之间的差异而计算第一梯度信号的装置;
用于基于所述第一梯度信号与所述第一梯度信号的时间移位版本之间的差异而计算第二梯度信号的装置;
用于选择其中第二梯度信号值降低到第一阈值以下的第一位置索引集合的装置;
用于通过消除其中包络值降低到相对于包络中的最大值的第二阈值以下的位置索引而从所述第一位置索引集合确定第二位置索引集合的装置;及
用于通过消除不满足相对于相邻位置索引的差异阈值的位置索引而从所述第二位置索引集合确定第三位置索引集合的装置。
4.根据权利要求1所述的电子装置,其中所述电子装置进一步包含:
用于使用所述当前瞬时帧及在所述当前瞬时帧之前的信号执行线性预测分析以获得线性预测系数集合的装置;及
用于基于所述线性预测系数集合而确定经量化线性预测系数集合的装置。
5.根据权利要求4所述的电子装置,其中获得所述残余信号进一步基于所述经量化线性预测系数集合。
6.根据权利要求1所述的电子装置,其中所述第一译码模式为“浊音瞬时”译码模式且所述第二译码模式为“其它瞬时”译码模式。
7.根据权利要求1所述的电子装置,其中确定是使用第一译码模式还是第二译码模式进一步基于音调滞后、先前帧类型及能量比。
8.根据权利要求1所述的电子装置,其中所述用于确定是使用所述第一译码模式还是所述第二译码模式的装置包含:
用于确定所估计峰值数目的装置;
用于如果峰值位置的数目大于或等于所述所估计峰值数目,则选择所述第一译码模式的装置;
用于如果所述峰值位置集合中的最后峰值在距所述当前瞬时帧的结束第一距离内且所述峰值位置集合中的第一峰值在距所述当前瞬时帧的开始第二距离内,则选择所述第一译码模式的装置;
用于如果先前帧与所述当前瞬时帧之间的能量比在预定范围外,则选择所述第二译码模式的装置;及
用于如果所述先前帧的帧类型为清音或静音,则选择所述第二译码模式的装置。
9.根据权利要求8所述的电子装置,其中所述第一距离是基于音调滞后而确定且所述第二距离是基于所述音调滞后而确定。
10.根据权利要求1所述的电子装置,其中所述用于基于所述第一译码模式而合成激励的装置包含:
用于基于先前帧中的最后峰值位置及所述当前瞬时帧的音调滞后而确定所述当前瞬时帧中的最后峰值的位置的装置;及
用于使用所述波形内插法使用基于所述音调滞后及谱形的原型波形在所述先前帧的最后样本与所述当前瞬时帧中的所述最后峰值的第一样本位置之间合成所述激励的装置。
11.根据权利要求1所述的电子装置,其中所述用于基于所述第二译码模式而合成激励的装置包含用于通过以第一位置开始重复地置放所述原型波形而合成所述激励的装置,其中所述第一位置是基于来自所述峰值位置集合的第一峰值位置而确定。
12.根据权利要求11所述的电子装置,其中所述原型波形是基于音调滞后及谱形,且其中所述原型波形被重复地置放达基于所述音调滞后、所述第一位置及帧大小的次数。
13.一种用于解码瞬时帧的电子装置,其包含:
用于获得帧类型的装置,且如果所述帧类型指示瞬时帧,则包含:
用于获得瞬时译码模式参数的装置;
用于基于所述瞬时译码模式参数而确定是使用第一译码模式还是第二译码模式的装置,所述第一译码模式用于译码在译码期间经检测为相对于先前帧连续的瞬时帧,且所述第二译码模式用于译码在译码期间经检测为与先前帧不具有连续性的瞬时帧;
用于如果确定使用所述第一译码模式,则使用波形内插法来合成激励的装置;及
用于如果确定使用所述第二译码模式,则使用原型波形的重复置放来合成激励的装置。
14.根据权利要求13所述的电子装置,其中所述电子装置进一步包含:
用于获得音调滞后参数的装置;及
用于基于所述音调滞后参数而确定音调滞后的装置。
15.根据权利要求13所述的电子装置,其中所述电子装置进一步包含:
用于获得多个比例因子的装置;及
用于基于所述多个比例因子而按比例调整所述激励的装置。
16.根据权利要求13所述的电子装置,其中所述电子装置进一步包含:
用于获得经量化线性预测系数参数的装置;及
用于基于所述经量化线性预测系数参数而确定经量化线性预测系数集合的装置。
17.根据权利要求16所述的电子装置,其中所述电子装置进一步包含用于基于所述激励及所述经量化线性预测系数集合而产生经合成语音信号的装置。
18.根据权利要求13所述的电子装置,其中所述用于基于所述第一译码模式而合成所述激励的装置包含:
用于基于先前帧中的最后峰值位置及当前瞬时帧的音调滞后而确定所述当前瞬时帧中的最后峰值的位置的装置;及
用于使用所述波形内插法使用基于所述音调滞后及谱形的原型波形在所述先前帧的最后样本与所述当前瞬时帧中的所述最后峰值的第一样本位置之间合成所述激励的装置。
19.根据权利要求13所述的电子装置,其中所述用于基于所述第二译码模式而合成激励的装置包含:
用于获得第一峰值位置的装置;及
用于通过以第一位置开始重复地置放所述原型波形而合成所述激励的装置,其中所述第一位置是基于所述第一峰值位置而确定。
20.根据权利要求19所述的电子装置,其中所述原型波形是基于音调滞后及谱形,且其中所述原型波形被重复地置放达基于所述音调滞后、所述第一位置及帧大小的次数。
21.一种用于在电子装置上译码瞬时帧的方法,其包含:
获得当前瞬时帧;
基于所述当前瞬时帧而获得残余信号;
基于所述残余信号而确定峰值位置集合;
至少基于所述峰值位置集合而确定是使用第一译码模式还是第二译码模式来译码所述当前瞬时帧,包含:选择所述第一译码模式来译码经检测为相对于先前帧连续的瞬时帧或选择所述第二译码模式来译码经检测为与先前帧不具有连续性的瞬时帧;
如果确定所述第一译码模式,则使用波形内插法来合成激励;及
如果确定所述第二译码模式,则使用原型波形的重复置放来合成激励。
22.根据权利要求21所述的方法,其进一步包含基于所述激励及所述当前瞬时帧而确定多个比例因子。
23.根据权利要求21所述的方法,其中确定峰值位置集合包含:
基于所述残余信号的样本的绝对值及窗口信号而计算包络信号;
基于所述包络信号与所述包络信号的时间移位版本之间的差异而计算第一梯度信号;
基于所述第一梯度信号与所述第一梯度信号的时间移位版本之间的差异而计算第二梯度信号;
选择其中第二梯度信号值降低到第一阈值以下的第一位置索引集合;
通过消除其中包络值降低到相对于包络中的最大值的第二阈值以下的位置索引而从所述第一位置索引集合确定第二位置索引集合;及
通过消除不满足相对于相邻位置索引的差异阈值的位置索引而从所述第二位置索引集合确定第三位置索引集合。
24.根据权利要求21所述的方法,其进一步包含:
使用所述当前瞬时帧及在所述当前瞬时帧之前的信号执行线性预测分析以获得线性预测系数集合;及
基于所述线性预测系数集合而确定经量化线性预测系数集合。
25.根据权利要求24所述的方法,其中获得所述残余信号进一步基于所述经量化线性预测系数集合。
26.根据权利要求21所述的方法,其中所述第一译码模式为“浊音瞬时”译码模式且所述第二译码模式为“其它瞬时”译码模式。
27.根据权利要求21所述的方法,其中确定是使用第一译码模式还是第二译码模式进一步基于音调滞后、先前帧类型及能量比。
28.根据权利要求21所述的方法,其中确定是使用所述第一译码模式还是所述第二译码模式包含:
确定所估计峰值数目;
如果峰值位置的数目大于或等于所述所估计峰值数目,则选择所述第一译码模式;
如果所述峰值位置集合中的最后峰值在距所述当前瞬时帧的结束第一距离内且所述峰值位置集合中的第一峰值在距所述当前瞬时帧的开始第二距离内,则选择所述第一译码模式;
如果先前帧与所述当前瞬时帧之间的能量比在预定范围外,则选择所述第二译码模式;及
如果所述先前帧的帧类型为清音或静音,则选择所述第二译码模式。
29.根据权利要求28所述的方法,其中所述第一距离是基于音调滞后而确定且所述第二距离是基于所述音调滞后而确定。
30.根据权利要求21所述的方法,其中基于所述第一译码模式而合成激励包含:
基于先前帧中的最后峰值位置及所述当前瞬时帧的音调滞后而确定所述当前瞬时帧中的最后峰值的位置;及
使用所述波形内插法使用基于所述音调滞后及谱形的原型波形在所述先前帧的最后样本与所述当前瞬时帧中的所述最后峰值的第一样本位置之间合成所述激励。
31.根据权利要求21所述的方法,其中基于所述第二译码模式而合成激励包含通过以第一位置开始重复地置放所述原型波形而合成所述激励,其中所述第一位置是基于来自所述峰值位置集合的第一峰值位置而确定。
32.根据权利要求31所述的方法,其中所述原型波形是基于音调滞后及谱形,且其中所述原型波形被重复地置放达基于所述音调滞后、所述第一位置及帧大小的次数。
33.一种用于在电子装置上解码瞬时帧的方法,其包含获得帧类型,且如果所述帧类型指示瞬时帧,则:
获得瞬时译码模式参数;
基于所述瞬时译码模式参数而确定是使用第一译码模式还是第二译码模式,所述第一译码模式用于译码在译码期间经检测为相对于先前帧连续的瞬时帧,且所述第二译码模式用于译码在译码期间经检测为与先前帧不具有连续性的瞬时帧;
如果确定使用所述第一译码模式,则使用波形内插法来合成激励;及
如果确定使用所述第二译码模式,则使用原型波形的重复置放来合成激励。
34.根据权利要求33所述的方法,其进一步包含:
获得音调滞后参数;及
基于所述音调滞后参数而确定音调滞后。
35.根据权利要求33所述的方法,其进一步包含:
获得多个比例因子;及
基于所述多个比例因子而按比例调整所述激励。
36.根据权利要求33所述的方法,其进一步包含:
获得经量化线性预测系数参数;及
基于所述经量化线性预测系数参数而确定经量化线性预测系数集合。
37.根据权利要求36所述的方法,其进一步包含基于所述激励及所述经量化线性预测系数集合而产生经合成语音信号。
38.根据权利要求33所述的方法,其中基于所述第一译码模式而合成所述激励包含:
基于先前帧中的最后峰值位置及当前瞬时帧的音调滞后而确定所述当前瞬时帧中的最后峰值的位置;及
使用所述波形内插法使用基于所述音调滞后及谱形的原型波形在所述先前帧的
最后样本与所述当前瞬时帧中的所述最后峰值的第一样本位置之间合成所述激励。
39.根据权利要求33所述的方法,其中基于所述第二译码模式而合成激励包含:
获得第一峰值位置;及
通过以第一位置开始重复地置放所述原型波形而合成所述激励,其中所述第一位置是基于所述第一峰值位置而确定。
40.根据权利要求39所述的方法,其中所述原型波形是基于音调滞后及谱形,且其中所述原型波形被重复地置放达基于所述音调滞后、所述第一位置及帧大小的次数。
Applications Claiming Priority (5)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US38246010P | 2010-09-13 | 2010-09-13 | |
US61/382,460 | 2010-09-13 | ||
US13/228,210 | 2011-09-08 | ||
US13/228,210 US8990094B2 (en) | 2010-09-13 | 2011-09-08 | Coding and decoding a transient frame |
PCT/US2011/051039 WO2012036988A1 (en) | 2010-09-13 | 2011-09-09 | Coding and decoding a transient frame |
Publications (2)
Publication Number | Publication Date |
---|---|
CN103098127A CN103098127A (zh) | 2013-05-08 |
CN103098127B true CN103098127B (zh) | 2015-08-19 |
Family
ID=44652037
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201180043611.9A Active CN103098127B (zh) | 2010-09-13 | 2011-09-09 | 译码及解码瞬时帧 |
Country Status (7)
Country | Link |
---|---|
US (1) | US8990094B2 (zh) |
EP (1) | EP2617032B1 (zh) |
JP (1) | JP5727018B2 (zh) |
KR (1) | KR101545792B1 (zh) |
CN (1) | CN103098127B (zh) |
TW (1) | TWI459377B (zh) |
WO (1) | WO2012036988A1 (zh) |
Families Citing this family (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2013075753A1 (en) * | 2011-11-25 | 2013-05-30 | Huawei Technologies Co., Ltd. | An apparatus and a method for encoding an input signal |
EP2798631B1 (en) * | 2011-12-21 | 2016-03-23 | Huawei Technologies Co., Ltd. | Adaptively encoding pitch lag for voiced speech |
CN108712652A (zh) | 2012-06-29 | 2018-10-26 | 韩国电子通信研究院 | 视频编码方法和计算机可读介质 |
US9842598B2 (en) | 2013-02-21 | 2017-12-12 | Qualcomm Incorporated | Systems and methods for mitigating potential frame instability |
US9263054B2 (en) * | 2013-02-21 | 2016-02-16 | Qualcomm Incorporated | Systems and methods for controlling an average encoding rate for speech signal encoding |
CN108364657B (zh) * | 2013-07-16 | 2020-10-30 | 超清编解码有限公司 | 处理丢失帧的方法和解码器 |
US20150100318A1 (en) * | 2013-10-04 | 2015-04-09 | Qualcomm Incorporated | Systems and methods for mitigating speech signal quality degradation |
EP3226242B1 (en) * | 2013-10-18 | 2018-12-19 | Telefonaktiebolaget LM Ericsson (publ) | Coding of spectral peak positions |
US10140316B1 (en) * | 2014-05-12 | 2018-11-27 | Harold T. Fogg | System and method for searching, writing, editing, and publishing waveform shape information |
FR3024581A1 (fr) | 2014-07-29 | 2016-02-05 | Orange | Determination d'un budget de codage d'une trame de transition lpd/fd |
WO2018088462A1 (ja) * | 2016-11-10 | 2018-05-17 | 株式会社ラック | 通信制御装置、通信制御方法およびプログラム |
CN110619881B (zh) * | 2019-09-20 | 2022-04-15 | 北京百瑞互联技术有限公司 | 一种语音编码方法、装置及设备 |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1402869A (zh) * | 1999-10-28 | 2003-03-12 | 高通股份有限公司 | 使用编码方案选择模型以减少对帧差错敏感性的预测语音编码器 |
CN1437747A (zh) * | 2000-02-29 | 2003-08-20 | 高通股份有限公司 | 闭环多模混合域线性预测(mdlp)语音编解码器 |
Family Cites Families (37)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US4991213A (en) * | 1988-05-26 | 1991-02-05 | Pacific Communication Sciences, Inc. | Speech specific adaptive transform coder |
JP3277398B2 (ja) * | 1992-04-15 | 2002-04-22 | ソニー株式会社 | 有声音判別方法 |
US5781880A (en) * | 1994-11-21 | 1998-07-14 | Rockwell International Corporation | Pitch lag estimation using frequency-domain lowpass filtering of the linear predictive coding (LPC) residual |
US5754974A (en) * | 1995-02-22 | 1998-05-19 | Digital Voice Systems, Inc | Spectral magnitude representation for multi-band excitation speech coders |
GB9512284D0 (en) * | 1995-06-16 | 1995-08-16 | Nokia Mobile Phones Ltd | Speech Synthesiser |
US5864795A (en) * | 1996-02-20 | 1999-01-26 | Advanced Micro Devices, Inc. | System and method for error correction in a correlation-based pitch estimator |
JP4063911B2 (ja) | 1996-02-21 | 2008-03-19 | 松下電器産業株式会社 | 音声符号化装置 |
EP1553564A3 (en) * | 1996-08-02 | 2005-10-19 | Matsushita Electric Industrial Co., Ltd. | Voice encoding device, voice decoding device, recording medium for recording program for realizing voice encoding /decoding and mobile communication device |
US6014622A (en) * | 1996-09-26 | 2000-01-11 | Rockwell Semiconductor Systems, Inc. | Low bit rate speech coder using adaptive open-loop subframe pitch lag estimation and vector quantization |
JPH10105194A (ja) | 1996-09-27 | 1998-04-24 | Sony Corp | ピッチ検出方法、音声信号符号化方法および装置 |
US6233550B1 (en) * | 1997-08-29 | 2001-05-15 | The Regents Of The University Of California | Method and apparatus for hybrid coding of speech at 4kbps |
US6029133A (en) * | 1997-09-15 | 2000-02-22 | Tritech Microelectronics, Ltd. | Pitch synchronized sinusoidal synthesizer |
FI113571B (fi) * | 1998-03-09 | 2004-05-14 | Nokia Corp | Puheenkoodaus |
US6311154B1 (en) * | 1998-12-30 | 2001-10-30 | Nokia Mobile Phones Limited | Adaptive windows for analysis-by-synthesis CELP-type speech coding |
US6640209B1 (en) | 1999-02-26 | 2003-10-28 | Qualcomm Incorporated | Closed-loop multimode mixed-domain linear prediction (MDLP) speech coder |
US6260017B1 (en) * | 1999-05-07 | 2001-07-10 | Qualcomm Inc. | Multipulse interpolative coding of transition speech frames |
US6324505B1 (en) * | 1999-07-19 | 2001-11-27 | Qualcomm Incorporated | Amplitude quantization scheme for low-bit-rate speech coders |
JP2004109803A (ja) | 2002-09-20 | 2004-04-08 | Hitachi Kokusai Electric Inc | 音声符号化装置及び方法 |
US7519530B2 (en) * | 2003-01-09 | 2009-04-14 | Nokia Corporation | Audio signal processing |
GB2398983B (en) * | 2003-02-27 | 2005-07-06 | Motorola Inc | Speech communication unit and method for synthesising speech therein |
KR20060131729A (ko) * | 2003-09-09 | 2006-12-20 | 코닌클리케 필립스 일렉트로닉스 엔.브이. | 과도 오디오 신호 성분들의 인코딩 |
US20050091044A1 (en) * | 2003-10-23 | 2005-04-28 | Nokia Corporation | Method and system for pitch contour quantization in audio coding |
US7386445B2 (en) * | 2005-01-18 | 2008-06-10 | Nokia Corporation | Compensation of transient effects in transform coding |
US8145477B2 (en) * | 2005-12-02 | 2012-03-27 | Sharath Manjunath | Systems, methods, and apparatus for computationally efficient, iterative alignment of speech waveforms |
EP2040251B1 (en) | 2006-07-12 | 2019-10-09 | III Holdings 12, LLC | Audio decoding device and audio encoding device |
US8260609B2 (en) * | 2006-07-31 | 2012-09-04 | Qualcomm Incorporated | Systems, methods, and apparatus for wideband encoding and decoding of inactive frames |
US7877253B2 (en) * | 2006-10-06 | 2011-01-25 | Qualcomm Incorporated | Systems, methods, and apparatus for frame erasure recovery |
US7885819B2 (en) * | 2007-06-29 | 2011-02-08 | Microsoft Corporation | Bitstream syntax for multi-process audio decoding |
JP4882899B2 (ja) * | 2007-07-25 | 2012-02-22 | ソニー株式会社 | 音声解析装置、および音声解析方法、並びにコンピュータ・プログラム |
DE602007004504D1 (de) * | 2007-10-29 | 2010-03-11 | Harman Becker Automotive Sys | Partielle Sprachrekonstruktion |
CN101465122A (zh) * | 2007-12-20 | 2009-06-24 | 株式会社东芝 | 语音的频谱波峰的检测以及语音识别方法和系统 |
KR101441896B1 (ko) * | 2008-01-29 | 2014-09-23 | 삼성전자주식회사 | 적응적 lpc 계수 보간을 이용한 오디오 신호의 부호화,복호화 방법 및 장치 |
US8195460B2 (en) * | 2008-06-17 | 2012-06-05 | Voicesense Ltd. | Speaker characterization through speech analysis |
US8768690B2 (en) * | 2008-06-20 | 2014-07-01 | Qualcomm Incorporated | Coding scheme selection for low-bit-rate applications |
US20090319261A1 (en) * | 2008-06-20 | 2009-12-24 | Qualcomm Incorporated | Coding of transitional speech frames for low-bit-rate applications |
US20090319263A1 (en) * | 2008-06-20 | 2009-12-24 | Qualcomm Incorporated | Coding of transitional speech frames for low-bit-rate applications |
US8214201B2 (en) * | 2008-11-19 | 2012-07-03 | Cambridge Silicon Radio Limited | Pitch range refinement |
-
2011
- 2011-09-08 US US13/228,210 patent/US8990094B2/en active Active
- 2011-09-09 KR KR1020137009115A patent/KR101545792B1/ko active IP Right Grant
- 2011-09-09 EP EP11757729.6A patent/EP2617032B1/en active Active
- 2011-09-09 JP JP2013529208A patent/JP5727018B2/ja not_active Expired - Fee Related
- 2011-09-09 WO PCT/US2011/051039 patent/WO2012036988A1/en active Application Filing
- 2011-09-09 CN CN201180043611.9A patent/CN103098127B/zh active Active
- 2011-09-13 TW TW100132894A patent/TWI459377B/zh active
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1402869A (zh) * | 1999-10-28 | 2003-03-12 | 高通股份有限公司 | 使用编码方案选择模型以减少对帧差错敏感性的预测语音编码器 |
CN1437747A (zh) * | 2000-02-29 | 2003-08-20 | 高通股份有限公司 | 闭环多模混合域线性预测(mdlp)语音编解码器 |
Also Published As
Publication number | Publication date |
---|---|
CN103098127A (zh) | 2013-05-08 |
EP2617032A1 (en) | 2013-07-24 |
JP2013541731A (ja) | 2013-11-14 |
JP5727018B2 (ja) | 2015-06-03 |
EP2617032B1 (en) | 2014-12-31 |
US20120065980A1 (en) | 2012-03-15 |
KR101545792B1 (ko) | 2015-08-19 |
WO2012036988A1 (en) | 2012-03-22 |
TW201216254A (en) | 2012-04-16 |
TWI459377B (zh) | 2014-11-01 |
KR20130086609A (ko) | 2013-08-02 |
US8990094B2 (en) | 2015-03-24 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN103098127B (zh) | 译码及解码瞬时帧 | |
CN103109321B (zh) | 估计音调滞后 | |
KR101699138B1 (ko) | 리던던트 프레임 코딩 및 디코딩을 위한 디바이스들 | |
JP4724452B2 (ja) | デジタルメディア汎用基本ストリーム | |
CN103299365B (zh) | 用于自适应地编码和解码带水印信号的装置 | |
US9123328B2 (en) | Apparatus and method for audio frame loss recovery | |
JP6204501B2 (ja) | 高周波帯域信号を予測するための方法、符号化デバイス、および復号デバイス | |
CN103299364B (zh) | 用于编码和解码带水印信号的装置 | |
CN103109319B (zh) | 确定音调循环能量及按比例缩放激励信号 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
C14 | Grant of patent or utility model | ||
GR01 | Patent grant |