CN104123946A - 用于在与语音信号相关联的包中包含识别符的系统及方法 - Google Patents
用于在与语音信号相关联的包中包含识别符的系统及方法 Download PDFInfo
- Publication number
- CN104123946A CN104123946A CN201410359582.2A CN201410359582A CN104123946A CN 104123946 A CN104123946 A CN 104123946A CN 201410359582 A CN201410359582 A CN 201410359582A CN 104123946 A CN104123946 A CN 104123946A
- Authority
- CN
- China
- Prior art keywords
- signal
- bag
- value
- band
- encoding
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 108
- 238000004891 communication Methods 0.000 claims description 25
- 238000012546 transfer Methods 0.000 claims description 16
- 230000011218 segmentation Effects 0.000 claims description 9
- 238000005086 pumping Methods 0.000 description 139
- 238000001228 spectrum Methods 0.000 description 115
- 238000010586 diagram Methods 0.000 description 80
- 230000006870 function Effects 0.000 description 51
- 238000005070 sampling Methods 0.000 description 51
- 238000005452 bending Methods 0.000 description 42
- 230000005284 excitation Effects 0.000 description 41
- 238000004458 analytical method Methods 0.000 description 33
- 238000001914 filtration Methods 0.000 description 26
- 230000008569 process Effects 0.000 description 25
- 230000003595 spectral effect Effects 0.000 description 23
- 239000013598 vector Substances 0.000 description 22
- 239000002131 composite material Substances 0.000 description 19
- 230000002123 temporal effect Effects 0.000 description 19
- 238000005516 engineering process Methods 0.000 description 18
- 230000005540 biological transmission Effects 0.000 description 17
- 230000004044 response Effects 0.000 description 17
- 238000006073 displacement reaction Methods 0.000 description 15
- 230000003044 adaptive effect Effects 0.000 description 14
- 238000006243 chemical reaction Methods 0.000 description 14
- 230000007774 longterm Effects 0.000 description 13
- 230000007704 transition Effects 0.000 description 13
- 230000000737 periodic effect Effects 0.000 description 12
- 238000012545 processing Methods 0.000 description 11
- YBJHBAHKTGYVGT-ZKWXMUAHSA-N (+)-Biotin Chemical compound N1C(=O)N[C@@H]2[C@H](CCCCC(=O)O)SC[C@@H]21 YBJHBAHKTGYVGT-ZKWXMUAHSA-N 0.000 description 8
- 238000013461 design Methods 0.000 description 8
- 238000013139 quantization Methods 0.000 description 8
- FEPMHVLSLDOMQC-UHFFFAOYSA-N virginiamycin-S1 Natural products CC1OC(=O)C(C=2C=CC=CC=2)NC(=O)C2CC(=O)CCN2C(=O)C(CC=2C=CC=CC=2)N(C)C(=O)C2CCCN2C(=O)C(CC)NC(=O)C1NC(=O)C1=NC=CC=C1O FEPMHVLSLDOMQC-UHFFFAOYSA-N 0.000 description 8
- 230000008859 change Effects 0.000 description 7
- 238000011002 quantification Methods 0.000 description 7
- 206010038743 Restlessness Diseases 0.000 description 6
- 230000008901 benefit Effects 0.000 description 6
- 238000013459 approach Methods 0.000 description 5
- 238000004364 calculation method Methods 0.000 description 5
- 230000001413 cellular effect Effects 0.000 description 5
- 230000000630 rising effect Effects 0.000 description 5
- 238000003860 storage Methods 0.000 description 5
- 230000009471 action Effects 0.000 description 4
- 238000009826 distribution Methods 0.000 description 4
- 239000000203 mixture Substances 0.000 description 4
- 238000012952 Resampling Methods 0.000 description 3
- 230000000712 assembly Effects 0.000 description 3
- 238000000429 assembly Methods 0.000 description 3
- 238000005311 autocorrelation function Methods 0.000 description 3
- 238000012937 correction Methods 0.000 description 3
- 230000007423 decrease Effects 0.000 description 3
- 238000000605 extraction Methods 0.000 description 3
- 238000009499 grossing Methods 0.000 description 3
- 238000013507 mapping Methods 0.000 description 3
- 230000003287 optical effect Effects 0.000 description 3
- 230000008447 perception Effects 0.000 description 3
- 230000002829 reductive effect Effects 0.000 description 3
- 230000002441 reversible effect Effects 0.000 description 3
- 230000008054 signal transmission Effects 0.000 description 3
- 230000005236 sound signal Effects 0.000 description 3
- 238000003786 synthesis reaction Methods 0.000 description 3
- 230000009466 transformation Effects 0.000 description 3
- 102100029469 WD repeat and HMG-box DNA-binding protein 1 Human genes 0.000 description 2
- 101710097421 WD repeat and HMG-box DNA-binding protein 1 Proteins 0.000 description 2
- 230000015572 biosynthetic process Effects 0.000 description 2
- 238000005520 cutting process Methods 0.000 description 2
- 125000004122 cyclic group Chemical group 0.000 description 2
- 238000001514 detection method Methods 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 238000005538 encapsulation Methods 0.000 description 2
- 230000004927 fusion Effects 0.000 description 2
- 230000005055 memory storage Effects 0.000 description 2
- 230000036961 partial effect Effects 0.000 description 2
- 238000007493 shaping process Methods 0.000 description 2
- 230000009131 signaling function Effects 0.000 description 2
- 238000010183 spectrum analysis Methods 0.000 description 2
- 230000002194 synthesizing effect Effects 0.000 description 2
- 230000002087 whitening effect Effects 0.000 description 2
- 238000012935 Averaging Methods 0.000 description 1
- 102000001690 Factor VIII Human genes 0.000 description 1
- 108010054218 Factor VIII Proteins 0.000 description 1
- 230000006978 adaptation Effects 0.000 description 1
- 230000033228 biological regulation Effects 0.000 description 1
- 239000011449 brick Substances 0.000 description 1
- 230000023402 cell communication Effects 0.000 description 1
- 230000000295 complement effect Effects 0.000 description 1
- 230000008878 coupling Effects 0.000 description 1
- 238000010168 coupling process Methods 0.000 description 1
- 238000005859 coupling reaction Methods 0.000 description 1
- 230000001934 delay Effects 0.000 description 1
- 230000001419 dependent effect Effects 0.000 description 1
- 230000006866 deterioration Effects 0.000 description 1
- 238000007599 discharging Methods 0.000 description 1
- 230000003760 hair shine Effects 0.000 description 1
- 230000008676 import Effects 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 239000006249 magnetic particle Substances 0.000 description 1
- 238000002156 mixing Methods 0.000 description 1
- 238000010295 mobile communication Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 239000002245 particle Substances 0.000 description 1
- 230000010363 phase shift Effects 0.000 description 1
- 238000011112 process operation Methods 0.000 description 1
- 238000003672 processing method Methods 0.000 description 1
- 230000000306 recurrent effect Effects 0.000 description 1
- 230000008929 regeneration Effects 0.000 description 1
- 238000011069 regeneration method Methods 0.000 description 1
- 230000000717 retained effect Effects 0.000 description 1
- 238000012360 testing method Methods 0.000 description 1
- 230000036962 time dependent Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/04—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
- G10L19/16—Vocoder architecture
- G10L19/167—Audio streaming, i.e. formatting and decoding of an encoded audio signal representation into a data stream for transmission or storage purposes
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/04—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
- G10L19/16—Vocoder architecture
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N21/00—Selective content distribution, e.g. interactive television or video on demand [VOD]
- H04N21/20—Servers specifically adapted for the distribution of content, e.g. VOD servers; Operations thereof
- H04N21/23—Processing of content or additional data; Elementary server operations; Server middleware
- H04N21/233—Processing of audio elementary streams
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/04—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
- G10L19/16—Vocoder architecture
- G10L19/18—Vocoders using multiple modes
- G10L19/24—Variable rate codecs, e.g. for generating different qualities using a scalable representation such as hierarchical encoding or layered encoding
Landscapes
- Engineering & Computer Science (AREA)
- Multimedia (AREA)
- Signal Processing (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Compression, Expansion, Code Conversion, And Decoders (AREA)
- Data Exchanges In Wide-Area Networks (AREA)
- Mobile Radio Communication Systems (AREA)
- Telephonic Communication Services (AREA)
Abstract
本发明描述一种用于在与语音信号相关联的包中包含识别符的系统及方法。接收信号。将所述信号分割为多个帧。将所述信号的一帧编码到包中。确定将所述包编码为宽带包还是窄带包。基于所述确定在所述包中封装识别符。传输所述包。从N位参数提供至少两个非法值,其中将来自所述N位参数的至少一个位用于载送信息。来自所述N位参数的用于载送信息的位的数目等于log2(X),其中X为从所述N位参数提供的非法值的数目。
Description
分案申请
本发明专利申请是申请日为2007年7月31日,申请号为200780027855.1,以及发明名称为“用于在与语音信号相关联的包中包含识别符的系统及方法”的发明专利申请案的分案申请。
根据35U.S.C.§119主张优先权
本专利申请案主张2006年7月31日申请的标题为“特殊半速率识别符包产生和解码”的临时申请案第60/834,617号的优先权,且转让给本受让人,且在此以引用的方式明确并入本文中。
技术领域
本系统及方法大体上涉及语音处理技术。更明确地说,本系统及方法涉及在与语音信号相关联的包中包含识别符。
背景技术
通过数字技术的声音传输变得普遍,尤其是在长距离及数字无线电电话应用中变得普遍。此又产生了对确定在维持重构语音的被感知质量的同时可经由信道发送的信息的最小量的兴趣。用于压缩语音的装置可用于电信的许多领域中。电信的实例为无线通信。无线通信的领域具有许多应用,其包括(例如)无绳电话、寻呼机、无线局域环路、例如蜂窝式及便携式通信系统(PCS)电话系统的无线电话、移动因特网协议(IP)电话及卫星通信系统。尤其重要的应用为用于移动订户的无线电话。
发明内容
本发明描述一种用于在与语音信号相关联的包中包含识别符的方法。接收信号。将所述信号分割为多个帧。将所述信号的帧编码到包中。确定将所述包编码为宽带包还是窄带包。基于所述确定,在包中封装识别符。传输所述包。从N位参数提供至少两个非法值,其中来自所述N位参数的至少一个位用于载送信息。用于载送信息的来自所述N位参数的位的数目等于log2(X),其中X为从所述N位参数提供的非法值的数目。
还描述一种用于在与语音信号相关联的包中包含识别符的设备。所述设备包括处理器及与所述处理器进行电子通信的存储器。指令存储于所述存储器中。所述指令可执行以:接收信号;将所述信号分割为多个帧;将所述信号的帧编码到包中;确定将所述包编码为宽带包还是窄带包;基于所述确定,在所述包中封装识别符;及传输所述包。
还描述一种经配置以在与语音信号相关联的包中包含识别符的系统。所述系统包括用于处理的装置及用于接收信号的装置。描述用于将所述信号分割为多个帧的装置,及用于将所述信号的帧编码到包中的装置。描述用于确定将所述包编码为宽带包还是窄带包的装置。描述用于基于所述确定而在所述包中封装识别符的装置,及用于传输所述包的装置。
还描述一种计算机可读媒体。所述媒体经配置以存储一组指令,所述指令可执行以:接收信号;将所述信号分割为多个帧;将所述信号的帧编码到包中;确定将所述包编码为宽带包还是窄带包;基于所述确定,在所述包中封装识别符;及传输所述包。
还描述一种用于解码包的方法。接收包。分析在所述包中所包括的识别符。确定所述包是由宽带编码器还是由窄带编码器编码。基于所述确定,选择用于所述包的解码模式。
还描述一种用于解码包的设备。所述设备包括处理器及与所述处理器进行电子通信的存储器。指令存储于所述存储器中。所述指令可执行以:接收包;分析在所述包中所包括的识别符;确定所述包是由宽带编码器还是由窄带编码器编码;及基于所述确定,选择用于所述包的解码模式。
还描述一种经配置以解码包的系统。所述系统包括用于处理的装置及用于接收包的装置。描述用于分析包括于所述包中的识别符的装置,及用于确定所述包是由宽带编码器还是由窄带编码器编码的装置。描述用于基于所述确定而选择用于所述包的解码模式的装置。
还描述一种计算机可读媒体。所述媒体经配置以存储一组指令,所述指令可执行以:接收包;分析在所述包中所包括的识别符;确定所述包是由宽带编码器还是由窄带编码器编码;及基于所述确定,选择用于所述包的解码模式。
附图说明
图1a展示根据一配置的宽带语音编码器A100的框图;
图1b展示宽带语音编码器A100的一实施方案A102的框图;
图2a展示根据一配置的宽带语音解码器B100的框图;
图2b展示宽带语音解码器B100的一实施方案B102的框图;
图3a展示滤波器组A110的一实施方案A112的框图;
图3b展示滤波器组B120的一实施方案B122的框图;
图4a展示滤波器组A110的一实例的低带及高带的带宽覆盖;
图4b展示滤波器组A110的另一实例的低带及高带的带宽覆盖;
图4c展示滤波器组A112的一实施方案A114的框图;
图4d展示滤波器组B122的一实施方案B124的框图;
图5a展示语音信号的频率与对数振幅的曲线的一实例;
图5b展示基本线性预测编码系统的框图;
图6展示窄带编码器A120的一实施方案A122的框图;
图7展示窄带解码器B110的一实施方案B112的框图;
图8a展示有声语音的残余信号的频率与对数振幅的曲线的一实例;
图8b展示有声语音的残余信号的时间与对数振幅的曲线的一实例;
图9展示还执行长期预测的基本线性预测编码系统的框图;
图10展示高带编码器A200的一实施方案A202的框图;
图11展示高带激励产生器A300的一实施方案A302的框图;
图12展示频谱扩展器A400的一实施方案A402的框图;
图12a展示在频谱扩展操作的一实例中多个点处的信号频谱的曲线;
图12b展示在频谱扩展操作的另一实例中多个点处的信号频谱的曲线;
图13展示高带激励产生器A302的一实施方案A304的框图;
图14展示高带激励产生器A302的一实施方案A306的框图;
图15展示用于包络计算任务T100的流程图;
图16展示组合器490的一实施方案492的框图;
图17说明计算高带信号S30的周期性的量度的方法;
图18展示高带激励产生器A302的一实施方案A312的框图;
图19展示高带激励产生器A302的一实施方案A314的框图;
图20展示高带激励产生器A302的一实施方案A316的框图;
图21展示用于增益计算任务T200的流程图;
图22展示用于增益计算任务T200的一实施方案T210的流程图;
图23a展示开窗函数的图;
图23b展示如图23a中所示的开窗函数对语音信号的子帧的应用;
图24展示高带解码器B200的一实施方案B202的框图;
图25展示宽带语音编码器A100的一实施方案AD10的框图;
图26a展示延迟线D120的一实施方案D122的示意图;
图26b展示延迟线D120的一实施方案D124的示意图;
图27展示延迟线D120的一实施方案D130的示意图;
图28展示宽带语音编码器AD10的一实施方案AD12的框图;
图29展示根据一配置的信号处理方法MD100的流程图;
图30展示用于根据一配置的方法M100的流程图;
图31a展示用于根据一配置的方法M200的流程图;
图31b展示用于方法M200的一实施方案M210的流程图;
图32展示用于根据一配置的方法M300的流程图;
图33说明无线通信系统的一配置;
图34为说明信号传输环境的一配置的框图;
图35为说明用于在与语音信号相关联的包中包括识别符的方法的一配置的流程图;
图36为说明解码包的方法的一配置的流程图;
图37为说明与多模式解码器进行通信的多模式编码器的一配置的框图;
图38为说明可变速率语音编码方法的一配置的流程图;
图39为说明规则窄带半速率包及宽带半速率包的一配置的框图;
图40为说明分配到各种类型的包的位的数目的表;及
图41为在通信装置的一配置中的某些组件的框图。
具体实施方式
现参看附图来描述所述系统及所述方法的各种配置,其中相同参考标号指示相同或功能类似的元件。如大致在本文中的各图中所描述及说明,可以广泛的多种不同配置来布置及设计本系统及方法的特征。因此,下文的详细描述并不希望限制如所主张的系统及方法的范围,而是仅表示所述系统及所述方法的配置。
可将本文中所揭示的配置的许多特征实施为计算机软件、电子硬件或两者的组合。为清楚地说明硬件与软件的此互换性,将大致就各种组件的功能性来描述所述组件。将此功能性实施为硬件还是软件视特定应用及强加于整个系统的设计约束而定。所属领域的技术人员可以针对每一特定应用的变化的方式来实施所描述的功能性,但不应将所述实施方案决策解释为导致脱离本系统及方法的范围。
在将所描述的功能性实施为计算机软件的情况下,此软件可包括任何类型的位于存储器装置内及/或作为电子信号而经由系统总线或网络传输的计算机指令或计算机可执行码。实施与本文中所描述的组件相关联的功能性的软件可包含单个指令或许多指令,且可分布在若干不同码段、分布于不同程序中及分布为跨越若干存储器装置。
如本文中所使用,术语“一配置”、“配置”、“若干配置”、“所述配置”、“所述若干配置”、“一个或一个以上配置”、“一些配置”、“某些配置”、“一个配置”、“另一配置”及其类似物意味着“所揭示的系统及方法的一个或一个以上(但未必全部)配置”,除非另外明确规定。
术语“确定”(及其语法变体)是以极为广泛的意义来使用。术语“确定”包含广泛的多种动作且因此“确定”可包括核算、计算、处理、导出、调查、查找(例如,在表格、数据库或另一数据结构中进行查找)、查明及其类似物。并且,“确定”可包括接收(例如,接收信息)、存取(例如,存取存储器中的数据)及其类似物。并且,“确定”可包括解析、选择、挑选、建立及其类似物。
短语“基于”并不意味着“仅基于”,除非另外明确规定。换句话说,短语“基于”描述“仅基于”与“至少基于”两者。
蜂窝式网络可包括由许多小区(每一小区由固定传输器服务)构成的无线电网络。可将所述多个传输器称为小区站点或基站。通过经由通信信道将语音信号传输到基站,小区可与网络中的其它小区通信。小区可将语音信号划分为多个帧(例如,20毫秒(ms)的语音信号)。可将每一帧编码到包中。包可包括某一数量的位,所述位接着在通信信道上被传输到接收基站或接收小区。接收基站或接收小区可将包拆包且解码各种帧以重构信号。
可将包编码为全速率包(171位)、半速率包(80位)、四分之一速率包(40位)或八分之一速率包(16位)。此外,可利用窄带编码器或宽带编码器来编码包。由宽带编码器编码的包可被编码为全速率包、半速率包或八分之一速率包。由窄带编码器编码的包可被编码为全速率包、半速率包、四分之一速率包或八分之一速率包。可针对各种类型的包实施宽带编码器,包括编码激励线性预测(CELP)包及噪声激励线性预测(NELP)包。可对CELP包、原型音高周期(PPP)包及NELP包实施窄带编码器。
在编码包之后,在包中可包括识别符以便对解码器指示所述包是由宽带编码器还是由窄带编码器所编码。在识别符中所包括的信息可对解码器指示所述包是应使用宽带解码器还是窄带解码器予以解码。举例来说,第四代声码器(4GV)宽带(WB)编码器可编码半速率(80位)包。所述包可不具有用以识别更多类型的包的显式位。因而,包括7位音高滞后的无效位模式可用于识别包括73位(或73位以下)的一个或一个以上包。然而,4GV-WB半速率包可需要74位,且因而,可能无法针对4GV-WB半速率包利用7位音高滞后识别符(因为在此实例中,可用于半速率的位的总数目为80)。在一方面中,7位音高滞后识别符的两个无效样式(彼此相差一个位)可用于识别4GV-WB半速率包。(七个位中的)六个位可用作识别符,因此除了73位之外,释放了一个不同位以由4GV-WB半速率包使用,其产生用于4GV-WB半速率包的74位。
本文中所描述的配置包括可经配置以对窄带语音编码器提供扩展从而支持以约800bps到1000bps(位每秒)的带宽增量来传输及/或存储宽带语音信号的系统、方法及设备。所述实施方案的潜在优势包括:用以支持与窄带系统的兼容性的嵌入式编码、在窄带编码信道与高带编码信道之间的相对容易的位分配及再分配、避免了计算密集型宽带合成运算及维持待由计算密集型波形编码例行程序处理的信号的低取样速率。
除非上下文明确限制,否则术语“计算”在本文中用于指示其一般意义中的任一意义,例如演算、产生一列值及从一列值进行选择。在本描述及权利要求书中使用术语“包含”时,其并不排除其它元件或操作。术语“A基于B”用于指示其一般意义中的任一意义,包括(i)“A等同于B”及(ii)“A至少基于B”的情况。术语“因特网协议”包括版本4(如IETF(因特网工程任务组)RFC(请求评论)791中所描述)及随后版本(例如版本6)。
图1a展示根据一配置的宽带语音编码器A100的框图。滤波器组A110经配置以对宽带语音信号S10进行滤波,以产生窄带信号S20及高带信号S30。窄带编码器A120经配置以编码窄带信号S20,以产生窄带(NB)滤波器参数S40及窄带残余信号S50。如本文中进一步详细描述,窄带编码器A120通常经配置以产生作为码簿索引或以另一经量化形式的窄带滤波器参数S40及经编码窄带激励信号S50。高带编码器A200经配置以根据在经编码窄带激励信号S50中的信息而编码高带信号S30,以产生高带编码参数S60。如本文中进一步详细描述,高带编码器A200通常经配置以产生作为码簿索引或以另一量化形式的高带编码参数S60。宽带语音编码器A100的一特定实例经配置而以约8.55kbps(千位每秒)的速率来编码宽带语音信号S10,其中约7.55kbps用于窄带滤波器参数S40及经编码窄带激励信号S50,且约1kbps用于高带编码参数S60。
可能需要将经编码窄带与高带信号组合为单一位流。举例来说,可能需要将经编码信号多路复用在一起以作为经编码宽带语音信号而(例如,经由有线、光学或无线传输信道)传输或存储。图1b展示宽带语音编码器A100的一实施方案A102的框图,其包括多路复用器A130,所述多路复用器A130经配置以将窄带滤波器参数S40、经编码窄带激励信号S50及高带滤波器参数S60组合为经多路复用信号S70。
包括编码器A102的设备还可包括电路,所述电路经配置以将经多路复用信号S70传输到例如有线、光学或无线信道的传输信道中。所述设备还可经配置以执行对信号的一个或一个以上信道编码操作,例如误差校正编码(例如,速率兼容卷积编码)及/或误差检测编码(例如,循环冗余编码)及/或一个或一个以上层的网络协议编码(例如,以太网、TCP/IP、cdma2000)。
可能需要配置多路复用器A130以将经编码窄带信号(包括窄带滤波器参数S40及经编码窄带激励信号S50)作为经多路复用信号S70的可分子流而嵌入,使得经编码窄带信号可独立于经多路复用信号S70的另一部分(例如高带及/或低带信号)而被恢复及解码。举例来说,经多路复用信号S70可经布置以使得经编码窄带信号可通过去除高带滤波器参数S60而得以恢复。所述特征的一潜在优势为:避免了在将经编码宽带信号传递到支持窄带信号的解码但不支持高带部分的解码的系统之前,将经编码宽带信号进行码变换的需要。
图2a为根据一配置的宽带语音解码器B100的框图。窄带解码器B110经配置以解码窄带滤波器参数S40及经编码窄带激励信号S50,以产生窄带信号S90。高带解码器B200经配置以根据窄带激励信号S80基于经编码窄带激励信号S50来解码高带编码参数S60,以产生高带信号S100。在此实例中,窄带解码器B110经配置以将窄带激励信号S80提供到高带解码器B200。滤波器组B120经配置以将窄带信号S90与高带信号S100组合,以产生宽带语音信号S110。
图2b为宽带语音解码器B100的一实施方案B102的框图,其包括解多路复用器B130,所述解多路复用器B130经配置以从经多路复用信号S70产生经编码信号S40、S50及S60。包括解码器B102的设备可包括电路,所述电路经配置以从例如有线、光学或无线信道的传输信道接收经多路复用信号S70。所述设备还可经配置以执行对信号的一个或一个以上信道解码操作,例如误差校正解码(例如,速率兼容卷积解码)及/或误差检测解码(例如,循环冗余解码)及/或一个或一个以上层的网络协议解码(例如,以太网络、TCP/IP、cdma2000)。
滤波器组A110经配置以根据带分割方案来对输入信号进行滤波,以产生低频率子带及高频率子带。视针对特定应用的设计标准而定,输出子带可具有相等或不等带宽且可重叠或不重叠。产生两个以上子带的滤波器组A110的配置也是可能的。举例来说,所述滤波器组可经配置以产生一个或一个以上低带信号,所述信号包括在低于窄带信号S20的频率范围的频率范围(例如50Hz到300Hz的范围)内的分量。所述滤波器组还可能经配置以产生一个或一个以上额外高带信号,所述信号包括在高于高带信号S30的频率范围的频率范围(例如14kHz到20kHz、16kHz到20kHz或16kHz到32kHz的范围)内的分量。在所述情况下,宽带语音编码器A100可经实施以单独编码所述信号,且多路复用器A130可经配置以将额外经编码信号包括于经多路复用信号S70中(例如,作为可分部分)。
图3a展示滤波器组A110的一实施方案A112的框图,其经配置以产生具有降低取样速率的两个子带信号。滤波器组A110经布置以接收具有高频率(或高带)部分及低频率(或低带)部分的宽带语音信号S10。滤波器组A112包括:低带处理路径,其经配置以接收宽带语音信号S10且产生窄带语音信号S20;及高带处理路径,其经配置以接收宽带语音信号S10且产生高带语音信号S30。低通滤波器110对宽带语音信号S10进行滤波以使选定低频率子带通过,且高通滤波器130对宽带语音信号S10进行滤波以使选定高频率子带通过。因为两个子带信号均具有比宽带语音信号S10更窄的带宽,所以其取样速率可降低到某一程度而不会损失信息。降取样器(downsampler)120根据所要抽取因子来降低低通信号的取样速率(例如,通过移除信号的样本及/或以平均值替代样本),且降取样器140同样根据另一所要抽取因子来降低高通信号的取样速率。
图3b展示滤波器组B120的一对应实施方案B122的框图。升取样器(upsampler)150增加窄带信号S90的取样速率(例如,通过零塞入及/或通过复制样本),且低通滤波器160对经升取样信号进行滤波以使低带部分通过(例如,以避免假信号)。同样,升取样器170增加高带信号S100的取样速率,且高通滤波器180对经升取样信号进行滤波以使高带部分通过。接着将所述两个通带信号求和以形成宽带语音信号S110。在解码器B100的一些实施方案中,滤波器组B120经配置以根据由高带解码器B200接收及/或计算的一个或一个以上权重来产生两个通带信号的加权和。还涵盖组合两个以上通带信号的滤波器组B120的配置。
滤波器110、130、160、180中的每一者均可实施为有限脉冲响应(FIR)滤波器或无限脉冲响应(IIR)滤波器。编码器滤波器110及130的频率响应可在阻带与通带之间具有对称或不同形状的过渡区域。同样,解码器滤波器160及180的频率响应可在阻带与通带之间具有对称或不同形状的过渡区域。低通滤波器110可能需要具有与低通滤波器160相同的响应,且高通滤波器130可能需要具有与高通滤波器180相同的响应。在一实例中,两个滤波器对110、130及160、180为正交镜像滤波器(QMF)组,其中滤波器对110、130具有与滤波器对160、180相同的系数。
在一典型实例中,低通滤波器110具有包括300Hz到3400Hz的有限PSTN范围的通带(例如,从0kHz到4kHz的带)。图4a及图4b展示在两个不同实施性实例中的宽带语音信号S10、窄带信号S20及高带信号S30的相对带宽。在所述两个特定实例中,宽带语音信号S10具有16kHz的取样速率(表示频率分量在0kHz到8kHz的范围内),且窄带信号S20具有8kHz的取样速率(表示频率分量在0kHz到4kHz的范围内)。
在图4a的实例中,在两个子带之间不存在显著重叠。可使用具有4kHz到8kHz的通带的高通滤波器130获得此实例中所示的高带信号S30。在所述情况下,可需要通过以因子2将经滤波信号降取样来将取样速率降低到8kHz。所述操作(可预期其将显著降低对信号的进一步处理操作的计算复杂度)将使通带能量下降到0kHz到4kHz的范围内而不会损失信息。
在图4b的替代实例中,上子带与下子带具有可观的重叠,使得两个子带信号均描述3.5kHz到4kHz的区域。可使用具有3.5kHz到7kHz的通带的高通滤波器130获得在此实例中的高带信号S30。在所述情况下,可需要通过以16/7的因子将滤波信号降取样来将取样速率降低到7kHz。所述操作(可预期其将显著降低对信号的进一步处理操作的计算复杂度)将使通带能量下降到0kHz到3.5kHz的范围内而不会损失信息。
在用于电话通信的典型手持机中,转换器(即,麦克风及耳机或扬声器)中的一者或一者以上缺乏在7kHz到8kHz的频率范围内的明显响应。在图4b的实例中,在经编码信号中不包括宽带语音信号S10在7kHz与8kHz之间的部分。高通滤波器130的其它特定实例具有3.5kHz到7.5kHz及3.5kHz到8kHz的通带。
在一些实施方案中,提供在子带之间的重叠(如在图4b的实例中)允许使用在重叠区域上具有平滑滚落(rolloff)的低通及/或高通滤波器。所述滤波器通常较容易设计、计算复杂度较低及/或比具有更急剧或“砖墙”响应的滤波器引入较少延迟。具有急剧过渡区域的滤波器倾向于比具有平滑滚落的类似阶数的滤波器具有更高旁瓣(旁瓣可导致假信号)。具有急剧过渡区域的滤波器还可具有可导致振铃伪影(ringing artifact)的长脉冲响应。对于具有一个或一个以上IIR滤波器的滤波器组实施方案来说,允许在重叠区域上的平滑滚落可能够使用极点远离单位圆的滤波器,此对于确保稳定的固定点实施方案可为重要的。
子带的重叠允许低带与高带的平滑掺合,此可导致较少可听伪影、减少的假信号及/或从一个带到另一带的较不明显的过渡。此外,窄带编码器A120(例如,波形编码器)的编码效率可随着频率增加而下降。举例来说,窄带编码器的编码质量可在低位速率处降低(尤其在存在背景噪声的情况下)。在所述情况下,提供子带的重叠可增加在重叠区域中的再生频率分量的质量。
此外,子带的重叠允许低带与高带的平滑掺合,此可导致较少可听伪影、减少的假信号、及/或从一个带到另一带的较不明显的过渡。所述特征可尤其合乎其中窄带编码器A120及高带编码器A200根据不同编码方法操作的实施方案的需要。举例来说,不同编码技术可产生听起来非常不同的信号。编码以码簿索引形式的频谱包络的编码器可产生一信号,其具有与编码振幅频谱的编码器产生的信号不同的声音。时域编码器(例如,脉冲码调制或PCM编码器)可产生一信号,其具有与频域编码器所产生的信号不同的声音。利用频谱包络及对应残余信号的表示来编码信号的编码器可产生一信号,其具有与利用频谱包络的表示来编码信号的编码器所产生的信号不同的声音。将信号编码为其波形的表示的编码器可产生一输出,其具有不同于来自正弦编码器的输出的声音。在所述情况下,使用具有急剧过渡区域的滤波器来界定非重叠子带可导致在经合成的宽带信号中的子带之间的突然且明显可感知的过渡。
虽然具有互补重叠频率响应的QMF滤波器组通常用于子带技术中,但所述滤波器不适于本文中所描述的宽带编码实施方案中的至少一些实施方案。在编码器处的QMF滤波器组经配置以产生显著程度的假信号,所述假信号在解码器处的对应QMF滤波器组中被消去。所述布置可能不适用于其中信号在滤波器组之间发生显著量的失真的应用中,因为失真可降低假信号消去性质的有效性。举例来说,本文中所描述的应用包括经配置而以极低位速率操作的编码实施方案。由于所述极低位速率,所以与原始信号相比,经解码信号可能表现出显著失真,使得使用QMF滤波器组可导致未消去的假信号。使用QMF滤波器组的应用通常具有较高位速率(例如,对AMR来说超过12kbps,对于G.722来说超过64kbps)。
另外,编码器可经配置以产生感知上类似于原始信号但实际上显著不同于原始信号的经合成信号。举例来说,如本文中所描述的从窄带残余得出高带激励的编码器可产生所述信号,因为实际高带残余可完全不存在于经解码信号中。QMF滤波器组在所述应用中的使用可导致由未消去的假信号引起的显著程度的失真。
由于假信号的影响限于等于子带宽度的带宽,因此如果受影响的子带较窄,则可降低由QMF假信号引起的失真量。然而,对于本文中所描述的每一子带包括宽带带宽的约一半的实例来说,由未消去的假信号引起的失真可影响信号的显著部分。信号的质量还可受其上出现未消去的假信号的频带的位置的影响。举例来说,在宽带语音信号的中心附近(例如,在3kHz与4kHz之间)产生的失真可比出现于信号的边缘附近(例如,超过6kHz)的失真有害得多。
虽然QMF滤波器组的滤波器的响应严格地彼此相关,但滤波器组A110及B120的低带路径及高带路径可经配置以具有完全不相关的频谱(除两个子带的重叠以外)。我们将两个子带的重叠定义为从高带滤波器的频率响应下降到-20dB的点直到低带滤波器的频率响应下降到-20dB的点的距离。在滤波器组A110及/或B120的各种实例中,此重叠在从约200Hz到约1kHz的范围内。约400Hz到约600Hz的范围可表示在编码效率与感知平滑度之间的所要折衷。在上文所提及的一特定实例中,重叠为约500Hz。
可能需要实施滤波器组A112及/或B122以在若干阶段中执行图4a及图4b中所说明的操作。举例来说,图4c展示滤波器组A112的一实施方案A114的框图,其使用一系列内插、重取样、抽取及其它操作来执行高通滤波及降取样操作的功能等同操作。所述实施方案可较易于设计及/或可允许再使用逻辑及/或编码的功能块。举例来说,相同功能块可用于执行对14kHz的抽取及对7kHz的抽取的操作(如图4c中所示)。通过将信号与函数ejnπ或序列(-1)n(其值在+1与-1之间交替)相乘,可实施频谱反转操作。可将频谱成形操作实施为经配置以成形信号以获得所要整体滤波器响应的低通滤波器。
应注意到,由于频谱反转操作,高带信号S30的频谱被反转。可相应地配置在编码器及对应解码器中的随后操作。举例来说,如本文所描述的高带激励产生器A300可经配置以产生也具有频谱反转形态的高带激励信号S120。
图4d展示滤波器组B122的一实施方案B124的框图,其使用一系列内插、重取样及其它操作来执行升取样及高通滤波操作的功能等同操作。滤波器组B124包括在高带中的频谱反转操作,其反转与(例如)在编码器的滤波器组(例如滤波器组A114)中执行的操作类似的操作。在此特定实例中,滤波器组B124还包括在低带及高带中衰减信号在7100Hz处的分量的陷波滤波器,但所述陷波滤波器是任选的且无需被包括。
窄带编码器A120根据源-滤波器模型而实施,其将输入语音信号编码为:(A)描述滤波器的一组参数;及(B)驱动所描述滤波器产生输入语音信号的经合成再现信号的激励信号。图5a展示语音信号的频谱包络的一实例。表现此频谱包络的特征的峰值表示声道的共振且被称为共振峰。大多数语音编码器至少将此粗略频谱结构编码为例如滤波器系数的一组参数。
图5b展示如应用于窄带信号S20的频谱包络的编码的基本源-滤波器布置的一实例。分析模块计算表现对应于一时间周期(通常20毫秒)内的语音的滤波器的特征的一组参数。根据所述滤波器参数而配置的白化滤波器(还称为分析或预测误差滤波器)移除频谱包络,以在频谱上平化所述信号。所得经白化信号(还称为残余)具有较少能量,且因此具有较小方差,且比原始语音信号更易于编码。由编码残余信号产生的误差还可更均匀地散布于频谱上。滤波器参数及残余通常经量化以经由信道有效传输。在解码器处,根据滤波器参数所配置的合成滤波器由基于残余的信号而激励,以产生原始语音的经合成版本。合成滤波器通常经配置以具有传递函数,其为白化滤波器的传递函数的倒数。
图6展示窄带编码器A120的一基本实施方案A122的框图。在此实例中,线性预测编码(LPC)分析模块210将窄带信号S20的频谱包络编码为一组线性预测(LP)系数(例如,全极滤波器1/A(z)的系数)。分析模块通常将输入信号处理为一系列非重叠帧,其中针对每一帧计算一组新系数。帧周期通常为可预期信号在其内局部不变的周期;一实例为20毫秒(等于8kHz的取样速率时的160个样本)。在一实例中,LPC分析模块210经配置以计算一组十个LP滤波器系数,以表现每20毫秒帧的共振峰结构的特征。还可能实施分析模块以将输入信号处理为一系列重叠帧。
分析模块可经配置以直接分析每一帧的样本,或样本可根据开窗函数(例如汉明窗口)而被首先加权。还可在大于帧的窗口(例如30毫秒的窗口)内执行分析。此窗口可为对称的(例如5-20-5,使得紧接在20毫秒帧之前及之后,其包括5毫秒)或非对称的(例如10-20,使得其包括前一帧的最后10毫秒)。LPC分析模块通常经配置以使用理文森杜宾(Levinson-Durbin)递归或莱罗克斯古伊古恩(Leroux-Gueguen)算法来计算LP滤波器系数。在另一实施方案中,分析模块可经配置以针对每一帧计算一组倒频谱系数而并非一组LP滤波器系数。
通过量化滤波器参数,编码器A120的输出速率可显著降低,同时对再现质量具有相对较少影响。线性预测滤波器系数难以有效量化且通常映射为用于量化及/或熵编码的另一表示,例如线频谱对(LSP)或线频谱频率(LSF)。在图6的实例中,LP滤波器系数到LSF变换220将所述组LP滤波器系数变换为一组对应的LSF。LP滤波器系数的其它一对一表示包括:部分自相关系数;对数面积比(log-area-ratio)值;导抗频谱对(ISP);及导抗频谱频率(ISF),以上均用于GSM(全球移动通信系统)AMR-WB(自适应多速率宽带)编解码器。通常,一组LP滤波器系数与一组对应的LSF之间的变换为可逆的,但是配置还包括编码器A120的实施方案,其中变换不能无误差地可逆。
量化器230经配置以量化所述组窄带LSF(或其它系数表示),且窄带编码器A122经配置以将此量化结果作为窄带滤波器参数S40输出。所述量化器通常包括向量量化器,其将输入向量编码为表或码簿中的对应向量条目的索引。
如图6中所见,窄带编码器A122还通过使窄带信号S20通过白化滤波器260(还称为分析或预测误差滤波器)来产生残余信号,所述白化滤波器260根据所述组滤波器系数而配置。在此特定实例中,虽然还可使用IIR实施方案,但白化滤波器260被实施为FIR滤波器。此残余信号通常将含有语音帧的感知上重要的信息(例如关于音高的长期结构),其未表示在窄带滤波器参数S40中。量化器270经配置以计算此残余信号的经量化表示以作为经编码窄带激励信号S50而输出。所述量化器通常包括向量量化器,其将输入向量编码为表或码簿中的对应向量条目的索引。或者,所述量化器可经配置以发送一个或一个以上参数,可在解码器处从所述参数动态产生向量,而并非如稀疏码簿方法中那样从存储装置检索。所述方法用于例如代数CELP(码簿激励线性预测)的编码方案中及例如3GPP2(第三代合作伙伴2)EVRC(增强型可变速率编解码器)的编解码器中。
需要窄带编码器A120根据将可用于对应窄带解码器的相同滤波器参数值来产生经编码窄带激励信号。以此方式,所得经编码窄带激励信号可已在某种程度上计及在所述参数值中的非理想性,例如量化误差。因此,需要使用将可用于解码器处的相同系数值来配置白化滤波器。在如图6中所示的编码器A122的基本实例中,逆量化器240将窄带编码参数S40去量化,LSF到LP滤波器系数变换250将所得值映射回一组对应的LP滤波器系数,且将此组系数用于配置白化滤波器260以产生由量化器270量化的残余信号。
窄带编码器A120的一些实施方案经配置以通过识别一组码簿向量中的最匹配残余信号的向量来计算经编码窄带激励信号S50。然而,注意到,窄带编码器A120还可经实施以计算残余信号的经量化表示,而实际上并不产生残余信号。举例来说,窄带编码器A120可经配置以使用许多码簿向量来产生对应的经合成信号(例如,根据一组当前滤波器参数),且在感知加权域中选择最匹配原始窄带信号S20的与所产生信号相关联的码簿向量。
图7展示窄带解码器B110的一实施方案B112的框图。逆量化器310将窄带滤波器参数S40去量化(在此情况下,去量化为一组LSF),且LSF到LP滤波器系数变换320将LSF变换为一组滤波器系数(例如,如上文参看窄带编码器A122的逆量化器240及变换250所描述)。逆量化器340将窄带残余信号S40去量化以产生窄带激励信号S80。基于滤波器系数及窄带激励信号S80,窄带合成滤波器330合成窄带信号S90。换句话说,窄带合成滤波器330经配置以根据所述经去量化的滤波器系数来频谱成形窄带激励信号S80,以产生窄带信号S90。窄带解码器B112还将窄带激励信号S80提供到高带编码器A200,所述高带编码器A200使用激励信号S80而得出如本文中所述的高带激励信号S120。在如下文所描述的一些实施方案中,窄带解码器B110可经配置以将与窄带信号相关的额外信息(例如频谱倾斜、音高增益及滞后及语音模式)提供到高带解码器B200。
窄带编码器A122及窄带解码器B112的系统为分析合成语音编解码器(analysis-by-synthesis speech codec)的一基本实例。码簿激励线性预测(CELP)编码为一系列普遍的分析合成编码,且所述编码器的实施方案可执行残余的波形编码,包括例如从固定及自适应码簿选择条目,误差最小化操作及/或感知加权操作的所述操作。分析合成编码的其它实施方案包括混合激励线性预测(MELP)、代数CELP(ACELP)、松弛CELP(RCELP)、规则脉冲激励(RPE)、多脉冲CELP(MPE)及向量和激励线性预测(VSELP)编码。相关编码方法包括多带激励(MBE)及原型波形内插(PWI)编码。标准化分析合成语音编解码器的实例包括:ETSI(欧洲电信标准协会)-GSM全速率编解码器(GSM06.10),其使用残余激励线性预测(RELP);GSM增强型全速率编解码器(ETSI-GSM06.60);ITU(国际电信联合会)标准11.8kb/sG.729附件E编码器;用于IS-136(时分多址方案)的IS(临时标准)-641编解码器;GSM自适应多速率(GSM-AMR)编解码器及4GVTM(第四代声码器TM)编解码器(高通公司(QUALCOMMIncorporated),加利福尼亚,圣地亚哥(San Diego,CA))。可根据所述技术中的任一技术,或将语音信号表示为(A)描述滤波器的一组参数及(B)用于驱动所描述滤波器再现语音信号的激励信号的任何其它语音编码技术(无论已知的还是待研发的)来实施窄带编码器A120及对应解码器B110。
即使在白化滤波器已从窄带信号S20移除粗略频谱包络之后,仍可保留相当量的精细谐波结构(尤其对有声语音来说)。图8a展示例如元音的有声信号的残余信号(如可由白化滤波器产生)的一实例的频谱曲线。在此实例中可见的周期性结构与音高相关,且由相同说话者所说的不同有声声音可具有不同共振峰结构但具有类似音高结构。图8b展示所述残余信号的一实例的时域曲线,其按时间展示音高脉冲的序列。
可通过使用一个或一个以上参数值来编码音高结构的特征而增加编码效率及/或语音质量。音高结构的一重要特征为第一谐波的频率(还称为基础频率),其通常在60Hz到400Hz的范围内。通常将此特征编码为基础频率的倒数(还称为音高滞后)。音高滞后指示在一音高周期中的样本数目且可被编码为一个或一个以上码簿索引。来自男性说话者的语音信号倾向于比来自女性说话者的语音信号具有更大音高滞后。
关于音高结构的另一信号特征为周期性,其指示谐波结构的强度,或换句话说,信号为谐波或非谐波的程度。周期性的两个典型标志为零交叉及规范化自相关函数(NACF)。周期性还可由音高增益来指示,音高增益被编码为码簿增益(例如,经量化的自适应码簿增益)。
窄带编码器A120可包括经配置以编码窄带信号S20的长期谐波结构的一个或一个以上模块。如图9中所示,可使用的一典型CELP范例包括开环LPC分析模块,其编码短期特征或粗略频谱包络,接着为闭环长期预测分析阶段,其编码精细音高或谐波结构。短期特征被编码为滤波器系数,且长期特征被编码为例如音高滞后及音高增益的参数值。举例来说,窄带编码器A120可经配置而以包括一个或一个以上码簿索引(例如,固定码簿索引及自适应码簿索引)及对应增益值的形式输出经编码窄带激励信号S50。对窄带残余信号的此经量化表示的计算(例如,由量化器270进行)可包括选择所述索引及计算所述值。对音高结构的编码还可包括内插音高原型波形,此操作可包括计算在连续音高脉冲之间的差。针对对应于无声语音(其通常像噪声且未结构化)的帧,可停用对长期结构的模型化。
根据如图9中所示的范例的窄带解码器B110的实施方案可经配置以在已恢复长期结构(音高或谐波结构)之后,将窄带激励信号S80输出到高带解码器B200。举例来说,所述解码器可经配置以将窄带激励信号S80输出为经编码窄带激励信号S50的经去量化版本。当然,还可能实施窄带解码器B110,使得高带解码器B200执行经编码窄带激励信号S50的去量化,以获得窄带激励信号S80。
在根据如图9中所示的一范例的宽带语音编码器A100的实施方案中,高带编码器A200可经配置以接收由短期分析或白化滤波器所产生的窄带激励信号。换句话说,窄带编码器A120可经配置以在编码长期结构之前,将窄带激励信号输出到高带编码器A200。然而,需要高带编码器A200从窄带信道接收将由高带解码器B200接收的相同的编码信息,使得由高带编码器A200所产生的编码参数可以在某种程度上计及所述信息中的非理想性。因此,使高带编码器A200从待由宽带语音编码器A100输出的同样经参数化及/或经量化的所编码窄带激励信号S50重构窄带激励信号S80可能为优选的。此方法的一潜在优势在于可更准确地计算下文描述的高带增益因子S60b。
除表现窄带信号S20的短期及/或长期结构的特征的参数之外,窄带编码器A120可产生关于窄带信号S20的其它特征的参数值。这些值(可经适当量化以由宽带语音编码器A100输出)可包括于窄带滤波器参数S40中或被单独输出。高带编码器A200还可经配置以根据这些额外参数中的一者或一者以上来计算高带编码参数S60(例如,在去量化之后)。在宽带语音解码器B100处,高带解码器B200可经配置以经由窄带解码器B110接收参数值(例如,在去量化之后)。或者,高带解码器B200可经配置以直接接收(或可能去量化)参数值。
在额外窄带编码参数的一实例中,窄带编码器A120产生频谱倾斜值及每一帧的语音模式参数。频谱倾斜与通带上的频谱包络的形状相关,且通常由经量化的第一反射系数表示。对大多数有声声音来说,频谱能量随频率增加而降低,使得第一反射系数为负且可接近-1。大多数无声声音具有为平坦(使得第一反射系数接近零)或在高频率处具有更多能量(使得第一反射系数为正且可接近+1)的频谱。
语音模式(还称为发声模式)指示当前帧表示有声语音还是无声语音。此参数可具有二进制值,所述值基于帧的周期性(例如零交叉、NACF、音高增益)及/或语音有效性的一个或一个以上量度,例如所述量度与阈值之间的关系。在其它实施方案中,语音模式参数具有一个或一个以上其它状态,以指示例如静默或背景噪声,或静默与有声语音之间的过渡的模式。
高带编码器A200经配置以根据源-滤波器模型来编码高带信号S30,其中用于此滤波器的激励是基于经编码窄带激励信号。图10展示高带编码器A200的一实施方案A202的框图,其经配置以产生高带编码参数S60的流,所述参数包括高带滤波器参数S60a及高带增益因子S60b。高带激励产生器A300从经编码窄带激励信号S50得出高带激励信号S120。分析模块A210产生表现高带信号S30的频谱包络的特征的一组参数值。在此特定实例中,分析模块A210经配置以执行LPC分析,以针对高带信号S30的每一帧产生一组LP滤波器系数。线性预测滤波器系数到LSF变换410将所述组LP滤波器系数变换为一组对应的LSF。如上文参看分析模块210及变换220所所述,分析模块A210及/或变换410可经配置以使用其它系数组(例如,倒频谱系数)及/或系数表示(例如,ISP)。
量化器420经配置以量化所述组高带LSF(或其它系数表示,例如ISP),且高带编码器A202经配置以将此量化结果输出为高带滤波器参数S60a。所述量化器通常包括将输入向量编码为表或码簿中的对应向量条目的索引的向量量化器。
高带编码器A202还包括合成滤波器A220,其经配置以根据高带激励信号S120及由分析模块A210产生的编码频谱包络(例如,所述组LP滤波器系数)来产生经合成高带信号S130。虽然还可使用FIR实施,但合成滤波器A220通常被实施为IIR滤波器。在一特定实例中,合成滤波器A220被实施为六阶线性自回归滤波器。
高带增益因子计算器A230计算在原始高带信号S30的电平与经合成高带信号S130的电平之间的一个或一个以上差,以指定用于帧的增益包络。量化器430(其可实施为将输入向量编码为表或码簿中的对应向量条目的索引的向量量化器)量化指定增益包络的值,且高带编码器A202经配置以将此量化结果输出为高带增益因子S60b。
在图10中所示的一实施方案中,合成滤波器A220经布置以接收来自分析模块A210的滤波器系数。高带编码器A202的替代实施方案包括经配置以从高带滤波器参数S60a解码滤波器系数的逆量化器及逆变换,且在此情况下,替代地,合成滤波器A220经布置以接收经解码的滤波器系数。所述替代布置可支持高带增益计算器A230对增益包络进行更准确的计算。
在一特定实例中,分析模块A210及高带增益计算器A230分别输出每帧一组六个LSF与一组五个增益值,使得利用每帧11个额外值可实现窄带信号S20的宽带扩展。人耳倾向于对在高频率处的频率误差较不敏感,使得在较低LPC阶处的高带编码可产生具有可与在较高LPC阶处的窄带编码相当的感知质量的信号。高带编码器A200的一典型实施方案可经配置以输出每帧8到12位以用于频谱包络的高质量重构,且输出每帧另外8到12位以用于时间包络的高质量重构。在另一特定实例中,分析模块A210输出每帧一组8个LSF。
高带编码器A200的一些实施方案经配置以通过产生具有高带频率分量的随机噪声信号且根据窄带信号S20、窄带激励信号S80或高带信号S30的时域包络来振幅调制噪声信号而产生高带激励信号S120。虽然所述基于噪声的方法可对于无声声音产生适当结果,然而,其对于有声声音可并不合乎需要,所述有声声音的残余通常为谐波的且因此具有一些周期结构。
高带激励产生器A300经配置以通过将窄带激励信号S80的频谱扩展到高带频率范围内来产生高带激励信号S120。图11展示高带激励产生器A300的一实施方案A302的框图。逆量化器450经配置以将经编码窄带激励信号S50去量化以产生窄带激励信号S80。频谱扩展器A400经配置以基于窄带激励信号S80而产生谐波扩展信号S160。组合器470经配置以组合由噪声产生器480所产生的随机噪声信号及由包络计算器460所计算的时域包络,以产生经调制噪声信号S170。组合器490经配置以混合谐波扩展信号S60与经调制噪声信号S170以产生高带激励信号S120。
在一实例中,频谱扩展器A400经配置以对窄带激励信号S80执行频谱折叠操作(还称为镜射),以产生谐波扩展信号S160。频谱折叠可通过零塞入激励信号S80且接着应用高通滤波器以保留假信号来执行。在另一实例中,频谱扩展器A400经配置以通过将窄带激励信号S80频谱转化为高带(例如,经由升取样,接着与恒定频率余弦信号相乘)来产生谐波扩展信号S160。
频谱折叠及转化方法可产生频谱扩展信号,其谐波结构与窄带激励信号S80的原始谐波结构在相位及/或频率方面不连续。举例来说,所述方法可产生峰值通常不位于基础频率倍数处的信号,此可在经重构的语音信号中导致金属音(tinny-sounding)伪影。所述方法还倾向于产生具有非自然强音调特征的高频率谐波。此外,因为PSTN信号可以8kHz取样但频带限制于不超过3400Hz,所以窄带激励信号S80的上部频谱可含有少量能量或无能量,使得根据频谱折叠或频谱转化操作而产生的经扩展信号可具有在3400Hz之上的频谱空洞。
产生谐波扩展信号S160的其它方法包括识别窄带激励信号S80的一个或一个以上基础频率及根据所述信息产生谐波音调。举例来说,激励信号的谐波结构的特征可为基础频率连同振幅及相位信息。高带激励产生器A300的另一实施方案基于基础频率及振幅(如例如由音高滞后及音高增益来指示)来产生谐波扩展信号S160。然而,除非谐波扩展信号与窄带激励信号S80相位相干,否则所得经解码语音的质量可能为不可接受的。
非线性函数可用于产生与窄带激励相位相干且保留谐波结构而无相位不连续性的高带激励信号。非线性函数还可在高频率谐波之间提供增加的噪声电平,其倾向于比由例如频谱折叠及频谱转化的方法产生的高频率音调谐波听起来更自然。可由频谱扩展器A400的各种实施方案应用的典型无记忆非线性函数包括绝对值函数(还称为全波整流)、半波整流、平方、立方及截割。频谱扩展器A400的其它实施方案可经配置以应用具有记忆的非线性函数。
图12为频谱扩展器A400的一实施方案A402的框图,其经配置以应用非线性函数以扩展窄带激励信号S80的频谱。升取样器510经配置以升取样窄带激励信号S80。可能需要充分升取样所述信号以最小化在应用非线性函数时的假信号。在一特定实例中,升取样器510以因子8来升取样信号。升取样器510可经配置以通过对输入信号零塞入及低通滤波所述结果来执行升取样操作。非线性函数计算器520经配置以将非线性函数应用于经升取样的信号。绝对值函数相比于用于频谱扩展的其它非线性函数(例如平方)的潜在优势为其不需要能量规范化。在一些实施方案中,通过除去或清除每一样本的符号位,可有效应用绝对值函数。非线性函数计算器520还可经配置以对经升取样或频谱扩展的信号执行振幅弯曲(amplitude warping)。
降取样器530经配置以降取样应用非线性函数的频谱扩展结果。可能需要降取样器530在降低取样速率之前执行带通滤波操作以选择频谱扩展信号的所要频带(例如,以减小或避免由不当图像造成的假信号或恶化)。还可能需要降取样器530在一个以上阶段中降低取样速率。
图12a为展示在频谱扩展操作的一实例中各点处的信号频谱的图,其中频率比例在各个曲线上相同。曲线(a)展示窄带激励信号S80的一实例的频谱。曲线(b)展示信号S80在以因子8升取样之后的频谱。曲线(c)展示在应用非线性函数之后的扩展频谱的一实例。曲线(d)展示在低通滤波之后的频谱。在此实例中,通带扩展到高带信号S30的频率上限(例如,7kHz或8kHz)。
曲线(e)展示在降取样的第一阶段之后的频谱,其中以因子4降低取样速率以获得宽带信号。曲线(f)展示在进行高通滤波操作以选择经扩展信号的高带部分之后的频谱,且曲线(g)展示在降取样的第二阶段之后的频谱,其中以因子2降低取样速率。在一特定实例中,降取样器530通过使宽带信号通滤波波器组A112的高通滤波器130及降取样器140(或具有相同响应的其它结构或例行程序)来执行高通滤波及降取样的第二阶段,以产生具有高带信号S30的频率范围及取样速率的频谱扩展信号。
如在曲线(g)中所见,在曲线(f)中展示的高通信号的降取样引起其频谱反转。在此实例中,降取样器530还经配置以对信号执行频谱翻转(spectral flipping)操作。曲线(h)展示应用频谱翻转操作的结果,所述频谱翻转操作可通过使信号与函数ejnπ或序列(-1)n(其值在+1与-1之间交替)相乘而执行。所述操作等同于在频域中将信号的数字频谱移位π的距离。注意到,相同结果还可通过以不同顺序应用降取样操作及频谱翻转操作而获得。升取样及/或降取样的操作还可经配置以包括重取样,以获得具有高带信号S30的取样速率(例如,7kHz)的频谱扩展信号。
如上文所述,滤波器组A110及B120可经实施以使得窄带信号S20及高带信号S30中的一或两者在滤波器组A110的输出处具有频谱反转形式,以频谱反转形式被编码及解码,且在宽带语音信号S110中输出之前再次在滤波器组B120处被频谱反转。当然,在所述情况下,因为将需要高带激励信号S120同样具有频谱反转形式,所以可不实施如图12a中所示的频谱翻转操作。
由频谱扩展器A402执行的频谱扩展操作的升取样及降取样的各种任务可以许多不同方式加以配置及布置。举例来说,图12b为展示频谱扩展操作的另一实例中各个点处的信号频谱的图,其中频率比例在各个曲线上相同。曲线(a)展示窄带激励信号S80的一实例的频谱。曲线(b)展示信号S80在以因子2升取样之后的频谱。曲线(c)展示在应用非线性函数之后的经扩展频谱的一实例。在此情况下,接受可能出现在较高频率中的假信号。
曲线(d)展示在频谱反转操作之后的频谱。曲线(e)展示在单阶段降取样之后的频谱,其中以因子2降低取样速率以获得所要频谱扩展信号。在此实例中,信号为频谱反转形式且可用于以所述形式处理高带信号S30的高带编码器A200的一实施方案中。
由非线性函数计算器520产生的频谱扩展信号的振幅可能会随着频率增加而明显下降。频谱扩展器A402包括频谱平化器540,其经配置以对经降取样信号执行白化操作。频谱平化器540可经配置以执行固定白化操作或执行自适应白化操作。在自适应白化的一特定实例中,频谱平化器540包括:LPC分析模块,其经配置以从经降取样信号计算一组四个滤波器系数;及四阶分析滤波器,其经配置以根据所述系数来白化所述信号。频谱扩展器A400的其它实施方案包括其中频谱平化器540在降取样器530之前对频谱扩展信号进行操作的配置。
高带激励产生器A300可经实施以将谐波扩展信号S160输出为高带激励信号S120。然而,在一些情况下,将谐波扩展信号用作高带激励可导致可听伪影。语音的谐波结构在高带中通常没有在低带中明显,且在高带激励信号中使用过多谐波结构可导致嗡嗡声。此伪影可在来自女性说话者的语音信号中尤为明显。
配置包括经配置以将谐波扩展信号S160与噪声信号混合的高带激励产生器A300的实施方案。如图11中所示,高带激励产生器A302包括噪声产生器480,其经配置以产生随机噪声信号。在一实例中,噪声产生器480经配置以产生单位方差白伪随机噪声信号,但在其它实施中噪声信号无需白化且可具有随频率变化的功率密度。可能需要噪声产生器480经配置以将噪声信号输出为确定性函数,使得其状态可在解码器处被复制。举例来说,噪声产生器480可经配置以将噪声信号输出为相同帧内较早编码的信息(例如窄带滤波器参数S40及/或经编码窄带激励信号S50)的确定性函数。
在与谐波扩展信号S160混合之前,由噪声产生器480产生的随机噪声信号可经振幅调制以具有时域包络,所述时域包络近似于窄带信号S20、高带信号S30、窄带激励信号S80或谐波扩展信号S160的时间上的能量分布。如图11中所示,高带激励产生器A302包括组合器470,其经配置以根据由包络计算器460计算出的时域包络来振幅调制由噪声产生器480产生的噪声信号。举例来说,组合器470可被实施为乘法器,其经布置以根据由包络计算器460计算出的时域包络来按比例调整噪声产生器480的输出,以产生经调制噪声信号S170。
在高带激励产生器A302的一实施方案A304中(如图13的框图中所示),包络计算器460经布置以计算谐波扩展信号S160的包络。在高带激励产生器A302的实施方案A306中(如图14的框图中所示),包络计算器460经布置以计算窄带激励信号S80的包络。高带激励产生器A302的另一实施方案可另外经配置以根据窄带音高脉冲在时间上的位置将噪声添加到谐波扩展信号S160。
包络计算器460可经配置以将包络计算执行为包括一系列子任务的任务。图15展示所述任务的一实例T100的流程图。子任务T110计算其包络待模型化的信号(例如,窄带激励信号S80或谐波扩展信号S160)的帧的每一样本的平方,以产生平方值的序列。子任务T120对所述平方值序列执行平滑操作。在一实例中,子任务T120根据以下表达式将一阶IIR低通滤波器应用于所述序列:
y(n)=ax(n)+(1-a)y(n-1), (1)
其中x为滤波器输入,y为滤波器输出,n为时域索引,且a为具有在0.5与1之间的值的平滑系数。平滑系数的值可为固定的,或在一替代实施方案中,所述值根据输入信号中噪声的指示可为自适应的,使得a在不存在噪声时较接近1且在存在噪声时较接近0.5。子任务T130将平方根函数应用于平滑化序列的每一样本以产生时域包络。
包络计算器460的此实施方案可经配置而以串行及/或并行方式来执行任务T100的各个子任务。在任务T100的另外实施方案中,子任务T110可在经配置以选择其包络待模型化的信号的所要频率部分(例如3kHz到4kHz的范围)的带通操作之后进行。
组合器490经配置以混合谐波扩展信号S160与经调制噪声信号S170以产生高带激励信号S120。组合器490的实施方案可经配置以(例如)将高带激励信号S120计算为谐波扩展信号S160与经调制噪声信号S170的和。组合器490的所述实施方案可经配置以在求和之前通过将加权因子施加于谐波扩展信号S160及/或经调制噪声信号S170来将高带激励信号S120计算为经加权和。每一所述加权因子可根据一个或一个以上准则加以计算且可为固定值或者替代地为以逐帧或逐子帧而计算出的自适应值。
图16展示组合器490的一实施方案492的框图,其经配置以将高带激励信号S120计算为谐波扩展信号S160与调制噪声信号S170的经加权和。组合器492经配置以根据谐波加权因子S180来对谐波扩展信号S160加权,根据噪声加权因子S190来对调制噪声信号S170加权,及将高带激励信号S120输出为经加权信号的和。在此实例中,组合器492包括加权因子计算器550,其经配置以计算谐波加权因子S180及噪声加权因子S190。
加权因子计算器550可经配置以根据高带激励信号S120中谐波含量与噪声含量的所要比率来计算加权因子S180及S190。举例来说,可能需要组合器492产生具有类似于高带信号S30的谐波能量与噪声能量的比率的谐波能量与噪声能量的比率的高带激励信号S120。在加权因子计算器550的一些实施方案中,加权因子S180、S190根据关于窄带信号S20或窄带残余信号的周期性的一个或一个以上参数(例如音高增益及/或语音模式)而进行计算。加权因子计算器550的所述实施方案可经配置以对(例如)谐波加权因子S180指派与音高增益成比例的值,及/或对用于无声语音信号的噪声加权因子S190指派一值,所述值高于用于有声语音信号的噪声加权因子的值。
在其它实施方案中,加权因子计算器550经配置以根据高带信号S30的周期性量度来计算谐波加权因子S180及/或噪声加权因子S190的值。在一个所述实例中,加权因子计算器550将谐波加权因子S180计算为用于当前帧或子帧的高带信号S30的自相关系数的最大值,其中自相关在包括一个音高滞后的延迟但不包括零样本的延迟的搜索范围内执行。图17展示具有n个样本的长度的此搜索范围的一实例,所述搜索范围以一个音高滞后的延迟为中心且具有不大于一个音高滞后的宽度。
图17还展示另一方法的实例,其中加权因子计算器550在若干阶段中计算高带信号S30的周期性量度。在第一阶段中,当前帧被分成许多子帧,且针对每一子帧单独识别自相关系数为最大值的延迟。如上所提及,自相关在包括一个音高滞后的延迟但不包括零样本的延迟的搜索范围内执行。
在第二阶段中,延迟帧通过将对应的所识别的延迟应用于每一子帧,级联所得子帧以构造最佳延迟帧,且将谐波加权因子S180计算为在原始帧与最佳延迟帧之间的相关系数而构造。在另一替代例中,加权因子计算器550将谐波加权因子S180计算为在第一阶段中针对每一子帧获得的最大自相关系数的平均值。加权因子计算器550的实施方案还可经配置以按比例调整相关系数及/或将其与另一值组合以计算谐波加权因子S180的值。
在以其它方式指示在帧中存在周期性的情况下,可能需要加权因子计算器550来计算高带信号S30的周期性量度。举例来说,加权因子计算器550可经配置以根据在当前帧的周期性的另一指示(例如音高增益)与阈值之间的关系来计算高带信号S30的周期性量度。在一实例中,加权因子计算器550经配置以在帧的音高增益(例如,窄带残余的自适应码簿增益)具有大于0.5(或至少为0.5)的值的情况下对高带信号S30执行自相关操作。在另一实例中,加权因子计算器550经配置以针对具有语音模式的特定状态的帧(例如,有声信号)而对高带信号S30执行自相关操作。在所述情形下,加权因子计算器550可经配置以对具有语音模式的其它状态及/或较低的音高增益值的帧指派默认加权因子。
配置包括经配置以根据不同于周期性的特征或除周期性之外的特征来计算加权因子的加权因子计算器550的其它实施方案。举例来说,所述实施方案可经配置以对具有较大音高滞后的语音信号的噪声增益因子S190指派一值,所述值高于对具有较小音高滞后的语音信号的噪声增益因子指派的值。加权因子计算器550的另一此实施方案经配置以根据在基础频率的倍数处的信号能量相对于在其它频率分量处的信号能量的量度来确定宽带语音信号S10或高带信号S30的谐波性量度。
宽带语音编码器A100的一些实施方案经配置以基于本文中所描述的音高增益及/或另一周期性或谐波性量度来输出周期性或谐波性的指示(例如,指示帧为谐波还是非谐波的一位旗标)。在一实例中,对应宽带语音解码器B100使用此指示以配置例如加权因子计算的操作。在另一实例中,所述指示在编码器及/或解码器处用于计算语音模式参数值。
可能需要高带激励产生器A302产生高带激励信号S120,使得激励信号的能量大体上不受加权因子S180及S190的特定值的影响。在所述情形下,加权因子计算器550可经配置以计算谐波加权因子S180或噪声加权因子S190的值(或接收来自高带编码器A200的存储装置或另一元件的所述值),且根据如下表达式得出另一加权因子值:
(W谐波)2+(W噪声)2=1, (2)
其中W谐波表示谐波加权因子S180,且W噪声表示噪声加权因子S190。或者,加权因子计算器550可经配置以根据当前帧或子帧的周期性量度的值来选择在多对加权因子S180、S190中的一对应对,其中所述对经预先计算以满足例如表达式(2)的恒定能量比。对于其中观察到表达式(2)的加权因子计算器550的一实施方案来说,谐波加权因子S180的典型值在约0.7到约1.0的范围内,且噪声加权因子S190的典型值在约0.1到约0.7的范围内。加权因子计算器550的其它实施方案可经配置以根据表达式(2)的一版本而操作,所述版本是根据在谐波扩展信号S160与调制噪声信号S170之间的所要基线加权而修改得出。
当将稀疏码簿(其条目大多为零值)用于计算残余的经量化表示时,在经合成语音信号中可能出现伪影。码簿稀疏尤其会在以低位速率编码窄带信号时发生。由码簿稀疏引起的伪影通常在时间上为类周期性的,且大多发生在3kHz以上。因为人耳在较高频率时具有较佳时间分辨率,所以这些伪影在高带中可能更显著。
配置包括经配置以执行反稀疏滤波的高带激励产生器A300的实施方案。图18展示高带激励产生器A302的一实施方案A312的框图,其包括反稀疏滤波器600,所述反稀疏滤波器600经布置以滤波由逆量化器450产生的经去量化窄带激励信号。图19展示高带激励产生器A302的一实施方案A314的框图,其包括反稀疏滤波器600,所述反稀疏滤波器600经布置以滤波由频谱扩展器A400产生的频谱扩展信号。图20展示高带激励产生器A302的一实施方案A316的框图,其包括反稀疏滤波器600,所述反稀疏滤波器600经布置以滤波组合器490的输出以产生高带激励信号S120。当然,还涵盖且在本文中明确揭示将实施方案A304及A306中的任一者的特征与实施方案A312、A314及A316中的任一者的特征组合在一起的高带激励产生器A300的实施方案。反稀疏滤波器600还可布置于频谱扩展器A400内:举例来说,在频谱扩展器A402中的元件510、520、530及540的任一者之后。明确注意到,反稀疏滤波器600还可与执行频谱折叠、频谱转化或谐波扩展的频谱扩展器A400的实施方案一起使用。
反稀疏滤波器600可经配置以改变其输入信号的相位。举例来说,可能需要反稀疏滤波器600经配置及布置以使得高带激励信号S120的相位在时间上被随机化,或者被更平均地分布。还可能需要反稀疏滤波器600的响应是频谱上平坦的,使得经滤波的信号的量值频谱并未明显改变。在一实例中,反稀疏滤波器600被实施为具有根据以下表达式的传递函数的全通滤波器:
此滤波器的一作用在于可展开输入信号的能量,使得其不再集中于较少样本中。
由码簿稀疏性引起的伪影通常对于类噪声信号更显著,其中残余包括较少音高信息,且对于背景噪声中的语音也如此。在激励具有长期结构的情况下,稀疏通常引起较少伪影,且实际上相位修改可引起在有声信号中的噪声。因此,可能需要配置反稀疏滤波器600以滤波无声信号且使至少一些有声信号在不发生改变的情况下通过。无声信号的特征在于低音高增益(例如,经量化的窄带自适应码簿增益)及接近零或为正的频谱倾斜(例如,经量化的第一反射系数),所述频谱倾斜指示频谱包络随频率增加为平坦或向上倾斜的。反稀疏滤波器600的典型实施方案经配置以滤波无声声音(例如,如由频谱倾斜的值所指示),在音高增益低于阈值(或不大于阈值)时滤波有声声音,且否则使信号在不发生改变的情况下通过。
反稀疏滤波器600的其它实施方案包括两个或两个以上滤波器,所述滤波器经配置以具有不同的最大相位修改角(例如,高达180度)。在所述情况下,反稀疏滤波器600可经配置以根据音高增益(例如,经量化自适应码簿或LTP增益)的值而在所述组成滤波器中进行选择,使得将较大的最大相位修改角用于具有较低音高增益值的帧。反稀疏滤波器600的一实施方案还包括不同的组成滤波器,其经配置以在频谱的或多或少的范围内修改相位,使得将经配置以在输入信号的较宽频率范围内修改相位的滤波器用于具有较低音高增益值的帧。
对于经编码语音信号的准确再现来说,可能需要在经合成宽带语音信号S100的高带部分的电平与窄带部分的电平之间的比率类似于在原始宽带语音信号S10中的比率。除了由高带编码参数S60a表示的频谱包络以外,高带编码器A200可经配置以通过指定时间或增益包络来表现高带信号S30的特征。如图10中所示,高带编码器A202包括高带增益因子计算器A230,其经配置及布置以根据在高带信号S30与经合成高带信号S130之间的关系(例如两个信号在一帧或其某部分内的能量之间的差或比率)来计算一个或一个以上增益因子。在高带编码器A202的其它实施方案中,高带增益计算器A230可经同样配置但经替代布置以根据在高带信号S30与窄带激励信号S80或高带激励信号S120之间的所述时变关系来计算增益包络。
窄带激励信号S80的时间包络与高带信号S30的时间包络可能为类似的。因此,编码基于高带信号S30与窄带激励信号S80(或自其得出的信号,例如高带激励信号S120或经合成高带信号S130)之间的关系的增益包络通常比编码基于高带信号S30的增益包络更有效。在一典型实施方案中,高带编码器A202经配置以输出对于每一帧指定五个增益因子的具有8到12位的经量化索引。
高带增益因子计算器A230可经配置以将增益因子计算执行为包括一个或一个以上系列的子任务的任务。图21展示所述任务的一实例T200的流程图,所述任务根据高带信号S30与经合成高带信号S130的相对能量来计算对应子帧的增益值。任务220a及220b计算相应信号的对应子帧的能量。举例来说,任务220a及220b可经配置以将所述能量计算为相应子帧的样本的平方的和。任务T230将子帧的增益因子计算为所述能量的比率的平方根。在此实例中,任务T230将增益因子计算为在子帧内高带信号S30的能量与经合成高带信号S130的能量的比率的平方根。
可能需要高带增益因子计算器A230经配置以根据开窗函数来计算子帧能量。图22展示增益因子计算任务T200的所述实施方案T210的流程图。任务T215a将开窗函数应用于高带信号S30,且任务T215b将相同开窗函数应用于经合成高带信号S130。任务220a及220b的实施方案222a及222b计算相应窗口的能量,且任务T230将子帧的增益因子计算为能量比率的平方根。
可能需要应用覆盖相邻子帧的开窗函数。举例来说,产生可以覆盖相加方式应用的增益因子的开窗函数可有助于减少或避免子帧之间的不连续性。在一实例中,高带增益因子计算器A230经配置以应用如图23a中所示的梯形开窗函数,其中所述窗口重叠两个相邻子帧的中每一者达1毫秒。图23b展示将此开窗函数应用到20毫秒帧的五个子帧中的每一者。高带增益因子计算器A230的其它实施方案可经配置以应用具有不同重叠周期及/或可为对称或不对称的不同窗口形状(例如矩形、汉明)的开窗函数。高带增益因子计算器A230的一实施方案还可能经配置以将不同开窗函数应用于一帧内的不同子帧,及/或一帧也可能包括具有不同长度的子帧。
在无限制的情况下,将以下值表示为特定实施方案的实例。虽然可使用任何其它持续时间,但对于这些情况采用20毫秒的帧。对以7kHz取样的高带信号来说,每一帧均具有140个样本。如果将所述帧划分为长度相等的五个子帧,则每一子帧将具有28个样本,且如图23a中所示的窗口将为42个样本宽。对于以8kHz取样的高带信号来说,每一帧均具有160个样本。如果将所述帧划分为长度相等的五个子帧,则每一子帧将具有32个样本,且如图23a中所示的窗口将为48个样本宽。在其它实施方案中,可使用任何宽度的子帧,且高带增益计算器A230的一实施方案甚至可能经配置以针对一帧的每一样本产生不同的增益因子。
图24展示高带解码器B200的一实施方案B202的框图。高带解码器B202包括高带激励产生器B300,其经配置以基于窄带激励信号S80产生高带激励信号S120。视特定系统设计选择而定,高带激励产生器B300可根据如本文中所描述的高带激励产生器A300的任一实施方案而加以实施。通常需要将高带激励产生器B300实施为与特定编码系统的高带编码器的高带激励产生器具有相同的响应。然而,因窄带解码器B110通常将执行经编码窄带激励信号S50的去量化,所以在大多数情况下,高带激励产生器B300可经实施以接收来自窄带解码器B110的窄带激励信号S80,且无需包括经配置以去量化经编码窄带激励信号S50的逆量化器。窄带解码器B110还可能经实施以包括反稀疏滤波器600的一实例,所述反稀疏滤波器600经布置以在经去量化窄带激励信号被输入到窄带合成滤波器(例如滤波器330)之前对其进行滤波。
逆量化器560经配置以对高带滤波器参数S60a进行去量化(在此实例中,去量化为一组LSF),且LSF到LP滤波器系数变换570经配置以将LSF变换为一组滤波器系数(例如,如上文参看窄带编码器A122的逆量化器240及变换250所描述)。如上文所提及,在其它实施方案中,可使用不同系数组(例如,倒频谱系数)及/或系数表示(例如,ISP)。高带合成滤波器B200经配置以根据高带激励信号S120及所述组滤波器系数来产生经合成高带信号。对于其中高带编码器包括合成滤波器的系统来说(例如,如在上文所描述的编码器A202的实例中),可能需要将高带合成滤波器B200实施为与所述合成滤波器具有相同响应(例如,相同传递函数)。
高带解码器B202还包括:逆量化器580,其经配置以去量化高带增益因子S60b;及增益控制元件590(例如,乘法器或放大器),其经配置及布置以将经去量化增益因子应用于经合成高带信号,以产生高带信号S100。对其中帧的增益包络由一个以上增益因子指定的情况来说,增益控制元件590可包括逻辑,所述逻辑经配置以可能根据与由对应高带编码器的增益计算器(例如,高带增益计算器A230)所应用的开窗函数相同或不同的开窗函数将增益因子应用于相应子帧。在高带解码器B202的其它实施方案中,增益控制元件590经类似配置但经替代布置以将经经去量化增益因子应用于窄带激励信号S80或高带激励信号S120。
如上文所提及,可能需要在高带编码器及高带解码器中获得相同状态(例如,通过在编码期间使用经去量化值)。因此,在根据所述实施方案的编码系统中,可能需要确保在高带激励产生器A300及B300中的对应噪声产生器的状态相同。举例来说,所述实施方案的高带激励产生器A300及B300可经配置以使得噪声产生器的状态为已在相同帧内编码的信息(例如,窄带滤波器参数S40或其一部分及/或经编码窄带激励信号S50或其一部分)的确定性函数。
本文中所描述的元件的量化器中的一者或一者以上(例如,量化器230、420或430)可经配置以执行经分类向量量化。举例来说,所述量化器可经配置以基于已在窄带信道及/或高带信道中的相同帧内编码的信息来选择一组码簿中的一者。所述技术通常以牺牲额外码簿存储为代价来提供增加的编码效率。
如上文参看(例如)图8及图9所论述,在将粗略频谱包络从窄带语音信号S20移除之后,相当数量的周期结构可仍保留于残余信号中。举例来说,残余信号可含有时间上的约略周期脉冲或峰值的序列。所述结构(其通常与音高相关)尤其可能出现于有声语音信号中。对窄带残余信号的经量化表示的计算可包括根据由(例如)一个或一个以上码簿表示的长期周期性模型来编码此音高结构。
实际残余信号的音高结构可并非与周期性模型完全匹配。举例来说,残余信号可在音高脉冲的位置的规则性中包括小抖动,使得在帧中的连续音高脉冲之间的距离不完全相等且所述结构并不非常规则。所述不规则性倾向于降低编码效率。
窄带编码器A120的一些实施方案可经配置以通过在量化之前或量化期间将自适应时间弯曲应用于残余,或通过另外在经编码激励信号中包括自适应时间弯曲来执行音高结构的规则化。举例来说,所述编码器可经配置以选择或另外计算时间中弯曲的程度(例如,根据一个或一个以上感知加权及/或误差最小化准则),使得所得激励信号最佳符合长期周期性模型。音高结构的规则化由称为松弛码激励线性预测(RCELP)编码器的一子组CELP编码器而执行。
RCELP编码器通常经配置以将时间弯曲执行为自适应时间移位。此时间移位可为从负的若干毫秒到正的若干毫秒范围内的延迟,且其通常平滑地变化以避免可听不连续性。在一些实施方案中,所述编码器经配置以用分段形式来应用所述规则化,其中每一帧或子帧由对应固定时间移位而弯曲。在其它实施方案中,编码器经配置以将规则化应用为连续弯曲函数,使得帧或子帧根据音高周线(还称为音高轨线)而被弯曲。在一些情况下,编码器经配置以通过将移位应用于用于计算经编码激励信号的感知加权输入信号而在经编码激励信号中包括时间弯曲。
编码器计算经规则化及量化的经编码激励信号,且解码器对经编码激励信号去量化以获得用于合成经解码语音信号的激励信号。因此,经解码输出信号展现与通过规则化而包括于经编码激励信号中的变化的延迟相同的变化的延迟。通常,并无指定规则化量的信息被传输到解码器。
规则化倾向于使残余信号更易于编码,此改进来自长期预测器的编码增益,且因此提高整体编码效率,而通常不产生伪影。可能需要对有声帧执行规则化。举例来说,窄带编码器A124可经配置以移位具有长期结构的那些帧或子帧(例如有声信号)。甚至可能需要对包括音高脉冲能量的子帧执行规则化。RCELP编码器的现有实施方案包括如电信行业协会(TIA)IS-127中所描述的增强型可变速率编解码器(EVRC),及第三代合作伙伴项目2(3GPP2)可选模式声码器(SMV)。
不幸的是,规则化可对其中高带激励是从经编码窄带激励信号得到的宽带语音编码器造成问题(例如包括宽带语音编码器A100及宽带语音解码器B100的系统)。由于其从经时间弯曲的信号得到,所以高带激励信号通常将具有不同于原始高带语音信号的时间轮廓的时间轮廓。换句话说,高带激励信号将不再与原始高带语音信号同步。
在经弯曲高带激励信号与原始高带语音信号之间的时间未对准可引起若干问题。举例来说,经弯曲的高带激励信号可不再为根据从原始高带语音信号提取的滤波器参数而配置的合成滤波器提供合适源激励。结果,经合成高带信号可含有降低经解码宽带语音信号的感知质量的可听伪影。
时间未对准还可引起增益包络编码的无效率。如上文所提及,在窄带激励信号S80的时间包络与高带信号S30的时间包络之间可能存在相关性。通过根据在所述两个时间包络之间的关系来编码高带信号的增益包络,与直接编码增益包络相比,可实现编码效率的增加。然而,当经编码窄带激励信号经规则化时,可减弱此相关性。在窄带激励信号S80与高带信号S30之间的时间未对准可导致在高带增益因子S60b中出现波动,且编码效率可下降。
配置包括宽带语音编码方法,其根据包括于对应经编码窄带激励信号中的时间弯曲来执行高带语音信号的时间弯曲。所述方法的潜在优势包括改进经解码宽带语音信号的质量及/或改进编码高带增益包络的效率。
图25展示宽带语音编码器A100的一实施方案AD10的框图。编码器AD10包括窄带编码器A120的一实施方案A124,其经配置以在计算经编码窄带激励信号S50期间执行规则化。举例来说,窄带编码器A124可根据上文论述的RCELP实施方案中的一者或一者以上而被配置。
窄带编码器A124还经配置以输出指定所应用的时间弯曲程度的规则化数据信号SD10。对其中窄带编码器A124经配置以将固定时间移位应用于每一帧或子帧的各种情况来说,规则化数据信号SD10可包括一系列值,所述值将每一时间移位量指示为整数或非整数值(在样本、毫秒或一些其它时间增量方面)。对其中窄带编码器A124经配置以用其它方式修改帧或样本的其它序列的时间比例(例如,通过压缩一部分且扩展另一部分)的情况来说,规则化信息信号SD10可包括所述修改的对应描述,例如一组函数参数。在一特定实例中,窄带编码器A124经配置以将一帧划分为三个子帧且计算每一子帧的固定时间移位,使得规则化数据信号SD10指示经编码窄带信号的每一规则化帧的三个时间移位量。
宽带语音编码器AD10包括延迟线D120,其经配置以根据由输入信号指示的延迟量来推进或阻滞高带语音信号S30的部分,以产生经时间弯曲的高带语音信号S30a。在图25中所示的实例中,延迟线D120经配置以根据由规则化数据信号SD10指示的弯曲来对高带语音信号S30进行时间弯曲。以此方式,包括于经编码窄带激励信号S50中的相同量的时间弯曲也在分析之前被应用于高带语音信号S30的对应部分。虽然此实例将延迟线D120展示为与高带编码器A200分离的元件,但在其它实施方案中,延迟线D120经布置为高带编码器的部分。
高带编码器A200的另外实施方案可经配置以执行未弯曲高带语音信号S30的频谱分析(例如,LPC分析),且在计算高带增益参数S60b之前执行高带语音信号S30的时间弯曲。所述编码器可包括(例如)经布置以执行时间弯曲的延迟线D120的实施方案。然而,在所述情况下,基于未弯曲信号S30的分析的高带滤波器参数S60a可描述与高带激励信号S120在时间上未对准的频谱包络。
可根据适于将所要时间弯曲操作应用于高带语音信号S30的逻辑元件与存储元件的任何组合来配置延迟线D120。举例来说,延迟线D120可经配置以根据所要时间移位从缓冲器读取高带语音信号S30。图26a展示包括移位寄存器SR1的延迟线D120的所述实施方案D122的示意图。移位寄存器SR1为具有某长度m的缓冲器,其经配置以接收且存储高带语音信号S30的m个最近样本。值m至少等于所支持的最大正(或“推进”)与负(或“阻滞”)时间移位的和。使值m等于高带信号S30的帧或子帧的长度可为方便的。
延迟线D122经配置以从移位寄存器SR1的偏移位置OL输出经时间弯曲的高带信号S30a。偏移位置OL的定位根据由(例如)规则化数据信号SD10所指示的当前时间移位而围绕参考定位(零时间移位)变化。延迟线D122可经配置以支持相等推进及阻滞限制,或者另一选择为一限制大于另一限制以使得可在一方向上执行的移位大于在另一方向上执行的移位。图26a展示所支持的正时间移位大于负时间移位的特定实例。延迟线D122可经配置以一次输出一个或一个以上样本(例如,视输出总线宽度而定)。
具有多于若干毫秒的量值的规则化时间移位可在经解码信号中导致可听伪影。通常,由窄带编码器A124执行的规则化时间移位的量值将不超过若干毫秒,使得由规则化数据信号SD10指示的时间移位将受限制。然而,在所述情况下,可能需要配置延迟线D122以对正及/或负方向上的时间移位施加最大限制(例如,以遵守比由窄带编码器所施加的限制更苛刻的限制)。
图26b展示包括移位窗口SW的延迟线D122的一实施方案D124的示意图。在此实例中,偏移位置OL的定位由移位窗口SW所限制。虽然图26b展示其中缓冲器长度m大于移位窗口SW的宽度的情况,但还可实施延迟线D124以使得移位窗口SW的宽度等于m。
在其它实施方案中,延迟线D120可经配置以根据所要时间移位将高带语音信号S30写入到缓冲器。图27展示延迟线D120的所述实施方案D130的示意图,其包括经配置以接收及存储高带语音信号S30的两个移位寄存器SR2及SR3。延迟线D130经配置以根据如由(例如)规则化数据信号SD10指示的时间移位,将帧或子帧从移位寄存器SR2写入到移位寄存器SR3。移位寄存器SR3经配置为经布置以输出经时间弯曲高带信号S30的FIFO缓冲器。
在图27中展示的特定实例中,移位寄存器SR2包括帧缓冲器部分FB1及延迟缓冲器部分DB,且移位寄存器SR3包括帧缓冲器部分FB2、推进缓冲器部分AB及阻滞缓冲器部分RB。推进缓冲器AB与阻滞缓冲器RB的长度可相等,或一者可大于另一者,使得在一方向上所支持的位移大于另一方向上所支持的移位。延迟缓冲器DB及阻滞缓冲器部分RB可经配置以具有相同长度。或者,延迟缓冲器DB可比阻滞缓冲器RB更短,以计及用于将样本从帧缓冲器FB1传送到移位寄存器SR3的时间间隔,其可包括其它处理操作(例如在将样本存储到移位寄存器SR3之前,弯曲所述样本)。
在图27的实例中,帧缓冲器FB1经配置以具有与高带信号S30的一帧的长度相等的长度。在另一实例中,帧缓冲器FB1经配置以具有与高带信号S30的一子帧的长度相等的长度。在所述情况下,延迟线D130可经配置以包括将相同(例如,平均)延迟应用于待移位的帧的子帧的逻辑。延迟线D130还可包括对来自帧缓冲器FB1的值与待覆写于阻滞缓冲器RB或推进缓冲器AB中的值求平均的逻辑。在另一实例中,移位寄存器SR3可经配置以仅经由帧缓冲器FB1接收高带信号S30的值,且在所述情况下,延迟线D130可包括在写入到移位寄存器SR3的连续帧或子帧之间的间隙上进行内插的逻辑。在其它实施方案中,延迟线D130可经配置以在将来自帧缓冲器FB1的样本写入到移位寄存器SR3之前对其执行弯曲操作(例如,根据由规则化数据信号SD10描述的函数)。
可能需要延迟线D120应用基于(但并非相同于)由规则化数据信号SD10所指定的弯曲的时间弯曲。图28展示宽带语音编码器AD10的一实施方案AD12的框图,其包括延迟值映射器D110。延迟值映射器D110经配置以将由规则化数据信号SD10所指示的弯曲映射到经映射延迟值SD10a中。延迟线D120经布置以根据由经映射延迟值SD10a所指示的弯曲来产生经时间弯曲的高带语音信号S30a。
可预期由窄带编码器应用的时间移位随时间而平滑变化。因此,通常计算在语音帧期间应用于子帧的平均窄带时间移位,且根据此平均值来移位高带语音信号S30的对应帧就已足够。在一所述实例中,延迟值映射器D110经配置以计算每一帧的子帧延迟值的平均值,且延迟线D120经配置以将计算出的平均值应用于高带信号S30的对应帧。在其它实例中,可计算及应用在较短周期(例如两个子帧或一帧的一半)或较长周期(例如两个帧)内的平均值。在其中平均值为样本的非整数值的情况下,延迟值映射器D110可经配置以在将所述值输出到延迟线D120之前将其四舍五入为整数数目个样本。
窄带编码器A124可经配置以在经编码窄带激励信号中包括非整数数目个样本的规则化时间移位。在此情况下,可能需要延迟值映射器D110经配置以将窄带时间移位四舍五入为整数数目个样本,且可能需要延迟线D120将所述四舍五入的时间移位应用于高带语音信号S30。
在宽带语音编码器AD10的一些实施方案中,窄带语音信号S20的取样速率与高带语音信号S30的取样速率可不同。在所述情况下,延迟值映射器D110可经配置以调节在规则化数据信号SD10中所指示的时间移位量,以计及在窄带语音信号S20(或窄带激励信号S80)的取样速率与高带语音信号S30的取样速率之间的差值。举例来说,延迟值映射器D110可经配置以根据取样速率的比率来按比例调整时间移位量。在上文提及的一特定实例中,窄带语音信号S20以8kHz进行取样,且高带语音信号S30以7kHz进行取样。在此情况下,延迟值映射器D110经配置以将每一移位量乘以7/8。延迟值映射器D110的实施方案还可经配置以执行所述按比例调整操作连同如本文中所描述的整数四舍五入及/或时间移位平均运算。
在另外的实施方案中,延迟线D120经配置以用其它方式修改帧或样本的其它序列的时间比例(例如,通过压缩一部分且扩展另一部分)。举例来说,窄带编码器A124可经配置以根据例如音高周线或轨线的函数来执行规则化。在所述情况下,规则化数据信号SD10可包括所述函数的对应描述(例如一组参数),且延迟线D120可包括经配置以根据所述函数来弯曲高带语音信号S30的帧或子帧的逻辑。在其它实施方案中,延迟值映射器D110经配置以在函数由延迟线D120应用于高带语音信号S30之前对所述函数求平均值、按比例调整及/或四舍五入。举例来说,延迟值映射器D110可经配置以根据所述函数计算一个或一个以上延迟值,每一延迟值指示许多样本,所述样本接着由延迟线D120应用以对高带语音信号S30的一个或一个以上对应帧或子帧进行时间弯曲。
图29展示根据包括于对应编码窄带激励信号中的时间弯曲来对高带语音信号进行时间弯曲的方法MD100的流程图。任务TD100处理宽带语音信号以获得窄带语音信号及高带语音信号。举例来说,任务TD100可经配置以使用具有低通滤波器及高通滤波器的滤波器组(例如滤波器组A110的一实施方案)来滤波宽带语音信号。任务TD200将窄带语音信号编码为至少一经编码窄带激励信号及多个窄带滤波器参数。经编码窄带激励信号及/或滤波器参数可被量化,且经编码窄带语音信号还可包括其它参数(例如语音模式参数)。任务TD200还包括经编码窄带激励信号中的时间弯曲。
任务TD300基于窄带激励信号产生高带激励信号。在此情况下,窄带激励信号基于经编码窄带激励信号。至少根据高带激励信号,任务TD400将高带语音信号编码为至少多个高带滤波器参数。举例来说,任务TD400可经配置以将高带语音信号编码为多个经量化LSF。任务TD500将时间移位应用于高带语音信号,所述时间移位基于关于包括于编码窄带激励信号中的时间弯曲的信息。
任务TD400可经配置以对高带语音信号执行频谱分析(例如LPC分析),及/或计算高带语音信号的增益包络。在所述情况下,任务TD500可经配置以在分析及/或增益包络计算之前将时间移位应用于高带语音信号。
宽带语音编码器A100的其它实施方案经配置以反转由包括于经编码窄带激励信号中的时间弯曲引起的高带激励信号S120的时间弯曲。举例来说,高带激励产生器A300可经实施以包括延迟线D120的一实施方案,其经配置以接收规则化数据信号SD10或经映射延迟值SD10a,且将对应的反转时间移位应用于窄带激励信号S80及/或基于其的后续信号(例如谐波扩展信号S160或高带激励信号S120)。
另外的宽带语音编码器实施方案可经配置以将窄带语音信号S20与高带语音信号S30彼此独立地编码,使得高带语音信号S30被编码为高带频谱包络及高带激励信号的表示。此实施方案可经配置以执行对高带残余信号的时间弯曲,或另外根据关于包括于编码窄带激励信号中的时间弯曲的信息将时间弯曲包括于经编码高带激励信号中。举例来说,高带编码器可包括如本文中所描述的延迟线D120及/或延迟值映射器D110的一实施方案,所述延迟线D120及/或所述延迟值映射器D110经配置以将时间弯曲应用于高带残余信号。所述操作的潜在优势包括更有效编码高带残余信号及使在经合成的窄带语音信号与高带语音信号之间的匹配更佳。
如上文所提及,如本文中所描述的配置包括可用于执行嵌入式编码、支持与窄带系统的兼容性且避免需要码变换的实施方案。对高带编码的支持还可用于基于成本而区分具有带有反向兼容性的宽带支持的芯片、芯片组、装置及/或网络以及区分那些具有窄带支持的芯片、芯片组、装置及/或网络。如本文中所描述的对高带编码的支持还可结合用于支持低带编码的技术而使用,且根据所述配置的系统、方法或设备可支持从(例如)约50Hz或100Hz直到约7kHz或8kHz的频率分量的编码。
如上文所提及,将高带支持添加到语音编码器可改进清晰度,尤其是关于摩擦音的区别。虽然此区别通常可由人类收听者从特定上下文得出,但高带支持可充当语音辨识及其它机器解译应用(例如用于自动声音菜单导航及/或自动呼叫处理的系统)的启用特征。
可将根据一配置的设备嵌入到用于无线通信的便携式装置(例如蜂窝式电话或个人数字助理(PDA))中。或者,所述设备可包括于另一通信装置(例如VoIP手持机、经配置以支持VoIP通信的个人计算机或经配置以路由电话或VoIP通信的网络装置)中。举例来说,可将根据一配置的设备实施于用于通信装置的芯片或芯片组中。视特定应用而定,所述装置还可包括以下特征:例如语音信号的模拟-数字及/或数字-模拟转换、对语音信号执行放大及/或其它信号处理操作的电路及/或用于传输及/或接收经编码语音信号的射频电路。
明确涵盖及揭示的是,配置可包括在美国临时专利申请案第60/667,901号及60/673,965号中所揭示的其它特征中的任何一个或一个以上特征及/或与其一起使用。所述特征包括移除发生于高带中且大体上不存在于窄带中的短持续时间的高能量突发。所述特征包括例如高带LSF的系数表示的固定或自适应平滑化。所述特征包括与例如LSF的系数表示的量化相关联的噪声的固定或自适应成形。所述特征还包括增益包络的固定或自适应平滑化,及增益包络的自适应衰减。
可将高带激励产生器A300及B300、高带编码器A100、高带解码器B200、宽带语音编码器A100及宽带语音解码器B100的实施方案的各种元件实施为驻留于(例如)相同芯片上或一芯片组中的两个或两个以上芯片中的电子及/或光学装置,但还涵盖不具有所述限制的其它布置。可将所述设备的一个或一个以上元件整体或部分地实施为一个或一个以上组的指令,所述指令经布置以在逻辑元件(例如,晶体管、栅极)的一个或一个以上固定或可编程阵列上执行,例如,微处理器、嵌入式处理器、IP核心、数字信号处理器、FPGA(现场可编程门阵列)、ASSP(专用标准产品)及ASIC(专用集成电路)。一个或一个以上所述元件还可能具有共同结构(例如,用于在不同时间执行对应于不同元件的码部分的处理器、经执行以在不同时间执行对应于不同元件的任务的一组指令或在不同时间执行用于不同元件的操作的电子及/或光学装置的布置)。而且,一个或一个以上所述元件可能用于执行任务或执行不直接与设备有关的操作的其它组指令,例如与设备所嵌入于的装置或系统的另一操作有关的任务。
图30展示根据一配置的编码具有窄带部分及高带部分的语音信号的高带部分的方法M100的流程图。任务X100计算表现高带部分的频谱包络的特征的一组滤波器参数。任务X200通过将非线性函数应用于从窄带部分得到的信号来计算频谱扩展信号。任务X300根据(A)所述组滤波器参数及(B)基于频谱扩展信号的高带激励信号来产生经合成高带信号。任务X400基于(C)在高带部分的能量与(D)从窄带部分得到的信号的能量之间的关系来计算增益包络。
图31a展示根据一配置产生高带激励信号的方法M200的流程图。任务Y100通过将非线性函数应用于从语音信号的窄带部分得到的窄带激励信号来计算谐波扩展信号。任务Y200将所述谐波扩展信号与经调制噪声信号混合以产生高带激励信号。图31b展示根据包括任务Y300及Y400的另一配置来产生高带激励信号的方法M210的流程图。任务Y300根据窄带激励信号与谐波扩展信号中的一者随时间变化的能量来计算时域包络。任务Y400根据所述时域包络来调制噪声信号以产生经调制噪声信号。
图32展示根据一配置的解码具有窄带部分及高带部分的语音信号的高带部分的方法M300的流程图。任务Z100接收表现高带部分的频谱包络的特征的一组滤波器参数及表现高带部分的时间包络的特征的一组增益因子。任务Z200通过将非线性函数应用于从窄带部分得到的信号来计算频谱扩展信号。任务Z300根据(A)所述组滤波器参数及(B)基于频谱扩展信号的高带激励信号来产生经合成高带信号。任务Z400基于所述组增益因子来调制经合成高带信号的增益包络。举例来说,任务Z400可经配置以通过将所述组增益因子应用于从窄带部分得到的激励信号、频谱扩展信号、高带激励信号或经合成高带信号来调制经合成高带信号的增益包络。
图33说明码分多址(CDMA)无线电话系统3300,其可包括多个移动台3302、多个基站3304、一基站控制器(BSC)3306及一移动交换中心(MSC)3308。MSC 3308可经配置以与公共交换电话网络(PSTN)3310介接。MSC 3308还可经配置以与BSC 3306介接。在系统3300中可存在一个以上BSC 3306。每一基站3304可包括至少一扇区(未图示),其中每一扇区可具有全向天线或指向径向远离基站3304的特定方向的天线。或者,每一扇区可包括用于分集接收的两个天线。每一基站3304可经设计以支持多个频率指派。扇区与频率指派的相交可称为CDMA信道。移动台3302可包括蜂窝式或便携式通信系统(PCS)电话。
在蜂窝式电话系统3300的操作期间,基站3304可从若干组移动台3302接收若干组反向链路信号。移动台3302可进行电话呼叫或其它通信。由给定基站3304接收的每一反向链结信号可在所述基站3304中被处理。可将所得数据转发到BSC 3306。BSC 3306可提供呼叫资源分配及包括基站3304之间的软越区切换的编配的移动性管理功能性。BSC 3306还可将所接收数据路由到MSC 3308,其提供用于与PSTN 3310介接的额外路由服务。相似地,PSTN 3310可介接MSC 3308,且MSC 3308可介接BSC 3306,BSC 3306又可控制基站3304以将若干组前向链结信号传输到若干组移动台3302。
图34描绘信号传输环境3400,其包括编码器3402、解码器3404及传输媒体3406。编码器3402可实施于移动台3302内或基站3304中。解码器3404可实施于基站3304中或移动台3302中。编码器3402可编码语音信号s(n)3410,从而形成经编码语音信号senc(n)3412。经编码语音信号3412可在传输媒体3406上传输到解码器3404。解码器3404可解码senc(n)3412,从而产生经合成语音信号
如本文中所使用的术语“编码”可通常指涵盖编码及解码两者的方法。通常,编码系统、方法及设备试图在维持可接受语音再现(即,)的同时最小化经由传输媒体3406传输的位数目(即,最小化senc(n)3412的带宽)。设备可为移动电话、个人数字助理(PDA)、膝上型计算机、数码相机、音乐播放器、游戏装置、基站或具有处理器的任何其它装置。经编码语音信号3412的组成可根据由所述编码器3402所利用的特定语音编码模式而改变。下文描述各种编码模式。
可将下文描述的编码器3402及解码器3404的组件实施为电子硬件、计算机软件或所述两者的组合。在下文中就其功能性而描述所述组件。将功能性实施为硬件或软件可视特定应用及施加于整个系统的设计约束而定。传输媒体3406可表示许多不同传输媒体,包括(但不限于):基于陆地通信线、基站与卫星之间的链路、蜂窝式电话与基站之间,或在蜂窝式电话与卫星之间的无线通信。
通信的每一方可传输数据以及接收数据。每一方可利用编码器3402及解码器3404。然而,在下文中将信号传输环境3400描述为包括在传输媒体3406的一端处的编码器3402及在另一端处的解码器3404。
出于此描述的目的,s(n)3410可包括在包括不同有声声音及静默周期的典型对话期间获得的数字语音信号。可将语音信号s(n)3410分割为帧,且可将每一帧进一步分割为子帧。所述任意选择的帧/子帧边界可在执行一些块处理的情况下得以使用。描述为对帧执行的操作还可对子帧执行,在此意义上,本文中可将帧与子帧互换使用。然而,如果实施连续处理而非块处理,则不可将s(n)3410分割为帧/子帧。因而,可将下文描述的块技术扩展到连续处理。
可将编码器3402实施为窄带(NB)编码器或宽带(WB)编码器。NB编码器可数字取样在8kHz处的信号s(n)3410及存在于50Hz到4kHz的带宽中的编码信号信息。NB编码器的一实例可包括增强型可变速率编码器(EVRC-B)。WB编码器可数字取样在16kHz处的信号s(n)3410及存在于NB编码器带宽加上在4kHz到8kHz的范围之间的码信息。WB编码器的一实例可包括EVRC-WB编码器。在一方面中,EVRC-WB为EVRC-B的宽带扩展。从信号s(n)3410分割的每一帧可包括20毫秒(ms)的数据或160个样本。每一子帧可包括53个或54个数据样本。虽然这些参数可适合于语音编码,但其仅为实例,且可使用其它合适替代参数。
如果将编码器3402实施为NB编码器,则可将帧封装为窄带包3418。窄带包3418可包括窄带识别符3422。识别符3422可对解码器3404指示窄带包3418是使用NB编码器而编码的。如果将编码器3402实施为WB编码器,则可将帧封装为宽带包3420。宽带包3420可包括宽带识别符3424。识别符3424可对解码器3404指示宽带包3420是使用WB编码器而编码的。解码器3404可包括包识别模块3414,其可辨识识别符3422或3424且确定应实施NB解码器还是WB解码器来解码包3418或3420。
图35为说明用于在与语音信号相关联的包中包括识别符的方法3500的一配置的流程图。在一方面中,识别符可指示包是由NB编码器还是WB编码器而编码的。可由例如编码器3402的编码器实施方法3500。
可由编码器3402接收3502信号。在一方面中,所述信号为一种类型的语音信号。信号可经分析且分割3504为多个帧。使用特定编码方案(例如,CELP、PPP、NELP)可将信号的经分割帧以半速率进行编码3506。在一方面中,可将包编码为具有80位。术语“半速率”可用于表示具有80位的包。确定3508帧是否为包括80位的宽带半速率帧。换句话说,确定3508编码器3402是否用作WB编码器且将帧编码为宽带半速率(WB-HR)帧。如果帧为WB-HR帧,则可将宽带识别符封装3510到包中。在一方面中,宽带识别符包括以二进制形式的十进制数字“126”及“127”的前六位。十进制数字“126”的二进制形式为“1111110”,且“127”的二进制形式为“1111111”。因而,宽带识别符可包括六个1的串(例如,“111111”)。
如果在3508中确定帧并非WB-HR帧,则可将窄带识别符封装3512到包中。在一方面中,窄带识别符可与延迟参数相关联。举例来说,用于表示延迟参数的位还可用作窄带识别符。可传输3514包。在一方面中,将包传输3514到解码器。
图36为说明解码包的方法3600的一配置的流程图。可由解码器3404实施方法3600。在一方面中,接收3602半速率包。可分析3604包括于半速率包中的识别符。所述识别符可指示半速率包是由WB编码器还是NB编码器而编码的。在一方面中,所述识别符为是无效/非法滞后的特殊包识别符(ID)。确定3606包是否为基于对识别符的分析的WB-HR包。如果包为WB-HR包,则使用宽带解码方案来解码3608所述包。在一配置中,解码器3404用作WB解码器。然而,如果确定3606所述包并非WB-HR,则可使用窄带解码方案来解码3610所述包。解码器3404可用作NB解码器。可从一个或一个以上经解码包重构3612信号。
图37为说明在通信信道3706上与多模式解码器3704进行通信的多模式编码器3702的一配置的框图。通信信道3706可包括射频(RF)接口。编码器3702可包括相关联解码器(未图示)。编码器3702及其相关联解码器可形成第一语音编码器。解码器3704可包括相关联编码器(未图示)。解码器3704及其相关联编码器可形成第二语音编码器。
编码器3702可包括一初始参数计算模块3718、一速率确定模块3720、一模式分类模块3722、多个编码模式3724、3726、3728及一包格式化模块3730。包格式化模块3730可插入包识别符3708。编码模式3724、3726、3728的数目被展示为N,其可表示编码模式3724、3726、3728的任何数目。出于简明性目的,展示三个编码模式3724、3726、3728,其中虚线指示其它编码模式的存在。
解码器3704可包括一包分解器模块3732、多个解码模式3734、3736、3738及一后滤波器3740。包分解器模块3732可包括包识别模块3714。解码模式3734、3736、3738的数目被展示为N,其可表示解码模式3734、3736、3738的任何数目。出于简明性目的,展示三个解码模式3734、3736、3738,其中虚线指示其它解码模式的存在。
可将语音信号s(n)3710提供到初始参数计算模块3718。可将语音信号3710划分为称为帧的样本块。值n可表示帧数目,或值n可表示一帧中的样本数目。在一替代配置中,可替代语音信号3710使用线性预测(LP)残余误差信号。LP残余误差信号可由例如码激励线性预测(CELP)编码器等语音编码器使用。
初始参数计算模块3718可基于当前帧得出各种参数。在一方面中,这些参数包括以下参数中的至少一者:线性预测编码(LPC)滤波器系数、线频谱对(LSP)系数、规范化自相关函数(NACF)、开环滞后、零交叉速率、带能量及共振峰残余信号。
初始参数计算模块3718可耦合到模式分类模块3722。模式分类模块3722可在编码模式3724、3726、3728之间动态切换。初始参数计算模块3718可将参数提供到模式分类模块3722。模式分类模块3722可耦合到速率确定模块3720。速率确定模块3720可接收速率命令信号。速率命令信号可引导编码器3702以特定速率编码语音信号3710。在一方面中,特定速率包括可指示将使用一百七十一位来编码语音信号3710的全速率。在另一实例中,特定速率包括可指示将使用八十位来编码语音信号3710的半速率。在另一实例中,特定速率包括可指示将使用十六位来编码语音信号3710的八分之一速率。
如先前所陈述,模式分类模块3722可经耦合而以逐帧为基础在编码模式3724、3726、3728之间动态切换,以便选择用于当前帧的最适合编码模式3724、3726、3728。模式分类模块3722可通过将参数与预定义阈值及/或最高值比较来选择用于当前帧的特定编码模式3724、3726、3728。此外,模式分类模块3722可基于从速率确定模块3720接收的速率命令信号来选择特定编码模式3724、3726、3728。举例来说,编码模式A 3724可使用一百七十一位来编码语音信号3710,而编码模式B 3726可使用八十位来编码语音信号3710。
基于帧的能量含量,模式分类模块3722可将帧分类为非语音或无效语音(例如,静默、背景噪声或言语之间的停顿),或语音。基于帧的周期性,模式分类模块3722可将语音帧分类为特定类型的语音,例如有声、无声或过渡。
有声语音可包括展现相对高程度的周期性的语音且可包括元音声。音高周期可为可用于分析且重构帧的内容的语音帧的分量。无声语音可包括辅音声。过渡语音帧可包括在有声语音与无声语音之间的过渡。可将并非被分类为有声语音或无声语音的帧分类为过渡语音。
语音模式(还称为发声模式)指示当前帧表示有声语音还是无声语音。此参数可具有二进制值,所述值基于帧的周期性(例如零交叉、NACF、音高增益)及/或话音有效性的一个或一个以上量度,例如所述量度与阈值之间的关系。在其它实施方案中,语音模式参数具有用以指示例如静默或背景噪声,或静默与有声语音之间的过渡的模式的一个或一个以上其它状态。
分类语音帧可允许使用不同编码模式3724、3726、3728来编码不同类型的语音,从而导致在共享信道(例如通信信道3706)中更有效使用带宽。举例来说,因为有声语音为周期的且因此预测性高,所以低位速率、高预测性编码模式3724、3726、3728可用于编码有声语音。
模式分类模块3722可基于帧的分类来选择用于当前帧的编码模式3724、3726、3728。可并联耦合多种编码模式3724、3726、3728。编码模式3724、3726、3728中的一个或一个以上模式可在任何给定时间操作。在一配置中,根据当前帧的分类来选择一个编码模式3724、3726、3728。
不同编码模式3724、3726、3728可根据不同编码位速率、不同编码方案或编码位速率与编码方案的不同组合来操作。如先前所陈述,使用的各种编码率可为全速率、半速率、四分之一速率及/或八分之一速率。使用的各种编码方案可为CELP编码、原型音高周期(PPP)编码(或波形内插(WI)编码)及/或噪声激励线性预测(NELP)编码。因此,举例来说,特定编码模式3724、3726、3728可为全速率CELP;另一编码模式3724、3726、3728可为半速率CELP;另一编码模式3724、3726、3728可为全速率PPP;且另一编码模式3724、3726、3728可为NELP。
根据CELP编码模式3724、3726、3728,可利用经量化版本的LP残余信号来激励线性预测声道模型。在CELP编码模式中,可量化整个当前帧。CELP编码模式3724、3726、3728可提供相对准确的语音再现,但是以相对高编码位速率为代价。CELP编码模式3724、3726、3728可用于编码分类为过渡语音的帧。
根据NELP编码模式3724、3726、3728,经滤波的伪随机噪声信号可用于模型化LP残余信号。NELP编码模式3724、3726、3728可为实现低位速率的相对简单的技术。NELP编码模式3724、3726、3728可用于编码分类为无声语音的帧。
根据PPP编码模式3724、3726、3728,可编码每一帧内的一子组音高周期。可通过在所述原型周期之间内插而重构语音信号的剩余周期。在PPP编码的时域实施方案中,可计算描述如何修改先前原型周期以近似于当前原型周期的第一组参数。可选择一个或一个以上码向量,所述码向量在相加时近似于在当前原型周期与经修改先前原型周期之间的差。第二组参数描述所述经选择码向量。在PPP编码的频域实施方案中,一组参数可经计算以描述原型的振幅及相位频谱。根据PPP编码的实施方案,解码器3704可通过基于描述振幅及相位的所述组参数而重构当前原型来合成输出语音信号3716。过去的原型周期可用作当前原型周期的振幅及/或相位的预测。可在当前重构原型周期与先前重构原型周期之间的区域内内插语音信号。原型可包括当前帧的一部分,利用来自先前帧的类似定位于帧内的原型而对所述部分线性内插,以便在解码器3704处重构语音信号3710或LP残余信号。
编码原型周期而非整个语音帧可降低编码位速率。可利用PPP编码模式3724、3726、3728来编码分类为有声语音的帧。通过采用有声语音的周期性,PPP编码模式3724、3726、3728可实现低于CELP编码模式3724、3726、3728的位速率。
经选择编码模式3724、3726、3728可耦合到包格式化模块3730。经选择编码模式3724、3726、3728可编码或量化当前帧且将经量化帧参数3712提供到包格式化模块3730。包格式化模块3730可将经量化帧参数3712汇编到经格式化包3713中。包格式化模块3730可将包格式化为宽带包或窄带包。包识别符3708可包括于所述包中。如先前所解释,包识别符3708可对解码器3704指示包为宽带包还是为窄带包。包格式化模块3730可经由通信信道3706将经格式化包3713提供到接收器(未图示)。接收器可接收、解调制及数字化经格式化包3713,且将包3713提供到解码器3704。
在解码器3704中,包分解器模块3732接收来自接收器的包3713。包分解器模块3732可将包3713拆包,且包识别模块3714可辨识包括于包3713中的包识别符3708。包识别模块3714可发现包3713为WB-HR包或窄带半速率包。包分解器模块3732还可经配置而以逐包为基础在解码模式3734、3736、3738之间动态切换。解码模式3734、3736、3738的数目可与编码模式3724、3726、3728的数目相同。每一编号的编码模式3724、3726、3728可与经配置以使用相同编码位速率及编码方案的相应类似编号的解码模式3734、3736、3738相关联。
如果包分解器模块3732检测到包3713,则包3713被分解且提供到相关解码模式3734、3736、3738。相关解码模式3734、3736、3738可基于对包识别符3708的分析来实施宽带或窄带解码技术。如果包分解器模块3732未检测到包,则宣告包丢失,且擦除解码器(未图示)可执行帧擦除处理。解码模式3734、3736、3738的并联阵列可耦合到后滤波器3740。相关解码模式3734、3736、3738可解码(或去量化)包3713且将信息提供到后滤波器3740。后滤波器3740可重构(或合成)语音帧,从而输出经合成语音帧
在一配置中,并不传输经量化参数本身。替代地,传输在解码器3704中指定在各种查找表(LUT)(未图示)中的地址的码簿索引。解码器3704可接收码簿索引且搜索各种码簿LUT以得到合适参数值。因此,可传输参数(例如音高滞后、自适应码簿增益及LSP)的码簿索引,且可由解码器3704搜索三个相关联码簿LUT。
根据CELP编码模式,可传输音高滞后、音高增益、码簿参数及LSP参数。因为可在解码器3704处合成LP残余信号,所以传输LSP码簿索引。此外,可传输当前帧的音高滞后值与前一帧的音高滞后值之间的差。
根据其中将在解码器3704处合成语音信号3710的PPP编码模式,传输音高滞后、振幅及相位参数。由PPP语音编码技术使用的较低位速率可能不允许传输绝对音高滞后信息及相对音高滞后差值两者。
根据一实例,用低位速率PPP编码模式来传输例如有声语音帧的高周期性帧,所述低位速率PPP编码模式量化用于传输的当前帧的音高滞后值与前一帧的音高滞后值之间的差,且不量化用于传输的当前帧的绝对音高滞后值。因为有声帧是高周期性的,所以传输与绝对音高滞后值相对照的差值可允许实现较低编码位速率。在一方面中,一般化此量化以使得计算出先前帧的参数值的经加权和,其中权重的和为1,且从当前帧的参数值减去所述经加权和。可接着量化所述差。
图38为说明可变速率语音编码方法3800的一实例的流程图。在一方面中,由单个移动台3302来实施方法3800,所述单个移动台3302可能够将包编码为宽带包或窄带包。在其它方面中,可由一个以上移动台3302来实施方法3800。换句话说,一移动台3302可包括用以编码宽带包或窄带包的编码器,而单独的移动台3302可包括用以使用宽带或窄带解码技术来解码包的解码器。可计算3802当前帧的初始参数。在一配置中,初始参数计算模块3718计算3802所述参数。参数可包括以下参数中的一者或一者以上:线性预测编码(LPC)滤波器系数、线频谱对(LSP)系数、规范化自相关函数(NACF)、开环滞后、带能量、零交叉速率及共振峰残余信号。
可将当前帧分类3804为有效或无效。在一配置中,分类模块3722将当前帧分类为包括“有效”语音或“无效”语音。如上文所描述,s(n)3710可包括语音周期及静默周期。有效语音可包括有声话语,而无效语音可包括背景噪声、静默、停顿等。
确定3806将当前帧分类为有效的或是无效的。如果将当前帧分类为有效的,则进一步将有效语音分类3808为有声、无声或过渡帧。可以许多不同方式分类人类语音。语音的两种分类可包括有声声音及无声声音。可将并非有声或无声的语音分类为过渡语音。
基于在步骤3806及3808中进行的帧分类,可选择3810编码器/解码器模式。如图37中所示,可并联连接多种编码器/解码器模式。不同编码器/解码器模式根据不同编码方案来操作。某些模式可在语音信号s(n)3710的展现某些特性的编码部分处更为有效。
如先前所解释,CELP模式可经选择以编码分类为过渡语音的帧。PPP模式可经选择以编码分类为有声语音的帧。NELP模式可经选择以编码分类为无声语音的帧。相同编码技术可频繁地以不同位速率操作,并具有不同性能水平。在图37中的不同编码器/解码器模式可表示不同编码技术,或以不同位速率操作的相同编码技术,或以上的组合。
所选择的编码模式可编码3812当前帧且根据位速率将经编码帧格式化3814到包中。包识别符可包括3816于所述包中。包识别符可指示所述包被编码为宽带包还是窄带包。可将包发送3818到解码器。
图39为说明规则窄带半速率包3902及宽带半速率包3904的一配置的框图。在一方面中,每一包可包括包识别符,例如包识别符A 3906及包识别符B 3907。包识别符A3906可包括合法滞后值3908,且包识别符B 3907可包括非法滞后值3914。非法滞后值3914可为对解码器指示某包为宽带半速率包3904或特殊窄带半速率包的值。合法滞后值可对解码器指示某包是否为规则(非特殊)窄带半速率CELP包3902。在其它配置中,合法滞后值可对解码器指示某包是否为包括范围[0:100]内的音高滞后值的任何其它半速率包。范围[0:100]内的音高滞后值仅用作实例。本系统及方法可应用于具有一组有效值(与特定编码方案相关联)及另一组非法/无效值的给定N位字段。
在一配置中,规则窄带半速率包3902利用包括于包3902中的80个位中的每一位。因而,延迟参数可用于存储合法滞后值3908,其可对解码器指示传入包为规则(非特殊)窄带半速率CELP。在一方面中,延迟参数包括7个位。延迟参数可并非十进制数字“101”与“127”之间的值3910。在此7位字段中的合法(有效)滞后值可为十进制数字“0”与“100”之间的值3910。“0”与“100”之间的值3910可以其二进制形式(例如,7位二进制数)包括于规则(非特殊)窄带半速率CELP包3902中。
在一方面中,宽带编码器实施NELP编码方案以编码无声声音。可将无声声音的信号在宽带半速率包3904中封装为具有80个位的包。然而,具有无声声音的包可不包括延迟。在一配置中,因为可能在无延迟的情况下实现无声声音的信号的可接受再现,所以编码器可不分析无声声音的延迟。宽带半速率包3904可利用80个位中的74个位,留下6个位未使用。与宽带半速率包3904相关联的包识别符B 3907可包括六个1的串3912(即,“111111”)。在一配置中,此可映射为十进制数字“126”及“127”(以7位),且可被保留作为宽带半速率包3904的识别符。
在一配置中,可利用来自N位参数的至少两个非法值。如果使用两个非法值,则一来自N位参数的位可经释放以载送信息。在另一配置中,来自N位参数的可经释放以载送信息的位的数目可等于log2(X),其中X为从N位参数提供的非法值数目。举例来说,八个非法值可释放三个位以载送其它信息。
图40为说明分配到各种类型的包的位的数目的表4000。表4000包括多个参数4002。在所述多个参数4002中的每一参数可利用某一数目的位。在表4000中说明的各种包类型可已利用先前论述的各种编码模式中的一者加以编码。包类型可包括:全速率CELP(FCELP)4004、半速率CELP(HCELP)4006、特殊半速率CELP(SPLHCELP)4008、全速率PPP(FPPP)4010、特殊半速率PPP(SPLHPPP)4012、四分之一速率PPP(QPPP)4014、特殊半速率NELP(SPLHNELP)4016、四分之一速率NELP(QNELP)4018及静默编码器4020。
FCELP 4004及FPPP 4010可为具有总计171个位的包。FCELP 4004包可转换为SPLHCELP 4008包。在一方面中,FCELP 4004包针对例如固定码簿索引(FCB索引)及固定码簿增益(FCB增益)的参数分配位。如图所示,当FCELP 4004包转换为SPLHCELP 4008包时,针对例如FCB索引、FCB增益及Δ滞后的参数分配零位。换句话说,在无所述位的情况下将SPLHCELP 4008包传输到解码器。SPLHCELP 4008包包括针对例如线频谱对(LSP)、自适应码簿(ACB)增益、特殊半速率识别(ID)、特殊包ID、音高滞后及模式位信息的参数分配的位。传输到解码器的位的总数可从171减少到80。
类似地,FPPP 4010包可转换为SPLHPPP 4012包。如图所示,FPPP 4010包将位分配到带对准参数。FPPP 4010包可转换为SPLHPPP 4012包。可废弃分配到带对准的位。换句话说,在无所述位的情况下将SPLHPPP 4012包传输到解码器。传输到解码器的位的总数可从171减少到80。在一配置中,分配到振幅及全域对准参数的位包括于SPLHPPP 4012包中。振幅参数可指示信号s(n)3710的频谱的振幅和全域对准参数,且可表示可确保最大程度对准的线性相移。
此外,各种类型的包可包括分配到滞后/特殊包ID参数的位。滞后/特殊包ID参数可表示使解码器辨识出特定包是使用窄带编码技术还是宽带编码技术而编码的包识别符。
本文中的各种配置被说明为具有用于不同参数及包的不同数目的位。与每一参数相关联的特定数目的位在本文中是以实例说明的,且并非意味着限制性的。参数可包括比本文中所使用的实例更多或更少的位。
图41说明可在根据一配置的通信装置4108中利用的各种组件。通信装置4108可包括处理器4102,其控制装置4108的操作。处理器4102还可称为CPU。可包括只读存储器(ROM)及随机存取存储器(RAM)两者的存储器4104将指令及数据提供到处理器4102。存储器4104的一部分还可包括非易失性随机存取存储器(NVRAM)。
通信装置4108还可包括外壳4122,其含有传输器4110及接收器4112,以允许数据在接入终端4108与远程地点之间的传输及接收。可将传输器4110及接收器4112组合为收发器4120。天线4118附接到外壳4122且电耦合到收发器4120。
通信装置4108还包括信号检测器4106,其用于检测且量化由收发器4120接收的信号电平。信号检测器4106检测例如总能量、每伪噪声(PN)码片的导频能量、功率谱密度的信号及其它信号。
通信装置4108的状态改变器4114基于当前状态及由收发器4120所接收且由信号检测器4106所检测的额外信号来控制通信装置4108的状态。装置4108可能能够以许多状态中的任一状态操作。
通信装置4108还包括系统确定器4124,所述系统确定器4124用于控制装置4108,且在其确定当前服务提供者系统不合适时确定装置4108应转移到的服务提供者系统。
由总线系统4118将通信装置4108的各种组件耦合在一起,所述总线系统4118除数据总线之外还可包括电源总线、控制信号总线及状态信号总线。然而,为了清晰起见,所述各种总线在图41中被说明为总线系统4118。通信装置4108还可包括数字信号处理器(DSP)4116以用于处理信号。
可使用多种不同技术中的任何技术来表示信息及信号。举例来说,在以上描述中可参考的数据、指令、命令、信息、信号、位、符号及码片可由电压、电流、电磁波、磁场或磁粒子、光场或光学粒子或其任何组合来表示。
可将结合本文中所揭示的配置而描述的各种说明性逻辑块、模块、电路及算法步骤实施为电子硬件、计算机软件或所述两者的组合。为清楚说明硬件与软件的所述互换性,已就其功能性在上文中大体描述了各种说明性组件、块、模块、电路及步骤。将所述功能性实施为硬件还是软件视特定应用及施加于整个系统的设计约束而定。所属领域的技术人员可针对每一特定应用以不同方式实施所描述功能性,但不应将所述实施方案决策解释为导致脱离本系统和方法的范围。
结合本文中所揭示的配置描述的各种说明性逻辑块、模块及电路可用通用处理器、数字信号处理器(DSP)、专用集成电路(ASIC)、现场可编程门阵列(FPGA)或其它可编程逻辑装置、离散门或晶体管逻辑、离散硬件组件或其经设计以执行本文中所描述的功能的任何组合来实施或执行。通用处理器可为微处理器,但在替代例中,所述处理器可为任何处理器、控制器、微控制器或状态机。处理器还可实施为计算装置的组合,例如DSP与微处理器的组合、多个微处理器的组合、一个或一个以上微处理器与DSP核心的联合,或任何其它所述配置。
结合本文中所揭示的配置描述的方法或算法的步骤可以硬件、由处理器执行的软件模块或所述两者的组合直接体现。软件模块可驻留于RAM存储器、快闪存储器、ROM存储器、可擦除可编程只读存储器(EPROM)、电可擦除可编程只读存储器(EEPROM)、寄存器、硬盘、可拆卸盘、紧密光盘只读存储器(CD-ROM)或在此项技术中已知的任何其它形式的存储媒体中。存储媒体可耦合到处理器,使得处理器可从存储媒体读取信息且将信息写入到存储媒体。或者,存储媒体可与处理器成一体。处理器与存储媒体可驻留于ASIC中。ASIC可驻存于用户终端中。在替代例中,处理器与存储媒体可作为离散组件驻留于用户终端中。
本文中所揭示的方法包含用于实现所描述的方法的一个或一个以上步骤或动作。方法步骤及/或动作可彼此互换,而不脱离本系统及方法的范围。换句话说,除非针对配置的适当操作指定特定顺序的步骤或动作,否则可修改特定步骤及/或动作的顺序及/或使用,而不脱离本系统及方法的范围。可以硬件、软件或两者实施本文中所揭示的方法。硬件及存储器的实例可包括RAM、ROM、EPROM、EEPROM、快闪存储器、光盘、寄存器、硬盘、可拆卸盘、CD-ROM或任何其它类型的硬件及存储器。
虽然已说明且描述本系统及方法的特定配置及应用,但应了解,所述系统及方法并不限于本文中所揭示的精确配置及组件。可在本文中所揭示的方法及系统的布置、操作及细节中进行对于所属领域的技术人员来说为显而易见的各种修改、变化及改变,而不脱离所主张的系统及方法的精神及范围。
Claims (24)
1.一种用于在与语音信号相关联的包中包含识别符的方法,所述方法包含:
接收信号;
将所述信号分割为多个帧;
将所述信号的一帧编码到包中;
确定是否使用多个编码方案中的一个将所述包编码;
基于所述确定在所述包中封装识别符,其中所述识别符为N位参数,所述N位参数具有识别具体编码方案以及信息的合法值,如果所述包被所述具体编码方案编码,则所述信息不是识别编码方案的信息,其中所述N位参数具有非法值,所述非法值识别不同于所述具体编码方案的编码方案,且如果所述包被不同于所述具体编码方案的所述编码方案编码,则所述非法值不用做所述合法值,其中所述非法值为至少两个保留的非法值之一,且所述非法值包括来自所述N位参数的用于载送信息的至少一个位;以及
传输所述包。
2.根据权利要求1所述的方法,其中将所述包编码为宽带半速率包。
3.根据权利要求2所述的方法,其中所述宽带半速率包包括80个位。
4.根据权利要求2所述的方法,其中所述非法值为宽带识别符。
5.根据权利要求4所述的方法,其中所述宽带识别符包含二进制形式的十进制数一百二十六。
6.根据权利要求4所述的方法,其中所述宽带识别符包含二进制形式的十进制数一百二十七。
7.根据权利要求4所述的方法,其中所述宽带识别符包含二进制形式的六个一。
8.根据权利要求2所述的方法,其中使用噪声激励线性预测(NELP)编码方案来编码所述宽带半速率包。
9.根据权利要求1所述的方法,其中由移动台上的宽带编码器来编码所述帧。
10.根据权利要求1所述的方法,其进一步包含由移动台上的宽带解码器来解码所述帧。
11.根据权利要求1所述的方法,其进一步包含将所述包从第一移动台传输到第二移动台。
12.一种用于在与语音信号相关联的包中包含识别符的设备,其包含:
处理器;
存储器,其与所述处理器进行电子通信;
指令,其存储于所述存储器中,所述指令可执行以:
接收信号;
将所述信号分割为多个帧;
将所述信号的一帧编码到包中;
确定是否用多个编码方案中的一个将所述包编码;
基于所述确定在所述包中封装识别符,其中所述识别符为N位参数,所述N位参数具有识别具体编码方案以及信息的合法值,如果所述包被所述具体编码方案编码,则所述信息不是识别编码方案的信息,其中所述N位参数具有非法值,所述非法值识别不同于所述具体编码方案的编码方案,且如果所述包被不同于所述具体编码方案的所述编码方案编码,则所述非法值不用做所述合法值,其中所述非法值为至少两个保留的非法值之一,且所述非法值包括来自所述N位参数的用于载送信息的至少一个位;以及
传输所述包。
13.根据权利要求12所述的设备,其中将所述包编码为宽带半速率包。
14.根据权利要求13所述的设备,其中所述宽带半速率包包括80个位。
15.根据权利要求13所述的设备,其中所述非法值为宽带识别符。
16.根据权利要求15所述的设备,其中所述宽带识别符包含二进制形式的十进制数一百二十六。
17.根据权利要求15所述的设备,其中所述宽带识别符包含二进制形式的十进制数一百二十七。
18.根据权利要求15所述的设备,其中所述宽带识别符包含二进制形式的六个一。
19.一种经配置以在与语音信号相关联的包中包含识别符的系统,其包含:
用于处理的装置;
用于接收信号的装置;
用于将所述信号分割为多个帧的装置;
用于将所述信号的一帧编码到包中的装置;
用于确定是否用多个编码方案中的一个将所述包编码的装置;
用于基于所述确定在所述包中封装识别符的装置,其中所述识别符为N位参数,所述N位参数具有识别具体编码方案以及信息的合法值,如果所述包被所述具体编码方案编码,则所述信息不是识别编码方案的信息,其中所述N位参数具有非法值,所述非法值识别不同于所述具体编码方案的编码方案,且如果所述包被不同于所述具体编码方案的所述编码方案编码,则所述非法值不用做所述合法值,其中所述非法值为至少两个保留的非法值之一,且所述非法值包括来自所述N位参数的用于载送信息的至少一个位;以及
用于传输所述包的装置。
20.一种计算机可读媒体,其经配置以存储一组指令,所述指令可执行以:
接收信号;
将所述信号分割为多个帧;
将所述信号的一帧编码到包中;
确定是否用多个编码方案中的一个将所述包编码;
基于所述确定在所述包中封装识别符,其中所述识别符为N位参数,所述N位参数具有识别具体编码方案以及信息的合法值,如果所述包被所述具体编码方案编码,则所述信息不是识别编码方案的信息,其中所述N位参数具有非法值,所述非法值识别不同于所述具体编码方案的编码方案,且如果所述包被不同于所述具体编码方案的所述编码方案编码,则所述非法值不用做所述合法值,其中所述非法值为至少两个保留的非法值之一,且所述非法值包括来自所述N位参数的用于载送信息的至少一个位;以及
传输所述包。
21.一种用于解码包的方法,所述方法包含:
接收包;
确定N位参数的合法值还是非法值包含在所述包中,其中所述合法值识别用于编码所述包的多个编码方案中的一个编码方案以及信息,如果所述N位参数被确定为所述合法值,则所述信息不是识别编码方案的信息,其中如果所述N位参数被确定为所述非法值,则所述非法值识别用于编码所述包的所述多个编码方案中的不同于所述合法值识别的编码方案的编码方案,其中所述非法值为至少两个保留的非法值之一,且所述非法值包括来自所述N位参数的用于载送信息的至少一个位;以及
基于所述确定选择用于所述包的解码模式。
22.一种用于解码包的设备,其包含:
处理器;
存储器,其与所述处理器进行电子通信;
指令,其存储于所述存储器中,所述指令可执行以:
接收包;
确定N位参数的合法值还是非法值包含在所述包中,其中所述合法值识别用于编码所述包的多个编码方案中的一个编码方案以及信息,如果所述N位参数被确定为所述合法值,则所述信息不是识别编码方案的信息,其中如果所述N位参数被确定为所述非法值,则所述非法值识别用于编码所述包的所述多个编码方案中的不同于所述合法值识别的编码方案的编码方案,其中所述非法值为至少两个保留的非法值之一,且所述非法值包括来自所述N位参数的用于载送信息的至少一个位;以及
基于所述确定选择用于所述包的解码模式。
23.一种经配置以解码包的系统,其包含:
用于处理的装置;
用于接收包的装置;
用于确定N位参数的合法值还是非法值包含在所述包中的装置,其中所述合法值识别用于编码所述包的多个编码方案中的一个编码方案以及信息,如果所述N位参数被确定为所述合法值,则所述信息不是识别编码方案的信息,其中如果所述N位参数被确定为所述非法值,则所述非法值识别用于编码所述包的所述多个编码方案中的不同于所述合法值识别的编码方案的编码方案,其中所述非法值为至少两个保留的非法值之一,且所述非法值包括来自所述N位参数的用于载送信息的至少一个位;以及
用于基于所述确定选择用于所述包的解码模式的装置。
24.一种计算机可读媒体,其经配置以存储一组指令,所述指令可执行以:
接收包;
确定N位参数的合法值还是非法值包含在所述包中,其中所述合法值识别用于编码所述包的多个编码方案中的一个编码方案以及信息,如果所述N位参数被确定为所述合法值,则所述信息不是识别编码方案的信息,其中如果所述N位参数被确定为所述非法值,则所述非法值识别用于编码所述包的所述多个编码方案中的不同于所述合法值识别的编码方案的编码方案,其中所述非法值为至少两个保留的非法值之一,且所述非法值包括来自所述N位参数的用于载送信息的至少一个位;以及
基于所述确定选择用于所述包的解码模式。
Applications Claiming Priority (5)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US83461706P | 2006-07-31 | 2006-07-31 | |
US60/834,617 | 2006-07-31 | ||
US11/677,173 | 2007-02-21 | ||
US11/677,173 US8135047B2 (en) | 2006-07-31 | 2007-02-21 | Systems and methods for including an identifier with a packet associated with a speech signal |
CNA2007800278551A CN101496097A (zh) | 2006-07-31 | 2007-07-31 | 用于在与语音信号相关联的包中包含识别符的系统及方法 |
Related Parent Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CNA2007800278551A Division CN101496097A (zh) | 2006-07-31 | 2007-07-31 | 用于在与语音信号相关联的包中包含识别符的系统及方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN104123946A true CN104123946A (zh) | 2014-10-29 |
CN104123946B CN104123946B (zh) | 2019-04-12 |
Family
ID=38920744
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201410359582.2A Active CN104123946B (zh) | 2006-07-31 | 2007-07-31 | 用于在与语音信号相关联的包中包含识别符的系统及方法 |
Country Status (10)
Country | Link |
---|---|
US (1) | US8135047B2 (zh) |
EP (1) | EP2047461B1 (zh) |
JP (2) | JP5437067B2 (zh) |
KR (1) | KR101058760B1 (zh) |
CN (1) | CN104123946B (zh) |
BR (1) | BRPI0714825A2 (zh) |
CA (1) | CA2657424C (zh) |
RU (1) | RU2421828C2 (zh) |
TW (1) | TWI384807B (zh) |
WO (1) | WO2008016947A2 (zh) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110365615A (zh) * | 2018-03-26 | 2019-10-22 | 晨星半导体股份有限公司 | 载波频偏估测装置与载波频偏估测方法 |
CN113270105A (zh) * | 2021-05-20 | 2021-08-17 | 东南大学 | 一种基于混合调制的类语音数据传输方法 |
CN114333862A (zh) * | 2021-11-10 | 2022-04-12 | 腾讯科技(深圳)有限公司 | 音频编码方法、解码方法、装置、设备、存储介质及产品 |
Families Citing this family (137)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US7240001B2 (en) | 2001-12-14 | 2007-07-03 | Microsoft Corporation | Quality improvement techniques in an audio encoder |
US7460990B2 (en) * | 2004-01-23 | 2008-12-02 | Microsoft Corporation | Efficient coding of digital media spectral data using wide-sense perceptual similarity |
US8725501B2 (en) * | 2004-07-20 | 2014-05-13 | Panasonic Corporation | Audio decoding device and compensation frame generation method |
KR100883652B1 (ko) * | 2006-08-03 | 2009-02-18 | 삼성전자주식회사 | 음성 구간 검출 방법 및 장치, 및 이를 이용한 음성 인식시스템 |
WO2008022181A2 (en) * | 2006-08-15 | 2008-02-21 | Broadcom Corporation | Updating of decoder states after packet loss concealment |
GB0704622D0 (en) * | 2007-03-09 | 2007-04-18 | Skype Ltd | Speech coding system and method |
GB0705328D0 (en) * | 2007-03-20 | 2007-04-25 | Skype Ltd | Method of transmitting data in a communication system |
CN101325537B (zh) * | 2007-06-15 | 2012-04-04 | 华为技术有限公司 | 一种丢帧隐藏的方法和设备 |
US8046214B2 (en) * | 2007-06-22 | 2011-10-25 | Microsoft Corporation | Low complexity decoder for complex transform coding of multi-channel sound |
US7885819B2 (en) * | 2007-06-29 | 2011-02-08 | Microsoft Corporation | Bitstream syntax for multi-process audio decoding |
ES2403410T3 (es) * | 2007-08-27 | 2013-05-17 | Telefonaktiebolaget L M Ericsson (Publ) | Frecuencia de transición adaptativa entre el rellenado con ruido y la extensión del ancho de banda |
KR100921867B1 (ko) * | 2007-10-17 | 2009-10-13 | 광주과학기술원 | 광대역 오디오 신호 부호화 복호화 장치 및 그 방법 |
US8249883B2 (en) * | 2007-10-26 | 2012-08-21 | Microsoft Corporation | Channel extension coding for multi-channel source |
CA2705968C (en) * | 2007-11-21 | 2016-01-26 | Lg Electronics Inc. | A method and an apparatus for processing a signal |
JP5229234B2 (ja) * | 2007-12-18 | 2013-07-03 | 富士通株式会社 | 非音声区間検出方法及び非音声区間検出装置 |
US10002189B2 (en) | 2007-12-20 | 2018-06-19 | Apple Inc. | Method and apparatus for searching using an active ontology |
US9330720B2 (en) | 2008-01-03 | 2016-05-03 | Apple Inc. | Methods and apparatus for altering audio output signals |
KR101413968B1 (ko) * | 2008-01-29 | 2014-07-01 | 삼성전자주식회사 | 오디오 신호의 부호화, 복호화 방법 및 장치 |
US8326641B2 (en) * | 2008-03-20 | 2012-12-04 | Samsung Electronics Co., Ltd. | Apparatus and method for encoding and decoding using bandwidth extension in portable terminal |
US20090319263A1 (en) * | 2008-06-20 | 2009-12-24 | Qualcomm Incorporated | Coding of transitional speech frames for low-bit-rate applications |
US8768690B2 (en) * | 2008-06-20 | 2014-07-01 | Qualcomm Incorporated | Coding scheme selection for low-bit-rate applications |
USRE47180E1 (en) * | 2008-07-11 | 2018-12-25 | Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. | Apparatus and method for generating a bandwidth extended signal |
US20100030549A1 (en) | 2008-07-31 | 2010-02-04 | Lee Michael M | Mobile device having human language translation capability with positional feedback |
US7911975B2 (en) * | 2008-08-26 | 2011-03-22 | International Business Machines Corporation | System and method for network flow traffic rate encoding |
WO2010028301A1 (en) * | 2008-09-06 | 2010-03-11 | GH Innovation, Inc. | Spectrum harmonic/noise sharpness control |
US8407046B2 (en) * | 2008-09-06 | 2013-03-26 | Huawei Technologies Co., Ltd. | Noise-feedback for spectral envelope quantization |
US8532983B2 (en) * | 2008-09-06 | 2013-09-10 | Huawei Technologies Co., Ltd. | Adaptive frequency prediction for encoding or decoding an audio signal |
US8532998B2 (en) * | 2008-09-06 | 2013-09-10 | Huawei Technologies Co., Ltd. | Selective bandwidth extension for encoding/decoding audio/speech signal |
US8577673B2 (en) * | 2008-09-15 | 2013-11-05 | Huawei Technologies Co., Ltd. | CELP post-processing for music signals |
WO2010031003A1 (en) * | 2008-09-15 | 2010-03-18 | Huawei Technologies Co., Ltd. | Adding second enhancement layer to celp based core layer |
US8676904B2 (en) | 2008-10-02 | 2014-03-18 | Apple Inc. | Electronic devices with voice command and contextual data processing capabilities |
WO2010070770A1 (ja) * | 2008-12-19 | 2010-06-24 | 富士通株式会社 | 音声帯域拡張装置及び音声帯域拡張方法 |
CN101604525B (zh) * | 2008-12-31 | 2011-04-06 | 华为技术有限公司 | 基音增益获取方法、装置及编码器、解码器 |
CA3076203C (en) | 2009-01-28 | 2021-03-16 | Dolby International Ab | Improved harmonic transposition |
BR122019023709B1 (pt) | 2009-01-28 | 2020-10-27 | Dolby International Ab | sistema para gerar um sinal de áudio de saída a partir de um sinal de áudio de entrada usando um fator de transposição t, método para transpor um sinal de áudio de entrada por um fator de transposição t e meio de armazenamento |
CN102460574A (zh) * | 2009-05-19 | 2012-05-16 | 韩国电子通信研究院 | 用于使用层级正弦脉冲编码对音频信号进行编码和解码的方法和设备 |
KR101701759B1 (ko) | 2009-09-18 | 2017-02-03 | 돌비 인터네셔널 에이비 | 입력 신호를 전위시키기 위한 시스템 및 방법, 및 상기 방법을 수행하기 위한 컴퓨터 프로그램이 기록된 컴퓨터 판독가능 저장 매체 |
CN102687199B (zh) | 2010-01-08 | 2015-11-25 | 日本电信电话株式会社 | 编码方法、解码方法、编码装置、解码装置 |
CN102714040A (zh) * | 2010-01-14 | 2012-10-03 | 松下电器产业株式会社 | 编码装置、解码装置、频谱变动量计算方法和频谱振幅调整方法 |
US8682667B2 (en) | 2010-02-25 | 2014-03-25 | Apple Inc. | User profiling for selecting user specific voice input processing information |
JP5651980B2 (ja) * | 2010-03-31 | 2015-01-14 | ソニー株式会社 | 復号装置、復号方法、およびプログラム |
US12002476B2 (en) | 2010-07-19 | 2024-06-04 | Dolby International Ab | Processing of audio signals during high frequency reconstruction |
JP5593244B2 (ja) * | 2011-01-28 | 2014-09-17 | 日本放送協会 | 話速変換倍率決定装置、話速変換装置、プログラム、及び記録媒体 |
US9767822B2 (en) * | 2011-02-07 | 2017-09-19 | Qualcomm Incorporated | Devices for encoding and decoding a watermarked signal |
US9767823B2 (en) | 2011-02-07 | 2017-09-19 | Qualcomm Incorporated | Devices for encoding and detecting a watermarked signal |
AU2012218016B2 (en) * | 2011-02-16 | 2015-11-19 | Dolby Laboratories Licensing Corporation | Methods and systems for generating filter coefficients and configuring filters |
US9262612B2 (en) | 2011-03-21 | 2016-02-16 | Apple Inc. | Device access using voice authentication |
US10057736B2 (en) | 2011-06-03 | 2018-08-21 | Apple Inc. | Active transport based notifications |
EP2737479B1 (en) * | 2011-07-29 | 2017-01-18 | Dts Llc | Adaptive voice intelligibility enhancement |
US10134385B2 (en) | 2012-03-02 | 2018-11-20 | Apple Inc. | Systems and methods for name pronunciation |
RU2504790C1 (ru) * | 2012-05-24 | 2014-01-20 | Открытое акционерное общество "Российская корпорация ракетно-космического приборостроения и информационных систем" (ОАО "Российские космические системы") | Способ и устройство поиска и обнаружения сигналов |
KR101340048B1 (ko) * | 2012-06-12 | 2013-12-11 | (주)에프씨아이 | 스펙트럼 반전 검출 장치 및 방법 |
CN105551497B (zh) | 2013-01-15 | 2019-03-19 | 华为技术有限公司 | 编码方法、解码方法、编码装置和解码装置 |
WO2014209434A1 (en) * | 2013-02-15 | 2014-12-31 | Max Sound Corporation | Voice enhancement methods and systems |
US9236058B2 (en) * | 2013-02-21 | 2016-01-12 | Qualcomm Incorporated | Systems and methods for quantizing and dequantizing phase information |
KR102150496B1 (ko) * | 2013-04-05 | 2020-09-01 | 돌비 인터네셔널 에이비 | 오디오 인코더 및 디코더 |
WO2014197335A1 (en) | 2013-06-08 | 2014-12-11 | Apple Inc. | Interpreting and acting upon commands that involve sharing information with remote devices |
US10176167B2 (en) | 2013-06-09 | 2019-01-08 | Apple Inc. | System and method for inferring user intent from speech inputs |
EP3008641A1 (en) | 2013-06-09 | 2016-04-20 | Apple Inc. | Device, method, and graphical user interface for enabling conversation persistence across two or more instances of a digital assistant |
EP2830061A1 (en) | 2013-07-22 | 2015-01-28 | Fraunhofer Gesellschaft zur Förderung der angewandten Forschung e.V. | Apparatus and method for encoding and decoding an encoded audio signal using temporal noise/patch shaping |
US9418671B2 (en) * | 2013-08-15 | 2016-08-16 | Huawei Technologies Co., Ltd. | Adaptive high-pass post-filter |
US20150149157A1 (en) * | 2013-11-22 | 2015-05-28 | Qualcomm Incorporated | Frequency domain gain shape estimation |
US10296160B2 (en) | 2013-12-06 | 2019-05-21 | Apple Inc. | Method for extracting salient dialog usage from live data |
US10163447B2 (en) * | 2013-12-16 | 2018-12-25 | Qualcomm Incorporated | High-band signal modeling |
US9697843B2 (en) * | 2014-04-30 | 2017-07-04 | Qualcomm Incorporated | High band excitation signal generation |
FR3020732A1 (fr) * | 2014-04-30 | 2015-11-06 | Orange | Correction de perte de trame perfectionnee avec information de voisement |
US10170123B2 (en) | 2014-05-30 | 2019-01-01 | Apple Inc. | Intelligent assistant for home automation |
US9430463B2 (en) | 2014-05-30 | 2016-08-30 | Apple Inc. | Exemplar-based natural language processing |
TWI566107B (zh) | 2014-05-30 | 2017-01-11 | 蘋果公司 | 用於處理多部分語音命令之方法、非暫時性電腦可讀儲存媒體及電子裝置 |
US9633004B2 (en) | 2014-05-30 | 2017-04-25 | Apple Inc. | Better resolution when referencing to concepts |
US9626983B2 (en) * | 2014-06-26 | 2017-04-18 | Qualcomm Incorporated | Temporal gain adjustment based on high-band signal characteristic |
CN106486129B (zh) * | 2014-06-27 | 2019-10-25 | 华为技术有限公司 | 一种音频编码方法和装置 |
EP2960903A1 (en) | 2014-06-27 | 2015-12-30 | Thomson Licensing | Method and apparatus for determining for the compression of an HOA data frame representation a lowest integer number of bits required for representing non-differential gain values |
JP5892395B2 (ja) * | 2014-08-06 | 2016-03-23 | ソニー株式会社 | 符号化装置、符号化方法、およびプログラム |
US9818400B2 (en) | 2014-09-11 | 2017-11-14 | Apple Inc. | Method and apparatus for discovering trending terms in speech requests |
US10127911B2 (en) | 2014-09-30 | 2018-11-13 | Apple Inc. | Speaker identification and unsupervised speaker adaptation techniques |
US9668121B2 (en) | 2014-09-30 | 2017-05-30 | Apple Inc. | Social reminders |
US10074360B2 (en) | 2014-09-30 | 2018-09-11 | Apple Inc. | Providing an indication of the suitability of speech recognition |
US10152299B2 (en) | 2015-03-06 | 2018-12-11 | Apple Inc. | Reducing response latency of intelligent automated assistants |
US9721566B2 (en) | 2015-03-08 | 2017-08-01 | Apple Inc. | Competing devices responding to voice triggers |
US9886953B2 (en) | 2015-03-08 | 2018-02-06 | Apple Inc. | Virtual assistant activation |
US10061554B2 (en) * | 2015-03-10 | 2018-08-28 | GM Global Technology Operations LLC | Adjusting audio sampling used with wideband audio |
US10083688B2 (en) | 2015-05-27 | 2018-09-25 | Apple Inc. | Device voice control for selecting a displayed affordance |
US11025565B2 (en) | 2015-06-07 | 2021-06-01 | Apple Inc. | Personalized prediction of responses for instant messaging |
US20170069306A1 (en) * | 2015-09-04 | 2017-03-09 | Foundation of the Idiap Research Institute (IDIAP) | Signal processing method and apparatus based on structured sparsity of phonological features |
WO2017064264A1 (en) * | 2015-10-15 | 2017-04-20 | Huawei Technologies Co., Ltd. | Method and appratus for sinusoidal encoding and decoding |
US10049668B2 (en) | 2015-12-02 | 2018-08-14 | Apple Inc. | Applying neural network language models to weighted finite state transducers for automatic speech recognition |
EP4134953A1 (en) * | 2016-04-12 | 2023-02-15 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Audio encoder for encoding an audio signal, method for encoding an audio signal and computer program under consideration of a detected peak spectral region in an upper frequency band |
US10049663B2 (en) | 2016-06-08 | 2018-08-14 | Apple, Inc. | Intelligent automated assistant for media exploration |
US10586535B2 (en) | 2016-06-10 | 2020-03-10 | Apple Inc. | Intelligent digital assistant in a multi-tasking environment |
DK179415B1 (en) | 2016-06-11 | 2018-06-14 | Apple Inc | Intelligent device arbitration and control |
DK201670540A1 (en) | 2016-06-11 | 2018-01-08 | Apple Inc | Application integration with a digital assistant |
US10474753B2 (en) | 2016-09-07 | 2019-11-12 | Apple Inc. | Language identification using recurrent neural networks |
US10043516B2 (en) | 2016-09-23 | 2018-08-07 | Apple Inc. | Intelligent automated assistant |
US10264116B2 (en) * | 2016-11-02 | 2019-04-16 | Nokia Technologies Oy | Virtual duplex operation |
US11281993B2 (en) | 2016-12-05 | 2022-03-22 | Apple Inc. | Model and ensemble compression for metric learning |
TWI594231B (zh) * | 2016-12-23 | 2017-08-01 | 瑞軒科技股份有限公司 | 分頻壓縮電路,音訊處理方法以及音訊處理系統 |
US11204787B2 (en) | 2017-01-09 | 2021-12-21 | Apple Inc. | Application integration with a digital assistant |
US10825467B2 (en) * | 2017-04-21 | 2020-11-03 | Qualcomm Incorporated | Non-harmonic speech detection and bandwidth extension in a multi-source environment |
DK201770383A1 (en) | 2017-05-09 | 2018-12-14 | Apple Inc. | USER INTERFACE FOR CORRECTING RECOGNITION ERRORS |
US10417266B2 (en) | 2017-05-09 | 2019-09-17 | Apple Inc. | Context-aware ranking of intelligent response suggestions |
US10726832B2 (en) | 2017-05-11 | 2020-07-28 | Apple Inc. | Maintaining privacy of personal information |
US10395654B2 (en) | 2017-05-11 | 2019-08-27 | Apple Inc. | Text normalization based on a data-driven learning network |
DK201770429A1 (en) | 2017-05-12 | 2018-12-14 | Apple Inc. | LOW-LATENCY INTELLIGENT AUTOMATED ASSISTANT |
US11301477B2 (en) | 2017-05-12 | 2022-04-12 | Apple Inc. | Feedback analysis of a digital assistant |
US10311144B2 (en) | 2017-05-16 | 2019-06-04 | Apple Inc. | Emoji word sense disambiguation |
US10403278B2 (en) | 2017-05-16 | 2019-09-03 | Apple Inc. | Methods and systems for phonetic matching in digital assistant services |
US20180336275A1 (en) | 2017-05-16 | 2018-11-22 | Apple Inc. | Intelligent automated assistant for media exploration |
US10657328B2 (en) | 2017-06-02 | 2020-05-19 | Apple Inc. | Multi-task recurrent neural network architecture for efficient morphology handling in neural language modeling |
US10445429B2 (en) | 2017-09-21 | 2019-10-15 | Apple Inc. | Natural language understanding using vocabularies with compressed serialized tries |
US10755051B2 (en) | 2017-09-29 | 2020-08-25 | Apple Inc. | Rule-based natural language processing |
US10791014B2 (en) * | 2017-10-27 | 2020-09-29 | Terawave, Llc | Receiver for high spectral efficiency data communications system using encoded sinusoidal waveforms |
US11876659B2 (en) | 2017-10-27 | 2024-01-16 | Terawave, Llc | Communication system using shape-shifted sinusoidal waveforms |
US10636424B2 (en) | 2017-11-30 | 2020-04-28 | Apple Inc. | Multi-turn canned dialog |
US10733982B2 (en) | 2018-01-08 | 2020-08-04 | Apple Inc. | Multi-directional dialog |
EP4095855B1 (en) * | 2018-01-17 | 2023-10-04 | Nippon Telegraph And Telephone Corporation | Decoding apparatus, encoding apparatus, and methods and programs therefor |
US10733375B2 (en) | 2018-01-31 | 2020-08-04 | Apple Inc. | Knowledge-based framework for improving natural language understanding |
US10789959B2 (en) | 2018-03-02 | 2020-09-29 | Apple Inc. | Training speaker recognition models for digital assistants |
US10592604B2 (en) | 2018-03-12 | 2020-03-17 | Apple Inc. | Inverse text normalization for automatic speech recognition |
US10818288B2 (en) | 2018-03-26 | 2020-10-27 | Apple Inc. | Natural assistant interaction |
US10909331B2 (en) | 2018-03-30 | 2021-02-02 | Apple Inc. | Implicit identification of translation payload with neural machine translation |
US11145294B2 (en) | 2018-05-07 | 2021-10-12 | Apple Inc. | Intelligent automated assistant for delivering content from user experiences |
US10928918B2 (en) | 2018-05-07 | 2021-02-23 | Apple Inc. | Raise to speak |
US10984780B2 (en) | 2018-05-21 | 2021-04-20 | Apple Inc. | Global semantic word embeddings using bi-directional recurrent neural networks |
US10892996B2 (en) | 2018-06-01 | 2021-01-12 | Apple Inc. | Variable latency device coordination |
DK180639B1 (en) | 2018-06-01 | 2021-11-04 | Apple Inc | DISABILITY OF ATTENTION-ATTENTIVE VIRTUAL ASSISTANT |
DK179822B1 (da) | 2018-06-01 | 2019-07-12 | Apple Inc. | Voice interaction at a primary device to access call functionality of a companion device |
DK201870355A1 (en) | 2018-06-01 | 2019-12-16 | Apple Inc. | VIRTUAL ASSISTANT OPERATION IN MULTI-DEVICE ENVIRONMENTS |
US11386266B2 (en) | 2018-06-01 | 2022-07-12 | Apple Inc. | Text correction |
US10496705B1 (en) | 2018-06-03 | 2019-12-03 | Apple Inc. | Accelerated task performance |
CN110660402B (zh) | 2018-06-29 | 2022-03-29 | 华为技术有限公司 | 立体声信号编码过程中确定加权系数的方法和装置 |
EP3671741A1 (en) * | 2018-12-21 | 2020-06-24 | FRAUNHOFER-GESELLSCHAFT zur Förderung der angewandten Forschung e.V. | Audio processor and method for generating a frequency-enhanced audio signal using pulse processing |
RU2713750C1 (ru) * | 2019-07-26 | 2020-02-07 | Федеральное государственное автономное образовательное учреждение высшего образования "Дальневосточный федеральный университет" (ДВФУ) | Способ когерентной разнесенной передачи сигнала |
US11380343B2 (en) | 2019-09-12 | 2022-07-05 | Immersion Networks, Inc. | Systems and methods for processing high frequency audio signal |
KR102201169B1 (ko) * | 2019-10-23 | 2021-01-11 | 성균관대학교 산학협력단 | 메타 표면의 반사 계수를 제어하기 위한 시간 부호 생성 방법, 메타 표면의 반사 계수를 제어하기 위한 시공간 부호 생성 방법, 이를 실행하는 컴퓨터 프로그램이 저장된 컴퓨터 판독 가능한 기록매체, 및 이를 이용한 메타 표면의 신호 변조 방법 |
CN111510555B (zh) * | 2020-04-03 | 2021-04-02 | 厦门亿联网络技术股份有限公司 | 一种dect基站通信方法、装置及系统 |
CN111769901B (zh) * | 2020-05-12 | 2023-04-14 | 厦门亿联网络技术股份有限公司 | 一种传输数据帧的dect基站、移动终端及系统 |
Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US6567876B1 (en) * | 1999-12-03 | 2003-05-20 | Hewlett-Packard Development Company, L.P. | Docking PCI to PCI bridge using IEEE 1394 link |
US6631139B2 (en) * | 2001-01-31 | 2003-10-07 | Qualcomm Incorporated | Method and apparatus for interoperability between voice transmission systems during speech inactivity |
WO2004006226A1 (en) * | 2002-07-05 | 2004-01-15 | Voiceage Corporation | Method and device for efficient in-band dim-and-burst signaling and half-rate max operation in variable bit-rate wideband speech coding for cdma wireless systems |
JP2004501391A (ja) * | 2000-04-24 | 2004-01-15 | クゥアルコム・インコーポレイテッド | 可変レート音声符号器におけるフレーム消去補償方法 |
US6804340B2 (en) * | 2001-05-03 | 2004-10-12 | Raytheon Company | Teleconferencing system |
KR20050049537A (ko) * | 2002-10-11 | 2005-05-25 | 노키아 코포레이션 | 소스 제어되는 가변 비트율 광대역 음성 부호화 방법 및장치 |
US20050177364A1 (en) * | 2002-10-11 | 2005-08-11 | Nokia Corporation | Methods and devices for source controlled variable bit-rate wideband speech coding |
JP2005258226A (ja) * | 2004-03-12 | 2005-09-22 | Toshiba Corp | 広帯域音声復号化方式及び広帯域音声復号化装置 |
US7016834B1 (en) * | 1999-07-14 | 2006-03-21 | Nokia Corporation | Method for decreasing the processing capacity required by speech encoding and a network element |
Family Cites Families (13)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
DE69233502T2 (de) | 1991-06-11 | 2006-02-23 | Qualcomm, Inc., San Diego | Vocoder mit veränderlicher Bitrate |
JPH06337153A (ja) | 1993-05-28 | 1994-12-06 | Toshiba Corp | 空気調和機 |
US6490243B1 (en) * | 1997-06-19 | 2002-12-03 | Kabushiki Kaisha Toshiba | Information data multiplex transmission system, its multiplexer and demultiplexer and error correction encoder and decoder |
KR100273288B1 (ko) * | 1998-04-09 | 2000-12-15 | 김영환 | 디스플레이 패널용 데이터 제어 장치 |
US7330814B2 (en) * | 2000-05-22 | 2008-02-12 | Texas Instruments Incorporated | Wideband speech coding with modulated noise highband excitation system and method |
US20030172114A1 (en) * | 2001-10-24 | 2003-09-11 | Leung Nikolai K. N. | Method and apparatus for data packet transport in a wireless communication system using an internet protocol |
US7254533B1 (en) * | 2002-10-17 | 2007-08-07 | Dilithium Networks Pty Ltd. | Method and apparatus for a thin CELP voice codec |
WO2004090870A1 (ja) * | 2003-04-04 | 2004-10-21 | Kabushiki Kaisha Toshiba | 広帯域音声を符号化または復号化するための方法及び装置 |
KR20070062576A (ko) * | 2004-10-25 | 2007-06-15 | 로베르트 보쉬 게엠베하 | 적어도 2개의 실행 유닛을 포함하는 컴퓨터 시스템에서프로그램 코드로부터 처리를 분리하기 위한 방법 및 장치 |
KR100956877B1 (ko) | 2005-04-01 | 2010-05-11 | 콸콤 인코포레이티드 | 스펙트럼 엔벨로프 표현의 벡터 양자화를 위한 방법 및장치 |
CN2800435Y (zh) * | 2005-05-24 | 2006-07-26 | 鸿富锦精密工业(深圳)有限公司 | 一种便携式光盘播放器 |
US7177804B2 (en) * | 2005-05-31 | 2007-02-13 | Microsoft Corporation | Sub-band voice codec with multi-stage codebooks and redundant coding |
US7747669B2 (en) * | 2006-03-31 | 2010-06-29 | Intel Corporation | Rounding of binary integers |
-
2007
- 2007-02-21 US US11/677,173 patent/US8135047B2/en active Active
- 2007-07-30 TW TW096127832A patent/TWI384807B/zh active
- 2007-07-31 JP JP2009523028A patent/JP5437067B2/ja active Active
- 2007-07-31 CA CA2657424A patent/CA2657424C/en active Active
- 2007-07-31 BR BRPI0714825-9A patent/BRPI0714825A2/pt not_active IP Right Cessation
- 2007-07-31 EP EP07840620.4A patent/EP2047461B1/en active Active
- 2007-07-31 CN CN201410359582.2A patent/CN104123946B/zh active Active
- 2007-07-31 RU RU2009107164/09A patent/RU2421828C2/ru active
- 2007-07-31 KR KR1020097004320A patent/KR101058760B1/ko active IP Right Grant
- 2007-07-31 WO PCT/US2007/074900 patent/WO2008016947A2/en active Application Filing
-
2013
- 2013-05-22 JP JP2013108189A patent/JP2013210659A/ja not_active Withdrawn
Patent Citations (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US7016834B1 (en) * | 1999-07-14 | 2006-03-21 | Nokia Corporation | Method for decreasing the processing capacity required by speech encoding and a network element |
US6567876B1 (en) * | 1999-12-03 | 2003-05-20 | Hewlett-Packard Development Company, L.P. | Docking PCI to PCI bridge using IEEE 1394 link |
JP2004501391A (ja) * | 2000-04-24 | 2004-01-15 | クゥアルコム・インコーポレイテッド | 可変レート音声符号器におけるフレーム消去補償方法 |
US6631139B2 (en) * | 2001-01-31 | 2003-10-07 | Qualcomm Incorporated | Method and apparatus for interoperability between voice transmission systems during speech inactivity |
US6804340B2 (en) * | 2001-05-03 | 2004-10-12 | Raytheon Company | Teleconferencing system |
WO2004006226A1 (en) * | 2002-07-05 | 2004-01-15 | Voiceage Corporation | Method and device for efficient in-band dim-and-burst signaling and half-rate max operation in variable bit-rate wideband speech coding for cdma wireless systems |
KR20050049537A (ko) * | 2002-10-11 | 2005-05-25 | 노키아 코포레이션 | 소스 제어되는 가변 비트율 광대역 음성 부호화 방법 및장치 |
US20050177364A1 (en) * | 2002-10-11 | 2005-08-11 | Nokia Corporation | Methods and devices for source controlled variable bit-rate wideband speech coding |
JP2006502426A (ja) * | 2002-10-11 | 2006-01-19 | ノキア コーポレイション | ソース制御された可変ビットレート広帯域音声の符号化方法および装置 |
JP2005258226A (ja) * | 2004-03-12 | 2005-09-22 | Toshiba Corp | 広帯域音声復号化方式及び広帯域音声復号化装置 |
Non-Patent Citations (1)
Title |
---|
严新民: "基于DSP的音视频编解码技术的研究", 《中国优秀博硕士学位论文全文数据库(硕士)》 * |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110365615A (zh) * | 2018-03-26 | 2019-10-22 | 晨星半导体股份有限公司 | 载波频偏估测装置与载波频偏估测方法 |
CN113270105A (zh) * | 2021-05-20 | 2021-08-17 | 东南大学 | 一种基于混合调制的类语音数据传输方法 |
CN113270105B (zh) * | 2021-05-20 | 2022-05-10 | 东南大学 | 一种基于混合调制的类语音数据传输方法 |
CN114333862A (zh) * | 2021-11-10 | 2022-04-12 | 腾讯科技(深圳)有限公司 | 音频编码方法、解码方法、装置、设备、存储介质及产品 |
CN114333862B (zh) * | 2021-11-10 | 2024-05-03 | 腾讯科技(深圳)有限公司 | 音频编码方法、解码方法、装置、设备、存储介质及产品 |
Also Published As
Publication number | Publication date |
---|---|
EP2047461B1 (en) | 2013-04-17 |
RU2421828C2 (ru) | 2011-06-20 |
JP5437067B2 (ja) | 2014-03-12 |
WO2008016947A2 (en) | 2008-02-07 |
KR20090035727A (ko) | 2009-04-10 |
JP2013210659A (ja) | 2013-10-10 |
CA2657424A1 (en) | 2008-02-07 |
US8135047B2 (en) | 2012-03-13 |
TW200816716A (en) | 2008-04-01 |
CN104123946B (zh) | 2019-04-12 |
BRPI0714825A2 (pt) | 2013-05-21 |
US20080027711A1 (en) | 2008-01-31 |
CA2657424C (en) | 2013-05-28 |
KR101058760B1 (ko) | 2011-08-24 |
TWI384807B (zh) | 2013-02-01 |
EP2047461A2 (en) | 2009-04-15 |
RU2009107164A (ru) | 2010-09-10 |
WO2008016947A3 (en) | 2008-03-20 |
JP2010501080A (ja) | 2010-01-14 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN104123946A (zh) | 用于在与语音信号相关联的包中包含识别符的系统及方法 | |
US10249313B2 (en) | Adaptive bandwidth extension and apparatus for the same | |
CN101180677B (zh) | 用于宽频带语音编码的系统、方法和设备 | |
CN102934163B (zh) | 用于宽带语音编码的系统、方法、设备 | |
CN102411935B (zh) | 用于带宽延伸语音预测激励信号的抗稀疏滤波的方法和设备 | |
CN102110440B (zh) | 用于增益因数衰减的系统、方法和设备 | |
RU2636685C2 (ru) | Решение относительно наличия/отсутствия вокализации для обработки речи | |
KR102138320B1 (ko) | 통신 시스템에서 신호 코덱 장치 및 방법 | |
CN101496097A (zh) | 用于在与语音信号相关联的包中包含识别符的系统及方法 | |
JP2005258478A (ja) | 符号化装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |