CN1659625A - 在基于线性预测的语音编码解码器中有效帧删除隐藏的方法和器件 - Google Patents
在基于线性预测的语音编码解码器中有效帧删除隐藏的方法和器件 Download PDFInfo
- Publication number
- CN1659625A CN1659625A CN038125943A CN03812594A CN1659625A CN 1659625 A CN1659625 A CN 1659625A CN 038125943 A CN038125943 A CN 038125943A CN 03812594 A CN03812594 A CN 03812594A CN 1659625 A CN1659625 A CN 1659625A
- Authority
- CN
- China
- Prior art keywords
- frame
- parameter
- parts
- sound
- signal
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 92
- 230000007704 transition Effects 0.000 claims abstract description 94
- 238000011084 recovery Methods 0.000 claims abstract description 58
- 230000004044 response Effects 0.000 claims abstract description 50
- 230000005540 biological transmission Effects 0.000 claims abstract description 20
- 230000005236 sound signal Effects 0.000 claims abstract description 8
- 230000008030 elimination Effects 0.000 claims description 105
- 238000003379 elimination reaction Methods 0.000 claims description 105
- 238000005086 pumping Methods 0.000 claims description 84
- 238000005070 sampling Methods 0.000 claims description 57
- 230000000737 periodic effect Effects 0.000 claims description 36
- 238000001228 spectrum Methods 0.000 claims description 33
- 239000002131 composite material Substances 0.000 claims description 29
- 238000001914 filtration Methods 0.000 claims description 21
- 238000011002 quantification Methods 0.000 claims description 20
- 238000012217 deletion Methods 0.000 claims description 16
- 230000037430 deletion Effects 0.000 claims description 16
- 230000007774 longterm Effects 0.000 claims description 11
- 238000010606 normalization Methods 0.000 claims description 11
- 230000008859 change Effects 0.000 claims description 7
- 230000008569 process Effects 0.000 claims description 7
- 230000002045 lasting effect Effects 0.000 claims description 3
- 125000002015 acyclic group Chemical group 0.000 claims 16
- 230000001737 promoting effect Effects 0.000 claims 2
- 238000002407 reforming Methods 0.000 claims 2
- 238000000926 separation method Methods 0.000 claims 1
- 230000003595 spectral effect Effects 0.000 abstract description 2
- 230000005284 excitation Effects 0.000 description 40
- 230000011218 segmentation Effects 0.000 description 22
- 238000004891 communication Methods 0.000 description 21
- 238000004458 analytical method Methods 0.000 description 19
- 230000006870 function Effects 0.000 description 14
- 238000012545 processing Methods 0.000 description 11
- 230000003044 adaptive effect Effects 0.000 description 10
- 238000013139 quantization Methods 0.000 description 10
- 238000010586 diagram Methods 0.000 description 9
- 238000004422 calculation algorithm Methods 0.000 description 8
- 238000005516 engineering process Methods 0.000 description 8
- 230000015572 biosynthetic process Effects 0.000 description 7
- 230000001965 increasing effect Effects 0.000 description 7
- 238000012546 transfer Methods 0.000 description 7
- 206010019133 Hangover Diseases 0.000 description 6
- 238000003786 synthesis reaction Methods 0.000 description 6
- 230000008901 benefit Effects 0.000 description 5
- 230000000694 effects Effects 0.000 description 5
- 230000002829 reductive effect Effects 0.000 description 5
- 239000012141 concentrate Substances 0.000 description 4
- 230000009467 reduction Effects 0.000 description 4
- 238000007493 shaping process Methods 0.000 description 4
- 238000003860 storage Methods 0.000 description 4
- 238000006243 chemical reaction Methods 0.000 description 3
- 238000012937 correction Methods 0.000 description 3
- 238000009795 derivation Methods 0.000 description 3
- 238000009826 distribution Methods 0.000 description 3
- 230000002708 enhancing effect Effects 0.000 description 3
- 239000003381 stabilizer Substances 0.000 description 3
- 230000006978 adaptation Effects 0.000 description 2
- 238000013459 approach Methods 0.000 description 2
- 230000006399 behavior Effects 0.000 description 2
- 238000004364 calculation method Methods 0.000 description 2
- 230000001413 cellular effect Effects 0.000 description 2
- 230000007423 decrease Effects 0.000 description 2
- 239000003623 enhancer Substances 0.000 description 2
- 230000007613 environmental effect Effects 0.000 description 2
- 239000000284 extract Substances 0.000 description 2
- 230000006872 improvement Effects 0.000 description 2
- 239000011159 matrix material Substances 0.000 description 2
- 238000011045 prefiltration Methods 0.000 description 2
- 230000003449 preventive effect Effects 0.000 description 2
- 230000003068 static effect Effects 0.000 description 2
- 230000001629 suppression Effects 0.000 description 2
- 240000004859 Gamochaeta purpurea Species 0.000 description 1
- 102100029469 WD repeat and HMG-box DNA-binding protein 1 Human genes 0.000 description 1
- 101710097421 WD repeat and HMG-box DNA-binding protein 1 Proteins 0.000 description 1
- 230000002238 attenuated effect Effects 0.000 description 1
- 230000001427 coherent effect Effects 0.000 description 1
- 238000010219 correlation analysis Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 230000001419 dependent effect Effects 0.000 description 1
- 238000001514 detection method Methods 0.000 description 1
- 230000004069 differentiation Effects 0.000 description 1
- 238000002474 experimental method Methods 0.000 description 1
- 238000009432 framing Methods 0.000 description 1
- 230000005764 inhibitory process Effects 0.000 description 1
- 238000012886 linear function Methods 0.000 description 1
- 238000012423 maintenance Methods 0.000 description 1
- 230000007935 neutral effect Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000005457 optimization Methods 0.000 description 1
- 230000036961 partial effect Effects 0.000 description 1
- 230000008447 perception Effects 0.000 description 1
- 230000008929 regeneration Effects 0.000 description 1
- 238000011069 regeneration method Methods 0.000 description 1
- 230000002441 reversible effect Effects 0.000 description 1
- 230000035807 sensation Effects 0.000 description 1
- 230000035945 sensitivity Effects 0.000 description 1
- 238000005728 strengthening Methods 0.000 description 1
- 230000001360 synchronised effect Effects 0.000 description 1
- 230000002194 synthesizing effect Effects 0.000 description 1
- 238000012360 testing method Methods 0.000 description 1
- 230000001052 transient effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/005—Correction of errors induced by the transmission channel, if related to the coding algorithm
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/04—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
- G10L19/08—Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters
- G10L19/12—Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters the excitation function being a code excitation, e.g. in code excited linear prediction [CELP] vocoders
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Signal Processing (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Compression, Expansion, Code Conversion, And Decoders (AREA)
- Transmission Systems Not Characterized By The Medium Used For Transmission (AREA)
Abstract
本发明涉及一种方法和器件,用于改善由在从编码器(106)向解码器(110)的发送期间被消除的编码声音信号的帧引起的帧消除的隐藏,并且用于促进在已经接收到所述编码的声音信号的未删除帧后解码器的恢复。为此,在编码器或解码器中确定隐藏/恢复参数。当在编码器(106)中确定时,隐藏/恢复参数被发送到解码器(110)。在解码器中响应于所述隐藏/恢复参数来进行消除帧隐藏和解码器恢复。可以从由下述组成的组中选择所述隐藏/恢复参数:信号分类参数、能量信息参数和相位信息参数。隐藏/恢复参数的确定包括:将编码的声音信号的连续帧分类为无声、无声过渡、有声过渡、有声或开始,并且根据下述参数的至少一部分来确定这个分类:归一化的相关性参数、谱倾斜参数、信号噪声比参数、音调稳定性参数、相对帧能量参数和零交叉参数。
Description
技术领域
本发明涉及一种用于考虑到发送和/或合成声音信号而数字编码这个声音信号的技术,所述声音信号特别是、但又不限于语音信号。更具体而言,本发明涉及,在由于例如在无线系统中的信道误差或在通过分组网络应用的话音传输应用中的丢失分组而被删除的帧的情况下,强壮地(robust)编码和解码声音信号以保持良好的性能。
背景技术
在诸如电话会议、多媒体和无线通信的各种应用领域中越来越需要具有在主观质量和比特率之间的良好折中的、有效数字窄带和宽带语音编码技术。直到近期,在语音编码应用中主要使用被限于范围200-3400Hz的电话带宽。但是,宽带语音应用与传统的电话带宽相比较提供了在通信中的提高的可懂度和自然度。已经发现在范围50-7000Hz中的带宽主要足够提供给出面对面通信印象的良好质量。对于一般的音频信号,这个带宽给出了可接受的主观质量,但是仍然低于分别在范围20-16000Hz和20-20000Hz上工作的FM无线电或CD的质量。
语音编码器将语音信号转换为数字比特流。所述数字比特流被通过通信信道发送或存储在存储介质中。语音数据被数字化,即以每个采样16个比特来被采样和量化。语音编码器具有在保持良好的主观语音质量的同时以较小数量的比特表示这些数字采样的角色。语音解码器或合成器操作被发送或存储的比特流,并且将其转换回声音信号。
码激励线性预测(CELP)编码是用于获得在主观质量和比特率之间的良好折衷的最佳可用技术之一。这种编码技术是在无线和有线应用中的几种语音编码标准的基础。在CELP编码中,以通常被称为帧的L个采样的连续块来处理被采样的语音信号,其中L是通常对应于10-30毫秒的预定数量。对每个帧计算和发送线性预测(LP)滤波器。LP滤波器的计算通常需要一个前视(lookahead),即自后续帧的一个5-15毫秒的语音段。L采样帧被划分为被称为子帧的更小的块。通常子帧的数量是3或4,导致4-10毫秒的子帧。在每个子帧中,通常从两个分量、即过去激励和新颖的固定代码本激励来获得激励信号。从过去激励形成的分量经常被称为自适应代码本或音调激励。代表激励信号的特征的参数被编码和发送到解码器,其中重建的激励信号被用作LP滤波器的输入。
由于低比特率语音编码的主要应用是无线移动通信系统和通过分组网络的话音传输,因此在帧删除的情况下提高语音编码解码的强壮性变得特别重要。在无线蜂窝系统中,所接收的信号的能量可以显示出频繁的严重衰落,导致高的比特误差率,并且这在小区边界变得更明显。在这种情况下,信道解码器不能校正在所接收的帧中的误差,结果,通常在信道解码器后使用的误差检测器将所述帧声称为被删除。在通过分组网络的话音传输应用中,语音信号被分组化,其中在每个分组中通常布置一个20毫秒的帧。在分组交换通信中,如果分组的数量变得很大,则在路由器会发生分组丢失,或者分组会在很长的延迟后到达接收器,并且如果其延迟大于在接收器端的抖动缓冲器的长度则它将被声称为丢失。在这些系统中,编码解码通常承受3-5%的帧删除率。而且,宽带语音编码的使用是这些系统的重要资产,以便使得它们可以与使用传统的窄带语音信号的传统的PSTN(公共交换电话网络)竞争。
在CELP中的自适应代码本或音调预测器在以低比特率保持高语音质量中扮演重要角色。但是,因为自适应代码本的内容是基于来自过去的帧的信号,因此这使得编码解码模型对于帧丢失敏感。在被删除或丢失的帧的情况下,在解码器的自适应代码本的内容变得与在编码器的其内容不同。因此,在一个被丢失的帧被隐藏并且接收到随后的良好帧后,在所接收的良好帧中的合成信号与预期的合成信号不同,因为自适应代码本的作用已经改变。丢失的帧的影响依赖于其中发生删除的语音段的性质。如果在信号的静止分段中发生删除,则可以执行有效的帧删除,并且可以最小化对于随后的良好帧的影响。另一方面,如果在语音开始或过渡中发生删除,则删除的影响可以传播到几个帧。例如,如果丢失了话音分段的开始,则第一音调周期就会从自适应代码本内容丢失。这将对于在随后的良好帧中的音调预测器有严重的影响,导致在合成信号与在编码器的期望的信号达成一致之前要很长时间。
发明内容
本发明涉及一种方法,用于改善在从编码器向解码器的发送期间被删除的编码的声音信号的帧引起的帧删除的隐藏,并且用于促进在已经接收到所述编码的声音信号的未删除帧后解码器的恢复,包括:
在编码器中确定隐藏/恢复参数;
向解码器发送在编码器确定的隐藏/恢复参数;
在解码器,响应于所接收的隐藏/恢复参数而进行删除帧隐藏和解码器恢复。
本发明也涉及一种方法,用于在以信号编码参数形式下编码的声音信号从编码器向解码器的发送期间被删除的帧引起的帧删除的隐藏,并且用于促进在已经接收到所述编码的声音信号的未删除帧后解码器的恢复,包括:
在解码器中从所述信号编码参数确定隐藏/恢复参数;
在解码器中,响应于所确定的隐藏/恢复参数而进行删除帧隐藏和解码器恢复。
按照本发明,也提供了一种器件,用于改善在从编码器向解码器的发送期间被删除的编码的声音信号的帧引起的帧删除的隐藏,并且用于促进在已经接收到所述编码的声音信号的未删除帧后解码器的恢复,包括:
用于在编码器中确定隐藏/恢复参数的部件;
用于向解码器发送在编码器确定的隐藏/恢复参数的部件;
在解码器,用于响应于所接收的隐藏/恢复参数而进行删除帧隐藏和解码器恢复的部件。
按照本发明,还提供了一种器件,用于在以信号编码参数形式下编码的声音信号从编码器向解码器的发送期间被删除的帧引起的帧删除的隐藏,并且用于促进在已经接收到所述编码的声音信号的未删除帧后解码器的恢复,包括:
用于在解码器中从所述信号编码参数确定隐藏/恢复参数的部件;
在解码器中,用于响应于所确定的隐藏/恢复参数而进行删除帧隐藏和解码器恢复的部件。
本发明也涉及一种用于编码和解码声音信号的系统和使用上述器件的声音信号编码器,用于改善在从编码器向解码器的发送期间被删除的编码的声音信号的帧引起的帧删除的隐藏,并且用于促进在已经接收到所述编码的声音信号的未删除帧后解码器的恢复。
在阅读参照附图仅仅通过示例给出的、本发明的说明性实施例的下面的非限定性说明后,本发明的上述和其他目的、优点和特点将变得更为明显。
附图说明
图1是图解按照本发明的语音编码和解码器件的应用的、语音通信系统的示意方框图;
图2是宽带编码器件(AMR-WB编码器)的示例的示意方框图;
图3是宽带解码器件(AMR-WB解码器)的示例的示意方框图;
图4是图2的AMR-WB编码器的简化方框图,其中,下采样器模块、高通滤波器模块和预加重滤波器模块已经被编组到单个预处理模块中,其中闭环音调搜索模块、零输入响应计算器模块、脉冲响应产生器模块、新颖激励搜索模块和存储器更新模块已经被编组到单个闭环音调和新颖代码本搜索模块中;
图5是其中已经增加了与本发明的说明性实施例相关联的模块的、图4的方框图的扩展;
图6是说明当构建人工开始时的情况的方框图;
图7是示出用于删除隐藏的帧分类状态机的说明性实施例的示意图。
具体实施方式
虽然在下面的说明中与语音信号相关联的地说明本发明的说明性实施例,但是应当记住,本发明的思想等同地适用于其他类型的信号,特别是、但又不限于其他类型的语音信号。
图1图解了描述在本发明的环境中的语音编码和解码的使用的语音通信系统100。图1的语音通信系统100支持通过通信信道101的语音信号的发送。虽然它可以包括例如导线、光链路或纤链路,但是,通信信道101通常至少部分地包括射频链路。所述射频链路经常支持需要共享的带宽资源的多个同时的语音通信,所述共享的带宽资源诸如可以在蜂窝电话系统中发现的那样。虽然未示出,通信信道101可以被替代为在系统100的单个器件实施例中的存储器,其用于记录和存储编码的语音信号以用于未来的重放。
在图1的语音通信系统100中,麦克风102产生模拟语音信号103,它被提供到模数(A/D)转换器104,用于将其转换为数字语音信号105。语音编码器106将数字语音信号105编码以产生一组信号编码参数107,它们被编码为二进制形式,并且被提供到信道编码器108。选用的信道编码器108在通过通信信道101发送它们之前向所述信号编码参数107的二进制表示添加冗余。
在接收器中,信道解码器109使用在所接收的比特流111中的所述冗余信息来检测和校正在发送期间发生的信道误差。语音解码器110将从信道解码器109接收的比特流112转换回一组信号编码参数,并且从被恢复的信号编码参数建立数字合成语音信号113。在语音解码器110重建的数字合成语音信号113被数模(D/A)转换器115转换为模拟形式114,并且通过扬声器单元116被重放。
在本说明书中公开的有效帧删除隐藏方法的说明性实施例可以用于基于窄带或宽带的线性预测的编码解码器。本说明性实施例与宽带语音编码解码器相关联的被公开,所述宽带语音编码解码器已经被国际电联(ITU)标准化为推荐G.722.2,并且被称为AMR-WB编码解码器(自适应多速率宽带编码解码器)[ITU-T Recommendation G.722.2“Wideband coding of speech at around 16kbit/s using Adaptive Multi-Rate Wideband(AMR-WB)”,Geneva,2002(ITU-T推荐G.722.2,“使用自适应多速率宽带(AMR-WB)的在16千比特/秒的语音的宽带编码”,日内瓦,2002)]。这个编码解码器也已经被用于第三代无线系统中的宽带电话的第三代合作工程(3GPP)选择[3GPP TS 26.190,“AMRWideband Speech Codec:Transcoding Functions,”3GPP Techhical Specification(3GPP TS 26.190,“AMR宽带语音编码解码器:码变换功能”,3GPP技术规范)]。AMR-WB可以工作在从6.6到23.85千比特/秒范围的9比特速率上。12.65千比特/秒的比特率被用于说明本发明。
在此,应当明白,有效帧删除隐藏方法的说明性实施例可以被应用到其他类型的编码解码器。
在下面的部分中,将首先提供AMR-WB编码器和解码器的概览。然后将公开用于改善编码解码器的强壮性的新方案的说明性实施例。
AMR-WB编码器概览
采样的语音信号被图2的编码器件200逐个块地进行编码,编码器件200被拆分为从201到211编号的11个模块。
输入语音信号212因此逐个块地、即在上述的被称为帧的L个采样块中被处理。
参见图2,采样的输入语音信号212在下采样器模块201中被下采样。使用本领域内的普通技术人员公知的技术,所述信号被从16kHz下采样到12.8kHz。下采样提高了编码效率,因为编码较小的频带宽度。这也降低了算法的复杂性,因为减少了在帧中的采样的数量。在下采样后,20毫秒的320个采样的帧被降低到256个采样的帧(下采样比率4/5)。
输入的帧然后被提供到选用的预处理模块202。预处理模块202可以由具有50Hz截止频率的高通滤波器组成。高通滤波器202去除低于50Hz的不需要的声音分量。
所述下采样的、预处理的信号被表示为sp(n),n=0,1,2,...,L-1,其中L是帧的长度(在12.8kHz的采样频率下是256)。在预加重滤波器203的一个说明性实施例中,使用具有下面转移函数的滤波器来预加重信号sp(n):
P(z)=1-μz-1
其中,μ是预加重系数,它具有在0和1之间的值(典型值是μ=0.7)。预加重滤波器203的功能是用于加强输入的语音信号的高频内容。它也降低了输入的语音信号的动态范围,这使得它更适合于固定点的实现。预加重也在获得量化误差的正确的总体感性加权中扮演重要的角色,所述加权有助于改善的声音质量。下面更详细地说明此。
预加重滤波器203的输出被表示为s(n)。这个信号用于在模块204中执行LP分析。LP分析是本领域内普通技术人员公知的技术。在这个说明性实现方式中,使用自相关方案。在所述自相关方案中,通常使用具有30-40毫秒等级的长度的汉明(hamming)窗口来为信号s(n)加窗口。从加窗口的信号来计算自相关,并且使用Levinson-Durbin递归来计算LP滤波器系数aj,其中i=1,...,p,并且其中p是LP阶,它在宽带编码中通常是16。参数aj是LP滤波器的转移函数A(z)的系数,它由下面的关系式给出:
在模块204执行LP分析,模块204也执行LP滤波器系数的量化和内插。LP滤波器系数首先被变换到更适合于量化和内插目的的另一个等同的域中。线谱对(LSP)和导抗谱对(ISP)域是其中可以有效地执行量化和内插的两个域。16个LP滤波器系数aj可以使用分开或多级量化或其组合来以30-50比特的等级量化16个LP滤波器系数aj。内插的目的是使能每个帧更新LP滤波器系数,同时每个帧发送它们一次,这改善了编码器性能而不提高比特率。LP滤波器系数的量化和内插相信是本领域内普通技术人员公知的,因此不在本说明书中进一步说明。
下面的段落将说明在子帧基础上执行的编码操作的其余部分。在这个说明性实现方式中,输入帧被分类为5毫秒的4个子帧(以12.8kHz的采样频率的64个采样)在下面的说明中,滤波器A(z)表示子帧的未量化的内插LP滤波器,并且滤波器
表示子帧的量化的内插LP滤波器。每个帧向复用器213提供滤波器
用于通过通信信道来进行发送。
在合成分析编码器中,通过最小化在感觉加权域中在输入的语音信号212和合成的语音信号之间的均方误差来搜索最佳音调和革新(innovation)参数。响应于来自预加重滤波器203的信号s(n)而在感觉加权滤波器205中计算加权信号sw(n)。使用适合于宽带信号的具有固定分母的的感觉加权滤波器205。通过下面的关系式来给出用于感觉加权滤波器205的转移函数的实例:
W(z)=A(z/γ1)/(1-γ2z-1) 其中0<γ2<γ1≤1
为了简化音调分析,首先在开环音调搜索模块206中从加权的语音信号sw(n)估计开环音调时滞TOL。然后在子帧基础上在闭环音调搜索模块207中执行的闭环音调分析被限制在开环音调时滞TOL周围,这显著降低了LTP参数T(音调时滞)和b(音调增益)的搜索复杂度。通常使用本领域内普通技术人员公知的技术,每10毫秒(两个子帧)一次在模块206中执行开环音调分析。
用于LTP(长期预测)分析的目标向量x首先被计算。这通常是通过从加权的语音信号sw(n)减去加权合成滤波器
的零输入响应s0来完成的。零输入响应计算器208响应于来自LP分析、量化和内插模块204的量化的内插LP滤波器
和响应于在存储器更新模块211中存储的加权合成滤波器
的初始状态来计算这个零输入响应s0,其中在存储器更新模块211中存储的加权合成滤波器
的初始状态响应于LP滤波器
与激励向量u。这种操作是本领域内的普通技术人员公知的,因此不进一步说明。
在闭环音调搜索模块207中计算闭环音调(或音调代码本)参数b、T和j,闭环音调搜索模块207使用目标向量x、脉冲响应向量h和开环音调时滞TOL来作为输入。
音调搜索包括找寻最小化在目标向量x和过去激励的定标滤波版本之间的均方加权音调预测误差的最佳音调时滞T和增益b,所述均方加权音调预测误差例如
e(j)=||x-b(j)y(j))||2其中j=1,2,...,k
更具体而言,在本说明性实现方式中,音调(音调代码本)搜索包括三个阶段。
在第一阶段,响应于加权语音信号sw(n)来在开环音调搜索模块206中估计开环音调时滞TOL。如在上述的说明中所述,通常使用本领域内普通技术人员公知的技术,每10毫秒(两个子帧)一次执行开环音调分析。
在第二阶段,在闭环音调搜索模块207中搜索用于在所估计的开环音调时滞TOL(通常±5)周围的整数音调时滞的搜索标准C,这大大简化了搜索程序。使用简单的程序来用于更新滤波的代码向量yT(这个向量在下面的说明中被定义)而不必计算每个音调时滞的卷积。通过下面的公式来给出搜索标准C的示例:
一旦在第二阶段中找到最佳整数音调时滞,则搜索的第三阶段(模块207)按照搜索标准C来测试在那个最佳整数音调时滞周围的小部分(fraction)。例如,AMR-WB标准使用1/4和1/2子采样分辨率。
在宽带信号中,根据语音分段,仅仅对于特定的频率存在谐波结构。因此,为了在宽带语音信号的话音分段中获得音调分布的有效表示,需要灵活性来改变在宽带频谱上的周期的量。这是通过经由多个频率整形滤波器(例如低通或带通滤波器)处理音调代码向量而被实现的。选择最小化均方加权误差e(j)的频率整形滤波器。所选择的频率整形滤波器是通过索引j来识别的。
音调代码本索引T被编码和发送到复用器213以便通过通信信道发送。音调增益b被量化和发送到复用器213。使用额外的比特来编码索引j,这个额外的比特也被提供到复用器213。
一旦确定了音调或LTP(长期预测)参数b、T和j,则下一个步骤是通过图2的革新激励搜索模块210来搜索最佳的革新激励。首先,通过减去LTP贡献(contribution)来更新目标向量x:
x’=x-byT
其中b是音调增益,yT是被滤波的音调代码本向量(在延迟T的过去激励,它使用所选择的频率整形滤波器(索引j)被滤波并且使用脉冲响应h被卷积)。
在革新代码本中执行在CELP中的革新激励搜索程序以寻找最佳激励代码向量ck和增益g,它们最小化在目标向量x’和代码向量ck的定标滤波版本之间的均方误差E,例如:
E=||x’-gHck||2
其中H是从脉冲响应向量h导出的低三角卷积矩阵。对应于所找到的最佳代码向量ck的革新代码本的索引k和增益g被提供到复用器213以通过通信信道发送。
应当注意,按照1995年8月22日授予Adoul等的美国专利5,444,816,所使用的革新代码本是动态的代码本,它包括代数代码本,其后跟随自适应前置滤波器F(z),自适应前置滤波器F(z)增强特殊频谱分量以便改善合成语音质量。在这个说明书实现中,通过在下述美国专利中所述的代数代码本来在模块210中执行革新代码本搜索:1995年8月22日授予的5,444,816(Adoul等);1997年12月17日授予Adoul等的5,699,482;1998年5月19日属于Adoul等的5,754,976;1997年12月23日的5,701,392(Adoul等)。
AMR-WB解码器概述
图3的语音解码器300图解在数字输入322(对于去复用器317的输入比特流)和输出采样的语音信号323(加法器321的输出)之间执行的各种步骤。
去复用器317从自数字输入信道接收的二进制信息(输入的比特流322)提取合成模型参数。从每个所接收的二进制帧,所提取的参数是:
·长期预测(LTP)参数T、b和j(对于每个子帧);
·革新代码本索引k和增益g(对于每个子帧)。
根据这些参数来合成当前的语音信号,如下所述。
革新代码本318响应于索引k以产生革新代码向量ck,它由被解码的增益系数g通过放大器324定标(scale)。在所述说明性实现中,使用上述的美国专利5,444,816、5,699,482、5,754,976和5,701,392号中所述的革新代码本来产生革新代码向量ck。
在放大器324的输出的所产生的定标代码向量通过频率相关的音调增强器305被处理。
增强激励信号u的周期性改善了话音分段的质量。周期性增强是通过下述方式实现的:通过经由革新滤波器F(z)(音调增强器305)从革新(固定的)代码本过滤革新代码向量ck,革新滤波器F(z)的频率响应对较高频率的加重比对较低频率的加重更多。革新滤波器F(z)的系数与在激励信号u中的周期数量相关联。
一种导出革新滤波器F(z)的系数的有效说明性方式是将它们与在整个激励信号u中的音调贡献量相关联。这导致依赖于子帧周期性的频率响应,其中较高的频率被更强地加重(更强的整体斜率)以获得较高的音调增益。革新滤波器305具有下述效果:当激励信号u更加周期性时,降低在较低频率的革新代码向量ck的能量,这将比在较高频率更加增强了在较低频率的激励信号u的周期性。革新滤波器305的一种建议的形式如下:
F(z)=-αz+1-αz-1
其中α是从激励信号u的周期性水平导出的周期性系数。在话音系数产生器304中计算周期性系数α。首先,通过下面的式子来在话音系数产生器304中计算话音系数rV:
rV=(EV-Ec)/(EV+Ec)
其中EV是定标的音调代码向量bvT的能量,Ec是定标的革新代码向量gck的能量。即:
和
注意rV的值处于-1和1之间(1对应于纯话音信号,而-1对应于纯非话音信号)。
通过将音调延迟T应用到音调代码本301以产生音调代码向量,以便产生上述定标的音调代码向量bvT。然后通过低通滤波器302来处理所述音调代码向量,以产生滤波的音调代码向量vT,低通滤波器302的截止频率是从去复用器317与索引j相关联地被选择的。然后,通过放大器326将被滤波的音调代码向量vT放大音调增益b倍,以产生定标的音调代码向量bvT。
在这个说明书实现中,然后通过下式来在话音系数产生器304中计算系数α:
α=0.125(1+rV)
它对应于纯非话音信号的值0和纯话音信号的0.25。
因此通过经由革新滤波器305(F(z))过滤定标的革新代码向量gck来计算增强的信号cf。
通过加法器320来计算增强的激励信号u’为:
u’=cf+bvT
应当注意,不在编码器200执行这个处理。因此,必须使用在存储器303中存储的没有增强的激励信号u的过去的值来更新音调代码本301的内容以保持在编码器200和解码器300之间的同步。因此,使用激励信号u来更新音调代码本301的存储器303,并且在LP合成滤波器306的输入端使用增强的激励信号u’。
通过经由具有
形式的LP合成滤波器306过滤增强的激励信号u’来计算合成的信号s’,其中
是在当前子帧中的量化的内插LP滤波器。可以从图3中看出,来自去复用器317的在线325上的量化的内插LP系数
被提供到LP合成滤波器306以因此调整LP合成滤波器306的参数。去加重滤波器307是图2的预加重滤波器203的翻转。去加重滤波器307的转移函数由下式给出:
D(z)=1/(1-μz-1)
其中μ是预加重系数,它具有位于0和1之间的值(典型值是μ=0.7)。也可以使用更高阶滤波器。
向量s’通过去加重滤波器D(z)307被滤波以获得向量sd,它通过高通滤波器308被处理以去除在50Hz下的不需要的频率并进一步获得sh。
重复采样器(oversampler)309进行图2的下采样器201的反向处理。在这个说明性实施例中,重复采样使用本领域内普通技术人员公知的技术来将12.8kHz的采样率转换回原始的16kHz的采样率。被重复采样的合成信号被表示为
信号
也被称为合成的宽带中间信号。
重复采样的合成信号
不包括在编码器200的下采样处理期间(图2的模块201)丢失的高频分量。这向合成的语音信号提供了低通感觉(perception)。为了恢复原始信号的全频带,在模块310中执行高频产生程序,并且需要来自话音系数产生器304的输入(图3)。
加法器321将来自高频产生模块310的结果产生的带通滤波的噪音序列z加到所述重复采样的合成语音信号
上,以在输出323上获得最后重建的输出语音信号sout。在2000年5月4日的第WO 00/25305号下公布的国际PCT专利申请中说明了高频再生处理的示例。
在表1中给出了在12.65千比特/秒的AMR-WB编码解码器的比特分配。
表1在12.65千比特/秒的比特分配
参数 | 比特/帧 |
LP参数音调延迟音调滤波增益代数代码本模式比特 | 4630=9+6+9+64=1+1+1+128=7+7+7+7144=36+36+36+361 |
总计 | 253比特=12.65千比特/秒 |
强壮帧消除隐藏
帧的消除对于在数字语音通信系统中的合成语音的质量有主要影响,尤其是当工作在无线环境和分组交换网络中的时候。在无线蜂窝系统中,所接收的信号的能量可以显示出频繁的严重衰落,导致高的误码率,这在小区边界变得更明显。在这种情况下,信道解码器不能校正是所接收的帧中的误差哈,结果,通常在信道解码器后使用的误差检测器将所述帧声明为被消除。在诸如基于网际协议的语音传输的(VoIP)通过分组网络的话音传输应用中,语音信号被分组化,其中通常在每个分组中布置一个20毫秒的帧。在分组交换通信中,如果分组的数量变得很大,则在路由器会发生分组丢失,或分组在很长延迟之后到达接收器,并且如果其延迟大于在接收器端的抖动缓冲器的长度则将其声称为丢失。在这些系统中,编码解码器通常具有3-5%的帧消除率。
帧消除(FER)问题的处理一般有两重(twofold)。首先,当被消除的帧指示器到达时,必须通过使用在前一个帧中发送的信息和通过估计在丢失的帧中的信号演变来产生丢失的帧。估计的成功不仅依赖于隐藏策略,而且依赖于在发生消除的语音信号中的位置。其次,必须当恢复正常的工作时、即当第一个好帧在一块被消除的帧(一个或多个)后到达时保证平滑的过渡。这不是不重要的任务,因为真实的合成和所估计的合成会不相同地演化。当第一个好帧到达时,解码器于是与编码器不同步。主要原因是低比特率的编码器依赖于音调预测,并且在被消除的帧期间,音调预测器的存储器不再与在编码器的那个相同。当许多连续的帧被消除时所述问题被放大。关于隐藏,通常的处理恢复的困难度依赖于发生消除的语音信号的类型。
可以通过将通常处理的隐藏和恢复(进一步的恢复)适配于发生消除的语音信号的类型来大大地降低帧消除的负面影响。为此,需要将每个语音帧分类。这种分类可以在编码器进行和被发送。或者,可以在解码器估计它。
对于最佳的隐藏和恢复,存在必须小心地控制的语音信号的较少的临界特性。这些临界特性是信号能量或幅度、周期性的数量、谱包络和音调周期。在有声的语音恢复的情况下,可以通过相位控制来实现进一步的改善。使用比特率中的小提高,可以量化和发送少数补充参数以获得较好的控制。如果不可获得附加的带宽,则可以在解码器估计所述参数。在控制这些参数的情况下,可以大大地改善帧消除隐藏和恢复,尤其是通过改善在编码器将被解码的信号向实际信号的汇聚和减轻当恢复通常处理时在编码器和解码器之间的不匹配的效果。
在本发明的当前说明书实施例中,公开了用于有效的帧消除隐藏的方法和用于提取和发送将在解码器改善在被消除的帧之后的帧中的性能和汇聚的参数的方法。这些参数包括下面的两个或多个:帧分类、能量、话音信息和相位信息。而且,公开了用于如果不可能发送额外的比特则在解码器提取这样的参数的方法。最后,也公开了用于改善在被消除的帧之后的好帧中的解码器汇聚的方法。
按照当前的说明性实施例的帧消除隐藏技术已经被应用到上述的AMR-WB编码解码器。这种编码解码器将作为示例框架(framework),用于实现在下面的说明中的FER隐藏方法。如上所述,向编码解码器的输入语音信号212具有16kHz的采样频率,但是在进一步处理之前它被下采样到12.8kHz的采样频率。在当前的说明性实施例中,对于下采样的信号进行FER处理。
图4给出了AMR-WB编码器400的简化方框图。在这个简化方框图中,下采样器201、高通滤波器202和预加重滤波器203在预处理模块401中被编组在一起。而且,闭环搜索模块207、零输入响应计算器208、脉冲响应计算器209、革新激励搜索模块210和存储器更新模块211被编组在闭环音调和革新代码本搜索模块402中。进行这个编组来简化引入与本发明的说明性实施例相关联的新模块。
图5是增加了与本发明的说明性实施例相关联的模块的、图4的方框图的扩展。在这些被增加的模块500-507中,附加的参数被计算、量化和发送以便改善在消除的帧后的解码器的FER隐藏和汇聚和恢复。在当前的说明性实施例中,这些参数包括信号分类、能量和相位信息(在帧中的第一声门脉冲的估计位置)。
在接着的部分中,参照图5,这些附加参数的计算和量化将详细地被给出和变得更加清楚。在这些参数中,信号分类将被更详细地处理。在随后的步骤中,将说明使用这些附加参数的有效FER隐藏以改善汇聚。
用于FER隐藏和恢复的信号分类
使用用于在提供被消除的帧的情况下的信号重建的语音的分类后面的基本思想包括这样的事实:理想的隐藏策略对于准静止语音分段和对于具有快速改变的特性的语音分段是不同的。虽然在非静止语音分段中的被消除的帧的最佳处理可以被总结为对于环境噪音特性的语音编码参数的迅速汇聚,在准静止信号的情况下,语音编码参数在被抑制之前的几个相邻的被消除帧期间不大幅度地改变,并且可以被保持实际上不变。而且,用于在被消除的帧块后的信号恢复的最佳方法随着语音信号的分类而改变。
语音信号可以大致分类为有声、无声和暂停。有声语音包括大量的(important amount)周期分量,并且可以被进一步分类为下面的类别:有声开始、有声分段、有声过渡和有声补偿(offet)。有声开始被定义为在暂停或无声分段之后的有声语音分段的开始。在有声分段期间,语音信号参数(谱包络、音调周期、周期性和非周期性分量的比率、能量)从帧到帧缓慢改变。有声过渡的特征在于有声语音的迅速变化,诸如在元音之间的过渡。有声补偿的特征在于在有声分段的结尾的能量和语音的逐渐降低。
信号的无声部分的特征在于丢失了周期性分量,并且可以被进一步分类为其中能量和频谱迅速改变的不稳定的帧和其中这些参数保持相对稳定的稳定帧。剩余的帧被分类为静默。静默帧包括所有没有有效语音的帧,也即仅仅噪音的帧——如果存在背景噪音的话。
不是所有的上述类别需要独立的处理。因此,为了误差隐藏技术的目的,一些信号类别被编组在一起。
在编码器的分类
当在比特流中存在可用的带宽以包括分类信息时,可以在编码器进行分类。这具有几个优点。最重要的是在语音编码器中经常存在先行部分(lookahead)。所述先行部分使得可以估计在随后的帧中的信号的演变,并且因此可以通过考虑未来的信号行为来进行分类。一般,先行部分越长,分类会越好。另一个优点是复杂性降低,因为帧消除隐藏所需要的多数信号处理无论如何对于语音编码都是需要的。最后,也存在工作于原始信号而不是合成信号的优点。
在考虑到隐藏和恢复策略的情况下进行帧分类。换句话说,以下述方式来分类任何帧:如果随后的帧丢失,则所述隐藏是最佳的,或者如果前一个帧丢失,则所述恢复是最佳的。不必发送用于FER处理的一些类别,因为它们可以被导出而没有在解码器的模糊性。在当前的说明性实施例中,使用5种(5)明显不同的类别,并且被定义如下:
·无声类别包括所有无声语音帧和所有没有主动语音(active speech)的帧。有声补偿帧如果其结尾趋向于无声也可以被分类为无声,并且设计用于无声帧的隐藏可以被用于随后的帧——如果它被丢失的话。
·无声过渡类别包括在结尾具有可能的有声开始的无声帧。但是所述开始仍然太短或没有足够良好地被建立以使用设计用于有声帧的隐藏。
无声过渡类别只能够跟随被分类为无声或无声过渡的帧。
·有声过渡类别包括具有相对较弱的有声特性的有声帧。通常是具有快速改变的特性(在元音之间的过渡)的有声帧或持续整个帧的有声补偿。有声过渡类别只能够跟随被分类为有声过渡、有声或开始的帧。
·有声类别包括具有稳定特性的有声帧。这个类别只能够跟随被分类为有声过渡、有声或开始的帧。
·开始类别包括跟随一个被分类为无声或无声过渡的帧的、具有稳定特性的所有有声帧。被分类为开始的帧对应于这样的有声开始帧,其中开始已经被足够良好地建立,以便供被设计用于被丢失的有声帧的隐藏使用。用在开始类别之后的帧的消除的隐藏技术与在有声类别之后的相同。差别在于恢复策略。如果丢失了一个开始类别的帧(即,一个有声的好帧在消除之后到达,但是在所述消除之前的最后一个好帧是无声的),则可以使用特殊技术来人为地重建被丢失的开始。可以在图6中看到这个情形。在下面的说明中更详细地描述了人为的开始重建技术。另一方面,如果在一个消除后一个开始好帧到达,并且在所述消除之前的最后的好帧是无声的,则不需要这种特殊处理,因为所述开始还没有被丢失(还没有在被丢失的帧中)。
图7中给出了分类状态图。如果可用的带宽是足够的,则在编码器进行分类并且使用2个比特发送。从图7可以看出,无声过渡类别和有声过渡类别在它们可以在解码器不模糊地被区别时可以被编组在一起(无声过渡只能够跟随无声或无声过渡帧,有声过渡只能够跟随仅开始、有声或有声过渡帧)。下面的参数用于分类:归一化相关性rX、谱倾斜量度et、信号噪声比snr、音调稳定性计数器pc、在当前帧结尾的信号的相对帧能量ES和零交叉计数器zc。可以在下面的详细分析中看出,这些参数的计算尽可能使用可用的先行部分,以便也在随后的帧中考虑语音信号的行为。
归一化相关性rX被计算作为图5的开环音调搜索模块206的一部分。这个模块206通常每10毫秒输出开环音调估计(每个帧两次)。在此,它也被用于输出归一化相关性量度。这些归一化的相关性针对在开环音调延迟的当前的加权语音信号sw(n)和过去的加权语音信号而被计算。为了降低复杂性,加权语音信号sw(n)在开环音调分析之前被以因子2下采样到采样频率6400Hz[3GPP TS 26V.190,“AMR Wideband Speech Codec:Transcoding Functions,”3GPP Technical Specification(3GPP TS 26V.190,“AMR宽带语音编码解码器:代码转换功能”,3GPP技术规范)]。平均相关rX被定义为
rx=0.5(rx(1)+rx(2)) (1)
其中rx(1)、rx(2)分别是当前帧的第二部分和先行部分的归一化相关性。在本说明性实施例中,使用13毫秒的先行部分,而不像AMR-WB标准那样使用5毫秒的先行部分。归一化的相关性rx(k)被计算如下:
其中
使用加权的语音信号sw(n)来计算相关性rx(k)。tk时刻与当前帧开始相关联,并且在6.4kHz的采样率或频率时分别等于64和128个采样(10和20毫秒)。值pk=TOL是所选择的开环音调估计。自相关计算的长度Lk依赖于音调周期。Lk的值被汇总如下(对于6.4kHz的采样率):
Lk=40个采样对于pk≤31个采样
Lk=62个采样对于pk≤61个采样
Lk=115个采样对于pk>61个采样
这些长度保证相关向量长度包括至少一个音调周期,它有助于强壮的开环音调检测。对于长的音调周期(pk>61个采样),rx(1)和rx(2)是相同的,即仅仅计算一个相关性,因为相关联的向量足够长,以至于不再需要关于对先行部分的分析。
谱倾斜参数et包括关于能量的频率分布的信息。在本说明性实施例中,谱倾斜被估计为在集中在低频中的能量和集中在高频中的能量之间的比率。但是,也可以以不同的方式估计它,诸如在语音信号的两个第一自相关系数之间的比率。
使用离散傅立叶变换来在图5的谱分析和频谱能量估计模块500中进行谱分析。每个帧进行两次频率分析和倾斜计算。以50%的重叠来使用256个点的快速傅立叶变换(FFT)。布置分析窗口,以便开发所有的先行部分。在本说明性实施例中,在当前帧的开始的24个采样之后,布置第一窗口的开始。128个采样后布置第二个窗口。可以使用不同的窗口来加权输入信号以用于频率分析。在本说明性实施例中已经使用了汉明窗口的平方根(它等同于正弦窗口)。这个窗口特别适用于重叠相加的方法。因此,这种特定的谱分析可以用于基于谱相减和重叠相加分析/合成的选用噪音抑制算法中。
在图5的模块500中按照临界频带来计算高频和低频中的能量。在当前的说明性实施例中,考虑下述数量的每个临界频带[J.D.Johnston,“TransformCoding of Audio Signals Using Perceptual Noise Criteria,”IEEE Jour.on SelectedAreas in Communications,vol.6,no.2,pp.314-323(J.D.Johnston,“使用感觉噪音标准的音频信号的变换编码”,关于在通信中的所选择区域的IEEE会刊,第6卷、第2期,第314-323页)]:
临界频带={100.0,200.0,300.0,400.0,510.0,630.0,770.0,920.0,1080.0,1270.0,1480.0,1720.0,2000.0,2320.0,2700.0,3150.0,3700.0,4400.0,5300.0,6250.0}Hz。
在模块500中计算在高频中的能量作为最后两个临界频带的能量的平均值:
Eh=0.5(e(18)+e(19)) (3)
其中临界频带能量e(i)被计算为被接收器(bin)的数量平均的、在临界频带内的接收器能量(bin energy)的和。
在低频中的能量被计算为在前10个临界频带中的能量的平均值。中间临界频带已经被从计算中排除,以改善在低频中集中有高能量的帧(一般有声)和在高频中集中有高能量的帧(一般无声)之间的区别。其间,能量内容不是用于任何类别的特性,并且会增加对判定的混淆。
在模块500中,对于长音调周期和短音调周期不同地计算在低频的能量。对于有声的女子语音分段,可以开发频谱的谐波结构以提高有声-无声的区别。因此,对于短音调周期,按照接收器(bin-wise)来计算
El,并且在求和中仅仅考虑足够接近语音谐波的频率接收器,即
其中,eb(i)是在前25个频率接收器中的接收器能量(未考虑DC分量)。注意这25个接收器对应于前10个临界频带。在上述的求和中,仅仅与比特定频率门限更接近最近的谐波的接收器相关联的项是非零的。计数器cnt等于那些非零项的数量。用于要被包括在所述和中的接收器的门限已经被固定到50Hz,即仅仅考虑比50Hz更接近最近的谐波的接收器。因此,如果所述结构是在低频的谐波,则仅仅高能量项将被包括在所述和中。另一方面,如果所述结构不是谐波的,则项的选择将是随意的,并且所述和将更小。因此,可以检测即使在低频中集中有高能量内容的无声声音。这种处理不能对于较长的音调周期进行,因为频率的分辨率不够。门限音调值是对应于100Hz的128个采样。它表示对于大于128个采样的音调周期和对于先验的(priori)无声声音(即当
rx+re<0.6时),低频能量估计在每个临界频带进行,并且被计算为
在噪音估计和归一化的相关性校正模块501中计算的值re是在存在背景噪音的情况下由于下述原因而被加到所述归一化相关性的校正值。在存在背景噪音的情况下,平均归一化的相关性降低。但是,为了信号分类的目的,这种降低不应当影响有声-无声的确定。已经发现在这个降低re和dB的总的背景噪音能量之间的关联性大致是指数的,并且可以使用下面的关系式来表达
re=2.4492·10-4·e0.1596·NdB-0.022
其中NdB表示为
在此,n(i)是用于以与e(i)相同的方式归一化的每个临界频带的噪音能量估计值,而gdB是对于噪音降低例程允许的dB的最大噪音抑制水平。值re不允许是负的。应当注意,当使用好的噪音降低算法并且gdB足够高时,re实际上等于零。它仅仅当噪音降低被禁止或如果背景噪音水平比最大可允许的降低大得多时相关联。re的影响可以通过将这个项乘以常数来被调整。
最后,通过从上面计算的值
El和
El减去估计的噪音能量来获得结果产生的低频和高频能量。即
Eh=
Eh-fc·Nh (6)
El=
El-fc·Nl (7)
其中Nh和Nl分别是使用类似于方程(3)和(5)的方程计算的、在最后两个(2)临界频带和前10个(10)临界频带中的平均噪音能量,fc是校正因子,它被调整以便这些量度在改变背景噪音水平的情况下保持接近不变。在本说明性实施例中,fc的值已经被固定为3。
使用下面的关系式来在谱倾斜估计模块503中计算谱倾斜et:
并且它在dB域中对于对每个帧执行的两个(2)频率分析被平均:
et=10·log10(et(0)·et(1))
信号噪声比(SNR)量度开发下述事实:对于一般的波形匹配编码器,SNR对于有声声音很高。必须在编码器子帧环的结尾进行snr参数估计,并且使用下面的关系式来在SNR计算模块504中计算snr;
其中ESW是来自感觉加权滤波器205的当前帧的加权语音信号sw(n)的能量,Ee是来自感觉加权滤波器205’的当前帧的加权语音信号和加权合成信号之间的误差的能量。
音调稳定性计数器pc评估音调周期的变化。响应于如下的开环音调估计而在信号分类模块505内计算它:
pc=|p1-p0|+|p2-p1| (10)
值p0、p1、p2对应于由开环音调搜索模块206分别从当前帧的前半部分、当前帧的后半部分和先行部分计算的开环音调估计值。
相对帧能量ES由模块500计算作为在以dB的当前帧能量及其长期平均之间的差
Es=
Ef-Elt
其中帧能量
Ef被获得作为对于每个帧执行的全部两种谱分析平均的、临界频带能量的和:
Ef=10log10(0.5Ef(0)+Ef(1))
使用下面的关系式来在有效语音帧上更新长期平均能量:
Elt=0.99Elt+0.01Ef
所述最后的参数是由零交叉计算模块508在语音信号的一个帧上计算的零交叉参数zc。所述帧在当前帧的中间开始,并且使用先行部分的2个(2)子帧。在这个说明性实施例中,零交叉计数器zc计数在那个间隔期间信号符号从正向负改变的次数。
为了使得分类更强壮,分类参数被一起考虑,以形成优质函数fm。为此,所述分类参数首先被定标在0和1之间,以便对于无声信号典型的每个参数的值转换为0,对于有声信号典型的每个参数的值转换为1。在它们之间使用线性函数。让我们考虑参数px,其定标的版本是使用
ps=kp·px+cp
获得的,并且被夹在0和1之间。对于每个参数已经以实验方式找到了函数系数kp和cp,以便由于在提供有FER中使用的隐藏和恢复技术而导致的信号失真最小。在这种说明性实现方式中使用的值被汇总在表2中:
表2信号分类参数和它们各自的定标函数的系数
参数 | 含义 | kp | cp |
rxetsnrpcEszc | 归一化相关性谱倾斜信号噪声比音调稳定性计数器相对帧能量零交叉计数器 | 2.8570.041670.1111-0.071430.05-0.04 | -1.2860-0.33331.8570.452.4 |
所述优质函数被定义为:
其中上标s指示参数的定标版本。
然后使用所述优质函数fm和下述在表3中汇总的规则来进行分类:
表3在编码器的信号分类规则
前一个帧类别 | 规则 | 当前帧类别 |
开始有声有声过渡 | fm=0.66 | 有声 |
0.66>fm=0.49fm<0.49fm>0.630.63=fm>0.585fm=0.585 | 有声过渡无声开始无声过渡无声 | |
无声过渡无声 | ||
在来源受控的可变比特率(VBR)编码器的情况下,信号分类对于编码解码器操作是固有的。编码解码器工作在几个比特率,并且使用比率选择模块来根据语音帧的特性确定用于编码每个语音帧的比特率(例如有声、无声、过渡、背景噪音帧的每个都以特殊的编码算法被编码)。关于编码模式、以及因此关于语音类别的信息已经是比特流的隐含部分,因而不必明显地被发送来用于FER处理。这类信息可以随后用来重写上述的分类确定。
在对于AMR WB编码解码器的示例应用中,仅仅来源受控的比率选择表示话音有效性检测(VAD)。这个VAD标记对于有效语音等于1,对于静默等于0。这个参数对于分类有用,因为如果其值是0,则它直接指示不需要进一步的进行分类(即,所述帧被直接地被分类为无声)。这个参数是话音有效性检测(VAD)模块402的输出。在文献中存在不同的VAD算法,可以使用任何算法来用于本发明。例如,可以使用作为标准G.722.2的一部分的VAD算法[ITU-T Recommendation G.722.2“Wideband coding of speech at around 16kbit/s using Adaptive Multi-Rate Wideband(AMR-WB)”,Geneva,2002(ITU-T推荐内容G.722.2“使用自适应多速率宽带(AMR-WB)的在大约16千比特/秒的语音的宽带编码”,日内瓦,2002)]。在此,所述VAD算法是基于模块500的谱分析的输出(基于每个临界频带的信号噪声比)。用于分类目的的VAD与用于编码目的的在释放延迟(hangover)上不同。在使用用于没有有效语音(静默或仅仅噪音)的分段的舒适噪音产生(CNG)的语音编码器中,经常在语音突发后增加释放延迟(在AMR-WB标准中的CNG是一个示例[3GPP TS 26.192,“AMR Wideband Speech Codec:Comfort Noise Aspects”,3GPP Technical Specification(3GPP TS 26.192,“AMR宽带语音编码解码器:舒适噪音方面”,3GPP技术规范)])。在释放延迟期间,语音编码器继续被使用,并且系统仅在释放延迟周期结束后才转换到CNG。为了FER隐藏的分类的目的,不需要这种高安全性。因此,用于分类的VAD标记也在释放延迟周期期间等于0。
在本说明性实施例中,根据上述的参数在模块505中执行分类;即,归一化的相关性(或话音信息)rx、谱倾斜et、snr、音调稳定性计数器pc、相对帧能量ES、零交叉比率zc和VAD标记。
在解码器的分类
如果应用不允许发送类别信息(没有额外的比特能够被传送),则仍然可以在解码器执行分类。如上所述,在此的主要缺点是在语音解码器中一般没有可用的先行部分。而且,经常需要将解码器的复杂度保持有限。
可以通过估计合成信号的话音来进行简单的分类。如果我们考虑CELP类型的编码器的情况,则可以使用在如程(1)中计算的话音估计rV。即:
rv=(Ev-Ec)/(Ev+Ec)
其中Ev是定标的音调代码向量bvT的能量,而Ec是定标的革新代码向量gck的能量。理论上,对于纯有声信号,rv=1,对于纯无声信号,rv=-1。通过每4个子帧平均rv值来进行实际的划分。结果产生的系数frv(每四个子帧的rv的平均)被使用如下
表4在解码器的信号划分规则
前一个帧类别 | 规则 | 当前帧类别 |
开始有声有声过渡 | frv>-0.1-0.1=frv=-0.5frv<-0.5frv>-0.1-0.1=frv=-0.5frv<-0.5 | 有声有声过渡无声开始无声过渡无声 |
无声过渡无声 | ||
类似于在编码器的分类,可以在解码器使用其他参数来帮助分类,所述参数作为LP滤波器或音调稳定性的参数。
在来源受控的可变波特率编码器的情况下,关于编码模式的信息已经是比特流的一部分。因此,如果例如使用纯无声编码模式,则帧可以自动地被分类为无声。类似地,如果使用纯有声编码模式,则帧可以被分类为有声。
用于FER处理的语音参数
存在必须小心地控制以避免当FER发生时的恼人的人为效果的少数临界参数。如果可以发送少数额外比特,则这些参数可以在编码器被估计、被量化和被发送。否则,可以在解码器估计它们中的一些。这些参数包括信号分类、能量信息、相位信息和话音信息。最重要的是精确地控制语音能量。也可以控制相位和语音周期性以进一步改善FER隐藏和恢复。
能量控制的重要性主要在被消除的帧块之后恢复通常操作的时候显示出来。因为多数语音编码器使用预测,因此不能在解码器适当地估计正确的能量。在有声的语音分段中,不正确的能量会持续几个连续帧,这尤其是当这个不正确的能量提高时很恼人。
即使由于长期预测(音调预测)而导致能量控制对于有声语音最重要,它对于无声语音也很重要。其原因是在CELP类型的编码器中经常使用的革新增益量化器的预测。在无声分段期间的错误能量可以引起恼人的高频波动。
可以主要依赖于可用带宽而以几种方式进行相位控制。在我们的实现方式中,通过搜索关于声门脉冲位置的大致信息来在被丢失的有声开始期间实现简单的相位控制。
因此,除了在前一个部分中讨论的信号分类信息之外,要发送的最重要信息是关于信号能量和在帧中的声门脉冲的位置(相位信息)的信息。如果可用足够的带宽,则也可以发送话音信息。
能量信息
可以在LP残余域或者在语音信号域中估计和发送能量信息。在残余域中发送所述信息具有缺点:没有考虑LP合成滤波器的影响。这在几个丢失的有声帧后的有声恢复的情况下尤其棘手(当在有声语音分段期间发生FER时)。当FER在有声帧后到达时,在使用一些衰减策略的隐藏期间通常使用最后的好帧的激励。当新的LP合成滤波器在消除后到达第一个好帧时,会在LP合成滤波器的激励能量和增益之间有不匹配。新的合成滤波器可以产生具有与最后的合成的消除帧的能量以及与原始信号能量大大不同的能量的合成信号。为此,在信号域中计算和量化能量。
在能量估计和量化模块506中计算和量化能量Eq。已经发现,6个比特足够发送所述能量。但是,如果没有足够的比特,则可以降低比特的数量而没有大的影响。在本优选实施例中,在步长(step)为1.58dB的-15dB到83dB的范围中使用6比特的均匀量化器。量化指数由下式的整数部分给出:
其中E是用于被分类为有声或开始的帧的信号能量的最大值或用于其他帧的每个采样的平均能量。对于有声或开始帧,在帧的结尾与音调同步地计算信号能量的最大值如下:
其中L是帧长度,信号s(i)表示语音信号(或者如果使用噪音抑制则是去除噪音的语音信号)。在这个说明性实施例中,s(i)表示在下采样到12.8kHz和预处理后的输入信号。如果音调延迟大于63个采样,则tE等于最后的子帧的舍入的闭环音调时滞。如果音调延迟小于64个采样,则tE被设置为最后的子帧的舍入的闭环音调时滞的两倍。
对于其他类别,E是当前帧的后半部分的每个采样的平均能量,即tE被设置为L/2,而E被计算为:
相位控制信息
由于与在前述部分中所述的类似的原因,在被丢失的有声语音的分段后恢复的同时,相位控制特别重要。在被消除的帧的块后,解码器存储器变得与编码器存储器不同步。为了重新同步解码器,可以根据可用的带宽来发送一些相位信息。在所述的说明性实现方式中,发送在帧中第一声门脉冲的大致位置。这个信息然后被用于在被丢失的有声开始后的恢复,如下所述。
设T0是第一子帧的舍入的闭环音调时滞。第一声门脉冲搜索和量化模块507通过查找具有最大幅度的采样来搜索在帧的T0个第一采样中的第一声门脉冲τ的位置。当在低通滤波残余信号上测量第一声门脉冲的位置时获得最佳结果。
以下述方式来使用6比特编码第一声门脉冲的位置。被用于编码第一声门脉冲的位置的精度依赖于第一子帧T0的闭环音调值。这是可能的,因为这个值被编码器和解码器都知道,并且不在一个或几个帧丢失后遭受误差传播。当T0小于64时,直接以一个采样的精度来编码相对于帧的开始的第一声门脉冲的位置。当64=T0<128时,通过使用简单的整数除法、即τ/2,以两个采样的精度来编码相对于帧的开始的第一声门脉冲的位置。当T0=128时,通过进一步将τ除以2以四个采样的精度来编码相对于帧的开始的第一声门脉冲的位置。在解码器进行反向程序。如果T0<64,则原样使用所接收的量化位置。如果64=T0<128,则所接收的量化位置被乘以2并且递增1。如果T0=128,则所接收的量化位置被乘以4并且递增2(递增2导致不均匀分布的量化误差)。
按照其中编码第一声门脉冲的形状的本发明的另一个实施例,通过在残余信号和可能的脉冲形状、符号(正或负)和位置之间的相关性分析来确定第一声门脉冲的位置。可以从在编码器和解码器都知道的脉冲形状的代码本来获得脉冲形状,这种方法被本领域内的普通技术人员公知为向量量化。然后编码和向解码器发送第一声门脉冲的形状、符号和幅度。
周期性信息
在存在足够的带宽的情况下,周期性信息或话音信息可以被计算和发送,并且在解码器被使用来改善帧消除隐藏。根据归一化的相关性来估计话音信息。它可以用4个比特非常精确地被编码,但是,如果必要的话,3个甚至2个比特也将足够。所述话音信息一般仅仅是具有一些周期性分量的帧所需要的,并且对于高度有声的帧就需要更好的话音分辨率。归一化相关性在方程(2)中给出,并且它被用作对于话音信息的指示器。它在第一声门脉冲搜索和量化模块507中被量化。在本说明性实施例中,已经使用按照段的(piece-wise)线性量化器来编码所述话音信息如下:
再次,i的整数部分被编码和发送。相关性rx(2)与在方程(1)中具有相同的含义。在方程(18)中,话音在0.65和0.89之间以0.03的步长被线性量化。在方程(19)中,话音在0.92和0.98之间以0.01的步长被线性量化。
如果需要较大的量化范围,则可以使用下面的线性量化:
这个方程在0.4和1的范围里以0.04的步长量化话音。在方程(2a)中定义相关性
rx。
然后方程(18)和(19)或方程(20)被用在解码器中以计算rx(2)或
rx。让我们称这个量化的归一化相关性为rq。如果不能发送话音,则可以使用来自方程(2a)的话音系数通过将话音映射在从0到1的范围内来估计它。
Rq=0.5·(f+1) (21)
被消除的帧的处理
在本说明性实施例中的FER隐藏技术被演示在ACELP编码器上。但是它们可以容易地应用到任何语音编码解码器,其中通过经由LP合成滤波器滤波激励信号来产生合成信号。所述隐藏策略可以被总结为信号能量和谱包络向背景噪音的被估计参数的汇聚。信号的周期性被汇聚为0。汇聚的速度依赖于最后的好的接收帧类的参数和连续的被消除帧的数量,并且被衰减系数α控制。系数α还依赖于用于无声帧的LP滤波器的稳定性。一般,如果所述最后的好的接收帧在稳定的分段中,则所述汇聚慢,如果所述帧在过渡分段中则所述汇聚快。α的值被汇总在表5中。
表5 FER隐藏衰减系数α的值
最后的好的接收帧 | 连续的消除帧的数量 | α |
人为开始 | 0.6 | |
开始,有声 | =3 | 1.0 |
>3 | 0.4 | |
有声过渡 | 0.4 | |
无声过渡 | 0.8 | |
无声 | =1 | 0.6θ+0.4 |
>1 | 0.4 |
根据在相邻的LP滤波器之间的距离量度来计算稳定性系数θ。在此,所述系数θ与ISF(导抗谱频率)距离量度相关联,并且它被约束为0≤θ≤1,较大的θ值对应于更稳定的信号。这导致当在稳定的无声分段中发生分离的帧消除时降低能量和谱包络波动。
信号类在消除帧的处理期间保持不变,即所述类保持与在最后的好的接收帧中相同。
激励的周期性部分的构造
对于跟随正确地接收的无声帧的消除帧的隐藏,不产生激励信号的周期性部分。对于跟随除了无声之外的正确接收的帧的消除帧的隐藏,通过重复前一个帧的最后音调周期来构造激励信号的周期性部分。如果是在好帧之后的第一个消除帧的情况,则这个音调脉冲首先被低通滤波。所使用的滤波器是简单的3抽头线性相位FIR滤波器,它具有等于0.18、0.64和0.18的滤波系数。如果可用话音信息,则也可以动态的选择所述滤波器,其截止频率依赖于话音。
用于选择最后的音调脉冲并且因此在隐藏期间被使用的音调周期Tc被定义,以便可以避免或降低音调倍数或子倍数。下面的逻辑用于确定音调周期Tc。
如果((T3<1.8Ts)并且(T3>0.6Ts))或(Tcnt=30),则Tc=T3,否则Tc=Ts。在此,T3是最后的好的接收帧的第四个子帧的舍入音调周期,并且Ts是具有相干的(coherent)音调估计的最后的好的稳定的有声帧的第四个子帧的舍入音调周期。在此将稳定的有声的帧定义为有声帧,其前有一个有声类型(有声过渡、有声、开始)的帧。通过检查是否闭环音调估计合理地接近来在这种实现方式中验证音调的相干性,即通过检查是否在前一个帧的最后的子帧音调、第二子帧音调和最后的子帧音调之间的比率在间隔(0.7,1.4)内。
音调周期Tc的这个确定表示,如果在最后的好帧的结尾的音调和在最后的稳定帧的音调彼此接近,则使用最后的好帧的音调。否则,这个音调将被当作不可靠,并且取而代之的使用所述最后稳定帧的音调来避免错误的音调估计在有声开始的影响。但是这个逻辑仅仅当所述最后的稳定分段过去不太远时有意义。因此,定义计数器Tcnt,它限制所述最后稳定分段的影响的到达范围。如果Tcnt大于或等于30,即如果自从最后的Ts更新起有至少30个帧,则系统地使用所述最后的好帧音调。每次检测到稳定分段时,Tcnt被复位为0并更新Ts。然后在整个消除块的隐藏期间保持周期Tc不变。
在前一个帧的激励的最后脉冲用于周期性部分的构建时,其增益在被隐藏的帧的开始大致正确,并且可以被设置为1。所述增益然后在逐个采样的基础上在整个帧中线性衰减,以获得在帧的结尾的α的值。
α的值对应于表5,除了它们用于在有声或开始帧后的消除以考虑有声分段的能量演化而被修改之外。通过使用所述最后的好帧的每个子帧的音调激励增益值,可以在一定程度上推断这种演化。一般,如果这些增益大于1,则信号能量增加,如果它们小于1,则能量降低。α因此乘以校正系数fb,fb被计算如下:
其中b(0)、b(1)、b(2)和b(3)是最后正确地接收的帧的四个子帧的音调增益。fb的值在被用于定标激励的周期性部分之前被修剪到(clip)0.98和0.85之间。以这种方式,避免了大的能量提高和减少。
对于跟随除了无声的正确接收的帧的消除的帧,激励缓冲器仅仅用这个激励的周期性部分来更新。这个更新将用于构建在下一个帧中的音调代码本的激励。
激励的随意部分的构建
随意地产生激励信号的革新(非周期性)部分。它可以被产生为随意噪音或通过使用具有随意产生的向量指数的CELP革新代码本来被产生。在本说明性实施例中,已经使用了具有大致一致分布的简单随机产生器。在调整革新增益之前,随意产生的革新被定标为某个参考值,在此被固定为每个采样的归一化(unitary)的能量。
在消除块的开始,通过使用最后的好帧的每个子帧的革新激励增益来初始化革新增益gs:
gs=0.1g(0)+0.2g(1)+0.3g(2)+0.4g(3) (23a)
其中g(0)、g(1)、g(2)和g(3)是最后正确接收的帧的四个(4)子帧的固定代码本或革新、增益。激励的随机部分的衰减策略在一定程度上与音调激励的衰减不同。原因是在随机激励汇聚到舒适的噪音产生(CNG)激励能量的同时音调激励(以及因此激励周期性)被汇聚到0。革新增益衰减被完成为:
其中gs 1是在下一个帧的开始的革新增益,gs 0是在当前帧的开始的革新增益,gn是在舒适噪音产生期间使用的激励的增益,而α如在表5中定义的。类似于周期性激励衰减,所述增益因此在逐个采样的基础上在整个帧中线性地衰减,以gs 0开始,并且走向在下一个帧的开始达到的值gs 1。
最后,如果最后的好的(正确接收的或非消除的)接收帧与无声不同,则通过具有系数-0.0125、-0.109、0.7813、-0.109、-0.0125的线性相位FIR高通滤波器来滤波所述革新激励。为了在有声分段期间降低噪音分量的量,这些滤波器系数被乘以等于(0.75-0.25rv)的自适应系数,rv是在方程(1)中定义的话音系数。激励的随意部分然后被加到所述自适应激励以形成总的激励信号。
如果最后的好帧是无声的,仅仅使用革新激励,并且它被进一步衰减一个0.8的系数。在这种情况下,过去激励缓冲器被以所述革新激励更新,因为不可获得激励的周期性部分。
谱包络隐藏、合成和更新
为了合成解码的语音,必须获得LP滤波器参数。谱包络逐渐被移动到环境噪音的被估计的包络。在此,使用LP参数的ISF表示:
I1(j)=αI0(j)+(1-α)In(j),j=0,...,p-1 (25)
在方程(25)中,I1(j)是当前帧的第j个ISF的值,I0(j)是前一个帧的第j个ISF的值,In(j)是估计的舒适噪音包络的第j个ISF的值,p是LP滤波器的阶。
通过经由LP合成滤波器滤波所述激励信号来获得合成的语音。像在正常编码器操作期间那样,滤波系数从所述ISF表示被计算,并且对于每个子帧(每个帧四次(4))被内插。
当革新增益量化器和ISF量化器都使用预测时,它们的存储器在恢复正常操作后将不是最新的。为了减小这种影响,在每个被消除的帧的结尾估计和更新所述量化器的存储器。
在消除后的正常操作的恢复
在消除的帧的块之后的恢复的问题一般是由于在所有现代语音编码器中实际使用的强预测。具体地讲,CELP类型语音编码器由于它们使用过去的激励信号来编码当前的帧激励(长期或音调预测)的事实,而实现用于有声语音的高信号噪声比。而且,多数量化器(LP量化器、增益量化器)使用预测。
人为开始构造
与在CELP编码器中的长期预测的使用相关联的最复杂的情况是当丢失有声开始时。被丢失的开始意味着有声语音发生在消除块期间的某个位置。在这种情况下,最后的好的接收帧是无声的,因此在激励缓冲器中没有发现周期性激励。但是在消除块之后的第一好帧是有声的,在编码器的激励缓冲器是高周期性的,并且已经使用这个周期的过去激励来编码自适应激励。当激励的这个周期性部分在解码器完全丢失时,它会花费几个帧来从这个丢失恢复。
如果丢失开始帧(即有声好帧在消除后到达,但是在消除之前的最后的好帧是无声的,如图6所示),则使用特殊技术来人为地重建所述被丢失的开始并触发有声合成。在丢失开始之后的第一个好帧的开始,激励的周期性部分被人为地构建为由音调周期分离的脉冲的低通滤波的周期性链。在本说明性实施例中,所述低通滤波器是具有脉冲响应hlow={-0.0125,0.109,0.7813,0.109,-0.0125}的简单线性相位FIR滤波器。但是,也可以使用对应于话音信息——如果这个信息可以获得——的截止频率来动态地选择滤波器。使用正常的CELP解码来构建激励的革新部分。也可以随机地选择革新代码本的输入项(或革新本身可以随机地产生),因为无论如何已经丢失了与原始信号的同步。
实际上,人为开始的长度被限制,以便通过这种方法来构建至少一整个音调周期,并且所述方法继续到当前子帧的结尾。其后,恢复正常的ACELP处理。所考虑的音调周期是其中使用人为开始重建的所有子帧的解码的音调周期的舍入的平均。通过将低通滤波器的脉冲响应置于自适应激励缓冲器(先前被初始化为0)中来实现所述低通滤波脉冲链。第一脉冲响应的中心将在相对于帧的开始的量化位置τq(在比特流内被发送),并且剩余的脉冲将用所述平均音调的距离布置直到由与人为开始构建影响的最后子帧的结尾。如果可用的带宽不足够发送第一声门脉冲位置,则第一脉冲响应可以任意地被布置在当前帧开始后的音调周期的一半周围。
作为示例,对于64个采样的子帧长度,让我们考虑在第一和第二子帧中的音调周期是p(0)=70.75和p(1)=71。因为这大于子帧的大小64,因此在前两个子帧期间构建人为开始,并且音调周期将等于被舍入到最近的整数的、即71的两个子帧的音调平均。通过正常的CELP解码器来处理最后两个子帧。
人为开始激励的周期性部分的能量然后被对应于用于FER隐藏的被量化和发送的能量以增益进行定标(如在方程16和17中定义),并且被LP合成滤波器的增益相除。LP合成滤波器增益被计算为:
其中h(i)是LP合成滤波器脉冲响应。最后,通过将周期性部分乘以0.96来降低人为开始增益。或者,如果存在可用于也发送话音信息的带宽,则这个值可以对应于该话音。或者,在不偏离本发明的实质的情况下,也可以在进入解码器子帧环之前在过去激励缓冲器中构建所述人为开始。这具有优点:避免特殊处理以构建人为开始的周期性部分,并且可以取而代之的使用通常的CELP解码。
在人为开始构建的情况下,用于输出的语音合成的LP滤波器不被内插。作为替代,所接收的LP参数被用于整个帧的合成。
能量控制
在被消除的帧的块后恢复的最重要任务是适当地控制合成的语音信号的能量。因为在现代语音编码器中通常使用的强预测,需要对合成能量的控制。当在有声分段期间发生被消除的帧的块时,能量控制是最重要的。当在有声帧之后帧消除到达时,在利用一些衰减策略的隐藏期间通常使用最后的好帧的激励。当具有在消除后的第一好帧的新的LP滤波器到达时,会在新的LP合成滤波器的激励能量和增益之间有不匹配。新的合成滤波器可以产生合成信号,它具有与最后合成的消除帧的能量和与原始信号能量大大不同的能量。
在消除帧后的第一个好帧期间的能量控制可以被总结如下。合成信号被定标以便使其在第一好帧的开始的能量类似于最后消除帧的结尾的合成语音信号的能量,并且向帧的结尾汇聚被发送的能量,并且防止太重要的能量增加。
在合成的语音信号域中进行能量控制。即使在语音域中控制能量,激励信号必须被定标,因为它用作随后帧的长期预测存储器。合成然后被重新进行以平滑过渡。设g0表示用于定标在当前帧中的第一采样的增益,g1是在帧的结尾使用的增益。激励信号然后被定标如下:
us(i)=gAGC(i)·u(i),i=0,...,L-1 (32)
其中us(i)是定标的激励,u(i)是在定标之前的激励,L是帧长度,gAGC(i)是从g0开始并且指数地汇聚到g1的增益:
gAGC(i)=fAGCgAGC(i-1)+(1-fAGc)g1 j=0,...,L-1
其初始化gAGC(-1)=g0,其中fAGC是在这种实现方式中被设置为值0.98的衰减系数。这个值已经被实验地找到来作为具有从在一端的前一个(消除的)帧的平滑过渡和尽可能地将当前帧的最后音调周期定标为在另一端的正确(发送的)值的折中。这是重要的,因为在帧的结尾与音调同步地估计被发送的能量。增益g0和g1被定义为:
其中E_1是在前一个(消除的)帧的结尾计算的能量,E0是在当前(恢复)帧的开始的能量,E1是在当前帧的结尾的能量,Eq是在当前帧的结尾的被量化发送的能量信息,它们是从方程(16,17)在编码器被计算的。E_1和E1被类似地计算,除了它们是对于合成的语音信号s’被计算的。E_1是使用隐藏音调周期Tc与音调同步地被计算,并且E1使用舍入音调T3的最后的子帧。E0被使用第一子帧的舍入的音调值T0的类似地被计算,方程(16,17)被修改为用于有声和开始帧的:
tE等于舍入的音调时滞或如果音调小于64个采样则等于那个长度的两倍。对于其他帧,
并且tE等于帧长度的一半。增益g0和g1被进一步限制到最大允许的值以防止强的能量。这个值在本说明性实现方式中已经被设置为1.2。
进行帧消除隐藏和解码器恢复包括:当在帧消除后接收的第一个非消除帧的LP滤波器的增益大于在所述帧消除期间被消除的最后帧的LP滤波器的增益时,使用下面的关系式来将在所接收的第一非消除帧期间在解码器中产生的LP滤波器激励信号的能量调整为所述被接收的第一非消除的帧的LP滤波器的增益:
如果Eq不能被发送,则Eq被设置为E1。但是如果在有声语音分段期间出现消除(即在消除之前的最后好帧和在消除后的第一好帧被分类为有声过渡、有声或开始),则必须采取进一步的预防措施,因为上述的在激励信号能量和LP滤波器增益之间的可能的不匹配。当在帧消除后接收的第一非消除帧的LP滤波器的增益大于在那个帧消除期间被消除的最后帧的LP滤波器的增益时,出现特别危险的情况。在那个特定的情况下,使用下面的关系式,在所接收的第一非消除帧期间在解码器中产生的LP滤波器激励信号的能量被调整到所接收的第一非消除帧的LP滤波器的增益:
其中ELP0是在消除之前的最后好帧的LP滤波器脉冲响应的能量,ELP1是在消除后第一好帧的LP滤波器的能量。在这种实现方式中,使用在一个帧中最后子帧的LP滤波器。最后,Eq的值被限制到在这种情况下的E_1的值(发送没有Eq信息的有声分段消除)。
下面的除外——所有与在语音信号中的过渡相关联——还重写了g0的计算。如果在当前帧中使用人为开始,则g0被设置为0.5g1,以使得开始能量逐渐地增加。
在被分类为开始的、在消除后的第一好帧的情况下,增益g0被防止大于那个g1。这种预防措施被采取来防止在帧(它可能仍然至少部分地无声)的开始的正增益调整放大有声开始(在帧的结尾)。
最后,在从有声向无声的过渡期间(即被分类为有声过渡、有声或开始的最后好帧和被划分为无声的当前帧)或在从非有效语音时段到有效语音时段的过渡期间(被编码为舒适噪音的最后好的接收帧和被编码为有效语音的当前帧),g0被设置为g1。
在有声分段消除的情况下,错误的能量问题可以也在跟随在消除后的第一好帧的帧中演示其本身。即使已经如上所述调整了第一好帧的能量,这也会发生。为了衰减这个问题,能量控制可以继续到有声分段的结尾。
虽然已经与本发明的说明性实施例相关联地在上述的说明中说明了本发明,可以在不脱离主题发明的范围和精神的情况下在所附的权利要求的范围内按照意愿来修改这个说明性实施例。
Claims (120)
1.一种方法,用于改善在从编码器向解码器的发送期间被删除的编码的声音信号的帧引起的帧删除的隐藏,并且用于促进在已经接收到所述编码的声音信号的未删除帧后解码器的恢复,包括:
在编码器中确定隐藏/恢复参数;
向解码器发送在编码器确定的隐藏/恢复参数;
在解码器,响应于所接收的隐藏/恢复参数而进行删除帧隐藏和解码器恢复。
2.按照权利要求1的方法,还包括:在向解码器发送所述隐藏/恢复参数之前,在编码器中量化隐藏/恢复参数。
3.按照权利要求1的方法,包括:在编码器中确定从由下述组成的组中选择的隐藏/恢复参数:信号分类参数、能量信息参数和相位信息参数。
4.按照权利要求3的方法,其中相位信息参数的确定包括搜索在编码的声音信号的每个帧中的第一声门脉冲的位置。
5.按照权利要求4的方法,其中相位信息参数的确定还包括:在编码器中编码第一声门脉冲的形状、符号和幅度,并且从编码器向解码器发送被编码的形状、符号和幅度。
6.按照权利要求4的方法,其中搜索第一声门脉冲的位置包括:
测量第一声门脉冲来作为在音调周期内的最大幅度的采样;
量化在音调周期内的最大幅度的采样的位置。
7.按照权利要求1的方法,其中:
所述声音信号是语音信号;并且
在编码器中的隐藏/恢复参数的确定包括:将编码的声音信号的连续的帧分类为无声、无声过渡、有声过渡、有声或开始。
8.按照权利要求7的方法,其中分类连续的帧包括:将作为无声的帧的每个帧、没有有效语音的每个帧和具有趋向于无声的结尾的每个有声补偿帧分类为无声。
9.按照权利要求7的方法,其中分类连续的帧包括:将具有结尾的每个无声帧分类为无声过渡,所述结尾具有可能的有声开始,它太短或未被建立得足够好以便被处理为有声帧。
10.按照权利要求7的方法,其中分类连续的帧包括:将具有相对较弱的有声特性的每个有声帧分类为有声过渡,其中包括具有迅速改变的特性的有声帧和持续整个帧的有声补偿,其中被分类为有声过渡的帧仅仅跟随被分类为有声过渡、有声或开始的帧。
11.按照权利要求7的方法,其中分类连续的帧包括:将具有稳定特性的每个有声帧分类为有声,其中被分类为有声的帧仅仅跟随被分类为有声过渡、有声或开始的帧。
12.按照权利要求7的方法,其中分类连续的帧包括:将跟随被分类为无声或无声过渡的帧的具有稳定特性的每个有声帧分类为开始。
13.按照权利要求7的方法,包括:根据下面的参数的至少一部分来确定编码的声音信号的连续帧的分类:归一化的相关性参数、谱倾斜参数、信号噪声比参数、音调稳定性参数、相对帧能量参数和零交叉参数。
14.按照权利要求13的方法,其中确定连续帧的分类包括:
根据所述归一化的相关性参数、谱倾斜参数、信号噪声比参数、音调稳定性参数、相对帧能量参数和零交叉参数来计算品质因数;以及
比较所述品质因数与门限以确定所述分类。
15.按照权利要求13的方法,包括:根据语音信号的当前加权版本和所述语音信号的过去的加权版本来计算归一化的相关性参数。
16.按照权利要求13的方法,包括:将谱倾斜参数估计为在低频中集中的能量和在高频中集中的能量之间的比率。
17.按照权利要求13的方法,包括:将所述信号噪声比参数估计为在当前帧的语音信号的加权版本的能量和下述误差的能量之间的比率:所述误差是在当前帧的语音信号的所述加权版本和所述当前帧的合成语音信号的加权版本之间的误差。
18.按照权利要求13的方法,包括:响应于用于当前帧的前半部分、当前帧的后半部分和先行部分的开环音调估计来计算音调稳定性参数。
19.按照权利要求13的方法,包括:将相对帧能量参数计算为在当前帧的能量和有效语音帧的能量的长期平均之间的差别。
20.按照权利要求13的方法,包括:将所述零交叉参数确定为语音信号的符号从第一极性改变到第二极性的次数。
21.按照权利要求13的方法,包括:使用可用的先行部分来计算所述归一化的相关性参数、谱倾斜参数、信号噪声比参数、音调稳定性参数、相对帧能量参数和零交叉参数的至少一个以考虑在随后的帧中的语音信号的行为。
22.按照权利要求13的方法,还包括:也根据话音有效性检测标记来确定被编码的声音信号的连续帧的分类。
23.按照权利要求3的方法,其中:
所述声音信号是语音信号;
在编码器中的隐藏/恢复参数的确定包括:将编码声音信号的连续帧分类为无声、无声过渡、有声过渡、有声或开始;
确定隐藏/恢复参数包括:与用于被分类为有声或开始的帧的信号能量的最大值相关联地计算能量信息参数,并且与用于其他帧的每个采样的平均能量相关联地计算能量信息参数。
24.按照权利要求1的方法,其中在编码器中确定隐藏/恢复参数包括计算话音信息参数。
25.按照权利要求24的方法,其中:
所述声音信号是语音信号;
在编码器中确定隐藏/恢复参数包括分类编码的声音信号的连续帧;
所述方法包括根据归一化相关性参数来确定编码的声音信号的连续帧的类别;
计算话音信息参数包括根据归一化的相关性来估计所述话音信息参数。
26.按照权利要求1的方法,其中进行帧消除隐藏和解码器恢复包括:
在接收到在帧消除后的非消除无声帧之后,产生LP滤波器激励信号的非周期性部分;
在接收到在帧消除后的除了无声之外的非消除帧之后,通过重复前一个帧的最后音调周期来构建LP滤波器激励信号的周期性部分。
27.按照权利要求26的方法,其中构建LP滤波器激励信号的周期性部分包括:通过低通滤波器来滤波前一个帧的重复的最后音调周期。
28.按照权利要求27的方法,其中:
确定隐藏/恢复参数包括:计算话音信息参数;
低通滤波器具有截止频率;
构建激励信号的周期性部分包括:与所述话音信息参数相关联地动态地调整截止频率。
29.按照权利要求1的方法,其中进行帧消除隐藏和解码器恢复包括:随机地产生LP滤波器激励信号的非周期性的、革新部分。
30.按照权利要求29的方法,其中随机地产生LP滤波器激励信号的非周期性的、革新部分包括产生随机噪音。
31.按照权利要求29的方法,其中随机地产生LP滤波器激励信号的非周期性的、革新部分包括随机地产生革新代码本的向量指数。
32.按照权利要求29的方法,其中:
所述声音信号是语音信号;
确定隐藏/恢复参数包括:将编码的声音信号的连续帧分类为无声、无声过渡、有声过渡、有声或开始;
随机地产生LP滤波器激励信号的非周期性的、革新部分还包括:
●如果最后正确接收的帧与无声不同,通过高通滤波器来滤波激励信号的革新部分;
●如果最后正确接收的帧是无声的,仅仅使用激励信号的革新部分。
33.按照权利要求1的方法,其中:
所述声音信号是语音信号;
在编码器中确定隐藏/恢复参数包括:将编码的声音信号的连续帧分类为无声、无声过渡、有声过渡、有声或开始;
进行帧消除隐藏和解码器恢复包括:当丢失开始帧——通过在帧消除后的有声帧和在帧消除之前的无声帧的存在来指示这一点——时,通过将激励信号的周期性部分构建为由音调周期分离的脉冲的低通滤波的周期性链来人为地重建被丢失的开始。
34.按照权利要求33的方法,其中进行帧消除隐藏和解码器恢复还包括:通过正常的解码来构建激励信号的革新部分。
35.按照权利要求34的方法,其中构建激励信号的革新部分包括:随机地选择革新代码本的输入项。
36.按照权利要求33的方法,其中人为地重建被丢失的开始包括:限制人为重建的开始的长度,以便通过开始的人为重建来构建至少一整个音调周期,所述重建继续直到当前子帧的结尾。
37.按照权利要求36的方法,其中进行帧消除隐藏和解码器恢复还包括:在丢失的开始的人为重建后,恢复规则的CELP处理,其中所述音调周期是其中使用人为开始重建的所有子帧的解码的音调周期的舍入的平均。
38.按照权利要求3的方法,其中进行帧消除隐藏和解码器恢复包括:
控制由解码器产生的合成声音信号的能量,控制合成的声音信号的能量包括:定标合成的声音信号以使在帧消除后接收的第一非消除帧的开始的所述合成的声音信号的能量与在所述帧消除期间被消除的最后帧的结尾的所述合成信号的能量类似;
在限制能量中的提高的同时,将在所接收的第一非消除帧中的合成声音信号的能量向所述被接收的第一非消除帧的结尾汇聚到对应于所接收的能量信息参数的能量。
39.按照权利要求3的方法,其中:
所述能量信息参数不从编码器被发送到解码器;
进行帧消除隐藏和解码器恢复包括:当帧消除后接收的第一非消除帧的LP滤波器的增益大于在所述帧消除期间被消除的最后帧的LP滤波器的增益时,将在所接收的第一非消除帧期间在解码器产生的LP滤波器激励信号的能量调整为所述被接收的第一非消除帧的LP滤波器的增益。
40.按照权利要求39的方法,其中:
所述将在所接收的第一非消除帧期间在解码器产生的LP滤波器激励信号的能量调整为所述被接收的第一非消除帧的LP滤波器的增益包括使用下面的关系式:
其中E1是在当前帧的结尾的能量,ELP0是对于在帧消除之前接收的最后的非消除帧的LP滤波器的脉冲响应的能量,ELP1是对于在帧消除之后的接收的第一非消除帧的LP滤波器的脉冲响应的能量。
41.按照权利要求38的方法,其中:
所述声音信号是语音信号;
在编码器中确定隐藏/恢复参数包括:将编码的声音信号的连续帧分类为无声、无声过渡、有声过渡、有声或开始;
当在帧消除后接收的第一非消除帧被分类为开始时,进行帧消除隐藏和解码器恢复包括:将用于定标合成的声音信号的增益限定为给定值。
42.按照权利要求38的方法,其中:
所述声音信号是语音信号;
在编码器中确定隐藏/恢复参数包括:将编码的声音信号的连续帧分类为无声、无声过渡、有声过渡、有声或开始;
所述方法包括:使得用于定标在帧消除后接收的第一非消除帧的开始的合成声音信号的增益等于在所述被接收的第一非消除帧的结尾的使用的增益:
●在从有声帧到无声帧的过渡期间,在被分类为有声过渡的、有声或开始的在帧消除之前接收的最后非消除帧和被分类为无声的在帧消除后接收的第一非消除帧的情况下,
●在从非有效语音时段向有效语音阶段过渡期间,当在帧消除之前接收的最后非消除帧被编码为舒适噪音并且在帧消除后接收的第一非消除帧被编码为有效语音的时候。
43.一种方法,用于由在信号编码参数的形式下编码的声音信号从编码器向解码器的发送期间被消除的帧引起的帧消除的隐藏,并且用于在已经接收到编码的声音信号的非消除帧后促进解码器的恢复,包括:
在解码器中从信号编码参数确定隐藏/恢复参数;
在解码器中,响应于所确定的隐藏/恢复参数进行被消除的帧隐藏和解码器恢复。
44.按照权利要求43的方法,包括:在解码器中确定从由下述组成的组中选择的隐藏/恢复参数:信号分类参数、能量信息参数和相位信息参数。
45.按照权利要求43的方法,其中:
所述声音信号是语音信号;
在解码器中确定隐藏/恢复参数包括:将编码的声音信号的连续帧分类为无声、无声过渡、有声过渡、有声或开始。
46.按照权利要求43的方法,其中在解码器中确定隐藏/恢复参数包括:计算话音信息参数。
47.按照权利要求43的方法,其中进行帧消除隐藏和解码器恢复包括:
在接收在帧消除后的非消除的无声帧之后,产生LP滤波器激励信号的非周期性部分;
在接收在帧消除后的除了无声的非消除帧之后,通过重复前一个帧的最后音调周期来构建LP滤波器激励信号的周期性部分。
48.按照权利要求47的方法,其中构建激励信号的周期性部分包括:通过低通滤波器来滤波前一个帧的被重复的最后音调周期。
49.按照权利要求48的方法,其中:
在解码器中确定隐藏/恢复参数包括计算话音信息参数;
所述低通滤波器具有截止频率;
构建LP滤波器激励信号的周期性部分包括:与话音信息参数相关联的动态地调整截止频率。
50.按照权利要求43的方法,其中进行帧消除隐藏和解码器恢复包括:随机地产生LP滤波器激励信号的非周期性的、革新部分。
51.按照权利要求50的方法,其中随机地产生LP滤波器激励信号的非周期性的、革新部分包括产生随机噪音。
52.按照权利要求50的方法,其中随机地产生LP滤波器激励信号的非周期性的、革新部分包括产生革新代码本的向量指数。
53.按照权利要求50的方法,其中:
所述声音信号是语音信号;
在解码器中确定隐藏/恢复参数包括:将编码的声音信号的连续帧分类为无声、无声过渡、有声过渡、有声或开始;
随机地产生LP滤波器激励信号的非周期性的、革新部分还包括:
●如果最后接收的非消除帧与无声不同,则通过高通滤波器来滤波LP滤波器激励信号的革新部分;
●如果最后接收的非消除帧是无声的,仅仅使用LP滤波器激励信号的革新部分。
54.按照权利要求50的方法,其中:
所述声音信号是语音信号;
在解码器中确定隐藏/恢复参数包括:将编码的声音信号的连续帧分类为无声、无声过渡、有声过渡、有声或开始;
进行帧消除隐藏和解码器恢复包括:当丢失开始帧——通过在帧消除之后的有声帧和在帧消除之前的无声帧的存在来指示这一点——时,通过将激励信号的周期性部分构建为由音调周期分离的脉冲的低通滤波的周期性链来人为地重建被丢失的开始。
55.按照权利要求54的方法,其中进行帧消除隐藏和解码器恢复还包括:通过正常的解码来构建LP滤波器激励信号的革新部分。
56.按照权利要求55的方法,其中构建LP滤波器激励信号的革新部分包括:随机地选择革新代码本的输入项。
57.按照权利要求54的方法,其中人为地重建被丢失的开始包括:限制人为重建的开始的长度,以便通过开始的人为重建来构建至少一整个音调周期,所述重建继续直到当前子帧的结尾。
58.按照权利要求57的方法,其中,进行帧消除隐藏和解码器恢复还包括:在人为重建被丢失的开始之后,恢复规则的CELP处理,其中所述音调周期是其中使用人为开始重建的所有子帧的解码的音调周期的舍入平均。
59.按照权利要求44的方法,其中:
不从编码器向解码器发送能量信息参数;
进行帧消除隐藏和解码器恢复包括:当在帧消除后接收的第一非消除帧的LP滤波器的增益大于在所述帧消除期间消除的最后帧的LP滤波器的增益的时候,使用下面的关系式来将在所接收的第一非消除帧期间在解码器中产生的LP滤波器激励信号的能量调整为所述被接收的第一非消除帧的LP滤波器的增益:
其中E1是在当前帧的结尾的能量,ELP0是对于在帧消除之前接收的最后的非消除帧的LP滤波器的脉冲响应的能量,ELP1是对于在帧消除之后的接收的第一非消除帧的LP滤波器的脉冲响应的能量。
60.一种器件,用于改善在从编码器向解码器的发送期间被删除的编码的声音信号的帧引起的帧删除的隐藏,并且用于促进在已经接收到所述编码的声音信号的未删除帧后解码器的恢复,包括:
用于在编码器中确定隐藏/恢复参数的部件;
用于向解码器发送在编码器确定的隐藏/恢复参数的部件;
在解码器,用于响应于所接收的隐藏/恢复参数而进行删除帧隐藏和解码器恢复的部件。
61.按照权利要求60的器件,还包括:用于在向解码器发送所述隐藏/恢复参数之前在编码器中量化隐藏/恢复参数的部件。
62.按照权利要求60的器件,包括:用于在编码器中确定从由下述组成的下组中选择的隐藏/恢复参数的部件:信号分类参数、能量信息参数和相位信息参数。
63.按照权利要求62的器件,其中用于相位信息参数的确定的部件包括用于搜索在编码的声音信号的每个帧中的第一声门脉冲的位置的部件。
64.按照权利要求63的器件,其中用于相位信息参数的确定的部件还包括:用于在编码器中编码第一声门脉冲的形状、符号和幅度并且从编码器向解码器发送被编码的形状、符号和幅度的部件。
65.按照权利要求63的器件,其中用于搜索第一声门脉冲的位置的部件包括:
用于测量第一声门脉冲来作为在音调周期内的最大幅度的采样的部件;
用于量化在音调周期内的最大幅度的采样的位置的部件。
66.按照权利要求60的器件,其中:
所述声音信号是语音信号;
用于在编码器中的隐藏/恢复参数的确定的部件包括:用于将编码的声音信号的连续的帧分类为无声、无声过渡、有声过渡、有声或开始的部件。
67.按照权利要求66的器件,其中用于分类连续的帧的部件包括:用于将作为无声的帧的每个帧、没有有效语音的每个帧和具有趋向于无声的结尾的每个有声补偿帧分类为无声的部件。
68.按照权利要求66的器件,其中用于分类连续的帧的部件包括:用于将具有结尾的每个无声帧分类为无声过渡的部件,所述结尾具有可能的有声开始,它太短或未被建立得足够好以便被处理为有声帧。
69.按照权利要求66的器件,其中用于分类连续的帧的部件包括:用于将具有较弱的有声特性的每个有声帧分类为有声过渡的部件,其中具有较弱的有声特性的每个有声帧包括具有迅速改变的特性的有声帧和持续整个帧的有声补偿,其中被分类为有声过渡的帧仅仅跟随被分类为有声过渡、有声或开始的帧。
70.按照权利要求66的器件,其中用于分类连续的帧的部件包括:用于将具有稳定特性的每个有声帧分类为有声,其中被分类为有声的帧仅仅跟随被分类为有声过渡、有声或开始的帧的部件。
71.按照权利要求66的器件,其中用于分类连续的帧的部件包括:用于将跟随被分类为无声或无声过渡的帧的具有稳定特性的每个有声帧分类为开始的部件。
72.按照权利要求66的器件,包括:用于根据下面的参数的至少一部分来确定编码的声音信号的连续帧的分类的部件:归一化的相关性参数、谱倾斜参数、信号噪声比参数、音调稳定性参数、相对帧能量参数和零交叉参数。
73.按照权利要求72的器件,其中用于确定连续帧的分类的部件包括:
用于根据所述归一化的相关性参数、谱倾斜参数、信号噪声比参数、音调稳定性参数、相对帧能量参数和零交叉参数来计算品质因数的部件;
用于比较所述品质因数与门限以确定所述分类的部件。
74.按照权利要求72的器件,包括:用于根据语音信号的当前加权版本和所述语音信号的过去的加权版本来计算归一化的相关性参数的部件。
75.按照权利要求72的器件,包括:用于将谱倾斜参数估计为在低频中集中的能量和在高频中集中的能量之间的比率的部件。
76.按照权利要求72的器件,包括:用于将所述信号噪声比参数估计为在当前帧的语音信号的加权版本的能量和下述误差的能量之间的比率的部件:所述误差是在当前帧的语音信号的所述加权版本和所述当前帧的合成语音信号的加权版本之间的误差。
77.按照权利要求72的器件,包括:用于响应于用于当前帧的前半部分、当前帧的后半部分和先行部分的开环音调估计来计算音调稳定性参数的部件。
78.按照权利要求72的器件,包括:用于将相对帧能量参数计算为在当前帧的能量和有效语音帧的能量的长期平均之间的差别的部件。
79.按照权利要求72的器件,包括:用于将所述零交叉参数确定为语音信号的符号从第一极性改变到第二极性的次数的部件。
80.按照权利要求72的器件,包括:用于使用可用的先行部分来计算所述归一化的相关性参数、谱倾斜参数、信号噪声比参数、音调稳定性参数、相对帧能量参数和零交叉参数的至少一个以考虑在随后的帧中的语音信号的行为的部件。
81.按照权利要求72的器件,还包括:用于也根据话音有效性检测标记来确定被编码的声音信号的连续帧的分类的部件。
82.按照权利要求62的器件,其中:
所述声音信号是语音信号;
所述用于在编码器中确定隐藏/恢复参数的部件包括:用于将编码声音信号的连续帧分类为无声、无声过渡、有声过渡、有声或开始的部件;
用于确定隐藏/恢复参数的部件包括:用于与用于被分类为有声或开始的帧的信号能量的最大值相关联地计算能量信息参数的部件,用于与用于其他帧的每个采样的平均能量相关联地计算能量信息参数的部件。
83.按照权利要求60的器件,其中用于在编码器中确定隐藏/恢复参数的部件包括用于计算话音信息参数的部件。
84.按照权利要求83的器件,其中:
所述声音信号是语音信号;
用于在编码器中确定隐藏/恢复参数的部件包括用于分类编码的声音信号的连续帧的部件;
所述器件包括用于根据归一化相关性参数来确定编码的声音信号的连续帧的类别的部件;和
用于计算话音信息参数包括根据归一化的相关性来估计所述话音信息参数的部件。
85.按照权利要求60的器件,其中用于进行帧消除隐藏和解码器恢复的部件包括:
在接收到在帧消除后的非消除无声帧之后,用于产生LP滤波器激励信号的非周期性部分的部件;
在接收到在帧消除后的除了无声之外的非消除帧之后,用于通过重复前一个帧的最后音调周期来构建LP滤波器激励信号的周期性部分的部件。
86.按照权利要求85的器件,其中用于构建LP滤波器激励信号的周期部分的部件包括:用于滤波前一个帧的重复的最后音调周期的低通滤波器。
87.按照权利要求86的器件,其中:
用于确定隐藏/恢复参数的部件包括:用于计算话音信息参数的部件;
所述低通滤波器具有截止频率;
用于构建激励信号的周期性部分的部件包括:用于与所述话音信息参数相关联地动态地调整截止频率的部件。
88.按照权利要求60的器件,其中用于进行帧消除隐藏和解码器恢复的部件包括:用于随机地产生LP滤波器激励信号的非周期性的、革新部分的部件。
89.按照权利要求88的器件,其中用于随机地产生LP滤波器激励信号的非周期性的、革新部分的部件包括用于产生随机噪音的部件。
90.按照权利要求88的器件,其中用于随机地产生LP滤波器激励信号的非周期性的、革新部分的部件包括用于随机地产生革新代码本的向量指数的部件。
91.按照权利要求88的器件,其中:
所述声音信号是语音信号;
用于确定隐藏/恢复参数的部件包括:用于将编码的声音信号的连续帧分类为无声、无声过渡、有声过渡、有声或开始的部件;
用于随机地产生LP滤波器激励信号的非周期性的、革新部分的部件还包括:
●如果最后正确接收的帧与无声不同,用于滤波激励信号的革新部分的高通滤波器;
●如果最后正确接收的帧是无声的,用于仅仅使用激励信号的革新部分的部件。
92.按照权利要求60的器件,其中:
所述声音信号是语音信号;
用于在编码器中确定隐藏/恢复参数的部件包括:用于将编码的声音信号的连续帧分类为无声、无声过渡、有声过渡、有声或开始的部件;
用于进行帧消除隐藏和解码器恢复的部件包括:当丢失开始帧——通过在帧消除后的有声帧和在帧消除之前的无声帧的存在来指示这一点——时,用于通过将激励信号的周期性部分构建为由音调周期分离的脉冲的低通滤波的周期性链来人为地重建被丢失的开始的部件。
93.按照权利要求92的器件,其中用于进行帧消除隐藏和解码器恢复的部件还包括:用于通过正常的解码来构建激励信号的革新部分的部件。
94.按照权利要求93的器件,其中用于构建激励信号的革新部分的部件包括:用于随机地选择革新代码本的输入项的部件。
95.按照权利要求92的器件,其中用于人为地重建被丢失的开始的部件包括:限制人为重建的开始的长度、以便通过开始的人为重建来构建至少一整个音调周期的部件,所述重建继续直到当前子帧的结尾。
96.按照权利要求95的器件,其中用于进行帧消除隐藏和解码器恢复的部件还包括:在丢失的开始的人为重建后,用于恢复规则的CELP处理的部件,其中所述音调周期是其中使用人为开始重建的所有子帧的解码的音调周期的舍入的平均。
97.按照权利要求62的器件,其中用于进行帧消除隐藏和解码器恢复的部件包括:
用于控制由解码器产生的合成声音信号的能量的部件,所述用于控制合成的声音信号的能量的部件包括:用于定标合成的声音信号以使在帧消除后接收的第一非消除帧的开始的所述合成的声音信号的能量与在所述帧消除期间被消除的最后帧的结尾的所述合成信号的能量类似的部件;
用于在限制能量中的提高的同时、将在所接收的第一非消除帧中的合成声音信号的能量向所述被接收的第一非消除帧的结尾汇聚到对应于所接收的能量信息参数的能量的部件。
98.按照权利要求62的器件,其中:
所述能量信息参数不从编码器被发送到解码器;
用于进行帧消除隐藏和解码器恢复的部件包括:当帧消除后接收的第一非消除帧的LP滤波器的增益大于在所述帧消除期间被消除的最后帧的LP滤波器的增益时,用于将在所接收的第一非消除帧期间在解码器产生的LP滤波器激励信号的能量调整为所述被接收的第一非消除帧的LP滤波器的增益的部件。
99.按照权利要求98的器件,其中:
所述用于将在所接收的第一非消除帧期间在解码器产生的LP滤波器激励信号的能量调整为所述被接收的第一非消除帧的LP滤波器的增益的部件包括用于使用下面的关系式的部件:
其中E1是在当前帧的结尾的能量,ELP0是对于在帧消除之前接收的最后的非消除帧的LP滤波器的脉冲响应的能量,ELP1是对于在帧消除之后的接收的第一非消除帧的LP滤波器的脉冲响应的能量。
100.按照权利要求97的器件,其中:
所述声音信号是语音信号;
用于在编码器中确定隐藏/恢复参数的部件包括:用于将编码的声音信号的连续帧分类为无声、无声过渡、有声过渡、有声或开始的部件;
当在帧消除后接收的第一非消除帧被分类为开始时,用于进行帧消除隐藏和解码器恢复的部件包括:用于将用于定标合成的声音信号的增益限定为给定值的部件。
101.按照权利要求97的器件,其中:
所述声音信号是语音信号;
用于在编码器中确定隐藏/恢复参数的部件包括:用于将编码的声音信号的连续帧分类为无声、无声过渡、有声过渡、有声或开始的部件;
所述器件包括:用于使得用于定标在帧消除后接收的第一非消除帧的开始的合成声音信号的增益等于在所述被接收的第一非消除帧的结尾的使用的增益的部件:
●在从有声帧到无声帧的过渡期间,在被分类为有声过渡的、有声或开始的在帧消除之前接收的最后非消除帧和被分类为无声的帧消除后接收的第一非消除帧的情况下,
●在从非有效语音时段向有效语音阶段过渡期间,当在帧消除之前接收的最后非消除帧被编码为舒适噪音并且在帧消除后接收的第一非消除帧被编码为有效语音的时候。
102.一种器件,用于由在信号编码参数的形式下编码的声音信号从编码器向解码器的发送期间被消除的帧引起的帧消除的隐藏,并且用于在已经接收到编码的声音信号的非消除帧后促进解码器的恢复,包括:
用于在解码器中从信号编码参数确定隐藏/恢复参数的部件;
用于在解码器中、响应于所确定的隐藏/恢复参数进行被消除的帧隐藏和解码器恢复的部件。
103.按照权利要求102的器件,包括:用于在解码器中确定从由下述组成的组中选择的隐藏/恢复参数的部件:信号分类参数、能量信息参数和相位信息参数。
104.按照权利要求102的器件,其中:
所述声音信号是语音信号;
在解码器中确定隐藏/恢复参数包括:用于将编码的声音信号的连续帧分类为无声、无声过渡、有声过渡、有声或开始的部件。
105.按照权利要求102的器件,其中用于在解码器中确定隐藏/恢复参数的部件包括:用于计算话音信息参数的部件。
106.按照权利要求102的器件,其中用于进行帧消除隐藏和解码器恢复的部件包括:
在接收在帧消除后的非消除的无声帧之后,用于产生LP滤波器激励信号的非周期性部分的部件;
在接收在帧消除后的除了无声的非消除帧之后,用于通过重复前一个帧的最后音调周期来构建LP滤波器激励信号的周期性部分的部件。
107.按照权利要求106的器件,其中用于构建激励信号的周期性部分的部件包括:用于滤波前一个帧的被重复的最后音调周期的低通滤波器。
108.按照权利要求107的器件,其中:
用于在解码器中确定隐藏/恢复参数包括用于计算话音信息参数的部件;
所述低通滤波器具有截止频率;
用于构建LP滤波器激励信号的周期性部分的部件包括:用于与话音信息参数相关联的动态地调整截止频率的部件。
109.按照权利要求102的器件,其中用于进行帧消除隐藏和解码器恢复的部件包括:用于随机地产生LP滤波器激励信号的非周期性的、革新部分的部件。
110.按照权利要求109的器件,其中用于随机地产生LP滤波器激励信号的非周期性的、革新部分的部件包括用于产生随机噪音的部件。
111.按照权利要求109的器件,其中用于随机地产生LP滤波器激励信号的非周期性的、革新部分的部件包括用于随机地产生革新代码本的向量指数的部件。
112.按照权利要求109的器件,其中:
所述声音信号是语音信号;
用于在解码器中确定隐藏/恢复参数的部件包括:用于将编码的声音信号的连续帧分类为无声、无声过渡、有声过渡、有声或开始的部件;
用于随机地产生LP滤波器激励信号的非周期性的、革新部分的部件还包括:
●如果最后接收的非消除帧与无声不同,用于滤波LP滤波器激励信号的革新部分的高通滤波器;
●如果最后接收的非消除帧是无声的,用于仅仅使用LP滤波器激励信号的革新部分的部件。
113.按照权利要求109的器件,其中:
所述声音信号是语音信号;
用于在解码器中确定隐藏/恢复参数的部件包括:用于将编码的声音信号的连续帧分类为无声、无声过渡、有声过渡、有声或开始的部件;
用于进行帧消除隐藏和解码器恢复的部件包括:当丢失开始帧——通过在帧消除后的有声帧和在帧消除之前的无声帧的存在来指示这一点——时,用于通过将激励信号的周期性部分构建为由音调周期分离的脉冲的低通滤波的周期性链来人为地重建被丢失的开始的部件。
114.按照权利要求113的器件,其中用于进行帧消除隐藏和解码器恢复的部件还包括:用于通过正常的解码来构建LP滤波器激励信号的革新部分的部件。
115.按照权利要114的器件,其中构建LP滤波器激励信号的革新部分的部件包括:用于随机地选择革新代码本的输入项的部件。
116.按照权利要求113的器件,其中用于人为地重建被丢失的开始的部件包括:用于限制人为重建的开始的长度、以便通过开始的人为重建来构建至少一整个音调周期,所述重建被继续直到当前子帧的结尾的部件。
117.按照权利要求116的器件,其中,进行帧消除隐藏和解码器恢复还包括:在人为重建被丢失的开始之后,用于恢复规则的CELP处理的部件,其中所述音调周期是其中使用人为开始重建的所有子帧的解码的音调周期的舍入平均。
118.按照权利要求103的器件,其中:
不从编码器向解码器发送能量信息参数;
用于进行帧消除隐藏和解码器恢复的部件包括:当在帧消除后接收的第一非消除帧的LP滤波器的增益大于在所述帧消除期间消除的最后帧的LP滤波器的增益的时候,用于使用下面的关系式来将在所接收的第一非消除帧期间在解码器中产生的LP滤波器激励信号的能量调整为所述被接收的第一非消除帧的LP滤波器的增益的部件:
其中E1是在当前帧的结尾的能量,ELP0是对于在帧消除之前接收的最后的非消除帧的LP滤波器的脉冲响应的能量,ELP1是对于在帧消除之后的接收的第一非消除帧的LP滤波器的脉冲响应的能量。
119.一种用于编码和解码声音信号的系统,包括:
用于响应于声音信号而产生一组信号编码参数的声音信号编码器;
用于向解码器发送信号编码参数的部件;
用于响应于信号编码参数而合成声音信号的所述解码器;
在权利要求60-101中的任一个中所述的器件,用于改善由在从编码器向解码器的发送期间被删除的编码的声音信号的帧引起的帧删除的隐藏,并且用于促进在已经接收到所述编码的声音信号的未删除帧后解码器的恢复。
120.一种用于解码编码的声音信号的解码器,包括:
用于响应于编码的声音信号而从所述编码的声音信号恢复一组信号编码参数的部件;
用于响应于信号编码参数而合成声音信号的部件;
在权利要求102-118中的任一个中所述的器件,用于改善由在从编码器向解码器的发送期间被删除的编码的声音信号的帧引起的帧删除的隐藏,并且用于促进在已经接收到所述编码的声音信号的未删除帧后解码器的恢复。
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CA002388439A CA2388439A1 (en) | 2002-05-31 | 2002-05-31 | A method and device for efficient frame erasure concealment in linear predictive based speech codecs |
CA2,388,439 | 2002-05-31 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN1659625A true CN1659625A (zh) | 2005-08-24 |
CN100338648C CN100338648C (zh) | 2007-09-19 |
Family
ID=29589088
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CNB038125943A Expired - Lifetime CN100338648C (zh) | 2002-05-31 | 2003-05-30 | 在基于线性预测的语音编码解码器中有效帧删除隐藏的方法和器件 |
Country Status (18)
Country | Link |
---|---|
US (1) | US7693710B2 (zh) |
EP (1) | EP1509903B1 (zh) |
JP (1) | JP4658596B2 (zh) |
KR (1) | KR101032119B1 (zh) |
CN (1) | CN100338648C (zh) |
AU (1) | AU2003233724B2 (zh) |
BR (3) | BRPI0311523B1 (zh) |
CA (2) | CA2388439A1 (zh) |
DK (1) | DK1509903T3 (zh) |
ES (1) | ES2625895T3 (zh) |
MX (1) | MXPA04011751A (zh) |
MY (1) | MY141649A (zh) |
NO (1) | NO20045578L (zh) |
NZ (1) | NZ536238A (zh) |
PT (1) | PT1509903T (zh) |
RU (1) | RU2325707C2 (zh) |
WO (1) | WO2003102921A1 (zh) |
ZA (1) | ZA200409643B (zh) |
Cited By (25)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US7835912B2 (en) | 2007-11-05 | 2010-11-16 | Huawei Technologies Co., Ltd. | Signal processing method, processing apparatus and voice decoder |
CN101136201B (zh) * | 2006-08-11 | 2011-04-13 | 美国博通公司 | 对音频信号中认为丢失的一部分进行替换的系统及方法 |
CN101101753B (zh) * | 2006-07-07 | 2011-04-20 | 乐金电子(昆山)电脑有限公司 | 音频帧识别方法 |
CN101361113B (zh) * | 2006-08-15 | 2011-11-30 | 美国博通公司 | 丢包后的约束和受控解码 |
CN101071568B (zh) * | 2005-11-23 | 2012-05-23 | 美国博通公司 | 音频解码的方法及系统 |
CN102725791A (zh) * | 2009-11-19 | 2012-10-10 | 瑞典爱立信有限公司 | 用于音频编解码中的响度和锐度补偿的方法和设备 |
CN102984122A (zh) * | 2012-10-09 | 2013-03-20 | 中国科学技术大学苏州研究院 | 基于amr-wb码率伪装的ip语音隐蔽通信方法 |
CN101578508B (zh) * | 2006-10-24 | 2013-07-17 | 沃伊斯亚吉公司 | 用于对语音信号中的过渡帧进行编码的方法和设备 |
CN103229234A (zh) * | 2010-11-22 | 2013-07-31 | 株式会社Ntt都科摩 | 音频编码装置、方法和程序以及音频解码装置、方法和程序 |
CN105378831A (zh) * | 2013-06-21 | 2016-03-02 | 弗朗霍夫应用科学研究促进协会 | 针对切换式音频编码系统在错误隐藏过程中的改善信号衰落的装置及方法 |
CN105408956A (zh) * | 2013-06-21 | 2016-03-16 | 弗朗霍夫应用科学研究促进协会 | 用于获取用于音频信号的替换帧的频谱系数的方法及装置、音频解码器、音频接收器、以及用于发送音频信号的系统 |
CN105453173A (zh) * | 2013-06-21 | 2016-03-30 | 弗朗霍夫应用科学研究促进协会 | 利用改进的脉冲再同步化的似acelp隐藏中的自适应码本的改进隐藏的装置及方法 |
CN105590629A (zh) * | 2014-11-18 | 2016-05-18 | 华为终端(东莞)有限公司 | 一种语音处理的方法及装置 |
CN105810214A (zh) * | 2014-12-31 | 2016-07-27 | 展讯通信(上海)有限公司 | 语音激活检测方法及装置 |
CN109496333A (zh) * | 2017-06-26 | 2019-03-19 | 华为技术有限公司 | 一种丢帧补偿方法及设备 |
US10381011B2 (en) | 2013-06-21 | 2019-08-13 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Apparatus and method for improved concealment of the adaptive codebook in a CELP-like concealment employing improved pitch lag estimation |
CN110164456A (zh) * | 2013-10-29 | 2019-08-23 | 株式会社Ntt都科摩 | 音频信号处理装置、音频信号处理方法及存储介质 |
CN110491398A (zh) * | 2014-03-24 | 2019-11-22 | 日本电信电话株式会社 | 编码方法、编码装置、程序以及记录介质 |
CN111063362A (zh) * | 2019-12-11 | 2020-04-24 | 中国电子科技集团公司第三十研究所 | 一种数字语音通信噪音消除和语音恢复方法及装置 |
CN111133510A (zh) * | 2017-09-20 | 2020-05-08 | 沃伊斯亚吉公司 | 用于在celp编解码器中高效地分配比特预算的方法和设备 |
CN111192595A (zh) * | 2014-05-15 | 2020-05-22 | 瑞典爱立信有限公司 | 音频信号分类和编码 |
CN112786060A (zh) * | 2014-08-27 | 2021-05-11 | 弗劳恩霍夫应用研究促进协会 | 使用用于增强隐藏的参数对音频内容进行编码和解码的编码器、解码器和方法 |
CN113348507A (zh) * | 2019-01-13 | 2021-09-03 | 华为技术有限公司 | 高分辨率音频编解码 |
CN113766239A (zh) * | 2020-06-05 | 2021-12-07 | 于江鸿 | 数据处理的方法和系统 |
US12125491B2 (en) | 2013-06-21 | 2024-10-22 | Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. | Apparatus and method realizing improved concepts for TCX LTP |
Families Citing this family (129)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US7558295B1 (en) * | 2003-06-05 | 2009-07-07 | Mindspeed Technologies, Inc. | Voice access model using modem and speech compression technologies |
JP4135621B2 (ja) * | 2003-11-05 | 2008-08-20 | 沖電気工業株式会社 | 受信装置および方法 |
KR100587953B1 (ko) * | 2003-12-26 | 2006-06-08 | 한국전자통신연구원 | 대역-분할 광대역 음성 코덱에서의 고대역 오류 은닉 장치 및 그를 이용한 비트스트림 복호화 시스템 |
CA2457988A1 (en) * | 2004-02-18 | 2005-08-18 | Voiceage Corporation | Methods and devices for audio compression based on acelp/tcx coding and multi-rate lattice vector quantization |
US7668712B2 (en) | 2004-03-31 | 2010-02-23 | Microsoft Corporation | Audio encoding and decoding with intra frames and adaptive forward error correction |
US8725501B2 (en) * | 2004-07-20 | 2014-05-13 | Panasonic Corporation | Audio decoding device and compensation frame generation method |
FR2880724A1 (fr) * | 2005-01-11 | 2006-07-14 | France Telecom | Procede et dispositif de codage optimise entre deux modeles de prediction a long terme |
CA2596341C (en) | 2005-01-31 | 2013-12-03 | Sonorit Aps | Method for concatenating frames in communication system |
KR100612889B1 (ko) * | 2005-02-05 | 2006-08-14 | 삼성전자주식회사 | 선스펙트럼 쌍 파라미터 복원 방법 및 장치와 그 음성복호화 장치 |
US20070147518A1 (en) * | 2005-02-18 | 2007-06-28 | Bruno Bessette | Methods and devices for low-frequency emphasis during audio compression based on ACELP/TCX |
WO2006098274A1 (ja) * | 2005-03-14 | 2006-09-21 | Matsushita Electric Industrial Co., Ltd. | スケーラブル復号化装置およびスケーラブル復号化方法 |
US7930176B2 (en) | 2005-05-20 | 2011-04-19 | Broadcom Corporation | Packet loss concealment for block-independent speech codecs |
US7177804B2 (en) * | 2005-05-31 | 2007-02-13 | Microsoft Corporation | Sub-band voice codec with multi-stage codebooks and redundant coding |
US7707034B2 (en) | 2005-05-31 | 2010-04-27 | Microsoft Corporation | Audio codec post-filter |
US7831421B2 (en) * | 2005-05-31 | 2010-11-09 | Microsoft Corporation | Robust decoder |
ATE490454T1 (de) * | 2005-07-22 | 2010-12-15 | France Telecom | Verfahren zum umschalten der raten- und bandbreitenskalierbaren audiodecodierungsrate |
KR100723409B1 (ko) * | 2005-07-27 | 2007-05-30 | 삼성전자주식회사 | 프레임 소거 은닉장치 및 방법, 및 이를 이용한 음성복호화 방법 및 장치 |
US8620644B2 (en) * | 2005-10-26 | 2013-12-31 | Qualcomm Incorporated | Encoder-assisted frame loss concealment techniques for audio coding |
US8255207B2 (en) * | 2005-12-28 | 2012-08-28 | Voiceage Corporation | Method and device for efficient frame erasure concealment in speech codecs |
KR101151746B1 (ko) | 2006-01-02 | 2012-06-15 | 삼성전자주식회사 | 오디오 신호용 잡음제거 방법 및 장치 |
FR2897977A1 (fr) * | 2006-02-28 | 2007-08-31 | France Telecom | Procede de limitation de gain d'excitation adaptative dans un decodeur audio |
WO2007119368A1 (ja) * | 2006-03-17 | 2007-10-25 | Matsushita Electric Industrial Co., Ltd. | スケーラブル符号化装置およびスケーラブル符号化方法 |
KR100900438B1 (ko) * | 2006-04-25 | 2009-06-01 | 삼성전자주식회사 | 음성 패킷 복구 장치 및 방법 |
CN1983909B (zh) | 2006-06-08 | 2010-07-28 | 华为技术有限公司 | 一种丢帧隐藏装置和方法 |
US8218529B2 (en) * | 2006-07-07 | 2012-07-10 | Avaya Canada Corp. | Device for and method of terminating a VoIP call |
WO2008007700A1 (fr) * | 2006-07-12 | 2008-01-17 | Panasonic Corporation | Dispositif de décodage de son, dispositif de codage de son, et procédé de compensation de trame perdue |
US8812306B2 (en) * | 2006-07-12 | 2014-08-19 | Panasonic Intellectual Property Corporation Of America | Speech decoding and encoding apparatus for lost frame concealment using predetermined number of waveform samples peripheral to the lost frame |
US8015000B2 (en) * | 2006-08-03 | 2011-09-06 | Broadcom Corporation | Classification-based frame loss concealment for audio signals |
KR101040160B1 (ko) * | 2006-08-15 | 2011-06-09 | 브로드콤 코포레이션 | 패킷 손실 후의 제한되고 제어된 디코딩 |
JP4827661B2 (ja) * | 2006-08-30 | 2011-11-30 | 富士通株式会社 | 信号処理方法及び装置 |
CN101155140A (zh) * | 2006-10-01 | 2008-04-02 | 华为技术有限公司 | 音频流错误隐藏的方法、装置和系统 |
US7877253B2 (en) * | 2006-10-06 | 2011-01-25 | Qualcomm Incorporated | Systems, methods, and apparatus for frame erasure recovery |
JP5123516B2 (ja) * | 2006-10-30 | 2013-01-23 | 株式会社エヌ・ティ・ティ・ドコモ | 復号装置、符号化装置、復号方法及び符号化方法 |
EP1918909B1 (en) * | 2006-11-03 | 2010-07-07 | Psytechnics Ltd | Sampling error compensation |
EP1921608A1 (en) * | 2006-11-13 | 2008-05-14 | Electronics And Telecommunications Research Institute | Method of inserting vector information for estimating voice data in key re-synchronization period, method of transmitting vector information, and method of estimating voice data in key re-synchronization using vector information |
KR100862662B1 (ko) | 2006-11-28 | 2008-10-10 | 삼성전자주식회사 | 프레임 오류 은닉 방법 및 장치, 이를 이용한 오디오 신호복호화 방법 및 장치 |
KR101291193B1 (ko) | 2006-11-30 | 2013-07-31 | 삼성전자주식회사 | 프레임 오류은닉방법 |
WO2008072671A1 (ja) * | 2006-12-13 | 2008-06-19 | Panasonic Corporation | 音声復号化装置およびパワ調整方法 |
ES2533626T3 (es) * | 2007-03-02 | 2015-04-13 | Telefonaktiebolaget L M Ericsson (Publ) | Métodos y adaptaciones en una red de telecomunicaciones |
JP5596341B2 (ja) * | 2007-03-02 | 2014-09-24 | パナソニック インテレクチュアル プロパティ コーポレーション オブ アメリカ | 音声符号化装置および音声符号化方法 |
SG179433A1 (en) * | 2007-03-02 | 2012-04-27 | Panasonic Corp | Encoding device and encoding method |
ES2642091T3 (es) | 2007-03-02 | 2017-11-15 | Iii Holdings 12, Llc | Dispositivo de codificación de audio y dispositivo de decodificación de audio |
US8160872B2 (en) * | 2007-04-05 | 2012-04-17 | Texas Instruments Incorporated | Method and apparatus for layered code-excited linear prediction speech utilizing linear prediction excitation corresponding to optimal gains |
US20080249767A1 (en) * | 2007-04-05 | 2008-10-09 | Ali Erdem Ertan | Method and system for reducing frame erasure related error propagation in predictive speech parameter coding |
WO2008146466A1 (ja) * | 2007-05-24 | 2008-12-04 | Panasonic Corporation | オーディオ復号装置、オーディオ復号方法、プログラム及び集積回路 |
JP5618826B2 (ja) * | 2007-06-14 | 2014-11-05 | ヴォイスエイジ・コーポレーション | Itu.t勧告g.711と相互運用可能なpcmコーデックにおいてフレーム消失を補償する装置および方法 |
CN101325631B (zh) * | 2007-06-14 | 2010-10-20 | 华为技术有限公司 | 一种估计基音周期的方法和装置 |
KR100906766B1 (ko) * | 2007-06-18 | 2009-07-09 | 한국전자통신연구원 | 키 재동기 구간의 음성 데이터 예측을 위한 음성 데이터송수신 장치 및 방법 |
CN100524462C (zh) | 2007-09-15 | 2009-08-05 | 华为技术有限公司 | 对高带信号进行帧错误隐藏的方法及装置 |
KR101449431B1 (ko) | 2007-10-09 | 2014-10-14 | 삼성전자주식회사 | 계층형 광대역 오디오 신호의 부호화 방법 및 장치 |
US8315856B2 (en) * | 2007-10-24 | 2012-11-20 | Red Shift Company, Llc | Identify features of speech based on events in a signal representing spoken sounds |
CN101207665B (zh) | 2007-11-05 | 2010-12-08 | 华为技术有限公司 | 一种衰减因子的获取方法 |
KR100998396B1 (ko) * | 2008-03-20 | 2010-12-03 | 광주과학기술원 | 프레임 손실 은닉 방법, 프레임 손실 은닉 장치 및 음성송수신 장치 |
FR2929466A1 (fr) * | 2008-03-28 | 2009-10-02 | France Telecom | Dissimulation d'erreur de transmission dans un signal numerique dans une structure de decodage hierarchique |
US8768690B2 (en) | 2008-06-20 | 2014-07-01 | Qualcomm Incorporated | Coding scheme selection for low-bit-rate applications |
US20090319261A1 (en) * | 2008-06-20 | 2009-12-24 | Qualcomm Incorporated | Coding of transitional speech frames for low-bit-rate applications |
US20090319263A1 (en) * | 2008-06-20 | 2009-12-24 | Qualcomm Incorporated | Coding of transitional speech frames for low-bit-rate applications |
ES2683077T3 (es) * | 2008-07-11 | 2018-09-24 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Codificador y decodificador de audio para codificar y decodificar tramas de una señal de audio muestreada |
DE102008042579B4 (de) * | 2008-10-02 | 2020-07-23 | Robert Bosch Gmbh | Verfahren zur Fehlerverdeckung bei fehlerhafter Übertragung von Sprachdaten |
US8706479B2 (en) * | 2008-11-14 | 2014-04-22 | Broadcom Corporation | Packet loss concealment for sub-band codecs |
CN101599272B (zh) * | 2008-12-30 | 2011-06-08 | 华为技术有限公司 | 基音搜索方法及装置 |
CN101958119B (zh) * | 2009-07-16 | 2012-02-29 | 中兴通讯股份有限公司 | 一种改进的离散余弦变换域音频丢帧补偿器和补偿方法 |
EP4362014A1 (en) * | 2009-10-20 | 2024-05-01 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Audio signal encoder, audio signal decoder, method for encoding or decoding an audio signal using an aliasing-cancellation |
WO2011065741A2 (ko) * | 2009-11-24 | 2011-06-03 | 엘지전자 주식회사 | 오디오 신호 처리 방법 및 장치 |
PT3364411T (pt) * | 2009-12-14 | 2022-09-06 | Fraunhofer Ges Forschung | Dispositivo de quantização de vetor, dispositivo de codificação de voz, método de quantização de vetor e método de codificação de voz |
KR101381272B1 (ko) | 2010-01-08 | 2014-04-07 | 니뽄 덴신 덴와 가부시키가이샤 | 부호화 방법, 복호 방법, 부호화 장치, 복호 장치, 프로그램 및 기록 매체 |
US20110196673A1 (en) * | 2010-02-11 | 2011-08-11 | Qualcomm Incorporated | Concealing lost packets in a sub-band coding decoder |
US8660195B2 (en) | 2010-08-10 | 2014-02-25 | Qualcomm Incorporated | Using quantized prediction memory during fast recovery coding |
DK3518234T3 (da) * | 2010-11-22 | 2024-01-02 | Ntt Docomo Inc | Audiokodningsindretning og fremgangsmåde |
JP5724338B2 (ja) * | 2010-12-03 | 2015-05-27 | ソニー株式会社 | 符号化装置および符号化方法、復号装置および復号方法、並びにプログラム |
PL3471092T3 (pl) | 2011-02-14 | 2020-12-28 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Dekodowanie pozycji impulsów ścieżek sygnału audio |
CN103534754B (zh) | 2011-02-14 | 2015-09-30 | 弗兰霍菲尔运输应用研究公司 | 在不活动阶段期间利用噪声合成的音频编解码器 |
CN102959620B (zh) | 2011-02-14 | 2015-05-13 | 弗兰霍菲尔运输应用研究公司 | 利用重迭变换的信息信号表示 |
AU2012217216B2 (en) | 2011-02-14 | 2015-09-17 | Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. | Apparatus and method for coding a portion of an audio signal using a transient detection and a quality result |
ES2534972T3 (es) | 2011-02-14 | 2015-04-30 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Predicción lineal basada en esquema de codificación utilizando conformación de ruido de dominio espectral |
SG192746A1 (en) | 2011-02-14 | 2013-09-30 | Fraunhofer Ges Forschung | Apparatus and method for processing a decoded audio signal in a spectral domain |
CA2827000C (en) * | 2011-02-14 | 2016-04-05 | Jeremie Lecomte | Apparatus and method for error concealment in low-delay unified speech and audio coding (usac) |
MY159444A (en) | 2011-02-14 | 2017-01-13 | Fraunhofer-Gesellschaft Zur Forderung Der Angewandten Forschung E V | Encoding and decoding of pulse positions of tracks of an audio signal |
AU2012217153B2 (en) | 2011-02-14 | 2015-07-16 | Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. | Apparatus and method for encoding and decoding an audio signal using an aligned look-ahead portion |
JP2012203351A (ja) * | 2011-03-28 | 2012-10-22 | Yamaha Corp | 子音識別装置、およびプログラム |
US9026434B2 (en) | 2011-04-11 | 2015-05-05 | Samsung Electronic Co., Ltd. | Frame erasure concealment for a multi rate speech and audio codec |
IN2014DN03022A (zh) * | 2011-11-03 | 2015-05-08 | Voiceage Corp | |
JP6012203B2 (ja) * | 2012-03-05 | 2016-10-25 | キヤノン株式会社 | 画像処理装置、及び制御方法 |
US20130282372A1 (en) * | 2012-04-23 | 2013-10-24 | Qualcomm Incorporated | Systems and methods for audio signal processing |
US9589570B2 (en) | 2012-09-18 | 2017-03-07 | Huawei Technologies Co., Ltd. | Audio classification based on perceptual quality for low or medium bit rates |
US9123328B2 (en) * | 2012-09-26 | 2015-09-01 | Google Technology Holdings LLC | Apparatus and method for audio frame loss recovery |
CN103714821A (zh) | 2012-09-28 | 2014-04-09 | 杜比实验室特许公司 | 基于位置的混合域数据包丢失隐藏 |
JP6335190B2 (ja) | 2012-12-21 | 2018-05-30 | フラウンホーファー−ゲゼルシャフト・ツール・フェルデルング・デル・アンゲヴァンテン・フォルシュング・アインゲトラーゲネル・フェライン | 低ビットレートで背景ノイズをモデル化するためのコンフォートノイズ付加 |
BR112015014212B1 (pt) | 2012-12-21 | 2021-10-19 | Fraunhofer-Gesellschaft Zur Forderung Der Angewandten Forschung E.V. | Geração de um ruído de conforto com alta resolução espectro-temporal em transmissão descontínua de sinais de audio |
US9601125B2 (en) | 2013-02-08 | 2017-03-21 | Qualcomm Incorporated | Systems and methods of performing noise modulation and gain adjustment |
CN104995673B (zh) * | 2013-02-13 | 2016-10-12 | 瑞典爱立信有限公司 | 帧错误隐藏 |
US9842598B2 (en) * | 2013-02-21 | 2017-12-12 | Qualcomm Incorporated | Systems and methods for mitigating potential frame instability |
KR102148407B1 (ko) * | 2013-02-27 | 2020-08-27 | 한국전자통신연구원 | 소스 필터를 이용한 주파수 스펙트럼 처리 장치 및 방법 |
LT3537437T (lt) * | 2013-03-04 | 2021-06-25 | Voiceage Evs Llc | Kvantavimo triukšmo mažinimo laikiniame dekoderyje įrenginys ir būdas |
CN106169297B (zh) | 2013-05-30 | 2019-04-19 | 华为技术有限公司 | 信号编码方法及设备 |
PT3011560T (pt) | 2013-06-21 | 2018-11-09 | Fraunhofer Ges Forschung | Descodificador de áudio contendo um módulo de extensão de largura de banda com um módulo de ajustamento de energia |
CN108364657B (zh) * | 2013-07-16 | 2020-10-30 | 超清编解码有限公司 | 处理丢失帧的方法和解码器 |
CN107818789B (zh) * | 2013-07-16 | 2020-11-17 | 华为技术有限公司 | 解码方法和解码装置 |
PL3355305T3 (pl) * | 2013-10-31 | 2020-04-30 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Dekoder audio i sposób dostarczania zdekodowanej informacji audio z wykorzystaniem maskowania błędów modyfikującego sygnał pobudzenia w dziedzinie czasu |
PL3288026T3 (pl) | 2013-10-31 | 2020-11-02 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Dekoder audio i sposób dostarczania zdekodowanej informacji audio z wykorzystaniem ukrywania błędów na bazie sygnału pobudzenia w dziedzinie czasu |
FR3013496A1 (fr) * | 2013-11-15 | 2015-05-22 | Orange | Transition d'un codage/decodage par transformee vers un codage/decodage predictif |
CN104751849B (zh) | 2013-12-31 | 2017-04-19 | 华为技术有限公司 | 语音频码流的解码方法及装置 |
KR102354331B1 (ko) * | 2014-02-24 | 2022-01-21 | 삼성전자주식회사 | 신호 분류 방법 및 장치, 및 이를 이용한 오디오 부호화방법 및 장치 |
EP2922055A1 (en) | 2014-03-19 | 2015-09-23 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Apparatus, method and corresponding computer program for generating an error concealment signal using individual replacement LPC representations for individual codebook information |
EP2922054A1 (en) | 2014-03-19 | 2015-09-23 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Apparatus, method and corresponding computer program for generating an error concealment signal using an adaptive noise estimation |
EP2922056A1 (en) | 2014-03-19 | 2015-09-23 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Apparatus, method and corresponding computer program for generating an error concealment signal using power compensation |
CN104934035B (zh) | 2014-03-21 | 2017-09-26 | 华为技术有限公司 | 语音频码流的解码方法及装置 |
MX362490B (es) * | 2014-04-17 | 2019-01-18 | Voiceage Corp | Metodos codificador y decodificador para la codificacion y decodificacion predictiva lineal de señales de sonido en la transicion entre cuadros teniendo diferentes tasas de muestreo. |
US9697843B2 (en) * | 2014-04-30 | 2017-07-04 | Qualcomm Incorporated | High band excitation signal generation |
NO2780522T3 (zh) | 2014-05-15 | 2018-06-09 | ||
CN105225666B (zh) | 2014-06-25 | 2016-12-28 | 华为技术有限公司 | 处理丢失帧的方法和装置 |
ES2770704T3 (es) * | 2014-07-28 | 2020-07-02 | Nippon Telegraph & Telephone | Codificación de una señal acústica |
EP2980797A1 (en) * | 2014-07-28 | 2016-02-03 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Audio decoder, method and computer program using a zero-input-response to obtain a smooth transition |
EP3230980B1 (en) | 2014-12-09 | 2018-11-28 | Dolby International AB | Mdct-domain error concealment |
US9916835B2 (en) * | 2015-01-22 | 2018-03-13 | Sennheiser Electronic Gmbh & Co. Kg | Digital wireless audio transmission system |
US9830921B2 (en) * | 2015-08-17 | 2017-11-28 | Qualcomm Incorporated | High-band target signal control |
US20170365255A1 (en) * | 2016-06-15 | 2017-12-21 | Adam Kupryjanow | Far field automatic speech recognition pre-processing |
US9679578B1 (en) | 2016-08-31 | 2017-06-13 | Sorenson Ip Holdings, Llc | Signal clipping compensation |
CN108011686B (zh) * | 2016-10-31 | 2020-07-14 | 腾讯科技(深圳)有限公司 | 信息编码帧丢失恢复方法和装置 |
CN107564533A (zh) * | 2017-07-12 | 2018-01-09 | 同济大学 | 基于信源先验信息的语音帧修复方法和装置 |
CN112154502B (zh) * | 2018-04-05 | 2024-03-01 | 瑞典爱立信有限公司 | 支持生成舒适噪声 |
US10763885B2 (en) | 2018-11-06 | 2020-09-01 | Stmicroelectronics S.R.L. | Method of error concealment, and associated device |
US10803876B2 (en) * | 2018-12-21 | 2020-10-13 | Microsoft Technology Licensing, Llc | Combined forward and backward extrapolation of lost network data |
US10784988B2 (en) | 2018-12-21 | 2020-09-22 | Microsoft Technology Licensing, Llc | Conditional forward error correction for network data |
US11388721B1 (en) * | 2020-06-08 | 2022-07-12 | Sprint Spectrum L.P. | Use of voice muting as a basis to limit application of resource-intensive service |
CN113113030B (zh) * | 2021-03-22 | 2022-03-22 | 浙江大学 | 一种基于降噪自编码器的高维受损数据无线传输方法 |
EP4329202A4 (en) | 2021-05-25 | 2024-10-16 | Samsung Electronics Co Ltd | SELF-CORRECTING MIN-SUM DECODER BASED ON NEURAL NETWORK AND ELECTRONIC DEVICE COMPRISING SAME |
KR20220159071A (ko) * | 2021-05-25 | 2022-12-02 | 삼성전자주식회사 | 신경망 자기 정정 최소합 복호기 및 이를 포함하는 전자 장치 |
CN114913844A (zh) * | 2022-04-11 | 2022-08-16 | 昆明理工大学 | 一种基音归一化重构的广播语种识别方法 |
Family Cites Families (37)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US4707857A (en) * | 1984-08-27 | 1987-11-17 | John Marley | Voice command recognition system having compact significant feature data |
CA2010830C (en) | 1990-02-23 | 1996-06-25 | Jean-Pierre Adoul | Dynamic codebook for efficient speech coding based on algebraic codes |
US5701392A (en) | 1990-02-23 | 1997-12-23 | Universite De Sherbrooke | Depth-first algebraic-codebook search for fast coding of speech |
US5754976A (en) | 1990-02-23 | 1998-05-19 | Universite De Sherbrooke | Algebraic codebook with signal-selected pulse amplitude/position combinations for fast coding of speech |
US5226084A (en) * | 1990-12-05 | 1993-07-06 | Digital Voice Systems, Inc. | Methods for speech quantization and error correction |
US5122875A (en) | 1991-02-27 | 1992-06-16 | General Electric Company | An HDTV compression system |
DE69203186T2 (de) * | 1991-09-20 | 1996-02-01 | Philips Electronics Nv | Verarbeitungsgerät für die menschliche Sprache zum Detektieren des Schliessens der Stimmritze. |
JP3137805B2 (ja) * | 1993-05-21 | 2001-02-26 | 三菱電機株式会社 | 音声符号化装置、音声復号化装置、音声後処理装置及びこれらの方法 |
US5701390A (en) * | 1995-02-22 | 1997-12-23 | Digital Voice Systems, Inc. | Synthesis of MBE-based coded speech using regenerated phase information |
US5664055A (en) * | 1995-06-07 | 1997-09-02 | Lucent Technologies Inc. | CS-ACELP speech compression system with adaptive pitch prediction filter gain based on a measure of periodicity |
US5699485A (en) * | 1995-06-07 | 1997-12-16 | Lucent Technologies Inc. | Pitch delay modification during frame erasures |
US5732389A (en) * | 1995-06-07 | 1998-03-24 | Lucent Technologies Inc. | Voiced/unvoiced classification of speech for excitation codebook selection in celp speech decoding during frame erasures |
US5864798A (en) * | 1995-09-18 | 1999-01-26 | Kabushiki Kaisha Toshiba | Method and apparatus for adjusting a spectrum shape of a speech signal |
SE9700772D0 (sv) * | 1997-03-03 | 1997-03-03 | Ericsson Telefon Ab L M | A high resolution post processing method for a speech decoder |
WO1999010719A1 (en) * | 1997-08-29 | 1999-03-04 | The Regents Of The University Of California | Method and apparatus for hybrid coding of speech at 4kbps |
JP2001508268A (ja) * | 1997-09-12 | 2001-06-19 | コーニンクレッカ フィリップス エレクトロニクス エヌ ヴィ | 欠損部分の改善された再構成を伴う伝送システム |
FR2774827B1 (fr) * | 1998-02-06 | 2000-04-14 | France Telecom | Procede de decodage d'un flux binaire representatif d'un signal audio |
US7272556B1 (en) * | 1998-09-23 | 2007-09-18 | Lucent Technologies Inc. | Scalable and embedded codec for speech and audio signals |
FR2784218B1 (fr) * | 1998-10-06 | 2000-12-08 | Thomson Csf | Procede de codage de la parole a bas debit |
CA2252170A1 (en) | 1998-10-27 | 2000-04-27 | Bruno Bessette | A method and device for high quality coding of wideband speech and audio signals |
EP1095370A1 (en) * | 1999-04-05 | 2001-05-02 | Hughes Electronics Corporation | Spectral phase modeling of the prototype waveform components for a frequency domain interpolative speech codec system |
US6324503B1 (en) * | 1999-07-19 | 2001-11-27 | Qualcomm Incorporated | Method and apparatus for providing feedback from decoder to encoder to improve performance in a predictive speech coder under frame erasure conditions |
RU2000102555A (ru) | 2000-02-02 | 2002-01-10 | Войсковая часть 45185 | Способ маскирования видеосигнала |
SE0001727L (sv) * | 2000-05-10 | 2001-11-11 | Global Ip Sound Ab | Överföring över paketförmedlade nät |
US6757654B1 (en) * | 2000-05-11 | 2004-06-29 | Telefonaktiebolaget Lm Ericsson | Forward error correction in speech coding |
FR2815457B1 (fr) * | 2000-10-18 | 2003-02-14 | Thomson Csf | Procede de codage de la prosodie pour un codeur de parole a tres bas debit |
US7031926B2 (en) * | 2000-10-23 | 2006-04-18 | Nokia Corporation | Spectral parameter substitution for the frame error concealment in a speech decoder |
US7016833B2 (en) * | 2000-11-21 | 2006-03-21 | The Regents Of The University Of California | Speaker verification system using acoustic data and non-acoustic data |
US6889182B2 (en) * | 2001-01-12 | 2005-05-03 | Telefonaktiebolaget L M Ericsson (Publ) | Speech bandwidth extension |
US6614370B2 (en) * | 2001-01-26 | 2003-09-02 | Oded Gottesman | Redundant compression techniques for transmitting data over degraded communication links and/or storing data on media subject to degradation |
US7013269B1 (en) * | 2001-02-13 | 2006-03-14 | Hughes Electronics Corporation | Voicing measure for a speech CODEC system |
US6931373B1 (en) * | 2001-02-13 | 2005-08-16 | Hughes Electronics Corporation | Prototype waveform phase modeling for a frequency domain interpolative speech codec system |
DE60233283D1 (de) * | 2001-02-27 | 2009-09-24 | Texas Instruments Inc | Verschleierungsverfahren bei Verlust von Sprachrahmen und Dekoder dafer |
US6937978B2 (en) * | 2001-10-30 | 2005-08-30 | Chungwa Telecom Co., Ltd. | Suppression system of background noise of speech signals and the method thereof |
US7047187B2 (en) * | 2002-02-27 | 2006-05-16 | Matsushita Electric Industrial Co., Ltd. | Method and apparatus for audio error concealment using data hiding |
CA2415105A1 (en) * | 2002-12-24 | 2004-06-24 | Voiceage Corporation | A method and device for robust predictive vector quantization of linear prediction parameters in variable bit rate speech coding |
US20070174047A1 (en) * | 2005-10-18 | 2007-07-26 | Anderson Kyle D | Method and apparatus for resynchronizing packetized audio streams |
-
2002
- 2002-05-31 CA CA002388439A patent/CA2388439A1/en not_active Abandoned
-
2003
- 2003-05-30 EP EP03727094.9A patent/EP1509903B1/en not_active Expired - Lifetime
- 2003-05-30 KR KR1020047019427A patent/KR101032119B1/ko active IP Right Grant
- 2003-05-30 AU AU2003233724A patent/AU2003233724B2/en not_active Expired
- 2003-05-30 NZ NZ536238A patent/NZ536238A/en not_active IP Right Cessation
- 2003-05-30 BR BRPI0311523-2A patent/BRPI0311523B1/pt unknown
- 2003-05-30 BR BR122017019860-2A patent/BR122017019860B1/pt active IP Right Grant
- 2003-05-30 CA CA2483791A patent/CA2483791C/en not_active Expired - Lifetime
- 2003-05-30 DK DK03727094.9T patent/DK1509903T3/en active
- 2003-05-30 JP JP2004509923A patent/JP4658596B2/ja not_active Expired - Lifetime
- 2003-05-30 WO PCT/CA2003/000830 patent/WO2003102921A1/en active Application Filing
- 2003-05-30 RU RU2004138286/09A patent/RU2325707C2/ru active
- 2003-05-30 US US10/515,569 patent/US7693710B2/en active Active
- 2003-05-30 ES ES03727094.9T patent/ES2625895T3/es not_active Expired - Lifetime
- 2003-05-30 MX MXPA04011751A patent/MXPA04011751A/es active IP Right Grant
- 2003-05-30 PT PT37270949T patent/PT1509903T/pt unknown
- 2003-05-30 BR BR0311523-2A patent/BR0311523A/pt active IP Right Grant
- 2003-05-30 CN CNB038125943A patent/CN100338648C/zh not_active Expired - Lifetime
- 2003-05-31 MY MYPI20032026A patent/MY141649A/en unknown
-
2004
- 2004-11-29 ZA ZA200409643A patent/ZA200409643B/en unknown
- 2004-12-21 NO NO20045578A patent/NO20045578L/no not_active Application Discontinuation
Cited By (65)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101071568B (zh) * | 2005-11-23 | 2012-05-23 | 美国博通公司 | 音频解码的方法及系统 |
CN101101753B (zh) * | 2006-07-07 | 2011-04-20 | 乐金电子(昆山)电脑有限公司 | 音频帧识别方法 |
CN101136201B (zh) * | 2006-08-11 | 2011-04-13 | 美国博通公司 | 对音频信号中认为丢失的一部分进行替换的系统及方法 |
CN101361113B (zh) * | 2006-08-15 | 2011-11-30 | 美国博通公司 | 丢包后的约束和受控解码 |
CN101375330B (zh) * | 2006-08-15 | 2012-02-08 | 美国博通公司 | 丢包后解码音频信号的时间扭曲的方法 |
CN101578508B (zh) * | 2006-10-24 | 2013-07-17 | 沃伊斯亚吉公司 | 用于对语音信号中的过渡帧进行编码的方法和设备 |
CN101601217B (zh) * | 2007-11-05 | 2013-01-09 | 华为技术有限公司 | 一种信号处理方法、处理装置以及语音解码器 |
US7835912B2 (en) | 2007-11-05 | 2010-11-16 | Huawei Technologies Co., Ltd. | Signal processing method, processing apparatus and voice decoder |
CN102122511B (zh) * | 2007-11-05 | 2013-12-04 | 华为技术有限公司 | 一种信号处理方法、处理装置以及语音解码器 |
CN102725791A (zh) * | 2009-11-19 | 2012-10-10 | 瑞典爱立信有限公司 | 用于音频编解码中的响度和锐度补偿的方法和设备 |
CN103229234A (zh) * | 2010-11-22 | 2013-07-31 | 株式会社Ntt都科摩 | 音频编码装置、方法和程序以及音频解码装置、方法和程序 |
CN103229234B (zh) * | 2010-11-22 | 2015-07-08 | 株式会社Ntt都科摩 | 音频编码装置、方法以及音频解码装置、方法 |
CN102984122A (zh) * | 2012-10-09 | 2013-03-20 | 中国科学技术大学苏州研究院 | 基于amr-wb码率伪装的ip语音隐蔽通信方法 |
US11410663B2 (en) | 2013-06-21 | 2022-08-09 | Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. | Apparatus and method for improved concealment of the adaptive codebook in ACELP-like concealment employing improved pitch lag estimation |
US10672404B2 (en) | 2013-06-21 | 2020-06-02 | Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. | Apparatus and method for generating an adaptive spectral shape of comfort noise |
CN105453173A (zh) * | 2013-06-21 | 2016-03-30 | 弗朗霍夫应用科学研究促进协会 | 利用改进的脉冲再同步化的似acelp隐藏中的自适应码本的改进隐藏的装置及方法 |
US12125491B2 (en) | 2013-06-21 | 2024-10-22 | Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. | Apparatus and method realizing improved concepts for TCX LTP |
CN110289005B (zh) * | 2013-06-21 | 2024-02-09 | 弗朗霍夫应用科学研究促进协会 | 用于产生舒缓噪声的自适应频谱形状的装置及方法 |
US11869514B2 (en) | 2013-06-21 | 2024-01-09 | Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. | Apparatus and method for improved signal fade out for switched audio coding systems during error concealment |
US11776551B2 (en) | 2013-06-21 | 2023-10-03 | Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. | Apparatus and method for improved signal fade out in different domains during error concealment |
CN110299147B (zh) * | 2013-06-21 | 2023-09-19 | 弗朗霍夫应用科学研究促进协会 | 针对切换式音频编码系统在错误隐藏过程中的改善信号衰落的装置及方法 |
CN105378831B (zh) * | 2013-06-21 | 2019-05-31 | 弗朗霍夫应用科学研究促进协会 | 针对切换式音频编码系统在错误隐藏过程中的改善信号衰落的装置及方法 |
CN105453173B (zh) * | 2013-06-21 | 2019-08-06 | 弗朗霍夫应用科学研究促进协会 | 利用改进的脉冲再同步化的似acelp隐藏中的自适应码本的改进隐藏的装置及方法 |
US10381011B2 (en) | 2013-06-21 | 2019-08-13 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Apparatus and method for improved concealment of the adaptive codebook in a CELP-like concealment employing improved pitch lag estimation |
CN110265044B (zh) * | 2013-06-21 | 2023-09-12 | 弗朗霍夫应用科学研究促进协会 | 在错误隐藏过程中在不同域中改善信号衰落的装置及方法 |
CN105408956A (zh) * | 2013-06-21 | 2016-03-16 | 弗朗霍夫应用科学研究促进协会 | 用于获取用于音频信号的替换帧的频谱系数的方法及装置、音频解码器、音频接收器、以及用于发送音频信号的系统 |
US11501783B2 (en) | 2013-06-21 | 2022-11-15 | Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. | Apparatus and method realizing a fading of an MDCT spectrum to white noise prior to FDNS application |
CN110265044A (zh) * | 2013-06-21 | 2019-09-20 | 弗朗霍夫应用科学研究促进协会 | 在错误隐藏过程中在不同域中改善信号衰落的装置及方法 |
CN110289005A (zh) * | 2013-06-21 | 2019-09-27 | 弗朗霍夫应用科学研究促进协会 | 用于产生舒缓噪声的自适应频谱形状的装置及方法 |
CN110299147A (zh) * | 2013-06-21 | 2019-10-01 | 弗朗霍夫应用科学研究促进协会 | 针对切换式音频编码系统在错误隐藏过程中的改善信号衰落的装置及方法 |
US11462221B2 (en) | 2013-06-21 | 2022-10-04 | Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. | Apparatus and method for generating an adaptive spectral shape of comfort noise |
US10475455B2 (en) | 2013-06-21 | 2019-11-12 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Method and apparatus for obtaining spectrum coefficients for a replacement frame of an audio signal, audio decoder, audio receiver, and system for transmitting audio signals |
CN105378831A (zh) * | 2013-06-21 | 2016-03-02 | 弗朗霍夫应用科学研究促进协会 | 针对切换式音频编码系统在错误隐藏过程中的改善信号衰落的装置及方法 |
US10607614B2 (en) | 2013-06-21 | 2020-03-31 | Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. | Apparatus and method realizing a fading of an MDCT spectrum to white noise prior to FDNS application |
US11282529B2 (en) | 2013-06-21 | 2022-03-22 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Method and apparatus for obtaining spectrum coefficients for a replacement frame of an audio signal, audio decoder, audio receiver, and system for transmitting audio signals |
US10643624B2 (en) | 2013-06-21 | 2020-05-05 | Fraunhofer-Gesellschaft zur Föerderung der Angewandten Forschung E.V. | Apparatus and method for improved concealment of the adaptive codebook in ACELP-like concealment employing improved pulse resynchronization |
US10867613B2 (en) | 2013-06-21 | 2020-12-15 | Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. | Apparatus and method for improved signal fade out in different domains during error concealment |
US10854208B2 (en) | 2013-06-21 | 2020-12-01 | Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. | Apparatus and method realizing improved concepts for TCX LTP |
US10679632B2 (en) | 2013-06-21 | 2020-06-09 | Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. | Apparatus and method for improved signal fade out for switched audio coding systems during error concealment |
CN110164457A (zh) * | 2013-10-29 | 2019-08-23 | 株式会社Ntt都科摩 | 音频信号处理装置、音频信号处理方法 |
CN110176239A (zh) * | 2013-10-29 | 2019-08-27 | 株式会社Ntt都科摩 | 音频信号处理装置、音频信号处理方法 |
CN110164456B (zh) * | 2013-10-29 | 2023-11-14 | 株式会社Ntt都科摩 | 音频信号处理装置、音频信号处理方法及存储介质 |
CN110164456A (zh) * | 2013-10-29 | 2019-08-23 | 株式会社Ntt都科摩 | 音频信号处理装置、音频信号处理方法及存储介质 |
CN110176239B (zh) * | 2013-10-29 | 2023-01-03 | 株式会社Ntt都科摩 | 音频信号处理装置、音频信号处理方法 |
CN110164457B (zh) * | 2013-10-29 | 2023-01-03 | 株式会社Ntt都科摩 | 音频信号处理装置、音频信号处理方法 |
CN110491398A (zh) * | 2014-03-24 | 2019-11-22 | 日本电信电话株式会社 | 编码方法、编码装置、程序以及记录介质 |
CN110491398B (zh) * | 2014-03-24 | 2022-10-21 | 日本电信电话株式会社 | 编码方法、编码装置以及记录介质 |
CN111192595A (zh) * | 2014-05-15 | 2020-05-22 | 瑞典爱立信有限公司 | 音频信号分类和编码 |
CN111192595B (zh) * | 2014-05-15 | 2023-09-22 | 瑞典爱立信有限公司 | 音频信号分类和编码 |
CN112786060B (zh) * | 2014-08-27 | 2023-11-03 | 弗劳恩霍夫应用研究促进协会 | 用于对音频内容进行编码和解码的编码器、解码器和方法 |
CN112786060A (zh) * | 2014-08-27 | 2021-05-11 | 弗劳恩霍夫应用研究促进协会 | 使用用于增强隐藏的参数对音频内容进行编码和解码的编码器、解码器和方法 |
CN105590629B (zh) * | 2014-11-18 | 2018-09-21 | 华为终端(东莞)有限公司 | 一种语音处理的方法及装置 |
CN105590629A (zh) * | 2014-11-18 | 2016-05-18 | 华为终端(东莞)有限公司 | 一种语音处理的方法及装置 |
WO2016078439A1 (zh) * | 2014-11-18 | 2016-05-26 | 华为技术有限公司 | 一种语音处理的方法及装置 |
CN105810214A (zh) * | 2014-12-31 | 2016-07-27 | 展讯通信(上海)有限公司 | 语音激活检测方法及装置 |
CN105810214B (zh) * | 2014-12-31 | 2019-11-05 | 展讯通信(上海)有限公司 | 语音激活检测方法及装置 |
CN109496333A (zh) * | 2017-06-26 | 2019-03-19 | 华为技术有限公司 | 一种丢帧补偿方法及设备 |
CN111149160A (zh) * | 2017-09-20 | 2020-05-12 | 沃伊斯亚吉公司 | 在celp编解码器中在子帧之间分派比特预算的方法和设备 |
CN111133510B (zh) * | 2017-09-20 | 2023-08-22 | 沃伊斯亚吉公司 | 用于在celp编解码器中高效地分配比特预算的方法和设备 |
CN111149160B (zh) * | 2017-09-20 | 2023-10-13 | 沃伊斯亚吉公司 | 在celp编解码器中在子帧之间分派比特预算的方法和设备 |
CN111133510A (zh) * | 2017-09-20 | 2020-05-08 | 沃伊斯亚吉公司 | 用于在celp编解码器中高效地分配比特预算的方法和设备 |
CN113348507A (zh) * | 2019-01-13 | 2021-09-03 | 华为技术有限公司 | 高分辨率音频编解码 |
CN111063362B (zh) * | 2019-12-11 | 2022-03-22 | 中国电子科技集团公司第三十研究所 | 一种数字语音通信噪音消除和语音恢复方法及装置 |
CN111063362A (zh) * | 2019-12-11 | 2020-04-24 | 中国电子科技集团公司第三十研究所 | 一种数字语音通信噪音消除和语音恢复方法及装置 |
CN113766239A (zh) * | 2020-06-05 | 2021-12-07 | 于江鸿 | 数据处理的方法和系统 |
Also Published As
Publication number | Publication date |
---|---|
CA2388439A1 (en) | 2003-11-30 |
CA2483791A1 (en) | 2003-12-11 |
KR20050005517A (ko) | 2005-01-13 |
BR122017019860B1 (pt) | 2019-01-29 |
AU2003233724A1 (en) | 2003-12-19 |
BRPI0311523B1 (pt) | 2018-06-26 |
AU2003233724B2 (en) | 2009-07-16 |
CN100338648C (zh) | 2007-09-19 |
MXPA04011751A (es) | 2005-06-08 |
NO20045578L (no) | 2005-02-22 |
WO2003102921A1 (en) | 2003-12-11 |
KR101032119B1 (ko) | 2011-05-09 |
DK1509903T3 (en) | 2017-06-06 |
BR0311523A (pt) | 2005-03-08 |
EP1509903A1 (en) | 2005-03-02 |
JP2005534950A (ja) | 2005-11-17 |
ES2625895T3 (es) | 2017-07-20 |
US7693710B2 (en) | 2010-04-06 |
PT1509903T (pt) | 2017-06-07 |
CA2483791C (en) | 2013-09-03 |
NZ536238A (en) | 2006-06-30 |
RU2004138286A (ru) | 2005-06-10 |
MY141649A (en) | 2010-05-31 |
US20050154584A1 (en) | 2005-07-14 |
RU2325707C2 (ru) | 2008-05-27 |
EP1509903B1 (en) | 2017-04-12 |
JP4658596B2 (ja) | 2011-03-23 |
ZA200409643B (en) | 2006-06-28 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN100338648C (zh) | 在基于线性预测的语音编码解码器中有效帧删除隐藏的方法和器件 | |
CN1165892C (zh) | 对宽带信号进行解码时的周期性增强的方法和设备 | |
CN1229775C (zh) | 宽带语音和音频信号解码器中的增益平滑 | |
CN1240049C (zh) | 语音编码系统 | |
CN1245706C (zh) | 多模式语音编码器 | |
CN1091535C (zh) | 将语音信号压缩成可变速率数据的方法、设备和电路 | |
CN1252681C (zh) | 一种码激励线性预测语音编码器的增益量化 | |
CN1703736A (zh) | 用于源控制可变比特率宽带语音编码的方法和装置 | |
CN1131507C (zh) | 音频信号编码装置、解码装置及音频信号编码·解码装置 | |
CN1205603C (zh) | 在用于宽带信号编码的代数码本中索引脉冲位置和符号的方法和设备 | |
CN1212606C (zh) | 处理丢失帧的语音通信系统及方法 | |
CN1248195C (zh) | 语音编码转换方法和装置 | |
CN1154976C (zh) | 再现语音信号的方法和装置以及传输该信号的方法 | |
CN1618093A (zh) | 有效编码语音信号的信号修改方法 | |
CN1185620C (zh) | 声音合成装置和方法以及电话装置 | |
CN1331825A (zh) | 周期性语音编码法 | |
CN1338104A (zh) | 自适应块长编码系统的数据分帧 | |
CN1947173A (zh) | 分层编码装置及分层编码方法 | |
CN1950686A (zh) | 编码装置、解码装置以及编码/解码方法 | |
CN1261713A (zh) | 接收装置和方法,通信装置和方法 | |
CN1890713A (zh) | 用于数字信号压缩编码的多脉冲字典的索引间的编码转换 | |
CN100369108C (zh) | 编码域中的音频增强的方法和设备 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
C14 | Grant of patent or utility model | ||
GR01 | Patent grant | ||
TR01 | Transfer of patent right |
Effective date of registration: 20200908 Address after: California, USA Patentee after: Shengdai EVs Ltd. Address before: Kaisan ohokkatsu Patentee before: VOICEAGE Corp. |
|
TR01 | Transfer of patent right | ||
CX01 | Expiry of patent term |
Granted publication date: 20070919 |
|
CX01 | Expiry of patent term |