CN101609681B - 编码方法、编码器、解码方法及解码器 - Google Patents

编码方法、编码器、解码方法及解码器 Download PDF

Info

Publication number
CN101609681B
CN101609681B CN2008101269382A CN200810126938A CN101609681B CN 101609681 B CN101609681 B CN 101609681B CN 2008101269382 A CN2008101269382 A CN 2008101269382A CN 200810126938 A CN200810126938 A CN 200810126938A CN 101609681 B CN101609681 B CN 101609681B
Authority
CN
China
Prior art keywords
vector
average
obtains
voice signal
unit
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
CN2008101269382A
Other languages
English (en)
Other versions
CN101609681A (zh
Inventor
鲍长春
辛杰
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Huawei Technologies Co Ltd
Beijing University of Technology
Original Assignee
Huawei Technologies Co Ltd
Beijing University of Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Huawei Technologies Co Ltd, Beijing University of Technology filed Critical Huawei Technologies Co Ltd
Priority to CN2008101269382A priority Critical patent/CN101609681B/zh
Publication of CN101609681A publication Critical patent/CN101609681A/zh
Application granted granted Critical
Publication of CN101609681B publication Critical patent/CN101609681B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Abstract

本发明实施例提供一种清音或过渡音模式下的编码方法,包括:获得去均值后的无偏矢量;对所述去均值后的无偏矢量进行矢量分裂,得到多个分裂子矢量;对所述多个分裂子矢量进行矢量量化,得到一组码字索引值。本发明还提供清音或过渡音模式下的编码器、解码方法、解码器、矢量量化系统、浊音或一般音模式下的编码方法、编码器、解码方法、解码器、矢量量化系统和矢量量化方法、装置。

Description

编码方法、编码器、解码方法及解码器
技术领域
本发明涉及通信领域,尤其涉及矢量量化技术。
背景技术
随着通信系统中高速率数据服务的发展,宽带语音(50~7000Hz)编码技术得到了越来越广泛的应用。线性预测分析技术(LPA,Linear PredictiveAnalysis)是目前进行语音信号分析的最有效的技术之一,也是代数码激励线性预测模型(ACELP,Algebraic Code Excited Linear Prediction)中的一个关键环节,它为模拟声道的频率特性提供了一组简洁的模型参数。LPA的模型参数具有多种表达形式,其中,导抗谱频率(ISF,Immittance SpectralFrequencies)参数因其许多优良的特性更加适合矢量量化,得到了广泛的应用。例如,在第3代合作伙伴计划2(3GPP2,3rd Generation Partnership Project 2)的宽带自适应多速率(AMR-WB,Adaptive Multi-Rate-Wideband)和宽带变速率多模式(VMR-WB,Variable-Rate Multimode Wideband)语音编码标准中,都采用了ISF参数。
宽带语音通常需要16阶线性预测系数才能较好的表征语音的谱包络信息。如果直接对整个矢量进行矢量量化,将导致非常高的空间和时间复杂度。因此,一些针对谱参数量化的次优量化方法相继提出,如预测矢量量化、分裂矢量量化、多级矢量量化、代数矢量量化等。预测分裂矢量量化方法结合了预测矢量量化和分裂矢量量化的优点,利用谱参数的帧间相关性,使用预测的方法减小了待量化矢量的动态范围,使用分裂的方法减小了时间和空间复杂度,对ISF参数有良好的量化效果,获得了广泛的应用。
发明人在实现本发明的过程中,发现现有技术至少存在以下缺点:虽然预测技术提高了量化的效果,但是由于预测要使用量化的历史值,所以,在发生帧丢失的情况下,就会有错误的延续。现有的预测模型主要有移动平均(MA,Moving Average)预测和自回归(AR,Autoregressive)预测。在相同量化比特数下,AR预测的量化效果更好,但是,在帧丢失情况下,错误延续比较严重,会严重影响语音质量,MA预测虽然可以把错误的延续控制在下一帧,但会严重降低量化效果。由此可见,现有的矢量量化的量化质量比较低。
发明内容
本发明目的在于提供编码方法、编码器、解码方法、解码器、矢量量化系统、矢量量化方法及装置,用以提高矢量量化的量化质量。
一种清音或过渡音模式下的编码方法,包括:判断语音信号的种类;获得去均值后的无偏矢量;在所述语音信号为所述清音或所述过渡音模式的情况下,对所述去均值后的无偏矢量进行矢量分裂,得到多个分裂子矢量;对所述多个分裂子矢量进行矢量量化,得到一组码字索引值。
一种清音或过渡音模式下的编码器,包括:语音信号种类判别单元,用于判断语音信号所属的种类;无偏矢量获得单元,用于获得去均值后的无偏矢量;矢量分裂单元,用于在所述语音信号为所述清音或所述过渡音模式的情况下,对所述无偏矢量获得单元获得的去均值后的无偏矢量进行矢量分裂,得到多个分裂子矢量;矢量量化单元,用于对所述矢量分裂单元得到的多个分裂子矢量进行矢量量化,得到一组码字索引值。
一种清音或过渡音模式下的解码方法,包括:判断语音信号的种类;在所述语音信号为所述清音或所述过渡音模式的情况下,获得一组码字索引值;根据每个码字索引值获得对应的分裂子矢量;将获得的分裂子矢量重构为去均值后的无偏矢量;根据所述去均值后的无偏矢量,获得量化后的目标矢量。
一种清音或过渡音模式下的解码器,包括:语音信号种类判别单元,用于判断语音信号所属的种类;码字索引值获得单元,在所述语音信号为所述清音或所述过渡音模式的情况下,用于获得一组码字索引值;分裂子矢量获得单元,用于根据所述码字索引值获得单元获得的每个码字索引值获得对应的分裂子矢量;无偏矢量重构单元,用于将所述分裂子矢量获得单元获得的分裂子矢量重构为去均值后的无偏矢量;目标矢量获得单元,用于根据所述无偏矢量重构单元重构的去均值后的无偏矢量,获得量化后的目标矢量。
一种浊音或一般音模式下的编码方法,包括:判断语音信号的种类;获得去均值后的无偏矢量;在所述语音信号为所述浊音或所述一般音模式的情况下,对所述去均值后的无偏矢量分别进行有记忆分裂矢量量化处理和无记忆分裂矢量量化处理,得到两组候选码字索引值;从两组候选码字索引值中,选择一组码字索引值。
一种浊音或一般音模式下的编码器,包括:语音信号种类判别单元,用于判断语音信号所属的种类;无偏矢量获得单元,用于获得去均值后的无偏矢量;无偏矢量处理单元,用于在所述语音信号种类为所述浊音或所述一般音模式的情况下,对所述无偏矢量获得单元获得的去均值后的无偏矢量分别进行有记忆分裂矢量量化处理和无记忆分裂矢量量化处理,得到两组候选码字索引值;码字索引值选择单元,用于从所述无偏矢量处理单元得到的两组候选码字索引值中,选择一组码字索引值。
一种浊音或一般音模式下的解码方法,包括:判断语音信号的种类;在所述语音信号为所述浊音或所述一般音模式的情况下,获得一组码字索引值和选择标识,所述选择标识用于标识所述码字索引值所经过的矢量量化处理的种类;对所述一组码字索引值进行与所述选择标识对应的解码处理,得到去均值后的无偏矢量;根据所述去均值后的无偏矢量,得到量化后的目标矢量。
一种浊音或一般音模式下的解码器,包括:语音信号种类判别单元,用于判断语音信号所属的种类;码字索引值和选择标识获得单元,用于在所述语音信号为所述浊音或所述一般音模式的情况下,获得一组码字索引值和选择标识,所述选择标识用于标识所述码字索引值所经过的矢量量化处理的种类;解码处理单元,用于对所述码字索引值和选择标识获得单元获得的一组码字索引值进行与所述选择标识对应的解码处理,得到去均值后的无偏矢量;量化后的目标矢量获得单元,用于根据所述矢量量化处理单元得到的去均值后的无偏矢量,得到量化后的目标矢量。
一种清音或过渡音模式下的矢量量化系统,包括:编码器,用于判断语音信号种类,在所述语音信号为所述清音或所述过渡音模式的情况下,获得去均值后的无偏矢量,对所述去均值后的无偏矢量进行矢量分裂,得到多个分裂子矢量;对所述多个分裂子矢量进行矢量量化,得到一组码字索引值;解码器,用于判断语音信号种类,在所述语音信号为所述清音或所述过渡音模式的情况下,获得所述编码器得到的所述一组码字索引值,根据每个码字索引值获得对应的分裂子矢量,将获得的分裂子矢量重构为去均值后的无偏矢量,根据所述去均值后的无偏矢量,获得量化后的目标矢量。
一种浊音或一般音模式下的矢量量化系统,包括:编码器,用于判断语音信号种类,在所述语音信号为所述浊音或所述一般音模式的情况下,获得去均值后的无偏矢量,对所述去均值后的无偏矢量分别进行有记忆分裂矢量量化处理和无记忆分裂矢量量化处理,得到两组候选码字索引值,从两组候选码字索引值中,选择一组码字索引值;解码器,用于判断语音信号种类,在所述语音信号为所述浊音或所述一般音模式的情况下,获得所述编码器选择的所述一组码字索引值和所述解码器提供的选择标识,所述选择标识用于标识所述码字索引值所经过的矢量量化处理的种类,对所述一组码字索引值进行与所述选择标识对应的解码处理,得到去均值后的无偏矢量,根据所述去均值后的无偏矢量,得到量化后的目标矢量。
一种矢量量化方法,包括:获得语音信号;判断所述语音信号所属的种类;如果所述语音信号是清音信号或过渡音信号,则使用上述清音或过渡音模式下的编码方法,对待量化的目标矢量进行编码处理,并使用上述清音或过渡音模式下的解码方法,对编码后得到的码字索引值进行解码处理;如果所述语音信号是浊音信号或一般音信号,则使用上述浊音或一般音模式下的编码方法,对待量化的目标矢量进行编码处理,并使用上述浊音或一般音模式下的解码方法,对编码后得到的码字索引值进行解码处理。
一种矢量量化装置,包括:语音信号获得单元,用于获得语音信号;语音信号种类判断单元,用于判断所述语音信号获得单元获得的语音信号所属的种类;第一矢量量化处理单元,包括上述清音或过渡音模式下的编码器及上述清音或过渡音模式下的解码器,所述上述清音或过渡音模式下的编码器用于在所述语音信号种类判断单元判断出所述语音信号是清音信号或过渡音信号后,对待量化的目标矢量进行编码处理,所述清音或过渡音模式下的解码器用于对所述上述清音或过渡音模式下的编码器得到的码字索引值进行解码处理;第二矢量量化处理单元,包括上述浊音或一般音模式下的编码器及上述浊音或一般音模式下的解码器,所述浊音或一般音模式下的编码器用于在所述语音信号种类判断单元判断出所述语音信号是浊音信号或一般音信号后,对待量化的目标矢量进行编码处理,所述浊音或一般音模式下的解码器用于对所述浊音或一般音模式下的编码器得到的码字索引值进行解码处理。
在本发明的清音或过渡音模式下的编解码实施例中,在判断出语音信号为所述清音或所述过渡音模式后,对去均值后的无偏矢量进行无记忆分裂矢量量化和对获得的码字索引值进行与无记忆分裂矢量量化对应的解码处理。由于清音或过渡音相关性低,而对相关性低的去均值后的无偏矢量进行无记忆分裂矢量量化会具有较好的量化效果。所以,本发明的清音或过渡音模式下的编解码实施例具有较好的量化效果。另外,由于对去均值后的无偏矢量进行无记忆分裂矢量量化相对于对去均值后的无偏矢量进行有记忆分裂矢量量化具有更好的安全性,所以,相对于现有技术的去均值后的无偏矢量进行有记忆分裂矢量量化,本发明的清音或过渡音模式下的编解码实施例具有更好的安全性。
在本发明的浊音或一般音模式下的编解码实施例中,在判断出语音信号是所述浊音或所述一般音模式后,对所述去均值后的无偏矢量采用有记忆分裂矢量量化处理和无记忆分裂矢量量化处理相结合的方式,对获得的码字索引值采用与上述一种矢量量化处理对应的解码处理。由于有记忆分裂矢量量化可以保证较少的量化比特数,无记忆分裂矢量量化可以保证较好的量化效果和安全性,所以,本发明的浊音或一般音模式下的编解码实施例可以在较少的量化比特数下,保证较好的量化效果和安全性。
在本发明的矢量量化实施例中,首先对语音信号进行分类,之后再使用相应的矢量量化处理方式处理去均值后的无偏矢量,这样可以针对不同的矢量量化处理方式分配量化比特数,从而能够使用较少的比特数获得较好的量化效果。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例的一种清音或过渡音模式下的编码方法流程图;
图2为本发明实施例的一种清音或过渡音模式下的编码器的结构示意图;
图3为本发明实施例的一种清音或过渡音模式下的解码方法流程图;
图4为本发明实施例的一种清音或过渡音模式下的解码器的结构示意图;
图5为本发明实施例的一种浊音或一般音模式下的编码方法流程图;
图6为本发明实施例的一种浊音或一般音模式下的编码器的结构示意图;
图7为本发明实施例的一种浊音或一般音模式下的解码方法流程图;
图8为本发明实施例的一种浊音或一般音模式下的解码器的结构示意图;
图9为本发明实施例的对清音和过渡音模式下帧尾ISF参数进行编解码的原理示意图;
图10为基于图9的编码流程图;
图11为基于图9的解码流程图;
图12为本发明实施例的对浊音和一般音模式下帧尾ISF参数进行编码的原理示意图;
图13为本发明实施例的对浊音和一般音模式下帧尾ISF参数进行解码的原理示意图;
图14为基于图13的编码流程图;
图15为基于图14步骤S1404的确定变量Stable的流程图;
图16为基于图13的解码流程图;
图17为本发明实施例的一种矢量量化方法流程图;
图18为本发明实施例的一种矢量量化装置结构示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
下面分别对本发明实施例的清音或过渡音模式下的编码方法、编码器、解码方法、解码器、浊音或一般音模式下的编码方法、编码器、解码方法、解码器、矢量量化方法及装置进行说明。
一种清音或过渡音模式下的编码方法如图1所示,包括:
步骤S101:获得去均值后的无偏矢量。
具体的,可以将待量化的目标矢量与所述待量化的目标矢量的均值矢量相减,得到去均值后的无偏矢量。
步骤S102:对所述去均值后的无偏矢量进行矢量分裂,得到多个分裂子矢量。
步骤S103:对所述多个分裂子矢量进行矢量量化,得到一组码字索引值。
具体的,可以根据平方误差最小准则,得到所述一组码字索引值。另外,可以从每个分裂子矢量对应的无偏码书中查找到对应的码字索引值。
可选的,在步骤S103之后,还可以包括步骤S104:将所述一组码字索引值写入比特流。
在上述清音或过渡音模式下的编码方法中,去均值后的矢量可以为去均值后的无偏ISF矢量。
上述清音或过渡音模式下的编码方法可以由多种形式的装置实现,其中的一种清音或过渡音模式下的编码器如图2所示,包括:无偏矢量获得单元201,用于获得去均值后的无偏矢量;矢量分裂单元202,用于对无偏矢量获得单元201获得的去均值后的无偏矢量进行矢量分裂,得到多个分裂子矢量;矢量量化单元203,用于对矢量分裂单元202得到的多个分裂子矢量进行矢量量化,得到一组码字索引值。
无偏矢量获得单元201获得去均值后的无偏矢量时,可以将待量化的目标矢量与所述待量化的目标矢量的均值矢量相减,得到去均值后的无偏矢量。
矢量量化单元203对矢量分裂单元202得到的多个分裂子矢量进行矢量量化时,可以根据平方误差最小准则,得到所述一组码字索引值。另外,矢量量化单元203对矢量分裂单元202得到的多个分裂子矢量进行矢量量化时,可以从每个分裂子矢量对应的无偏码书中查找到对应的码字索引值。
上述清音或过渡音模式下的编码器还可以包括:信息写入单元204,用于将矢量量化单元203得到的一组码字索引值写入比特流。
在上述清音或过渡音模式下的编码器中,所述去均值后的无偏矢量可以为去均值后的ISF矢量。
一种清音或过渡音模式下的解码方法如图3所示,包括:
步骤S301:获得一组码字索引值。
步骤S302:根据每个码字索引值获得对应的分裂子矢量。
具体的,可以在每个码字索引值对应的无偏码书中得到对应的分裂子矢量。
步骤S303:将获得的分裂子矢量重构为去均值后的无偏矢量。
步骤S304:根据所述去均值后的无偏矢量,获得量化后的目标矢量。
具体的,可以将所述去均值后的无偏矢量加上量化后的目标矢量的均值矢量,得到量化后的目标矢量。
在上述清音或过渡音模式下的解码方法中,所述去均值后的无偏矢量可以为去均值后的ISF矢量,所述量化后的目标矢量可以为量化后的ISF参数。
上述清音或过渡音模式下的解码方法可以由多种形式的装置实现,其中的一种清音或过渡音模式下的解码器如图4所示,包括:码字索引值获得单元401,用于获得一组码字索引值;分裂子矢量获得单元402,用于根据码字索引值获得单元401获得的每个码字索引值获得对应的分裂子矢量;无偏矢量重构单元403,用于将分裂子矢量获得单元402获得的分裂子矢量重构为去均值后的无偏矢量;目标矢量获得单元404,用于根据无偏矢量重构单元403重构的去均值后的无偏矢量,获得量化后的目标矢量。
分裂子矢量获得单元402根据每个码字索引值获得对应的分裂子矢量时,可以在每个码字索引值对应的无偏码书中得到对应的分裂子矢量。
目标矢量获得单元404根据所述去均值后的无偏矢量、获得量化后的目标矢量时,可以将所述去均值后的无偏矢量加上量化后的目标矢量的均值矢量,得到量化后的目标矢量。
在上述清音或过渡音模式下的解码器中,所述去均值后的无偏矢量可以为去均值后的ISF矢量,所述量化后的目标矢量可以为量化后的ISF参数。
此外,除清音或过渡音模式下的编码方法、编码器、解码方法、解码器外,本发明实施例还提供一种清音或过渡音模式下的矢量量化系统,包括:编码器,用于获得去均值后的无偏矢量,对所述去均值后的无偏矢量进行矢量分裂,得到多个分裂子矢量;对所述多个分裂子矢量进行矢量量化,得到一组码字索引值;解码器,用于获得所述编码器得到的所述一组码字索引值,根据每个码字索引值获得对应的分裂子矢量,将获得的分裂子矢量重构为去均值后的无偏矢量,根据所述去均值后的无偏矢量,获得量化后的目标矢量。
上述矢量量化系统中的编码器及解码器的描述可以参见上述清音或过渡音模式下的编码器及解码器的描述,这里不再赘述。
上述的清音或过渡音模式下的编解码实施例和矢量量化实施例具有较好的量化效果和更好的安全性。
在实际应用中,除清音或过渡音外,语音还可能是浊音或一般音。本发明实施例提供的一种浊音或一般音模式下的编码方法,如图5所示,包括:
步骤S501:获得去均值后的无偏矢量。
步骤S502:对所述去均值后的无偏矢量分别进行有记忆分裂矢量量化处理和无记忆分裂矢量量化处理,得到两组候选码字索引值。
对所述去均值后的无偏矢量进行有记忆分裂矢量量化处理、得到第一组候选码字索引值时,可以先将去均值后的无偏矢量与预测矢量相减,得到预测残差矢量,再对预测残差矢量进行分裂矢量量化,得到所述第一组候选码字索引值。
对所述去均值后的无偏矢量进行无记忆分裂矢量量化处理、得到第二组候选码字索引值时,可以对去均值后的无偏矢量进行分裂矢量量化,得到所述第二组候选码字索引值。
步骤S503:从两组候选码字索引值中,选择一组码字索引值。
具体的,可以对经过有记忆分裂矢量量化处理得到的一组候选码字索引值进行与有记忆分裂矢量量化处理对应的解码处理,重构一个去均值后的无偏矢量,对经过无记忆分裂矢量量化处理得到的一组候选码字索引值进行与无记忆分裂矢量量化处理对应的解码处理,重构一个去均值后的无偏矢量;从所述两个重构后的去均值后的无偏矢量中,选择一个较好的重构后的去均值后的无偏矢量,所述重构后的去均值后的无偏矢量对应的一组候选码字索引值即为选择的一组码字索引值。
可选的,步骤S503之后,还可以包括步骤S504:将选择的一组码字索引值及选择标识写入比特流,其中,所述选择标识用于标识选择的一组码字索引值所经过的矢量量化处理的种类。
选择一个重构后的去均值后的无偏矢量之后,还可以包括:根据选择的重构后的去均值后的无偏矢量,获得量化后的目标矢量;用所述量化后的目标矢量更新前一帧量化后的目标矢量,以用于帧间预测。
在上述浊音或一般音模式下的编码方法中,所述去均值后的无偏矢量可以为去均值后的无偏ISF矢量。
上述浊音或一般音模式下的编码方法可以由多种形式的装置来实现,其中的一种浊音或一般音模式下的编码器如图6所示,包括:无偏矢量获得单元601,用于获得去均值后的无偏矢量;无偏矢量处理单元602,用于对无偏矢量获得单元601获得的去均值后的无偏矢量分别进行有记忆分裂矢量量化处理和无记忆分裂矢量量化处理,得到两组候选码字索引值;码字索引值选择单元603,用于从无偏矢量处理单元602得到的两组候选码字索引值中,选择一组码字索引值。
无偏矢量处理单元602用于有记忆分裂矢量量化处理时,包括:预测残差矢量获得单元6021,用于将去均值后的无偏矢量与预测矢量相减,得到预测残差矢量;分裂矢量量化单元6022,用于对预测残差矢量获得单元6021获得的预测残差矢量进行分裂矢量量化,得到所述一组候选码字索引值。
码字索引值选择单元603包括:无偏矢量重构单元6031,用于对经过有记忆分裂矢量量化处理得到的一组候选码字索引值进行与有记忆分裂矢量量化处理对应的解码处理,重构一个去均值后的无偏矢量,对经过无记忆分裂矢量量化处理得到的一组候选码字索引值进行与无记忆分裂矢量量化处理对应的解码处理,重构一个去均值后的无偏矢量;选择单元6032,用于从无偏矢量重构单元6031重构的两个去均值后的无偏矢量中,选择一个较好的重构后的去均值后的无偏矢量,所述重构后的去均值后的无偏矢量对应的一组候选码字索引值即为选择的一组码字索引值。
可选的,上述浊音或一般音模式下的编码器还可以包括:信息写入单元604,用于将码字索引值选择单元603选择的一组码字索引值及选择标识写入比特流,其中,所述选择标识用于标识选择的一组码字索引值所经过的矢量量化处理的种类。
可选的,上述浊音或一般音模式下的编码器还可以包括:量化后的目标矢量获得单元605,用于根据码字索引值选择单元603中的选择单元选择的重构后的去均值后的无偏矢量,获得量化后的目标矢量;量化后的目标矢量更新单元606,用于使用量化后的目标矢量获得单元605获得的量化后的目标矢量更新前一帧量化后的目标矢量,以用于帧间预测。
在上述浊音或一般音模式下的编码器中,所述去均值后的矢量可以为去均值后的无偏ISF矢量。
一种浊音或一般音模式下的解码方法如图7所示,包括:
步骤S701:获得一组码字索引值和选择标识,所述选择标识用于标识所述码字索引值所经过的矢量量化处理的种类。
步骤S702:对所述一组码字索引值进行与所述选择标识对应的解码处理,得到去均值后的无偏矢量。
具体的,当所述选择标识标识所述码字索引值经过有记忆分裂矢量量化处理时,对所述一组码字索引值进行与所述选择标识对应的解码处理,得到去均值后的无偏矢量,具体可以包括:根据每个码字索引值,在残差码书中查找到相应的残差子矢量;将查找到的所有残差子矢量重构为残差矢量;利用所述残差矢量重构去均值后的无偏矢量。
当所述选择标识标识所述码字索引值经过无记忆分裂矢量量化处理时,对所述一组码字索引值进行与所述选择标识对应的解码处理,得到去均值后的无偏矢量,具体可以包括:根据每个码字索引值,在无偏码书中查找到相应的无偏子矢量;将查找到的所有无偏子矢量重构为去均值后的无偏矢量。
步骤S703:根据所述去均值后的无偏矢量,得到量化后的目标矢量。
在上述浊音或一般音模式下码字索引值的解码方法中,所述去均值后的无偏矢量可以为去均值后的无偏ISF矢量,所述量化后的目标矢量可以为量化后的ISF参数。
上述浊音或一般音模式下的解码方法可以由多种形式的装置来实现,其中的一种浊音或一般音模式下的解码器如图8所示,包括:码字索引值和选择标识获得单元801,用于获得一组码字索引值和选择标识,所述选择标识用于标识所述码字索引值所经过的矢量量化处理的种类;解码处理单元802,用于对码字索引值和选择标识获得单元801获得的一组码字索引值进行与所述选择标识对应的解码处理,得到去均值后的无偏矢量;量化后的目标矢量获得单元803,用于根据解码处理单元802得到的去均值后的无偏矢量,得到量化后的目标矢量。
当所述选择标识标识所述码字索引值经过有记忆分裂矢量量化处理时,解码处理单元802可以包括:残差子矢量查找单元8021,用于根据每个码字索引值,在残差码书中查找到相应的残差子矢量;残差矢量重构单元8022,用于将残差子矢量查找单元8021查找到的所有残差子矢量重构为残差矢量;去均值后的无偏矢量重构单元8023,用于利用残差矢量重构单元8022重构的残差矢量重构去均值后的无偏矢量。
当所述选择标识标识所述码字索引值经过无记忆分裂矢量量化处理时,解码处理单元802可以包括:无偏子矢量查找单元8024,用于根据每个码字索引值,在无偏码书中查找到相应的无偏子矢量;去均值后的无偏矢量重构单元8023,用于将无偏子矢量查找单元8024查找到的所有无偏子矢量重构为去均值后的无偏矢量。
在上述浊音或一般音模式下的解码器中,所述去均值后的无偏矢量可以为去均值后的无偏ISF矢量,所述量化后的目标矢量可以为量化后的ISF参数。
除上述浊音或一般音模式下的编码方法、编码器、解码方法及解码器外,本发明实施例还提供一种浊音或一般音模式下的矢量量化系统,包括:编码器,用于获得去均值后的无偏矢量,对所述去均值后的无偏矢量分别进行有记忆分裂矢量量化处理和无记忆分裂矢量量化处理,得到两组候选码字索引值,从两组候选码字索引值中,选择一组码字索引值;解码器,用于获得所述编码器选择的所述一组码字索引值和所述解码器提供的选择标识,所述选择标识用于标识所述码字索引值所经过的矢量量化处理的种类,对所述一组码字索引值进行与所述选择标识对应的解码处理,得到去均值后的无偏矢量,根据所述均值后的无偏矢量,得到量化后的目标矢量。
上述浊音或一般音模式下的矢量量化系统中的编码器及解码器的描述可以参见上述浊音或一般音模式下的编码器及解码器的描述,这里不再赘述。
上述的浊音或一般音模式下的编解码实施例以及矢量量化实施例可以有效地降低量化比特数,平均消耗的比特数可以为40比特/帧。
上述的浊音或一般音模式下的编解码实施例以及矢量量化实施例兼顾了无丢失帧和有丢失帧下的语音质量,在量化效果和安全性之间取得了较好的平衡。
为使本领域技术人员更加清楚的理解清音或过渡音模式下及浊音或一般音模式下的编解码的实施例,下面再以几个实施例对这些实施例进行详细说明。
对清音和过渡音模式下帧尾ISF参数进行编解码的原理如图9所示。
编码流程如图10所示,包括:
步骤S1001:求去均值后的无偏ISF矢量z(n):
具体的, z i ( n ) = f i ( n ) - f ‾ i ( n ) , i = 0,1 , . . . , 15 ,
其中,fi(n)表示待量化的目标矢量,即ISF参数,表示目标矢量的均值矢量,n表示第n帧,下标i表示16维矢量中的第i维。
步骤S1002:对无偏ISF矢量z(n)进行矢量分裂,得到如下五个分裂子矢量: z ( 1 ) ( n ) , z ( 2 ) ( n ) , z ( 3 ) ( n ) , z ( 4 ) ( n ) , z ( 5 ) ( n ) : z i ( 1 ) ( n ) = z i ( n ) , i = 0,1,2 z i ( 2 ) ( n ) = z i + 3 ( n ) , i = 0,1,2 z i ( 3 ) ( n ) = z i + 6 ( n ) , i = 0,1,2 z i ( 4 ) ( n ) = z i + 9 ( n ) , i = 0,1,2 z i ( 5 ) ( n ) = z i + 12 ( n ) , i = 0,1,2,3 ,
其中,上标(i)表示第i个分裂子矢量。
步骤S1003:分别对五个分裂子矢量进行矢量量化,根据平方误差最小准则计算得到5个分裂子矢量的最佳码字索引值i1(n),i2(n),i3(n),i4(n),i5(n),写入比特流。
此处的码书为清音或过渡音的无偏码书,即,码书针对清音或过渡音的无偏ISF训练数据进行训练,因为宽窄带共用同样的码书,所以训练数据中同时包括宽带和窄带语音。
解码流程如图11所示,包括:
步骤S1101:获得码字索引值,分别是i1(n),i2(n),i3(n),i4(n),i5(n)。
步骤S1102:根据获得的码字索引值,在码书中查找到相应的量化子矢量
Figure GDA0000090433150000132
步骤S1103:根据查找到的量化子矢量,重构无偏ISF量化矢量
Figure GDA0000090433150000133
具体如下:
z ^ i ( n ) = z ^ i ( 1 ) , i = 0,1,2 z ^ i - 3 ( 2 ) , i = 3,4,5 z ^ i - 6 ( 3 ) , i = 6,7,8 z ^ i - 9 ( 4 ) , i = 9,10,11 z ^ i - 12 ( 5 ) , i = 12,13,14,15 .
步骤S1104:根据无偏ISF量化矢量,计算量化后的ISF参数具体如下:
f ^ i ( n ) = z ^ i ( n ) + f ‾ i ( n ) , i = 0,1 , . . . , 15 ,
其中,n表示第n帧,下标i表示16维矢量中的第i维。
对浊音和一般音模式下帧尾ISF参数进行编码的原理如图12所示,解码原理如图13所示。
编码流程如图14所示,包括:
步骤S1401:求去均值后的无偏ISF矢量z(n)。
步骤S1402:同时使用预测分裂矢量量化系统和无记忆分裂矢量量化系统对z(n)进行处理。
在预测分裂矢量量化系统中,将无偏ISF矢量z(n)与预测矢量p(n)相减,求得ISF预测残差矢量r(n),对r(n)进行分裂矢量量化。
预测矢量p(n)为:
p i ( n ) = α i ( n ) [ f ^ i ( n - 1 ) - f ‾ i ( n ) ] , i = 0 , 1 , . . . , 15 ,
其中,
Figure GDA0000090433150000142
表示上一帧的ISF参数量化值,
Figure GDA0000090433150000143
表示当前帧的ISF均值,αi(n)是预测系数,n表示第n帧,下标i表示16维矢量中的第i维。由于有安全网保证帧丢失时的恢复效果,这里使用的是强预测系数。这里需要说明的是,安全网技术是为改善有记忆的量化系统在帧丢失情况下的量化效果而提出的一种方法,其基本原理是,使用一个无记忆的矢量量化系统对有记忆的矢量量化系统进行扩展,结合两个系统各自的优势,在量化效果和安全性之间取得尽量好的折衷。
αi(n)可以通过平方预测误差最小准则,从训练数据中估计出来,并在量化器中保持恒定。估计αi(n)的方法具体为:
令第i个ISF参数的平方预测误差为:
E i = Σ n = 1 N f [ r i ( n ) ] 2 = Σ n = 1 N f [ z i ( n ) - p i ( n ) ] 2
其中,Nf为训练数据的总帧数,Pi(n)为预测矢量。令
Figure GDA0000090433150000145
确定预测系数αi的过程如下:
E i = Σ n = 1 N f [ z i ( n ) - p i ( n ) ] 2
= Σ n = 1 N f [ z i ( n ) - α i ( n ) z ^ i ( n - 1 ) ] 2
= Σ n = 1 N f [ z i 2 ( n ) + α i 2 ( n ) z ^ i 2 ( n - 1 ) - 2 α i ( n ) z i ( n ) z ^ i ( n - 1 ) ] 2
∂ E i / ∂ α i ( n ) = 2 α i ( n ) Σ n = 1 N f z ^ i 2 ( n - 1 ) - 2 Σ n = 1 N f z i ( n ) z ^ i ( n - 1 ) = 0
α i ( n ) = Σ n = 1 N f z i ( n ) z ^ i ( n - 1 ) Σ n = 1 N f z ^ i 2 ( n - 1 ) , i = 0,1 , . . . , 15
为方便起见,在估计中可以用原始数据zi(n-1)代替量化数据不同类型语音的预测系数针对各自的训练数据进行计算。
求得r(n)后,对r(n)进行分裂矢量量化,求得最佳候选码字索引k1(n)、k2(n)、k3(n)、k4(n)和k5(n)。此处搜索的码书为浊音或一般音的预测残差码书,即,码书针对浊音或一般音的预测残差训练数据进行训练,因为宽窄带共用同样的码书,所以训练数据中同时包括宽带和窄带语音。
在无记忆的分裂矢量量化系统中,直接对无偏ISF矢量z(n)进行分裂矢量量化,求得最佳候选码字索引l1(n)、l2(n)、l3(n)、l4(n)和l5(n)。此处搜索的码书为浊音或一般音的无偏码书,即,码书针对浊音或一般音的无偏ISF训练数据进行训练,训练数据中同时包括宽带和窄带语音。
分裂矢量量化的原理如图9所示,这里不再赘述。
步骤S1403:根据译码原理,在预测分裂矢量量化系统和无记忆的分裂矢量量化系统中分别重构无偏ISF矢量,即求
Figure GDA0000090433150000153
Figure GDA0000090433150000154
步骤S1404:比较
Figure GDA0000090433150000155
Figure GDA0000090433150000156
取较优的一个作为最终的量化结果
Figure GDA0000090433150000157
具体的,当以下三个条件之一成立时,选择
Figure GDA0000090433150000158
作为最终的量化结果,即选择使用安全网进行量化,否则,选择
Figure GDA0000090433150000159
作为最终的量化结果,即选择使用预测进行量化。
条件1、Err1<Err0*Ratio
其中,Err0表示使用预测和前一帧AR预测历史进行量化的平方误差,Err1表示进行无记忆分裂矢量量化的平方误差,Ratio=1.15是一个常数因子。其意义是,在二者量化平方误差相差不大时,优先选择使用安全网。
条件2、Err1<Thres
Thres=50000或40000,是一个门限值,其意义是,当使用安全网量化的平方误差小于Thres时,谱失真基本在2dB以下,量化效果足够好,选择使用安全网。
条件3、Stable<2
Stable是表示前一帧和当前帧稳定性的变量,当Stable<2时,表示不足够稳定,相关性差,选择使用安全网量化。
图15是确定变量Stable的流程图。如图15所示,包括:
步骤S1501:判断是否是清音或过渡音,如果是,则确定Stable=0,转步骤S1502,否则,直接转步骤S1502;
步骤S1502:判断Err2是否不小于5*Err1,如果是,则确定Stable=0,转步骤S1503,否则,直接转步骤S1503,其中,Err2表示使用预测和再上一帧AR预测历史进行量化的平方误差;
步骤S1503:判断Err2是否不大于Err1*1.15,如果是,则确定Stable+=2,Thres=40000,转步骤S1504,否则,直接转步骤S1504;
步骤S1504:判断Err0是否不大于Err1*1.05,如果是,则确定Stable+=1,转步骤S1506,否则,转步骤S1505;
步骤S1505:判断Err0是否不大于50000,如果是,则确定Stable+=1,否则,确定Stable=0;
步骤S1506:判断Err[1]是否不小于150000并且Err[0]是否不大于40000,如果是,则确定Stable+=1。
当选用
Figure GDA0000090433150000161
时,select=0,i1(n)=k1(n),i2(n)=k2(n),i3(n)=k3(n),i4(n)=k4(n),i5(n)=k5(n)。
当选用
Figure GDA0000090433150000162
时,select=1,i1(n)=l1(n),i2(n)=l2(n),i3(n)=l3(n),i4(n)=l4(n),i5(n)=l5(n)。
其中,select是选择标识,用于标识选择的矢量量化的种类,即,表示是有记忆分裂矢量量化还是无记忆分裂矢量量化。当选择完矢量量化结果后,将select和i1(n)、i2(n)、i3(n)、i4(n)和i5(n)进行二进制编码后写入比特流。
在步骤S1404之后,执行步骤S1405:计算量化后的ISF矢量 f ^ i ( n ) = z ^ i ( n ) + f ‾ i ( n ) , i = 0,1 , . . . , 15 . 用量化后的ISF矢量更新预测器中
Figure GDA0000090433150000165
的值,以用于帧间预测。
解码流程如图16所示,包括:
步骤S1601:获得码字索引值和选择标识,分别是i1(n),i2(n),i3(n),i4(n),i5(n)和select。
步骤S1602:根据接收到的select值,选择用于解码的解码系统。
当select=0时,使用预测分裂矢量量化解码系统进行解码;当select=1时,使用无记忆分裂矢量量化解码系统进行解码。
步骤S1603:根据接收到的码字索引值,使用选择的解码系统,重构无偏ISF矢量
Figure GDA0000090433150000171
当使用预测分裂矢量量化解码系统进行解码时,根据接收到的码字索引值i1(n)、i2(n)、i3(n)、i4(n)、i5(n),在ISF残差码书中找到相应的残差子矢量,即
Figure GDA0000090433150000172
j=0,1,2、
Figure GDA0000090433150000173
j=3,4,5、
Figure GDA0000090433150000174
j=6,7,8、
Figure GDA0000090433150000175
j=9,10,11和
Figure GDA0000090433150000176
j=12,13,14,15,重构ISF残差矢量,进一步求得重构的无偏ISF矢量
Figure GDA0000090433150000177
具体的, z ^ j ( n ) = p j ( n ) + r ^ j ( n ) = α j ( n ) [ f ^ j ( n - 1 ) - f ‾ j ( n ) ] + r ^ j ( n ) , j = 0,1 · · · , 15 , 其中,
Figure GDA0000090433150000179
表示去均值后的无偏矢量,pj(n)表示预测矢量,
Figure GDA00000904331500001710
表示残差矢量,αj(n)是预测系数,
Figure GDA00000904331500001711
表示前一帧量化后的目标矢量,
Figure GDA00000904331500001712
表示目标矢量的均值矢量。
当使用无记忆分裂矢量量化解码系统进行解码时,根据接收到的码字索引值i1(n)、i2(n)、i3(n)、i4(n)、i5(n),在无偏ISF码书中找到相应的无偏ISF子矢量j=0,1,2、
Figure GDA00000904331500001714
j=3,4,5、j=6,7,8、j=9,10,11和
Figure GDA00000904331500001717
j=12,13,14,15,重构的无偏ISF  矢量具体为: z ^ j ( n ) = z ^ j i ( n ) ( n ) , j = 0,1 · · · , 15 .
步骤S1604:根据无偏ISF矢量计算量化后的ISF矢量
Figure GDA00000904331500001721
具体的, f ^ i ( n ) = z ^ i ( n ) + f ‾ i ( n ) , i = 0,1 , · · · 15 .
步骤S1605:用重构的无偏ISF矢量更新预测器中的值,以用于帧间预测。
上面介绍的是帧尾ISF参数的编解码原理,下面再介绍帧中ISF参数的编解码原理。
帧中ISF参数的量化值是通过搜索内插系数、使用当前帧帧尾ISF参数量化值和上一帧帧尾ISF参数量化值内插得到的。具体如下:
isf_mid=(1-ratio)*isf_old+ratio*isf_new
其中,isf_mid是当前帧帧中ISF参数量化值,isf_old是上一帧帧尾ISF参数量化值,isf_new是当前帧帧尾ISF参数量化值,ratio是内插系数。对帧中ISF参数的量化,一个重要的实质是搜索最优的内插系数ratio。
各模式下帧中ISF参数量化码书和比特数的分配如表1所示。
  清音   浊音   一般音
  分裂维数   3,4,9   12,4   2,4,6,4
  量化比特数   3,2,1   1,0   2,2,1,0
  总比特数   6   1   5
表1
其中,过渡音模式下不对帧中ISF参数进行量化。其它三种类型的语音帧,均使用分裂矢量量化方法量化帧中ISF参数。宽窄带共用同样的码书,码书针对各类的宽窄带训练数据进行训练。分配量化比特数为0的子矢量,其内插系数为0.5。
上面提到的ISF参数的编码实施例和解码实施例在宽窄带多模式ACELP语音编解码器中的具体实现方式如下:
在编码器中:第一步,对输入的语音信号进行预处理,包括50Hz高通滤波,高频预加重和采样率调整。如果输入的是16kHz宽带信号,则下采样到12.8kHz;如果是8kHz窄带信号,则上采样到12.8kHz。第二步,对预处理后的语音信号进行线性预测分析。分析帧长为25ms,窗函数采用对称的哈明窗。每帧进行两次计算,窗函数的中心分别对应第二子帧和第四子帧。对加窗后的语音信号进行自相关估计,用滞后窗乘以自相关系数使其具有60Hz的带宽扩展。采用莱文逊-杜宾递归算法获取m=16阶LPA系数。第三步,将LPA系数αi(n),i=0,1,…,m-1转换为ISF参数fi(n),i=0,1,…,m-1。第四步,对语音信号进行分类。第五步,使用上面提供的编码实施例和解码实施例对ISF参数进行矢量量化,将相关量化信息写入比特流。
在解码器中:第一步,根据接收到来自编码器的比特流,解码出的相关量化信息,重构ISF参数。第二步,将重构的ISF参数i=0,1,…,m-1转换为导抗谱频率对(ISP,Immittance Spectral Pairs)矢量。第三步,使用前一帧帧尾ISP矢量、当前帧帧中ISP矢量和当前帧帧尾ISP矢量,得到四个子帧的ISP矢量,并转换回ISF参数。第四步,将四个子帧的ISF参数转化为LPA系数。
除上述编码实施例和解码实施例外,本发明实施例还提供了一种矢量量化方法,如图17所示,包括:
步骤S1701:获得语音信号。
步骤S1702:判断所述语音信号所属的种类。
步骤S1703:如果所述语音信号是清音信号或过渡音信号,则使用图1所示的方法流程,对待量化的目标矢量进行编码处理,并使用图3所示的方法流程,对编码后得到的码字索引值进行解码处理;如果所述语音信号是浊音信号或一般音信号,则使用图5所述的方法流程,对待量化的目标矢量进行编码处理,并使用图7所示的方法流程,对编码后得到的码字索引值进行解码处理。
上述矢量量化方法可以由多种形式的装置来实现,其中的一种矢量量化装置,如图18所示,包括:语音信号获得单元1801,用于获得语音信号;语音信号种类判断单元1802,用于判断语音信号获得单元1801获得的语音信号所属的种类;第一矢量量化处理单元1803,包括图2所示的编码器及图4所示的解码器,图2所示的编码器用于在语音信号种类判断单元1802判断出所述语音信号是清音信号或过渡音信号后,对待量化的目标矢量进行编码处理,图4所示的解码器用于对图2所示的编码器得到的码字索引值进行解码处理;第二矢量量化处理单元1804,包括图6所示的编码器及图8所示的解码器,图6所示的编码器用于在语音信号种类判断单元1802判断出所述语音信号是浊音信号或一般音信号后,对待量化的目标矢量进行编码处理,图8所示的解码器用于对图6所示的编码器得到的码字索引值进行解码处理。
在上述矢量量化方法及矢量量化装置中,所述待量化的目标矢量可以为待量化的ISF参数。
各种编码模式下码书大小和量化比特数分配如表2所示。
Figure GDA0000090433150000191
Figure GDA0000090433150000201
表2
由表2可见,共有8种编码模式,分别为宽、窄带清音,宽、窄带浊音,宽、窄带一般音,宽、窄带过渡音。对于帧尾ISF参数的量化,清音和过渡音仅使用安全网(即无记忆分裂矢量量化)码书进行量化,不使用预测(即有记忆分裂矢量量化),这是由清音和过渡音相关性弱的特点决定的。浊音和一般音同时使用安全网和预测进行量化,选取较优的作为量化结果。在分裂矢量量化中,每个16维目标矢量分裂成五个子矢量,分别是3,3,3,3,4维的矢量,表2示出了各种模式下每个子矢量分配的量化比特数。在表2中,宽窄带语音信号共用同样的码书。对于帧中ISF参数的量化,由于过渡音在一帧之内变化非常大,所以对过渡音不作帧中ISF参数的量化,在清音模式、浊音模式和一般音模式下各分配6比特,1比特,5比特来量化帧中ISF参数。
本发明的所有实施例可以同时适用于宽窄带语音信号的编码。
在多种编码模式下,依然可以保持较小的码书存储量和搜索复杂度。
在多种编码模式、较低的量化比特数、较小的码书存储量和搜索复杂度下,可以保持较高的合成语音质量。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的程序可存储于一计算机可读取存储介质中,该程序在执行时,可包括如上述各方法的实施例的流程。其中,所述的存储介质可为磁碟、光盘、只读存储记忆体(Read-OnlyMemory,ROM)或随机存储记忆体(Random Access Memory,RAM)等。
以上所述仅是本发明的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以作出若干改进和润饰,这些改进和润饰也应视为本发明的保护范围。

Claims (48)

1.一种清音或过渡音模式下的编码方法,其特征在于,包括:
判断语音信号的种类;
获得去均值后的无偏矢量;
在所述语音信号为所述清音或所述过渡音模式的情况下,对所述去均值后的无偏矢量进行矢量分裂,得到多个分裂子矢量;
对所述多个分裂子矢量进行矢量量化,得到一组码字索引值。
2.如权利要求1所述的方法,其特征在于,获得去均值后的无偏矢量具体为:将待量化的目标矢量与所述待量化的目标矢量的均值矢量相减,得到去均值后的无偏矢量。
3.如权利要求1所述的方法,其特征在于,对所述多个分裂子矢量进行矢量量化,得到一组码字索引值,具体为:根据平方误差最小准则,得到所述一组码字索引值。
4.如权利要求1所述的方法,其特征在于,对所述多个分裂子矢量进行矢量量化,得到一组码字索引值,具体为:从每个分裂子矢量对应的无偏码书中查找到对应的码字索引值。
5.如权利要求1所述的方法,其特征在于,所述去均值后的无偏矢量为去均值后的无偏导抗谱频率ISF矢量。
6.一种清音或过渡音模式下的编码器,其特征在于,包括:
语音信号种类判别单元,用于判断语音信号所属的种类;
无偏矢量获得单元,用于获得去均值后的无偏矢量;
矢量分裂单元,用于在所述语音信号为所述清音或所述过渡音模式的情况下,对所述无偏矢量获得单元获得的去均值后的无偏矢量进行矢量分裂,得到多个分裂子矢量;
矢量量化单元,用于对所述矢量分裂单元得到的多个分裂子矢量进行矢量量化,得到一组码字索引值。
7.如权利要求6所述的编码器,其特征在于,所述去均值后的无偏矢量为去均值后的ISF矢量。
8.一种清音或过渡音模式下的解码方法,其特征在于,包括:
判断语音信号的种类;
在所述语音信号为所述清音或所述过渡音模式的情况下,获得一组码字索引值;
根据每个码字索引值获得对应的分裂子矢量;
将获得的分裂子矢量重构为去均值后的无偏矢量;
根据所述去均值后的无偏矢量,获得量化后的目标矢量。
9.如权利要求8所述的方法,其特征在于,根据每个码字索引值获得对应的分裂子矢量具体为:在每个码字索引值对应的无偏码书中得到对应的分裂子矢量。
10.如权利要求8所述的方法,其特征在于,根据所述去均值后的无偏矢量,获得量化后的目标矢量,具体为:将所述去均值后的无偏矢量加上量化后的目标矢量的均值矢量,得到量化后的目标矢量。
11.如权利要求8所述的方法,其特征在于,所述去均值后的无偏矢量为去均值后的ISF矢量,所述量化后的目标矢量为量化后的ISF参数。
12.一种清音或过渡音模式下的解码器,其特征在于,包括:
语音信号种类判别单元,用于判断语音信号所属的种类;
码字索引值获得单元,用于在所述语音信号为所述清音或所述过渡音模式的情况下,获得一组码字索引值;
分裂子矢量获得单元,用于根据所述码字索引值获得单元获得的每个码字索引值获得对应的分裂子矢量;
无偏矢量重构单元,用于将所述分裂子矢量获得单元获得的分裂子矢量重构为去均值后的无偏矢量;
目标矢量获得单元,用于根据所述无偏矢量重构单元重构的去均值后的无偏矢量,获得量化后的目标矢量。
13.如权利要求12所述的解码器,其特征在于,所述去均值后的无偏矢量为去均值后的ISF矢量,所述量化后的目标矢量为量化后的ISF参数。
14.一种浊音或一般音模式下的编码方法,其特征在于,包括:
判断语音信号的种类;
获得去均值后的无偏矢量;
在所述语音信号为所述浊音或所述一般音模式的情况下,对所述去均值后的无偏矢量分别进行有记忆分裂矢量量化处理和无记忆分裂矢量量化处理,得到两组候选码字索引值;
从两组候选码字索引值中,选择一组码字索引值。
15.如权利要求14所述的方法,其特征在于,对所述去均值后的无偏矢量进行有记忆分裂矢量量化处理,得到第一组候选码字索引值,具体包括:
将去均值后的无偏矢量与预测矢量相减,得到预测残差矢量;
对预测残差矢量进行分裂矢量量化,得到所述第一组候选码字索引值。
16.如权利要求15所述的方法,其特征在于,所述预测矢量由下述方式获得:
Figure FDA0000113300810000031
其中,pi(n)为所述预测矢量,
Figure FDA0000113300810000032
表示前一帧的量化后的目标矢量,
Figure FDA0000113300810000033
表示当前帧的均值矢量,αi(n)是预测系数。
17.如权利要求16所述的方法,其特征在于,αi(n)由下述方式获得:通过平方预测误差最小准则,从训练数据中估计出来。
18.如权利要求17所述的方法,其特征在于,通过平方预测误差最小准则,从训练数据中估计出来,具体包括:
令第i个目标矢量的平方预测误差为:
E i = Σ n = 1 N f [ r i ( n ) ] 2 = Σ n = 1 N f [ z i ( n ) - p i ( n ) ] 2 ,
其中,Ei表示第i个目标矢量的平方预测误差,Nf表示训练数据的总帧数,zi(n)表示去均值后的无偏矢量,ri(n)表示预测残差矢量;
预测系数αi(n)被确定的过程如下:
E i = Σ n = 1 N f [ z i ( n ) - p i ( n ) ] 2
= Σ n = 1 N f [ z i ( n ) - α i ( n ) z ^ i ( n - 1 ) ] 2
= Σ n = 1 N f [ z i 2 ( n ) + α i 2 ( n ) z ^ i 2 ( n - 1 ) - 2 α i ( n ) z i ( n ) z ^ i ( n - 1 ) ] 2
∂ E i / ∂ α i ( n ) = 2 α i ( n ) Σ n = 1 N f z ^ i 2 ( n - 1 ) - 2 Σ n = 1 N f z i ( n ) z i ^ ( n - 1 ) = 0
α i ( n ) = Σ n = 1 N f z i ( n ) z i ^ ( n - 1 ) Σ n = 1 N f z ^ i 2 ( n - 1 ) , i = 0,1 , . . . , 15
其中,表示当前帧重构后的无偏矢量,表示前一帧重构后的无偏矢量。
19.如权利要求14所述的方法,其特征在于,对所述去均值后的无偏矢量进行无记忆分裂矢量量化处理,得到第二组候选码字索引值,具体为:对去均值后的无偏矢量进行分裂矢量量化,得到所述第二组候选码字索引值。
20.如权利要求14所述的方法,其特征在于,从两组候选码字索引值中,选择一组码字索引值,具体包括:
对分别经过记忆分裂矢量量化处理和无记忆分裂矢量量化处理得到的两组候选码字索引值,分别进行与有记忆分裂矢量量化处理对应的解码处理和与无记忆分裂矢量量化处理对应的解码处理,重构两个去均值后的无偏矢量;
从所述两个重构后的去均值后的无偏矢量中,选择一个重构后的去均值后的无偏矢量,所述重构后的去均值后的无偏矢量对应的一组候选码字索引值即为选择的一组码字索引值。
21.如权利要求20所述的方法,其特征在于,从所述两个重构后的去均值后的无偏矢量中,选择一个重构后的去均值后的无偏矢量,具体包括:
当以下其中一个条件成立时,选择经过无记忆分裂矢量量化处理重构后的去均值后的无偏矢量,否则,选择经过有记忆分裂矢量量化处理重构后的去均值后的无偏矢量:
条件1、Err1<Err0*Ratio
其中,Err0表示使用预测和前一帧自回归AR预测的历史进行量化的平方误差,Err1表示进行无记忆分裂矢量量化的平方误差,Ratio=1.15是一个常数因子;
条件2、Err1<Thres
其中,Thres=50000或40000,是一个门限值;
条件3、Stable<2
其中,Stable是表示前一帧和当前帧稳定性的变量。
22.如权利要求14所述的方法,其特征在于,选择一组码字索引值后,还包括:将选择的一组码字索引值及选择标识写入比特流,其中,所述选择标识用于标识选择的一组码字索引值所经过的矢量量化处理的种类。
23.如权利要求20所述的方法,其特征在于,选择一个重构后的去均值后的无偏矢量之后,还包括:
根据选择的重构后的去均值后的无偏矢量,获得量化后的目标矢量;
用所述量化后的目标矢量更新前一帧量化后的目标矢量,以用于帧间预测。
24.如权利要求14所述的方法,其特征在于,所述去均值后的无偏矢量为去均值后的无偏ISF矢量。
25.一种浊音或一般音模式下的编码器,其特征在于,包括:
语音信号种类判别单元,用于判断语音信号所属的种类;
无偏矢量获得单元,用于获得去均值后的无偏矢量;
无偏矢量处理单元,用于在所述语音信号为所述浊音或所述一般音模式的情况下,对所述无偏矢量获得单元获得的去均值后的无偏矢量分别进行有记忆分裂矢量量化处理和无记忆分裂矢量量化处理,得到两组候选码字索引值;
码字索引值选择单元,用于从所述无偏矢量处理单元得到的两组候选码字索引值中,选择一组码字索引值。
26.如权利要求25所述的编码器,其特征在于,所述无偏矢量处理单元用于有记忆分裂矢量量化处理时,包括:
预测残差矢量获得单元,用于将去均值后的无偏矢量与预测矢量相减,得到预测残差矢量;
分裂矢量量化单元,用于对所述预测残差矢量获得单元获得的预测残差矢量进行分裂矢量量化,得到所述一组候选码字索引值。
27.如权利要求25所述的编码器,其特征在于,所述码字索引值选择单元包括:
无偏矢量重构单元,用于对分别经过记忆分裂矢量量化处理和无记忆分裂矢量量化处理得到的两组候选码字索引值,分别进行与有记忆分裂矢量量化处理对应的解码处理和与无记忆分裂矢量量化处理对应的解码处理,重构两个去均值后的无偏矢量;
选择单元,用于从所述无偏矢量重构单元重构的两个去均值后的无偏矢量中,选择一个重构后的去均值后的无偏矢量,所述重构后的去均值后的无偏矢量对应的一组候选码字索引值即为选择的一组码字索引值。
28.如权利要求25所述的编码器,其特征在于,还包括:信息写入单元,用于将所述码字索引值选择单元选择的一组码字索引值及选择标识写入比特流,其中,所述选择标识用于标识选择的一组码字索引值所经过的矢量量化处理的种类。
29.如权利要求27所述的编码器,其特征在于,还包括:
量化后的目标矢量获得单元,用于根据所述码字索引值选择单元中的选择单元选择的重构后的去均值后的无偏矢量,获得量化后的目标矢量;
量化后的目标矢量更新单元,用于使用所述量化后的目标矢量获得单元获得的量化后的目标矢量更新前一帧量化后的目标矢量,以用于帧间预测。
30.如权利要求25所述的编码器,其特征在于,所述去均值后的无偏矢量为去均值后的无偏ISF矢量。
31.一种浊音或一般音模式下的解码方法,其特征在于,包括:
判断语音信号的种类;
在所述语音信号为所述浊音或所述一般音模式的情况下,获得一组码字索引值和选择标识,所述选择标识用于标识所述码字索引值所经过的矢量量化处理的种类;
对所述一组码字索引值进行与所述选择标识对应的解码处理,得到去均值后的无偏矢量;
根据所述去均值后的无偏矢量,得到量化后的目标矢量。
32.如权利要求31所述的方法,其特征在于,当所述选择标识标识所述码字索引值经过有记忆分裂矢量量化处理时,对所述一组码字索引值进行与所述选择标识对应的解码处理,得到去均值后的无偏矢量,具体包括:
根据每个码字索引值,在残差码书中查找到相应的残差子矢量;
将查找到的所有残差子矢量重构为残差矢量;
利用所述残差矢量重构去均值后的无偏矢量。
33.如权利要求32所述的方法,其特征在于,利用所述残差矢量重构去均值后的无偏矢量具体包括:
z ^ j ( n ) = p j ( n ) + r ^ j ( n ) = α j ( n ) [ f ^ j ( n - 1 ) - f ‾ j ( n ) ] + r ^ j ( n ) , j = 0,1 , · · · , 15 ,
其中,
Figure FDA0000113300810000062
表示去均值后的无偏矢量,pj(n)表示预测矢量,
Figure FDA0000113300810000063
表示残差矢量,αj(n)是预测系数,表示前一帧量化后的目标矢量,
Figure FDA0000113300810000065
表示目标矢量的均值矢量。
34.如权利要求31所述的方法,其特征在于,当所述选择标识标识所述码字索引值经过无记忆分裂矢量量化处理时,对所述一组码字索引值进行与所述选择标识对应的解码处理,得到去均值后的无偏矢量,具体包括:
根据每个码字索引值,在无偏码书中查找到相应的无偏子矢量;
将查找到的所有无偏子矢量重构为去均值后的无偏矢量。
35.如权利要求31所述的方法,其特征在于,根据所述去均值后的无偏矢量,得到量化后的目标矢量,具体为:
Figure FDA0000113300810000071
其中,表示量化后的目标矢量,
Figure FDA0000113300810000073
表示去均值后的无偏矢量,
Figure FDA0000113300810000074
表示目标矢量的均值矢量。
36.如权利要求31所述的方法,其特征在于,所述去均值后的无偏矢量为去均值后的无偏ISF矢量,所述量化后的目标矢量为量化后的ISF参数。
37.一种浊音或一般音模式下的解码器,其特征在于,包括:
语音信号种类判别单元,用于判断语音信号所属的种类;
码字索引值和选择标识获得单元,用于在所述语音信号为所述浊音或所述一般音模式的情况下,获得一组码字索引值和选择标识,所述选择标识用于标识所述码字索引值所经过的矢量量化处理的种类;
解码处理单元,用于对所述码字索引值和选择标识获得单元获得的一组码字索引值进行与所述选择标识对应的解码处理,得到去均值后的无偏矢量;
量化后的目标矢量获得单元,用于根据所述解码处理单元得到的去均值后的无偏矢量,得到量化后的目标矢量。
38.如权利要求37所述的解码器,其特征在于,当所述选择标识标识所述码字索引值经过有记忆分裂矢量量化处理时,所述解码处理单元包括:
残差子矢量查找单元,用于根据每个码字索引值,在残差码书中查找到相应的残差子矢量;
残差矢量重构单元,用于将所述残差子矢量查找单元查找到的所有残差子矢量重构为残差矢量;
去均值后的无偏矢量重构单元,用于利用所述残差矢量重构单元重构的残差矢量重构去均值后的无偏矢量。
39.如权利要求37所述的解码器,其特征在于,当所述选择标识标识所述码字索引值经过无记忆分裂矢量量化处理时,所述解码处理单元包括:
无偏子矢量查找单元,用于根据每个码字索引值,在无偏码书中查找到相应的无偏子矢量;
去均值后的无偏矢量重构单元,用于将所述无偏子矢量查找单元查找到的所有无偏子矢量重构为去均值后的无偏矢量。
40.如权利要求37所述的解码器,其特征在于,所述去均值后的无偏矢量为去均值后的无偏ISF矢量,所述量化后的目标矢量为量化后的ISF参数。
41.一种清音或过渡音模式下的矢量量化系统,其特征在于,包括:
编码器,用于判断语音信号种类,在语音信号为所述清音或所述过渡音模式的情况下,获得去均值后的无偏矢量,对所述去均值后的无偏矢量进行矢量分裂,得到多个分裂子矢量;对所述多个分裂子矢量进行矢量量化,得到一组码字索引值;
解码器,用于判断语音信号种类,在语音信号为所述清音或所述过渡音模式的情况下,获得所述编码器得到的所述一组码字索引值,根据每个码字索引值获得对应的分裂子矢量,将获得的分裂子矢量重构为去均值后的无偏矢量,根据所述去均值后的无偏矢量,获得量化后的目标矢量。
42.如权利要求41所述的矢量量化系统,其特征在于,所述去均值后的无偏矢量为去均值后的ISF矢量,所述量化后的目标矢量为量化后的ISF参数。
43.一种浊音或一般音模式下的矢量量化系统,其特征在于,包括:
编码器,用于判断语音信号种类,在语音信号为所述浊音或所述一般音模式的情况下,获得去均值后的无偏矢量,对所述去均值后的无偏矢量分别进行有记忆分裂矢量量化处理和无记忆分裂矢量量化处理,得到两组候选码字索引值,从两组候选码字索引值中,选择一组码字索引值;
解码器,用于判断语音信号种类,在语音信号为所述浊音或所述一般音模式的情况下,获得所述编码器选择的所述一组码字索引值和所述编码器提供的选择标识,所述选择标识用于标识所述码字索引值所经过的矢量量化处理的种类,对所述一组码字索引值进行与所述选择标识对应的解码处理,得到去均值后的无偏矢量,根据所述去均值后的无偏矢量,得到量化后的目标矢量。
44.如权利要求43所述的矢量量化系统,其特征在于,所述去均值后的无偏矢量为去均值后的无偏ISF矢量,所述量化后的目标矢量为量化后的ISF参数。
45.一种矢量量化方法,其特征在于,包括:
获得语音信号;
判断所述语音信号所属的种类;
如果所述语音信号是清音信号或过渡音信号,则使用权利要求1-5任意一项所述的方法,对待量化的目标矢量进行编码处理,并使用权利要求8-11任意一项所述的方法,对编码后得到的码字索引值进行解码处理;如果所述语音信号是浊音信号或一般音信号,则使用权利要求14-24任意一项所述的方法,对待量化的目标矢量进行编码处理,并使用权利要求31-36任意一项所述的方法,对编码后得到的码字索引值进行解码处理。
46.如权利要求45所述的矢量量化方法,其特征在于,所述待量化的目标矢量为待量化的ISF参数。
47.一种矢量量化装置,其特征在于,包括:
语音信号获得单元,用于获得语音信号;
语音信号种类判断单元,用于判断所述语音信号获得单元获得的语音信号所属的种类;
第一矢量量化处理单元,包括权利要求6或7所述的编码器及权利要求12或13所述的解码器,所述权利要求6或7所述的编码器用于在所述语音信号种类判断单元判断出所述语音信号是清音信号或过渡音信号后,对待量化的目标矢量进行编码处理,所述权利要求12或13所述的解码器用于对所述权利要求6或7所述的编码器得到的码字索引值进行解码处理;
第二矢量量化处理单元,包括权利要求25-30任意一项所述的编码器及权利要求37-40所述的解码器,所述权利要求25-30任意一项所述的编码器用于在所述语音信号种类判断单元判断出所述语音信号是浊音信号或一般音信号后,对待量化的目标矢量进行编码处理,所述权利要求37-40任意一项所述的解码器用于对所述权利要求25-30任意一项所述的编码器得到的码字索引值进行解码处理。
48.如权利要求47所述的矢量量化装置,其特征在于,所述待量化的目标矢量为待量化的ISF参数。
CN2008101269382A 2008-06-18 2008-06-18 编码方法、编码器、解码方法及解码器 Expired - Fee Related CN101609681B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN2008101269382A CN101609681B (zh) 2008-06-18 2008-06-18 编码方法、编码器、解码方法及解码器

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN2008101269382A CN101609681B (zh) 2008-06-18 2008-06-18 编码方法、编码器、解码方法及解码器

Publications (2)

Publication Number Publication Date
CN101609681A CN101609681A (zh) 2009-12-23
CN101609681B true CN101609681B (zh) 2012-04-04

Family

ID=41483405

Family Applications (1)

Application Number Title Priority Date Filing Date
CN2008101269382A Expired - Fee Related CN101609681B (zh) 2008-06-18 2008-06-18 编码方法、编码器、解码方法及解码器

Country Status (1)

Country Link
CN (1) CN101609681B (zh)

Families Citing this family (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP5668149B2 (ja) * 2010-12-13 2015-02-12 エレクトロニクス アンド テレコミュニケーションズ リサーチ インスチチュートElectronics And Telecommunications Research Institute 参照ユニット決定方法及び装置
CN109788286B (zh) 2019-02-01 2021-06-18 北京大学深圳研究生院 一种编码、解码变换方法、系统、设备及计算机可读介质
CN111105804B (zh) * 2019-12-31 2022-10-11 广州方硅信息技术有限公司 语音信号处理方法、系统、装置、计算机设备和存储介质
CN112735449B (zh) * 2020-12-30 2023-04-14 北京百瑞互联技术有限公司 优化频域噪声整形的音频编码方法及装置
CN116527943B (zh) * 2023-06-29 2023-09-12 中国传媒大学 基于矢量量化索引和生成模型的极限图像压缩方法及系统

Also Published As

Publication number Publication date
CN101609681A (zh) 2009-12-23

Similar Documents

Publication Publication Date Title
CN101836251B (zh) 使用mdct频谱的组合编码的可缩放的语音和音频编码
CN102623015B (zh) 可变速率语音编码
CN101189662B (zh) 带多级码本和冗余编码的子带话音编解码器
CN101578508B (zh) 用于对语音信号中的过渡帧进行编码的方法和设备
CN101268351B (zh) 健壮解码器
CN100362568C (zh) 用于预测量化有声语音的方法和设备
CN101681627B (zh) 使用音调规则化及非音调规则化译码的信号编码方法及设备
CN1820306B (zh) 可变比特率宽带语音编码中增益量化的方法和装置
KR100566713B1 (ko) 음향 파라미터 부호화, 복호화 방법, 장치 및 프로그램, 음성 부호화, 복호화 방법, 장치 및 프로그램
US6385576B2 (en) Speech encoding/decoding method using reduced subframe pulse positions having density related to pitch
US7792679B2 (en) Optimized multiple coding method
CN103050121A (zh) 线性预测语音编码方法及语音合成方法
JPH08263099A (ja) 符号化装置
CN103380455A (zh) 对音频信号的高效编码/解码
CN103366755A (zh) 对音频信号进行编码和解码的方法和设备
CN106157968A (zh) 用于产生带宽扩展信号的设备和方法
CN101609681B (zh) 编码方法、编码器、解码方法及解码器
CN103548080A (zh) 声音信号混合编码器、声音信号混合解码器、声音信号编码方法以及声音信号解码方法
CN103229234A (zh) 音频编码装置、方法和程序以及音频解码装置、方法和程序
CN101847414A (zh) 用于语音编码的方法和设备
JP3266372B2 (ja) 音声情報符号化方法およびその装置
CA2233896C (en) Signal coding system
JP4578145B2 (ja) 音声符号化装置、音声復号化装置及びこれらの方法
JP3916934B2 (ja) 音響パラメータ符号化、復号化方法、装置及びプログラム、音響信号符号化、復号化方法、装置及びプログラム、音響信号送信装置、音響信号受信装置
Taniguchi et al. Principal axis extracting vector excitation coding: high quality speech at 8 kb/s

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20120404

Termination date: 20190618

CF01 Termination of patent right due to non-payment of annual fee