CN109616129B - 用于提升语音丢帧补偿性能的混合多描述正弦编码器方法 - Google Patents

用于提升语音丢帧补偿性能的混合多描述正弦编码器方法 Download PDF

Info

Publication number
CN109616129B
CN109616129B CN201811342149.2A CN201811342149A CN109616129B CN 109616129 B CN109616129 B CN 109616129B CN 201811342149 A CN201811342149 A CN 201811342149A CN 109616129 B CN109616129 B CN 109616129B
Authority
CN
China
Prior art keywords
lsf
description
sinusoidal
coder
parameter
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201811342149.2A
Other languages
English (en)
Other versions
CN109616129A (zh
Inventor
林志斌
刘晓峻
狄敏
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Jiangsu Province Nanjing University Of Science And Technology Electronic Information Technology Co ltd
Ma'anshan Aidesheng Electronic Technology Co ltd
Nanjing Nanda Electronic Wisdom Service Robot Research Institute Co ltd
Nanjing University
Original Assignee
Jiangsu Province Nanjing University Of Science And Technology Electronic Information Technology Co ltd
Ma'anshan Aidesheng Electronic Technology Co ltd
Nanjing Nanda Electronic Wisdom Service Robot Research Institute Co ltd
Nanjing University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Jiangsu Province Nanjing University Of Science And Technology Electronic Information Technology Co ltd, Ma'anshan Aidesheng Electronic Technology Co ltd, Nanjing Nanda Electronic Wisdom Service Robot Research Institute Co ltd, Nanjing University filed Critical Jiangsu Province Nanjing University Of Science And Technology Electronic Information Technology Co ltd
Priority to CN201811342149.2A priority Critical patent/CN109616129B/zh
Publication of CN109616129A publication Critical patent/CN109616129A/zh
Application granted granted Critical
Publication of CN109616129B publication Critical patent/CN109616129B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/005Correction of errors induced by the transmission channel, if related to the coding algorithm
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/06Determination or coding of the spectral characteristics, e.g. of the short-term prediction coefficients
    • G10L19/07Line spectrum pair [LSP] vocoders
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/26Pre-filtering or post-filtering

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)

Abstract

本发明公开了一种用于提升语音丢帧补偿性能的混合多描述正弦编码器方法,编码器框架结构由三个编码器组成,分别为多描述正弦编码器、参数编码器一和参数编码器二,其中多描述正弦编码器是核心编解码器,参数编码器一和参数编码器二为发送端丢包补偿用辅助编码器,引入两帧的信号延迟,增加了混合多描述正弦编码器的编解码器对网络丢包的鲁棒性。本发明通过牺牲相关冗余度提高人机交互通讯语音丢帧纠错能力,有效的提升人机交互数据丢失时的语音质量。

Description

用于提升语音丢帧补偿性能的混合多描述正弦编码器方法
技术领域
本发明涉及一种混合多描述正弦编码器方法,属于音频处理技术领域。
背景技术
在过去的几年里,人机交互获得了广泛的重视,并取得了巨大的成功。但是在不可靠的分组网络上,由于分组丢失的存在,传输的语音质量还不尽如人意。传统的处理分组丢失的方法是重传。但是当分组丢失率较高时,重传会导致更加拥塞的环境,并且不能满足实时性的要求。与重传不同,多描述编码(MDC)可以显著提高传输的稳定性,而又不引入明显的时延,是一种有效的解决分组丢失的方法。早期提出的多描述波形语音编码器算法简单,可以很好地提高系统的传输稳定性,但这类编码器的压缩率不高。后续有人提出基于CELP的多描述编码器,这些编码器有足够高的压缩效率,但是它们的参数之间有很强的依赖性,描述分解方法不够灵活,稳定性的提高是以性能大幅降低为代价的,而且分组的丢失会影响到编码器状态的恢复。
发明内容
发明目的:为了克服现有技术中存在的不足,本发明提出一种混合多描述正弦编码器方法,通过牺牲相关冗余度提高人机交互通讯语音丢帧纠错能力,有效的提升人机交互数据丢失时的语音质量。
技术方案:为实现上述目的,本发明采用的技术方案为:
一种用于提升语音丢帧补偿性能的混合多描述正弦编码器方法,编码器框架结构由三个编码器组成,分别为多描述正弦编码器、参数编码器一和参数编码器二,其中多描述正弦编码器是核心编解码器,参数编码器一和参数编码器二为发送端丢包补偿用辅助编码器,引入两帧的信号延迟,增加了混合多描述正弦编码器的编解码器对网络丢包的鲁棒性;其中多描述正弦编码器为基于多描述框架的正弦编码器,
多描述正弦编码器主要由两部分组成,其中一部分为线谱对参数冗余描述,另一部分为残差信号的匹配跟踪正弦建模模块及其交织多描述;采用线性预测求残差的方式进行混合多描述编码,其中线谱对参数量化采用感知加权分裂矢量量化方式进行,采用10阶全极点滤波器进行线性预测,转化成10个对应的LSF参数,采用分裂矢量量化方式将10维的矢量分裂成3个矢量,然后分别对这3个矢量进行矢量量化的分裂矢量量化;首先将10维LSP参数分别分组为LSF1={lsf(1),lsf(2),lsf(3)},LSF2={lsf(4),lsf(5),lsf(6)},和LSF3={lsf(7),lsf(8),lsf(9),lsf(10)};同时对LSF1码本以lsf(3)为基准进行由小到大排序,对LSF3码本以lsf(7)为基准进行由小到大排序;LSF1、LSF2和LSF3三个码本的大小分别为M1、M2和M3;先量化矢量LSF2,在量化LSF1之前,先找到LSF1码本中lsf(3)<lsf(4)的码本序号Index1,仅在码本的序号1~Index1间搜索与LSF1最邻近的码字;在量化LSF3之前,先找到LSF3码本中lsf(7)>lsf(6)的码本序号Index3,仅在码本的序号Index1~M3场间搜索与LSF3最邻近的码字;对分裂量化得到的矢量进行冗余描述,复制一份描述到描述2,与匹配跟踪中的正弦描述传输分组至编码器描述2码流;
多描述正弦编码器码率为B0(kbps),辅助的参数编码器一和参数编码器二编码码率为B1(kbps)和B2(kbps),三种满足以下关系:
B2<=B1<B0 (1)
多描述正弦编码器第m帧传输的码流为第m、m+1和m+2帧的编码信号,其中主编码器传输B0(kbps)的码流信息,作为当前帧的码流信号,而参数编码器一和参数编码器二作为丢包补偿的冗余编码器。
在正弦模型中,每一帧语音信号用一组正弦信号之和来表示,因此,对于第i帧信号有
Figure BDA0001862842830000021
采用正弦字典对语音信号进行信号分解,在一个高度冗余的字典空间D中将输入信号s(n)分解成一组原子(atom)信号的线性组合,假定包含M个原子的字典为:
D={gm};m=0,1,...,M-1 (3)
匹配跟踪的分解迭代过程如下:
设置初始输入信号为当前残差信号,即令r0=s(n),在第k(k>=0)步迭代中,查找第k个原子索引mk,使该原子与当前残差信号rk的相关系数最大,此时对应的原子字典的频率就是建模频率,而此刻该正弦原子的幅度就是残差信号和原子的内积:
Figure BDA0001862842830000024
此时得到重构信号为:
Figure BDA0001862842830000022
其中K为迭代次数。
对于正弦建模来说,可以采用如下的复指数原子组成的正弦字典:
Figure BDA0001862842830000023
此处字典空间是由复指数原子所刻画的,而实际中面临的通常是实信号,采用共轭子空间投影技术,在由字典原子及其复共轭所形成的子空间中计算相关系数,其结果也以共轭对的形式出现,这样第k步迭代得到的残差信号为:
Figure BDA0001862842830000035
此时合成信号为:
Figure BDA0001862842830000031
此为正弦合成的基本原理公式,ξk亦为复数;
由匹配跟踪得到对应的一组幅度、频率和相位
Figure BDA0001862842830000036
其中K为提取的正弦数目,若K为偶数,将该组正弦建模参数按照幅度进行能量大小排列,对新排序的参数分组,其中分组一为
Figure BDA0001862842830000032
所对应的一组幅度频率和相位,分组二:
Figure BDA0001862842830000033
所对应的一组幅度频率和相位,在两个分组之间加入一定冗余,将分组一中的前几个能量大的信号加入分组二,分组二中的前几个能量大的信号加入分组一,保持两个分组描述能量的一致性,分组后的正弦多描述为:
Figure BDA0001862842830000034
优选的:参数编码器一和参数编码器二为正弦参数编码器,或者参数编码器一和参数编码器二为低比特率的参数编码器。
优选的:在任何连续丢帧在三帧以内的帧丢失,可以在一定程度上恢复其编码信号,对于连续丢帧三帧及其三帧以上的帧丢失,采用波形外推的方式进行丢帧补偿。
优选的:在解码端,只要收到任何一组描述,就可以与前面的LSP对应的描述组成完整的描述,恢复语音信号,如果收到两组描述,语音质量将大大提升。
优选的:参数编码器一为编码码率略高于参数编码器二的编码器。
本发明相比现有技术,具有以下有益效果:
1.采用混合多描述正弦编码器的码流结构以牺牲一定相关冗余度提高丢帧纠错能力;
2.正弦多描述编码方法中的数据分组采用多描述传输,为分组网络的纠错提供一定的保障;
3.正弦编码器的频率轨迹及其幅度的可预测给解码端的帧内或帧间的纠错带来好处。
附图说明
图1为多描述编码框架。
图2为多描述编码器解码框架。
图3为混合多描述编码框架结构。
图4为混合多描述正弦编码器顶层码流结构。
图5为多描述正弦编码器框架。
具体实施方式
下面结合附图和具体实施例,进一步阐明本发明,应理解这些实例仅用于说明本发明而不用于限制本发明的范围,在阅读了本发明之后,本领域技术人员对本发明的各种等价形式的修改均落于本申请所附权利要求所限定的范围。
一种用于提升语音丢帧补偿性能的混合多描述正弦编码器方法,主要包括:
1.多描述编码框架(图1)
2.多描述编码器解码框架(图2)
3.混合多描述编码框架结构(图3)
4.混合多描述正弦编码器顶层码流结构(图4)
5.多描述正弦编码器框架(图5)
图1给出了多描述语音编码系统的基本结构,语音信号首先被分成两个或者多个描述,这些描述在不同的信道上独立传输。每个描述都可以单独解码,部分地恢复原始信号(如图2中解码器1和2的输出),如果得到多个描述,它们联合在一起可以得到更好的重建质量(如图2中解码器0的输出)。多描述编码的基本思想就是在两个描述之间引入相关性,也就是冗余。当任何一个描述丢失时,解码器可以根据这部分冗余从正确接收的描述中部分地恢复丢失的数据。对于波形多描述编码器,奇数样点和偶数样点被分解到两个描述中,解码器在恢复单个描述时,利用了样点自身的冗余,用内插法恢复丢失的样点。为了避免奇偶样点分解造成的频谱混叠,该类编码器的采样率都比较高,增加了系统的负担。而参数多描述编码器可根据参数的统计特性将参数分配到两个描述中。因为参数之间的依赖性,以及对误差的敏感性,使得两个描述中有大量重复的参数才可以单独解码,从而降低了系统的压缩率。
由图1和图2可知,在分组网络中,不同的信道的传输的数据丢失概率不同,故解码端在同一时刻可能收到来自发送端的某个描述信号,通过对应的解码器可以部分得到编码信息,一定程度上减少丢包带来的音质损伤,在分组网络的丢包处理上有着极其广泛的应用。
本发明涉及的多描述正弦编码器的主体框架如图3所示,本发明引入两帧的编码延迟弥补发送端的丢帧补偿。
如图3所示,本发明的编码器框架结构由三个编码器组成,其中多描述编码器是本发明的核心编解码器,参数编码器1和参数编码器2为发送端丢包补偿用辅助编码器,本发明引入两帧的信号延迟,增加了混合多描述编码器的编解码器对网络丢包的鲁棒性。其中多描述编码器为基于多描述框架的正弦编码器,而参数编码器1为编码码率略高于参数编码器2的编码器,两个辅助编码器的选择可以是正弦参数编码器,也可以是低比特率的其他类型参数编码器框架结构。
根据混合多描述编码器的框架结构图,本发明中,图3中的多描述编码器码率为B0(kbps),辅助的参数编码器1和2编码码率为B1(kbps)和B2(kbps),三种满足以下关系:
B2<=B1<B0 (1)
混合多描述编码器顶层码流结构如图4所示。
如图4所示,第m帧传输的码流为第m、m+1和m+2帧的编码信号,其中主编码器传输B0(kbps)的码流信息,作为当前帧的码流信号,而辅助参数编码器1和2作为丢包补偿的冗余编码器。由图4可以看出,在任何连续丢帧在三帧以内的帧丢失,本发明的编码器均可以在一定程度上恢复其编码信号,对于连续丢帧三帧及其三帧以上,本发明采用波形外推的方式进行丢帧补偿。
本发明的多描述正弦编码框架为图5所示。
如图5所示,本发明的多描述正弦编码器主要由两部分组成,其中一部分为线谱对参数冗余描述,另一部分为残差信号的匹配跟踪正弦建模模块及其交织多描述。
本发明采用线性预测求残差的方式进行混合多描述编码,其中线谱对参数量化采用感知加权分裂矢量量化方式进行。本发明采用10阶全极点滤波器进行线性预测,转化成10个对应的LSF参数。本发明采用分裂矢量量化方式将10维的矢量分裂成3个矢量,然后分别对这3个矢量进行矢量量化的分裂矢量量化。首先将10维LSP参数分别分组为LSF1={lsf(1),lsf(2),lsf(3)},LSF2={lsf(4),lsf(5),lsf(6)},和LSF3={lsf(7),lsf(8),lsf(9),lsf(10)}。为了避免系统的不稳定,同时对LSF1码本以lsf(3)为基准进行由小到大排序,对LSF3码本以lsf(7)为基准进行由小到大排序;LSF1、LSF2和LSF3三个码本的大小分别为M1、M2和M3。先量化矢量LSF2,在量化LSF1之前,先找到LSF1码本中lsf(3)<lsf(4)的码本序号Index1,仅在码本的序号1~Index1间搜索与LSF1最邻近的码字;在量化LSF3之前,先找到LSF3码本中lsf(7)>lsf(6)的码本序号Index3,仅在码本的序号Index1~M3场间搜索与LSF3最邻近的码字。对分裂量化得到的矢量进行冗余描述,复制一份描述到描述2,与匹配跟踪中的正弦描述传输分组至编码器描述2码流。
在正弦模型中,每一帧语音信号用一组正弦信号之和来表示,因此,对于第i帧信号有
Figure BDA0001862842830000061
本发明采用匹配跟踪提取幅度、频率和相位信息,也就是采用正弦字典对语音信号进行信号分解。匹配跟踪是一种自适应的信号分解迭代算法,它在一个高度冗余的字典(dictionary)空间D中将输入信号s(n)分解成一组原子(atom)信号的线性组合。假定包含M个原子的字典为:
D={gm};m=0,1,...,M-1 (3)
匹配跟踪的分解迭代过程如下:
设置初始输入信号为当前残差信号,即令r0=s(n),在第k(k>=0)步迭代中,查找第k个原子索引mk,使该原子与当前残差信号rk的相关系数最大,此时对应的原子字典的频率就是建模频率,而此刻该正弦原子的幅度就是残差信号和原子的内积:
Figure BDA0001862842830000069
此时得到重构信号为:
Figure BDA0001862842830000062
其中K为迭代次数。
对于正弦建模来说,可以采用如下的复指数原子组成的正弦字典:
Figure BDA0001862842830000063
此处字典空间是由复指数原子所刻画的,而实际中面临的通常是实信号。为了处理方便,本发明采用共轭子空间投影技术,在由字典原子及其复共轭所形成的子空间中计算相关系数,其结果也以共轭对的形式出现,这样第k步迭代得到的残差信号为:
Figure BDA0001862842830000064
此时合成信号为:
Figure BDA0001862842830000065
此为正弦合成的基本原理公式,ξk亦为复数。
由匹配跟踪得到对应的一组幅度、频率和相位
Figure BDA0001862842830000068
其中K为提取的正弦数目,若K为偶数,将该组正弦建模参数按照幅度进行能量大小排列,对新排序的参数分组,其中分组一为
Figure BDA0001862842830000066
所对应的一组幅度频率和相位,分组二:
Figure BDA0001862842830000067
所对应的一组幅度频率和相位,为了进一步修正两个描述的能量,本发明在两个分组之间加入一定冗余,将分组一中的前几个能量大的信号加入分组二,分组二中的前几个能量大的信号加入分组一,保持两个分组描述能量的一致性。分组后的正弦多描述可以描述为:
Figure BDA0001862842830000071
在解码端,只要收到任何一组描述,就可以与前面的LSP对应的描述组成完整的描述,恢复语音信号,如果收到两组描述,语音质量将大大提升。
实施方法为:
1.获取输入语音信号x(n)。
2.语音信号预处理和线性预测与逆滤波。
3.进行线谱对参数冗余描述,采用10阶全极点滤波器进行线性预测,转化成10个对应的LSF参数。本发明采用分裂矢量量化方式将10维的矢量分裂成3个矢量,然后分别对这3个矢量进行矢量量化的分裂矢量量化。首先将10维LSP参数分别分组为LSF1={lsf(1),lsf(2),lsf(3)},LSF2={lsf(4),lsf(5),lsf(6)},和LSF3={lsf(7),lsf(8),lsf(9),lsf(10)}。为了避免系统的不稳定,同时对LSF1码本以lsf(3)为基准进行由小到大排序,对LSF3码本以lsf(7)为基准进行由小到大排序;LSF1、LSF2和LSF3三个码本的大小分别为M1、M2和M3。先量化矢量LSF2,在量化LSF1之前,先找到LSF1码本中lsf(3)<lsf(4)的码本序号Index1,仅在码本的序号1~Index1间搜索与LSF1最邻近的码字;在量化LSF3之前,先找到LSF3码本中lsf(7)>lsf(6)的码本序号Index3,仅在码本的序号Index1~M3场间搜索与LSF3最邻近的码字。对分裂量化得到的矢量进行冗余描述,复制一份描述到描述2,与匹配跟踪中的正弦描述传输分组至编码器描述2码流。
4.进行残差信号匹配跟踪正弦建模,由匹配跟踪得到对应的一组幅度、频率和相位
Figure BDA0001862842830000074
其中K为提取的正弦数目,若K为偶数,将该组正弦建模参数按照幅度进行能量大小排列,对新排序的参数分组,其中分组一为
Figure BDA0001862842830000072
所对应的一组幅度频率和相位,分组二:
Figure BDA0001862842830000073
所对应的一组幅度频率和相位,为了进一步修正两个描述的能量,本发明在两个分组之间加入冗余,将描述1的前M个能量大的信号加入描述2,描述2中的前M个能量大的信号加入描述1,本发明M取5。
以上所述仅是本发明的优选实施方式,应当指出:对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视为本发明的保护范围。

Claims (6)

1.一种用于提升语音丢帧补偿性能的混合多描述正弦编码器方法,其特征在于:编码器框架结构包括三个编码器,分别为多描述正弦编码器、参数编码器一和参数编码器二,其中多描述正弦编码器是核心编解码器,参数编码器一和参数编码器二为发送端丢包补偿用辅助编码器,引入两帧的信号延迟,增加了混合多描述正弦编码器的编解码器对网络丢包的鲁棒性;其中多描述正弦编码器为基于多描述框架的正弦编码器,
多描述正弦编码器主要由两部分组成,其中一部分为线谱对参数冗余描述,另一部分为残差信号的匹配跟踪正弦建模模块及其交织多描述;采用线性预测求残差的方式进行混合多描述编码,其中线谱对参数量化采用感知加权分裂矢量量化方式进行,采用10阶全极点滤波器进行线性预测,转化成10个对应的LSF参数,采用分裂矢量量化方式将10维的矢量分裂成3个矢量,然后分别对这3个矢量进行矢量量化的分裂矢量量化;首先将10维LSP参数分别分组为LSF1={lsf(1),lsf(2),lsf(3)},LSF2={lsf(4),lsf(5),lsf(6)},和LSF3={lsf(7),lsf(8),lsf(9),lsf(10)};同时对LSF1码本以lsf(3)为基准进行由小到大排序,对LSF3码本以lsf(7)为基准进行由小到大排序;LSF1、LSF2和LSF3三个码本的大小分别为M1、M2和M3;先量化矢量LSF2,在量化LSF1之前,先找到LSF1码本中lsf(3)<lsf(4)的码本序号Index1,仅在码本的序号1~Index1间搜索与LSF1最邻近的码字;在量化LSF3之前,先找到LSF3码本中lsf(7)>lsf(6)的码本序号Index3,仅在码本的序号Index1~M3场间搜索与LSF3最邻近的码字;对分裂量化得到的矢量进行冗余描述,复制一份描述到描述2,与匹配跟踪中的正弦描述传输分组至编码器描述2码流;
在正弦模型中,每一帧语音信号用一组正弦信号之和来表示,因此,对于第i帧信号有
Figure FDA0003074974550000011
采用正弦字典对语音信号进行信号分解,在一个高度冗余的字典空间D中将输入信号s(n)分解成一组原子信号的线性组合,假定包含M个原子的字典为:
D={gm};m=0,1,...,M-1 (3)
匹配跟踪的分解迭代过程如下:
设置初始输入信号为当前残差信号,即令r0=s(n),在第k步迭代中,k>=0,查找第k个原子索引mk,使该原子与当前残差信号rk的相关系数最大,此时对应的原子字典的频率就是建模频率,而此刻该正弦原子的幅度就是残差信号和原子的内积:
Figure FDA0003074974550000012
此时得到重构信号为:
Figure FDA0003074974550000021
其中K为迭代次数;
对于正弦建模来说,采用如下的复指数原子组成的正弦字典:
Figure FDA0003074974550000022
此处字典空间是由复指数原子所刻画的,采用共轭子空间投影技术,在由字典原子及其复共轭所形成的子空间中计算相关系数,其结果也以共轭对的形式出现,这样第k步迭代得到的残差信号为:
Figure FDA0003074974550000023
此时合成信号为:
Figure FDA0003074974550000024
此为正弦合成的基本原理公式,ξk亦为复数;
由匹配跟踪得到对应的一组幅度、频率和相位
Figure FDA0003074974550000025
k<=K,其中K为提取的正弦数目,若K为偶数,将该组正弦建模参数按照幅度进行能量大小排列,对新排序的参数分组,其中分组一为
Figure FDA0003074974550000026
所对应的一组幅度频率和相位,分组二:
Figure FDA0003074974550000027
所对应的一组幅度频率和相位,在两个分组之间加入一定冗余,将分组一中的前两个以上的能量大的信号加入分组二,分组二中的前两个以上的能量大的信号加入分组一,保持两个分组描述能量的一致性,分组后的正弦多描述为:
Figure FDA0003074974550000028
2.根据权利要求1所述用于提升语音丢帧补偿性能的混合多描述正弦编码器方法,其特征在于:参数编码器一和参数编码器二为正弦参数编码器,或者参数编码器一和参数编码器二为低比特率的参数编码器。
3.根据权利要求1所述用于提升语音丢帧补偿性能的混合多描述正弦编码器方法,其特征在于:在任何连续丢帧在三帧以内的帧丢失,在一定程度上恢复其编码信号,对于连续丢帧三帧及其三帧以上的帧丢失,采用波形外推的方式进行丢帧补偿。
4.根据权利要求1所述用于提升语音丢帧补偿性能的混合多描述正弦编码器方法,其特征在于:在解码端,只要收到任何一组描述,就可以与前面的LSP对应的描述组成完整的描述,恢复语音信号,如果收到两组描述,语音质量将大大提升。
5.根据权利要求1所述用于提升语音丢帧补偿性能的混合多描述正弦编码器方法,其特征在于:多描述正弦编码器码率为B0,辅助的参数编码器一和参数编码器二编码码率为B1和B2,三种满足以下关系:
B2<=B1<B0 (1)
多描述正弦编码器第m帧传输的码流为第m、m+1和m+2帧的编码信号,其中主编码器传输B0的码流信息,作为当前帧的码流信号,而参数编码器一和参数编码器二作为丢包补偿的冗余编码器。
6.根据权利要求1所述用于提升语音丢帧补偿性能的混合多描述正弦编码器方法,其特征在于:参数编码器一为编码码率高于参数编码器二的编码器。
CN201811342149.2A 2018-11-13 2018-11-13 用于提升语音丢帧补偿性能的混合多描述正弦编码器方法 Active CN109616129B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201811342149.2A CN109616129B (zh) 2018-11-13 2018-11-13 用于提升语音丢帧补偿性能的混合多描述正弦编码器方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201811342149.2A CN109616129B (zh) 2018-11-13 2018-11-13 用于提升语音丢帧补偿性能的混合多描述正弦编码器方法

Publications (2)

Publication Number Publication Date
CN109616129A CN109616129A (zh) 2019-04-12
CN109616129B true CN109616129B (zh) 2021-07-30

Family

ID=66003855

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201811342149.2A Active CN109616129B (zh) 2018-11-13 2018-11-13 用于提升语音丢帧补偿性能的混合多描述正弦编码器方法

Country Status (1)

Country Link
CN (1) CN109616129B (zh)

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111063361B (zh) * 2019-12-31 2023-02-21 广州方硅信息技术有限公司 语音信号处理方法、系统、装置、计算机设备和存储介质
CN112820306B (zh) * 2020-02-20 2023-08-15 腾讯科技(深圳)有限公司 语音传输方法、系统、装置、计算机可读存储介质和设备
CN118038879A (zh) * 2022-11-07 2024-05-14 抖音视界有限公司 一种音频数据的编码方法、解码方法及装置
CN118471239B (zh) * 2024-07-12 2024-08-30 世优(北京)科技股份有限公司 音频信号的处理方法及装置

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2002059875A2 (en) * 2001-01-24 2002-08-01 Nokia Corporation System and method for error concealment in digital audio transmission
WO2004066269A2 (en) * 2003-01-14 2004-08-05 Motorola Inc. A Corporation Of The State Of Delaware Method and apparatus for speech reconstruction within a distributed speech recognition system
CN101261833A (zh) * 2008-01-24 2008-09-10 清华大学 一种使用正弦模型进行音频错误隐藏处理的方法
CN101471073A (zh) * 2007-12-27 2009-07-01 华为技术有限公司 一种基于频域的丢包补偿方法、装置和系统
CN101826327A (zh) * 2009-03-03 2010-09-08 中兴通讯股份有限公司 一种基于时域掩蔽的瞬态判决方法及设备

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2002059875A2 (en) * 2001-01-24 2002-08-01 Nokia Corporation System and method for error concealment in digital audio transmission
WO2004066269A2 (en) * 2003-01-14 2004-08-05 Motorola Inc. A Corporation Of The State Of Delaware Method and apparatus for speech reconstruction within a distributed speech recognition system
CN101471073A (zh) * 2007-12-27 2009-07-01 华为技术有限公司 一种基于频域的丢包补偿方法、装置和系统
CN101261833A (zh) * 2008-01-24 2008-09-10 清华大学 一种使用正弦模型进行音频错误隐藏处理的方法
CN101826327A (zh) * 2009-03-03 2010-09-08 中兴通讯股份有限公司 一种基于时域掩蔽的瞬态判决方法及设备

Also Published As

Publication number Publication date
CN109616129A (zh) 2019-04-12

Similar Documents

Publication Publication Date Title
CN109616129B (zh) 用于提升语音丢帧补偿性能的混合多描述正弦编码器方法
JP5247878B2 (ja) 階層型復号化構造におけるデジタル音声信号の伝送エラーの隠蔽
CN101849258B (zh) 用于在可缩放音频编解码器中编码/解码的方法和装置
US7149683B2 (en) Method and device for robust predictive vector quantization of linear prediction parameters in variable bit rate speech coding
TWI407432B (zh) 用於可縮放的語言及音頻編碼之方法、器件、處理器及機器可讀媒體
CN102122511B (zh) 一种信号处理方法、处理装置以及语音解码器
US11594236B2 (en) Audio encoding/decoding based on an efficient representation of auto-regressive coefficients
JPH06149296A (ja) 音声符号化方法及び復号化方法
CN101110214A (zh) 一种基于多描述格型矢量量化技术的语音编码方法
KR102173422B1 (ko) 음성 부호화 장치, 음성 부호화 방법, 음성 부호화 프로그램, 음성 복호 장치, 음성 복호 방법 및 음성 복호 프로그램
Shin et al. Audio coding based on spectral recovery by convolutional neural network
CN114913862B (zh) 基于禁忌转移矩阵的声码器参数误码掩盖方法及系统
Samuelsson et al. Multiple description coding based on Gaussian mixture models
CN114400012B (zh) 一种极低速率高质量语音编解码方法及装置
US20120284020A1 (en) System and method of speech compression using an inter frame parameter correlation
Ghaderi et al. Wideband speech coding using ADPCM and a new enhanced bandwidth extension method
Chatterjee et al. A mixed-split scheme for 2-D DPCM based LSF quantization
KR100221185B1 (ko) 음성 부호화 및 복호화 장치와 그 방법
Niu et al. An improvement of frame erasure concealment for G. 722.1 coding algorithm
KR100221186B1 (ko) 음성 부호화 및 복호화 장치와 그 방법
CN117292694A (zh) 基于时不变编码的少令牌神经语音编解码方法和系统
Xiao et al. Combined low bit rate speech coding and channel coding over a Rayleigh fading channel
CN118692473A (zh) 一种基于深度学习架构的骨传导语音信号传输方法
Mikhael et al. A new linear predictor employing vector quantization in nonorthogonal domains for high quality speech coding
Lang et al. A novel multiple description scalable speech codec based on sinusoidal model

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant