CN103280221A - 一种基于基追踪的音频无损压缩编码、解码方法及系统 - Google Patents
一种基于基追踪的音频无损压缩编码、解码方法及系统 Download PDFInfo
- Publication number
- CN103280221A CN103280221A CN2013101695465A CN201310169546A CN103280221A CN 103280221 A CN103280221 A CN 103280221A CN 2013101695465 A CN2013101695465 A CN 2013101695465A CN 201310169546 A CN201310169546 A CN 201310169546A CN 103280221 A CN103280221 A CN 103280221A
- Authority
- CN
- China
- Prior art keywords
- sparse
- signal
- coding
- module
- frame
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Landscapes
- Compression, Expansion, Code Conversion, And Decoders (AREA)
Abstract
本发明公开了一种基于基追踪的音频无损压缩编码、解码方法及系统。其中编码方法为:1)将输入的音频信号分帧,将每一帧信号输入稀疏编码模块;2)稀疏编码模块利用过完备词典的基函数对每一帧信号进行稀疏变换,采用基追踪方法从稀疏变换的结果中选取出最稀疏的一种变换方式;3)稀疏编码模块利用最稀疏变换方式对应的基向量组合求取整型变换中需要的预测器参数和更新器参数,对该帧信号进行稀疏整型变换,得到稀疏系数并传递给熵编码模块进行编码;并且将该帧信号稀疏变换所产生的边信息发送给比特流形成模块进行编码;4)码流整合模块将该帧信号的编码整合在一起作为压缩编码输出。本发明大大提高了无损编码的编码、解码效率。
Description
技术领域
本发明属于信源编、解码领域,具体涉及一种音频无损压缩编码、解码方法及系统。
背景技术
音频无损编解码技术是一种能够将数字音频信号压缩存储并无失真恢复的技术。近年来,大规模存储设备、高速因特网连接以及宽带无线网络等技术的不断发展为音频无损编解码技术的推广提供了一个巨大的舞台,高品质的互联网音频下载,频率动态范围较大的交响乐编码,经典音频文件的编辑存档等等需求不断涌现,随着人民对音频质量要求的提高,传统的有损音频编解码方法已经无法满足这样的需求,为了解决这一类问题,就必然需要应用到无损音频编解码技术。
从信息论观点来看,音频信号作为一个信源,描述信源的数据是信息量(信息熵)与信息冗余量之和。几乎所有的无损音频压缩都基于相似的思想,首先从信号中去除冗余,去除的只是数据中的冗余量,而没有减少信源中的信息量。然后用有效的数据编码方案编码,音频信号中存在着多种冗余,主要包括有信号幅度分布的非均匀性,相邻样值之间的相关性和周期之间的相关性等等。所以无损压缩编码算法的主要思想就是如何有效的去除音频信号中的冗余,目前比较知名的音频无损编码算法的格式有FLAC(Free Lossless Audio Codec)、WavPack、TAK(Tom′s Audio Kompressor)、APE(Monkey′s Audio)、OFR(OptimFROG)、ALAC(Apple Lossless Audio Codec)、WMAL(Windows Media Audio Lossless)、Shorten、LA(LosslessAudio)、TTA(Ture Audio)、LPAC(Lossless Predictive Audio Coder)、RAL(RealAudioLossless)、MPEG-ALS等。这些算法主要利用两种方法来去相关:一种是基于时域线性预测编码(LPC)的技术,另一种是基于变换域的技术例如IntMDCT(Integer Modified Discrete CosnieTransform,整数改进型离散余弦变换)。线性预测编码最早诞生于语音分析领域,现在已经作为一种简单并且有效的方法被绝大多数的无损音频编解码系统所采用,其基本原理是利用声音信号的相关性,用过去的样值x[n-1],x[n-2]...来预测当前的样值x[n],利用过去的样值越多则预测精度越高,再把当前的样值与预测值相减取其差(预测误差)进行编码,由于预测误差的动态范围要远小于原始信号的动态范围,这时即使仍采用原信号量化时采用的量化级,也可降低码位进行编码,进而实现比特率的压缩。
为了达到去相关后压缩编码的目的,线性预测编码并不是唯一有效的方法。线性预测编码对于语音这类准平稳的信号有较好的预测能力,但是对于高频成分更加丰富、动态范围及其变化速率更大的音乐信号,其预测能力受到较大的限制,虽然可以通过提高预测器阶数来在一定程度上克服该问题,但与此同时为了保证无损解码又必须引入更多的预测器系数信息,降低了编码效率。
发明内容
针对现有技术中存在的技术问题,本发明的目的是提供一种基于基追踪方法的音频无损压缩的编码、解码方法及系统。本发明利用基追踪方法在一个过完备的词典中选取最能表达当前信号特点的一些基向量(原子),并用它们的某种线性组合来刻画当前信号,词典的过完备保证了无论是相对变化平缓的语音信号还是变化剧烈的音乐信号都能通过基追踪算法得到该词典下的一种稀疏表示,对这些线性组合的权重,即稀疏系数进行编码,便能更好地实现无损编码这一任务。
具体而言,本方法首先将输入音频信号分成多帧,在缓存中依次存放各帧信号,在后面的算法中逐帧处理,随后每帧信号进入稀疏编码模块处理,利用基追踪的方法选取合适的基向量组合,利用这样的基向量组合将信号利用整型变换转换成稀疏系数,在熵编码模块用算术编码方法来编码这些稀疏系数,最后将熵编码的结果和稀疏编码模块所产生的边信息(即基向量组合的索引结构)在码流整合模块整合到一起作为最终的压缩编码比特流输出,解码过程为上述编码过程的逆过程。
根据本发明设计的无损音频编解码系统主要由一个编码子系统和一个解码子系统两部分组成。
编码子系统包括:
分帧模块:用于对输入的音频信号作分帧,每帧信号依次处理;
稀疏编码模块:对每一帧的信号,利用冗余的基向量对信号进行变换,得到一组备选的稀疏簇,以稀疏系数的1范数作为参考指标,在备选的稀疏系数簇中,用基追踪方法寻找最优基向量组合(即使得稀疏系数1范数最小的基向量组合),根据所确定的基向量组合,得到对应的整型变换所需的参数(即预测滤波器系数与更新滤波器系数),并用整型变换技术求取该帧信号的稀疏系数;
熵编码模块:用算术编码技术对稀疏系数做无损信源编码;
比特流形成模块:用于把上述稀疏编码模块中的边信息(基向量组合的索引结构,包括每一级的最优基向量索引)形成边信息码流,再与熵编码模块形成的熵编码流整合,并最终按一定的格式形成比特流写入文件。
解码子系统包括:
比特流分离模块:用于把压缩后的音频文件中的比特流按照规定格式进行分离,分别生成熵编码流和边信息码流,并将边信息解析为得到后续模块所需的边信息;
熵解码模块:用于把熵编码流通过解码重新得到稀疏系数;
稀疏解码模块:用于把分解得到的稀疏系数,根据其对应的边信息选择相应的基向量,并通过整型逆变换得到原始的分帧信号。
帧合成模块:用于把重构后的每一帧音频信号合并成一个音频的PCM文件,并写入WAVE文件的文件头,生成解压后的WAVE文件。
根据本发明设计的无损音频编解码系统中采用的主要关键技术有基于基追踪方法的稀疏变换技术,整型变换技术,算术编码技术。下面将分别介绍各个技术内容:
1、基于基追踪方法的稀疏变换技术:
近些年来在和谐分析领域,稀疏变换技术作为对传统傅里叶变换、小波变换以及压缩感知技术的一种继承和发展,得到了广泛的关注,本发明将稀疏变换的技术引用到音频无损压缩编码中,对变换后得到的稀疏系数进行编码。稀疏变换的特点在于其用来构成词典的基向量(原子)是冗余的,在这样的情况下,不妨假设有如下的线性方程组:
其中s是给定的信号(对于本发明而言,指具体的一帧语音信号),DN×L是分解时采用的词典,是该信号在这个词典上的稀疏系数,矩阵DN×L是一个满秩的N×L的矩阵,其中L>N,则稀疏系数中非零元素的个数就可以用0范数来表征,记为||||0,稀疏编码的目标就是要寻找在(L-N)维的仿射空间中方程组(1)的最稀疏的一组解,即满足上式并使得中非零元素个数最小解。上述目标可以形式化的表示为如下的优化问题:
式(2)所描述的最优化问题是一个非多项式时间复杂度(NP-hard)的搜索问题,要求穷尽所有DN×L矩阵中列向量构成的子集。目前解决该问题的一种最为行之有效的方法便是求解与该问题最相近的一个凸优化问题,即将式(2)中的0范数优化问题转换为1范数优化问题,具体的情况如下所示:
按照上述的思路来获取稀疏编码结果的方法被称为基追踪算法。
2、整型变换技术:
整型变换是将整数映射到整数的变换,即输入信号为整数,变换后的系数也为整数,且原信号可以由逆变换精确的恢复。传统变换以后产生的系数是浮点数,不仅计算量非常大,而且无法实现数据的无损压缩。整型变换在图像压缩领域有很多的应用,可以实现从有损到无损的低复杂度嵌入式编码,然而在音频信号的无损压缩中,普遍采用的还是线性预测编码技术,整型变换由于很难同时获得较高的变换精度与较低的边信息代价,其应用还并不广泛。
传统的变换方法,无论是快速傅里叶变换还是小波变换,输入信号为整数,得到的变换后的系数是浮点数,计算机在处理时存在舍入误差,不能实现数据的无损压缩。考虑在传统变换的提升步骤中加入量化运算,如果输入向量x为整数,则输出y也为整数,并且由y可精确地恢复出x,需要注意的是,此处量化的作用不同于数据压缩中的量化,该量化并不带来信息损失,而只是为了得到整数输出。
本发明的方法利用基追踪的思路得到压缩率最高的基索引及其结构,并将这些记录到边信息中。
3、算术编码技术:
数据压缩技术的理论基础就是信息论。信息论中的信源编码理论主要解决以下两个问题:(1)数据压缩的理论极限(2)数据压缩的基本途径。根据信息论的原理,可以找到最佳数据压缩编码的方法,数据压缩的理论极限是信息熵。信息熵为信源的平均信息量(不确定性的度量)。如果要求编码过程中不丢失信息量,即要求保存信息熵,这种信息保持编码叫熵编码,熵编码(entropy encoding)是一类利用数据的统计信息压缩无语义数据流的无损编码方法,它是根据消息出现概率的分布特性而进行的,在这个过程中,可以在移去误差信号中的冗余的同时避免信息的丢失。经常使用的熵编码方式有:游程编码(RLE)、香农(Shannon)编码、哈夫曼(Huffman)编码和算术编码(arithmetic coding)。熵编码是一种无损的信源编码,熵编码的作用是移去预测误差信号中的冗余信息,在这个过程中,没有数据信息的丢失。
其他的熵编码技术通常是把输入的消息分割为符号,然后对每个符号编码,而算术编码是直接把整个输入的消息编码为一个取值区间在0~1之间的小数。算术编码的基本原理是:根据信源可能发出的不同符号序列的概率,把[0,1]区间划分为互不重叠的子区间,子区间的宽度恰好是各符号序列的概率,这样信源发出的不同符号序列将与各子区间一一对应,因此每个子区间内的任意一个实数都可以用来表示对应的符号序列,这个数就是该符号序列所对应的码字,显然,一串符号序列发生的概率越大,对应的子区间就越宽,要表达它所用的比特数就减少,因而相应的码字就越短。
本发明构建了一个基于基追踪方法的无损音频编解码系统,通过与当前主流的一些无损音频压缩技术的对比实验证明了该编解码方法对于不同音质的音频信号都取得了较好的压缩性能和较小的解码复杂度。
我们用本发明设计的无损音频编解码系统分别同Flac(flac-8)、WavePack(v.4.60.1)、Monkeys’s Audio(mac-c4000)以及MPEG4_ALS(RM22 with BGMC)等方法进行了比较,总共十三个不同风格的音频文件参与了测试,包括管弦乐、长笛曲、交响乐、爵士乐、钢琴曲、摇滚音乐、弦乐队、电子音乐、流行音乐、乡村音乐和语音信号。
表1不同音频信号的平均压缩率(%)
格式 | 本发明 | Flac | Wavpack | Monkey’s | ALS |
32kHz/16bit | 52.19 | 52.95 | 52.37 | 51.25 | 51.87 |
44.1kHz/16bit | 48.02 | 48.86 | 48.67 | 47.21 | 47.77 |
48kHz/16bit | 46.38 | 47.80 | 47.93 | 45.38 | 46.40 |
平均 | 48.86 | 49.87 | 49.66 | 47.94 | 47.94 |
上述表格中压缩率的测试是在一台笔记本电脑(2.1GHz AMD x2 dual core QL-64)上完成的。
与现有技术相比,本发明的积极效果在于:
1、本系统可根据信号的情况,在一组冗余的基函数字典中自适应地选择合适的基函数,选取对于该信号最稀疏的表达方式进行后续的熵编码,提高无损编码的编码效率。
2、本系统采用整型变换,避免了对数据处理和滤波器系数截断带来的误差。
3、对稀疏系数采取算术编码的熵编码方法,进一步提高信号压缩效率。
附图说明
下面结合附图对本发明进一步详细地说明:
图1是编码器结构框图;
图2是解码器结构框图;
图3是稀疏编码模块内部结构图;
图4是整型提升变换的分解过程图;
图5是整型提升变换的重构过程图;
图6是算术熵编码器的结构示意图;
图7是算术熵解码器的结构示意图。
具体实施方式
下面参照本发明的附图,详细地描述本发明的实施例。
根据本发明方法的音频无损编解码系统包括两个部分:一个编码器子系统和一个解码器子系统。系统的结构框图如图1和图2所示,其中图1是音频无损压缩编码子系统结构框图,图2是音频无损压缩解码器子系统结构框图。
1、总体方案
编码器部分:编码器结构框图如图1所示:首先将输入信号分为依次相连的各帧信号放入缓存中,稀疏编码模块利用基追踪方法选定使得稀疏系数1范数最小的一组变换基及其对应的变换基索引结构,并将这些边信息传递到比特流形成模块,同时利用变换基将信号进行整型变换分解得到的稀疏系数交由熵编码模块处理,接着,熵编码模块利用算术编码技术将稀疏系数编码,最后经由比特流形成模块将边信息码流与熵编码流整合得到最终的压缩码流。
解码器部分:解码器结构框图如图2所示:解码器就是编码器的逆过程,比特流分流模块将熵编码流与边信息码流分开,并将边信息码流解构成边信息供稀疏解码模块使用,熵编码流经过熵解码模块解码得到稀疏系数,稀疏解码模块通过稀疏系数和边信息恢复各帧原始信号,最后帧合成模块将各帧信号依次连接起来得到原始的音频文件。
2、稀疏编解码模块:
1)基追踪方法
基追踪方法的具体步骤如图3所示,分为三个主要步骤:
第一步:创建词典,在这一步中,不同种类的基函数被整合到一起,经过这样的整合,一个过完备的词典得以形成。
第二步:稀疏变换,在这一步中,利用第一步中构成的词典对当前帧信号完成稀疏变换,具体的变换是由逐级的基函数整型变换来实现的,由于词典是过完备的,那么这样可行的分解并不唯一,可行解的个数取决于词典的大小。
第三步:变换基选取,在这一步中,采用基追踪方法从第二步每一级基变换所得稀疏变换结果中选取最稀疏的一种变换方式(即基向量组合),拥有最小的1范数的那一组稀疏系数将被选为当前帧信号的稀疏系数。
将从每一级稀疏变换中选取最稀疏的一种变换方式对应的基向量组合求取整型变换中需要的预测器参数和更新器参数,对信号进行整型变换,将整型变换结果传递给熵编码模块,而边信息则被交给比特流形成模块处理;其中,各级稀疏变换关系构成一种树形结构,最后的输出会依据稀疏性准则选择一组完备的基向量组合。
2)整型提升变换分解、重构
在基追踪方法的第二步中,每一个稀疏变换由本部分所涉及的整型提升变换技术来完成。提升变换由Ingrid W.Sweldens提出,相较于传统的变换方法,有很多优势,例如该方法能够有更低的计算复杂度,能够通过合理的整型处理完成从整数到整数的整型变换,并且无失真恢复,这对于无损音频编码方法而言是一种非常理想的变换方式。
图4中显示了整型提升变换的分解过程:主要分为三个阶段,分离、预测和更新。首先,分帧后的单帧信号x[n]被分为偶序列xe[n]和奇序列xo[n](n为采样时间),这一步操作又可以成为惰性(lazy)变换,其次,在预测阶段,一个预测滤波器会利用偶序列来预测奇序列,得到的误差表示高通系数,接着,在更新阶段,高通系数通过一个更新滤波器预测偶序列,预测的残差被称为低通系数。迭代地采用预测阶段和更新阶段来更新高通系数与低通系数,经过了整型变换中的所有预测阶段和更新阶段后得到的低通系数和高通系数分别被称为尺度系数c[n]和细节系数d[n],将二者合在一起就可以得到该帧信号的稀疏系数;其中,边信息记载了所选择的基向量的组合信息,迭代次数、预测滤波器和更新滤波器参数由所选择的基向量确定。
图5中显示了整型提升变换的重构过程:与分解过程刚好相反,在重构过程中两组系数信号c[n]和d[n]被输入系统,由边信息所代表的基向量组合得到预测滤波器参数、更新滤波器参数及迭代次数,将更新阶段和预测阶段对调,细节信号经过更新过程与细节系数信号叠加,得到初步恢复的偶序列信号,将初步恢复的偶序列信号经过预测器后与尺度系数信号叠加,便得到初步恢复的奇序列信号,反复进行上述的迭代过程直至所有预测器和更新器都使用过之后,得到奇数点的信号和偶数点的信号,按照奇偶信号的时间顺序将其交叉排列,便可以最终获得完全重构的原始信号。
针对无损音频编码的具体应用,在预测滤波器和更新滤波器做残差计算前,均用一个下取整的模块截断浮点数,再用得到的整型数据参与后续的残差计算,具体公式如下所示:
在解码端,只需要将(4)中的残差计算反向,即作差变为求和,编码端整型变换的输出作为输入,就可以得到重构时所需要的重构计算公式,如下所示:
3、熵编解码模块:
本模块采用算术编码技术实现熵编码,图6表示算术熵编码器的结构示意图。稀疏系数经过数据分成8段,每段分别计算均值,一方面均值经过索引编码,供后续的算术编码器使用,另一方面通过与初始概率组合,修正算术编码器的初始概率,供算术编码器使用。分段后的数据经过算术编码器编码得到算术编码码流。图7表示算术熵解码器的结构示意图,在解码器中的概率修正模块与编码器中的同名模块相同,对输入的算术编码码流解码后得到稀疏系数。下面分子模块详细介绍各自的作用:
1)数据分段
熵编码器将输入的长度为N的稀疏系数分为8段,每段的长度len计算如下:
其中,表示向下取整运算,熵编码器依次对每段样值按照如下变换后的形式编码:
其中的c[i]为待编码的稀疏系数。
2)均值计算
按照如下的公式计算各段样值的均值:
其中c[n]为稀疏系数。
3)均值编码
熵编码器按如下方式对均值编码,mu[i]表示第i段的均值:
4)初始概率
初始概率由如下的概率密度函数给定,具体实施时以146点的采样序列构成,概率密度函数如下:
f(x)=78110exp(-0.2054x) (10)
5)概率修正
算术编码概率表由初始概率经均值修正后得到。熵编码器使用均值映射函数(公式(11))将初始概率值延伸至与数据变换后的动态范围相匹配。由于延伸后的初始概率的采样点通常不在整数点,因此,初始概率延伸后需重新采样以使采样点落在整数点上。
均值映射函数如下:
生成算术编码概率表的具体步骤是:
首先,使用重新设定的s(来自公式(11)的均值编码值),计算概率表范围max_sym:
其中,fmean[s[i]]的值由公式(11)取得,接着,按照如下方式对概率模板重新采样,获得算术编码概率表count:
6)算术编码器
算术编码器应该对两部分数据进行编码,一部分是由均值编码模块输出的均值编码值s[i],另一部分是由数据分段模块输出的经过数据变换后的稀疏系数c[i],在编码s[i]的时候算术编码器采用初始概率表,在编码c[i]的时候算术比啊那么器采用概率修正模块输出的修正概率码表,算术编码的基本步骤如下:
(1)编码器在开始时设置“当前间隔”[L,H]这样一个变量,其中H和L分别代表间隔的上下边界,初始时刻设置为[0,1];
(2)对每一个待编码的符号(sym),编码器按照步骤(a)和(b)处理:
(a)编码器将“当前间隔”分为若干子间隔,每一子间隔代表一个带编码符号(sym)的概率范围;
(b)一个子间隔的大小与下一个将出现的符号(sym)概率成比例,编码器选择子间隔对应于下一个确切出现的符号(sym),并使之成为新的“当前间隔”。
(3)最后输出“当前间隔”下边界即为该给定稀疏系数序列的算术编码结果。
设定Low和High分别表示“当前间隔”的下边界和上边界,CodeRange为编码间隔的长度,LowRange(sym)和HighRange(sym)分别代表符号sym分配的初始下边界和上边界,上述算法用伪代码描述如下:
7)算术解码器
算术解码为算术编码的逆过程,首先解码得到编码均值s[i],利用s[i]指导初始概率经由概率修正模块得到修正概率码表,利用修正概率码表求解稀疏系数c[i]。其中,算术解码的基本步骤如下:
(1)解码器获取一个待解码流Low
(2)解码器反复执行(a)(b)两个步骤:
(a)寻找一个概率范围刚好跨越Low的符号sym并将其输出;
(b)将当前跨度range这一变量设计为符号sym的上边界与下边界的差值,从Low中减去sym的下边界得到新的Low,再用Low除以当前跨度range,得到新的Low,判断是否还有新的sym待解出,有则重新执行(2),否则执行(3);
(3)结束算术解码
如果符号体系均沿用算术编码器伪代码中的符号体系,其伪代码如下:
尽管为说明目的公开了本发明的具体实施例和附图,其目的在于帮助理解本发明的内容并据以实施,但是本领域的技术人员可以理解:在不脱离本发明及所附的权利要求的精神和范围内,各种替换、变化和修改都是可能的。因此,本发明不应局限于最佳实施例和附图所公开的内容。
Claims (10)
1.一种基于基追踪的音频无损压缩编码方法,其步骤为:
1)将输入的音频信号分帧,将每一帧信号输入稀疏编码模块;
2)稀疏编码模块利用词典中的基函数对每一帧信号进行稀疏变换,其中,采用基追踪方法从稀疏变换的结果中选取出最稀疏的一种变换方式;所述词典为将不同种类的基函数整合到一起构成的一个过完备的词典;
3)稀疏编码模块利用稀疏变换选取的最稀疏变换方式对应的基向量组合求取整型变换中需要的预测器参数和更新器参数,对该帧信号进行稀疏整型变换,得到该帧信号的稀疏系数并传递给熵编码模块;并且稀疏编码模块对该帧信号稀疏变换所产生的边信息发送给比特流形成模块;
4)熵编码模块对该帧信号的稀疏系数进行编码;比特流形成模块对该边信息进行编码;
5)码流整合模块将该帧信号的稀疏系数编码和边信息编码整合在一起作为压缩编码输出。
2.如权利要求1所述的编码方法,其特征在于所述稀疏编码模块对该帧信号进行整型变换的方法为:首先将分帧后的单帧信号x[n]分为偶序列xe[n]和奇序列xo[n];然后在预测阶段,预测滤波器利用偶序列预测奇序列,得到的误差表示高通系数;然后在更新阶段,高通系数通过一更新滤波器预测偶序列,预测的残差为低通系数;迭代地采用预测阶段和更新阶段来更新高通系数与低通系数,经过了整型变换中的所有预测阶段和更新阶段后得到的低通系数和高通系数作为该帧信号的稀疏系数;其中,根据边信息中的基向量组合信息确定迭代次数。
3.如权利要求2所述的编码方法,其特征在于在预测滤波器做误差计算前,用一个下取整的模块截断浮点数;在更新滤波器做残差计算前,用一个下取整的模块截断浮点数。
4.如权利要求1或2或3所述的编码方法,其特征在于所述边信息为包括每一级稀疏变换所输出最稀疏变换方式对应基向量组合的基向量索引结构。
5.一种基于基追踪的音频无损压缩解码方法,其步骤为:
1)比特流分流模块将收到的压缩音频文件比特流中分离出熵编码流与边信息码流,并将边信息码流解构成边信息发送给稀疏解码模块,将熵编码流发送给熵解码模块;
2)熵解码模块对收到的熵编码流进行解码得到稀疏系数;
3)稀疏解码模块通过稀疏系数和边信息恢复各帧原始信号;
4)帧合成模块将各帧原始信号依次连接起来得到原始的音频文件。
6.如权利要求5所述的解码方法,其特征在于所述稀疏解码模块通过稀疏系数和边信息恢复各帧原始信号的方法为:首先,稀疏解码模块根据边信息中的基向量组合得到预测滤波器参数、更新滤波器参数及迭代次数,然后稀疏解码模块利用稀疏系数中的细节系数信号经过更新过程与细节系数信号叠加,得到初步恢复的偶序列信号,将初步恢复的偶序列信号经过预测器后与稀疏系数中的尺度系数信号叠加,得到初步恢复的奇序列信号,反复进行上述的迭代过程直至稀疏解码模块中所有预测器和更新器都使用过之后,得到奇数点的信号和偶数点的信号,按照奇偶信号的时间顺序将其交叉排列,获得完全重构的原始信号。
7.如权利要求5或6所述的解码方法,其特征在于所述边信息为包括每一级稀疏变换所输出最稀疏变换方式对应基向量组合的基向量索引结构。
8.一种基于基追踪的音频无损压缩编码、解码系统,包括编码子系统和解码子系统;其特征在于,
所述编码子系统包括分帧模块、稀疏编码模块、熵编码模块、码流整合模块和比特流形成模块,其中,
分帧模块:用于对输入的音频信号作分帧;
稀疏编码模块:对每一帧音频信号,利用词典基函数对每一帧信号进行稀疏变换,其中,在稀疏变换中,采用基追踪方法从该级稀疏变换的结果中选取出最稀疏的一种变换方式;所述词典为将不同种类的基函数整合到一起构成的一个过完备的词典;然后利用稀疏变换中选取的最稀疏变换方式对应的基向量组合求取整型变换中需要的预测器参数和更新器参数,对该帧信号进行整型变换,得到该帧信号的稀疏系数并传递给熵编码模块;并且稀疏编码模块对该帧信号稀疏变换所产生的边信息发送给比特流形成模块;
熵编码模块:用于对稀疏系数做无损信源编码;
比特流形成模块:用于对边信息编码形成边信息码流;
码流整合模块:用于将帧信号的熵编码结果和边信息编码整合在一起作为压缩编码输出;
所述解码子系统包括比特流分离模块、稀疏解码模块、熵解码模块和帧合成模块,其中,
比特流分离模块:用于从压缩后的音频文件比特流中分别生成熵编码流和边信息码流,并将边信息码流解构成边信息发送给稀疏解码模块,将熵编码流发送给熵解码模块;
熵解码模块:用于把熵编码流通过解码重新得到稀疏系数;
稀疏解码模块:用于利用稀疏系数和边信息恢复各帧原始信号;
帧合成模块:用于将各帧原始信号依次连接起来得到原始的音频文件。
9.如权利要求8所述的系统,其特征在于所述稀疏编码模块首先将分帧后的单帧信号x[n]分为偶序列xe[n]和奇序列xo[n];然后在预测阶段,预测滤波器利用偶序列预测奇序列,得到的误差表示高通系数;然后在更新阶段,高通系数通过一更新滤波器预测偶序列,预测的残差为低通系数;迭代地采用预测阶段和更新阶段来更新高通系数与低通系数,经过了整型变换中的所有预测阶段和更新阶段后得到的低通系数和高通系数作为该帧信号的稀疏系数;其中,根据边信息中的基向量组合信息确定迭代次数。
10.如权利要求9所述的系统,其特征在于所述稀疏解码模块根据边信息中的基向量组合得到预测滤波器参数、更新滤波器参数及迭代次数,然后将稀疏系数中的细节系数信号经过更新过程与细节系数信号叠加,得到初步恢复的偶序列信号,将初步恢复的偶序列信号经过预测器后与稀疏系数中的尺度系数信号叠加,得到初步恢复的奇序列信号,反复进行上述的迭代过程直至稀疏解码模块中所有预测器和更新器都使用过之后,得到奇数点的信号和偶数点的信号,按照奇偶信号的时间顺序将其交叉排列,获得完全重构的原始信号。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201310169546.5A CN103280221B (zh) | 2013-05-09 | 2013-05-09 | 一种基于基追踪的音频无损压缩编码、解码方法及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201310169546.5A CN103280221B (zh) | 2013-05-09 | 2013-05-09 | 一种基于基追踪的音频无损压缩编码、解码方法及系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN103280221A true CN103280221A (zh) | 2013-09-04 |
CN103280221B CN103280221B (zh) | 2015-07-29 |
Family
ID=49062715
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201310169546.5A Active CN103280221B (zh) | 2013-05-09 | 2013-05-09 | 一种基于基追踪的音频无损压缩编码、解码方法及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN103280221B (zh) |
Cited By (13)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105491255A (zh) * | 2014-09-18 | 2016-04-13 | 广东世纪网通信设备有限公司 | 一种降低语音传输负载的方法及系统 |
WO2016085393A1 (en) * | 2014-11-26 | 2016-06-02 | Kelicomp Ab | Improved compression and encryption of a file |
CN105812802A (zh) * | 2014-12-29 | 2016-07-27 | 国家电网公司 | 一种基于稀疏编解码的电力大数据的压缩传输方法 |
CN106653061A (zh) * | 2016-11-01 | 2017-05-10 | 武汉大学深圳研究院 | 一种基于字典分类的音频匹配追踪装置及其追踪方法 |
CN106910508A (zh) * | 2017-01-23 | 2017-06-30 | 哈尔滨工程大学 | 一种仿海洋打桩声源的隐蔽水声通信方法 |
US9761239B2 (en) | 2014-06-24 | 2017-09-12 | Huawei Technologies Co., Ltd. | Hybrid encoding method and apparatus for encoding speech or non-speech frames using different coding algorithms |
CN108009150A (zh) * | 2017-11-28 | 2018-05-08 | 北京新美互通科技有限公司 | 一种基于循环神经网络的输入方法及装置 |
US10049683B2 (en) | 2013-10-21 | 2018-08-14 | Dolby International Ab | Audio encoder and decoder |
CN109040116A (zh) * | 2018-09-06 | 2018-12-18 | 深圳市益鑫智能科技有限公司 | 一种基于云端服务器的视频会议系统 |
CN109044781A (zh) * | 2018-09-06 | 2018-12-21 | 深圳源广安智能科技有限公司 | 一种双臂多功能治疗仪 |
CN111580772A (zh) * | 2013-10-22 | 2020-08-25 | 弗劳恩霍夫应用研究促进协会 | 用于音频设备的组合动态范围压缩和引导截断防止的构思 |
TWI750910B (zh) * | 2019-02-18 | 2021-12-21 | 慧榮科技股份有限公司 | 在儲存伺服器中進行資料壓縮管理的方法及設備 |
CN114710677A (zh) * | 2022-01-12 | 2022-07-05 | 华芯算科学技术(苏州)有限公司 | 图像压缩方法、装置、存储介质及终端 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102664021A (zh) * | 2012-04-20 | 2012-09-12 | 河海大学常州校区 | 基于语音功率谱的低速率语音编码方法 |
US20120232909A1 (en) * | 2011-03-07 | 2012-09-13 | Terriberry Timothy B | Method and system for two-step spreading for tonal artifact avoidance in audio coding |
CN102770913A (zh) * | 2009-12-23 | 2012-11-07 | 诺基亚公司 | 稀疏音频 |
-
2013
- 2013-05-09 CN CN201310169546.5A patent/CN103280221B/zh active Active
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102770913A (zh) * | 2009-12-23 | 2012-11-07 | 诺基亚公司 | 稀疏音频 |
US20120232909A1 (en) * | 2011-03-07 | 2012-09-13 | Terriberry Timothy B | Method and system for two-step spreading for tonal artifact avoidance in audio coding |
CN102664021A (zh) * | 2012-04-20 | 2012-09-12 | 河海大学常州校区 | 基于语音功率谱的低速率语音编码方法 |
Non-Patent Citations (1)
Title |
---|
高悦等: "基于线性预测分析和差分变换的语音信号压缩感知", 《电子与信息学报》 * |
Cited By (22)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US10049683B2 (en) | 2013-10-21 | 2018-08-14 | Dolby International Ab | Audio encoder and decoder |
US12051432B2 (en) | 2013-10-22 | 2024-07-30 | Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. | Concept for combined dynamic range compression and guided clipping prevention for audio devices |
CN111580772B (zh) * | 2013-10-22 | 2023-09-26 | 弗劳恩霍夫应用研究促进协会 | 用于音频设备的组合动态范围压缩和引导截断防止的构思 |
CN111580772A (zh) * | 2013-10-22 | 2020-08-25 | 弗劳恩霍夫应用研究促进协会 | 用于音频设备的组合动态范围压缩和引导截断防止的构思 |
US9761239B2 (en) | 2014-06-24 | 2017-09-12 | Huawei Technologies Co., Ltd. | Hybrid encoding method and apparatus for encoding speech or non-speech frames using different coding algorithms |
US11074922B2 (en) | 2014-06-24 | 2021-07-27 | Huawei Technologies Co., Ltd. | Hybrid encoding method and apparatus for encoding speech or non-speech frames using different coding algorithms |
US10347267B2 (en) | 2014-06-24 | 2019-07-09 | Huawei Technologies Co., Ltd. | Audio encoding method and apparatus |
CN105491255A (zh) * | 2014-09-18 | 2016-04-13 | 广东世纪网通信设备有限公司 | 一种降低语音传输负载的方法及系统 |
CN107431491A (zh) * | 2014-11-26 | 2017-12-01 | 科立康公司 | 改进的文件压缩和加密 |
US10075183B2 (en) | 2014-11-26 | 2018-09-11 | Kelicomp Ab | Compression and encryption of a file |
WO2016085393A1 (en) * | 2014-11-26 | 2016-06-02 | Kelicomp Ab | Improved compression and encryption of a file |
CN105812802A (zh) * | 2014-12-29 | 2016-07-27 | 国家电网公司 | 一种基于稀疏编解码的电力大数据的压缩传输方法 |
CN106653061A (zh) * | 2016-11-01 | 2017-05-10 | 武汉大学深圳研究院 | 一种基于字典分类的音频匹配追踪装置及其追踪方法 |
CN106910508A (zh) * | 2017-01-23 | 2017-06-30 | 哈尔滨工程大学 | 一种仿海洋打桩声源的隐蔽水声通信方法 |
CN106910508B (zh) * | 2017-01-23 | 2020-04-03 | 哈尔滨工程大学 | 一种仿海洋打桩声源的隐蔽水声通信方法 |
CN108009150A (zh) * | 2017-11-28 | 2018-05-08 | 北京新美互通科技有限公司 | 一种基于循环神经网络的输入方法及装置 |
CN109040116B (zh) * | 2018-09-06 | 2020-03-27 | 广州宏途教育网络科技有限公司 | 一种基于云端服务器的视频会议系统 |
CN109044781A (zh) * | 2018-09-06 | 2018-12-21 | 深圳源广安智能科技有限公司 | 一种双臂多功能治疗仪 |
CN109040116A (zh) * | 2018-09-06 | 2018-12-18 | 深圳市益鑫智能科技有限公司 | 一种基于云端服务器的视频会议系统 |
TWI750910B (zh) * | 2019-02-18 | 2021-12-21 | 慧榮科技股份有限公司 | 在儲存伺服器中進行資料壓縮管理的方法及設備 |
CN114710677A (zh) * | 2022-01-12 | 2022-07-05 | 华芯算科学技术(苏州)有限公司 | 图像压缩方法、装置、存储介质及终端 |
CN114710677B (zh) * | 2022-01-12 | 2023-07-18 | 华芯算科学技术(苏州)有限公司 | 图像压缩方法、装置、存储介质及终端 |
Also Published As
Publication number | Publication date |
---|---|
CN103280221B (zh) | 2015-07-29 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN103280221A (zh) | 一种基于基追踪的音频无损压缩编码、解码方法及系统 | |
CN101944362B (zh) | 一种基于整形小波变换的音频无损压缩编码、解码方法 | |
Gersho et al. | Vector quantization and signal compression | |
CN101815992B (zh) | 编码和/或解码数字内容 | |
CN102368385B (zh) | 后向块自适应Golomb-Rice编解码方法及装置 | |
RU2522020C1 (ru) | Способ и система иерархического кодирования и декодирования звуковой частоты, способ иерархического кодирования и декодирования частоты для переходного сигнала | |
KR100561869B1 (ko) | 무손실 오디오 부호화/복호화 방법 및 장치 | |
CN101796578B (zh) | 用于语音和音频译码应用的mdct/imdct滤波器组的有效设计 | |
CN103067022A (zh) | 一种整型数据无损压缩方法、解压缩方法及装置 | |
CN107135004B (zh) | 一种对地震数据流的自适应实时无损压缩方法 | |
CN101420231A (zh) | 编码方法和装置、以及程序 | |
CN104217726A (zh) | 一种无损音频压缩编码方法及其解码方法 | |
CN103946918A (zh) | 语音信号编码方法、语音信号解码方法及使用其的装置 | |
Kumar et al. | The optimized wavelet filters for speech compression | |
CN102982807B (zh) | 用于对语音信号lpc系数进行多级矢量量化的方法和系统 | |
CN104751850B (zh) | 一种用于音频信号的矢量量化编解码方法及装置 | |
CN104392725A (zh) | 多声道无损音频混合编解码方法及装置 | |
EP4099573B1 (en) | Encoder, decoder, encoding method, decoding method and program | |
James et al. | A comparative study of speech compression using different transform techniques | |
Al-Azawi et al. | Compression of Audio Using Transform Coding. | |
WO2024011417A1 (zh) | 编解码方法、解码器、编码器及计算机可读存储介质 | |
Das | ByteZip: Efficient Lossless Compression for Structured Byte Streams Using DNNs | |
Dhubkarya et al. | HIGH QUALITY AUDIO CODING AT LOW BIT RATE USING WAVELET AND WAVELET PACKET TRANSFORM. | |
Kanawade et al. | Tree structured vector quantization based technique for speech compression | |
Shoham | Variable-size vector entropy coding of speech and audio |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
C14 | Grant of patent or utility model | ||
GR01 | Patent grant |