CN110830044A - 基于稀疏最小二乘优化的数据压缩方法 - Google Patents
基于稀疏最小二乘优化的数据压缩方法 Download PDFInfo
- Publication number
- CN110830044A CN110830044A CN201911058779.1A CN201911058779A CN110830044A CN 110830044 A CN110830044 A CN 110830044A CN 201911058779 A CN201911058779 A CN 201911058779A CN 110830044 A CN110830044 A CN 110830044A
- Authority
- CN
- China
- Prior art keywords
- vector
- original
- sparse
- matrix
- code book
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Classifications
-
- H—ELECTRICITY
- H03—ELECTRONIC CIRCUITRY
- H03M—CODING; DECODING; CODE CONVERSION IN GENERAL
- H03M7/00—Conversion of a code where information is represented by a given sequence or number of digits to a code where the same, similar or subset of information is represented by a different sequence or number of digits
- H03M7/30—Compression; Expansion; Suppression of unnecessary data, e.g. redundancy reduction
- H03M7/3082—Vector coding
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D30/00—Reducing energy consumption in communication networks
- Y02D30/70—Reducing energy consumption in communication networks in wireless communication networks
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Compression, Expansion, Code Conversion, And Decoders (AREA)
Abstract
本发明公开了一种基于稀疏最小二乘优化的数据压缩方法,包括以下步骤:S1.获取信号数据集,对获取的信号序列进行分组,每组形成一个原始矢量,原始矢量的集合为初始码书;S2.确定与原始矢量对应的参数矢量,具体为:采用坐标下降法优化稀疏最小二乘法中的参数矢量,并使用最小二乘法对参数矢量进一步优化;S3.在初始码书中检索得到与原始矢量匹配的码字,所得码字的集合为最终码书;S4.获取所有与原始矢量匹配的码字在初始码书中的索引值;S5.打包最终码书和所有与原始矢量匹配的码字在初始码书中的索引值。本发明提供的方法在信息保存方面性能更好,信息丢失少,量化结果准确度高,运行时间大大缩短,且与基于聚类的算法相比,相对独立于随机种子。
Description
技术领域
本发明涉及数据压缩领域,具体是基于稀疏最小二乘优化的数据压缩方法。
背景技术
矢量量化是一种极其重要的信号压缩方法,通过压缩接近原始值的组合来形成新的矢量/矩阵,它能在可接受的信息损失前提下压缩数据,在图像处理、语音识别和机器学习等领域具有很大的实用性。矢量量化的基本思想是将若干个标量数据组构成一个矢量,然后在矢量空间给以整体量化,从而压缩了数据而不损失多少信息。近年来,由于矢量量化在神经网络的应用中具有巨大的潜力,矢量量化的重要性日益凸显。
矢量量化编码器根据一定的失真测度在码书中搜索出与原始矢量之间失真最小的码字。传输时仅传输该码字的索引,这里就体现了矢量量化对数据压缩性能。矢量量化的解码过程是一个简单的查表操作,即根据接收到的码字索引在码书中查找相应的码矢量,并将它作为输入矢量的构造矢量。矢量量化编码过程是指输入矢量与码字的模式匹配过程,模式匹配的一个关键问题是矢量间的偏差的度量,一般使用失真度来表征原始矢量和构造矢量间的偏差,一般来说,失真越小,压缩系统性能越好。矢量量化关键技术是码书设计(生成)、码字搜索和码字索引分配,其中最重要的一点就是如何设计出性能优良的码书,这是整个矢量量化器设计成功与否的关键,是决定矢量量化器性能的主要因素。
码书的生成方式有多种,传统的矢量量化方法通常使用基于域的手工编码技术和/或基于聚类的方法,如均匀量化、对数量化和K均值聚类量化等。均匀量化是指把输入信号的取值域等间隔分割的量化称为均匀量化,其特点是各量化区间的宽度相同,均匀量化的好处就是编解码的很容易,但要达到相同的信噪比占用的带宽要大;对数量化是指在发送端将输入信号通过一对数放大器,对信号幅度非线性压缩,然后进行均匀量化、编码,在接收端进行反变换,通过反对数放大器.对信号幅度进行非线性扩张,以恢复原信号;K均值聚类算法的基本思想是以空间中k个点为中心进行聚类,对最靠近他们的对象归类,通过迭代的方法,逐次更新各聚类中心的值,直至得到最好的聚类结果,K均值聚类算法用初始随机种子点选择初始聚类中心,对初始码书敏感,由于随机选择初始质心,所以可能两次聚类结果完全不同;基于手工编码的域规则量化在遇到复杂分布的数据时结果不好,而基于聚类的算法存在时间消耗大、对随机种子依赖性强的问题。
在实际应用中传统的矢量量化方法经常会遇到以下几个问题:1、由于初始化失误造成的空类或其他异常结果。2、量化结果不稳定。3、运算量巨大,耗时高。
发明内容
本发明的目的在于克服现有技术量化结果不稳定、耗时高的不足,提供了一种基于稀疏最小二乘优化的数据压缩方法,时间短,结果更准确,且与基于聚类的算法相比,本发明的方法相对独立于随机种子。
本发明的目的主要通过以下技术方案实现:
基于稀疏最小二乘优化的数据压缩方法,所述数据压缩方法包括以下步骤:
S1.获取信号数据集,对获取的信号序列进行分组,每组形成一个原始矢量,原始矢量的集合为初始码书;
S2.确定与原始矢量对应的参数矢量,具体为:采用坐标下降法优化稀疏最小二乘法中的参数矢量,并使用最小二乘法对参数矢量进一步优化;
S3.在初始码书中检索得到与原始矢量匹配的码字,所得码字的集合为最终码书;
S4.获取所有与原始矢量匹配的码字在初始码书中的索引值;
S5.打包最终码书和所有与原始矢量匹配的码字在初始码书中的索引值。
最小二乘法是一种数学优化技术,通过最小化误差的平方和寻找数据的最佳函数匹配。与均匀量化、对数量化的量化方法相比,本发明S2的数据压缩方法在信息保存方面性能更好,信息丢失少,量化结果准确度高,且运行时间大大缩短,尤其是在处理大批量数据时具有更好的优化性能,由于采用了基于稀疏优化的量化方法,因此可以在相对短的时间内完成数学优化的过程,从而缩减时间;聚类方法由于采取欧氏空间内的基于几何距离的优化,受随机种子影响较大,两次不同的随机初始值可以产生不同的结果,与聚类量化方法相比,本发明S2采用稀疏最小二乘优化参数矢量,其结果在坐标下降法的支持下更加稳定,相对独立于随机种子;可见,本发明的数据压缩方法能够减小原始矢量与构造矢量之间的偏差,进一步提高矢量量化的效果,时间短,结果更准确,且与基于聚类的算法相比,本发明的方法相对独立于随机种子。
本发明中:S1通过对输入的信号进行分组,获得原始矢量和初始码书;S2中参数矢量是用来表示原始矢量与构造矢量之间的偏差,通过采用坐标下降法优化稀疏最小二乘法中参数矢量并使用最小二乘法对参数矢量进一步优化,能获得最优的参数矢量,该参数矢量下原始矢量与构造矢量之间的偏差最小,使用坐标下降法可以保证全局收敛,且速度较快。
需要进一步说明的是,本发明可应用于图像处理、语音识别和机器学习等领域,S1获取的信号数据集种类可以为数字图像信号,数字语音信号等;本发明S1还包括设置最大迭代次数和失真阈值;S4具体为将获得的最终码本作为初始码本重复S1-S3的过程,直至累计迭代次数达到设定的最大迭代次数,或最近两次参数矢量的相对误差小于设置的失真阈值,获取所有与原始矢量失真最小的码字在最开始的初始码书中的索引值;优选的,本发明的原始矢量为一维矢量形式,如果数据被编码在一个矩阵中,比如神经网络参数和图像,那么可以简单地将矩阵“展平”成一个矢量来执行矢量量化,然后将其恢复到原来的形状。
进一步的,所述S2包含以下步骤:
S2.1.将原始矢量ω改为采用坐标下降法优化稀疏最小二乘法中的参数矢量α,参数矢量α的优化公式如下:其中,Np为基变换矩阵,v为形状为[k×1]的基矢量,k是一个给定的正整数,原始矢量ω有m个不同值,k≥m,由v线性变换生成,λ是控制稀疏程度的参数;
本发明S2.1中通过λ控制稀疏程度,即压缩后数值的数量,原则上更大的λ会带来更强的压缩比例,但相应的也会有质量下降的劣势,本领域技术人员能根据实际压缩需要选择λ值。
需要进一步说明的是,S2.1中将原始矢量ω改为即为取向量ω中数值不同的元素这样可以避免重复运算,降低运算量和硬件资源消耗;S2.1采用坐标下降法完成参数矢量α的优化公式的求解;S2.2具体为索引Np矩阵中对应非零α值的行得到Np *,即Np *矩阵选取α中具有相应非零索引的列为下一步精确对应的α做准备,然后精确化非零参数矢量的值,使得量化后的数据与原数据更为接近;S2.3将中的非零参数矢量放回带零的参数矢量中,即精确化后的非零参数矢量的值构成的向量,α*即将精确化后的非零参数矢量放回/替代后的新参数矢量。
当k>m时,Ψ矩阵中的一部分列保留为0,并将其秩保持为m。
本发明通过两个矩阵A和Ψ来控制构造的矢量,通过矩阵的构造使得相应的数值优化得以引入稀疏特征,故而具备了压缩/量化的能力。
需要进一步说明的是,发明中使用矩阵A构建的优化目标在进行一定的形式变换后,会成为Np *矩阵和α向量的形式,这是想要带入稀疏信息所必须的;所述矩阵A中α1、α2…αn为参数矢量α的元素,矩阵中每个α为对应索引的数值,即α的第i=1,2,3…n个元素,索引过程即在第i个位置上取值。
进一步的,所述S3中的检索过程为将参数矢量与基变换矩阵相乘获得构造矢量,所得构造矢量在初始码书中对应的码字为与原始矢量匹配的码字。
本发明使用基变换矩阵Np和参数矢量得到量化后的压缩数据,具体为ω*=Npα*,完成技术的工程目的,得到量化后的压缩数据,再检索得到构造矢量在初始码书中对应的码字。
需要进一步说明的是,本发明得到的构造矢量有p个不同的值,p≤m。
综上所述,本发明与现有技术相比具有以下有益效果:本发明提供的数据压缩方法能够减小原始矢量与构造矢量之间的偏差,进一步提高矢量量化的效果,在信息保存方面性能更好,信息丢失少,量化结果准确度高,运行时间大大缩短,且与基于聚类的算法相比,本发明的方法相对独立于随机种子。
附图说明
此处所说明的附图用来提供对本发明实施例的进一步理解,构成本申请的一部分,并不构成对本发明实施例的限定。在附图中:
图1为本发明实施例的基于稀疏最小二乘优化的数据压缩方法的流程图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚明白,下面结合实施例和附图,对本发明作进一步的详细说明,本发明的示意性实施方式及其说明仅用于解释本发明,并不作为对本发明的限定。
实施例:
如图1所示,本实施例提供一种基于稀疏最小二乘优化的数据压缩方法,包括以下步骤:
S1.获取信号数据集,对获取的信号序列进行分组,每组形成一个原始矢量,原始矢量的集合为初始码书;
S2.确定与原始矢量对应的参数矢量,具体为:采用坐标下降法优化稀疏最小二乘法中的参数矢量,并使用最小二乘法对参数矢量进一步优化;
S3.在初始码书中检索得到与原始矢量匹配的码字,所得码字的集合为最终码书;S3的检索过程为将参数矢量与基变换矩阵相乘获得构造矢量,所得构造矢量在初始码书中对应的码字为与原始矢量匹配的码字;
S4.获取所有与原始矢量匹配的码字在初始码书中的索引值;
S5.打包最终码书和所有与原始矢量匹配的码字在初始码书中的索引值。
优选的,本实施例S1还包括设置最大迭代次数和失真阈值;S4具体为将获得的最终码本作为初始码本重复S1-S3的过程,直至累计迭代次数达到设定的最大迭代次数,或最近两次参数矢量的相对误差小于设置的失真阈值,获取所有与原始矢量失真最小的码字在最开始的初始码书中的索引值。
优选的,本实施例基变换矩阵如下:
其中v为形状为[k×1]的基矢量,k是一个给定的正整数,k≥m,m为原始矢量中不同值的个数。
优选的,本实施例S2具体步骤及计算过程如下:
S2.1.将原始矢量ω改为采用坐标下降法优化稀疏最小二乘法中的参数矢量α,参数矢量α的优化公式如下:其中:k是一个给定的正整数;由v线性变换生成,ω为原始矢量;有m个不同值,k≥m,λ是控制稀疏程度的参数。
当k>m时,Ψ矩阵中的一部分列保留为0,并将其秩保持为m。
S2.3.将S2.2中的公式求解得到如下公式:
S3中构造矢量的计算公式为:ω*=Npα*,ω*为构造矢量。
将本实施例提供的数据压缩方法与现有技术对神经网络全连通层权矩阵、MNIST图像两种数据类型进行了对比试验,具体试验结果如下:
1、神经网络全连通层权矩阵数据
针对用于MNIST图像识别的全连通神经网络,网络采用随机梯度下降训练,在最后一层分别使用K均值聚类算法和本实施例提供的数据压缩方法处理,最终结果显示采用本实施例使提供的数据压缩方法算法的精度高于K均值聚类算法,且运行时间保持在较低水平。
2、MNIST图像数据
对一幅MNIST数字图像使用S2.1中没有稀疏最小二乘优化的参数矢量α进行量化。将处理结果与本实施例提供的数据压缩方法处理结果对比,最终结果显示本实施例提供的数据压缩方法信息保存方面性能更好,信息丢失少,量化结果准确度高,且运行时间大大缩短,尤其是在处理大批量数据时具有更好的优化性能。
以上所述的具体实施方式,对本发明的目的、技术方案和有益效果进行了进一步详细说明,所应理解的是,以上所述仅为本发明的具体实施方式而已,并不用于限定本发明的保护范围,凡在本发明的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
Claims (6)
1.基于稀疏最小二乘优化的数据压缩方法,其特征在于,所述数据压缩方法包括以下步骤:
S1.获取信号数据集,对获取的信号序列进行分组,每组形成一个原始矢量,原始矢量的集合为初始码书;
S2.确定与原始矢量对应的参数矢量,具体为:采用坐标下降法优化稀疏最小二乘法中的参数矢量,并使用最小二乘法对参数矢量进一步优化;
S3.在初始码书中检索得到与原始矢量匹配的码字,所得码字的集合为最终码书;
S4.获取所有与原始矢量匹配的码字在初始码书中的索引值;
S5.打包最终码书和所有与原始矢量匹配的码字在初始码书中的索引值。
2.如权利要求1所述的基于稀疏最小二乘优化的数据压缩方法,其特征在于,所述S2包含以下步骤:
hj表示第j个不为零的数值,表示α中第hj个对应的数值;
S2.3.将S2.2中的公式求解得到如下公式:
4.如权利要求3所述的基于稀疏最小二乘优化的数据压缩方法,其特征在于,所述Ψ*=AΨ,其中,Ψ*是Ψ的伴随矩阵,矩阵A包含了稀疏优化的信息,矩阵A中每个α为对应索引的数值。
5.如权利要求1所述的基于稀疏最小二乘优化的数据压缩方法,其特征在于,所述S3中的检索过程为将参数矢量与基变换矩阵相乘获得构造矢量,所得构造矢量在初始码书中对应的码字为与原始矢量匹配的码字。
6.如权利要求5所述的基于稀疏最小二乘优化的数据压缩方法,其特征在于,所述基变换矩阵如下:
其中v为形状为[k×1]的基矢量,k是一个给定的正整数,k≥m,m为原始矢量中不同值的个数。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911058779.1A CN110830044B (zh) | 2019-11-01 | 2019-11-01 | 基于稀疏最小二乘优化的数据压缩方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911058779.1A CN110830044B (zh) | 2019-11-01 | 2019-11-01 | 基于稀疏最小二乘优化的数据压缩方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN110830044A true CN110830044A (zh) | 2020-02-21 |
CN110830044B CN110830044B (zh) | 2023-04-18 |
Family
ID=69552188
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201911058779.1A Active CN110830044B (zh) | 2019-11-01 | 2019-11-01 | 基于稀疏最小二乘优化的数据压缩方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110830044B (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116450592A (zh) * | 2022-12-30 | 2023-07-18 | 湖北华数新一代智能数控系统创新中心有限公司 | 一种基于工业大数据特征的工况自适应压缩方法及系统 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2007046060A2 (en) * | 2005-10-21 | 2007-04-26 | Nokia Corporation | Compression and decompression of data vectors |
EP2383700A1 (en) * | 2010-04-28 | 2011-11-02 | Solomon Systech Limited | System and method for image compression |
CN103023510A (zh) * | 2012-11-16 | 2013-04-03 | 浙江大学 | 一种基于稀疏表达的运动数据压缩方法 |
CN103124179A (zh) * | 2013-01-14 | 2013-05-29 | 江苏大学 | 基于正交匹配追踪的电力系统数据重构解压缩方法 |
CN108256651A (zh) * | 2013-06-28 | 2018-07-06 | D-波系统公司 | 用于对数据进行量子处理的方法 |
-
2019
- 2019-11-01 CN CN201911058779.1A patent/CN110830044B/zh active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2007046060A2 (en) * | 2005-10-21 | 2007-04-26 | Nokia Corporation | Compression and decompression of data vectors |
EP2383700A1 (en) * | 2010-04-28 | 2011-11-02 | Solomon Systech Limited | System and method for image compression |
CN103023510A (zh) * | 2012-11-16 | 2013-04-03 | 浙江大学 | 一种基于稀疏表达的运动数据压缩方法 |
CN103124179A (zh) * | 2013-01-14 | 2013-05-29 | 江苏大学 | 基于正交匹配追踪的电力系统数据重构解压缩方法 |
CN108256651A (zh) * | 2013-06-28 | 2018-07-06 | D-波系统公司 | 用于对数据进行量子处理的方法 |
Non-Patent Citations (2)
Title |
---|
王清等: ""基于自适应标量—矢量量化的IQ数据压缩算法"" * |
王瑶等: ""基于最小二乘法的变电站监控信号压缩与优化策略"" * |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116450592A (zh) * | 2022-12-30 | 2023-07-18 | 湖北华数新一代智能数控系统创新中心有限公司 | 一种基于工业大数据特征的工况自适应压缩方法及系统 |
CN116450592B (zh) * | 2022-12-30 | 2024-01-02 | 湖北华数新一代智能数控系统创新中心有限公司 | 一种基于工业大数据特征的工况自适应压缩方法及系统 |
Also Published As
Publication number | Publication date |
---|---|
CN110830044B (zh) | 2023-04-18 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Chang et al. | A fast LBG codebook training algorithm for vector quantization | |
CN108304928A (zh) | 基于改进聚类的深度神经网络的压缩方法 | |
KR101958939B1 (ko) | 벡터 양자화의 혼합에 기초한 부호화 방법 및 이를 이용한 최근접 이웃 검색(nns) 방법 | |
US5444488A (en) | Method and apparatus for coding digital data using vector quantizing techniques | |
KR101083291B1 (ko) | 벡터 양자화를 위한 방법 및 장치 | |
JP5584203B2 (ja) | 数値データの処理方法 | |
CN110830044B (zh) | 基于稀疏最小二乘优化的数据压缩方法 | |
CN115861767A (zh) | 一种用于图像分类的神经网络联合量化方法 | |
CN107170020A (zh) | 基于最小量化误差准则的字典学习静态图像有损压缩方法 | |
CN111523637A (zh) | 一种信息保留网络的生成方法及装置 | |
CN101467459A (zh) | 受约束的矢量量化 | |
Cao et al. | A fast search algorithm for vector quantization using a directed graph | |
KR101577848B1 (ko) | 규칙적인 지점의 네트워크에서 벡터를 카운팅하는 방법 | |
CN110771045B (zh) | 编码装置、解码装置、编码方法、解码方法、以及记录介质 | |
KR101461840B1 (ko) | 낮은 복잡도의 타깃 벡터 식별 | |
CN113708772A (zh) | 一种哈夫曼编码方法、系统、装置及可读存储介质 | |
CN108734191B (zh) | 深度学习应用于压缩感知重建的数据训练方法 | |
CN116073836B (zh) | 基于列子集选择的游戏数据压缩方法 | |
CN115761020B (zh) | 一种基于神经网络自动构建的影像数据压缩方法 | |
CN117972323A (zh) | 一种低秩张量数据压缩和缺失值恢复的方法及系统 | |
CN114781604B (zh) | 神经网络权重参数的编码方法、编码器及神经网络处理器 | |
Berg et al. | An efficient structure and algorithm for the mixed transform representation of signals | |
CN116701746A (zh) | 查询感知量化方法 | |
Lee et al. | Dynamic finite state VQ of colour images using stochastic learning | |
Begum et al. | An efficient wavelet-VQ method for image coding |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |