CN107977468B - 一种稀疏型数据文件的传输方法及系统 - Google Patents

一种稀疏型数据文件的传输方法及系统 Download PDF

Info

Publication number
CN107977468B
CN107977468B CN201711399776.5A CN201711399776A CN107977468B CN 107977468 B CN107977468 B CN 107977468B CN 201711399776 A CN201711399776 A CN 201711399776A CN 107977468 B CN107977468 B CN 107977468B
Authority
CN
China
Prior art keywords
compressed
data file
matrix
sparse data
eigenvectors
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201711399776.5A
Other languages
English (en)
Other versions
CN107977468A (zh
Inventor
夏德兴
王欣洁
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shenzhen Zhongzhi economic and Technical Cooperation Co.,Ltd.
Original Assignee
Shenzhen Zhongzhi Economic And Technical Cooperation Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shenzhen Zhongzhi Economic And Technical Cooperation Co ltd filed Critical Shenzhen Zhongzhi Economic And Technical Cooperation Co ltd
Priority to CN201711399776.5A priority Critical patent/CN107977468B/zh
Publication of CN107977468A publication Critical patent/CN107977468A/zh
Application granted granted Critical
Publication of CN107977468B publication Critical patent/CN107977468B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/10File systems; File servers
    • G06F16/17Details of further file system functions
    • G06F16/174Redundancy elimination performed by the file system
    • G06F16/1744Redundancy elimination performed by the file system using compression, e.g. sparse files
    • HELECTRICITY
    • H03ELECTRONIC CIRCUITRY
    • H03MCODING; DECODING; CODE CONVERSION IN GENERAL
    • H03M7/00Conversion of a code where information is represented by a given sequence or number of digits to a code where the same, similar or subset of information is represented by a different sequence or number of digits
    • H03M7/30Compression; Expansion; Suppression of unnecessary data, e.g. redundancy reduction
    • H03M7/40Conversion to or from variable length codes, e.g. Shannon-Fano code, Huffman code, Morse code

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)

Abstract

本发明公开了一种稀疏型数据文件的传输方法及系统,用以解决现有技术对于稀疏型数据文件的传输速度较慢,带宽浪费严重的问题。该方法包括:判断当前数据文件是否为稀疏型数据文件,若是,对所述稀疏型数据文件进行奇异值分解以获得特征向量;对所述特征向量进行二进制符号的压缩以生成压缩特征向量及压缩奇异值;传输所述压缩特征向量及所述压缩奇异值。本发明通过对稀疏型数据文件进行奇异值分解获得特征向量,传输压缩后的特征向量和奇异值,提高了传输速度,节约了带宽。

Description

一种稀疏型数据文件的传输方法及系统
技术领域
本发明涉及数据传输技术领域,尤其涉及一种稀疏型数据文件的传输方法及系统。
背景技术
稀疏文件是UNIX类和NTFS等文件系统的一个特性。
开始时,一个稀疏文件不包含用户数据,也没有分配到用来存储用户数据的磁盘空间。当数据被写入稀疏文件时,NTFS逐渐地为其分配磁盘空间。一个稀疏文件有可能增长得很大。稀疏文件以64KB(不同文件系统不同)为单位增量增长,因此磁盘上稀疏文件的大小总是64KB的倍数。
稀疏文件就是在文件中留有很多空余空间,留备将来插入数据使用。如果这些空余空间被ASCI I码的NULL字符占据,并且这些空间相当大,那么,这个文件就被称为稀疏文件,而且,并不分配相应的磁盘块。
在计算机科学方面,稀疏文件是文件系统中的一种文件存储方式,在创建一个文件的时候,就预先分配了文件需要的连续存储空间,其空间内部大多都还未被数据填充现在有很多文件系统都支持稀疏文件,包括大部分的Unix和NTFS。稀疏文件被普遍用来磁盘镜像,数据库快照,日志文件,还有其他科学运用上。
现有技术对于稀疏型文件数据采用二进制符号的压缩方式后进行传输,文件的恢复速度比较慢。并且文件大,传输和存储都占用了较大的资源,带宽浪费现象十分严重。
发明内容
本发明要解决的技术问题目的在于提供一种稀疏型数据文件的传输方法及系统,用以解决现有技术对于稀疏型数据文件的传输速度较慢,带宽浪费严重的问题。
为了实现上述目的,本发明采用的技术方案为:
一种稀疏型数据文件的传输方法,包括步骤:
判断当前数据文件是否为稀疏型数据文件,若是,对所述稀疏型数据文件进行奇异值分解以获得特征向量;
对所述特征向量进行二进制符号的压缩以生成压缩特征向量及压缩奇异值;
传输所述压缩特征向量及所述压缩奇异值。
进一步地,所述对所述稀疏型数据文件进行奇异值分解以获得特征向量的步骤具体包括:
假设一个大小为m×n的矩阵A,AAT=PA1PT,ATA=QA2QT,则所述矩阵A的奇异值分解为:
A=P∑QT
其中,矩阵
Figure GDA0003198564670000021
的大小为m×m,列向量
Figure GDA0003198564670000022
是AAT的特征向量;矩阵
Figure GDA0003198564670000023
的大小为n×n;矩阵∑的大小为m×n,位于对角线上的元素为奇异值。
进一步地,所述对所述特征向量进行二进制符号的压缩以生成压缩特征向量及压缩奇异值的步骤具体包括:
通过哈夫曼编码对所述特征向量进行二进制符号的压缩。
一种稀疏型数据文件的传输系统,包括:
分解模块,用于判断当前数据文件是否为稀疏型数据文件,若是,对所述稀疏型数据文件进行奇异值分解以获得特征向量;
压缩模块,用于对所述特征向量进行二进制符号的压缩以生成压缩特征向量及压缩奇异值;
传输模块,用于传输所述压缩特征向量及所述压缩奇异值。
进一步地,所述分解模块具体包括:
假设一个大小为m×n的矩阵A,AAT=PA1PT,ATA=QA2QT,则所述矩阵A的奇异值分解为:
A=P∑QT
其中,矩阵
Figure GDA0003198564670000031
的大小为m×m,列向量
Figure GDA0003198564670000032
是AAT的特征向量;矩阵
Figure GDA0003198564670000033
的大小为n×n;矩阵∑的大小为m×n,位于对角线上的元素为奇异值。
进一步地,所述压缩模块具体包括:
编码单元,用于通过哈夫曼编码对所述特征向量进行二进制符号的压缩。
本发明与传统的技术相比,有如下优点:
本发明通过对稀疏型数据文件进行奇异值分解获得特征向量,传输压缩后的特征向量和奇异值,提高了传输速度,节约了带宽。
附图说明
图1是实施例一提供的一种稀疏型数据文件的传输方法流程图;
图2是实施例二提供的一种稀疏型数据文件的传输系统结构图。
具体实施方式
以下是本发明的具体实施例并结合附图,对本发明的技术方案作进一步的描述,但本发明并不限于这些实施例。
实施例一
本实施例提供了一种稀疏型数据文件的传输方法,如图1所示,包括步骤:
S11:判断当前数据文件是否为稀疏型数据文件,若是,对稀疏型数据文件进行奇异值分解以获得特征向量;
S12:对特征向量进行二进制符号的压缩以生成压缩特征向量以及压缩奇异值;
S13:传输压缩特征向量及压缩奇异值。
本实施例通过对稀疏数据文件的奇异值分解,获得特征向量,再进行二进制符号的压缩,得到压缩特征向量及压缩奇异值。通过压缩特征向量机压缩奇异值传输,相比现有技术,节约大量带宽,并且提高了传输速度。
本实施例中,步骤S11为判断当前数据文件是否为稀疏型数据文件,若是,对稀疏型数据文件进行奇异值分解以获得特征向量。
其中,对稀疏型数据文件进行奇异值分解以获得特征向量的步骤具体包括:
假设一个大小为m×n的矩阵A,AAT=PA1PT,ATA=QA2QT,则所述矩阵A的奇异值分解为:
A=P∑QT
其中,矩阵
Figure GDA0003198564670000051
的大小为m×m,列向量
Figure GDA0003198564670000052
是AAT的特征向量;矩阵
Figure GDA0003198564670000053
的大小为n×n;矩阵∑的大小为m×n,位于对角线上的元素为奇异值。
具体的,先判断当前的数据文件是否为稀疏型数据文件,若是,则先对稀疏文件进行奇异值分解,获得特征向量。
奇异值是矩阵里的概念,一般通过奇异值分解定理求得。设A为m*n阶矩阵,q=min(m,n),A*A的q个非负特征值的算术平方根叫作A的奇异值。奇异值分解是线性代数和矩阵论中一种重要的矩阵分解法,适用于信号处理和统计学等领域。奇异值分解是线性代数中一种重要的矩阵分解,是矩阵分析中正规矩阵酉对角化的推广。在信号处理、统计学等领域有重要应用。奇异值分解则是谱分析理论在任意矩阵上的推广。
本实施例通过上述公式获得特征向量。
本实施例中,步骤S12为对特征向量进行二进制符号的压缩以生成压缩特征向量及压缩奇异值。
其中,步骤S12具体包括:
通过哈夫曼编码对特征向量进行二进制符号的压缩。
具体的,由奇异值分解得到特征向量后,对获得的特征向量进行二进制符号的压缩。传统方式是直接对稀疏型数据文件进行压缩,文件恢复的速度比较慢。本实施例通过对奇异值和特征向量压缩,文件恢复的速度大幅度提高。
哈夫曼编码又称霍夫曼编码,是一种编码方式,哈夫曼编码是可变字长编码(VLC)的一种。哈夫曼于1952年提出一种编码方法,该方法完全依据字符出现概率来构造异字头的平均长度最短的码字,有时称之为最佳编码,一般就叫做哈夫曼编码(有时也称为霍夫曼编码)。通过该压缩方式,能够节约传输空间,提高传输效率。
本实施例中,步骤S13为传输压缩特征向量及压缩奇异值。
具体的,将压缩特征向量机压缩奇异值进行传输,相比传统的传输方式,提高了传输效率,节约传输带宽。并且,文件恢复的速度快。
本实施例通过对稀疏型数据文件进行奇异值分解获得特征向量,传输压缩后的特征向量和奇异值,提高了传输速度,节约了带宽。
实施例二
本实施例提供了一种稀疏型数据文件的传输系统,如图2所示,包括:
分解模块21,用于判断当前数据文件是否为稀疏型数据文件,若是,对稀疏型数据文件进行奇异值分解以获得特征向量;
压缩模块22,用于对特征向量进行二进制符号的压缩以生成压缩特征向量以及压缩奇异值;
传输模块23,用于传输压缩特征向量及压缩奇异值。
本实施例通过对稀疏数据文件的奇异值分解,获得特征向量,再进行二进制符号的压缩,得到压缩特征向量及压缩奇异值。通过压缩特征向量机压缩奇异值传输,相比现有技术,节约大量带宽,并且提高了传输速度。
本实施例中,分解模块21用于判断当前数据文件是否为稀疏型数据文件,若是,对稀疏型数据文件进行奇异值分解以获得特征向量。
其中,分解模块21具体包括:
假设一个大小为m×n的矩阵A,AAT=PA1PT,ATA=QA2QT,则所述矩阵A的奇异值分解为:
A=P∑QT
其中,矩阵
Figure GDA0003198564670000071
的大小为m×m,列向量
Figure GDA0003198564670000072
是AAT的特征向量;矩阵
Figure GDA0003198564670000073
的大小为n×n;矩阵∑的大小为m×n,位于对角线上的元素为奇异值。
具体的,先判断当前的数据文件是否为稀疏型数据文件,若是,则先对稀疏文件进行奇异值分解,获得特征向量。
奇异值是矩阵里的概念,一般通过奇异值分解定理求得。设A为m*n阶矩阵,q=min(m,n),A*A的q个非负特征值的算术平方根叫作A的奇异值。奇异值分解是线性代数和矩阵论中一种重要的矩阵分解法,适用于信号处理和统计学等领域。奇异值分解是线性代数中一种重要的矩阵分解,是矩阵分析中正规矩阵酉对角化的推广。在信号处理、统计学等领域有重要应用。奇异值分解则是谱分析理论在任意矩阵上的推广。
本实施例通过上述公式获得特征向量。
本实施例中,压缩模块22用于对特征向量进行二进制符号的压缩以生成压缩特征向量及压缩奇异值。
其中,压缩模块22具体包括:
通过哈夫曼编码对特征向量进行二进制符号的压缩。
具体的,由奇异值分解得到特征向量后,对获得的特征向量进行二进制符号的压缩。传统方式是直接对稀疏型数据文件进行压缩,文件恢复的速度比较慢。本实施例通过对奇异值和特征向量压缩,文件恢复的速度大幅度提高。
哈夫曼编码又称霍夫曼编码,是一种编码方式,哈夫曼编码是可变字长编码(VLC)的一种。哈夫曼于1952年提出一种编码方法,该方法完全依据字符出现概率来构造异字头的平均长度最短的码字,有时称之为最佳编码,一般就叫做哈夫曼编码(有时也称为霍夫曼编码)。通过该压缩方式,能够节约传输空间,提高传输效率。
本实施例中,传输模块23用于传输压缩特征向量及压缩奇异值。
具体的,将压缩特征向量机压缩奇异值进行传输,相比传统的传输方式,提高了传输效率,节约传输带宽。并且,文件恢复的速度快。
本实施例通过对稀疏型数据文件进行奇异值分解获得特征向量,传输压缩后的特征向量和奇异值,提高了传输速度,节约了带宽。
本文中所描述的具体实施例仅仅是对本发明精神作举例说明。本发明所属技术领域的技术人员可以对所描述的具体实施例做各种各样的修改或补充或采用类似的方式替代,但并不会偏离本发明的精神或者超越所附权利要求书所定义的范围。

Claims (4)

1.一种稀疏型数据文件的传输方法,其特征在于,包括步骤:
判断当前数据文件是否为稀疏型数据文件,若是,对所述稀疏型数据文件进行奇异值分解以获得特征向量;对所述稀疏型数据文件进行奇异值分解以获得特征向量的步骤具体包括:
假设一个大小为m×n的矩阵A,AAT=PA1PT,ATA=QA2QT,则所述矩阵A的奇异值分解为:
A=P∑QT
其中,矩阵
Figure FDA0003198564660000011
的大小为m×m,列向量
Figure FDA0003198564660000012
是AAT的特征向量;矩阵
Figure FDA0003198564660000013
的大小为n×n;矩阵∑的大小为m×n,位于对角线上的元素为奇异值;
对所述特征向量进行二进制符号的压缩以生成压缩特征向量及压缩奇异值;
传输所述压缩特征向量及所述压缩奇异值。
2.根据权利要求1所述的一种稀疏型数据文件的传输方法,其特征在于,所述对所述特征向量进行二进制符号的压缩以生成压缩特征向量及压缩奇异值的步骤具体包括:
通过哈夫曼编码对所述特征向量进行二进制符号的压缩。
3.一种稀疏型数据文件的传输系统,其特征在于,包括:
分解模块,用于判断当前数据文件是否为稀疏型数据文件,若是,对所述稀疏型数据文件进行奇异值分解以获得特征向量;所述分解模块具体包括:
假设一个大小为m×n的矩阵A,AAT=PA1PT,ATA=QA2QT,则所述矩阵A的奇异值分解为:
A=P∑QT
其中,矩阵
Figure FDA0003198564660000021
的大小为m×m,列向量
Figure FDA0003198564660000022
是AAT的特征向量;矩阵
Figure FDA0003198564660000023
的大小为n×n;矩阵∑的大小为m×n,位于对角线上的元素为奇异值;
压缩模块,用于对所述特征向量进行二进制符号的压缩以生成压缩特征向量及压缩奇异值;
传输模块,用于传输所述压缩特征向量及所述压缩奇异值。
4.根据权利要求3所述的一种稀疏型数据文件的传输系统,其特征在于,所述压缩模块具体包括:
编码单元,用于通过哈夫曼编码对所述特征向量进行二进制符号的压缩。
CN201711399776.5A 2017-12-21 2017-12-21 一种稀疏型数据文件的传输方法及系统 Active CN107977468B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201711399776.5A CN107977468B (zh) 2017-12-21 2017-12-21 一种稀疏型数据文件的传输方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201711399776.5A CN107977468B (zh) 2017-12-21 2017-12-21 一种稀疏型数据文件的传输方法及系统

Publications (2)

Publication Number Publication Date
CN107977468A CN107977468A (zh) 2018-05-01
CN107977468B true CN107977468B (zh) 2021-12-03

Family

ID=62007425

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201711399776.5A Active CN107977468B (zh) 2017-12-21 2017-12-21 一种稀疏型数据文件的传输方法及系统

Country Status (1)

Country Link
CN (1) CN107977468B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109241231A (zh) * 2018-09-07 2019-01-18 武汉中海庭数据技术有限公司 高精度地图数据的预处理装置及方法

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103400402A (zh) * 2013-07-12 2013-11-20 西安电子科技大学 基于低秩结构稀疏的压缩感知mri图像重建方法
CN105978655A (zh) * 2016-06-16 2016-09-28 中国科学技术大学 一种无线网络中的小包数据传输方法及系统

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP2424117A3 (en) * 2010-08-24 2013-01-02 Her Majesty the Queen in Right of Canada, as represented by the Minister of Industry, through The Communications Research Centre Canada Sparse data compression

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103400402A (zh) * 2013-07-12 2013-11-20 西安电子科技大学 基于低秩结构稀疏的压缩感知mri图像重建方法
CN105978655A (zh) * 2016-06-16 2016-09-28 中国科学技术大学 一种无线网络中的小包数据传输方法及系统

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
基于广义逆非负矩阵分解的无线传感器网络节能通信;仵博等;《中南大学学报(自然科学版)》;20130426;1415-1419 *

Also Published As

Publication number Publication date
CN107977468A (zh) 2018-05-01

Similar Documents

Publication Publication Date Title
WO2020233130A1 (zh) 一种深度神经网络压缩方法及相关设备
CN106549673B (zh) 一种数据压缩方法及装置
US9454552B2 (en) Entropy coding and decoding using polar codes
CN112953550B (zh) 数据压缩的方法、电子设备及存储介质
Alarabeyyat et al. Lossless image compression technique using combination methods
CN112449009B (zh) 一种基于svd的联邦学习推荐系统通信压缩方法及装置
US20200294629A1 (en) Gene sequencing data compression method and decompression method, system and computer-readable medium
CN103346800B (zh) 一种数据压缩方法及装置
US20150261990A1 (en) Method and apparatus for compressing dna data based on binary image
CN108846873A (zh) 一种基于灰度概率的医学图像无损压缩方法
CN103546161A (zh) 基于二进制位处理的无损压缩方法
CN113852379A (zh) 一种数据编码方法、系统、设备及计算机可读存储介质
CN112418424A (zh) 一种具有极高压缩比的剪枝深度神经网络的分层稀疏编码方法
CN107977468B (zh) 一种稀疏型数据文件的传输方法及系统
US9735803B2 (en) Data compression device and data compression method
CN109543772B (zh) 数据集自动匹配方法、装置、设备和计算机可读存储介质
Yeh et al. On the optimality of code options for a universal noiseless coder
Quispe-Ayala et al. Image classification using data compression techniques
US10380240B2 (en) Apparatus and method for data compression extension
US10644720B2 (en) Information processing apparatus and information processing method
US8488894B2 (en) Method and system for dot-matrix font data compression and decompression
WO2023159820A1 (zh) 图像压缩方法、图像解压缩方法及装置
CN116846600A (zh) 文件传输方法、装置、计算机设备、存储介质和程序产品
US9235610B2 (en) Short string compression
Al-Bahadili et al. A bit-level text compression scheme based on the ACW algorithm

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
TA01 Transfer of patent application right
TA01 Transfer of patent application right

Effective date of registration: 20211118

Address after: 518000 31, 1 building, 1002 news tower, Shennan Middle Road, Futian District, Shenzhen, Guangdong.

Applicant after: Shenzhen Zhongzhi economic and Technical Cooperation Co.,Ltd.

Address before: 519031 Building 2-I, No. 5, Hengqin Financial Industry Service Base, Zhuhai City, Guangdong Province

Applicant before: HENGQIN INTERNATIONAL INTELLECTUAL PROPERTY EXCHANGE CO.,LTD.

GR01 Patent grant
GR01 Patent grant