CN107977468B - 一种稀疏型数据文件的传输方法及系统 - Google Patents
一种稀疏型数据文件的传输方法及系统 Download PDFInfo
- Publication number
- CN107977468B CN107977468B CN201711399776.5A CN201711399776A CN107977468B CN 107977468 B CN107977468 B CN 107977468B CN 201711399776 A CN201711399776 A CN 201711399776A CN 107977468 B CN107977468 B CN 107977468B
- Authority
- CN
- China
- Prior art keywords
- compressed
- data file
- matrix
- sparse data
- eigenvectors
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/10—File systems; File servers
- G06F16/17—Details of further file system functions
- G06F16/174—Redundancy elimination performed by the file system
- G06F16/1744—Redundancy elimination performed by the file system using compression, e.g. sparse files
-
- H—ELECTRICITY
- H03—ELECTRONIC CIRCUITRY
- H03M—CODING; DECODING; CODE CONVERSION IN GENERAL
- H03M7/00—Conversion of a code where information is represented by a given sequence or number of digits to a code where the same, similar or subset of information is represented by a different sequence or number of digits
- H03M7/30—Compression; Expansion; Suppression of unnecessary data, e.g. redundancy reduction
- H03M7/40—Conversion to or from variable length codes, e.g. Shannon-Fano code, Huffman code, Morse code
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Compression, Expansion, Code Conversion, And Decoders (AREA)
Abstract
本发明公开了一种稀疏型数据文件的传输方法及系统,用以解决现有技术对于稀疏型数据文件的传输速度较慢,带宽浪费严重的问题。该方法包括:判断当前数据文件是否为稀疏型数据文件,若是,对所述稀疏型数据文件进行奇异值分解以获得特征向量;对所述特征向量进行二进制符号的压缩以生成压缩特征向量及压缩奇异值;传输所述压缩特征向量及所述压缩奇异值。本发明通过对稀疏型数据文件进行奇异值分解获得特征向量,传输压缩后的特征向量和奇异值,提高了传输速度,节约了带宽。
Description
技术领域
本发明涉及数据传输技术领域,尤其涉及一种稀疏型数据文件的传输方法及系统。
背景技术
稀疏文件是UNIX类和NTFS等文件系统的一个特性。
开始时,一个稀疏文件不包含用户数据,也没有分配到用来存储用户数据的磁盘空间。当数据被写入稀疏文件时,NTFS逐渐地为其分配磁盘空间。一个稀疏文件有可能增长得很大。稀疏文件以64KB(不同文件系统不同)为单位增量增长,因此磁盘上稀疏文件的大小总是64KB的倍数。
稀疏文件就是在文件中留有很多空余空间,留备将来插入数据使用。如果这些空余空间被ASCI I码的NULL字符占据,并且这些空间相当大,那么,这个文件就被称为稀疏文件,而且,并不分配相应的磁盘块。
在计算机科学方面,稀疏文件是文件系统中的一种文件存储方式,在创建一个文件的时候,就预先分配了文件需要的连续存储空间,其空间内部大多都还未被数据填充现在有很多文件系统都支持稀疏文件,包括大部分的Unix和NTFS。稀疏文件被普遍用来磁盘镜像,数据库快照,日志文件,还有其他科学运用上。
现有技术对于稀疏型文件数据采用二进制符号的压缩方式后进行传输,文件的恢复速度比较慢。并且文件大,传输和存储都占用了较大的资源,带宽浪费现象十分严重。
发明内容
本发明要解决的技术问题目的在于提供一种稀疏型数据文件的传输方法及系统,用以解决现有技术对于稀疏型数据文件的传输速度较慢,带宽浪费严重的问题。
为了实现上述目的,本发明采用的技术方案为:
一种稀疏型数据文件的传输方法,包括步骤:
判断当前数据文件是否为稀疏型数据文件,若是,对所述稀疏型数据文件进行奇异值分解以获得特征向量;
对所述特征向量进行二进制符号的压缩以生成压缩特征向量及压缩奇异值;
传输所述压缩特征向量及所述压缩奇异值。
进一步地,所述对所述稀疏型数据文件进行奇异值分解以获得特征向量的步骤具体包括:
假设一个大小为m×n的矩阵A,AAT=PA1PT,ATA=QA2QT,则所述矩阵A的奇异值分解为:
A=P∑QT;
进一步地,所述对所述特征向量进行二进制符号的压缩以生成压缩特征向量及压缩奇异值的步骤具体包括:
通过哈夫曼编码对所述特征向量进行二进制符号的压缩。
一种稀疏型数据文件的传输系统,包括:
分解模块,用于判断当前数据文件是否为稀疏型数据文件,若是,对所述稀疏型数据文件进行奇异值分解以获得特征向量;
压缩模块,用于对所述特征向量进行二进制符号的压缩以生成压缩特征向量及压缩奇异值;
传输模块,用于传输所述压缩特征向量及所述压缩奇异值。
进一步地,所述分解模块具体包括:
假设一个大小为m×n的矩阵A,AAT=PA1PT,ATA=QA2QT,则所述矩阵A的奇异值分解为:
A=P∑QT;
进一步地,所述压缩模块具体包括:
编码单元,用于通过哈夫曼编码对所述特征向量进行二进制符号的压缩。
本发明与传统的技术相比,有如下优点:
本发明通过对稀疏型数据文件进行奇异值分解获得特征向量,传输压缩后的特征向量和奇异值,提高了传输速度,节约了带宽。
附图说明
图1是实施例一提供的一种稀疏型数据文件的传输方法流程图;
图2是实施例二提供的一种稀疏型数据文件的传输系统结构图。
具体实施方式
以下是本发明的具体实施例并结合附图,对本发明的技术方案作进一步的描述,但本发明并不限于这些实施例。
实施例一
本实施例提供了一种稀疏型数据文件的传输方法,如图1所示,包括步骤:
S11:判断当前数据文件是否为稀疏型数据文件,若是,对稀疏型数据文件进行奇异值分解以获得特征向量;
S12:对特征向量进行二进制符号的压缩以生成压缩特征向量以及压缩奇异值;
S13:传输压缩特征向量及压缩奇异值。
本实施例通过对稀疏数据文件的奇异值分解,获得特征向量,再进行二进制符号的压缩,得到压缩特征向量及压缩奇异值。通过压缩特征向量机压缩奇异值传输,相比现有技术,节约大量带宽,并且提高了传输速度。
本实施例中,步骤S11为判断当前数据文件是否为稀疏型数据文件,若是,对稀疏型数据文件进行奇异值分解以获得特征向量。
其中,对稀疏型数据文件进行奇异值分解以获得特征向量的步骤具体包括:
假设一个大小为m×n的矩阵A,AAT=PA1PT,ATA=QA2QT,则所述矩阵A的奇异值分解为:
A=P∑QT;
具体的,先判断当前的数据文件是否为稀疏型数据文件,若是,则先对稀疏文件进行奇异值分解,获得特征向量。
奇异值是矩阵里的概念,一般通过奇异值分解定理求得。设A为m*n阶矩阵,q=min(m,n),A*A的q个非负特征值的算术平方根叫作A的奇异值。奇异值分解是线性代数和矩阵论中一种重要的矩阵分解法,适用于信号处理和统计学等领域。奇异值分解是线性代数中一种重要的矩阵分解,是矩阵分析中正规矩阵酉对角化的推广。在信号处理、统计学等领域有重要应用。奇异值分解则是谱分析理论在任意矩阵上的推广。
本实施例通过上述公式获得特征向量。
本实施例中,步骤S12为对特征向量进行二进制符号的压缩以生成压缩特征向量及压缩奇异值。
其中,步骤S12具体包括:
通过哈夫曼编码对特征向量进行二进制符号的压缩。
具体的,由奇异值分解得到特征向量后,对获得的特征向量进行二进制符号的压缩。传统方式是直接对稀疏型数据文件进行压缩,文件恢复的速度比较慢。本实施例通过对奇异值和特征向量压缩,文件恢复的速度大幅度提高。
哈夫曼编码又称霍夫曼编码,是一种编码方式,哈夫曼编码是可变字长编码(VLC)的一种。哈夫曼于1952年提出一种编码方法,该方法完全依据字符出现概率来构造异字头的平均长度最短的码字,有时称之为最佳编码,一般就叫做哈夫曼编码(有时也称为霍夫曼编码)。通过该压缩方式,能够节约传输空间,提高传输效率。
本实施例中,步骤S13为传输压缩特征向量及压缩奇异值。
具体的,将压缩特征向量机压缩奇异值进行传输,相比传统的传输方式,提高了传输效率,节约传输带宽。并且,文件恢复的速度快。
本实施例通过对稀疏型数据文件进行奇异值分解获得特征向量,传输压缩后的特征向量和奇异值,提高了传输速度,节约了带宽。
实施例二
本实施例提供了一种稀疏型数据文件的传输系统,如图2所示,包括:
分解模块21,用于判断当前数据文件是否为稀疏型数据文件,若是,对稀疏型数据文件进行奇异值分解以获得特征向量;
压缩模块22,用于对特征向量进行二进制符号的压缩以生成压缩特征向量以及压缩奇异值;
传输模块23,用于传输压缩特征向量及压缩奇异值。
本实施例通过对稀疏数据文件的奇异值分解,获得特征向量,再进行二进制符号的压缩,得到压缩特征向量及压缩奇异值。通过压缩特征向量机压缩奇异值传输,相比现有技术,节约大量带宽,并且提高了传输速度。
本实施例中,分解模块21用于判断当前数据文件是否为稀疏型数据文件,若是,对稀疏型数据文件进行奇异值分解以获得特征向量。
其中,分解模块21具体包括:
假设一个大小为m×n的矩阵A,AAT=PA1PT,ATA=QA2QT,则所述矩阵A的奇异值分解为:
A=P∑QT;
具体的,先判断当前的数据文件是否为稀疏型数据文件,若是,则先对稀疏文件进行奇异值分解,获得特征向量。
奇异值是矩阵里的概念,一般通过奇异值分解定理求得。设A为m*n阶矩阵,q=min(m,n),A*A的q个非负特征值的算术平方根叫作A的奇异值。奇异值分解是线性代数和矩阵论中一种重要的矩阵分解法,适用于信号处理和统计学等领域。奇异值分解是线性代数中一种重要的矩阵分解,是矩阵分析中正规矩阵酉对角化的推广。在信号处理、统计学等领域有重要应用。奇异值分解则是谱分析理论在任意矩阵上的推广。
本实施例通过上述公式获得特征向量。
本实施例中,压缩模块22用于对特征向量进行二进制符号的压缩以生成压缩特征向量及压缩奇异值。
其中,压缩模块22具体包括:
通过哈夫曼编码对特征向量进行二进制符号的压缩。
具体的,由奇异值分解得到特征向量后,对获得的特征向量进行二进制符号的压缩。传统方式是直接对稀疏型数据文件进行压缩,文件恢复的速度比较慢。本实施例通过对奇异值和特征向量压缩,文件恢复的速度大幅度提高。
哈夫曼编码又称霍夫曼编码,是一种编码方式,哈夫曼编码是可变字长编码(VLC)的一种。哈夫曼于1952年提出一种编码方法,该方法完全依据字符出现概率来构造异字头的平均长度最短的码字,有时称之为最佳编码,一般就叫做哈夫曼编码(有时也称为霍夫曼编码)。通过该压缩方式,能够节约传输空间,提高传输效率。
本实施例中,传输模块23用于传输压缩特征向量及压缩奇异值。
具体的,将压缩特征向量机压缩奇异值进行传输,相比传统的传输方式,提高了传输效率,节约传输带宽。并且,文件恢复的速度快。
本实施例通过对稀疏型数据文件进行奇异值分解获得特征向量,传输压缩后的特征向量和奇异值,提高了传输速度,节约了带宽。
本文中所描述的具体实施例仅仅是对本发明精神作举例说明。本发明所属技术领域的技术人员可以对所描述的具体实施例做各种各样的修改或补充或采用类似的方式替代,但并不会偏离本发明的精神或者超越所附权利要求书所定义的范围。
Claims (4)
2.根据权利要求1所述的一种稀疏型数据文件的传输方法,其特征在于,所述对所述特征向量进行二进制符号的压缩以生成压缩特征向量及压缩奇异值的步骤具体包括:
通过哈夫曼编码对所述特征向量进行二进制符号的压缩。
4.根据权利要求3所述的一种稀疏型数据文件的传输系统,其特征在于,所述压缩模块具体包括:
编码单元,用于通过哈夫曼编码对所述特征向量进行二进制符号的压缩。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201711399776.5A CN107977468B (zh) | 2017-12-21 | 2017-12-21 | 一种稀疏型数据文件的传输方法及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201711399776.5A CN107977468B (zh) | 2017-12-21 | 2017-12-21 | 一种稀疏型数据文件的传输方法及系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN107977468A CN107977468A (zh) | 2018-05-01 |
CN107977468B true CN107977468B (zh) | 2021-12-03 |
Family
ID=62007425
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201711399776.5A Active CN107977468B (zh) | 2017-12-21 | 2017-12-21 | 一种稀疏型数据文件的传输方法及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN107977468B (zh) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109241231A (zh) * | 2018-09-07 | 2019-01-18 | 武汉中海庭数据技术有限公司 | 高精度地图数据的预处理装置及方法 |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103400402A (zh) * | 2013-07-12 | 2013-11-20 | 西安电子科技大学 | 基于低秩结构稀疏的压缩感知mri图像重建方法 |
CN105978655A (zh) * | 2016-06-16 | 2016-09-28 | 中国科学技术大学 | 一种无线网络中的小包数据传输方法及系统 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
EP2424117A3 (en) * | 2010-08-24 | 2013-01-02 | Her Majesty the Queen in Right of Canada, as represented by the Minister of Industry, through The Communications Research Centre Canada | Sparse data compression |
-
2017
- 2017-12-21 CN CN201711399776.5A patent/CN107977468B/zh active Active
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103400402A (zh) * | 2013-07-12 | 2013-11-20 | 西安电子科技大学 | 基于低秩结构稀疏的压缩感知mri图像重建方法 |
CN105978655A (zh) * | 2016-06-16 | 2016-09-28 | 中国科学技术大学 | 一种无线网络中的小包数据传输方法及系统 |
Non-Patent Citations (1)
Title |
---|
基于广义逆非负矩阵分解的无线传感器网络节能通信;仵博等;《中南大学学报(自然科学版)》;20130426;1415-1419 * |
Also Published As
Publication number | Publication date |
---|---|
CN107977468A (zh) | 2018-05-01 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
WO2020233130A1 (zh) | 一种深度神经网络压缩方法及相关设备 | |
CN106549673B (zh) | 一种数据压缩方法及装置 | |
US9454552B2 (en) | Entropy coding and decoding using polar codes | |
CN112953550B (zh) | 数据压缩的方法、电子设备及存储介质 | |
Alarabeyyat et al. | Lossless image compression technique using combination methods | |
CN112449009B (zh) | 一种基于svd的联邦学习推荐系统通信压缩方法及装置 | |
US20200294629A1 (en) | Gene sequencing data compression method and decompression method, system and computer-readable medium | |
CN103346800B (zh) | 一种数据压缩方法及装置 | |
US20150261990A1 (en) | Method and apparatus for compressing dna data based on binary image | |
CN108846873A (zh) | 一种基于灰度概率的医学图像无损压缩方法 | |
CN103546161A (zh) | 基于二进制位处理的无损压缩方法 | |
CN113852379A (zh) | 一种数据编码方法、系统、设备及计算机可读存储介质 | |
CN112418424A (zh) | 一种具有极高压缩比的剪枝深度神经网络的分层稀疏编码方法 | |
CN107977468B (zh) | 一种稀疏型数据文件的传输方法及系统 | |
US9735803B2 (en) | Data compression device and data compression method | |
CN109543772B (zh) | 数据集自动匹配方法、装置、设备和计算机可读存储介质 | |
Yeh et al. | On the optimality of code options for a universal noiseless coder | |
Quispe-Ayala et al. | Image classification using data compression techniques | |
US10380240B2 (en) | Apparatus and method for data compression extension | |
US10644720B2 (en) | Information processing apparatus and information processing method | |
US8488894B2 (en) | Method and system for dot-matrix font data compression and decompression | |
WO2023159820A1 (zh) | 图像压缩方法、图像解压缩方法及装置 | |
CN116846600A (zh) | 文件传输方法、装置、计算机设备、存储介质和程序产品 | |
US9235610B2 (en) | Short string compression | |
Al-Bahadili et al. | A bit-level text compression scheme based on the ACW algorithm |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
TA01 | Transfer of patent application right | ||
TA01 | Transfer of patent application right |
Effective date of registration: 20211118 Address after: 518000 31, 1 building, 1002 news tower, Shennan Middle Road, Futian District, Shenzhen, Guangdong. Applicant after: Shenzhen Zhongzhi economic and Technical Cooperation Co.,Ltd. Address before: 519031 Building 2-I, No. 5, Hengqin Financial Industry Service Base, Zhuhai City, Guangdong Province Applicant before: HENGQIN INTERNATIONAL INTELLECTUAL PROPERTY EXCHANGE CO.,LTD. |
|
GR01 | Patent grant | ||
GR01 | Patent grant |