CN101630415A - 一种基于图像识别的文件压缩及解压缩处理方法 - Google Patents

一种基于图像识别的文件压缩及解压缩处理方法 Download PDF

Info

Publication number
CN101630415A
CN101630415A CN200910042172A CN200910042172A CN101630415A CN 101630415 A CN101630415 A CN 101630415A CN 200910042172 A CN200910042172 A CN 200910042172A CN 200910042172 A CN200910042172 A CN 200910042172A CN 101630415 A CN101630415 A CN 101630415A
Authority
CN
China
Prior art keywords
picture
file
text area
compress
compression
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN200910042172A
Other languages
English (en)
Inventor
罗笑南
郝晓
文允
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sun Yat Sen University
Original Assignee
Sun Yat Sen University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sun Yat Sen University filed Critical Sun Yat Sen University
Priority to CN200910042172A priority Critical patent/CN101630415A/zh
Publication of CN101630415A publication Critical patent/CN101630415A/zh
Pending legal-status Critical Current

Links

Images

Landscapes

  • Compression Of Band Width Or Redundancy In Fax (AREA)
  • Compression Or Coding Systems Of Tv Signals (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)

Abstract

本发明公开了一种基于图像识别的文件压缩及解压缩处理方法,它定义一种文件的存储结构,包括了文本区和图片区。文档中的图片以图片标签的形式存储在文本区,并以像素信息的形式存储在图片区。压缩时,文本区采用无损压缩,图片区根据具体格式采用相应的最佳压缩方案。在浏览的时候,首先对文本区进行解压缩,如果浏览内容包含图片标签,才在图片区提取相应的图片信息块并解压缩后反馈到屏幕中。本方法不仅可以有效的减少文件的存储空间,还提高了文件的打开速度,降低了内存的消耗空间。

Description

一种基于图像识别的文件压缩及解压缩处理方法
技术领域
本发明涉及文件信息处理技术领域,特别是涉及一种基于图像识别的文件压缩及解压缩处理方法。
背景技术
压缩文件的基本原理是查找文件内的重复字节,并建立一个相同字节的“词典”文件,并用一个代码表示,比如在文件里有几处有一个相同的词“中华人民共和国”用一个代码表示并写入“词典”文件,这样就可以达到缩小文件的目的。
通过合理的数学计算公式,文件的体积都能够被大大压缩以达到“数据无损稠密”的效果。总的来说,压缩可以分为有损和无损压缩两种。有损压缩广泛应用于动画、声音和图像文件中,典型的代表就是影碟文件格式mpeg、音乐文件格式mp3和图像文件格式jpg。但是更多情况下压缩数据必须准确无误,人们便设计出了无损压缩格式,比如常见的zip、rar等。
压缩软件(compression software)自然就是利用压缩原理压缩数据的工具,压缩后所生成的文件称为压缩包(archive),体积只有原来的几分之一甚至更小。当然,压缩包已经是另一种文件格式了,如果你想使用其中的数据,首先得用压缩软件把数据还原,这个过程称作解压缩。常见的压缩软件有winzip、winrar等。
由于解压缩是压缩的逆向过程,一般的解压缩过程也是一次性将文件读入内存,并通过逆向的算法过程,将文件整个进行还原。为了节省空间,一般文档采用压缩后的存储方式,当文档内容很多,特别是存在大量图片的时候,一次性的解压缩过程将需要占用很大的时间,造成了浏览上的不便。
发明内容
本发明的目的在于克服现有文件压缩及解压缩处理上的不足,提出一种基于图像识别的文件压缩及解压缩处理方法。
为了实现发明目的,采用的技术方案如下:
一种基于图像识别的文件压缩处理方法,包括了以下的步骤:
1)将文件进行内容识别,并划分为文本区和图片区;
2)图片以标签的形式存储在文本区,其图像像素信息存储在对应的图片区;
3)文本区和图片区进行压缩,文本区采用无损压缩的方法,图片区可采用有损压缩的方法,然后把将压缩后的文本区和图片区合并成新的文件。
步骤1)和2)所述的文件内容识别,通过解析文件的数据,如果是文本信息,则将文件中的文本信息存储到文本区,如果解析的是图片信息,则生成一个图片的文本标签,并将该图片标签存储到文本区,此外,生成该图片的图像像素信息,与图片标签相对应,保存到文件的图片区。
步骤3)所述的压缩方法中,文本区的内容,由于文本信息的重要性,采用的是无损压缩的方法,由于在压缩图片时,采用无损压缩一般压缩效果不明显,因此可以将图片进行转化,如将BMP的图片转化成JPG格式的图片,然后再进行压缩,增大压缩量。
一种基于图像识别的文件解压缩处理方法,包括以下步骤:
1)对文本区进行解压缩;
2)解析浏览信息内容;
3)如果信息内容包含有图片标签,则进行下一步,否则返回步骤2);
4)找到该图片标签对应图片区的数据块;
5)解压缩压缩后的图片信息;
6)返回图片的详细信息并返回步骤2)。
本发明的有益效果是:该发明不仅可以有效降低文档的存储空间,并且在解压缩过程中采用了分步解压缩的过程,用户在需要查看某些图片时,才对该图片进行解压缩。
附图说明
图1为文件的存储结构划分图;
图2为文件的压缩过程的流程图;
图3为浏览文件的解压缩的流程图。
具体实施方式
下面结合附图对本发明进行进一步阐述:
如图1所示,本发明中的文件的存储结构主要有文件头,文本区和图片区。
文件头包含了本次压缩方法的版本号,文本编码类型的信息,便于对文件进行识别。
文本区包含的是文件的正文信息。其中正文部分是文本信息,则将其放入文本区,否则,如果正文部分含有图片,则创建一个图片标签,如<IMG1,offset=0x00000000>,将图片标签添加到相应的文本区。同时在图片区创建相应的图片块,将图片的像素信息保存在图片区。
用户在浏览文本区中的图片标签时,可以通过标签中的位移offset的位置,到图片区的对应偏移位置提取相关的像素信息。并且,图片区中的每一张图片对应的信息块都是按照图片的格式采用不同的压缩算法进行了压缩。
本发明的压缩过程如图2所示,首先通过解析文件中的数据信息,并将信息划分成文本区和图片区。
图片区中,一张图片对应图片区的一段信息块。信息块内根据图片的格式采用不同的压缩算法进行了压缩,并且把压缩后形成的偏移位移反馈给所对应的文本区的图片标签,更新文本区中的图片标签的数据。
在图片区的压缩过程中,如果对图片的显示格式不作具体的要求,还可以采用转化图片格式的方法进行一步压缩。例如,同一张图片采用BMP格式的存储量要远远高于采用JPG格式的存储量。因此,我们可以首先将BMP格式转化成JPG格式,并用JPG的格式进行进一步的压缩,提高文件的压缩效果。
在图片区内所有的图片都完成了压缩后,我们对文本区的文本信息进行压缩,由于文本信息是文件的正文,为体现数据的准确性,我们在压缩文本区时采用了无损压缩的方式。
最后我们将文件头和分别压缩后的文本区、图片区进行合成形成新的压缩文件。
本发明的解压缩过程如图3所示,文件首先对文本区进行解压缩,由于用户浏览的信息一般为文本区中的部分内容,因此,可以对浏览内容进行解析,如果浏览内容不包含图片标签,则无操作返回。否则如果浏览内容含有图片标签,则根据图片标签的offset属性,进行图片区提取对应的图片信息块。
根据图片信息块中的数据信息进行解压缩过程,并把其图片的像素信息反馈到图片标签,并代替浏览标签在屏幕上显示出来。

Claims (2)

1、一种基于图像识别的文件压缩及解压缩处理方法,其特征在于,文件压缩处理方法主要步骤包括:
1)将文件进行内容识别,并划分为文本区和图片区;
2)图片以标签的形式存储在文本区,其图像像素信息存储在对应的图片区;
3)文本区和图片区进行压缩,文本区采用无损压缩的方法,图片区可采用有损压缩的方法,然后把将压缩后的文本区和图片区合并成新的文件;
文件解压缩处理方法主要步骤包括:
1)对文本区进行解压缩;
2)解析浏览信息内容;
3)如果信息内容包含有图片标签,则进行下一步,否则返回步骤2);
4)找到该图片标签对应图片区的数据块;
5)解压缩压缩后的图片信息;
6)返回图片的详细信息并返回步骤2)。
2、根据权利要求1所述的一种基于图像识别的文件压缩及解压缩处理方法,其特征在于,用户在浏览文本区中的图片标签时,通过标签中的位移offset的位置,到图片区的对应偏移位置提取相关的像素信息,图片区中的每一张图片对应的信息块都是按照图片的格式采用不同的压缩方法进行压缩。
CN200910042172A 2009-08-26 2009-08-26 一种基于图像识别的文件压缩及解压缩处理方法 Pending CN101630415A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN200910042172A CN101630415A (zh) 2009-08-26 2009-08-26 一种基于图像识别的文件压缩及解压缩处理方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN200910042172A CN101630415A (zh) 2009-08-26 2009-08-26 一种基于图像识别的文件压缩及解压缩处理方法

Publications (1)

Publication Number Publication Date
CN101630415A true CN101630415A (zh) 2010-01-20

Family

ID=41575515

Family Applications (1)

Application Number Title Priority Date Filing Date
CN200910042172A Pending CN101630415A (zh) 2009-08-26 2009-08-26 一种基于图像识别的文件压缩及解压缩处理方法

Country Status (1)

Country Link
CN (1) CN101630415A (zh)

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103873860A (zh) * 2014-03-18 2014-06-18 深信服网络科技(深圳)有限公司 文件传输方法及装置
CN104660267A (zh) * 2013-11-20 2015-05-27 腾讯科技(上海)有限公司 文件压缩的方法及装置
CN105704215A (zh) * 2016-01-08 2016-06-22 全时云商务服务股份有限公司 文件共享系统及相应的文件发送、接收方法及装置
CN105812714A (zh) * 2016-03-18 2016-07-27 浙江万朋教育科技股份有限公司 一种用于共享ppt文档页面的数据压缩方法
CN110555002A (zh) * 2018-03-29 2019-12-10 成都野望数码科技有限公司 一种文件压缩的方法和装置
CN111506550A (zh) * 2020-04-22 2020-08-07 印推互联网络科技无锡有限公司 蓝牙打印机图片处理存储系统
CN113365071A (zh) * 2021-06-08 2021-09-07 北京数科网维技术有限责任公司 一种图像分层压缩方法及图像分层压缩装置

Cited By (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104660267A (zh) * 2013-11-20 2015-05-27 腾讯科技(上海)有限公司 文件压缩的方法及装置
CN104660267B (zh) * 2013-11-20 2019-04-12 腾讯科技(上海)有限公司 文件压缩的方法及装置
CN103873860A (zh) * 2014-03-18 2014-06-18 深信服网络科技(深圳)有限公司 文件传输方法及装置
CN103873860B (zh) * 2014-03-18 2017-12-22 深信服网络科技(深圳)有限公司 文件传输方法及装置
CN105704215A (zh) * 2016-01-08 2016-06-22 全时云商务服务股份有限公司 文件共享系统及相应的文件发送、接收方法及装置
CN105704215B (zh) * 2016-01-08 2019-05-28 全时云商务服务股份有限公司 文件共享系统及相应的文件发送方法及装置
CN105812714A (zh) * 2016-03-18 2016-07-27 浙江万朋教育科技股份有限公司 一种用于共享ppt文档页面的数据压缩方法
CN110555002A (zh) * 2018-03-29 2019-12-10 成都野望数码科技有限公司 一种文件压缩的方法和装置
CN111506550A (zh) * 2020-04-22 2020-08-07 印推互联网络科技无锡有限公司 蓝牙打印机图片处理存储系统
CN113365071A (zh) * 2021-06-08 2021-09-07 北京数科网维技术有限责任公司 一种图像分层压缩方法及图像分层压缩装置

Similar Documents

Publication Publication Date Title
CN101630415A (zh) 一种基于图像识别的文件压缩及解压缩处理方法
US6993196B2 (en) Digital image storage method
CN104380267B (zh) 数据解压/压缩装置
US8756255B2 (en) Compression and storage of computer aided design data
CN103026631B (zh) 用于压缩xml文档的方法和系统
CN102024047B (zh) 数据检索方法及装置
US20070143664A1 (en) A compressed schema representation object and method for metadata processing
CN100524452C (zh) 一种数字图像的存储、显示方法及装置
CN102073663B (zh) 一种快速处理xml压缩数据的方法及其装置
CN102841901A (zh) 一种网页显示的方法和装置
CN101751440A (zh) 一种数据压缩/解压缩方法及其装置
CN103258030A (zh) 基于字典与游长编码的移动设备内存压缩方法
CN104410424B (zh) 嵌入式设备内存数据的快速无损压缩方法
CN111881651A (zh) 一种uot流式文档转换成ofd版式文档的方法
CN102263946A (zh) 用于存储和获取像素数据的技术
US10515092B2 (en) Structured record compression and retrieval
CN105704215B (zh) 文件共享系统及相应的文件发送方法及装置
CN103049387B (zh) 一种分页存储器件的压缩管理方法及装置
CN101639846A (zh) 供用户自定义字体的方法
CN115640420A (zh) 基于es的音频信息索引库建立检索方法、设备及存储介质
JP5409090B2 (ja) 情報処理装置、情報処理方法、プログラム及び記憶媒体
JP5570202B2 (ja) 構造化文書解析装置、構造化文書解析方法、及びコンピュータプログラム
CN101257590B (zh) 编码、解码方法及装置、显示系统
CN103049388A (zh) 一种分页存储器件的压缩管理方法及装置
CN112883000A (zh) 一种形变监测雷达数据文件存储方法

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C12 Rejection of a patent application after its publication
RJ01 Rejection of invention patent application after publication

Open date: 20100120