CN111369422B - 数据压缩方法及装置、设备、存储介质 - Google Patents

数据压缩方法及装置、设备、存储介质 Download PDF

Info

Publication number
CN111369422B
CN111369422B CN201910968344.4A CN201910968344A CN111369422B CN 111369422 B CN111369422 B CN 111369422B CN 201910968344 A CN201910968344 A CN 201910968344A CN 111369422 B CN111369422 B CN 111369422B
Authority
CN
China
Prior art keywords
text
text unit
compressed
determining
character type
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201910968344.4A
Other languages
English (en)
Other versions
CN111369422A (zh
Inventor
林泉宇
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hangzhou Hikvision System Technology Co Ltd
Original Assignee
Hangzhou Hikvision System Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hangzhou Hikvision System Technology Co Ltd filed Critical Hangzhou Hikvision System Technology Co Ltd
Priority to CN201910968344.4A priority Critical patent/CN111369422B/zh
Publication of CN111369422A publication Critical patent/CN111369422A/zh
Application granted granted Critical
Publication of CN111369422B publication Critical patent/CN111369422B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T1/00General purpose image data processing
    • G06T1/60Memory management
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/90Determination of colour characteristics
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T9/00Image coding
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/14Image acquisition
    • G06V30/148Segmentation of character regions
    • G06V30/153Segmentation of character regions using recognition of characters or words
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Multimedia (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)

Abstract

本发明实施例提供一种数据压缩方法及装置、设备、存储介质,该方法包括:确定待压缩文本中各个文本单元各自对应的像素值。根据各个文本单元各自对应的像素值,将各个文本单元转化为对应的各个像素,得到压缩处理后的图片。通过将待压缩文本中各文本单元转化为各自对应的各个像素,接着根据各个像素得到压缩处理后的图片,其不需要存储额外的位置信息和特征信息,因此能够有效提高对待压缩数据的压缩程度。

Description

数据压缩方法及装置、设备、存储介质
技术领域
本发明实施例涉及计算机技术,尤其涉及一种数据压缩方法及装置、设备、存储介质。
背景技术
数据压缩是指在不丢失有用信息的前提下,缩减数据量以减少存储空间,提高数据的传输、存储和处理效率的一种数据处理方式,其能够有效提高对数据存储容量的有效使用。
目前,传统的实现数据压缩的方法通常是将待压缩的数据转制为另一种格式的码流以实现对文本的压缩,例如可以将文本转制为二进制的编码,对二进制编码的码流进行存储,在存储码流的同时还要记录各个文本存储的位置信息和一些特征信息等,从而实现数据的压缩。
然而,转换为码流的方式通常压缩率不高,并且还需要额外记录存储的位置信息和特征信息,则导致数据压缩的压缩程度较低。
发明内容
本发明实施例提供一种数据压缩方法及装置、设备、存储介质,以克服数据压缩的压缩程度低下的问题。
第一方面,本发明实施例提供一种数据压缩方法,包括:
确定待压缩文本中各个文本单元各自对应的像素值;
根据所述各个文本单元各自对应的像素值,将所述各个文本单元转化为对应的各个像素,得到压缩处理后的图片。
在一种可能的设计中,所述确定待压缩文本中各个文本单元各自对应的像素值,包括:
确定待压缩文本中各个文本单元各自的字符类型;
根据所述字符类型,确定各个文本单元各自对应的像素值。
在一种可能的设计中,根据所述字符类型,确定各个文本单元各自对应的像素值,包括:
确定所述字符类型对应的数据库;
从所述数据库中获取所述字符类型对应的各个文本单元各自对应的像素值。
在一种可能的设计中,所述字符类型通过灰度值进行指示;
则根据所述字符类型,确定各个文本单元各自对应的像素值,包括:
根据所述字符类型,确定各个文本单元各自对应的颜色值。
在一种可能的设计中,所述字符类型包括如下中的至少一种:中文汉字、中文词语、英文字母、英文单词、数字、标点符号。
第二方面,本发明实施例提供一种数据压缩装置,包括:
确定模块,用于确定待压缩文本中各个文本单元各自对应的像素值;
压缩模块,用于根据所述各个文本单元各自对应的像素值,将所述各个文本单元转化为对应的各个像素,得到压缩处理后的图片。
在一种可能的设计中,所述确定模块具体用于:
确定待压缩文本中各个文本单元各自的字符类型;
根据所述字符类型,确定各个文本单元各自对应的像素值。
在一种可能的设计中,所述确定模块具体用于:
确定所述字符类型对应的数据库;
从所述数据库中获取所述字符类型对应的各个文本单元各自对应的像素值。
在一种可能的设计中,所述字符类型通过灰度值进行指示;
则所述确定模块具体用于:
根据所述字符类型,确定各个文本单元各自对应的颜色值。
在一种可能的设计中,所述字符类型包括如下中的至少一种:中文汉字、中文词语、英文字母、英文单词、数字、标点符号。
第三方面,本发明实施例提供一种数据压缩设备,包括:
存储器,用于存储程序;
处理器,用于执行所述存储器存储的所述程序,当所述程序被执行时,所述处理器用于执行如上第一方面以及第一方面各种可能的设计中任一所述的方法。
第四方面,本发明实施例提供一种计算机可读存储介质,包括指令,当其在计算机上运行时,使得计算机执行如上第一方面以及第一方面各种可能的设计中任一所述的方法。
本发明实施例提供一种数据压缩方法及装置、设备、存储介质,该方法包括:确定待压缩文本中各个文本单元各自对应的像素值。根据各个文本单元各自对应的像素值,将各个文本单元转化为对应的各个像素,得到压缩处理后的图片。通过将待压缩文本中各文本单元转化为各自对应的各个像素,接着根据各个像素得到压缩处理后的图片,其不需要存储额外的位置信息和特征信息,因此能够有效提高对待压缩数据的压缩程度。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例提供的数据压缩方法的流程图一;
图2为本发明实施例提供的数据压缩方法的流程图二;
图3为本发明实施例提供的数据压缩方法的示意图一;
图4为本发明实施例提供的数据压缩方法的示意图二;
图5为本发明实施例提供的数据压缩装置的结构示意图;
图6为本发明实施例提供的数据压缩设备的硬件结构示意图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
图1为本发明实施例提供的数据压缩方法的流程图一,如图1所示,该方法包括:
S101、确定待压缩文本中各个文本单元各自对应的像素值。
在本实施例中,待压缩文本例如可以为电子设备之间交互的日志文本,或者还可以为小说、聊天记录、网页脚本等等,本领域技术人员可以理解,待压缩文本可以为任何以文本的形式记录的数据,本实施例对此不做限定。
具体的,待压缩文本中包括多个文本单元,其中,各文本单元包括至少一个字符,本实施例中文本单元的划分不是唯一的,下面举例进行说明:
例如当前存在一待压缩文本为“学生小明说:“I am a student.”在一种可能的实现方式中,可以对待压缩文本进行分割处理得到如下12个文本单元:“学生”、“小”、“明”、“说”、“:”、““”、“I”、“am”、“a”、“student”、“.”、“””。
针对同一待压缩文本,在另一种可能的实现方式中,可以对待压缩文本进行分割处理得到如下13个文本单元:“学”、“生”、“小”、“明”、“说”、“:”、““”、“I”、“am”、“a”、“student”、“.”、“””,与上述示例的不同之处在于,将其中的“学生”分割为了“学”和“生”。
在一种可能的实现方式中,文本单元的划分方式可以根据待压缩文本对应的字符类型进行划分,其中字符类型可以为中文词语、中文汉字等,例如上述示例中,因为在第二种假设中不包括中文词语的字符类型,因此会按照中文汉字分割出“学”和“生的文本单元。
或者,文本单元的划分还可以为预先划分的;或者,还可以为根据预设文本单元分割模型对待压缩文本进行处理得到的,本实施例对文本单元的具体划分方式不做特别限定,例如还可以将上述示例中的“I am a student”划分为一个文本单元等,各文本单元的具体划分方式可以根据实际需求进行选择。
S102、根据各个文本单元各自对应的像素值,将各个文本单元转化为对应的各个像素,得到压缩处理后的图片。
在本实施例中,每个文本单元对应有各自的像素值,其中像素值用于唯一的指示一个文本单元。
在一种可能的实现方式中,像素值可以为灰度值,例如灰度值50可以对应文本单元“,”;或者,像素值还可以为颜色值,例如RGB的颜色值(123,23,45)可以对应文本单元“学生”,具体的,灰度值和颜色值均可以用于指示文本单元,其中,具体的文本单元和像素值之间的对应关系可以为根据实际需求预设的。
在可选的实施例中,像素值可以与文本单元关联存储,例如灰度值或者颜色值与各文本单元一一关联存储,从而根据灰度值或者颜色值就可以唯一的确定一个文本单元;或者,像素值还可以单独存储,存储在专门用于指示文本单元的数据库模块中,本实施例对此不做限定。
具体的,在对文本单元进行压缩存储时,直接将各个文本单元转化为对应的各个像素,各个像素可以组成图片,从而得到压缩处理后的图片。
在获得压缩处理后的图片后,可以对压缩处理后的图片进行存储。本申请实施例获得的压缩处理后的图片可有效减少需要的存储空间。在进行数据存储时,若一个中文汉字占用两个字节,一个英文字母占用一个字节,1个字符占用一个字节,以上述介绍的待压缩文本“学生小明说:“I am astudent.””为例,如果认为待压缩文本包括5个中文汉字,11个英文字母以及7个字符(包括3个空格),则上述待压缩文本正常存储时需要占用28个字节。然而,若将上述待压缩文本按照本申请实施例分割处理得到12个文本单元,将各文本单元转化为对应的各个像素值,则能够有效减少占用的字节数,假设标点符号(5个)和英文字母(2个)采用灰度值进行表示,中文词语(1个)、中文汉字(3个)以及英文单词(2个)采用颜色值进行表示,其中一个灰度值的像素占用1个字节,一个颜色值的像素采用3个字节,则将各个文本单元转换为对应的像素之后,对压缩处理后的图片进行存储只需要25个字节。
因为能够按照各文本单元的方式进行压缩,因此其中的空格也可以作为一个文本单元进行压缩,就不需要再进行额外的存储,由此可以看出本实施例提供的方法有效实现了对待压缩文本的压缩。
以上仅为示例性的介绍,各像素所组成的压缩处理后的图片的存储例如可以采用二值图像、灰度图像以及三基色图像中的一种或者任意几种的组合,具体的,例如采用灰度值表示各文本单元时,若灰度值仅包括白色灰度值和黑色灰度值,则压缩处理后的图片可以为二值图像;或者,若灰度值包括0~255之间的灰度值,则压缩处理后的图片可以为灰度图片;或者,在采用颜色值表示各文本单元时,因为颜色值对应有RGB(红绿蓝)值,则压缩处理后的图片可以为三基色图像,本领域技术人员可以理解,压缩处理后的图片的具体存储形式取决于文本单元的像素值标识,本实施例对图片的存储形式不作限定,其可以根据实际需求进行选择。
具体的,对上述得到的压缩处理后的图片进行存储,就能够实现对待压缩文本的存储。
本发明实施例提供的数据压缩方法,包括:确定待压缩文本中各个文本单元各自对应的像素值。根据各个文本单元各自对应的像素值,将各个文本单元转化为对应的各个像素,得到压缩处理后的图片。通过将待压缩文本中各文本单元转化为各自对应的各个像素,接着根据各个像素得到压缩处理后的图片,其不需要存储额外的位置信息和特征信息,因此能够有效提高对待压缩数据的压缩程度。
在上述实施例的基础上,下面结合图2至图4对本发明实施例提供的数据压缩方法进行进一步的详细介绍,图2为本发明实施例提供的数据压缩方法的流程图二,图3为本发明实施例提供的数据压缩方法的示意图一,图4为本发明实施例提供的数据压缩方法的示意图二。
如图2所示,该方法包括:
S201、确定待压缩文本中各个文本单元各自的字符类型。
其中,待压缩文本所包括的各个文本单元对应有各自的字符类型,本实施例中字符类型用于指示各文本单元具体是什么类型,在可能的示例中,文本单元的字符类型例如可以为:中文汉字、中文词语、中文成语、中文谚语、英文字母、英文单词、英文短语、标点符号、希腊字母、阿拉伯数字等,本领域技术人员可以理解,文本单元的类型可以根据实际需求进行设置,本实施例对此不做特别限制。
在一种可能的实现方式中,压缩系统可根据预置的字符类型,确定待压缩文本中的文本内容是否包含预置的字符类型,以及确定出各个字符类型对应的文本单元。预置的字符类型如:中文汉字、中文词语、英文字母、英文单词、标点符号和数字。压缩系统可根据预置待压缩文本所包括的文本内容确定待压缩文本所包括的字符类型。
可选的,压缩系统根据预置的各个字符类型的优先级,确定待压缩文本中的文本内容是否包含各个字符类型,并确定各个字符类型对应的文本单元。例如,假设文本单元的字符类型的优先级顺序为:中文词语、中文汉字、英文单词、英文字母、标点符号,则按照优先级顺序首先将待压缩文本“学生小明说:“I am a student.””中的中文词语分割出来,得到1个目标文本单元是“学生”,其次在判断之后确定不存在中文词语的文本单元,则将其中的中文汉字分割出来,得到3个目标文本单元“小”、“明”、“说”,重复执行上述操作,直至待压缩文本被分割完成,则得到了第一种示例中介绍的12各文本单元及其对应的字符类型。
在可选的实施例中,若“小明”这个词语属于中文词语的字符类型,则上述示例中分割得到的目标文本单元可以包括:“学生”、“小明”、“说”、“:”、““”、“I”、“am”、“a”、“student”、“.”、“””,因此本领域技术人员可以理解的是,文本单元的划分以及文本单元的字符类型的确定是取决于待压缩文本对应的字符类型,以及字符类型中所包括的文本单元的内容的。
S202、确定字符类型对应的数据库。
在本实施例中,在进行压缩处理之前,针对每种字符类型,预先设置有数据库,该数据库中存储有属于该字符类型的文本单元以及每个文本单元对应的像素值,如字符类型为中文汉字时,设置有中文汉字的数据库,在中文汉字的数据库中存储有多个中文汉字,以及各中文汉字对应的像素值,又如字符类型为中文谚语时,还可以设置有中文谚语的数据库,则其中存储有多个中文谚语及各中文谚语对应的像素值。
本领域技术人员可以理解,具体设置有哪些数据库,以及各数据库中包括的内容都可以根据实际需求进行设置,如设置中文汉字的数据库时,可以仅包括常用汉字,而不用包括全部的中文汉字,本实施例对数据库的设置不做限定。
在本实施例中,例如可以在压缩系统中预先设置有默认的数据库,即无论当前的目标文本单元包括什么类型,其均对应有相同的数据库;或者,数据库还可以为目标文本单元的类型确定的,如用户在进行压缩之前,确定待压缩文本中包括大量的中文谚语,则可以将中文谚语的数据库添加至系统中,以便后续对中文谚语的文本单元进行压缩处理,其中数据库的选择可以根据实际需求进行设定,本实施例对此不作限制。
S203、从数据库中获取字符类型对应的各个文本单元各自对应的像素值。
在本实施例中,像素值可以包括颜色值、灰度值中的至少一种,此处首先对颜色值和灰色值进行简单说明,其中颜色值可以包括红色色值、绿色色值和蓝色色值,可选的,颜色值和灰色值的范围区间都是0~255,具体的,在各数据库中采用颜色值或者灰度值指示唯一的一个目标单元。
在本实施例中,采用灰度值表示的像素所占用的字节数小于采用颜色值标识的像素所占用的字节数,因此在文本单元的数量小于灰度值的范围区间时,可以仅采用灰度值表示文本单元,在文本单元的数量不小于灰度值的范围区间时,单独的灰度值无法完全表示各个文本单元,此时需要采用颜色值表示各文本单元,因此本实施例根据灰度值的范围区间设置有预设数量,其中预设数量为小于255的数值。
具体的,若数据库中文本单元的数量小于预设数量,则像素值可以只包括灰度值,如标点符号的数据库,现有的标点符号的数量是小于255的,因此仅采用灰度值(0-255)就可以表示所有的标点符号,则该数据库的像素值包括灰度值,灰度值在存储时仅占用一个字节,因此对文本单元的数量小于预设数量的数据库,采用灰度值作为其像素值,能够减少存储字节,从而提升压缩程度。
或者,若数据库中文本单元的数量大于预设数量,则像素值可以包括颜色值(红色色值、绿色色值和蓝色色值)。
具体的,例如中文汉字的数据库,因为中文汉字的数量是远超过255的,因此采用灰度值无法实现对中文汉字的表示,则采用不同的红色色值、绿色色值和蓝色色值的组合唯一的表示一个文本单元,根据各颜色值的范围可知组合数量为255×255×255=16581375,约1658万种组合方式可以囊括任意一种类型的所有文本单元,因此本实施例采用红色色值、绿色色值和蓝色色值表示数量大于预设数量的文本单元。
本领域技术人员可以将红色色值、绿色色值和蓝色色值理解为一个空间象限,其中红色色值、绿色色值和蓝色色值分别对应x,y,z三个轴,空间象限中的各个点的坐标对应的红色色值、绿色色值和蓝色色值可以唯一指示一个文本单元,而灰度值则可以作为空间象限的唯一标示。
本领域技术人员可以理解,在不同的数据库中,像素值可以有相同的表达,然而其对应不同的文本单元,如标点符号的数据库中灰度值2可以用于指示“,”,而在英文字母的数据库中灰度值23可以用于指示“B”;或者在中文词语的数据库中颜色值(112,145,209)用于指示“密码”,而在英文词语的数据库中颜色值(112,145,209)可以用于指示“plant”,即在不同的数据库中可以存在相同的像素值表示,但是因为其存在于不同的数据库,因此仍然能够唯一的指示一个文本单元,只要各数据库中不存在相同的像素值即可。
其中,各文本单元对应的像素值的具体表示可以根据实际需求进行设定,本领域技术人员可以理解,例如可以采用第三方数据库实现数据压缩,或者还可以自行定义数据库,本实施例对此不做限制,只要保证像素值属性信息与文本单元是一一对应的即可。
本领域技术人员可以理解,例如针对中文谚语、中文词语或者自定义的一段话的数据库,本实施例提供的方法可以实现出更好的效果,例如针对谚语“多一事不如少一事”,其包括8个中文汉字,在正常存储时需要存储16个字节的内容,即使采用现有技术的方式进行压缩,也需要对每个汉字对应的码流信息分别进行存储,然而本实施例仅仅采用一个像素值对应的像素点就可以实现对这8个汉字的存储,针对一段话的压缩效果则更加显著,从而大大提升了压缩程度。
在可选的实施例中,灰度值处理用于表示文本单元之外,还可以用于表示字符类型,例如灰度值“1”用于表示“中文汉字”的字符类型,灰度值“2”用于表示“中文词语”的字符类型,在灰度值用于表示字符类型时,确定各文本单元各自对应的像素值的具体实现方式可以为:
根据字符类型,确定各个文本单元各自对应的颜色值。
也就是说,在这种情况下,灰色值用于指示文本单元的字符类型,颜色值用于指示该字符类型下的各个文本单元。
具体的,确定各文本单元各自对应的颜色值的具体实现方式可以是上述介绍的从数据库中查找而获取,或者,还可以是采用数组、键值对等任意形式实现确定文本单元对应的颜色值,同时,此时的灰度值则用于指示各个数据库、或者数组、或者键值对集合。
在可选的实施例中采用范围为0~255的灰度值指示各个字符类型,因为现有的文本单元的类型划分通常只有几十种,其类型的数值小于灰度值所囊括的范围,因此灰度值不仅仅可以囊括所有的现有的文本单元的类型,还可以在不同的使用场景下扩展更多的自定义数据库,如在进行一本小说的压缩时,可以将小说中的常用语(可以是一句文字内容、一段文字内容等)作为一个数据库,例如采用灰度值“10”对自定义的数据库进行标识,本领域技术人员可以理解,各字符类型对应的灰度值可以根据实际需求进行设定,只要保证各数据库对应不同的灰度值即可。
值得说明的是,本实施例中的灰度值可以在表示字符类型的同时,还用于表示文本单元,例如当前灰度值“3”表示标点符号的字符类型的同时,还可以在标点符号的字符类型下采用灰度值“3”表示逗号“,”,至于两者的区分,可以采用不同的字段进行标识,例如当前两个字段分别为<字符类型,文本单元>,则<3,3>就表示“,”。
S204、根据各个文本单元各自对应的像素值,将各个文本单元转化为对应的各个像素,得到压缩处理后的图片。
以各个文本单元是“学生”、“小”、“明”、“说”、“:”、““”、“I”、“am”、“a”、“student”、“.”、“””为例,以上述介绍的灰度值用于指示字符类型,颜色值和灰度值用于指示文本单元为例,其对应的像素值例如可以如下表1所示:
表1
上述表1中所出现表示颜色值和灰度值的各个字母为0-255之间的整数,本实施例对颜色值和灰度值的具体实现不做限定,从上表1可以看出“学生”属于一个字符类型,“小”、“明”、“说”属于一个字符类型,“:”、““”、“.”、“””属于一个字符类型,“I”、“a”属于一个字符类型,“am”、“student”属于一个字符类型。
则根据每个文本单元对应的像素值,可以确定每个文本单元对应的对应的像素,其示例例如可以如图3所示,图3中采用不同的阴影效果表示不同的像素,参见图3,针对“学生”对应的像素和“am”对应的像素,其颜色值是相等的,因此表现出的颜色也是相等的,但是因为其灰度值不同(字符类型不同),从而能够指示两个不同的文本单元。
在一种可能的实现方式中,可以按照每个文本单元在待压缩文本中的排列顺序,对所有的像素进行排列,得到排列后的像素,接着根据排列后的像素,得到压缩处理后的图片。
具体的,为保证待压缩文本压缩后存储的正确性和可读性,本实施例在对各像素进行存储时,是按照每个文本单元在待压缩文本中的排列顺序进行排列,从而得到压缩处理后的图片的。
同时,在本实施例中,按照文本单元在待压缩文本中的排列顺序对像素进行排列,从而不需要额外记录文本单元在待压缩文本中的位置信息,以及本实施例在待压缩文本中包括特殊字符和多种语言时,其均可以按照像素的方式进行存储,从而还不需要记录额外的特征信息因此能够有效提升数据压缩的压缩程度。
其中,各像素的排列得到压缩处理后的图片的实现方式可以参照图4,其中像素构成的压缩处理后的图片可以为矩形,而图片一共包括几行几列是可以根据实际需求进行设定的,本实施例中通过根据排列后的像素得到压缩处理后的图片,从而能够在一张图片上同时包括不同数据库的文本单元对应的像素,克服了现有技术中存储像素时,同类型的像素之间必须连续存储导致的像素存储缺乏灵活性。
值得说明的是,本实施例中只是像素的排列需要按照文本单元的排列顺序进行存储,而像素内部的像素值的排列是可以任意设置的,例如可以按照红色色值、绿色色值、蓝色色值的顺序,或者还可以按照红色色值、蓝色色值、绿色色值的顺序,从而能够扩展数据压缩的灵活性。
在本实施例中,若采用灰度值表示文本单元,则压缩处理后的图片为灰度图像;若采用颜色值表示文本单元,则压缩处理后的图片为三基色图像。
其中,对于包括256种状态的灰度图像,其在不压缩的情况下一个像素需要占用1字节;对于采用三基色图像,其在不压缩的情况下一个像素需要3字节,则上述示例介绍的待压缩文本共需要25个字节,其具体实现在上述实施例中已经进行了介绍,此处不再赘述。
本发明实施例提供的数据压缩方法,包括:确定待压缩文本中各个文本单元各自的字符类型。确定字符类型对应的数据库。从数据库中获取字符类型对应的各个文本单元各自对应的像素值。根据各个文本单元各自对应的像素值,将各个文本单元转化为对应的各个像素,得到压缩处理后的图片。通过根据灰度值和/或颜色值指示文本单元,从而可以采用像素值指示所有需求的文本单元,并支持自定义扩展,在数据库中文本单元的数量小于预设数量时,采用灰度值指示文本单元,从而能够有效降低需要存储的字节数,从而提高对待压缩文本的压缩程度。
在上述实施例的基础上,本实施例提高的数据压缩方法得到的压缩处理后的图片数据可以无需解压缩即进行使用,具体的,可以根据图片数据中所包括的像素的像素值得到对应的文本单元,从而进行文本数据的处理,或者,还可以直接根据像素的像素值进行文本数据的处理,从而避免了现有技术在实现数据压缩之后,必须要进行解压缩才能够实现使用的问题,实现了压缩数据的直接使用,提升数据处理效率。
图5为本发明实施例提供的数据压缩装置的结构示意图。如图5所示,该装置50包括:确定模块501以及压缩模块502。
确定模块501,用于确定待压缩文本中各个文本单元各自对应的像素值;
压缩模块502,用于根据所述各个文本单元各自对应的像素值,将所述各个文本单元转化为对应的各个像素,得到压缩处理后的图片。
在一种可能的设计中,所述确定模块501具体用于:
确定待压缩文本中各个文本单元各自的字符类型;
根据所述字符类型,确定各个文本单元各自对应的像素值。
在一种可能的设计中,所述确定模块501具体用于:
确定所述字符类型对应的数据库;
从所述数据库中获取所述字符类型对应的各个文本单元各自对应的像素值。
在一种可能的设计中,所述字符类型通过灰度值进行指示;
则所述确定模块501具体用于:
根据所述字符类型,确定各个文本单元各自对应的颜色值。
在一种可能的设计中,所述字符类型包括如下中的至少一种:中文汉字、中文词语、英文字母、英文单词、数字、标点符号。
本实施例提供的装置,可用于执行上述方法实施例的技术方案,其实现原理和技术效果类似,本实施例此处不再赘述。
图6为本发明实施例提供的数据压缩设备的硬件结构示意图,如图6所示,本实施例的数据压缩设备60包括:处理器601以及存储器602;其中
存储器602,用于存储计算机执行指令;
处理器601,用于执行存储器存储的计算机执行指令,以实现上述实施例中数据压缩方法所执行的各个步骤。具体可以参见前述方法实施例中的相关描述。
可选地,存储器602既可以是独立的,也可以跟处理器601集成在一起。
当存储器602独立设置时,该数据压缩设备还包括总线603,用于连接所述存储器602和处理器601。
本发明实施例还提供一种计算机可读存储介质,所述计算机可读存储介质中存储有计算机执行指令,当处理器执行所述计算机执行指令时,实现如上数据压缩设备所执行的数据压缩方法。
在本发明所提供的几个实施例中,应该理解到,所揭露的设备和方法,可以通过其它的方式实现。例如,以上所描述的设备实施例仅仅是示意性的,例如,所述模块的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个模块可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或模块的间接耦合或通信连接,可以是电性,机械或其它的形式。
上述以软件功能模块的形式实现的集成的模块,可以存储在一个计算机可读取存储介质中。上述软件功能模块存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)或处理器(英文:processor)执行本申请各个实施例所述方法的部分步骤。
应理解,上述处理器可以是中央处理单元(英文:Central Processing Unit,简称:CPU),还可以是其他通用处理器、数字信号处理器(英文:Digital Signal Processor,简称:DSP)、专用集成电路(英文:Application Specific Integrated Circuit,简称:ASIC)等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。结合发明所公开的方法的步骤可以直接体现为硬件处理器执行完成,或者用处理器中的硬件及软件模块组合执行完成。
存储器可能包含高速RAM存储器,也可能还包括非易失性存储NVM,例如至少一个磁盘存储器,还可以为U盘、移动硬盘、只读存储器、磁盘或光盘等。
总线可以是工业标准体系结构(Industry Standard Architecture,ISA)总线、外部设备互连(Peripheral Component,PCI)总线或扩展工业标准体系结构(ExtendedIndustry Standard Architecture,EISA)总线等。总线可以分为地址总线、数据总线、控制总线等。为便于表示,本申请附图中的总线并不限定仅有一根总线或一种类型的总线。
上述存储介质可以是由任何类型的易失性或非易失性存储设备或者它们的组合实现,如静态随机存取存储器(SRAM),电可擦除可编程只读存储器(EEPROM),可擦除可编程只读存储器(EPROM),可编程只读存储器(PROM),只读存储器(ROM),磁存储器,快闪存储器,磁盘或光盘。存储介质可以是通用或专用计算机能够存取的任何可用介质。
本领域普通技术人员可以理解:实现上述各方法实施例的全部或部分步骤可以通过程序指令相关的硬件来完成。前述的程序可以存储于一计算机可读取存储介质中。该程序在执行时,执行包括上述各方法实施例的步骤;而前述的存储介质包括:ROM、RAM、磁碟或者光盘等各种可以存储程序代码的介质。
最后应说明的是:以上各实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述各实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分或者全部技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的范围。

Claims (4)

1.一种数据压缩方法,其特征在于,包括:
确定待压缩文本中各个文本单元各自的字符类型;
根据所述字符类型,确定各个文本单元各自对应的像素值;
根据所述各个文本单元各自对应的像素值,将所述各个文本单元转化为对应的各个像素,得到压缩处理后的图片;
根据所述字符类型,确定各个文本单元各自对应的像素值,包括:
确定所述字符类型对应的数据库;
从所述数据库中获取所述字符类型对应的各个文本单元各自对应的像素值;
或者,
若所述字符类型通过灰度值进行指示;
则根据所述字符类型,确定各个文本单元各自对应的像素值,包括:
根据所述字符类型,确定各个文本单元各自对应的颜色值。
2.一种数据压缩装置,其特征在于,包括:
确定模块,用于
确定待压缩文本中各个文本单元各自的字符类型;
根据所述字符类型,确定各个文本单元各自对应的像素值;
压缩模块,用于根据所述各个文本单元各自对应的像素值,将所述各个文本单元转化为对应的各个像素,得到压缩处理后的图片;
所述确定模块具体用于:
确定所述字符类型对应的数据库;
从所述数据库中获取所述字符类型对应的各个文本单元各自对应的像素值;
或者,
若所述字符类型通过灰度值进行指示;
则所述确定模块具体用于:
根据所述字符类型,确定各个文本单元各自对应的颜色值。
3.一种数据压缩设备,其特征在于,包括:
存储器,用于存储程序;
处理器,用于执行所述存储器存储的所述程序,当所述程序被执行时,所述处理器用于执行如权利要求1所述的方法。
4.一种计算机可读存储介质,其特征在于,包括指令,当其在计算机上运行时,使得计算机执行如权利要求1所述的方法。
CN201910968344.4A 2019-10-12 2019-10-12 数据压缩方法及装置、设备、存储介质 Active CN111369422B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910968344.4A CN111369422B (zh) 2019-10-12 2019-10-12 数据压缩方法及装置、设备、存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910968344.4A CN111369422B (zh) 2019-10-12 2019-10-12 数据压缩方法及装置、设备、存储介质

Publications (2)

Publication Number Publication Date
CN111369422A CN111369422A (zh) 2020-07-03
CN111369422B true CN111369422B (zh) 2023-09-15

Family

ID=71211335

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910968344.4A Active CN111369422B (zh) 2019-10-12 2019-10-12 数据压缩方法及装置、设备、存储介质

Country Status (1)

Country Link
CN (1) CN111369422B (zh)

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5109433A (en) * 1989-10-13 1992-04-28 Microsoft Corporation Compressing and decompressing text files
US7310769B1 (en) * 2003-03-12 2007-12-18 Adobe Systems Incorporated Text encoding using dummy font
CN106330976A (zh) * 2016-11-03 2017-01-11 武汉斗鱼网络科技有限公司 一种信息加、解密的方法及装置
CN106776677A (zh) * 2016-10-25 2017-05-31 腾讯科技(深圳)有限公司 文件转换方法、装置及文件传输系统

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR100859501B1 (ko) * 2007-08-01 2008-09-22 김학수 이미지 데이터에 상응하는 텍스트 패턴화 데이터를생성하고 텍스트 패턴화 데이터를 이용하여 이미지데이터를 재구성하는 방법 및 장치

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5109433A (en) * 1989-10-13 1992-04-28 Microsoft Corporation Compressing and decompressing text files
US7310769B1 (en) * 2003-03-12 2007-12-18 Adobe Systems Incorporated Text encoding using dummy font
CN106776677A (zh) * 2016-10-25 2017-05-31 腾讯科技(深圳)有限公司 文件转换方法、装置及文件传输系统
CN106330976A (zh) * 2016-11-03 2017-01-11 武汉斗鱼网络科技有限公司 一种信息加、解密的方法及装置

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
常为领 ; 方滨兴 ; 云晓春 ; 王树鹏 ; 余翔湛 ; .一种支持ANSI编码的中文文本压缩算法.中文信息学报.2010,(05),96-105. *
游荣彦,李吉桂.通用简易中文文本压缩方法研究.华南师范大学学报(自然科学版).2001,(02),84-88. *
胡奎 ; 汤帜 ; 高良才 ; .基于多级特征提取的中文文本图像压缩算法.北京大学学报(自然科学版).2010,(06),914-920. *

Also Published As

Publication number Publication date
CN111369422A (zh) 2020-07-03

Similar Documents

Publication Publication Date Title
CN108038093B (zh) Pdf文字提取方法和装置
CN105426944A (zh) 方形点阵防伪标签组、以及对其进行识读的方法与系统
EP2442256B1 (en) Method of encoding and decoding text on a matrix code symbol
CN111222611A (zh) 一种基于颜色的堆叠式三维码编码方法、编码装置、解码方法、解码装置以及存储介质
WO2014178903A1 (en) Hardware glyph cache
CN111369422B (zh) 数据压缩方法及装置、设备、存储介质
CN110996026B (zh) 一种osd显示方法、装置、设备及存储介质
CN112528984A (zh) 图像信息抽取方法、装置、电子设备及存储介质
JP2740335B2 (ja) 自動セル属性判定機能を有する表読取装置
CN113038184B (zh) 数据处理方法、装置、设备及存储介质
CN111178002A (zh) 字符显示方法、系统及装置
CN102467490A (zh) 一种字体数据的处理方法及装置
CN107943760B (zh) Pdf文档编辑的字体优化方法、装置、终端设备和存储介质
CN108876703B (zh) 数据存储方法
CN109492195B (zh) 一种字体加载方法、装置、终端及存储介质
CN113391779A (zh) 类纸屏幕的参数调节方法、装置及设备
CN106776489B (zh) 显示设备的电子文档显示方法和系统
CN113093967A (zh) 数据生成方法、装置、计算机装置及存储介质
CN110609669A (zh) 界面处理方法、装置、存储介质及电子设备
CN102110082B (zh) 一种小样文件的补字输出方法及系统
CN112907429B (zh) 数字签名设置和提取方法、装置、存储介质及电子设备
KR100392819B1 (ko) 폰트 롬 생성저장 및 독출방법과 그 장치
CN117952563B (zh) 一种电梯信息系统中快速注册及审查方法及系统
CN105373822A (zh) 一种矩形防伪标签、以及对其进行识读的方法与系统
CN103685979A (zh) 基于αRGB1555格式的点阵字符快速叠加图像的方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant