CN109783776A - 一种适用于文本文档的生成式图像压缩方法及装置 - Google Patents

一种适用于文本文档的生成式图像压缩方法及装置 Download PDF

Info

Publication number
CN109783776A
CN109783776A CN201910059573.4A CN201910059573A CN109783776A CN 109783776 A CN109783776 A CN 109783776A CN 201910059573 A CN201910059573 A CN 201910059573A CN 109783776 A CN109783776 A CN 109783776A
Authority
CN
China
Prior art keywords
image
color
value
matrix
document
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201910059573.4A
Other languages
English (en)
Other versions
CN109783776B (zh
Inventor
刘丹
陈亚军
王少康
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Digital Network Maintenance Technology Co Ltd
Original Assignee
Beijing Digital Network Maintenance Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Digital Network Maintenance Technology Co Ltd filed Critical Beijing Digital Network Maintenance Technology Co Ltd
Priority to CN201910059573.4A priority Critical patent/CN109783776B/zh
Publication of CN109783776A publication Critical patent/CN109783776A/zh
Application granted granted Critical
Publication of CN109783776B publication Critical patent/CN109783776B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Image Processing (AREA)

Abstract

本发明涉及信息处理领域,尤其涉及一种适用于文本文档的生成式图像压缩方法及装置。包括如下步骤:(1)将文本文档转换为RGB位图;(2)根据文本文档特征来预构建颜色表;(3)对RGB位图进行映射索引,使用每个像素RGB值与颜色表进行映射,在颜色表中寻找最接近的颜色值,确定对应的索引色,并记录索引号,组成索引色图像;(4)按LZW或其他数据压缩算法对图像数据区进行压缩,形成最后的图像文件。通过本发明的图像压缩方法,适应性的对文件公文进行合理的滤波、去噪、尽可能在图片扫描和压缩过程中保留原始文字和颜色信息,去噪简单速度快,文件转换算法易于编程,比较适用于公文文档类像素颜色复杂度不高的文件存储工作。

Description

一种适用于文本文档的生成式图像压缩方法及装置
技术领域
本发明涉及信息处理领域,尤其涉及一种适用于文本文档的生成式图像压缩方法及装置。
背景技术
随着信息技术的发展,历史遗存了大量的纸质公文档案需要进行数字化,常见的方式是以扫描图像的形态来保存;同时电子公文作为一个严肃内容载体,其展现形态有其固定的格式,采用图像格式作为公文文档的载体进行信息公开及共享,在便利性及准确性方面可以取得较好的平衡。
目前的图像压缩算法并未针对公文类图像进行优化,本发明描述的一种生成式图像压缩方法,适用于文本文档产生的图像文件,可在保持原有显示效果的基础上,有效压缩图像文件体积,有利于文件的共享利用。
公文是党政军和企事业单位机关实施领导、履行职能、处理公务的具有特定效力和规范体式的文书,是传达贯彻方针政策,公布法规和规章,指导、布置和商洽工作,请示和答复问题,报告、通报和交流情况等的重要工具。公文以及类似文档有以下特征:
(1)内容主要是文字和图表,较少出现彩色图片;
(2)文档整体颜色域简单,只有少数几种颜色取值;
我们称之为为文书类文档。
相当多的文书类文档有公开发布的需求,公开发布使用何种格式作为文本文档载体是一个重要课题,许多研究和方案集中于如何尽可能减少对阅读终端的环境需求,即不要求文档的阅读终端具备特定的硬件和软件。图像是一种被广泛支持的电子文件格式,大多数的终端如PC、移动终端、手机等有丰富的软件支持图像格式,甚至连各类终端上的网页浏览器和PDF阅读器也支持图像格式,因此选用图像作为文档发布的承载格式或格式核心,对阅读终端的要求可被降低到最小。文档转换为图像发布解决了受众终端阅读的问题,但仍需要在此基础上提出优化方案,强化其优点,有效弥补其短板。
相同内容的图像与文本文件相比,其体积增加数倍甚至数十倍,因此,尽量压缩待发布图像文件的体积成为图像发布方案的重要组成部分。本发明描述的一种图像压缩方法,适用于文书文档产生的图像文件,可在原有基础上有效压缩图像文件体积。
发明内容
本发明的目的在于提供一种适用于文本文档的生成式图像压缩方法。
本发明的目的还在于提供一种适用于文本文档的生成式图像压缩装置。
本发明的目的可实现的方式是:
一种适用于文本文档的生成式图像压缩方法,包括如下步骤:
(1)将文本文档转换为RGB位图;
(2)根据文本文档特征来预构建颜色表;
(3)对RGB位图进行映射索引,使用每个像素RGB值与颜色表进行映射,在颜色表中寻找最接近的颜色值,确定对应的索引色,并记录索引号,组成索引色图像;
(4)按LZW或其他数据压缩算法对图像数据区进行压缩,形成最后的图像文件。
所述的将文本文档转换为RGB位图包括:
根据文本文档的扫描图像YUV参数构建RGB位图;
R、G、B代表红、绿、蓝三个通道的颜色值;Y表示明亮度,也就是灰阶值;U和V分别表示色度的色调与饱和度;WR、WG、WB为BT601标准值,WR=0.302、WG=0.584、WB=0.144;MAX代表最大值。
所述的根据文本文档特征来预构建颜色表,包括:
(1)第一次聚类提取RGB位图的颜色表Q1
Q1={z1、z2、…zn};
zn为RGB位图的颜色点,n为颜色点个数Q2
(2)第二次聚类得到扩展颜色表;
其中σ为扩展因子,Q2为n×σ阶矩阵;其好处是:二次聚类将块内的颜色表进行细化,保持块内之间颜色的关联性和颜色组合的多样性。
(3)进行标准化处理得到zij *
zij *为标准化后的值,zij为扩展颜色表Q2中颜色点值;α为所有样本数据的均值;β为所有样本数据的标准差;
(4)对RGB位图进行亮度自适应;
Itl为颜色表的亮度均值、Ctl为颜色表原始亮度值、Ptl为颜色表的亮度均值、Iml为RGB位图的亮度均值、Cml为RGB位图的原始亮度值、Pml为RGB位图的亮度均值;
通过步骤(2.1)——(2.4)获得预构建颜色表。
所述的对RGB位图进行映射索引,使用每个像素RGB值与颜色表进行映射,包括:
成像系统输出物体图像ck为:
ck=∫λrk(λ)ρk(λ)sk(λ)o(λ)dλ;
k为成像系统通道编号;ck为成像系统中第k个通道的输出响应;r(λ)为光谱响应曲线;s(λ)为光源光谱的响应曲线;o(λ)为光源的光谱功率谱,ρk(λ)每个通道前滤光片的光谱透射率;其中,物体图像代表文本图像;
将物体图像ck用离散矩阵方式表示为:
Cn=(Rnρn)TSnRn;
Cn为成像系统输出的多通道图像;Sn为RGB图像表面的光谱反射率;Rn为对角线元素为r(λ)的对角矩阵;对角线上的元素r(λ)为成像系统在各个波长上的光谱响应度;
ρn为成像系统的光谱透射率;
Sn为以光照的光谱功率分布为对角元素的对角矩阵;
Cn即为光谱成像系统的正像模型;
通过光谱成像系统的正像模型的逆变换计算出RGB位图与颜色表的映射关系。
所述的在颜色表中寻找最接近的颜色值,确定对应的索引色;
(1)除低光谱成像系统的正像模型Cn对比度的点,得到Cn(χ);
χ=(x,y,σ)o(λ)
x,y为图像像素坐标值,σ为图像层尺度参数;
对Cn(χ)的极值进行获取,得到
计算则该点属于地对比度点,删除即可;
(2)剔除光谱成像系统的正像模型Cn边缘点;
构建图像HESSIAN矩阵为:
Cij为像素坐标为(i,j)的点Cn值;
对矩阵H的行列式等进行计算;
Sr(H)=Cxx+Cyy=α+β;
Bet(H)=CxxCyy-Cxy 2=αβ;
令α=θβ,
Bet(H)为二阶矩阵H行列式的值,Sr(H)为二阶矩阵H的正对角线的和值,α、β为设定的预设值,即像素点的满足值,θ为倍数,则像素点不能满足上式,则剔除;
将RBG位图的像素在颜色表中寻找最接近的颜色值确定对应的索引色。
在除低光谱成像系统的正像模型Cn对比度的点之前对图像文件进行降噪;需对所述的图像文件进行压缩封装前对相应的图像信息进行去噪包括:
(6.1)将所有的图像信息文档G(t)={g1,g2,g3,…,gN}构造成m×n阶文档矩阵,gi为字体、图像信息文档集G(t)的第i个图像信息文档;
(6.2)设定文档矩阵的维数n;
(6.3)从G(t)中抽取{g1,g2,g3,…,gn}作为矩阵的第一行;
(6.4)依次向后延迟一个文档,直到n行最后一个信号为GN,作为矩阵的最后一行,此时N=n+m-1;
形成的矩阵为:
Xm×n为原始信号构成的m﹡n维矩阵;Vm×n为噪声信号构成的m﹡n维矩阵;若N为偶数,则m=N/2+1,n=N/2;若N为奇数,m和n均为(N+1)/2;
(6.5)对H进行奇异值分解;
H=ΣWRT
W为m﹡m维的酉阵;R为n﹡n维的酉阵,即H的左右奇异矩阵,T表示矩阵的转置矩阵;Σ为m﹡n维对角阵,主对角线的元素αi为H的非零奇异值,以递增顺序排列,即α1≥α2≥α3≥…≥αi
(6.6)确定Σ的有效秩即前l个最大的奇异值;重构H的逼近矩阵Yl
Wl是前l个最大的奇异值对应的左奇异向量;Wm-1是前m-1个最大的奇异值对应的左奇异向量;Rm-1是前m-l个最大的奇异值对应的右奇异向量;Rl是前l个最大的奇异值对应的右奇异向量;Σl为前l个最大的奇异值对应的对角阵;
(6.7)将Yl中图像信息相匹配的文档分量重构成文档矩阵:
ε=min(l,γ-ε+l),γ=max(n,k);
W即为去噪后的图像信息。
所述压缩过程的输入为一个长度为n的整数数组d,输出为长度不大于n的整数数组r;查找表保存了modenum和bitlength两个大小为9的整数数组,提供了填充模式可编码整数个数和对应的比特宽度,压缩开始时进行填充模式下标j和临时压缩码字c初始化,使得从编码个数最多的填充模式开始;然后对于该填充模式检查d中modenum[j]个连续整数,如果都小于该填充模式的最大可表示数字,将该整数按照固定的比特宽度添加到整数c的末尾;每个填充模式最大可表示数字是通过该模式的比特宽度来计算的;否则,当能编码的整数个数i大于下一模式能编码整数的个数modenum[j+1]时,保留当前使用的填充模式,在序列末尾插入额外的零来形成一个完整的填充模式;通过将码字向左移位使28个数据位达到最左侧;当能编码的整数个数小于下一个模式的编码个数时,选择下一个填充模式,将该模式的状态位添加到码字c的头部并添加到结果码字数组r,算法接着执行下一个32位压缩,在d中数字压缩完毕终止。
此外,一种适用于文本文档的生成式图像压缩装置,包括:
RGB位图转换器:将文本文档转换为RGB位图;
颜色表构建模块:根据文本文档特征来预构建颜色表;
颜色索引器:对RGB位图进行映射索引,使用每个像素RGB值与颜色表进行映射,在颜色表中寻找最接近的颜色值,确定对应的索引色,并记录索引号,组成索引色图像;
图像压缩器:按LZW或其他数据压缩算法对图像数据区进行压缩,形成最后的图像文件。
本发明的有益效果在于:通过本发明的图像压缩方法,适应性的对文件、公文等进行合理的滤波、去噪,尽可能在图片扫描和压缩过程中保留原始文字和颜色信息,本发明去噪简单、速度快,文件转换算法易于编程,比较适用于公文文档类像素颜色复杂度不高的文件存储工作。
附图说明
图1为适用于文本文档的生成式图像压缩方法结构图;
图2为适用于文本文档的生成式图像压缩装置结构图。
具体实施方式
下面结合附图对本发明做进一步描述。
该种压缩方法的特征在于:
(1)将文本文档转换为RGB位图;
(2)根据文本文档特征来预构建颜色表;
传统的图像压缩算法,仅根据图像内容来进行分析。一般是统计各个像素点的颜色分布,通过一些统计算法进行颜色的聚类,使用颜色直方图,以及中位数切割等方法来计算缩减之后的优化颜色表。优化后的颜色表越精确,压缩的效果会越好,即和源图最接近且体积最小,为提高准确性,往往需要反复迭代,对性能的影响较大。
本算法可以用文本文档中的绘制信息来辅助构建颜色表。颜色表以文档中的文字颜色为基准,加上抗锯齿产生的插值色,以及其他资源如线和章等的颜色,作为最终的颜色表。颜色表确定后,可得出颜色域索引色个数,确定每个像素需要的数据区长度。
例如对于盖章的“红头文件”,可确定其可用的索引色个数为4个:黑色、白色、红色、红色加盖在黑色上的混合效果,从而确定使用2bit即可表示原图中的1个像素;
(3)对RGB位图进行映射索引,使用每个像素RGB值与颜色表进行映射,在颜色表中寻找最接近的颜色值,确定对应的索引色,并记录索引号。使用这种方法可以将3个byte表示的像素值表示为(2)确定的数据区。就上例来说,可将4个像素(共12bytes)的颜色值压缩为1个byte(8bit)大小;
(4)组织为索引色图像,按LZW或其他数据压缩算法对图像数据区进行压缩,形成最后的图像文件。
由于步骤(4)是按照图像文件格式组织数据和应用压缩算法的,生成的文件完全可用现有的图像软件或者网页浏览器打开,并不破坏使用图像作为文档发布载体的“对阅读终端最小要求”前提。
本方法所述图像压缩算法,与RGB24位深位图相比,压缩比大于98%,对于24位深的JPG,压缩比大于40%,下图是实验所得不同的格式图像和待发布文本文档本身体积的对比数据(选择典型内容的单页文档)
实施例1
一种适用于文本文档的生成式图像压缩方法,包括如下步骤:
(1)将文本文档转换为RGB位图;
(2)根据文本文档特征来预构建颜色表;
(3)对RGB位图进行映射索引,使用每个像素RGB值与颜色表进行映射,在颜色表中寻找最接近的颜色值,确定对应的索引色,并记录索引号,组成索引色图像;
(4)按LZW或其他数据压缩算法对图像数据区进行压缩,形成最后的图像文件。
所述的将文本文档转换为RGB位图包括:
根据文本文档的扫描图像YUV参数构建RGB位图;
R、G、B代表红、绿、蓝三个通道的颜色值;Y表示明亮度,也就是灰阶值;U和V分别表示色度的色调与饱和度;WR、WG、WB为BT601标准值,WR=0.302、WG=0.584、WB=0.144;MAX代表最大值。
所述的根据文本文档特征来预构建颜色表,包括:
(1)第一次聚类提取RGB位图的颜色表Q1
Q1={z1、z2、…zn};
zn为RGB位图的颜色点,n为颜色点个数;
(2)第二次聚类得到扩展颜色表Q2
其中σ为扩展因子;二次聚类将块内的颜色表进行细化。保持块内之间颜色的关联性和颜色组合的多样性。
(3)进行标准化处理得到zij *
zij *为标准化后的值,zij为扩展颜色表Q2中颜色点值;α为所有样本数据的均值;β为所有样本数据的标准差;
(4)对RGB位图进行亮度自适应;
Itl为颜色表的亮度均值、Ctl为颜色表原始亮度值、Ptl为颜色表的亮度均值、Iml为RGB位图的亮度均值、Cml为RGB位图的原始亮度值、Pml为RGB位图的亮度均值;
通过步骤(2.1)——(2.4)获得预构建颜色表。
图像的主体色调能够通过选择图像中的几种代表性色调就能够很好的表现出来。颜色表的生成决定图像的重构颜色与图像对应像素点之间的关系。颜色表的生成方法有3种:1、聚类算法对图像的像素点所对应颜色值进行分类;2、学习设计师提取图像主色调的规律;3、利用色彩主题社区提供的颜色表。
最常用的图像主色提取技术是颜色聚类。一些研究结合了人眼对颜色的感知效果提出了基于机器学习算法的主色提取技术。
所述的对RGB位图进行映射索引,使用每个像素RGB值与颜色表进行映射,包括:
成像系统输出物体图像ck为:
ck=∫λrk(λ)ρk(λ)sk(λ)o(λ)dλ;
k为成像系统通道编号;ck为成像系统中第k个通道的输出响应;r(λ)为光谱响应曲线;s(λ)为光源光谱的响应曲线;o(λ)为光源的光谱功率谱,ρk(λ)每个通道前滤光片的光谱透射率;其中,物体图像代表文本图像;
将物体图像ck用离散矩阵方式表示为:
Cn=(Rnρn)TSnRn;
Cn为成像系统输出的多通道图像;Sn为RGB图像表面的光谱反射率;Rn为对角线元素为r(λ)的对角矩阵;对角线上的元素r(λ)为成像系统在各个波长上的光谱响应度;
ρn为成像系统的光谱透射率;
Sn为以光照的光谱功率分布为对角元素的对角矩阵;
Cn即为光谱成像系统的正像模型;
通过光谱成像系统的正像模型的逆变换计算出RGB位图与颜色表的映射关系。
所述的在颜色表中寻找最接近的颜色值,确定对应的索引色;
(1)除低光谱成像系统的正像模型Cn对比度的点,得到Cn(χ);
χ=(x,y,σ)o(λ)
x,y为图像像素坐标值,σ为图像层尺度参数;
对Cn(χ)的极值进行获取,得到
计算则该点属于地对比度点,删除即可;
(2)剔除光谱成像系统的正像模型Cn边缘点;
构建图像HESSIAN矩阵为:
Cij为像素坐标为(i,j)的点Cn值;
对矩阵H的行列式等进行计算;
Sr(H)=Cxx+Cyy=α+β;
Bet(H)=CxxCyy-Cxy 2=αβ;
令α=θβ,
Bet(H)为二阶矩阵H行列式的值,Sr(H)为二阶矩阵H的正对角线的和值,α、β为设定的预设值,即像素点的满足值,θ为倍数,则像素点不能满足上式,则剔除;
将RBG位图的像素在颜色表中寻找最接近的颜色值确定对应的索引色。
在除低光谱成像系统的正像模型Cn对比度的点之前对图像文件进行降噪;需对所述的图像文件进行压缩封装前对相应的图像信息进行去噪包括:
(6.1)将所有的图像信息文档G(t)={g1,g2,g3,…,gN}构造成m×n阶文档矩阵,gi为字体、图像信息文档集G(t)的第i个图像信息文档;
(6.2)设定文档矩阵的维数n;
(6.3)从G(t)中抽取{g1,g2,g3,…,gn}作为矩阵的第一行;
(6.4)依次向后延迟一个文档,直到n行最后一个信号为GN,作为矩阵的最后一行,此时N=n+m-1;
形成的矩阵为:
Xm×n为原始信号构成的m﹡n维矩阵;Vm×n为噪声信号构成的m﹡n维矩阵;若N为偶数,则m=N/2+1,n=N/2;若N为奇数,m和n均为(N+1)/2;
(6.5)对H进行奇异值分解;
H=ΣWRT
W为m﹡m维的酉阵;R为n﹡n维的酉阵,即H的左右奇异矩阵,T表示矩阵的转置矩阵;Σ为m﹡n维对角阵,主对角线的元素αi为H的非零奇异值,以递增顺序排列,即α1≥α2≥α3≥…≥αi
(6.6)确定Σ的有效秩即前l个最大的奇异值;重构H的逼近矩阵Yl
Wl是前l个最大的奇异值对应的左奇异向量;Wm-1是前m-1个最大的奇异值对应的左奇异向量;Rm-1是前m-l个最大的奇异值对应的右奇异向量;Rl是前l个最大的奇异值对应的右奇异向量;Σl为前l个最大的奇异值对应的对角阵;
(6.7)将Yl中图像信息相匹配的文档分量重构成文档矩阵:
ε=min(l,γ-ε+l),γ=max(n,k);
W即为去噪后的图像信息。
所述压缩过程的输入为一个长度为n的整数数组d,输出为长度不大于n的整数数组r;查找表保存了modenum和bitlength两个大小为9的整数数组,提供了填充模式可编码整数个数和对应的比特宽度,压缩开始时进行填充模式下标j和临时压缩码字c初始化,使得从编码个数最多的填充模式开始;然后对于该填充模式检查d中modenum[j]个连续整数,如果都小于该填充模式的最大可表示数字,将该整数按照固定的比特宽度添加到整数c的末尾;每个填充模式最大可表示数字是通过该模式的比特宽度来计算的;否则,当能编码的整数个数i大于下一模式能编码整数的个数modenum[j+1]时,保留当前使用的填充模式,在序列末尾插入额外的零来形成一个完整的填充模式;通过将码字向左移位使28个数据位达到最左侧;当能编码的整数个数小于下一个模式的编码个数时,选择下一个填充模式,将该模式的状态位添加到码字c的头部并添加到结果码字数组r,算法接着执行下一个32位压缩,在d中数字压缩完毕终止。
实施例2
一种适用于文本文档的生成式图像压缩装置,包括:
RGB位图转换器:将文本文档转换为RGB位图;
颜色表构建模块:根据文本文档特征来预构建颜色表;
颜色索引器:对RGB位图进行映射索引,使用每个像素RGB值与颜色表进行映射,在颜色表中寻找最接近的颜色值,确定对应的索引色,并记录索引号,组成索引色图像;
图像压缩器:按LZW或其他数据压缩算法对图像数据区进行压缩,形成最后的图像文件。
实际应用中,在最终还原效果许可的情况下,上述压缩方法的步骤(2)所选用的数据区长度可以变化,例如选择为1bit、4bit或8bit,这样表示的原图中的色彩描述能力更丰富,但相应的压缩后文件的体积也会增大,但仍将显著小于相同参数下的JPG文件。故本发明所属的压缩算法对文本文档产生的图像有较好应用价值。
以上所述,仅为本发明较佳的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉该技术的人在本发明所揭露的技术范围内,可轻易想到的变化或替换,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应该以权利要求的保护范围为准。

Claims (8)

1.一种适用于文本文档的生成式图像压缩方法,其特征在于,包括如下步骤:
(1)将文本文档转换为RGB位图;
(2)根据文本文档特征来预构建颜色表;
(3)对RGB位图进行映射索引,使用每个像素RGB值与颜色表进行映射,在颜色表中寻找最接近的颜色值,确定对应的索引色,并记录索引号,组成索引色图像;
(4)按LZW或其他数据压缩算法对图像数据区进行压缩,形成最后的图像文件。
2.根据权利要求1所述的一种适用于文本文档的生成式图像压缩方法,其特征在于,所述的将文本文档转换为RGB位图包括:
根据文本文档的扫描图像YUV参数构建RGB位图,其:
R、G、B代表红、绿、蓝三个通道的颜色值;Y表示明亮度,也就是灰阶值;U和V分别表示色度的色调与饱和度;WR、WG、WB为BT601标准值,WR=0.302、WG=0.584、WB=0.144;MAX代表最大值。
3.根据权利要求1所述的一种适用于文本文档的生成式图像压缩方法,其特征在于,所述的根据文本文档特征来预构建颜色表,包括:
(2.1)第一次聚类提取RGB位图的颜色表Q1
Q1={z1、z2、…zn};
zn为RGB位图的颜色点,n为颜色点个数;
(2.2)第二次聚类得到扩展颜色表Q2
其中σ为扩展因子,Q2为n×σ阶矩阵;
(2.3)进行标准化处理得到zij *
zij *为标准化后的值,zij为扩展颜色表Q2中颜色点值;α为所有样本数据的均值;β为所有样本数据的标准差;
(2.4)对RGB位图进行亮度自适应;
Itl为颜色表的亮度均值、Ctl为颜色表原始亮度值、Ptl为颜色表的亮度均值、Iml为RGB位图的亮度均值、Cml为RGB位图的原始亮度值、Pml为RGB位图的亮度均值;
通过步骤(2.1)——(2.4)获得预构建颜色表。
4.根据权利要求1所述的一种适用于文本文档的生成式图像压缩方法,其特征在于,所述的对RGB位图进行映射索引,使用每个像素RGB值与颜色表进行映射,包括:
成像系统输出物体图像ck为:
ck=∫λrk(λ)ρk(λ)sk(λ)o(λ)dλ;
k为成像系统通道编号;ck为成像系统中第k个通道的输出响应;r(λ)为光谱响应曲线;s(λ)为光源光谱的响应曲线;o(λ)为光源的光谱功率谱,ρk(λ)每个通道前滤光片的光谱透射率;其中,物体图像代表文本图像;
将物体图像ck用离散矩阵方式表示:
Cn=(Rnρn)TSnRn;
Cn为成像系统输出的多通道图像;Sn为RGB图像表面的光谱反射率;Rn为对角线元素为r(λ)的对角矩阵;对角线上的元素r(λ)为成像系统在各个波长上的光谱响应度;
ρn为成像系统的光谱透射率;
Sn为以光照的光谱功率分布为对角元素的对角矩阵;
Cn即为光谱成像系统的正像模型;
通过光谱成像系统的正像模型的逆变换计算出RGB位图与颜色表的映射关系。
5.根据权利要求1所述的一种适用于文本文档的生成式图像压缩方法,其特征在于,所述的在颜色表中寻找最接近的颜色值,确定对应的索引色;
(3.1)除低光谱成像系统的正像模型Cn对比度的点,得到Cn(χ);
χ=(x,y,σ)o(λ)
x,y为图像像素坐标值,σ为图像层尺度参数;
对Cn(χ)的极值进行获取,得到
计算则该点属于地对比度点,删除即可;
(3.2)剔除光谱成像系统的正像模型Cn边缘点;
构建图像HESSIAN矩阵为:
Cij为像素坐标为(i,j)的点Cn值;
对矩阵H的行列式等进行计算;
Sr(H)=Cxx+Cyy=α+β;
Bet(H)=CxxCyy-Cxy 2=αβ;
令α=θβ,
Bet(H)为二阶矩阵H行列式的值,Sr(H)为二阶矩阵H的正对角线的和值,α、β为设定的预设值,即像素点的满足值,θ为倍数,则像素点不能满足上式,则剔除;
将RBG位图的像素在颜色表中寻找最接近的颜色值确定对应的索引色。
6.根据权利要求5所述的一种适用于文本文档的生成式图像压缩方法,其特征在于,在除低光谱成像系统的正像模型Cn对比度的点之前需对图像文件进行降噪,包括:
(6.1)将所有的图像信息文档G(t)={g1,g2,g3,…,gN}构造成m×n阶文档矩阵,gi为字体、图像信息文档集G(t)的第i个图像信息文档;
(6.2)设定文档矩阵的维数n;
(6.3)从G(t)中抽取{g1,g2,g3,…,gn}作为矩阵的第一行;
(6.4)依次向后延迟一个文档,直到n行最后一个信号为GN,作为矩阵的最后一行,此时N=n+m-1;
形成的矩阵为:
Xm×n为原始信号构成的m*n维矩阵;Vm×n为噪声信号构成的m*n维矩阵;若N为偶数,则m=N/2+1,n=N/2;若N为奇数,m和n均为(N+1)/2;
(6.5)对H进行奇异值分解;
H=ΣWRT
W为m*m维的酉阵;R为n*n维的酉阵,即H的左右奇异矩阵,T表示矩阵的转置矩阵;Σ为m*n维对角阵,主对角线的元素αi为H的非零奇异值,以递增顺序排列,即α1≥α2≥α3≥…≥αi
(6.6)确定Σ的有效秩即前l个最大的奇异值;重构H的逼近矩阵Yl
Wl是前l个最大的奇异值对应的左奇异向量;Wm-1是前m-1个最大的奇异值对应的左奇异向量;Rm-1是前m-l个最大的奇异值对应的右奇异向量;Rl是前l个最大的奇异值对应的右奇异向量;Σl为前l个最大的奇异值对应的对角阵;
(6.7)将Yl中图像信息相匹配的文档分量重构成文档矩阵:
ε=min(l,γ-ε+l),γ=max(n,k);
W即为去噪后的图像信息。
7.根据权利要求1所述的一种适用于文本文档的生成式图像压缩方法,其特征在于:所述压缩算法过程的输入为一个长度为n的整数数组d,输出为长度不大于n的整数数组r;查找表保存了modenum和bitlength两个大小为9的整数数组,提供了填充模式可编码整数个数和对应的比特宽度,压缩开始时进行填充模式下标j和临时压缩码字c初始化,使得从编码个数最多的填充模式开始;然后对于该填充模式检查d中modenum[j]个连续整数,如果都小于该填充模式的最大可表示数字,将该整数按照固定的比特宽度添加到整数c的末尾;每个填充模式最大可表示数字是通过该模式的比特宽度来计算的;否则,当能编码的整数个数i大于下一模式能编码整数的个数modenum[j+1]时,保留当前使用的填充模式,在序列末尾插入额外的零来形成一个完整的填充模式;通过将码字向左移位使28个数据位达到最左侧;当能编码的整数个数小于下一个模式的编码个数时,选择下一个填充模式,将该模式的状态位添加到码字c的头部并添加到结果码字数组r,算法接着执行下一个32位压缩,在d中数字压缩完毕终止。
8.一种适用于文本文档的生成式图像压缩装置,其特征在于,包括:
RGB位图转换器:将文本文档转换为RGB位图;
颜色表构建模块:根据文本文档特征来预构建颜色表;
颜色索引器:对RGB位图进行映射索引,使用每个像素RGB值与颜色表进行映射,在颜色表中寻找最接近的颜色值,确定对应的索引色,并记录索引号,组成索引色图像;
图像压缩器:按LZW或其他数据压缩算法对图像数据区进行压缩,形成最后的图像文件。
CN201910059573.4A 2019-01-22 2019-01-22 一种适用于文本文档的生成式图像压缩方法及装置 Active CN109783776B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910059573.4A CN109783776B (zh) 2019-01-22 2019-01-22 一种适用于文本文档的生成式图像压缩方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910059573.4A CN109783776B (zh) 2019-01-22 2019-01-22 一种适用于文本文档的生成式图像压缩方法及装置

Publications (2)

Publication Number Publication Date
CN109783776A true CN109783776A (zh) 2019-05-21
CN109783776B CN109783776B (zh) 2023-04-07

Family

ID=66501959

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910059573.4A Active CN109783776B (zh) 2019-01-22 2019-01-22 一种适用于文本文档的生成式图像压缩方法及装置

Country Status (1)

Country Link
CN (1) CN109783776B (zh)

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111680035A (zh) * 2020-05-07 2020-09-18 中国工业互联网研究院 一种针对网络流数据及其位图索引压缩编码及解码方法
CN111681290A (zh) * 2020-04-21 2020-09-18 华中科技大学鄂州工业技术研究院 一种基于dna编码技术的图片存储方法
CN112287973A (zh) * 2020-09-28 2021-01-29 北京航空航天大学 基于截尾奇异值和像素插值的数字图像对抗样本防御方法
CN113342757A (zh) * 2021-07-06 2021-09-03 上海渠杰信息科技有限公司 一种文件压缩方法及设备
CN114564261A (zh) * 2022-02-10 2022-05-31 阿里巴巴(中国)有限公司 基于桌面云的图像处理方法及装置
CN115098171A (zh) * 2022-05-20 2022-09-23 智绘微电子科技(南京)有限公司 一种vbios中优化图片压缩处理的方法
CN116610272A (zh) * 2023-04-23 2023-08-18 珠海芯烨电子科技有限公司 一种打印终端图片数据的处理方法及系统
CN116684631A (zh) * 2023-08-02 2023-09-01 北京点聚信息技术有限公司 一种针对公文的图像压缩方法

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6983074B1 (en) * 2000-06-14 2006-01-03 Adobe Systems Incorporated Data compression system and technique
CN101500067A (zh) * 2009-02-18 2009-08-05 汉王科技股份有限公司 高清相机的快速图像处理方法
CN102592293A (zh) * 2011-01-07 2012-07-18 北京四维图新科技股份有限公司 一种真彩色图像的降色方法及装置
CN103458242A (zh) * 2013-07-02 2013-12-18 北京京北方信息技术有限公司 基于颜色分类与聚类的图像压缩和解压缩方法
CN105491384A (zh) * 2014-10-06 2016-04-13 财团法人工业技术研究院 调色板编码方法与解码方法以及电子装置
CN106296757A (zh) * 2015-06-09 2017-01-04 中兴通讯股份有限公司 一种图像处理方法和装置

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6983074B1 (en) * 2000-06-14 2006-01-03 Adobe Systems Incorporated Data compression system and technique
CN101500067A (zh) * 2009-02-18 2009-08-05 汉王科技股份有限公司 高清相机的快速图像处理方法
CN102592293A (zh) * 2011-01-07 2012-07-18 北京四维图新科技股份有限公司 一种真彩色图像的降色方法及装置
CN103458242A (zh) * 2013-07-02 2013-12-18 北京京北方信息技术有限公司 基于颜色分类与聚类的图像压缩和解压缩方法
CN105491384A (zh) * 2014-10-06 2016-04-13 财团法人工业技术研究院 调色板编码方法与解码方法以及电子装置
CN106296757A (zh) * 2015-06-09 2017-01-04 中兴通讯股份有限公司 一种图像处理方法和装置

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
ARUNA MALIK ET.AL: "A high capacity text steganography scheme based on LZW compression and color coding", 《ENGINEERING SCIENCE AND TECHNOLOGY,》 *
马智忠: "基于位图的彩色图像无损压缩算法研究", 《中国优秀硕士学位论文全文数据库 (信息科技辑)》 *

Cited By (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111681290A (zh) * 2020-04-21 2020-09-18 华中科技大学鄂州工业技术研究院 一种基于dna编码技术的图片存储方法
CN111681290B (zh) * 2020-04-21 2023-08-15 华中科技大学鄂州工业技术研究院 一种基于dna编码技术的图片存储方法
CN111680035A (zh) * 2020-05-07 2020-09-18 中国工业互联网研究院 一种针对网络流数据及其位图索引压缩编码及解码方法
CN111680035B (zh) * 2020-05-07 2023-09-08 中国工业互联网研究院 一种针对网络流数据及其位图索引压缩编码及解码方法
CN112287973A (zh) * 2020-09-28 2021-01-29 北京航空航天大学 基于截尾奇异值和像素插值的数字图像对抗样本防御方法
CN113342757A (zh) * 2021-07-06 2021-09-03 上海渠杰信息科技有限公司 一种文件压缩方法及设备
CN114564261A (zh) * 2022-02-10 2022-05-31 阿里巴巴(中国)有限公司 基于桌面云的图像处理方法及装置
CN114564261B (zh) * 2022-02-10 2024-05-17 阿里巴巴(中国)有限公司 基于桌面云的图像处理方法及装置
CN115098171A (zh) * 2022-05-20 2022-09-23 智绘微电子科技(南京)有限公司 一种vbios中优化图片压缩处理的方法
CN116610272A (zh) * 2023-04-23 2023-08-18 珠海芯烨电子科技有限公司 一种打印终端图片数据的处理方法及系统
CN116684631A (zh) * 2023-08-02 2023-09-01 北京点聚信息技术有限公司 一种针对公文的图像压缩方法
CN116684631B (zh) * 2023-08-02 2023-09-29 北京点聚信息技术有限公司 一种针对公文的图像压缩方法

Also Published As

Publication number Publication date
CN109783776B (zh) 2023-04-07

Similar Documents

Publication Publication Date Title
CN109783776A (zh) 一种适用于文本文档的生成式图像压缩方法及装置
CN103327323B (zh) 高比特深度视频到低比特深度显示器的高效色调映射
US5650942A (en) Appearance-based technique for rendering colors on an output device
Reinhard et al. Colour spaces for colour transfer
CN101317464B (zh) 图像增强和压缩
CN102523367A (zh) 基于多调色板的实时图像压缩和还原方法
KR20080106185A (ko) 향상된 압축을 위한 이미지 데이터의 사전 처리 방법, 디지털 이미지 데이터 신장 방법, 및 컴퓨터 프로그램 제품
CN106031143A (zh) 颜色空间和用于视频的解码器
KR20090118860A (ko) 공간 주파수 해석을 이용한, 압축된 이미지를 색역 맵핑된 이미지로 처리하는 방법
CN108921932B (zh) 基于卷积神经网络的黑白人物图片生成多种合理着色方法
CN111696026B (zh) 基于l0正则项的可逆灰度图算法、计算设备
CN113132696B (zh) 图像色调映射方法、装置、电子设备和存储介质
CN110599554A (zh) 人脸肤色的识别方法和装置、存储介质及电子装置
CN103763558B (zh) 基于相似性的纹理图像压缩方法
CN112802137A (zh) 一种基于卷积自编码器的颜色恒常性方法
JP2001119587A (ja) マルチスペクトル画像の画像圧縮方法および画像圧縮装置
JPH02100465A (ja) 画像符号化方式
CN112217958A (zh) 与设备颜色空间无关的数字水印载体图像预处理的方法
Chen et al. Optimal transform in perceptually uniform color space and its application in image coding
CN106713924A (zh) 用于文字分层压缩方法和装置
Kekre et al. Storage of colour information in a greyscale image using haar wavelets and various colour spaces
Kekre et al. Augmentation of block truncation coding based image retrieval by using even and odd images with sundry colour spaces
Kekre et al. A Comparison of Haar Wavelets and Kekre‟ s Wavelets for Storing Colour Information in a Greyscale Image
CN110400247A (zh) 基于彩色图像的抗打印、印刷和拍摄的半盲水印方法
CN101833772B (zh) 感知特征集的撷取方法及系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant