CN1687969A - 基于文档图像内容分析与特征提取的文档图像压缩方法 - Google Patents

基于文档图像内容分析与特征提取的文档图像压缩方法 Download PDF

Info

Publication number
CN1687969A
CN1687969A CN 200510011706 CN200510011706A CN1687969A CN 1687969 A CN1687969 A CN 1687969A CN 200510011706 CN200510011706 CN 200510011706 CN 200510011706 A CN200510011706 A CN 200510011706A CN 1687969 A CN1687969 A CN 1687969A
Authority
CN
China
Prior art keywords
file
picture
image
gray
document
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN 200510011706
Other languages
English (en)
Inventor
常青
佟雨兵
张其善
吴鑫山
吴今培
王立军
杨东凯
冦艳红
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beihang University
Beijing University of Aeronautics and Astronautics
Original Assignee
Beihang University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beihang University filed Critical Beihang University
Priority to CN 200510011706 priority Critical patent/CN1687969A/zh
Publication of CN1687969A publication Critical patent/CN1687969A/zh
Pending legal-status Critical Current

Links

Images

Landscapes

  • Image Processing (AREA)

Abstract

基于文档图像内容分析与特征提取的文档图像压缩方法,它由文档图像预处理、文档图像分割、文字压缩和图像压缩步骤组成:其文档图像预处理对文档图像的灰度值进行统计并向图像边界投影,根据投影曲线边沿变化和灰度直方图分析文档图像内容并自动检测和提取出文档图像的特征信息,包括文字高度、图像边界和文档附带的标记的位置信息、象素灰度值信息等;文档图像分割根据文档图像预处理的结果,将文档图像分割成文字部分和图像部分且其颜色信息不受影响;文字压缩对分割出的文字部分进行灰度变换和行程编码予以压缩;图像压缩对分割出的图像部分进行基于离散余弦变换的有损压缩。

Description

基于文档图像内容分析与特征提取的文档图像压缩方法
技术领域
本发明涉及文档图像的压缩方法,特别是一种基于文档图像内容分析与特征提取的文档图像压缩方法。
背景技术
伴随互联网和数字存储技术的发展,作为纸质文档的替代品,文档图像在数字图书馆、电子银行、电子政务等行业中获得了广泛的应用。目前,已经有一部分网站提供数字图书,但一般为纸质文档扫描成图像而已,仅有少部分对扫描的图像采用标准算法如JPEG、JPEG2000进行压缩,但是这些算法对于图像中的所有的部分采用相同的压缩技术,这种压缩方法对文档图像压缩并不能取得好的效果。同时,鉴于文字笔划对人眼视觉具有导向性,相对图像失真,人眼更易于觉察文字灰度发散造成的模糊失真,这也使得标准压缩算法如JPEG、JPEG2000的使用都受到较大的限制。例如高压缩倍率下,JPEG压缩产生的马赛克效应十分明显,文字灰度发散严重以致难以辨认。孟君在“文档图像压缩的RLC实现”,贵州工业大学学报.Vol.31,No.4,2002,8中采用行程编码实现二值文档图像压缩,此种方法没有利用文档自身的特征如分栏、图文混合等,另外,它仅针对二值文档图像,没有考虑含有多图的文档类型,具有很大的局限性。朱庆生、林杰、张敏在“基于图层分割的文档图像压缩方法”,计算机工程与设计.2004,Vol.25 No.8中提出了基于图层分割的文档图像压缩方法,此种方法也没有考虑文档图像的内容和结构上的特征,而是利用多尺度2色聚类对文档图像进行图层分割,将图像分为前景图像层、背景图像层和标记图像层并分别进行压,这种方法需要对每个象素灰度值进行运算以确定其属于哪一个层,需要大量的计算,图像分割时按不同大小的块多次分割,也需要多次迭代运算;方法较为复杂,方法操作流程不够直观。
发明内容
本发明的技术解决方案是:克服现有技术的不足,提供一种基于文档图像内容分析与特征提取的文档图像压缩方法,可以实现对纯文字内容的文档图像的压缩,也可以实现对文字和图像混合的文档图像的压缩以及含有分栏、文字下划线、方框、彩色文字等标记的内容复杂的文档图像的压缩。
本发明的技术解决方案:基于文档图像内容分析与特征提取的文档图像压缩方法,它由文档图像预处理、文档图像分割、文字压缩和图像压缩组成,其中图像预处理是对文档图像的灰度值进行统计并向图像边界投影,根据投影曲线和灰度直方图分析文档图像内容并自动检测和提取出文档图像的特征信息,包括文字、图像和文档附带的标记等内容的位置信息和象素灰度值信息;然后,根据提取的特征信息将文档图像分割成文字部分和图像部分;最后,对文字部分和图像部分采用不同的处理方法予以压缩。
文档图像预处理中完成了文档图像内容的分析与特征的提取。可以将文档图像视为一个矩阵,矩阵的大小由文档图像的高和宽确定,矩阵中的元素对应着文档图像中的象素,每个元素的值对应着象素的灰度值或RGB值。将文档图像向其边界投影,使得矩阵某一行/列的象素灰度值累加,得到关于行/列的灰度投影曲线。灰度投影曲线的变化边沿中,第一个下降边沿和最后一个上升沿是文档边界信息,该处为灰度的第一次突变和最后一次突变。据灰度投影曲线边沿的变化可以确定出文档图像的边界、文档分栏位置置,行间距信息等,彩色文字信息检测时除了检测该点的位置信息外,还要检测其RGB值。
文档图像分割基于文档图像内容分析与特征提取来实现。提取行间距的同时保留字体高度与标记信息,对文字部分正确分割出n行象素所成的图像(n为单行字体对应的象素高度);对图像部分根据该图像的边界信息完整切割出图像并使其颜色信息不受影响。将原始文档视频分割成文字部分和图像部分。
文字压缩对文字部分进行灰度变换与行程编码,通过计算全域灰度阀值,剔除文字背景信息,实现字体部分的单色变换,有效地避免文字笔画的灰度发散;采用行程编码:对于连续行或同一行上的连续的有相同灰度或相同颜色的象素,不需要存贮每一个象素的颜色值,而是存贮一个象素值以及具有相同颜色的象素数目,节约了存储空间。图像压缩对图像部分,采用基于DCT(Discrete Cosine Transform)变换的压缩技术如JPEG,剔除高频信息而保留低频信息。
本发明与现有技术相比具有如下的优点:
(1)基于文档图像内容分析与特征提取的文档图像压缩方法,可以实现对纯文字内容的文档图像的压缩;该方法不局限于对二值文本图像的压缩,还可以实现含有文字和多个图像混合的文档图像的压缩以及含有分栏、文字下划线、方框、彩色文字等标记的内容复杂的文档图像的压缩。
(2)该方法操作流程直观、算法简单实用。文档图像分割为文字部分和图像部分;预处理环节利用边界灰度投影曲线的边沿信息来提取特征而并不针对文档图像的每个象素的灰度值进行计算;节约了运算。
(3)基于文档图像内容分析与特征提取的文档图像压缩方法,对于纯文本图像压缩可以取得接近无损压缩时的效果,文字笔划清晰不发散;对于含有文字和多个图像混合的文档图像压缩也取得远强于JPEG和JPEG2000压缩的效果。
附图说明
图1为本发明的方法操作流程图;
图2为本发明中某文档图像的图像边界灰度投影曲线图。
具体实施方式
如图1所示,本发明由文档图像预处理、文档图像分割、文字部分压缩和图像部分压缩步骤组成,其文档图像预处理对原始文档图像进行内容分析,提取出文档图像的特征信息,包括文字、图像和文档附带的标记等内容的位置信息和象素灰度值信息等。文档图像分割环节根据预处理环节提取的特征信息将原始文档图像分割成文字部分和图像部分,然后通过文字压缩和图像压缩环节分别对文字部分和图像部分进行压缩,压缩结果作为原始文档图像的压缩结果。
图2为以某文档图像为例,其图像边界的灰度投影曲线图。图2的横坐标为x,纵坐标为y,定义以下两个量:x表示文档图像的高度(按象素计),可将图像看成象素矩阵,图2横坐标的数值为该矩阵的行数;y表示行象素灰度值偏差,其计算如公式(1)所示,
yj=sj- s      j=1,...,height            (1)
s j = Σ i = 1 width DDBW ( i , j ) , j = 1 , . . . , height - - - ( 2 )
s ‾ = Σ j = 1 height s j height , j = 1 , . . . , height - - - ( 3 )
DDBW为原始文档图像的象素的灰度值/颜色值;width,height是原始文档图像的宽度和高度;sj为第j行的象素灰度值之和,即行灰度值, s为行灰度的平均值。灰度投影曲线的边沿变化中,第一个下降边沿和最后一个上升沿是文档边界信息,该处为灰度的第一次和最后一次突变。根据该曲线,可以确定出分栏位置、行间距以及文字标记等特征信息,还有下划线或方框等和彩色字体的位置与RGB值等。
基于获取的文档图像的特征信息进行图像分割,提取行间距时保留了字体高度与标记信息,对文字部分正确分割出n行象素所成的图像(n为单行字体对应的象素高度);对图像部分根据该图像的边界信息完整切割出图像并使其颜色信息不受影响,即将原始文档视频分割成文字部分和图像部分。
文字压缩与图像压缩:对文字部分的处理分两种情况,一种是没有加任何标记的文字信息处理;另一种是加有标记信息如下划线、边框及字体颜色的文字信息处理。前者,可以通过计算全域灰度阀值,实现字体部分的图像的单色变换;后者,可以直接保存检测出的彩色文字的位置信息以及RGB信息;也可以采用有损压缩的方法如JPEG进行压缩,文字的灰度会受到轻微影响。
切割出的图像是24位真彩色图像,采用基于DCT变换的JPEG方法进行压缩。
实施例,以某文档图像为例进一步说明:
(1)对文档图像的灰度值进行统计计算,得到投影曲线。
将文档图像看成象素矩阵DDBW,矩阵的行数与列数分别为原始文档图像的高height和宽width;矩阵元素为原始文档图像的象素的灰度值/颜色值。对矩阵第j行的象素灰度值求和,得到行灰度值和sj,即
s j = Σ i = 1 width DDBW ( i , j ) , j = 1 , . . . , height
对行灰度求平均值,得到 s,即
s ‾ = Σ j = 1 height s j height , j = 1 , . . . , height
求行象素灰度值偏差sj- s,j=1,...,height,将该偏差值作为纵坐标,矩阵行数即图像高度为横坐标,可以得到灰度偏差随图像高度变化的曲线,即文档图像边界投影曲线,如图2所示。
(2)根据投影曲线和灰度直方图分析文档图像内容,自动检测和提取出文档图像的特征信息。
灰度投影曲线的边沿变化中,第一个下降边沿和最后一个上升沿是文档边界信息,该处为灰度的第一次和最后一次突变。根据该曲线,可以确定出分栏位置、行间距以及文字标记等特征信息。分栏位置的确定,可以采用下面的循环程序段:
for j=leftlie:rightlie
            if(DDBW(:,j)-columlie==0)
      leftlie1=j;
end
  if(DDBW(:,(rightlie+1-j))-columlie==0)&((rightlie+1-j-leftlie)>0)
      rightlie1=rightlie+1-j;
  endend
其中,leftlie,rightlie,rightlie1和leftlie1四个变量分别代表原始文档中文字的左边界、右边界、中间分栏的左起始列和右中止列。
行间距信息提取的循环程序段如下:
for i=1:(height-1)

     for j=leftlie:rightlie1

           if(DDBW(i+1,j)<255)&(DDBW(i,j)==255)

              leftlinegraydown(1,i)=i;

           elseif(DDBW(i+1,j)==255)&(DDBW(i,j)<255)

              leftlinegrayup(1,i)=i;

           else

           end

     end
end
其中,DDBW为双精度型的原始图像数据,leftlinegrayup和leftlinegraydown表示以字体高度为单位检测出的灰度变化(灰度上升沿或灰度下降沿)所在的位置。上面的程序也能适应于文字标记信息,如下划线或方框等信息的检测;彩色文字信息检测时除了检测该点的像素值及位置信息外,还要检测其RGB值。
(3)根据提取的特征信息将文档图像分割成文字部分和图像部分。
利用纯文本文档抓图进行基于文字信息的图像切割,需要在提取行间距的同时保留字体高度与标记信息,这需要重新记录并存储像素矩阵的数值。
相关程序段如下:for i=1:nn
CUTA(j:(j+(nonzeroline0(1,i+1)-nonzeroline0(1,i))),(1:(rightlie-leftlie+1)))=DDBW(nonzero
line0(1,i):nonzeroline0(1,i+1),(leftlie:rightlie));
j=j+(nonzeroline0(1,i+1)-nonzeroline0(1,i)+1);
i=i+2;end
其中,(nonzeroline0(1,i+1)-nonzeroline0(1,i))为切割出的文字(包括下划线等标记)的高度,nonzeroline0为原始文档图像中文字图像部分的数据;CUTA是由切除行间距后的文字信息组成的矩阵。
(4)对文字部分和图像部分采用不同的处理方法予以压缩。
对文字部分的处理分两种情况,一种是没有加任何标记的文字信息处理;另一种是加有标记信息如下划线、边框及字体颜色的文字信息处理。前者,可以通过计算全域灰度阀值(例如可以取文字部分的灰度求和后再求平均灰度作为阀值),高与阀值取为255,低于阀值取为0,实现字体部分的图像的单色变换;后者,可以直接保存检测出的彩色文字的位置信息以及RGB信息;也可以采用有损压缩的方法如JPEG进行压缩,文字的灰度会受到轻微影响。
切割出的图像是24位真彩色图像,采用基于DCT变换的JPEG方法进行压缩。JPEG压缩方法是比较常用和成熟的压缩方法。例如可以采用科学计算环境MATLAB 6.0中的imwrite函数,将切割出的图像数据按照不同的质量等级要求写成后缀为jpg的文件,实现JPEG压缩。
最后所应说明的是,以上实施例仅用以说明本发明的技术方案而非限制,尽管参照较佳实施例对本发明进行了详细说明,本领域的普通技术人员应当理解:其依然可以对本发明所揭示的技术方案进行修改或者等同替换;而一切不脱离本发明技术方案的精神和范围的修改和替换,其均应涵盖在本发明的权利要求范围当中。

Claims (6)

1、基于文档图像内容分析与特征提取的文档图像压缩方法,其特征在于:它由文档图像预处理、文档图像分割、文字压缩和图像压缩步骤组成,其中文档图像预处理是对文档图像的灰度值进行统计并向图像边界投影,根据投影曲线和灰度直方图分析文档图像内容并自动检测和提取出基于文档图像内容的特征信息,包括文字、图像和文档附带的标记等内容的位置信息和象素灰度值信息;文档图像分割根据文档图像预处理步骤的特征信息结果将文档图像分割成文字部分和图像部分;最后,对文字部分和图像部分分别进行压缩,得到原始文档图像的压缩结果。
2、根据权利要求1所述的基于文档图像内容分析与特征提取的文档图像压缩方法,其特征在于:所述的灰度投影曲线的变化边沿中,第一个下降边沿和最后一个上升沿是文档边界信息,该处为灰度值的第一次突变和最后一次突变。
3、根据权利要求2所述的基于文档图像内容分析与特征提取的文档图像压缩方法,其特征在于:根据所述的灰度投影曲线边沿的变化可以确定出文档分栏的位置,行间距信息以及文字标记信息如下划线、方框等。
4、根据权利要求1所述的基于文档图像内容分析与特征提取的文档图像压缩方法,其特征在于:所述的文档图像分割根据预处理步骤提取的特征信息,对文字部分正确切割出n行象素所成的图像;对图像部分按图像边界完整切割出图像并使其颜色信息不受影响。
5、根据权利要求1所述的基于文档图像内容分析与特征提取的文档图像压缩方法,其特征在于:所述的文字压缩对文字部分采用灰度变换和行程编码予以压缩。
6、根据权利要求1所述的基于文档图像内容分析与特征提取的文档图像压缩方法,其特征在于:所述的图像压缩对图像部分进行基于离散余弦变换的压缩技术。
CN 200510011706 2005-05-12 2005-05-12 基于文档图像内容分析与特征提取的文档图像压缩方法 Pending CN1687969A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN 200510011706 CN1687969A (zh) 2005-05-12 2005-05-12 基于文档图像内容分析与特征提取的文档图像压缩方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN 200510011706 CN1687969A (zh) 2005-05-12 2005-05-12 基于文档图像内容分析与特征提取的文档图像压缩方法

Publications (1)

Publication Number Publication Date
CN1687969A true CN1687969A (zh) 2005-10-26

Family

ID=35306010

Family Applications (1)

Application Number Title Priority Date Filing Date
CN 200510011706 Pending CN1687969A (zh) 2005-05-12 2005-05-12 基于文档图像内容分析与特征提取的文档图像压缩方法

Country Status (1)

Country Link
CN (1) CN1687969A (zh)

Cited By (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101276363B (zh) * 2007-03-30 2011-02-16 夏普株式会社 文档图像的检索装置及文档图像的检索方法
CN101540041B (zh) * 2008-03-21 2012-06-27 中国科学院计算技术研究所 一种扫描文档浏览适配方法
CN103700121A (zh) * 2013-12-30 2014-04-02 Tcl集团股份有限公司 一种复合图像的压缩方法及装置
CN106227505A (zh) * 2016-07-22 2016-12-14 北京小米移动软件有限公司 图像检测方法、装置和用于图像检测的装置
TWI580972B (zh) * 2013-06-24 2017-05-01 鴻海精密工業股份有限公司 圖像分析系統及方法
CN108764121A (zh) * 2018-05-24 2018-11-06 释码融和(上海)信息科技有限公司 用于检测活体对象的方法、计算设备及可读存储介质
CN109034147A (zh) * 2018-09-11 2018-12-18 上海唯识律简信息科技有限公司 基于深度学习和自然语言的光学字符识别优化方法和系统
WO2019210822A1 (zh) * 2018-05-02 2019-11-07 中兴通讯股份有限公司 视频编解码方法、装置、系统及存储介质
CN111597773A (zh) * 2019-02-01 2020-08-28 珠海金山办公软件有限公司 一种压缩处理的方法、装置、计算机存储介质及终端
CN114915788A (zh) * 2022-07-19 2022-08-16 中科金勃信(山东)科技有限公司 一种用于档案的图像压缩方法、系统及介质
CN115687669A (zh) * 2022-10-12 2023-02-03 广州中望龙腾软件股份有限公司 文字缓存方法、终端以及存储介质

Cited By (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101276363B (zh) * 2007-03-30 2011-02-16 夏普株式会社 文档图像的检索装置及文档图像的检索方法
CN101540041B (zh) * 2008-03-21 2012-06-27 中国科学院计算技术研究所 一种扫描文档浏览适配方法
TWI580972B (zh) * 2013-06-24 2017-05-01 鴻海精密工業股份有限公司 圖像分析系統及方法
CN103700121A (zh) * 2013-12-30 2014-04-02 Tcl集团股份有限公司 一种复合图像的压缩方法及装置
CN106227505A (zh) * 2016-07-22 2016-12-14 北京小米移动软件有限公司 图像检测方法、装置和用于图像检测的装置
US11445201B2 (en) 2018-05-02 2022-09-13 Zte Corporation Video encoding and decoding method, device, and system, and storage medium
WO2019210822A1 (zh) * 2018-05-02 2019-11-07 中兴通讯股份有限公司 视频编解码方法、装置、系统及存储介质
CN108764121B (zh) * 2018-05-24 2021-03-02 释码融和(上海)信息科技有限公司 用于检测活体对象的方法、计算设备及可读存储介质
CN108764121A (zh) * 2018-05-24 2018-11-06 释码融和(上海)信息科技有限公司 用于检测活体对象的方法、计算设备及可读存储介质
CN109034147A (zh) * 2018-09-11 2018-12-18 上海唯识律简信息科技有限公司 基于深度学习和自然语言的光学字符识别优化方法和系统
CN109034147B (zh) * 2018-09-11 2020-08-11 上海唯识律简信息科技有限公司 基于深度学习和自然语言的光学字符识别优化方法和系统
CN111597773A (zh) * 2019-02-01 2020-08-28 珠海金山办公软件有限公司 一种压缩处理的方法、装置、计算机存储介质及终端
CN111597773B (zh) * 2019-02-01 2024-03-12 珠海金山办公软件有限公司 一种压缩处理的方法、装置、计算机存储介质及终端
CN114915788A (zh) * 2022-07-19 2022-08-16 中科金勃信(山东)科技有限公司 一种用于档案的图像压缩方法、系统及介质
CN114915788B (zh) * 2022-07-19 2022-09-13 中科金勃信(山东)科技有限公司 一种用于档案的图像压缩方法、系统及介质
CN115687669A (zh) * 2022-10-12 2023-02-03 广州中望龙腾软件股份有限公司 文字缓存方法、终端以及存储介质

Similar Documents

Publication Publication Date Title
CN1687969A (zh) 基于文档图像内容分析与特征提取的文档图像压缩方法
US7634150B2 (en) Removing ringing and blocking artifacts from JPEG compressed document images
JP5008572B2 (ja) 画像処理方法、画像処理装置およびコンピュータ可読媒体
JP2531840B2 (ja) 2進テキスト画像の高品質圧縮法
US8270716B2 (en) Selectively compressing picture and text areas of an image to maintain highest quality and effective compaction
EP0833519B1 (en) Segmentation and background suppression in JPEG-compressed images using encoding cost data
US20050069217A1 (en) Enhancing text-like edges in digital images
JP2005020227A (ja) 画像圧縮装置
US6980693B2 (en) Method and apparatus for image coding
US8204306B2 (en) Method for image segmentation based on block clustering for improved processing of touching characters
CN111445378A (zh) 一种基于神经网络的图像盲水印嵌入及检测的方法及系统
Rajagukguk et al. Compression of Color Image Using Quantization Method
CN114519788A (zh) 图像处理方法、装置、电子设备及计算机可读存储介质
Tompkins et al. A fast segmentation algorithm for bi-level image compression using JBIG2
Saraswat et al. A study on size optimization of scanned textual documents
CN1797471A (zh) 图像压缩域上的人体肤色区域检测方法
Rajesh et al. FastSS: Fast and smooth segmentation of JPEG compressed printed text documents using DC and AC signal analysis
Biswas Segmentation based compression for graylevel images
WO2016184485A1 (en) Image compression
KR100537827B1 (ko) 경계선 분포를 이용한 스캔 영상의 상역 분리 방법
JPH11289461A (ja) 画像符号化方法および画像符号化装置
CN1353907A (zh) 压缩具有多个比特平面的数字图象的方法
Kuruvilla Tiled image container for web compatible compound image compression
CN1377009A (zh) 使用区块内边缘资讯进行区块图纹压缩与解压缩的方法与系统
Mello et al. Historical Document Image Binarization

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C02 Deemed withdrawal of patent application after publication (patent law 2001)
WD01 Invention patent application deemed withdrawn after publication