CN1545067A

CN1545067A - 一种利用计算机对数字化档案文件压缩的方法

Info

Publication number: CN1545067A
Application number: CNA2003101114618A
Authority: CN
Inventors: 宏廖; 廖宏
Original assignee: Individual
Current assignee: Nanning Sea Light Data Co Ltd
Priority date: 2003-11-24
Filing date: 2003-11-24
Publication date: 2004-11-10
Anticipated expiration: 2023-11-24
Also published as: US20060001557A1; CN100541537C

Abstract

本发明公开了一种利用计算机对数字化档案文件压缩的方法，它本发明包括计算机和数字化的二值图文档案文件，所述数字化的二值图文档案文件在计算机的处理过程中，要经过如下的压缩算法的运行，该算法的步骤包括；从二值图文中提取符号和重排序，以及符号编码两大部分。对档案文件进行基于符号的非图像素的压缩，压缩率较超星PDG的压缩算法提高了50个百分点，较国图的NLC压缩算法提高了30个百分点以上。适用于对档案文件的压缩处理和管理。

Description

一种利用计算机对数字化档案文件压缩的方法

技术领域

本发明涉及一种利用计算机对图像数据的处理方法，尤其是利用计算机对数字化档案文件的压缩的方法。

背景技术

2002年底，由中国政府颁布的《国民经济和社会发展第十个五年计划信息化重点专项规划》，在界定信息化的内涵时明确指出信息资源是信息化的核心，纸质档案文件数字化成为信息化建设的一个共性、关键性难题，而数字化后的文档资料的压缩问题则是核心中的核心问题。高效、高质的压缩算法可以节省存贮开销，提高资料共享时文件在网络上的传输速度和图像解压缩还原显示的速度。

现在普遍采用的原文原貌的二值图像方式存储管理数字化档案文件的技术，以其忠实原文、永不出错、直观方便、高速高效等优点，广泛应用于数字图书馆、数字化档案馆和专利数据库等专业数据库的处理及对原文查询等，成为该领域一个重要的技术手段，而其中所采用的图像格式的压缩效率则是一个重要的技术指标。目前国际上通用流行的是国际电报电话咨询委员会CCITT制定的TIFF G4图像压缩算法，当然，也还有其他的格式，如主要应用于国内互联网上最大的拥有50多万册电子图书的商用超星数字图书馆、北京时代超星公司所开发的PDG格式和应用于中国数字图书馆、已有10多万册电子图书由中国国家图书馆开发的NLC格式。它们对数字化档案文件都进行了较大比率的压缩，略优于TIFF G4；可是其压缩比率仍有较大的提升空间。以A4幅面、扫描分辨率为300DPI的存贮文件为例，PDG格式的平均文件大小约为45KB左右，NLC格式的文件大小也在35KB左右。

目前的数字化档案文件以二值位图文件为主，普遍使用的二值图像的压缩方法都是基于像素点的。我们做过比较，超星所开发的PDG格式在对二值档案文件进行压缩时，压缩比与TIFF G4标准的压缩比极为相近，而我国国家图书馆所开发的NLC格式的压缩比则与CCITT标准中的T.82标准即JBIG1相近。JBIG是联合国图像专家组的英文缩写，该专家组成立于1988年，其任务是制定二值图像压缩的国际通用标准。而无论TIFF G4或是JBIG1都是基于图像像素点对图像进行压缩的。基于像素点的压缩方法是对图像按照扫描顺序对像素点进行处理，从上到下从、从左到右的对每一个像素点编码。TIFF G4采用了改进的霍夫曼编码方式来进行编码，即对连续出现的黑色像素点或白色像素点的个数进行霍夫曼编码。JBIG1则对每一个像素点进行自适应算术编码，算述编码所使用的概率统计模型是由像素点前一定数量及结构的像素模板的值所决定的。它们都是基于像素点的压缩方法，所以，压缩率很难再进一步得到提高。

事实上，绝大部分二值档案文件是由大片的白色背景和大量的重复符号组成的，例如一篇汉字文字档案材料，其中会有许多汉字和标点符号反复出现，这是二值档案文件的一个典型特征。如果能够充分利用这一特征，将会在压缩率上相较其于像素点的压缩方法有很大的提高。

发明内容

本发明的目的是提供一种利用计算机对数字化档案文件压缩的方法，它应能克服上述方法的缺陷，充分利用于数字化二值图文档案文件的特点，进一步提高压缩率。

本发明包括计算机和数字化的二值图文档案文件，所述数字化的二值图文档案文件在计算机的处理过程中，要经过如下的压缩算法的运行，其特征在于该算法的步骤包括：

a、在数字化二值图文档案文件中，采用常规的边缘跟踪和区域填充法把符号从位图中提取出来；

b、将所提取的符号及其特征的信息，按符号的读写顺序进行重排序；

c、把重排序的符号逐一取出进行符号编码，首先采用符号相似性判别技术，判别所取符号与设定字典中的符号是否匹配；

d、在步骤c对每个符号的匹配判别中，当

(1)在设定字典中找到匹配符号时，采用符号位图数据编码技术，对该符号进行编码，并在新建的字典中建立索引；

(2)在设定的字典中找不到匹配的符号时，采用符号位图数据编码技术，对该符号进行编码，并将该符号的字典索引设为-1；

e、对步骤d所处理的符号，采用整数编码技术，对当前符号的尺寸、位置及索引信息进行编码，并加到新建的字典中；然后返回步骤c运行下一符号，直到所有重排序的符号都被编码为止。

以上的压缩方法，对档案文件进行基于信号而非图像像素的压缩，压缩率较超星PDG格式和我国国家图书馆的NLC格式所采用的压缩算法有了很大的提高，这一点在下面的实验结果中也得到了很好的体现。

下面，对图文资料数字化生产线数字化的三个档案文件分别用本算法、超星PDG格式和我国国家图书馆的NLC格式进行压缩实验，结果如下表：

文件名	本算法(KB)	超星PDG格式(KB)	本算法较超星PDG格式压缩率提高比率(％)	国图NLC格式(KB)	本算法较国图NLC格式压缩提高比率(％)
文件名	本算法(KB)	超星PDG格式(KB)	本算法较超星PDG格式压缩率提高比率(％)	国图NLC格式(KB)	本算法较国图NLC格式压缩提高比率(％)	000019	25.90	64.10	59.59	50.90	49.12
000025	15.20	29.10	47.77	21.70	29.95	000019	25.90	64.10	59.59	50.90	49.12
000025	15.20	29.10	47.77	21.70	29.95	000031	25.80	48.10	46.36	34.30	24.78
平均	22.30	47.10	51.24	35.63	34.61	000031	25.80	48.10	46.36	34.30	24.78

以上用于实验的文件均是A4幅面、扫描分辨率为300DPI的二值文件，所有三文件是经本算法处理后打印出来的，作为附图供参考，如图3～图5所示。都附在申请材料的图中。由以上分析数据可以看出，本算法的压缩率较超星PDG压缩算法提高了50个面分点，较国图的NLC压缩算法也有了较大幅度的提高，提高幅度在30个百分点以上。

附图说明

图1所示，是本发明压缩算法的流程图。

图2所示，是十个像素点的分布图。

图3所示，是编码区间需要进行归一化的三种情况图。

图4～图6所示，是采用本发明压缩算法后打印出来的图文。

具体实施方式

下面，结合附图，对本发明作进一步说明。

由图1的本发明压缩算法流程图可知，该压缩算法包括符号提取和重排序，以及符号编码两大部分。在第一部分中，完成对二值位图中符号的提取和符号的重排序；在经二部分中，实现对所提出来的符号进行编码的过程。详细说明如下：

(一)符号提取及重排序

1、符号提取

符号提取采用常规的边缘跟踪和区域填充方法将符号从位图中提取出来，在此基础上，我们还需提取出符号的一些重要特征，如符号的质心及面积等，这些特征在符号比较与分类中有着重要的作用。

符号提取一般包括两个阶段，在第一阶段中对符号进行边缘跟踪，以取得当前符号边缘像素点的位置信息。跟踪开始时，首先对位图进行从左至右、从上到下的扫描，发现的第一个黑色像素点将作为当前跟踪的起始点，从些点为开始，沿着当前符号的边缘记录下每个边缘点的位置信息，直至回到起始点为止。在本算法中，我们采用了八邻域方法，即在当前边界点的八邻点中寻找下一个边界点的方法。八邻域方法比四邻域法可使平均压缩率得到1％左右的提高。

第二阶段是区域填充阶段，区域填充是要把在第一阶段得到的边界点所包围的区域在原图中用背景色(白色)进行填充，以把边界点所包围的区域作为一个符号从位图中提取出来。并且，也在这一阶段，将符号的像素点阵列信息记录下来。

将符号提取出来后，还要进一步得到符号的特征：符号的面积可由包围边界点的矩形框的长和宽相乘而得；符号中各黑色像素点至包围边界点的矩形框左边界的平均距离即是符号质心的位置。这时，就可以把一个符号的位置信息、特征信息及像素点信息一起加到符号队列中去了。

2、符号重排序

在这一阶段中，把符号按照符号的读写顺序进行重排，这个步骤会对下一步的压缩操作带来很大好处，因为在记录符号的位置坐标(以下所述的坐标均为直角坐标系)时，我们记录的是当前符号与前一个被编码的符号的位置偏移值，如果按符号的读写顺序排列符号，让符号按照此顺序被编码，则前后符号间的位置偏移值是最小的，这样，编码时其码长就会最短。

这一阶段的操作分为以下几个步骤进行：

(1)计算位图的倾斜角度、符号行间距与同行符号间距。

(2)将符号按所在区域分组。

(3)把符号重排，使重排后的符号满足这样的条件：在区域内符号排列顺序是从上到下，从左到右的顺序；区域或区域间，应是区域中心Y值较小的在前，较大的在后。

在计算位图的倾斜角度时，采用了文件频谱的方法。对于每一个符号，找出其附近离它最近的K个符号，一般K＝10，分别计算这K个符号的质心与该符号的质心的连线与水平方向的夹角，这样，如果我们从位图中分离出了N个符号，则可由上面的计算中得到K*N个角度值。下一步，作出这些角度值的直方图，直方图横坐标的精度我们设为了1/1800。然后，选用汉明窗口对直方图进行平滑处理，汉明窗的数字表达式为：

这里，取N＝10。使用汉明窗与直方图进行卷积运算，并从得到的卷积参数中取最大值所对应的角度值即是位图的倾斜角度。

同理，我们也计算出每个符号与其距离最近的K个符号质心间连线的长度。取与垂直方向夹角在正负30度角间的所有连线的长度来计算符号行间距，注意，在计算这些连线与垂直方向的夹角时，要把位图的倾斜角度考虑进去，也就是说需要利用上一步的计算结果。同计算角度时一样，我们也要制出这些长度的直方图，然后，用矩形窗对直方图进行平滑处理。矩形窗的数学表达方式为：

这里，我们取N＝10。使用矩形窗与长度直方图进行卷积运算后，从得到的卷积结果中取最大值所对应的长度值即是符号行间距。

采用同样的方法可以计算出符号间距，只是取符号间连线时只取与水平方向夹角不大于正负30度角的所有连线来进行计算。

上述的汉明窗和矩形窗均是平滑滤波器。

在位图上，如果我们把每个符号的质心与其K个近邻的质心用连线连起来，可以看到整幅图成了一个以符号为结点的一张网。我们把长度超过三倍行间距的连线都断掉，这时，整个位图就被拆分成了几个子网，每个子网都是原位图的一个区域，把每个子网中的符号归为一组，这样，就完成了图区域的划分。

区域划分后，要对符号顺序进行重排，首先，计算位图中各个区域的中心点，按照中心点Y坐标的大小以升序对区域排序；然后，在区域内对区域内符号按照从上至下，从左至右的顺序排序。对区域内符号排序时我们采用了Howard方法，先进行行划分，然后再进行行内符号排序。先将符号按其下边界的纵坐标以升序排序，然后，取最前面的N个符号的下边界Y坐标的平均值作为基准线，将所有符号上边界与该基准线比较，上边界高于此基准线的符号，我们认为它与前N个符号同在一行。对于剩下的符号，以同样的方法进行行划分。行划分结束后，再对行内符号序，取符号的左上角横坐标进行升序排序。

至此，已把位图中的符号提取出来并按照读写顺序进行了排序，下面，要为符号集建立字典。所述的字典，是本算法在对一幅档案位图进行压缩时，首先对位图全图进行扫描，提取出由相互联接的黑色像素点所组成的符号。一幅位图中，有些符号会重复出现，例如一个逗号“，”。把由我们的相似性判别规则判断为相似的符号归为一组，在每一组中选出一个符号作为这一组的代表符号，而一幅档案位图中所有符号组的代表符号的集合就是字典。

字典是在压缩过程中动态建立的，字典会在压缩过程中不断加入新符号，“已存在的字典”指的是在压缩过程中动态建立的字典。在压缩开始时，字典是空的，在从符号队列中读入第一个字符时，就把它加入字典中；以后，每读入一个新符号，都要把它与字典中存在的符号对比，若对比结果为两符号相似，则不往字典中加入新符号，若不相似，则往字典中加入新符号。

(二)符号编码

符号编码过程中要动态地建立符号字典，同时对符号进行压缩编码；字典是动态建立的，它与符号压缩码过程同步进行。字典的建立需要有效的符号相似性判别方法。下面，将符号编码这一过程表达如下：for符号序列中的每一个符号

符号相似性判别，在字典中寻找匹配符号

if在字典中找到匹配字符

编码匹配符号在字典中的索引

编码当前符号在图像中的坐标信息(与前一符号的坐标差)

编码当前符号的长宽尺寸信息

else

直接对当前符号的位图数据进行编码

编码当前符号在字典中的索引，索引为-1

编码当前符号的图像中的坐标信息(与前一符号的坐标差)

编码当前符号的长宽尺寸信息

将当前符号加入字典中

end ifend for

这一过程涉及了这样几项关键技术：符号相似性判别技术，符号的位图数据编码技术及对符号的索引及位置尺寸信息进行编码时所使用到的整数编码技术。下面，就对这三项技术分别加以说明。

1、符号相似性判别技术

要建立字典，最重要的一步是要对符号的相似性进行准确的判决。在对两个符号进行比较时，要把两个符号的质心对齐，然后把这两个符号的像素点进行对比，根据预设的判别规则和门限值来判断两个符号是否相匹配，相匹配的符号可放在一个组中，把组中成员平均后所得到的符号放在字典中作为该组成员的代表符号。压缩时，该组内成员都可以用字典中该组的代表符号在字典中的索引来表示。

在对符号作匹配判断时，先比较两符号的尺寸，如果两符号的长度差值或宽度差值超过两个像素点，则判定两个符号不相匹配。如果两符号的尺寸合乎要求，就要进一步对两符号的像素点进行比较。

对两符号的像素点进行比较时，要将待比较的两个符号的质心对齐后再把两符号的像素点逐点比较，并创建两符号的误差图。误差图的大小是两符号质心对齐重叠后的大小，误差图中的黑色像素点位置是两符号中像素点颜色不同的位置。得出误差图后，我们要对误差图进行如下的检查和判断：

(1)如果在误差图中发现2×2邻域内四个像素点全部为黑色像素点，则两符号判为不匹配。

(2)检查误差图中每一个黑色像素的八邻域点，如果发现误差图中某黑色像素点(以下称为ERROR_A即误差像素点A)的八邻域点中至少有两个黑点，且至少有两个黑点不相连，则检查误差图中ERROR_A点所对应的两符号原图中的像素点(在下面分别称为ORIGINAL1_A和ORIGINL2_A)，如果在ORIGINAL1_A或ORIGINAL2_A的八邻域点中，八邻域点全部和其同色，则两符号判为不匹配；如果两符号的长和宽小于12个像素点，则如果ORIGINAL1_A或ORIGINAL2_A的八邻域点中至少四个点与其同色，则判定两个符号不匹配。

(3)计算误差图中黑色像素点的总数，并将该总数除以误差图的面积，如果得到的商大于某个预设的门限值，则判定两个符号不匹配。在本算法中，门限值设为0.25。

当对一个新符号进行处理时，都要首先在设定的字典中寻找最佳匹配。如果在字典中可以找到该符号的匹配符号，则将该符号加入动态字典中对应项所代表的符号组中；如果无法在字典中找到匹配项，则将该符号加入动态字典中，作为新的符号组的代表符号。最简单的建立动态字典的方法是把发现的第一个未能在已建立的字典中找到匹配符号的符号列入字典中作为新的一项。但是，考虑到这样的字符可能是其所属类中一个比较差的代表，这样将直接影响压缩率和解码质量。所以，我们在建立字典的过程中将动态地更新字典中的符号。如果当前处理的符号在字典中无法找到匹配字符，这个符号将被加入动态字典中；如果在可以找到匹配符号，则字典中的对应符号将被更新，更新后的字典符号是其所代表的符号组中所有符号取平均后的结果。这个取平均的过程也可能造成这样的结果，即在某符号组对组内所有符号取平均后，组内的某些符号与字曲符号不再匹配，因此，在新字典建立后，将重新检查字典中每一项与其所对应符号组的对应关系，如果发现不匹配的符号，把符号放入动态字典中作为新的一项。不过这样的情况出现的可能性很小，根据我们的实验情况，只有2％左右。

2、符号位图数据编码技术

当某一符号设定，在字典中无法找到相匹配的符号时，将该符号的索引设为-1，则该符号应被加入动态字典中，对这个符号进行编码时，除了需对这个符号的位置、长、宽和索引信息编码外，还需要对该符号的像素值进行压缩编码。对符号的位置及索引等信息的压缩用整数据编码方法，将在下一部分介绍；对字典符号像素值的压缩采用基于上下文的二值低精度自适应算术编码方法。在本算法中，我们采用了JBIG压缩算法的上下文模板，这个模板中的像素点Q分布在当前被编像素点P的所在行及上两行，共有十个像素点，如图2所示。

10个二值像素点共有2¹⁰共1024种排列组合形式，所以需要创建两个数组，每个数组应包含1024个整数项，这两个数组分别用来记录每个模板之后出现黑色像素点的次数Count_1和白色像素点Count_0的次数。这两个数组在初始化时均置零，在压缩的过程中，每出现一个黑点，Count_1加1，反之，Count_0加1。当Count_1和Count_0的和超过255时，Count_1和Count_0都分别除以2。

利用统计模型提供的概率信息，使用二值低精度算术编码方法进行编码。在本算法中使用的编码寄存器的精度为32位。二值算术编码方法是将0和1出现的概率表示成一个区间中的一个子区间，这一子区间与其所在的区间的比值就是正被编码的信号(0或者1)出现的概率，然后，这一子区间就作为当前的编码区间，在对下一信号进行编码时，再在这个新的编码区间中分出与编码信号出现概率相应的子区间；当这个区间小于某一预设值时，则要对编码区间进行归一化处理，并根据情况输出编码位，按照这些步骤反复操作，直至所有信号都被编码为止。下面，用伪代码说明这一编码过程。这里，我们用LPS(Less Probable Symbol)表示出现概率较小的输入位，用MPS(More ProbaleSymbol)表示出现概率较大的输入位；Count_0表示0的出现次数，Count_1表示1出现的次数，Range表示编码区间，Low表示编码区间的左边界。在编码初始时，将Range设为1/2×2³²-1，Low设为0。

If(Count_0＜Count_1＝

    {

    LPS＝0；

    Count_LPS＝Count_0；

　　}

　　else

　　{

　　LPS＝I；

　　Count_LPS＝Count_1；

　　}

　　Range_LPS＝Range*Count_LPS/(Count_0+Count_1)；

　　If(Current_Inputting_Bit＝LPS)
        <!-- SIPO <DP n="10"> -->
        <dp n="d10"/>
　　{

　　Low+＝Range-Range_LPS；

　　}

　　else

　　{

　　Range-＝Range_LPS；

　　}

当编码区间小于2³²的四分之一时，要对Range进行归一化处理，并输出编码位。

图3所示，是编码区间，需要进行归一化的三种情况，当编码区间小于2³²的四分这一时，如果编码敬意的左边界Low大于2³²的二分之一，如上图中标号为(1)的情况，则输出一个编码位1，Low减去half；如果是情况(2)，输出编码位0；如果是情况(3)，不作输出，但是用一计数器作记录，每次遇到情况(3)，计数器加一，当下次遇到情况(1)或情况(2)需要输出编码位时，输出与计数器中数值相同个数的编码位，输出的编码位数值与情况(1)或(2)中输出的编码位数值相反。最后，无论是哪种情况，Range和Low均要增加一倍。重复上面的步骤直到Range和Low均要增加一倍。重复上面的步骤直到Range大于232的四分之一为止。实现对像素值进行压缩编码，压缩了1/3。

3、整数编码技术

完成了字典符号的压缩后，下面将以字典符号为基准对所有符号进行编码压缩。编码时，我们仅需当前编码符号在动态字典中的索引信息及位置信息即可。位置信息是当前编码符号相对前一编码符号的相对坐标，即当前符号外接矩形框的左下角坐标与前一编码符号外接矩形框的右下角坐标的差值。这些数值都是整数，压缩时，我们采用基于树形结构的整数编码方法。

整数编码过程包括下面三个步骤，首先，先编码整数的符号位；然后，存贮该整数所需的位数采用一元编方式编码；最后，编码整数本身。如整数9，编码为0 0001 1001；而整数-9，编码为1 0001 1001。

编码器根据待编码位建立判决树，判决树在结点处开叉，根据当前编码决定在结点处是走向左结点还是右结点。判决树的根结点对应于符号位，若整数为正数，则编码为0，若为负数，编码为1。在对某个位进行编码时，还同时需要更新这个位所对应的编码结点的概率信息，该概率信息记录了在此结点中出现0或1的频率，使用频率信息及当前编码位可利用在上一部分介绍的算术编码器进行一步编码，以获得较好的压缩率。对某个位的编码结束后，根据当前编码位是0或1走向下一个子结点，然后对下一位进行编码，直到所有位都被编码为止。

图4～图6所示，是使用本压缩算法后打印出来的图文，其中，图4是文，图5是图，图6是图文结合。从该三份图文来看，图文清晰，忠于原版。很有实用和经济价值。

大部分的二值档案文件都是由白色背景和大量的重复出现的符号组成的，例如，在一幅数字化档案文件里，逗号和句号就会反复出现。利用这一特征，可将反复出现的符号归为一组，而每一组中只需要有一个代表符号，对位图数据(像素点)进行压缩时只对该代表符号进行压缩，而对组中的其他符号只需要存贮其位置信息(在位图中的横坐标和纵坐标)，及其对代表符号的索引便可在解压时将其复原了。例如，如果在一幅数字化档案文件中有五十个逗号，这样我们只需要存贮一个逗号的像素点信息，而其他的四十九个逗号只需要保存有第一逗号在字典中的索引即可。相较于基于像素点的图像压缩方法，本发明中的算法不需要存贮数字化档案位图文件的每一个像素点，所以在压缩率得到了很大提高。

本方法与计算机结合，在压缩开始时，程序将数字化档案文件从硬盘或其他存贮媒介中读入内存，然后由计算机的中央处理器CPU控制完成压缩过程中的所有计算工作。

Claims

1、一种利用计算机对数字化档案文件压缩的方法，它包括计算机和数字化的二值图文档案文件，所述数字化的二值图文档案文件在计算机的处理过程中，要经过如下的压缩算法的运行，该算法的步骤包括；

c、把重排序的符号遂一取出进行符号编码，首先采用符号相似性判别技术，判别所取符号与设定字典中的符号是否匹配；

d、在步骤c对每个符号的匹配判别中，当

e、对步骤d所处理的符号，采用整数编码技术，对当前符号的尺寸、位置及索引信息进行编码。并加到新建的字典中；然后返回步骤c运行下一符号，直到所有重排序的符号都被编码为止。

2、根据权利要求1所述的利用计算机对数字化档案文件压缩的方法，其特征在于：

所述符号提取包括以下两个阶段

边缘跟踪阶段

对符号进行边缘跟踪，以取得当前符号边缘像素点的位置信息；

区域填充阶段

把在边缘跟踪阶段得到的边界点所包围的区域在原图文和背景进行填充，以把边界点所包围的区域作为二个符号从位图中提取出来，并将符号的像素点陈列信息记录下来。

3、根据权利要求1所述的利用计算机对数字化档案文件压缩的方法，其特征在于：

所述符号重排序包括以下三个步骤

(1)计算位图的倾斜角度、符号行间距与同行符号间距；

(2)将符号按所在区域分组；

(3)把符号重排，使重排后的符号满足这样的条件；在区域内符号排列顺序是从上到下，从左到右的顺序；区域或区域间，应是区域中心Y值较小的在前，较大的在后；

其中，在计算位图的倾斜角度采用的数学表达式为：

式中，K是距离当前符号最近的符号个数，N是从位图中分离出来的符号个数。

4、根据权利要求1所述的利用计算机对数字化档案文件压缩的方法，其特征在于：

所述的符号编码过程表达为；

for符号序列中的每一个符号

符号相似性判别，在字典中寻找匹配符号

if在字典中找到匹配字符

编码匹配符号在字典中的索引

编码当前符号在图像中的坐标信息(与前一符号的坐标差)

编码当前符号的长宽尺寸信息

else

直接对当前符号的位图数据进行编码

编码当前符号在字典中的索引，索引为-1

编码当前符号的图像中的坐标信息(与前一符号的坐标差)

编码当前符号的长宽尺寸信息

将当前符号加入字典中

end if

end for

这一过程涉及了这样几项关键技术：符号相似性判别技术，符号要的位图数据编码技术及对符号的索引及位置尺寸信息进行编码时所使用到的整数编码技术。

5、根据权利要求1或4所述的利用计算机对数字化档案文件压缩的方法，其特征在于：

所述符号相似性判别技术包括

(1)符号尺寸比较，先比较两符号的尺寸，如果两符号的长度差值或宽度差值超过两个像素点，则判定两个符号不相匹配。如果两符号的尺寸合乎要求，就要进一步对两符号的像素点进行比较。

(2)像素点比较，对两符号的像素点进行比较时，要将待比较的两个符号的质心对齐后再把两符号的像素点逐点比较，并创建两符号的误差图。

6、根据权利要求1或4所述的利用计算机对数字化档案文件压缩的方法，其特征在于：

所述位图数据编码技术包括利用统计模型提供的概率信息，使用二值低精度算术编码方法进行编码，在我们的算法中使用的编码寄存器的精度为32位；二值算术编码方法是将0和1出现的概率表示成一个区间中的一个子区间，这一子区间与其所在的区间的比值就是正被编码的信号(0或者1)出现的概率，然后，这一子区间就作为当前的编码区间，在对下一信号进行编码时，再在这个新的编码区间中分出与编码信号出现概率相应的子区间；当这个区间小于某一预设值时，则要对编码区间进行归一化处理，并根据情况输出编码位，按照这些步骤反复操作，直至所有信号都被编码为止。

7、根据权利要求1或4所述的利用计算机对数字化档案文件压缩的方法，其特征在于：

所述整数编码技术包括以下三个步骤

(1)编码整数的符号位；

(2)存贮该整数所需的位数，采用一元编码方式编码；

(3)编码整数本身。