CN116684631A

CN116684631A - 一种针对公文的图像压缩方法

Info

Publication number: CN116684631A
Application number: CN202310959851.8A
Authority: CN
Inventors: 谢文迅; 陆猛; 范红达; 张伟; 庄玉龙; 赵云
Original assignee: Beijing Dianju Information Technology Co ltd
Current assignee: Beijing Dianju Information Technology Co ltd
Priority date: 2023-08-02
Filing date: 2023-08-02
Publication date: 2023-09-01
Anticipated expiration: 2043-08-02
Also published as: CN116684631B

Abstract

本发明涉及数据压缩技术领域，提出了一种针对公文的图像压缩方法，包括：采集公文图像，获取公文通道图像；对于公文通道图像获取字符行和间隙行；根据字符行获取若干字符段；对于每个字符行内字符段的数量和长度获取不同长度字符段对应长度的长度置信度；根据字符行获取字符行序列，每个字符行获取多个连通域，根据所有连通域的形状特征以及数量获取字符行序列的字符稠密度；根据字符稠密度和长度置信度获取矫正长度置信度；根据矫正长度置信度获取编码区长度；根据编码区长度获取窗口长度，完成对公文图像的压缩。本发明解决了对公文的图像进行压缩的过程中出现的由于字典和待搜索的缓存过短导致的匹配的概率较低的问题。

Description

一种针对公文的图像压缩方法

技术领域

本发明涉及数据压缩技术领域，具体涉及一种针对公文的图像压缩方法。

背景技术

公文即公务文书，是法定机关或其他社会组织在公务活动中具有法律效力和规范的文体。所以，需要对发布过的这些公文及时进行留存。机关文书档案的保管期限分为永久、定期两种，其中，定期一般分为30年、10年。为了便于公文内容的传播和使用，也需要对公文对应的图像进行保存。

在对公文的图像进行存储时，需要先对图像进行压缩，在需要使用公文图像时对对应的图像进行解压后使用。为了保证公文的图像在后续使用时图像中信息的完整性，在对公文的图像进行压缩的过程中，需要采用无损压缩以保证信息不被丢失，通过识别和消除统计冗余来减少比特。根据最大限度替换信息中重复信息的思想，可采用词典编码中的LZ77压缩算法对获取的公文的图像进行无损压缩，但LZ77算法在压缩过程中需要在字典中寻找待匹配的最长字符串，当字典和待搜索的缓存过短时，能进行匹配的概率较低，会增加匹配需要的时间，所以需要根据具体公文图像的具体状况确定合适的字典区长度。

发明内容

本发明提供基于一种针对公文的图像压缩方法，以解决字典和待搜索的缓存过短时，能进行匹配的概率较低的问题，所采用的技术方案具体如下：

本发明一个实施例提供了一种针对公文的图像压缩方法，该方法包括以下步骤：

采集公文图像，根据公文图像获取公文通道图像；

对于每个公文通道图像获取划分阈值，根据划分阈值将公文通道图像二值化得到通道二值图；根据通道二值图获取字符行和间隙行；根据通道二值图的字符行获取若干字符段；对于通道二值图的每个字符行内字符段的数量和长度获取不同长度字符段对应长度的长度置信度；

根据字符行获取字符行序列，对于每个字符行进行聚类获取单个字符，对单个字符获取多个连通域，根据所有连通域的形状特征以及数量获取字符行序列的字符稠密度；根据字符行序列的字符稠密度和在字符行序列中长度的长度置信度获取在不同字符行序列中长度的矫正长度置信度；根据矫正长度置信度获取编码区长度；

根据编码区长度获取窗口长度，根据不同窗口长度对公文通道图像的每个字符行和间隙行进行压缩，完成对公文图像的压缩。

优选的，所述根据通道二值图获取字符行和间隙行的方法为：

在通道二值图中，若一行像素点中出现了灰度值为0的像素点，那么将该行标记为0，如果一行像素点中没有出现灰度值为0的像素点，那么将该行标记为1；

根据通道二值图每行的标记遍历通道二值图的行获取字符行和间隙行。

优选的，所述根据通道二值图每行的标记遍历通道二值图的行获取字符行和间隙行的方法为：

遍历通道二值图每行的标记，从第一行遍历到最后一行得到一个选取序列，选取序列中的值都为0和1，在选取序列中将标记连续相同的每一段提取出来，将标记为0且连续相同的一段表示一个字符的宽度，将标记为1且连续相同的一段表示字符之间间隙的宽度，由此得到了多个字符行和间隙行，每个字符行和间隙行都包括多行像素点。

优选的，所述根据通道二值图的字符行获取若干字符段的方法为：

对于通道二值图的每个字符行，将每个字符行对应的每一行像素点看作一个字符序列，字符序列中的值为通道二值图中像素点的灰度值，字符序列由0，1表示，对每一个字符序列进行遍历获取字符段。

优选的，所述对每一个字符序列进行遍历获取字符段的方法为：

对于每条字符序列，从字符序列的第一位开始遍历，直到遍历到字符序列中的第一个0时，将该值提取出来放入一个子段内，之后继续遍历，在遍历过程中，若值为0则添加到子段内，若值为1，此时将子段保存，获取一个由0构成的字符段，之后再次遍历到字符序列的值为0时，构成一个新的子段，添加到新的子段中，依此类推，将字符序列遍历完成得到若干字符段。

优选的，所述对于通道二值图的每个字符行内字符段的数量和长度获取不同长度字符段对应长度的长度置信度的方法为：

获取字符段的数量以及每个字符段的长度，统计所有字符段的长度，获取不同长度对应的字符段的数量，令每个长度对应的字符段数量作为该长度的频次，在所有长度中获取最大长度，根据每个长度的频次以及与最大长度的差异获取该长度对应的长度置信度。

优选的，所述根据每个长度的频次以及与最大长度的差异获取该长度对应的长度置信度的方法为：

式中，表示第a个长度对应的字符段的数量，/>表示第a个长度对应的字符段长度，/>表示最大长度对应的字符段数量，/>表示最大长度，/>表示第a个长度对应的长度置信度。

优选的，所述根据字符行获取字符行序列的方法为：

每一个字符行包括多个字符序列，将每个字符行对应的多个字符序列按照行数排序组合成一个序列，记该序列为字符行序列。

优选的，所述对于每个字符行进行聚类获取单个字符，对单个字符获取多个连通域，根据所有连通域的形状特征以及数量获取字符行序列的字符稠密度的方法为：

将字符行内灰度值小于划分阈值的像素点记为字符像素点，对每个字符行使用DBSCAN聚类算法对字符像素点聚类获取聚类簇，每个聚类簇表示单个字符，对单个字符进行连通域分析得到多个连通域；

对于每个连通域提取连通域的骨架，对骨架进行角点检测，利用角点将骨架分为了多个骨架段，对于每个骨架段使用主成分分析得到每个骨架段的主成分方向作为骨架段的方向角度，令骨架段与其相邻最近的两个骨架段的方向角度作差取绝对值后再取均值获取骨架段的方向差异值，若骨架段的相邻骨架段为1，那么骨架段与相邻骨架段的方向角度作差作为方向差异值，若骨架段的相邻骨架段为0，那么方向差异值为0；

根据聚类簇的连通域数量、聚类簇内连通域的像素点数量的方差、骨架段的方向差异值和骨架段数量获取字符行序列对应的字符稠密度。

优选的，所述根据聚类簇的连通域数量、聚类簇内连通域的像素点数量的方差、骨架段的方向差异值和骨架段数量获取字符行序列对应的字符稠密度的方法为：

式中，表示第i个聚类簇检测到的连通域的个数，/>表示第i个聚类簇中所有连通域的字符像素点数量的方差，/>表示第i个聚类簇检测到的第j个连通域内骨架段的数量，/>表示第i个聚类簇检测到的第j个连通域内各个骨架段对应的方向差异值的标准差，表示字符区域中聚类簇的数量，/>表示线性归一化函数，/>表示字符行序列对应的字符稠密度。

本发明的有益效果是：本发明根据公文的内容和格式的限制，将需要压缩的公文的图像划分为多个字符行和间隙行，根据每个字符行对应字体和格式相同的一行字符分别对各个字典区域长度的置信度进行评价，结合字符行字符的笔画稠密程度和字符结构的复杂程度，对上述置信度评价进行校正，根据校正后的结果获取自适应编码区的长度，进而获取每个字符行序列对应的自适应窗口长度，再确定其他间隙行对应的窗口长度，根据确定的窗口长度对各个序列进行压缩，完成对公文图像的压缩，解决了对公文的图像进行压缩的过程中出现的由于字典和待搜索的缓存过短导致的匹配的概率较低的问题，减少压缩过程中使用窗口进行匹配需要的时间。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1为本发明一个实施例所提供的一种针对公文的图像压缩方法的流程示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

请参阅图1，其示出了本发明一个实施例提供的一种针对公文的图像压缩方法流程图，该方法包括一下步骤：

步骤S001，采集图像并获取公文通道图像。

获取需要进行压缩的公文的图像记为公文图像，公文图像为RGB图像，为了保证压缩后对图像复原时能够完成得到图像的信息，因此本实施例对公文图像的每个通道对应的图像分别进行压缩，将三个通道对应的图像记为公文通道图像。

步骤S002，根据公文通道图像获取字符行和间隙行，根据字符行获取若干字符段，根据字符段的长度和每个长度对应的字符段的数量获取不同长度对应的长度置信度。

由于公文内容和格式的限制，公文图像中的内容多为多行字符表示，同一行字符的字号和格式相同，两行字符有明显的间隔，公文纸张的颜色为白色即公文图像的无字符部分灰度值极大，而字符部分无论颜色，其灰度值相对来说都更小，因此对于每个公文通道图像使用最大类间方差进行划分，获取划分阈值，像素值大于阈值的像素点表示公文通道图像中的纸张部分，像素值小于等于阈值的像素点表示公文通道图像中的字符部分。

基于此将公文通道图像进行二值化，将公文通道图像中的字符部分灰度值记为0，纸张部分的灰度值记为1，由此得到通道二值图。若通道二值图中某一行像素出现了灰度值为0的像素点，那么认为该行像素表示了某行字符的一部分，若通道二值图中某一行像素完全没有出现灰度值为0的像素点，那么认为该行像素表示了字符之间的空白行。

将出现了灰度值为0的像素点所在的行标记为0，将没有出现灰度值为0的像素点所在的行标记为1，将标记为0的行记为第一像素行，将标记为1的行记为第二像素行，将通道二值图从第一行开始遍历到最后一行得到一个序列记为选取序列，选取序列中的值为每行像素的标记，在选取序列中将标记连续相同的每一段提取出来，若标记为0且连续相同，那么认为提取出的这一段表示一个字符的宽度，若标记为1且连续相同，那么认为提取出的这一段表示字符之间间隙的宽度，由此得到了多个字符行和间隙行，每个字符行包括多个相连的第一像素行，每个间隙行包括多个第二像素行。

在对字符行使用LZ77算法进行压缩时，需要获取对应的窗口长度，根据各个字符行对应的窗口长度确定间隙行在压缩过程中对应的窗口长度。在使用LZ77压缩算法进行压缩的过程中，窗口由两个部分组成，分别为左侧的字典区和右侧的待编码区，通过比较待编码区中各字符与字典区是否一致进行压缩。

将通道二值图中每一行像素点记为一个像素行，将每个字符行中的每一个像素行看作一个字符序列，字符序列由0，1构成，从字符序列的第一位开始遍历，直到遍历到字符序列中的第一个0时，将该值提取出来到一个子段内，后继续遍历，在遍历过程中，若值为0则添加到字段内，若值为1，此时将字段保存，获取一个由0构成的字符段，之后再次遍历到字符序列的值为0时，构成一个新的字段，添加到新的字段中，依此类推，将字符序列遍历完成得到若干字符段。

对于每个字符行，获取字符段的数量以及每个字符段的长度，由于其中有大量字符段的长度都相同，统计所有字符段对应的长度，获取每个长度对应的字符段的数量，令每个长度对应的字符段数量作为该长度的频次，在所有长度中获取最大长度，根据每个长度的频次以及与最大长度的差异获取该长度对应的长度置信度，公式如下：

当字符段在字符行中出现的频次越多，且字符段的长度与最大长度越位接近时，则窗口长度对应的长度置信度越大，则该窗口长度为压缩过程中出现可匹配的数据对的可能性越大，即该字典区长度越适合对该组字符行进行压缩。

至此，可以获取字符段不同长度对应的长度置信度。

步骤S003，根据字符行获取字符行序列，对于每个字符行序列获取若干连通域，根据连通域的形状特性和数量获取不同长度的矫正长度置信度，根据矫正长度置信度获取编码区长度。

由于在公文通道图像中，公文的字体颜色一般来说是一致的，也就是说每个字符行中对应的字符的像素点灰度值相同，若字符行的字符内容较为稠密时，那么每个字符对应的表示字符的像素点会更多，在进行压缩时，为了保证编码区长度更合适，需要为更稠密的字符对应较短的编码区长度，提高压缩时的可匹配概率。

在公文通道图像中，每一个字符行对应若干字符序列，将若干字符序列按照行数排序组合为一个序列记为字符行序列，令每个字符行作为一个区域记为字符区域，将字符区域中像素值小于划分阈值的像素点记为字符像素点，对一个字符区域内的字符像素点使用DBSCAN聚类算法进行聚类，获取聚类簇的数量，在本实施例中令最小点为10个，半径定义为6个。由于不同字符之间有间隔，所有聚类后获取的同一个聚类簇为一个字符。对每个字符的稠密程度进行分析，获取这些字符对应的字符行序列的整体稠密程度。

对同一个聚类簇内的字符像素点使用连通域分析，每个连通域对应同一个字符中相连通的笔画，连通域分析获取每个聚类簇内连通域的数量；例如“价”字，其中单人旁、人字头和余下的一撇一捺分别对应四个连通域。当一个聚类簇内连通域的个数越多时，则该字符互不连通的笔画越多，该字符越稠密。获取每个连通域内包含的字符像素点的数量，根据每个连通域对应的字符像素点的数量获取聚类簇内字符像素点数量的方差。当一个字符越为复杂时，则不同互不连通的笔画内包含的像素点个数差异越大，即方差越大。

使用K3M图像骨架提取算法获取每个连通域的骨架，对骨架进行角点检测，当角点的数量越多时，则聚类簇对应的字符的相连通的笔画内的转折越多，该字符越为复杂，即字符越为稠密。角点将骨架分为多段，对每一段骨架分别使用主成分分析PCA获取对应的主成分方向，根据主成分方向获取每段骨架对应的方向角度。获取每段骨架与其相邻的两段骨架对应的方向角度的差值的绝对值的均值，将该值记为该段骨架对应的方向差异值。值得说明的是，若骨架只有一个相邻的骨架，那么其对应的方向差异值为与其相邻的一段骨架的方向角度的差值的绝对值，若骨架没有被角点分段，那么其的方向差异值就是0。当某一连通的笔画的结构越为复杂时，则该笔画对应的连通域内各段骨架对应的方向角度差异越大。

根据每个聚类簇中的连通域数量、聚类簇内连通域的像素点数量的方差、每个连通域内被角点分段的骨架段数量以及每个骨架段对应的方向差异值获取字符行序列对应的字符稠密度，公式如下：

当一个聚类簇内包含的连通域个数越多、不同连通域内包含的字符像素点数量越多时，则该连通域对应的字符的笔画越多，不同不相连笔画间的差异越大，该聚类簇对应的字符聚集密集度越大，即该聚类簇对应的字符越为稠密。当一个连通域被划分为的段数越多、不同段间方向差异越大时，则该连通域对应的笔画的转折越多，该笔画越为复杂，这些连通域对应的聚类簇的字符结构稠密度越大，即连通域对应的聚类簇对应的字符的结构越为复杂。当各个连通域对应的字符聚集密集度和字符结构稠密度越大，这些连通域对应的字符序列中包含的连通域个数越多时，则该字符序列对应的字符稠密度越大，即该字符序列对应的字符行越为稠密，应赋予较小的长度置信度。

由此获取了每个字符行序列的字符稠密度，对于每个字符段，根据字符段的长度对应的长度置信度以及字符段所在字符行序列对应的字符稠密度获取矫正长度置信度，公式如下：

式中，表示第v个字符段的长度置信度，/>表示第v个字符段对应的字符稠密度，/>表示第v个字符段的矫正长度置信度。

由此获取了在不同字符行序列中的不同长度对应的矫正长度置信度，当不同长度对应的长度置信度和字符稠密度越大时，则其对应的矫正长度置信度越大，即该长度越适合作为编码区长度用于压缩。

至此，可以获取长度小于等于最大长度的各个长度对应的校正长度置信度。取这些长度小于等于最大长度的各个长度对应的校正长度置信度的最大值，将该最大值对应的长度记为最佳比较长度，将该值记为最佳比较置信度。比较最佳比较置信度和最大长度对应的校正长度置信度的大小，若最佳比较置信度较大，则取最佳比较长度作为编码区长度；否则，取最大长度作为编码区长度。其中，校正长度置信度的经验值为80%。为方便描述，将确定的编码区长度记为L。

设定校正长度置信度的原因为，当直接选择频次最大的值对应的最大长度作为初始设定的编码区长度时，则长度小于最大长度的各个字符在进行匹配时则无法匹配成功，会使匹配过程能匹配到的概率降低，增加匹配需要的时间，所以设置阈值和校正长度置信度确定编码区长度，提升匹配效率。

至此，获取了每个字符行序列的编码区长度。

步骤S004，根据编码区长度获取窗口长度，利用窗口长度对公文图像进行压缩。

由于窗口由左侧的字典区和右侧的待编码区两个部分组成，通过比较待编码区中各字符与字典区是否一致进行压缩，所以，窗口长度即为编码区长度加上编码区内这些数据下一次出现时间隔的距离再加上一个编码区中包含的数据的长度。

将字符行序列中，将长度为L的字符段之间的像素点数量记为空白段，获取所有空白段的均值作为k，则将窗口长度的大小定义为2L+k。

每两个字符行之间存在于一个间隙行，字符行得到一个字符行序列，间隙行同理得到一个间隙行序列，间隙行序列对应公文的纸面无字符区域，所以间隙行序列中包含的各个数值一致，为方便压缩，每个间隙行序列的窗口长度与其前一个字符行序列保持一致。当间隙行序列无对应的前一个字符行序列，则该间隙行序列的窗口长度与其后一个字符行序列保持一致。

通过上述获取的窗口长度作为自适应窗口长度使用LZ77算法对每个字符行序列的数据进行压缩，对每个公文通道图像进行压缩获取压缩文件。

以上所述仅为本发明的较佳实施例而已，并不用以限制本发明，凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种针对公文的图像压缩方法，其特征在于，该方法包括以下步骤：

采集公文图像，根据公文图像获取公文通道图像；

2.根据权利要求1所述的一种针对公文的图像压缩方法，其特征在于，所述根据通道二值图获取字符行和间隙行的方法为：

3.根据权利要求2所述的一种针对公文的图像压缩方法，其特征在于，所述根据通道二值图每行的标记遍历通道二值图的行获取字符行和间隙行的方法为：

4.根据权利要求1所述的一种针对公文的图像压缩方法，其特征在于，所述根据通道二值图的字符行获取若干字符段的方法为：

5.根据权利要求4所述的一种针对公文的图像压缩方法，其特征在于，所述对每一个字符序列进行遍历获取字符段的方法为：

6.根据权利要求1所述的一种针对公文的图像压缩方法，其特征在于，所述对于通道二值图的每个字符行内字符段的数量和长度获取不同长度字符段对应长度的长度置信度的方法为：

7.根据权利要求6所述的一种针对公文的图像压缩方法，其特征在于，所述根据每个长度的频次以及与最大长度的差异获取该长度对应的长度置信度的方法为：

式中，表示第a个长度对应的字符段的数量，/>表示第a个长度对应的字符段长度，表示最大长度对应的字符段数量，/>表示最大长度，/>表示第a个长度对应的长度置信度。

8.根据权利要求1所述的一种针对公文的图像压缩方法，其特征在于，所述根据字符行获取字符行序列的方法为：

9.根据权利要求1所述的一种针对公文的图像压缩方法，其特征在于，所述对于每个字符行进行聚类获取单个字符，对单个字符获取多个连通域，根据所有连通域的形状特征以及数量获取字符行序列的字符稠密度的方法为：

10.根据权利要求9所述的一种针对公文的图像压缩方法，其特征在于，所述根据聚类簇的连通域数量、聚类簇内连通域的像素点数量的方差、骨架段的方向差异值和骨架段数量获取字符行序列对应的字符稠密度的方法为：

式中，表示第i个聚类簇检测到的连通域的个数，/>表示第i个聚类簇中所有连通域的字符像素点数量的方差，/>表示第i个聚类簇检测到的第j个连通域内骨架段的数量，/>表示第i个聚类簇检测到的第j个连通域内各个骨架段对应的方向差异值的标准差，/>表示字符区域中聚类簇的数量，/>表示线性归一化函数，/>表示字符行序列对应的字符稠密度。