CN103020929A

CN103020929A - 基于文字特征的碎纸机破碎文档恢复方法

Info

Publication number: CN103020929A
Application number: CN2012104891468A
Authority: CN
Inventors: 邢楠; 张婧; 周一; 李桥玮; 朱虹; 王栋
Original assignee: Xian University of Technology
Current assignee: Xian University of Technology
Priority date: 2012-11-26
Filing date: 2012-11-26
Publication date: 2013-04-03
Anticipated expiration: 2032-11-26
Also published as: CN103020929B

Abstract

本发明公开了一种基于文字特征的碎纸机破碎文档恢复方法，具体包括图像数字化，图像预处理，图像拼接三个步骤。其中，图像拼接包括对碎片图像进行先腐蚀后膨胀的开运算，根据模板矩阵沿着开运算后的各个文档碎片的左右边缘向内进行搜索，准确记录碎片图像中各个汉字边缘处“横笔“的位置；根据碎片图像中左、右边列处的汉字“横笔”位置，以两个碎片之间的笔画匹配总数为依据，笔画匹配总数最大的两个文档碎片就是相邻的文档碎片，将该两个碎片图像进行拼接处理，对所有碎片重复上述过程，最终得到的图像就是恢复的中文文档。本发明解决了被碎纸机破碎后的中文文档的恢复问题，填补了现有技术的空白。

Description

基于文字特征的碎纸机破碎文档恢复方法

技术领域

本发明属于图像处理以及信息恢复技术领域，具体涉及一种基于文字特征的碎纸机破碎文档恢复方法。

背景技术

碎纸机已经成为办公室不可或缺的一部分。大多数企业、机关院校和军队会出于保密的需要，使用碎纸机对重要文件、单据以及材料进行销毁。而事实上，在许多情况下，需要将已经破碎的文档重新恢复。然而，面对大量、细小、破碎的纸片，如果人工进行辨识和拼接的话，那将意味着海量枯燥的工作和漫长无期的时间，而且，通常结果并不能让人满意。计算机具有快速处理大量数据的能力，而通过计算机算法对破碎中文文档进行恢复的研究还非常少，尚无一种行之有效的方法处理该类问题，因此，急需一种能够有效恢复碎纸机中文文档的方法。

发明内容

本发明的目的是提供一种基于文字特征的碎纸机破碎文档恢复方法，解决了被碎纸机破碎后的中文文档的恢复问题，填补了现有技术的空白。

本发明所采用的技术方案是，一种基于文字特征的碎纸机破碎文档恢复方法，具体包括以下步骤：

步骤1、图像数字化：

使用扫描仪即可对纸质文档碎片进行处理，并输出BMP格式的原始图像f(x,y)；

步骤2、图像预处理：

对原始图像f(x,y)依次进行直方图均衡化和图像滤波处理，再使用8邻域方向链码的方法从背景模板中提取得到全部碎片图像；

步骤3、图像拼接：

步骤3.1、对步骤2得到的碎片图像进行先腐蚀后膨胀的开运算，用以消除图像中的细小对象、分割目标物、平滑目标物且不明显改变其面积和形状；

步骤3.2、建立5×3的模板矩阵M：

1	1	1
			0	0	0
0	0	0
			0	0	0
1	1	1

，

沿着开运算后的各个文档碎片的左右边缘向内进行搜索，向内搜索的范围是三个像素点，判断汉字的像素点是否能够满足矩阵M，若满足条件，认为该汉字结构是一个“横笔”，则将其直接延伸至图像最右边或最左边，否则，汉字结构保持不变；搜索整个碎片，并且准确记录碎片图像中各个汉字边缘处“横笔“的位置；

步骤3.3、对比两个文档碎片图像中左、右边列处的汉字“横笔”位置，若其中有“横笔”位置完全一致，则认为有一个汉字结构匹配上了，并且记录着两个碎片之间的总的笔画匹配数；以当前文档碎片图像为基准，与其他碎片图像继续重复上述比较过程，最终，以两个碎片之间的笔画匹配总数为依据，笔画匹配总数最大的两个文档碎片就是相邻的文档碎片，将该两个碎片图像进行拼接处理，且当出现多张碎片图像都与同一张碎片图像相匹配的情况时，根据最大相关性的原则，即匹配上“横笔”总数最多的碎片图像是相邻图像，这时才能将两张碎片图像拼接在一起；重复上述过程，最终得到的图像就是恢复的中文文档。

进一步地，步骤2中的直方图均衡化的具体方法为：

原始图像为f(x,y)，直方图均衡化处理后的图像为g(x,y)，两者尺寸均为m×n，g(x,y)的灰度级变化范围是0~255；

首先，求出原始图像f(x,y)的灰度直方图，用256维的向量H(k)表示，H(k)被称为累积概率函数，则：

H(k)＝P(f_k)＝n_k/N，k＝0,1,2,…255，

其中，k指具体的灰度级，其取值范围是0~255，f_k是原始图像f(x,y)中第k级的灰度值，P(f_k)是第k级灰度值在原始图像f(x,y)中所占的比例，n_k为原始图像f(x,y)中灰度值为k的像素个数，N为原始图像f(x,y)的像素总个数，N＝m×n；

其次，通过累积概率函数H(k)，对原始图像f(x,y)进行均衡化映射，当原始图像f(x,y)＝s时，则：

当f(x,y)≠0时，

s＝0,1,2,…255，

当f(x,y)＝0时，g(x,y)＝0，

其中，s指不同的灰度级数，其取值范围是0~255。

步骤2中的图像滤波处理的具体方法为：

首先，对图像g(x,y)进行二值化处理，通过选取合适的阈值，将碎片和背景模板有效地区分出来，得到二值化后的图像w(x,y)，

w (x, y) = \{\begin{matrix} 1, g (x, y) &GreaterEqual; Th \\ 0, g (x, y) \leq Th \end{matrix}

其中，Th为图像的阈值；

其次，通过图像垂直投影和水平投影的方法将噪声加以消除，得到去噪图像为e(x,y)；水平投影法是指图像按列向X轴方向投影，统计的X轴上的黑点数，根据设定的阈值，黑点数少的位置认为是噪声，其值赋为白色，从而消除左右边缘处的噪声；垂直投影法是指图像按行向Y轴方向投影，统计的Y轴上的黑点数，根据设定的阈值，黑点数少的位置认为是噪声，其值赋为白色，从而消除上下边缘处的噪声。

步骤2中的碎片图像提取的具体方法为：

对去噪图像e(x,y)从左向右按列进行扫描，以扫描到的白点作为起始点，顺时针沿着边界编号，按照方向编号规则，记录每一对像素间线段的方向编号，依次将方向编号连接即可得到碎片边缘的链码表示，沿着链码可以将碎片从背景图像中分割出来，并将其归一化，设置成标准化的碎片；重复上述过程，直到得到全部碎片图像。

本发明的有益效果是，能够通过计算机算法有效恢复经过碎纸机破碎的中文文档，大幅减少恢复文档所需的人力以及时间成本。

具体实施方式

本发明基于文字特征的碎纸机破碎文档恢复方法，首先将破碎的中文文档转换成数字图像，随后在计算机上通过图像预处理方法将破碎的文档提取出来，再根据汉字的结构特征将破碎的文档拼接起来，从而在计算机上实现破碎中文文档的自动恢复。其中，图像数字化部分是通过扫描仪等设备，将纸质的破碎文档信息转换成数字图像，做到既不失真又便于计算进行处理。图像预处理部分通过直方图均衡化、图像滤波、图像提取等手段，将碎片图像加以增强，并且提取出来。图像拼接部分则根据汉字的笔画结构特点，建立不同碎片之间的相关性联系，从而将各个碎片拼接，恢复中文文档的原始信息。

众所周知，汉字从书写形式看，是一种平面型方块体，汉字的所有笔画都有秩序地分布在平面的方框中，这是汉字从外观上看最明显的特点，这也就是我们常说的汉字独特的“方块型”结构。通常认为,汉字的基本笔画是横、竖、撇、点、折。对汉字的各种笔画的出现频率进行统计，张性初等人在1965年《心理学报》“汉字的各种笔画的使用频率的估计”中的统计结果为：横笔占31%，竖笔占16%，撇笔占15%，点笔占12%；而张静贤在2004年《汉字教程》中的统计结果为：横笔占27.68%，竖笔占17.60%，撇笔占15.95%，点笔占13.62%。通过比较我们可以发现汉字中横笔的出现频率最高。同时，根据“GB130001字符集汉字字序（笔画序）规范”中的相关统计，目前使用的汉字总共有20902个，平均每个字12.8画，其中12画的汉字最多，共有1957个。而在“现代汉语常用字表”中，常用汉字为3500个，平均每个字9.7画，其中9画的汉字最多，一共415个。基于上述数据，可以推断出“GB130001字符集”中，平均每个汉字有3.54画的横笔，而常用汉字中，平均每个汉字有2.68画的横笔，可以说横笔在整个汉字结构中出现频次最高，占有重要的地位。

根据上述统计，结合实际的碎纸机碎片情况，在每张碎片中都会出现相当多的完整或不完整的汉字结构，而依照统计规律，每个完整或不完整的汉字结构中，都可能出现多个“横笔”结构，本发明方法正是利用“横笔”结构在汉字中的作用，突出其结构特点，建立汉字内部不同结构之间的联系，匹配不同碎片中的汉字结构，进而拼接整张文档图像，以达到恢复整个中文文档的目的。

本发明基于文字特征的碎纸机破碎文档恢复方法，具体包括以下步骤：

步骤1、图像数字化：

图像数字化是以数字形式来不失真地描述图像信息。由于破碎的纸质中文文档，计算机无法对其进行处理，因此需要通过扫描仪等设备将其数字化，转换成数字图像，以便通过图像处理算法，在计算机上对其进行处理。在实际扫描中，使用采集模板将纸质碎片固定，固定时需将碎片展平，以避免出现倾斜、褶皱等情况。采集模板可以同时固定多张纸质中文文档碎片，并且可以反复扫描使用。使用通用型扫描仪即可对纸质文档碎片进行处理，并将输出的原始图像f(x,y)以BMP格式保存在计算机上，由于BMP格式图像数据没有压缩，则原始的数据信息被最大程度地保存了下来，以便进行下一步处理。

步骤2、图像预处理：

对原始图像f(x,y)依次进行直方图均衡化和图像滤波处理，再使用8邻域方向链码的方法从背景模板中提取得到全部碎片图像，以便进行后续的拼接。

步骤2.1、直方图均衡化：

由于使用扫描仪的基本模式扫描图像，因此，得到的碎片图像很多情况下存在整体偏暗或曝光过度的情况，画面的明暗细节都会有所损失。通过直方图均衡化对图像中像素个数多的的灰度级进行展宽，对像素个数少的灰度级进行缩减，这样可以使得图像画面清晰且均匀。

原始图像为f(x,y)，直方图均衡化处理后的图像为g(x,y)，两者尺寸均为m×n，g(x,y)的灰度级变化范围是0~255。

H(k)＝P(f_k)＝n_k/N，k＝0,1,2,…255，

其中，k指具体的灰度级，其取值范围是0~255，f_k是原始图像f(x,y)中第k级的灰度值，P(f_k)是第k级灰度值在原始图像f(x,y)中所占的比例，n_k为原始图像f(x,y)中灰度值为k的像素个数，N为原始图像f(x,y)的像素总个数，N＝m×n。

当f(x,y)≠0时，s＝0,1,2,…255，

当f(x,y)＝0时，g(x,y)＝0，

其中，s指不同的灰度级数，其取值范围是0~255。

步骤2.2、图像滤波处理：

由于碎片与模板的边缘会存在许多噪声，这些噪声对进一步的处理影响很大，需要对图像进行滤波处理，将分布散乱的噪点去除。

w (x, y) = \{\begin{matrix} 1, g (x, y) &GreaterEqual; Th \\ 0, g (x, y) \leq Th \end{matrix}

其中，Th为图像的阈值。

其次，经过二值化处理后，在图像的左右和上下边缘处噪声比较集中，对之后的碎片提取造成影响。根据噪声的位置特点，通过图像垂直投影和水平投影的方法将噪声加以消除，得到去噪图像。水平投影法是指图像按列向X轴方向投影，统计的X轴上的黑点数，根据设定的阈值，黑点数少的位置认为是噪声，其值赋为白色，从而消除左右边缘处的噪声；垂直投影法是指图像按行向Y轴方向投影，统计的Y轴上的黑点数，根据设定的阈值，黑点数少的位置认为是噪声，其值赋为白色，从而消除上下边缘处的噪声。即：噪声信号为n(x,y)，去噪图像为e(x,y)，则：

e(x,y)＝w(x,y)-n(x,y)。

步骤2.3、碎片图像提取：

由于后续的拼接需要将碎片从背景模板中提取出来，通过链码的方法可以实现，链码是对碎片边缘的一种编码方法，它是利用一些固定长度和方向相联系的直线段来表示碎片边缘的。由于图像中的每个像素周边最多只有8个邻近像素，将这8个像素设定为从0到7的方向，通过确定像素P的位置以及某个邻近像素的编码，就可以知道邻近像素的位置，因此8邻域方向链码能准确地描述目标图象的边缘。8邻近方向链码表示：

3	2	1
			4	P	0
5	6	7

具体编码过程：对去噪图像e(x,y)从左向右按列进行扫描，以扫描到的白点作为起始点，顺时针沿着边界编号，按照方向编号规则，记录每一对像素间线段的方向编号，依次将方向编号连接即可得到碎片边缘的链码表示，沿着链码可以将碎片从背景图像中分割出来，并将其归一化，设置成标准化的碎片；重复上述过程，直到得到全部碎片图像。

步骤3、图像拼接：

图像拼接是整个破碎中文文档恢复的核心。首先，通过图像增强的方法，强化中文文字的结构。然后，以中文笔画的统计特性为依据，通过笔画建立不同碎片之间的相互联系。最终，根据最大相关性的原则，将碎片图像两两之间拼接在一起，进而恢复出整个原始的中文文档。

步骤3.1、经过图像预处理，特别是二值化处理，使得提取的中文文字存在残缺，不利于之后的信息恢复，因此，采用图像增强的方法，即对图像进行腐蚀和膨胀运算。为了增强其文字结构的特征，使用二值图像的开运算进行处理。所谓开运算就是使用同一个结构元素对图像先进行腐蚀再进行膨胀的运算。它能够消除图像中的细小对象、分割目标物、平滑目标物且不明显改变其面积和形状。

二值化图像为F，结构元素为S，开运算定义为：

其中，FoS表示开运算，

表示腐蚀，即S对F进行腐蚀是所有S中包含于F的点的集合的平移，

表示膨胀，即S对F进行膨胀是所有位移点的集合。

从实际效果来看，开运算中，先进行腐蚀可以将中文文字的一些细小毛刺腐蚀掉，而随后的膨胀相应地增强了文字结构，且确保毛刺不再出现。

步骤3.2、对于次序凌乱的中文文档碎片，充分利用其“横笔”的特点进行文档的拼接，考虑到“横笔”在汉字结构中所扮演的重要角色，平均每个汉字有三画左右的“横笔”结构，而且“横笔”具有良好的方向性和线性特点，因此，我们提出使用“横笔”特征对文档碎片的边缘处进行近一步地突出，利用其水平方向的不变性，将汉字进行匹配，进而拼接整个中文文档。

由于图像预处理环节的不精细，使得文字的笔画结构存在一些不完整、不紧密，特别是造成部分“横笔”有缺损，不利于之后的文字匹配，因此，需要对“横笔”结构加以弥补。

建立5×3的模板矩阵M：

1	1	1
			0	0	0
0	0	0
			0	0	0
1	1	1

，

沿着开运算后的各个文档碎片的左右边缘向内进行搜索，向内搜索的范围是三个像素点，判断汉字的像素点是否能够满足矩阵M，若满足条件，认为该汉字结构是一个“横笔”，则将其直接延伸至图像最右边或最左边，否则，汉字结构保持不变；搜索整个碎片，并且准确记录碎片图像中各个汉字边缘处“横笔“的位置。

步骤3.3、对比两个文档碎片图像中左、右边列处的汉字“横笔”位置，若其中有“横笔”位置完全一致，则认为有一个汉字结构匹配上了，并且记录着两个碎片之间的总的笔画匹配数。以当前文档碎片图像为基准，与其他碎片图像继续重复上述比较过程，最终，以两个碎片之间的笔画匹配总数为依据，笔画匹配总数最大的两个文档碎片就是相邻的文档碎片。同时，考虑到每个碎片图像中的汉字个数，以及文章段落之间的结构特点等因素，设置了笔画匹配总数下限值，当至少有五个“横笔”位置一致时，认为两个碎片图像可能是邻近的，可以进行拼接处理。

同时，若仅仅按照笔画匹配数作为依据，往往会出现多张碎片图像都与同一张碎片图像相匹配的情况。为了避免这类情况出现，根据最大相关性的原则，即匹配上“横笔”总数最多的碎片图像是相邻图像，这时才能将两张碎片图像拼接在一起。

当两张碎片图像拼接在一起后，就视为一张碎片图像，按照匹配条件，重复上述过程，最终得到的图像就是恢复的中文文档。将最终结果以BMP的格式保存在计算机上，方便查看或做进一步处理。

通过以上步骤可以实现对破碎中文文档的恢复，使得破碎的文档信息能够重新被使用。

Claims

1.一种基于文字特征的碎纸机破碎文档恢复方法，其特征在于，具体包括以下步骤：

步骤1、图像数字化：

步骤2、图像预处理：

步骤3、图像拼接：

步骤3.2、建立5×3的模板矩阵M：

1 1 1 0 0 0 0 0 0 0 0 0 1 1 1，

2.按照权利要求1所述的基于文字特征的碎纸机破碎文档恢复方法，其特征在于，步骤2中的直方图均衡化的具体方法为：

H(k)＝P(f_k)＝n_k/N，k＝0,1,2,…255，

当f(x,y)≠0时，

g (x, y) = 255 Σ_{k = 0}^{s} p (f_{k}),

s＝0,1,2,…255，

当f(x,y)＝0时，g(x,y)＝0，

其中，s指不同的灰度级数，其取值范围是0~255。

3.按照权利要求2所述的基于文字特征的碎纸机破碎文档恢复方法，其特征在于，步骤2中的图像滤波处理的具体方法为：

w (x, y) = \{\begin{matrix} 1, g (x, y) &GreaterEqual; Th \\ 0, g (x, y) \leq Th \end{matrix}

其中，Th为图像的阈值；

4.按照权利要求3所述的基于文字特征的碎纸机破碎文档恢复方法，其特征在于，步骤2中的碎片图像提取的具体方法为：