CN103295019A

CN103295019A - 一种基于概率统计的中文碎片自适应恢复方法

Info

Publication number: CN103295019A
Application number: CN2013101900582A
Authority: CN
Inventors: 邢楠; 周一; 张婧; 李桥玮; 朱虹; 王馨梅; 王栋
Original assignee: Xian University of Technology
Current assignee: Xian University of Technology
Priority date: 2013-05-21
Filing date: 2013-05-21
Publication date: 2013-09-11
Anticipated expiration: 2033-05-21
Also published as: CN103295019B

Abstract

本发明公开了一种基于概率统计的中文碎片自适应恢复方法，进行碎片扫描，得到图像扫描结果h(x,y)，对图像h(x,y)在计算机中进行处理后，上形成三色图像S(x,y)；对所有三色图像S(x,y)进行叠加运算，形成上下空白中间是字体的单字块，并将分割出来的字块图进行居中处理；对居中处理后的所有字块图分类；对分类后的字块图应用概率统计模型进行组合，得到拼接出来的图形，在对拼接出来图像进行校正，最终经过校正后的图像就是恢复图像，从而实现了碎纸机中文碎片的恢复。本发明的有益效果是能够使用该算法快速准确地恢复出碎纸机破碎的中文文档，能够有效提高操作人员的便利性以及降低计算机的运算复杂度。

Description

一种基于概率统计的中文碎片自适应恢复方法

技术领域

本发明属于字符识别和信息恢复技术领域，涉及一种基于概率统计的中文碎片自适应恢复方法。

背景技术

现在碎纸机经常被用来销毁重要文件、材料等，面对海量的破碎的纸片，人们通常认为这些文件、材料信息是不可能被恢复的，然而，对于特定部门或特殊要求的客户而言，在某些情况下，他们希望能够将已经破碎的文档重新恢复。由于碎纸机碎片信息恢复所涉及的问题非常复杂，如果使用人工进行恢复的话，意味着海量的工作和漫长的时间。而利用计算机进行信息恢复，还面临着算法复杂度高、限制过多、恢复信息准确率低下以及时间消耗大、运行速度慢等诸多棘手的技术问题，上述问题尚无行之有效的解决方法，因此，急需一种能够快速、准确、有效恢复中文碎片信息的方法。

发明内容

本发明一种基于概率统计的中文碎片自适应恢复方法的目的是提供一种基于概率统计的中文碎片自适应恢复方法，解决了现有的中文碎片算法复杂度高、限制过多、恢复信息准确率低下的问题。

本发明所采用的技术方案是，一种基于概率统计的中文碎片自适应恢复方法，按照以下步骤进行：

步骤1：数据扫描：

用一张单色的纸板作为扫描仪的扫描背景，将碎纸机粉碎的条状中文文档碎片展平放置在扫描背景上，各碎片垂直投影上无重合，对碎纸进行扫描，得到数字图像的二维矩阵h(x,y)；

步骤2：数据提取：

将步骤1中得到的图像的二维矩阵h(x,y)通过计算机得到其所对应的R，G，B三个通道的灰度图，对灰度图的每一列数据求取算数平均值，设阈值TH=150，若该算数平均值大于TH，则认为存在碎片，若该算数平均值小于或等于TH，则认为是背景，从而得到碎片的灰度图像矩阵g(x,y)，对灰度图像g(x,y)进行二值化处理，将碎片和背景有效地分开，得到每个碎片的二值化图像f(x,y)，将二值化的图像矩阵f(x,y)与灰度图像矩阵g(x,y)进行逻辑“与”运算得到图像矩阵e(x,y)，将图像矩阵e(x,y)旋转，使之成为与水平方向垂直的图像矩阵e'(x,y)，对e'(x,y)进行二值化处理得到图像矩阵l(x,y)，设置与图像l(x,y)同尺寸的背景图b(x,y)，背景图b(x,y)为灰色，将图像l(x,y)的内容与背景图b(x,y)进行相加上形成每个碎片的三色图像矩阵S(x,y)；

步骤3：数据预处理：

对通过步骤2得到的各个碎片对应的三色图像S(x,y)利用公式

A(x,y)＝S₁(x,y)+S₂(x,y)+…+S_n(x,y)进行叠加运算，

之后对图像矩阵A(x,y)进行水平投影，根据水平投影判断出字块的起始位置和字块的高度，以每两个字块之间的空白处的中心线为基准，将所有字块分割出来形成上下空白中间是字体的单字块，并将分割出来的字块图进行居中处理；

步骤4：数据分类：

对步骤3居中处理后的所有字块图按照其布局特点进行分类；

步骤5：数据拼接：

对步骤4中分类后的字块图用概率统计模型进行组合，得到拼接出来的图形，再对拼接出来图像进行校正，得到恢复图像。

本发明的特点还在于，

步骤1中扫描背景的红色通道、绿色通道、蓝色通道的分布应满足：任一通道所有点的像素值为所允许的最大值，除该通道外的所有点的像素值为所允许的最小值。

步骤2中将图像e(x,y)旋转，得到e'(x,y)这一过程的具体步骤为：通过八连通链码的方法对图像f(x,y)进行处理得到碎片的轮廓坐标信息，设碎片在左上方、左下方、右上方、右下方四个角点分别为（X₁，Y₁）、（X₂,Y₂）、（X₃,Y₃）、（X₄,Y₄），将左边两角点构成向量和垂直方向的向量

其中：

{\overset{&RightArrow;}{V}}_{1} = (X_{2} - X_{1}, Y_{2} - Y_{1})

{\overset{&RightArrow;}{V}}_{2} = (1,0),

将

和带入下式，计算出碎片的偏移角度θ₁，

θ_{1} = \arccos (\frac{{\overset{&RightArrow;}{V}}_{1} \cdot {\overset{&RightArrow;}{V}}_{2}}{| {\overset{&RightArrow;}{V}}_{1} | \cdot | {\overset{&RightArrow;}{V}}_{2} |}),

利用角点信息（X₃,Y₃）、（X₄,Y₄），计算出碎片的偏移角度θ₂：

θ_{2} = \arccos (\frac{{\overset{&RightArrow;}{V}}_{3} \cdot {\overset{&RightArrow;}{V}}_{4}}{| {\overset{&RightArrow;}{V}}_{3} | \cdot | {\overset{&RightArrow;}{V}}_{4} |}),

其中，

{\overset{&RightArrow;}{V}}_{3} = (X_{4} - X_{3}, Y_{4} - Y_{3}),

{\overset{&RightArrow;}{V}}_{4} = (1,0),

通过计算θ₁和θ₂的均值计算出碎片的旋转角度θ：

θ = \frac{θ_{1} + θ_{2}}{2},

由旋转角度θ，将碎片图像矩阵e(x,y)的原始坐标（X,Y）转换成旋转之后的坐标（Xa,Ya），从而得到旋转之后的碎片图像e'(x,y)，转换公式为：

\{\begin{matrix} Xa = X \times \cos θ - Y \times \sin θ \\ Ya = X \times \sin θ + Y \times \cos θ \end{matrix} .

步骤4中，字块图按照布局特点通过BP神经网络分类器分为5类：

a类为没有文字块或者仅有符号，

b类为碎片的文字块由左、右两个字的部分字体结构共同构成，

c类为字体结构占满了字块图的整个空间，

d类为某字体结构仅占字块图空间的右半部分，

e类为字体结构仅占字块图空间的左半部分。

本发明的有益效果是能够使用该算法快速准确地恢复出碎纸机破碎的中文文档，能够有效提高操作人员的便利性以及降低计算机的运算复杂度。

附图说明

图1是本发明一种基于概率统计的中文碎片自适应恢复方法的8邻近方向链码图；

图2是本发明一种基于概率统计的中文碎片自适应恢复方法的条状碎片中文字排布情况图；

图3是本发明一种基于概率统计的中文碎片自适应恢复方法的分割出字块的过程图；

图4是本发明一种基于概率统计的中文碎片自适应恢复方法的分割字块图；

图5是本发明一种基于概率统计的中文碎片自适应恢复方法的五类文字块布局图。

具体实施方式

下面结合附图和具体实施方式对本发明进行详细说明。

本发明提供一种基于概率统计的中文碎片自适应恢复方法，采用以下步骤进行：

步骤1：数据扫描：

1.1）使用一张单色的纸板将其作为扫描仪的扫描背景，背景图像的红色通道、绿色通道、蓝色通道的分布应尽量满足如下要求：即某一通道所有点的像素值为所允许的最大值，其余通道所有点的像素值为所允许的最小值。红色通道用R表示，绿色通道用G表示，蓝色通道用B表示。

1.2）放置被碎纸机粉碎的纸的碎片，纸的碎片为条状，将碎片以任意角度进行摆放。在放置碎片时，需要尽可能地将碎片展平，不能出现卷曲的情况。同时，各个碎片的摆放应尽可能保证在其垂直投影上无重合部分。如有重合，将会增加提取碎片的运算时间。

1.3）以1.1）中选定的的纸板为背景进行碎片扫描，扫描过程中，不能出现移动碎片的情况。将碎片扫描结果以图像格式保存，图像的二维矩阵记为h(x,y)，并对图像矩阵h(x,y)的对比度进行合适地调整，以便进行之后的处理。

步骤2：数据提取：

2.1）利用步骤1中得到的图像矩阵h(x,y)，可以得到其所对应的R，G，B三个通道的灰度图，对灰度图的每一列数据求取算数平均值，设阈值TH=150，当灰度图列的算数平均值大于TH时，表明存在碎片，反之，则是背景。通过对整幅图像的处理，判断出各个碎片在图像中所处的范围，得到粗略提取的各个碎片的灰度图像g(x,y)，图像g(x,y)中面积占大部分的是碎片，依然有少许部分的标准色背景。而这样做加快运算速度，减少对图像的数据量，有效提高提取效率，并为下一步的工作做好准备。

2.2）对灰度图像g(x,y)进行二值化处理，通过双阈值TH1=60、TH2=120将碎片和背景有效地分开，得到各个碎片的二值化图像f(x,y)，公式为：

TH1、TH2为背景的阈值，二值化处理使得黑色文字内容与白色碎片衬底合并成为一个整体，将二值图像f(x,y)与灰度图像g(x,y)进行逻辑“与”运算得到图像e(x,y)，恢复各个碎片中的文字内容，同时，保证其背景为黑色。e(x,y)=f(x,y)·g(x,y)，其中的·表示逻辑“与”运算。

2.3）通过八连通链码的方法对图像f(x,y)进行处理，将碎片从单色背景中提取出来：它利用一些固定长度和方向相联系的直线段来表示碎片的边缘。由于图像中的每个像素周边最多只有8个邻近像素，将这8个像素设定为从0到7的方向，通过确定像素P的位置以及某个邻近像素的编码，就知道邻近像素的位置，因此8邻域方向链码能准确地描述目标图象的边缘。8邻近方向链码图如图1所示，具体编码过程：在碎片图象的边缘处，任意选取一个白点作为起始点，顺时针沿着边界编号依次扫描图像边缘的所有点，按照方向编号规则，记录每一对像素间线段的方向编号，依次将方向编号连接即可得到碎片边缘的链码表示，从而得到该碎片对应的边缘信息。

将获得的链码长度与已有的先验值进行比较，判断该链码所描述的是条状碎片还是噪点。如果是噪点，则需要进行去噪处理，并再次进行链码扫描，直至碎片边缘的噪点全部去除，得到完整的条状碎片链码。

2.4）由于条状碎片的摆放具有很大的随意性，需要对其进行相应的旋转，使之成为垂直图像。通过之前对f(x,y)进行链码处理，得到碎片的轮廓坐标信息，得到碎片的行坐标的最小值和最大值，通过行极值的坐标信息，判断出碎片的上下边缘。上下边缘处链码点之间的距离会大于碎片的平均宽度，若碎片的倾斜角度过大，不满足上述条件，则认为链码点个数最大值为行边缘。在行边缘处找到的列的最大值，即可认为此点为该碎片的角点。设碎片在左上方、左下方、右上方、右下方四个角点分别为（X₁，Y₁）、（X₂,Y₂）、（X₃,Y₃）、（X₄,Y₄），将左边两角点构成向量

和垂直方向的向量

其中：

{\overset{&RightArrow;}{V}}_{1} = (X_{2} - X_{1}, Y_{2} - Y_{1})

{\overset{&RightArrow;}{V}}_{2} = (1,0),

将

和

带入下式，可计算出碎片的偏移角度θ₁。

θ_{1} = \arccos (\frac{{\overset{&RightArrow;}{V}}_{1} \cdot {\overset{&RightArrow;}{V}}_{2}}{| {\overset{&RightArrow;}{V}}_{1} | \cdot | {\overset{&RightArrow;}{V}}_{2} |}),

同理，利用右边的角点信息，可得到偏移角度θ₂。即：

{\overset{&RightArrow;}{V}}_{3} = (X_{4} - X_{3}, Y_{4} - Y_{3}),

{\overset{&RightArrow;}{V}}_{4} = (1,0),

θ_{2} = \arccos (\frac{{\overset{&RightArrow;}{V}}_{3} \cdot {\overset{&RightArrow;}{V}}_{4}}{| {\overset{&RightArrow;}{V}}_{3} | \cdot | {\overset{&RightArrow;}{V}}_{4} |}),

通过计算θ₁和θ₂的均值计算出碎片的旋转角度θ，

θ = \frac{θ_{1} + θ_{2}}{2},

由已知的旋转角度θ，将各个碎片的图像e(x,y)的原始坐标（X,Y）转换成旋转之后的坐标（Xa,Ya），从而得到旋转之后的各个碎片的图像e'(x,y)，其的姿态是摆正的，

\{\begin{matrix} Xa = X \times \cos θ - Y \times \sin θ \\ Ya = X \times \sin θ + Y \times \cos θ \end{matrix},

2.5）对各个碎片的图像e'(x,y)再进行一次二值化处理，二值化后的图像为l(x,y)，阈值TH₃=100，

l (x, y) = \{\begin{matrix} 1, g (x, y) > {TH}_{3} \\ 0, g (x, y) \leq {TH}_{3} \end{matrix},

使得碎片的白色衬底部分和黑色文字部分有效的区分出来，并且保证文字信息无损失的同时纸条碎片边缘边的噪点尽可能少。

2.6）设置与图像l(x,y)同尺寸的背景图b(x,y)，该背景图为灰色，将图像l(x,y)的内容信息整个复制到背景图b(x,y)上形成各个碎片的三色图像S(x,y)，进而将所有碎片图像S(x,y)调整为等宽的，方便之后分类器的信息读取。

综上所述，通过处理将包含大量碎片的灰度图g(x,y)转换为一系列独立的三色图像S(x,y)，三色图像由黑、白、灰三色组成，其中灰色部分表示背景，其像素值的取值范围是120-140，白色部分表示碎片白色衬底，其像素值的取值范围是235-255，黑色部分表示字体内容，其像素值的取值范围是0-20。

步骤3：数据预处理：

通过观察条状碎片图S(x,y)，虽然文字经过碎纸机破碎其字体结构已经支离破碎，难以辨认出文字本身，但是，由于整个文本都是遵循一定的页面设置（包括：行间距、字间距、页边距等）按照段落一行一行地排布的，因此，每张碎片上的文字部分从上到下存在排布的规律，每行的文字结构整体呈现块状分布的，上下之间每个文字块的行间距都是相等的，具体情况如图2所示，阴影部分为文字块，白色部分为行间距的空白。为了便于之后的处理，需要将每个条状碎片纵向分割成一系列的文字块。

3.1）估计文字块之间的行间距，将三色图像S(x,y)进行叠加运算。

A(x,y)=S₁(x,y)+S₂(x,y)+…+S_n(x,y)，

其中，S₁(x,y)，S₂(x,y),…,S_n(x,y)表示所有的碎片图像，下标n指条状碎片图的张数，A(x,y)表示叠加生成的图像，叠加使得碎片上的文字部分形成清晰的块状分布，叠加之后先对纸条进行水平投影，即：图像按列向X轴方向投影，统计的X轴上的黑点数，黑点数小于5个的位置认为是行间的空白，进而记下行间距的长度。然而，考虑到文档中会出现空白行以及系统上的误差，因此得到的行间距值有大有小，通过统计不同行间距出现的频次，取频次最高者为碎片的行间距值。

3.2）按照字块高度分割出字块，根据水平投影得到字块的起始位置和字块的高度，以每两个字块之间的空白处的中心线为基准，将所有字块分割出来形成上下空白中间是字体的单字块，并将分割出来的字块图进行居中处理，如图3所示，由于段落文字存在许多空白，因此碎片上许多字块的相应位置是空白的。统计条状碎片上留白的字块数，同样将空白字块分割出来，以保证在碎片拼接的时候每个碎片的总字块数是一致的，而且从上到下按照顺序排列。

3.3）由于分割出来的字块图是以灰色为背景，并非所有字块碎片都处于图的中央，各个字块的分布存在一定的差异如图4中4-a所示，这些差异不利于后续的分类处理，因此需要将条状碎片进行居中处理。通过对字块图进行垂直投影，找出白色碎片最左边和最右边的坐标a和b，认为a、b之间是碎片的宽度，设定字块图的标准宽度为width，令碎片宽度的中点与标准宽度的中点重合，即：

\frac{1}{2} (b - a) = \frac{1}{2} width,

使得碎片在字块图里居中如图4中4-b所示。

3.4）上一步处理得到的字块图依然存在灰色背景，而且由于碎片的边缘呈现无规则的锯齿状，因此需要对碎片边缘进行横向延伸，以便之后的分类处理。在字块图中，灰色与白色或者灰色与黑色的相交处就是背景和碎片的边缘处，从上向下的逐行进行处理，将左边缘处的黑点或白点的像素值赋给之前所有的灰点，将右边缘处的黑点或白点的像素值赋给之后所有的灰点，这样就将碎片的边缘进行了延伸，延伸后的标准字块图效果如图4中4-c所示。

步骤4：数据分类：

对大量条状碎片上的文字情况进行分析，发现经过碎纸机破碎的的条状碎片的文字布局是有规律可循的，具体来说碎片中所有文字块部分都能分为五类：a类表明没有文字块或者仅有符号，b类表明碎片的文字块由左、右两个字的部分字体结构共同构成，c类表明某个字的字体结构占满了整个空间，d类表明某个字的字体结构仅占空间的右半部分，e类表明某个字的字体结构仅占空间的左半部分。其具体描述如图5所示，利用碎片上文字的五种布局特点，对碎片上的所有文字部分进行分类，进而利用相关信息进行碎片拼接，恢复文本的原始面貌。之前的预处理已经将每个条状碎片纵向分割成一系列的文字块，每个文字块只包含一种文字布局结构，即a、b、c、d、e中的某一类，通过BP神经网络分类器对所有的标准字块进行分类。

4.1）对BP神经网络分类器的输入部分采用主成份分析法，即PCA方法，降低BP网络输入节点的维数，减少数据运算量，从而优化网络。因为由于标准字块图的尺寸比较大，这样使得BP网络输入层节点的维数非常大，网络结构复杂，降低了网络的泛化能力，是指神经网络在训练完成以后输入其训练样本之外的新数据时获得正确输出的能力。因此，主成份分析采取降维的方法，找出多个综合变量因子来代替原来众多的变量，使这些综合变量因子尽可能地反映原来变量的信息量，而且彼此之间互不相关，从而达到简化的目的。其具体步骤如下：

首先，对于一个训练集中i个样本(i=1,2,3,...,n)，特征X_i是m维的X_i1,X_i2,…X_ij，(j=1,2,..,m)，则建立一个n×m的样本矩阵M。其中，特征Xi是字块图按照从左到右、从上至下进行排列的向量。接下来求样本的协方差矩阵Z，其尺寸为n×n，计算过程如下：先求解X_i的平均值X_av＝ΣX_i/n,再令M_n=X_i-X_av，最后可得Z＝M_n×M_n'，M_n'表示M_n的转置矩阵。然后，求出这个协方差矩阵Z的特征值和特征向量，根据特征值的大小，取出较大的特征值以及其所对应的特征向量，我们选取特征值大于总数90%的前a个特征值（a＜m），a个特征向量就会构成的n×a矩阵V就是所要求的特征矩阵。最后令B＝M_n'×V，其中B矩阵的尺寸为m×a，任取一个m维的样本乘以该矩阵，就得到了一个a维的新样本，显然样本的维数就下降了。

4.2）利用PCA方法中得到的a维的新样本作为BP神经网络的输入。BP神经网络模型拓扑结构包括输入层、隐层和输出层，隐层可扩展为多层。它能够学习和存贮输入-输出模式的映射关系，而无需事前揭示描述这种映射关系的数学方程。相邻层之间各神经元进行全连接，而每层各神经元之间无连接，网络按有示教的方式进行学习，当一对学习模式提供给网络后，各神经元获得网络的输入响应产生连接权值。然后按减小希望输出与实际输出误差的方向，从输出层经各中间层逐层修正各连接权，回到输入层。对上述过程反复进行，直至网络的全局误差趋向给定的极小值，完成整个神经网络得到学习过程。整个网络模型的参数设定包括：网络输入节点的个数为，由PCA方法确定a的值，输出节点的个数为5，由于BP网络要求激活函数处处可微，因此输入层、中间层与输出层均选用S型函数。步长参数和误差参数选择应当合适，过大会导致网络搭建时间过长，且精度不会有大幅度的提升，过小则会导致精度过低，不能达到工程要求，同时，网络中最小允许的梯度值尽可能大，否则网络收敛过快。

4.3）BP神经网络训练及测试：对于搭建好的网络，逐行读入步骤3.4得到的字块图样本，开始进行网络训练，整个网络训练按照之前设定的参数自动完成，人工可观察到的是实际误差与期望误差的动态曲线。数学期望是一个数学概念，它是指随机变量按概率的加权平均值,表征其概率分布的中心位置。当满足期望误差的时候，训练自行停止，将训练好的网络存储下来，此训练好的网络就是将字块进行分类的网络。将所有待检测的标准字块都读入网络，即可得到所有待拼接的字块图按照布局特点的分类结果。

综上所述，首先用PCA方法将步骤3中得到的所有字块图进行降维处理，减少BP网络输入的数据量，即将m维简化为a维，将PCA处理结果作为输入打入BP网络，BP网络模型进行自动分类，得出a、b、c、d、e的分类结果，该结果是数据形式，例如1号字块是a，2号字块是d，3号字块是e等。

人工神经网络是由具有适应性的简单单元组成的广泛并行互连的网络，它的组织能够模拟生物神经系统对真实世界物体所作出的交互反应，是一种应用类似于大脑神经突触联接进行信息处理的数学模型。人工神经网络具有自学习、自组织、较好的容错性和优良的非线性逼近能力。在实际应用中，使用最为广泛的人工神经网络模型是BP神经网络。BP(Back Propagation)神经网络，也称为多层前馈网络，是一种按误差逆传播算法训练的多层前馈网络。通过BP网络对条状碎片图像样本进行分类学习，从而有效识别a、b、c、d、e五类不同文字分布的图像。

步骤5：数据拼接：

通过分析不同碎片上的不同字块分布发现，实际碎片之间的联系通过5类字块之间的联系得以体现，作为左右相邻的碎片，其中不同类别字块出现的概率是不同的，有些类别的字块两两之间出现的可能性很大，而另一些类别的字块两两之间出现的可能性则极小，利用两个碎片上所有字块之间概率的累加值，就判断两个碎片之间的关联程度，进而通过不同的关联程度将碎片拼接起来。

由于从左到右两两字块的概率统计值与从右到左两两字块的概率统计值存在固有差异，得到两个概率统计表，分别来体现左-右相邻字块之间关联程度以及右-左相邻字块之间关联程度。具体统计表如下表1、表2所示：

a→a概率	a→b概率	a→c概率	a→d概率	a→e概率
					a₁	a₂	a₃	a₄	a₅
b→a概率	b→b概率	b→c概率	b→d概率	b→e概率
					b₁	b₂	b₃	b₄	b₅
c→a概率	c→b概率	c→c概率	c→d概率	c→e概率
					c₁	c₂	c₃	c₄	c₅
d→a概率	d→b概率	d→c概率	d→d概率	d→e概率
					d₁	d₂	d₃	d₄	d₅
e→a概率	e→b概率	e→c概率	e→d概率	e→e概率
					e₁	e₂	e₃	e₄	e₅

表1左-右相邻字块的概率统计表

a←a概率	b←a概率	c←a概率	d←a概率	e←a概率
					A₁	A₂	A₃	A₄	A₅
a←b概率	b←b概率	c←b概率	d←b概率	e←b概率
					B₁	B₂	B₃	B₄	B₅
a←c概率	b←c概率	c←c概率	d←c概率	e←c概率
					C₁	C₂	C₃	C₄	C₅
a←d概率	b←d概率	c←d概率	d←d概率	e←d概率
					D₁	D₂	D₃	D₄	D₅

a←e概率	b←e概率	c←e概率	d←e概率	e←e概率
					E₁	E₂	E₃	E₄	E₅

表2右-左相邻字块的概率统计表

表1、表2中，a、b、c、d、e表示五类文字块布局结构中的一类，a类表明没有文字块或者仅有符号；b类表明碎片的文字块由左、右两个字的部分字体结构共同构成；c类表明某个字的字体结构占满了整个空间；d类表明某个字的字体结构仅占空间的右半部分；e类表明某个字的字体结构仅占空间的左半部分。以上即为碎片恢复中的概率统计特性。

5.1）将BP神经网络分类的结果通过概率统计特性把不同碎片联系在一起，实现碎片的拼接。碎片拼接首先根据文字块在碎片中的分布情况，判断出哪些碎片是起始碎片，哪些碎片是终止碎片，从而确定文档的开头和结尾。就起始碎片而言，a类字块和d类字块占绝大多数，因此，通过计算每张碎片上a类字块和d类字块的总数来判断出起始碎片。而终止碎片中，a类字块和e类字块占绝大多数，同理判断出终止碎片。

5.2）根据上面得到的概率统计特性对5.1）中初始化处理后的碎片进行拼接。由于存在从左到右字块概率统计值和从右到左字块的概率统计值两部分，因此在通过两个方向同时对碎片进行拼接。对于从左向右的拼接过程，是以起始碎片为开始，将其他所有待拼接碎片都与起始碎片两两之间进行比对，以左-右相邻字块的概率值为依据，计算待拼接碎片与起始碎片之间的所有字块的概率和，从其中选择出概率和最大的碎片作为拼接上的碎片，认为它就是起始碎片右边相邻的碎片。将拼接上的两个碎片看做是一个整体，以它作为开始，按照相同的办法对剩余的待拼接碎片逐次进行右向拼接,以出现终止碎片作为拼接的结束条件，从而得到从左向右拼接的图像。

对于从右向左的拼接过程，是以终止碎片为开始，将其他所有待拼接碎片都与终止碎片两两之间进行比对，以右-左相邻字块的概率值为依据，计算待拼接碎片与终止碎片之间的所有字块的概率和，从其中选择出概率和最大的碎片作为拼接上的碎片，认为它就是终止碎片左边相邻的碎片。将拼接上的两个碎片看做是一个整体，以它作为开始，按照相同的办法对剩余的待拼接碎片逐次进行左向拼接,以出现起始碎片作为拼接的结束条件，从而得到从右向左拼接的图像。

5.3）最后对于拼接出来图像进行校正。对于具有相同起始碎片和终止碎片的拼接图像而言，由于从左向右拼接的拼接结果M和从右向左拼接的拼接结果N存在差异，因此需要对拼接出来的图像进行校正。M由m₁,m₂,m₃,…构成，m₁,m₂,m₃等均为碎片，N由n₁,n₂,n₃,…构成，n₁,n₂,n₃等均为碎片。首先，判断拼接结果M和N的长短，若M长，则M是基准向量，N是校正向量。反之，N是基准向量，M是校正向量。从M和N的第1位开始逐位进行比较，若两者对应位相等，则比较下一位。若不等，则需要进一步判断，如果M中第i个碎片m_i与N中第i个碎片n_i不相等，若m_i在N中没有找到，则认为m_i是正确的，继续向下校正。若m_i在N中存在是n_j，同时m_i-1在N中存在是n_l，则需要比较m_i相邻位的情况，即m_i和m_i-1与即n_j和n_j-1是否一致，若一致，则认为m_i是正确的将其保，若不一致，则用n_l+1代替m_i。最终经过校正后的图像就是恢复图像，从而实现了碎纸机中文碎片的恢复。

Claims

1.一种基于概率统计的中文碎片自适应恢复方法，其特征在于，按照以下步骤进行：

步骤1：数据扫描：

步骤2：数据提取：

步骤3：数据预处理：

对通过步骤2得到的各个碎片对应的三色图像S(x,y)利用公式

A(x,y)=S₁(x,y)+S₂(x,y)+…+S_n(x,y)进行叠加运算，

步骤4：数据分类：

对步骤3居中处理后的所有字块图按照其布局特点进行分类；

步骤5：数据拼接：

2.按照权利要求1所述一种基于概率统计的中文碎片自适应恢复方法，其特征在于：步骤1中扫描背景的红色通道、绿色通道、蓝色通道的分布应满足：任一通道所有点的像素值为所允许的最大值，除该通道外的所有点的像素值为所允许的最小值。

3.按照权利要求1所述一种基于概率统计的中文碎片自适应恢复方法，其特征在于：步骤2中将图像e(x,y)旋转，得到e'(x,y)这一过程的具体步骤为：通过八连通链码的方法对图像f(x,y)进行处理得到碎片的轮廓坐标信息，设碎片在左上方、左下方、右上方、右下方四个角点分别为（X₁，Y₁）、（X₂,Y₂）、（X₃,Y₃）、（X₄,Y₄），将左边两角点构成向量