CN104537368B

CN104537368B - 一种针对英文印刷文字双面打印破碎文件复原分析方法

Info

Publication number: CN104537368B
Application number: CN201510008008.7A
Authority: CN
Inventors: 赵旭; 程维虎; 王云帆; 刘爽; 胡云升; 张洋; 赵天宇
Original assignee: Beijing University of Technology
Current assignee: Beijing University of Technology
Priority date: 2015-01-07
Filing date: 2015-01-07
Publication date: 2018-10-09
Anticipated expiration: 2035-01-07
Also published as: CN104537368A

Abstract

一种针对英文印刷文字双面打印破碎文件复原分析方法，图片预处理，为获取样本数据需对图片进行分割，以像素为单位将图片进行网格划分；二维匹配度模型的建立，定义x_i为两碎片拼接时位于左侧的已固定碎片，为了有统一的度量标准，根据字母和汉字的上下距离的对称性，定义一个字母的中位线到碎片底端的距离，碎片边缘黑色小格的连续对接匹配连续度：二维匹配过程中存在向左匹配和向上匹配两个方向：二维黑白对接匹配模型，横向对接单行匹配度，纵向对接单列匹配度；二维匹配模型算法优化；二维匹配问题的综合聚类和匹配度函数；基于正反面特点的大碎片集合分类；基于正反面特点的结果检验。

Description

一种针对英文印刷文字双面打印破碎文件复原分析方法

技术领域

本发明涉及一种针对英文印刷文字双面打印破碎文件的复原分析方法，属于数字图像处理与模式识别领域。

背景技术

破碎文件的拼接在司法物证复原与鉴定、历史文献修复、故障分析以及军事情报获取等领域都有着重要的应用。近年来,碎纸文件复原技术的研究引起了人们的广泛关注。传统上，拼接复原工作需由人工完成，准确率较高，但效率很低。特别是当碎片数量巨大，人工拼接很难在短时间内完成任务。随着计算机技术的发展，目前关于碎片复原的问题有多种研究策略，主流解决方案是结合类似于拼图游戏的手工复原方法和进行匹配和搜寻的计算机算法。

发明内容

本发明的目的在于通过构建一种匹配度模型来解决英文印刷文字双面打印破碎文件的拼接与复原问题。

为实现上述目的，本发明采用的技术方案为一种匹配度模型分析方法。该方法包括以下步骤：

S1图片预处理；

S2二维匹配度模型的建立；

S3二维黑白对接匹配模型的建立；

S4二维匹配模型算法优化；

S5二维匹配问题的综合聚类和匹配度函数建立；

S6基于正反面特点的大碎片集合分类；

S7基于正反面特点的结果检验；

如图1所示，该匹配度模型分析方法各个步骤的详细操作过程如下：

S1图片预处理

为获取样本数据需对图片进行分割，以像素为单位将图片进行网格划分，像素共有256种灰度值，当灰度值为0的时候为黑色，灰度值为255的时候为白色。将图像转化为灰度值矩阵，完成样本数据的获取。通过灰度值矩阵可以完成黑白色的识别。在图的拼接过程中要考虑整张碎片的每一行各网格的灰度。但由于笔画的长度、宽度未知，故只考虑整张碎片每一行最左端和最右端两个小格的灰度匹配结果。

S2二维匹配度模型的建立

2.1定义x_i为两碎片拼接时位于左侧的已固定碎片，x_j为拼接时位于右侧的待拼接碎片。自下而上遍历，并作出以下定义：

1)h_i1、h_j1分别为碎片x_i、x_j从下向上扫描时，第一次全行像素由不同灰度同时变为白色(即全体灰度值骤变为255)，或者全行像素由全为白色到开始出现非白(黑色)时，此行到碎片最下端的距离。

2)设h_i2、h_j2为第二次发生上述变化时的那一行到碎片最下端的距离。

3)设h_i3、h_j3为第三次发生上述变化时的那一行到碎片最下端的距离。

2.2为了有统一的度量标准，根据字母和汉字的上下距离的对称性，定义一个字母的中位线到碎片底端的距离如下：

其中h_i12、h_i34…分别为碎片x_i从下数第一个字、第二个…第n个汉字或字母的中位线到碎片底端的距离，

对碎片x_i和碎片x_j进行匹配，设整张碎片所有字行中位线匹配差异度为

当匹配差异度在误差范围内时，符合优化聚类要求，定义：

其中，k_1,k₂为误差范围。

2.3碎片边缘黑色小格的连续对接匹配连续度：

定义M′_bb：

①两碎片x_i、x_j的第k行，x_i右边缘的小格x_ik和x_j的左边缘小格x_jk均为黑色(灰度值为0)的对接

②两碎片x_k、x_m的第k列，x_m下边缘的小格x_mk和x_j的上边缘小格x_jk均为黑色(灰度值为0)的对接

碎片上一个字的一个笔画，一般包涵了不止一对黑色小格，由上而下发生连续的黑色小格的成功对接(M_bb)越长，碎片匹配成功的可能性就越大，所以在对匹配小格权重上考虑了连续匹配的，匹配度函数中若发生一次M′_bb匹配的权则定为5，连续两次匹配的权定为5×2+2(而不是10)，发生连续n次黑黑匹配的权则定为5×2+2(n-1)。

由上述因素分析对由上到下发生连续M′_bb方式的成功匹配的权重定义可得出以下局部连续度函数。

2.4二维匹配过程中存在向左匹配和向上匹配两个方向：

1)向左匹配，设x_i为固定端碎片，x_j为待匹配段碎片

其中F_ijk为第i号碎片和第j号碎片在第k行的连续度

2)向上匹配，设x_m为固定端碎片，x_j为待匹配段碎片

其中G_mjk为第i号碎片和第j号碎片在第k列的连续度。

对于三张碎片的边缘整体以M′_bb方式匹配连续度是将第i号碎片的右侧全体小格和第j号碎片的左侧全体小格由上而下依次检索匹配，和将第m号碎片的下侧全体小格和第j张碎片的上侧全体小格由左向右依次检索匹配的总连续度，定义整体匹配连续度函数：

其中Z_imj为第j号碎片和左侧第i号碎片及上侧第m号碎片的整体匹配总连续度。

S3二维黑白对接匹配模型

1)横向对接单行匹配度：

2)纵向对接单列匹配度：

对于三张碎片的边缘整体以M′_bb方式总对接匹配度是将第i号碎片的右侧全体小格和第j号碎片的左侧全体小格由上而下依次检索匹配，和将第m号碎片的下侧全体小格和第j张碎片的上侧全体小格由左向右依次检索匹配的总连续度，可得如下黑白总对接匹配度函数：

其中Q_imj为第j号碎片和左侧第i号碎片及上侧第m号碎片的总对接匹配度。

S4二维匹配模型算法优化：

⑴连续性优化：

碎片上一个字的一个笔画，包含了不止一对黑色小格，由上而下发生连续的黑色小格的成功对接M_bb越长，碎片匹配成功的可能性就越大，所以在对匹配小格权重上考虑了连续匹配的，匹配度函数中将对不同M_bb连续的情况的权进行不同大小的定义。其中定义M_bb如下：

M_bb：两碎片x_i、x_j的第k行，x_i右边缘的小格x_ik和x_j的左边缘小格x_jk均为黑色(灰度值为0)的对接；

⑵横行对齐优化：

由于碎片文字是由完整文件横切与纵切获得，因此碎片内每行文字均平行于碎片底边。故从碎片文件底边开始扫描，第一行所有像素非全白的横行为一行文字的下边缘，标记此横行的纵坐标。在此基础上继续向上扫描，第一行所有像素全为白色的横行为该行文字的上边缘，标记该横行的纵坐标。在此基础上继续向上扫描，重复上述两个步骤可以得到一个碎片内的文字行分布。相连两张碎片文件横行一定对齐。英文字母书写位于四线三行格内，同一碎片文件内一横行字母可能占三行中的：1)、中间一行2)、上中两行3)、中下两行4)、上中下三行。与此同时，英文标点符号“,”、“’”、“-”，均不占满三行中的一行。在取得每一横行上下边缘后，取平均值以减小误差。最后根据平均值对齐且在误差范围内，优化碎片匹配结果。

当一个文字被切为二到四部分后，当为纵切时，其左右两个(四部分时为左上右上两个)不完整文字的宽度的和为一个完整文字的宽度。由于每个文字字号相同，因此每个文字的宽度在某一定值附近上下浮动。首先用判断图片是否为边缘起始的算法判断该碎片文件边缘有无不完整文字。当有不完整文字时，使用“横行对齐优化”算法确定不完整文字的位置，即其横纵坐标范围。由此可以获得不完整文字的宽度。根据合成完整文字的两个不完整文字的宽度的和为定值，从而优化匹配结果。当不完整文字为横切时处理方法类似，获取不完整文字的高度，再与其他碎片的不完整文字高度比较。

⑶灰度匹配优化

当某一笔画正好处于分割边缘时，如果简单将其一边认为是黑，一边认为是白，会造成大量匹配失败，故增加灰度匹配优化。当灰色与白色拼接时，对匹配度无影响。当灰色与黑色拼接时，匹配正确。从而增加匹配的成功率。

S5二维匹配问题的综合聚类和匹配度函数

对于英文碎片，若满足如下关系式

H+J＝1

即两碎片仅满足横行对齐聚类要求，则可进行匹配检测，二维匹配时的三张碎片的匹配度由如下函数定义：

P_imj＝Q_imj+Z_imj

其中P_imj为第j号碎片和左侧第i号碎片及上侧第m号碎片的总匹配度。

S6基于正反面特点的大碎片集合分类：

在进行上述“任意3块碎片文件不能两两分别属于三个大碎片集合”的检验后即可通过正反面的特点对大碎片集合分类，分成正面与反面两类。通过遍历所有分别属于3个大碎片集合的2个碎片文件即可将全部大碎片集合完成分类。(任意指定一类为正面，从而另一面为反面)

有000，001两个碎片文件，当000a属于大碎片集合A，000b属于大碎片集合B，001a属于B，001b属于C。根据“同一块碎片文件的a、b两面不能同时出现在一个大碎片集合中”这一特点可以判断出A、C属于同一平面。

S7基于正反面特点的结果检验

1)同一块碎片文件的a、b两面不能同时出现在一个大碎片集合中。

2)任意3块碎片文件不能两两分别属于三个大碎片集合。

证明：任取x_i、x_j、x_m为000，001，002三个碎片文件，若000a,001a属于大碎片集合A，000b,002a属于大碎片集合B，001b，002b属于大碎片集合C。由碎片000可知，A、B两个大碎片集合不属于同一面；由碎片001可知，A、C两个大碎片集合不属于同一面；由碎片002可知，B、C两个大碎片集合不属于同一面。然而由于完整文件只有两面，所以上述三个推断矛盾，因此任意3块碎片文件不能两两分别属于三个大碎片集合。

与现有技术相比，本发明方法不仅准确率较高而且效率很低，为实现大范围的复原拼接提供了技术基础。

附图说明

图1是针对英文印刷文字双面打印破碎文件复原分析方法流程图。

图2是英文字母按像素单位划分确定灰度矩阵的示意图。

图3是英文字母横行对齐优化示意图。

具体实施方式

如图1-3所示，以下结合实例对本发明进行详细说明：

S1图片预处理

对图片进行分割，以像素为单位将图片进行网格划分，像素共有256种灰度值，当灰度值为0的时候为黑色，灰度值为255的时候为白色。将图像转化为灰度值矩阵，完成样本数据的获取。通过灰度值矩阵可以完成黑白色的识别。

S2二维匹配度模型的建立

根据一个字或字母的中位线到碎片底端的距离

对碎片x_i和碎片x_j进行匹配。

计算出整张碎片所有字行中位线匹配差异度为

对由上到下发生连续M′_bb方式的成功匹配的权重定义得出以下局部连续度函数。

1)向左匹配

向上匹配

对于三张碎片的边缘整体以M′_bb方式匹配连续度是将第i号碎片的右侧全体小格和第j号碎片的左侧全体小格由上而下依次检索匹配，和将第m号碎片的下侧全体小格和第j张碎片的上侧全体小格由左向右依次检索匹配的总连续度

S3二维黑白对接匹配模型的建立

1)横向对接单行匹配度：

2)纵向对接单列匹配度：

将第i号碎片的右侧全体小格和第j号碎片的左侧全体小格由上而下依次检索匹配，和将第m号碎片的下侧全体小格和第j张碎片的上侧全体小格由左向右依次检索匹配，可得如下黑白总对接匹配度函数：

S4二维匹配模型算法优化

对二维匹配模型做连续性优化，横行对齐优化，灰度匹配优化。S5二维匹配问题的综合聚类和匹配度函数建立

若满足如下关系式

H+J＝1

P_imj＝Q_imj+Z_imj

S6基于正反面特点的大碎片集合分类。

S7基于正反面特点的结果检验。

Claims

1.一种针对英文印刷文字双面打印破碎文件复原分析方法，其特征在于：该方法包括以下步骤，

S1图片预处理；

S2二维匹配度模型的建立；

S3二维黑白对接匹配模型的建立；

S4二维匹配模型算法优化；

S5二维匹配问题的综合聚类和匹配度函数建立；

S6基于正反面特点的大碎片集合分类；

S7基于正反面特点的结果检验；

各个步骤的详细操作过程如下，

S1图片预处理；

为获取样本数据需对图片进行分割，以像素为单位将图片进行网格划分，像素共有256种灰度值，当灰度值为0的时候为黑色，灰度值为255的时候为白色；将图像转化为灰度值矩阵，完成样本数据的获取；通过灰度值矩阵可以完成黑白色的识别；在图的拼接过程中要考虑整张碎片的每一行各网格的灰度；但由于笔画的长度、宽度未知，故只考虑整张碎片每一行最左端和最右端两个小格的灰度匹配结果；

S2二维匹配度模型的建立；

2.1定义x_i为两碎片拼接时位于左侧的已固定碎片，x_j为拼接时位于右侧的待拼接碎片；自下而上遍历，并作出以下定义，

1)h_i1、h_j1分别为碎片x_i、x_j从下向上扫描时，第一次全行像素由不同灰度同时变为白色即全体灰度值骤变为255，或者全行像素由全为白色到开始出现非白即黑色时，此行到碎片最下端的距离；

2)设h_i2、h_j2分别为碎片x_i、x_j从下向上扫描时，第二次全行像素由不同灰度同时变为白色即全体灰度值骤变为255，或者全行像素由全为白色到开始出现非白即黑色时，此行到碎片最下端的距离；

3)设h_i3、h_j3分别为碎片x_i、x_j从下向上扫描时，第三次全行像素由不同灰度同时变为白色即全体灰度值骤变为255，或者全行像素由全为白色到开始出现非白即黑色时，此行到碎片最下端的距离；

其中h_i12、h_i34…分别为碎片x_i从下数第一个汉字、第二个…第n个汉字或字母的中位线到碎片底端的距离；

当匹配差异度在误差范围内时，符合优化聚类要求，定义：

其中，k₁,k₂为误差范围；

2.3碎片边缘黑色小格的连续对接匹配连续度：

定义M′_bb：

①两碎片x_i、x_j的第k行，x_i右边缘的小格x_ik和x_j的左边缘小格x_jk均为黑色即灰度值为0的对接；

②两碎片x_k、x_m的第k列，x_m下边缘的小格x_mk和x_j的上边缘小格x_jk均为黑色即灰度值为0的对接；

碎片上一个字的一个笔画，一般包涵了不止一对黑色小格，由上而下发生连续的黑色小格的成功对接即M_bb越长，碎片匹配成功的可能性就越大，所以在对匹配小格权重上考虑了连续匹配，匹配度函数中若发生一次M′_bb匹配的权重则定为5，连续两次匹配的权重定为5×2+2，发生连续n次黑黑匹配的权重则定为5×2+2(n-1)；

对由上到下发生连续M′_bb方式的成功匹配的权重定义得出以下局部连续度函数；

2.4二维匹配过程中存在向左匹配和向上匹配两个方向：

1)向左匹配，设x_i为固定端碎片，x_j为待匹配段碎片

其中F_ijk为第i号碎片和第j号碎片在第k行的连续度

2)向上匹配，设x_m为固定端碎片，x_j为待匹配段碎片

其中G_mjk为第i号碎片和第j号碎片在第k列的连续度；

其中Z_imj为第j号碎片和左侧第i号碎片及上侧第m号碎片的整体匹配总连续度；

S3二维黑白对接匹配模型；

1)横向对接单行匹配度：

2)纵向对接单列匹配度：

其中Q_imj为第j号碎片和左侧第i号碎片及上侧第m号碎片的总对接匹配度；

S4二维匹配模型算法优化：

⑴连续性优化：

碎片上一个字的一个笔画，包含了不止一对黑色小格，由上而下发生连续的黑色小格的成功对接M_bb越长，碎片匹配成功的可能性就越大，所以在对匹配小格权重上考虑了连续匹配，匹配度函数中将对不同M_bb连续的情况的权重进行不同大小的定义；其中定义M_bb如下：

M_bb：两碎片x_i、x_j的第k行，x_i右边缘的小格x_ik和x_j的左边缘小格x_jk均为黑色的对接；

⑵横行对齐优化：

由于碎片文字是由完整文件横切与纵切获得，因此碎片内每行文字均平行于碎片底边；故从碎片文件底边开始扫描，第一行所有像素非全白的横行为一行文字的下边缘，标记此横行的纵坐标；在此基础上继续向上扫描，第一行所有像素全为白色的横行为该行文字的上边缘，标记该横行的纵坐标；在此基础上继续向上扫描，重复上述两个步骤可以得到一个碎片内的文字行分布；相连两张碎片文件横行一定对齐；英文字母书写位于四线三行格内，同一碎片文件内一横行字母可能占三行中的：1)、中间一行2)、上中两行3)、中下两行4)、上中下三行；与此同时，英文标点符号“,”、“’”、“-”，均不占满三行中的一行；在取得每一横行上下边缘后，取平均值以减小误差；最后根据平均值对齐且在误差范围内，优化碎片匹配结果；

当一个文字被切为二到四部分后，当为纵切时，其左右两个不完整文字的宽度的和为一个完整文字的宽度；由于每个文字字号相同，因此每个文字的宽度在某一定值附近上下浮动；首先用判断图片是否为边缘起始的算法判断该碎片文件边缘有无不完整文字；当有不完整文字时，使用“横行对齐优化”算法确定不完整文字的位置，即其横纵坐标范围；由此可以获得不完整文字的宽度；根据合成完整文字的两个不完整文字的宽度的和为定值，从而优化匹配结果；当不完整文字为横切时处理方法类似，获取不完整文字的高度，再与其他碎片的不完整文字高度比较；

⑶灰度匹配优化

当某一笔画正好处于分割边缘时，如果简单将其一边认为是黑，一边认为是白，会造成大量匹配失败，故增加灰度匹配优化；当灰色与白色拼接时，对匹配度无影响；当灰色与黑色拼接时，匹配正确；从而增加匹配的成功率；

S5二维匹配问题的综合聚类和匹配度函数；

对于英文碎片，若满足如下关系式

H+J＝1

P_imj＝Q_imj+Z_imj

其中P_imj为第j号碎片和左侧第i号碎片及上侧第m号碎片的总匹配度；

S6基于正反面特点的大碎片集合分类；

进行“任意3块碎片文件不能两两分别属于三个大碎片集合”的检验后即可通过正反面的特点对大碎片集合分类，分成正面与反面两类；通过遍历所有分别属于3个大碎片集合的2个碎片文件即可将全部大碎片集合完成分类；任意指定一类为正面，从而另一面为反面；

有000，001两个碎片文件，当000a属于大碎片集合A，000b属于大碎片集合B，001a属于B，001b属于C；根据“同一块碎片文件的a、b两面不能同时出现在一个大碎片集合中”这一特点可以判断出A、C属于同一平面；

S7基于正反面特点的结果检验；

1)同一块碎片文件的a、b两面不能同时出现在一个大碎片集合中；

2)任意3块碎片文件不能两两分别属于三个大碎片集合；

证明：任取x_i、x_j、x_m为000，001，002三个碎片文件，若000a,001a属于大碎片集合A，000b,002a属于大碎片集合B，001b，002b属于大碎片集合C；由碎片文件000可知，A、B两个大碎片集合不属于同一面；由碎片文件001可知，A、C两个大碎片集合不属于同一面；由碎片文件002可知，B、C两个大碎片集合不属于同一面；然而由于完整文件只有两面，所以三个推断矛盾，因此任意3块碎片文件不能两两分别属于三个大碎片集合。