CN110246098B

CN110246098B - 一种碎片复原方法

Info

Publication number: CN110246098B
Application number: CN201910467300.3A
Authority: CN
Inventors: 郑蕾; 樊锁海
Original assignee: Jinan University
Current assignee: Jinan University
Priority date: 2019-05-31
Filing date: 2019-05-31
Publication date: 2021-07-27
Anticipated expiration: 2039-05-31
Also published as: CN110246098A

Abstract

本发明公开了一种碎片复原方法，包括步骤：建立碎片的电子图像，并转化为二值化电子图像；提取碎片字符，在一次提取字符行的基础上进一步提取字符列，再二次提取字符行，提取到所需的单个字符；建立字符数据库，数据库中的字符图像为与碎片中的字符相同字体的二值化矩阵；分行聚类，将属于同一横行的碎片聚为同一类；行内拼接，将同一类碎片拼接；拼接不同行的碎片。本发明可实现在有噪声的碎片图像中找到字符所在行并且准确地提取出字符，在保证准确率的前提下自动复原碎纸片。

Description

一种碎片复原方法

技术领域

本发明涉及图像处理技术领域，特别涉及一种基于字符提取技术和边缘字符识别技术的碎片复原方法。

背景技术

破碎纸片的修复技术常运用在司法取证、历史文献修复以及军事情报的获取等领域上，但面对数量巨大的碎片，人工修复方式效率显得低下，需要开发复原效率高的自动拼接技术，以提高需求方的工作效率，最大化地从碎纸片中获取到准确度高的信息。

有许多的研究人员研究了纵横切碎片文本自动重建问题，Schauer等人^[1]定义了三种类型的碎纸片目，分别是①具有不规则边缘的手撕型碎片，②被碎纸机切碎的条型碎片，③被碎纸机粉碎的横纵切的碎片。特别是第③种碎纸片，由于光滑的边缘、很少的信息、较难去除的噪声，是难以还原的。Prandstetter证明纵横切文本文档的重构是一个NP问题[Schauer C,Prandtstetter M,Günther R.Raidl.A Memetic Algorithm forReconstructing Cross-Cut Shredded Text Documents[C]//International Conferenceon Hybrid Metaheuristics.Springer-Verlag,2010]。Hedong Xu等学者[Xu H,Zheng J,Zhuang Z,et al.A solution to reconstruct cross-cut shredded text documentsbased on character recognition and genetic algorithm[C]//Abstract and AppliedAnalysis.Hindawi,2014,2014.]提出了一个基于字符识别和遗传算法的方法去重构纵横切文本碎片，可以有效地重构文本文档。Junhua Chen等学者[Chen J,Ke D,Wang Z,etal.A high splicing accuracy solution to reconstruction of cross-cut shreddedtext document problem[J].Multimedia Tools and Applications,2018,77(15):19281-19300]基于Hedong Xu等学者提出的方法，引入了组合策略和分而治之的策略来提高准确率。

然而对纵横切文本碎片的扫描图像进行重构中还存在很多的问题，首要的问题就是前人的研究大部分是基于电子的纵横切文本碎片进行的[Chen J,Tian M,Qi X,et al.ASolution to Reconstruct Cross-Cut Shredded Text Documents Based onConstrained Seed K-means Algorithm and Ant Colony Algorithm[J].Expert Systemswith Applications,2019]，当使用这些研究在真实的碎片(将文本文档打印在纸上，并且切割、扫描)是不合适的。因为大部分的研究是基于碎片边缘和基准线信息的，然而由于碎片可能会倾斜、裁剪时边缘缺失、扫描仪的曝光，难以判断边缘和基准线。第二个问题是复杂度，由于碎片仅有少量信息和大量难以去除的噪声(比如碎片电子图像中存在大量黑色像素点比较多的多墨行和多墨列)，这个NP问题变得更加复杂。

发明内容

本发明的目的在于克服现有技术的缺点与不足，提供一种碎片复原方法，此方法通过行、列投影的方法，可实现在有噪声的碎片图像中找到字符所在行并且准确地提取出字符，在保证准确率的前提下自动复原碎纸片。

本发明的目的通过以下的技术方案实现：

一种碎片复原方法，包括步骤：

建立纵横切文本碎片的电子图像，并转化为二值化电子图像；

提取碎片字符，在一次提取字符行的基础上进一步提取字符列，再二次提取字符行，提取到所需的单个字符，从而去掉二值化电子图像的噪音；

建立字符数据库，数据库中的字符图像为与碎片中的字符相同字体的二值化矩阵；

分行聚类，通过确定文本最左侧碎片聚类中心，将其他碎片根据聚类距离分配到离其距离最短的聚类中心所述类，从而将属于同一横行的碎片聚为同一类；

行内拼接，通过估计碎片中边缘字符相对于数据库中字符的距离和缺失比例，进一步计算任意两张碎片之间的距离，根据两张碎片最小距离的排列将同一类碎片进行行内拼接；

拼接不同行的碎片。

优选的，所述建立碎片的电子图像包括步骤：

将纵横切文本碎片放在异色卡纸上；

扫描文本碎片；

从彩色的扫描图像中提取纵横切文本碎片的电子图像。

更进一步的，所述建立碎片电子图像的具体步骤为：

将纵横切文本碎片放在异色的背景(如蓝色)上并且扫描这些文档，扫描过程中保证碎片边缘和扫描仪平行；得到的扫描彩色图像是由rgb矩阵表示，也即由代表红、绿、蓝的三个矩阵表示；

通过判断彩色图像中的各矩阵像素点的差异，找出碎片边缘并截出纵横切文本的图像。

优选的，所述将碎片的电子图像转化为二值化电子图像的步骤为：

将碎片的电子图像转化为灰度图像；

设置像素点阈值Y，即灰度矩阵中像素点数值超过Y的点被0代替，其他点的被1代替，得到纵横切文本碎片的二值化电子图像。

优选的，所述提取字符行的具体步骤为：

做纵横切文本碎片的行投影，即做每行的黑色点个数的函数图像；

设置行投影数值的阈值为h₁，行投影数值即每行黑色点个数大于h₁的行被记录为多墨行；将所有的多墨行的索引放在一个向量中，这样的向量成为多墨行向量，即保存多墨行信息的向量；

因为字符的长度是较大的，只有连着的几行都为多墨行的行才为字符行；假设最小的字符长度为T₁,记录连续的并且连接起来的长度大于T₁的多墨行为字符行。

更进一步的，所述提取字符列的步骤为：

在一次提取的字符行中做列投影，即做每列的黑色点个数的函数图像；

设置列投影数值的阈值为h₂，列投影数值即每列黑色点个数大于h₂的列被记录为多墨列；

将所有的多墨列的索引放在一个向量中，即保存多墨列信息的向量；

因为字符的宽度是较大的，只有连着的几列都为多墨列的列才为字符列；假设最小的字符宽度为T₂,记录连续的并且连接起来的长度大于T₂的多墨列为字符列。

更进一步的，所述二次提取字符行的步骤为：

通过一次提取字符行、提取字符列，得到单个字符的大致边缘；

执行行投影，去除头部和尾部的非多墨行，就得到比较精准的字符的边缘和单个字符的矩阵。

优选的，在所述字符数据库的字符图像中，以字符提取技术得到每个字符的边缘；以边缘为边界，提取出每个字符的矩阵L＝(l_ub)_x×z，x×z为字符矩阵的规模，x为行数，z为列数；u、b分别为字符矩阵中的点的横坐标和纵坐标。

优选的，所述分行聚类的步骤具体为：

确定聚类向量v＝(a₁,a₂,a₃,a₄)^T,其中a₁为碎片中第一个字符行顶部位置，a₂为第一个字符行底部位置，a₃为最后一个字符行顶部位置，a₄为最后一个字符行底部位置，这里所说的位置为图像的坐标点，也即行索引；

选取聚类中心，根据原始文档中最左端的碎片的左侧存在较大面积的留白，筛选出文档中S_m个最左侧碎片。由于最左侧的碎片包含着每个文本行的信息，将这些最左侧的碎片作为聚类中心c_p。

聚类，将除聚类中心以外的其它碎片根据聚类距离分配到离其距离最短的聚类中心所属类；聚类距离指的是其它碎片q的聚类向量v_q＝(a'₁,a'₂,a'₃,a'₄)^T和聚类中心c_p的聚类向量v_cp＝(a₁,a₂,a₃,a₄)^T之间的距离，a₁'为其他碎片中第一个字符行顶部位置，a₂'为其他碎片第一个字符行底部位置，a₃'为其他碎片最后一个字符行顶部位置，a₄'为其他碎片最后一个字符行底部位置；聚类距离

o取1、2、3、4；

利用上述步骤将所有碎片归为S_m类，并统计每一类的碎片数目。

优选的，将同一类碎片进行行内拼接前，计算每两张碎片的最小距离，具体步骤为：

提取碎片的边缘字符，计算边缘字符和字符库中每个字符的距离，得到边缘字符可能对应的原始字符和缺失比例；

拼接两个碎片，估计拼接处的最小距离，拥有最小距离的排列为最终的行内拼接顺序。此方法可以避免字符边缘信息和不能准确计算出的基准线的使用，并且具有较高的精确度。

更进一步的，所述得到边缘字符可能对应的原始字符和缺失比例的步骤为：

计算碎片的边缘字符和字符库中每个字符的距离和缺失比例；

根据边缘字符和字符库中每个字符的距离，估计出边缘字符所对应的原始字符、对于原始字符的距离和缺失比例；

具体步骤如下：

步骤一、计算碎片中字符的长和宽被放大的倍数ratio₁和ratio₂；

①计算碎片中某个字符的长度被放大的倍数为

其中height为碎片中某字符的长度，height'为此字符在字符库中相同字符的高度；最终确定的碎片中字符的长度被放大的倍数为多个可识别字符的长度放大的倍数的均值ratio₁＝mean(ratio_k)；

②计算碎片中某个字符的宽度被放大的倍数为

其中width为碎片中某字符的宽度，width'为此字符在字符库中相同字符的宽度；最终确定的碎片中字符的宽度被放大的倍数为多个可识别字符的宽度放大的倍数的均值ratio₂＝mean(ratio_f)；

步骤二、将碎片中的边缘字符的长度按照

的比例放大，宽度按照

的比例放大；

步骤三、将边缘字符和字符库中的字符规范化；记某边缘字符放大后的矩阵为A，A的行数为line，列数为list，字符库中的字符矩阵A'，A'的行数为line＇，列数为list＇，令正规化的矩阵列数LIST＝list，正规化的矩阵行数LINE＝max(line,line＇)；由于A可能为A'删除左侧或者右侧某些列后的矩阵，为了让两个矩阵可以比较，需要将矩阵A正规化，方法如下：

a.若A为左边缘字符，将矩阵A和A'改为LINE×LIST维，删除A'左侧的列，并且将0填补到矩阵A和A'的上方；

b.若A为右边缘字符，将矩阵A和A'改为LINE×LIST维，删除A'右侧的列，并且将0填补到矩阵A和A'的下方；

得到正规化后A和A'的矩阵C_A和C_A'；

步骤四、计算边缘字符矩阵A和字符库中某个字符矩阵A'的距离：

D(A,A')＝norm(C_A-C_A')；

步骤五、计算边缘字符矩阵A相对于字符库中某个字符矩阵A'的缺失比例loss：

loss(A,A')＝|list-list'|；

步骤六、选择字符库中t个与A距离最小的字符为边缘字符A可能对应的原始字符。

更进一步的，所述估计两个碎片拼接处的最小距离应先求取两张碎片之间的距离，其步骤为：

计算两张碎片某个字符行之间的距离；假设拼接的两张碎片为P和Q，P为左侧的碎片，Q为右侧的碎片，需要计算的为第i个字符行之间的距离D_i(P,Q)；如果P和Q在第i个字符行拼接处的边缘字符是完整的，距离为0；否则距离为拼接起来的字符与可能对应的原始字符的最小距离；

具体步骤如下：

步骤一、选择t_P个左碎片P在第i个字符行的右边缘字符可能对应的原始字符，即字符库中与右边缘字符距离最小的t个字符；

步骤二、选择t_Q个右碎片Q在第i个字符行的左边缘字符可能对应的原始字符，即字符库中与右边缘字符距离最小的t个字符；

步骤三、因此P和Q在第i个字符行拼接处的边缘字符是完整的或者拼接处可能对应的原始字符为上述两步得到的集合的并集；

步骤四、假设CHARACTER为两个碎片P和Q第i个字符行拼接处可能对应的原始字符character的集合，碎片P第i个字符行拼接处字符对于这些原始字符集合的缺失比例集合为LOSS_P，碎片Q第i个字符行拼接处字符对于这些原始字符集合的缺失比例集合为LOSS_Q，碎片P第i个字符行的拼接处字符的列数为list_P，碎片Q第i个字符行的拼接处字符的列数为list_Q，因此以为P左碎片，Q为右碎片，P和Q第i个字符行处的距离为：

其中D(P_i,a_k)为碎片P的第i个字符行的右字符和某个估计字符a_k间的距离，D(Q_i,a_k)为碎片Q的第i个字符行的左字符和某个估计字符a_k间的距离，h₃是将字符视为完整字符的阈值；公式第一行意味着如果碎片P的第i个字符行的右字符是完整的，并且碎片Q的第i个字符行的左字符是完整的，则碎片P和Q的第i个字符行处是可以连接的；公式第二行意味着碎片P和Q的第i个字符行处的加权平均值。

步骤五、计算同一类中任意两张碎片之间的距离。假设两张碎片P,Q都有n个字符行，则碎片P,Q之间的距离为

更进一步的，计算得到每两张碎片的最小距离后，将同一类碎片进行行内拼接的步骤具体为：

步骤一、根据一类中的原始文本的最左侧碎片的左侧具有较大的空白，原始文本的最右侧碎片的右侧具有较大的空白，挑选出一类中的原始文本的最左侧和最右侧碎片；

步骤二、记同一类的一组以最左侧碎片为开头，以最右侧碎片为结尾的排列为(1,y₂,y₃,...,y_r-1,S_r)，定义这一组排列的距离为：

也就是各个碎片之间的距离的加权平均；S_r代表一行中碎片的总个数；y₂,y₃,...,y_r-1为同一类碎片中间的一系列碎片；w为大于1小于r-1的一系列自然数；

步骤三、现在行内拼接问题转化成了一个优化问题，寻找最小距离的排列即为最终结果，基于最小距离的排列顺序拼接同一类碎片。有许多的方法解决这个问题，在问题规模较小的时候可以使用穷举法，问题规模较大时可以使用遗传算法。

优选的，所述拼接不同行碎片的具体步骤为：

识别字符所在行；

假定第x(x＝1,2,…,S_m)行的顶部和底部的位置分别为

和

那么字符行间的间距可以定义为

和

之间的距离；

基于确定的字符行的间距拼接不同行。

对于一个文本文档而言，字符行间的间距都是大致相同的。利用这个相同原理完成行间拼接操作。

本发明与现有技术相比，具有如下优点和有益效果：

1、本发明通过行、列投影的方法，可实现在有噪声的碎片图像中找到字符所在行并且准确地提取出字符，在保证准确率的前提下自动复原碎纸片。

2、本发明采用的行内拼接技术，有效避免非准确字符边缘信息和不能准确计算出的基准线的干扰，降低噪音干扰并提高复原准确率。

3、本发明将不同行的碎片拼接问题转化成碎片最小距离的计算问题，进一步的，在问题规模较小和问题规模较大时都可寻求方法解决，方法适应性强。

附图说明

图1是本发明实施例中碎片电子图像建立流程示意图。

图2是图1的投影图像示意图。

图3是本发明实施例提取字符行流程示意图，其中(a)至(b)为行投影过程，(b)至(c)为记录多墨行过程，(c)至(d)为记录字符行的过程。

图4是本发明实施例提取字符流程图。

图5是本发明实施例最终提取的字符a的示意图。

图6是本发明实施例碎片聚类向量示意图,row12、row55、row347、row356分别为第一个字符行的顶部位置，第一个字符行的底部位置，最后一个字符行的顶部位置和最后一个字符行的底部位置。

图7是本发明实施例碎片聚类中心示意图。

图8是本发明实施例碎片边缘字符矩阵和字符库中的字符矩阵对比示意图，(a)为边缘字符矩阵，(b)为字符库中的字符矩阵。

图9是本发明实施例碎片字符正规化后的字符矩阵，(a)的字符为图8(a)的正规化字符矩阵，(b)的字符为图8(b)的正规化字符矩阵。

图10是图8中(a)的字符和字符库中从a到z所有字符的距离。

图11是图8中(a)的字符和字符库中从a到z所有字符的缺失列。

图12是本发明实施例行间拼接后的碎片示意图。

图13是本发明实施例第一测试文档整体示意图。

图14是本发明实施例第一测试文档碎片拼接示意图。

图15是本发明实施例第二测试文档内容示意图。

图16是本发明实施例第二测试文档碎片拼接示意图。

图17是本发明实施例碎片内容复原方法流程图。

图18为图2投影图像的放大图像示意图。

具体实施方式

为了更好的理解本发明的技术方案，下面结合附图详细描述本发明提供的实施例，但本发明的实施方式不限于此。

实施例

如图17所示，一种碎片内容复原方法，本实施例以英文内容的碎片为例：

拼接不同行的碎片。

所述碎片内容复原方法的具体步骤如下：

1、建立碎片的电子图像；

本实施例处理的是真实的纵横切文本碎片，所以第一步就是将真实的纵横切文本碎片转化为电子图像。首先将真实的纵横切文本碎片放在蓝色卡纸上，然后扫描这些文档，接下来从彩色的扫描图像中提取纵横切文本碎片的电子图像，最后将将得到的彩图转化为二值化电子图像。

下面将详述这一过程：

1.1扫描纵横切文本碎片

为了更准确地提取出碎片并且找到碎片边缘，将纵横切文本碎片放在蓝色的背景卡纸上并且扫描这些文档，扫描过程中保证碎片边缘和扫描仪平行。因此得到扫描的彩色图像，它在电脑中是由rgb矩阵表示，也就是说是由代表红、绿、蓝的三个矩阵表示。

1.2提取纵横切文本碎片的图像

经过1.1得到以蓝色为背景的电子的彩色图像，接下来要从这个图像中提取白色矩形，即纵横切文本碎片。由于通过分析发现蓝色像素点在rgb矩阵的第一层矩阵中的数值小于200，白色像素点在rgb矩阵第一层矩阵中的数值大于200，因此可以区分蓝白点。若一行中白色像素点的个数大于k₁，则此行在碎片中。同理，若一列中白色像素点的个数大于k₂，则此列在碎片中。据此可以找到碎片的边缘并且截出纵横切文本的图像；

1.3图像二值化

先将1.2中提取出的纵横切文本碎片的彩色图像转化为灰度图像。再设置阈值为205，即灰度矩阵中数值超过205的点被0代替，其他点的被1代替。因此可以得到纵横切文本的二值化电子图像。

图2为图1碎片电子图像的投影图像，其不能体现碎片的准确边缘，这可能是由于碎片倾斜、碎片边缘粗糙、扫描曝光等原因造成的。

2、字符行提取技术、字符提取技术

从图1可以看出得到的二值化图像有较大的噪音。接下来，做这个图像的行投影，即做每行的黑色点个数的函数图像，如图2所示。图2是图1碎片的投影图像，图18是将图2纵坐标限制在0到30时放大的投影图像。从图2和图18也可以分析出碎片的二值化图像有较大的噪声。当使用了高斯去噪等去噪技术，图片的质量并没有改善。

为了在有噪声的碎片图像中找到字符所在的行并且较为准确地提取出字符，本文提出如下方法：不仅通过行投影，去除黑色点较少的行，而且考虑到最小字符长度和宽度，判断字符所在的行。通过提取字符行、字符列、第二次提取字符行的方法，提取到所需的单个字符。具体方法如下：

2.1、提取字符行

定义字符行是存在字符的行；多墨行是黑色像素点比较多的行，包括字符行和具有较大噪声的行。首先做二值图像的行投影，记录多墨行。接下来找到连续的并且连接起来的长度大于字符的最小长度的多墨行，记录这些行为字符行。

具体步骤如下：

步骤一、做纵横切文本碎片的行投影，即做每行的黑色点个数的函数图像。

步骤二、设置行投影数值的阈值为h₁，行投影数值即每行黑色点个数大于h₁的行被记录为多墨行；将所有的多墨行的索引放在一个向量中，这样的向量成为多墨行向量，即保存多墨行信息的向量。

步骤三、因为字符的长度是较大的，只有连着的几行都为多墨行的行才为字符行。假设最小的字符长度为T₁,记录连续的并且连接起来的长度大于T₁的多墨行为字符行。

如图3所示，其中(a)到(b)为行投影过程，(b)到(c)为记录多墨行过程，(c)到(d)为记录字符行的过程。

2.2、在每个字符行中提取字符列

定义字符列是在字符行中字符所在的列，多墨列指的是黑色像素点比较多的列，包括字符列和具有较大噪声的列。首先做列投影，记录多墨列。接下来找到连续的并且连接起来的宽度大于最小宽度的多墨列，记录这些列为字符列。具体步骤如下：

步骤一、在2.1中提取的字符行中做列投影，即做每列的黑色点个数的函数图像。

步骤二、设置列投影数值的阈值为h₂，列投影数值即每列黑色点个数大于h₂的列被记录为多墨列。将所有的多墨列的索引放在一个向量中，这样的向量成为多墨列向量，即保存多墨列信息的向量。

步骤三、因为字符的宽度是较大的，只有连着的几列都为多墨列的列才为字符列。假设最小的字符宽度为T₂,记录连续的并且连接起来的长度大于T₂的多墨列为字符列。

2.3、提取字符

经过2.1和2.2，便可以得到单个字符的大致边缘。接下来，再执行行投影，去除头部和尾部的非多墨行，就得到比较精准的字符的边缘和单个字符的矩阵。

如图4所示，为提取字符的流程图。

如图5所示，为最终提取的字符a。

3、建立英文字符库

建立英文字符库(同理，若需要复原以德文、法文等字母文字为内容的碎片，则可建立相应的字符库)，获取和纵横切碎片有相同字体的二十六个大小写英文字母的二值化矩阵，具体步骤如下：

步骤一、生成字符图像，字符图像包括与碎片有相同字体的26个大小写英文字母的二值化矩阵。

步骤二、在字符图像中，以字符提取技术(如专利申请号201410127565.6公开的字符提取方法或其他现有的提取方法)得到每个字符的边缘。以边缘为边界，提取出每个字符的矩阵L＝(l_ub)_x×z，x×z指的是字符矩阵的规模，x为行数，z为列数；u、b分别为字符矩阵中的点的横坐标和纵坐标。

步骤三、通过上述字符提取技术得到的每个字符的矩阵存储在数据库中，以便接下来的工作。

4、分行聚类技术

由于处理对象是纵横切碎片，需要先将属于同一横行的碎片找出来，这一过程称为分行聚类，每一行被称为每一类。所述分行聚类的基础是字符所在行的识别技术，通过聚类向量、聚类中心和聚类距离，完成这一分行聚类过程。

4.1、确定聚类向量

针对每张碎片的，确定聚类向量v＝(a₁,a₂,a₃,a₄)^T,其中a₁为碎片中第一个字符行顶部位置，a₂为第一个字符行底部位置，a₃为最后一个字符行顶部位置，a₄为最后一个字符行底部位置，这里所说的位置为图像的坐标点，也即行索引。如图6所示。

4.2、选取聚类中心

根据原始文档中最左端的碎片的左侧存在较大面积的留白，筛选出文档中S_m个最左侧碎片。由于最左侧的碎片包含着每个文本行的信息，将这些最左侧的碎片作为聚类中心。如图7所示。

4.3、聚类

将除聚类中心以外的其它碎片根据聚类距离分配到离其距离最短的聚类中心所属类。聚类距离指的是其它碎片q的聚类向量v_q＝(a'₁,a'₂,a'₃,a'₄)^T和聚类中心c_p的聚类向量v_cp＝(a₁,a₂,a₃,a₄)^T之间的距离，a₁'为其他碎片中第一个字符行顶部位置，a₂'为其他碎片第一个字符行底部位置，a₃'为其他碎片最后一个字符行顶部位置，a₄'为其他碎片最后一个字符行底部位置；聚类距离

o取1、2、3、4。

利用上述步骤将所有碎片归入S_m类中，并统计每一类的碎片数目；

5、行内拼接技术

经过分行聚类后，所有碎片已经分到各自所属行中，然后通过行内拼接技术，完成每一行的行内碎片拼接。

由于扫描图像有较大的噪音，并且难以消除，尤其是在碎片边缘处的噪音，所以不能得到准确的字符的边缘信息。并且由于扫描图像是英文字符库中字符按照一定比例放缩后的图像，不能准确计算出基准线。为了避免这些信息的使用，本文提出了计算两张碎片之间距离的改进算法。

通过提取碎片的边缘字符，计算边缘字符和字符库中每个字符的距离，得到边缘字符可能对应的原始字符和缺失比例。然后拼接两个碎片，估计拼接处的最小距离。拥有最小距离的排列为最终的行内拼接顺序。此方法可以避免字符边缘信息和不能准确计算出的基准线的使用，并且具有较高的精确度。

5.1、边缘字符对应的原始字符

计算碎片的边缘字符和字符库中每个字符的距离和缺失比例，然后根据边缘字符和字符库中每个字符的距离，估计出边缘字符所对应的原始字符、对于原始字符的距离和缺失比例。具体步骤如下：

a.计算碎片中某个字符的长度被放大的倍数为

b.计算碎片中某个字符的宽度被放大的倍数为

其中width为碎片中某字符的宽度，width'为此字符在字符库中相同字符的宽度；最终确定的碎片中字符的宽度被放大的倍数为多个可识别字符的宽度放大的倍数的均值ratio₂＝mean(ratio_p)；

步骤二、将碎片中的边缘字符的长度按照

的比例放大，宽度按照

的比例放大；

步骤三、将边缘字符和字符库中的字符规范化。记某边缘字符放大后的矩阵为A，A的行数为line，列数为list，字符库中的字符矩阵A'，A'的行数为line＇，列数为list＇。令正规化的矩阵列数LIST＝list，正规化的矩阵行数LINE＝max(line,line＇)。由于A可能为A'删除左侧或者右侧某些列后的矩阵，为了让两个矩阵可以比较，正规化方法如下：

得到正规化后A和A'的矩阵C_A和C_A'；

如图8所示，左边(a)为碎片的第一个左边缘字符，右边(b)为字符库中的某个字符。图9为图8正规化后的字符矩阵。其中ratio₁＝ratio₂＝0.89。

步骤四、计算边缘字符矩阵A和字符库中某个字符矩阵A'的距离

D(A,A')＝norm(C_A-C_A')

如图10所示，图10为图8的左边的字符和字符库中从a到z的所有字符的距离。

步骤五、计算边缘字符矩阵A相对于字符库中某个字符矩阵A'的缺失比例loss；

loss(A,A')＝|list-list'|

如图11所示为图8的左边的字符和字符库中从a到z的所有字符的缺失列。

步骤六、选择字符库中t个与A距离最小的字符为边缘字符A可能对应的原始字符；

5.2、两张碎片字符行之间的距离

计算两张碎片某个字符行之间的距离。假设拼接的两张碎片为P和Q，P为左侧的碎片，Q为右侧的碎片，需要计算的为第i个字符行之间的距离D_i(P,Q)。如果P和Q在第i个字符行拼接处的边缘字符是完整的，距离为0；否则距离为拼接起来的字符与可能对应的原始字符的最小距离。具体步骤如下：

步骤一、选择t_P个左碎片P在第i个字符行的右边缘字符可能对应的原始字符，即字符库中与右边缘字符距离最小的t个字符。

步骤二、选择t_Q个右碎片Q在第i个字符行的左边缘字符可能对应的原始字符，即字符库中与右边缘字符距离最小的t个字符。

步骤三、因此P和Q在第i个字符行拼接处的边缘字符是完整的或者拼接处可能对应的原始字符为上述两步得到的集合的并集。

其中D(P_i,a_k)为碎片P的第i个字符行的右字符和某个估计字符a_k间的距离，D(Q_i,a_k)为碎片Q的第i个字符行的左字符和某个估计字符a_k间的距离，h₃是将字符视为完整字符的阈值。公式第一行意味着如果碎片P的第i个字符行的右字符是完整的，并且碎片Q的第i个字符行的左字符是完整的，则碎片P和Q的第i个字符行处是可以连接的。公式第二行意味着碎片P和Q的第i个字符行处的加权平均值。

5.3、两张碎片之间的距离

计算同一类中任意两张碎片之间的距离。假设两张碎片P,Q都有n个字符行，则碎片P,Q之间的距离为

5.4、行内拼接

通过S5.3得到同一类中任意两张碎片之间的距离，选择具有最小距离的排列为行内拼接的最终结果。具体步骤如下：

步骤一、根据一类中的原始文本的最左侧碎片的左侧具有较大的空白，原始文本的最右侧碎片的右侧具有较大的空白，挑选出一类中的原始文本的最左侧和最右侧碎片。

步骤二、通过S5.3得到同一类中任意两张碎片之间的距离，记同一类的一组以最左侧碎片为开头，以最右侧碎片为结尾的排列为(1,y₂,y₃,...,y_r-1,S_r)，定义这一组排列的距离为：

也就是各个碎片之间的距离的加权平均；S_r代表一行中碎片的总个数；y₂,y₃,...,y_r-1为同一类碎片中间的一系列碎片；w为大于1小于r-1的一系列自然数。

步骤三、现在行内拼接问题转化成了一个优化问题，寻找最小距离的排列即为最终结果。有许多的方法解决这个问题，在问题规模较小的时候可以使用穷举法，问题规模较大时可以使用遗传算法。

6、行间拼接

利用行间拼接技术进行碎片拼接。行间拼接技术主要基础是字符所在行的识别。假定第x(x＝1,2,…,S_m)行的顶部和底部的位置分别为

和

那么字符行间的间距可以定义为

和

之间的距离。对于一个文本文档而言，字符行间的间距都是大致相同的。利用这个相同原理完成行间拼接操作。如图12所示。

通过上述碎片复原方法，对测试文档进行测试：

第一测试文档的字体是Calibri，字号为16，打印于A4纸上，并且切割成5行6列，如图13所示。运用本实施例的技术方案可以得到正确的结果，如图14所示。

第二测试文档的字体是Arial Unicode MS，字号为16，打印于A4纸上，并且切割成5行6列，如图15所示。运用本实施例的技术方案，除了原始碎片中4行4列的碎片位置错误，其余碎片位置正确。如图16所示，错误位置用红色标出。

其中最小字符长度T₁设置为字符a的长度的

其中最小字符宽度T₂设置为字符i的宽度的

估计边缘字符所对应的原始字符的个数S_t取值范围为3≤t≤5。

本实施例考虑真实的纵横切文本碎片复原问题，提出了一种字符提取技术和边缘字符识别技术的碎片复原方法，可以广泛应用在各类碎纸机产生的纵横切碎片复原工作中，并在一定程度上同时保证了效率和准确度，为司法取证、历史文献修复以及军事情报的获取等领域提供支持。

上述实施例为本发明较佳的实施方式，但本发明的实施方式并不受上述实施例的限制，其他的任何未背离本发明的精神实质与原理下所作的改变、修饰、替代、组合、简化，均应为等效的置换方式，都包含在本发明的保护范围之内。

Claims

1.一种碎片复原方法，其特征在于，包括步骤：

提取碎片字符，在一次提取字符行的基础上进一步提取字符列，再二次提取字符行，提取到所需的单个字符；

行内拼接，通过提取碎片的边缘字符，计算边缘字符和字符库中每个字符的距离，得到边缘字符可能对应的原始字符和缺失比例，然后拼接两个碎片，估计拼接处的最小距离，拥有最小距离的排列为最终的行内拼接顺序，并按照拥有最小距离的排列将同一类碎片进行行内拼接；

拼接不同行的碎片；

在行内拼接步骤中，估计两个碎片拼接处的最小距离应先求取两张碎片之间的距离，其步骤为：

具体步骤如下：

其中D(P_i,a_k)为碎片P的第i个字符行的右字符和某个估计字符a_k间的距离，D(Q_i,a_k)为碎片Q的第i个字符行的左字符和某个估计字符a_k间的距离，h₃是将字符视为完整字符的阈值；公式第一行意味着如果碎片P的第i个字符行的右字符是完整的，并且碎片Q的第i个字符行的左字符是完整的，则碎片P和Q的第i个字符行处是可以连接的；公式第二行意味着碎片P和Q的第i个字符行处的加权平均值；

步骤五、计算同一类中任意两张碎片之间的距离，假设两张碎片P,Q都有n个字符行，则碎片P,Q之间的距离为