CN103679671A

CN103679671A - 融入fft的综合评价法的碎纸片纵横切拼接复原算法

Info

Publication number: CN103679671A
Application number: CN201310458541.4A
Authority: CN
Inventors: 王浩; 郑智隆; 曹丹; 邹孟霖; 于思奇; 孙翰斐; 李子祺; 张旭; 余冬琪
Original assignee: Individual
Current assignee: Individual
Priority date: 2014-01-12
Filing date: 2014-01-12
Publication date: 2014-03-26

Abstract

本发明公开了一种融入FFT的综合评价的碎纸片纵横切拼接复原算法。首先通过对图像碎片进行编码，将其转化为灰度矩阵并对其进行二值化处理。利用FFT快速傅立叶变化，进行频域转化，进行频域分析。之后分成两种情况，对于中文，行的划分依据是汉字的中心纵坐标；对于英文，行的划分依据是字母的下端基线。然后，利用行匹配将所有的碎片行分类。利用FFT处理后边缘矩阵的互相关系数大小和直接匹配法的匹配成功率进行综合评价，用每个碎片的左右两个边分别与左右边缘的两边进行匹配，选取其中匹配度最高的完成匹配，重复直至完成行匹配。对其结果进行人工干预。之后进行间排序，此处依旧利用上述的综合评价法实现，之后对结果再进行一次人工检查与干预，完成碎片的复原。

Description

融入FFT的综合评价法的碎纸片纵横切拼接复原算法

技术领域

本发明主要运用于中英文图像拼接（文字拼接）领域，设计了一种融入FFT的综合评价的碎纸片纵横切拼接复原算法。

背景技术

快速傅里叶变换，是离散傅氏变换的快速算法，它是根据离散傅氏变换的奇、偶、虚、实等特性，对离散傅里叶变换的算法进行改进获得的。它对傅氏变换的理论并没有新的

发现，但是对于在计算机系统或者说数字系统中应用离散傅立叶变换，可以说是进了一大步。快速傅氏变换算法可以运用到图像拼接的领域。

发明内容

单面印刷文字文件横纵切碎片的复原

为了探寻两个相邻碎片间的关系，本算法将各个碎片编码后矩阵的边缘列进行FFT快速傅里叶变换，因为最终图片的最左边全为白色，所以首先可以得到原图最左边一列，再将该碎片的最右列和其他碎片的最左列逐一进行互相关系数的计算，得出一族互相关系数，选取其中结果最大的一列的碎片进行匹配，得到最终结果。

傅里叶原理表明：任何连续测量的时序或信号，都可以表示为不同频率的正弦波信号的无限叠加。而根据该原理创立的傅里叶变换算法利用直接测量到的原始信号，以累加方式来计算该信号中不同正弦波信号的频率、振幅和相位。

对于信号的分析，很多情况下仅依靠时域是远远不够的，很多时域上不好分析的信号转入频域的分析中，立即变得便于分析。本算法依据分析的需要，分别将每个灰度矩阵的左上角和右上角看作起点，将0-1二值矩阵一列的取值看作y轴，将离散的点看作t轴，对其进行FFT处理。得到每个矩阵的边缘列的频谱。对它的特征进行提取，并分别计算它与其它碎纸片边缘的互相关系数，进行匹配。笔者认为，频谱特征接近，即互相关系数接近的两个碎纸片处在相邻的位置。

单面印刷文字横纵切片的复原难度比仅有纵向切片文件的复原大很多，一方面在于碎纸片变多使得编程变得困难和程序运行速度变慢，另一方面在于纸片变小导致的信息变少从而使得匹配更易于发生错误。本算法阐述了研究过程中方案的探索和最终使用的方案的改进。本算法分别对中文和英文的处理方法进行了分析。

本算法对于这种方案进行了分步处理。最后进行了一次人工干预，得到正确的结果。

本算法在此对中英文两种情况进行分别讨论，不同特征。

一、中文文件的复原

本算法对于中文文件的复原主要经过行分类、综合评价体系的建立以及人工干预组成。其算法流程图如图1所示：

(1) 行分类

① 分类方案的选取

首先，笔者经过观察发现，不是所有的标点都是全角的，所以不同行上面的字位置并不处在完全一样的列上。所以对于碎片的处理不能通过列分类而实现。之后，笔者经过观察发现，除去空行后，所有的碎片只有11种行的分布位置，所以可以先对它们进行行分类，之后再对于每一行类别的碎片进行相对位置的排序，即可恢复原文。

观察事例图片，本算法发现文字的汉字大小几乎一致，对所有碎片中汉字的纵向高度进行统计，本算法发现汉字的纵向高度为38-41个像素，但是汉字的上下却往往并不对齐，所以本算法对于所有汉字纵向的中心点纵坐标进行了记录，根据这些纵坐标的位置，并设定一个像素的阈值，对所有碎纸片进行行分类。

观察到事例图片中的行间距一致，而且大多数正规文件的行间距几乎一样宽，所以本算法首先假定图片中汉字的行间距一致，但是英文的行间距却并不完全一致，因此，本算法改变思路，转而去分析汉字高度。

因为每个汉字的高度有一定的出入，而且汉字的底也不太相同，再加上部分形如“一”的文字存在，所以本算法的分析思路基于汉字的中心点。为了证明这种想法的合理性，本算法对所有汉字纵向坐标进行分析，发现同一行的汉字中心纵坐标处在阈值为1的区间内，所以用这种方法对汉字进行行分类可以得到较好的结果。

② 灰度矩阵的预处理

每个汉字的大小不完全一样，一方面为了便于观察，另一方面为了减少部分形如“翁”之类的汉字中间空白部分的干扰。本算法首先对灰度矩阵进行预处理。因为本体

首先，将灰度矩阵以RGB值128作为阈值，转化为0-1二值矩阵。

之后，对生成的矩阵进行扫描，从上到下并且横向进行，一旦在某一行中遇到有一个像素为黑色，便将整行变成黑色，直到结束为止。为了防止形如“翁”的字干扰后续检验。此时，再对矩阵进行检验，将宽度小于20像素的白线全部变成黑色。

因为图片中的文本碎片均不含有噪音，所以噪音中黑点与白点的影响可以忽略不计。

为了显示上述方法的处理效果，本算法选取一张原图与一张处理后的图片进行对比，为了使这种事例具有普遍性，本算法选取两个典型图进行师范，如图2、图3所示，其处理结果分别如图4，图5所示。

经过对上述效果的观察，本预处理的效果十分明显，结果也很成功。

③ 行分类的实施与结果

本算法先确定两个边缘列的碎片项。之后，本算法对于预处理后的矩阵进行分析，统计出所有黑色部分的中心纵坐标大小，对其进行记录，并设定阈值为1，对其进行分类。

对于结果分析可得，该分类与其差别较小，可以对其进行人工干预，将每行之间的先后顺序进行排列，本部分的任务完成。

（2）基于FFT信号处理的互相关系数模型

一种普遍的方法为：利用(1)中的图片编码方式，得出二值矩阵，首先利用碎片左侧的边缘找出最左边的一个碎片，之后将灰度矩阵它最右边一列分别与其他碎片最左边一列进行分别逻辑异或运算，并将所有结果进行求和，选取结果最大的一个碎片与其相连，但是这种方法的匹配成功率较低，所以本文采取了其他的方法。

(1) 图片编码矩阵的FFT处理：

① FFT快速傅里叶变换与DFT离散傅里叶变换算法的比较：

对于任一离散序列

的

点，其DFT计算公式如下所示：

设

是基-2数，也就是2的整数次幂，即：

，其中

为正整数。这样，可以首先将序列前后对半分开，将

点的 DFT写成前后两部分，如下式所示：

因为

所以：

当

为偶数时

，

为奇数时

，所以可将进一步分解为偶数组和奇数组，

为偶数时，

为奇数时，

令：

这样，

和

都是点的序列，将其分别带入下式就能清楚地看到，这两式表示的是两个

点的DFT运算,如下式所示：

从上文可以发现，FFT算法对于DFT算法的改进，主要基于

的取值特性，进行了一种合并，从而改进运算。DFT算法的运算量是与成正比的，,而利用

的某些特性，可以将一个大点数DFT的运算分解为若干小点数的DFT运算组合，以减少运算量。该种FFT算法运算量与

成正比，改进效果明显，所以本算法采用该种FFT算法进行计算。

② FFT算法对于碎片的处理与匹配：

对图片进行二值编码，首先确定出最左的碎片，之后再将该碎片矩阵的最右列进行FFT处理得到其频谱，之后选取其他各碎片对应矩阵最左列的频谱与其最接近的进行匹配。

但是，这样进行碎片的匹配需要添加较多的人工干预，为了让计算机进行自动的匹配，本专利接下来引入了相关性去对频谱的匹配程度进行定量的衡量。

归一化互相关系数模型

在信号处理中经常要研究两个信号的相关性或一个信号经过一段延迟后自身的相关性以实现信号的检测识别与提取等。互相关系数是描述两个信号的相关性重要统计量。其中，归一化互相关系数能够量化地描述两个信号的相似性，而且它的值离1越近则反映两个信号相似性越强，否则越弱。其正负还可以直接反映出两信号相关性的正向或负向。此外，该模型具有算法简单、抗白噪声干扰力强等优点，是一种科学、高效的模型。该模型主要的应用领域在于数字图像处理，与本问题的领域契合，本身在此问题上就有应用的优势。相比之下，Pearson相关系数等求解相关性的方案的应用略逊一筹。在本问题中，本发明认为两个相邻的矩阵如果互相关系数越高，则两图片的匹配度越好，选取匹配度最高的图片进行匹配。

因为互协方差函数不能进行归一化处理，从而用量化的指标来清楚地反映出两个信号的相关系数，所以本算法采用了基于信号处理从归一化互相关系数模型去对两个信号的相关系数进行定量的衡量。

不妨设两个样本分别为离散信号

、，长度为

同时将其看作两组同维的向量。定义

、

的互相关系数如下式所示：

对于上式，由许瓦兹不等式，有

，当且仅当

、完全相关时，

；当且仅当、

完全不相关时，

；当

、

在某种程度相关时，

的取值在0和1之间。实际上，

反映的是矢量和

夹角的余弦值，从而定量地反映出它们的相关性。

行分类后，本算法得到了每一行中可能的碎片，首先需要探寻解决这些问题的较好解法，对于这些碎片，本算法首先分别尝试了中文拼接中的两种方案，发现基于0-1二值矩阵的边缘比对法高于基于FFT信号处理的互相关系数法，所以本算法暂且不讨论第一种方法，而是先讨论第二种方法的匹配结果。

本算法接下来只需要对每一项行分类的结果内各种碎片的左右顺序进行排序。其依据为互相关系数的大小，每个碎片都选取与任一选定碎片的相关系数最大的碎片进行拼接。

本方法依旧沿用了之前的方法，先确定两个边缘列的碎片项，再对其进行排序，但是这种方案的因为属性较为单一并采用单项匹配的方法，而且这幅图因为粉碎得过小，所以每幅图的信息量过少，直接进行匹配的效果不理想，正确率较低。

（3）双边双属性综合评价模型

因为这类横纵切片的碎片包含信息过少，所以仅仅通过单边匹配难度较大。本算法接下来对上述方案进行了改进，使用双边匹配法去取代单边匹配法。

将每个碎片的左右边缘分别用0-1二值矩阵和FFT处理后的互相关系数对其进行分别的打分，其中前者的分数如下式所示：

其中，

为匹配率，

为同一行中第i个碎片和第j个碎片黑白比对一致的像素数目，

为这两个元素匹配失败的像素数目。

所以有：

由中文匹配中的FFT方法，有：

为了综合考虑两种评价体系的结果，设

为综合评价结果。本算法有两种思路，分别为：

① 原图边缘列碎片的确定

双边匹配法需要首先利用边框的空白区域确定出原图左右两边的碎片，此处不需要对碎片的上下顺序进行确定。利用上文行匹配的结果，列碎片的确定可以将左列碎片当作基准，对右列碎片进行顺序的矫正，保证每一行可以按照左列的初始顺序分别拼接起来。此时笔者可以确定的是，每一行中最左边的碎片和最右边的碎片都处在了行中的正确位置。

② 行间一一匹配

接下来，本算法分别对最左列碎片的右边缘0-1二值矩阵与边框碎片外的所有碎片的左边缘二值矩阵进行双属性综合评价，选出最大值并记录。之后，对最右列碎片的坐边缘0-1二值矩阵与边框碎片外的所有碎片的右边缘进行双属性综合评价，将两次评价的最大值进行比较，选出其中的较大者进行匹配。之后以此类推，直到匹配出所有元素。其它行也按照这个方法去进行匹配。

③ 人工干预

对其结果进行作图，本算法发现仅部分结果完全正确，还有一部分结果有少许错误。所以本算法接下来对结果进行人工干预，按照碎片的边缘和整句话的语义，将每一行的碎片顺序进行矫正，得出最终正确的结果。

（4）行间排序

完成对每一行之间的碎片的排序之后，本算法接下来对每一行的相对顺序进行排序。

此处可以将现在的文本碎片看作是原文被仅仅横向切割后的文件碎片，所以可以利用中文匹配中的算法。此外，由于中文事例图片中总共有19个碎片，而此处的碎片数已经由最开始的209个下降为11个，所以此处的排序更为简单。

直接双属性综合评价法

笔者由图片可以具体地发现各行的行间距的差别，所以放弃了对行间距的匹配。之后，本算法只采用双属性综合评价法，去对各行的相对顺序进行排序。

因为本算法无法确定首末行，所以用MATLAB进行计算后，双属性排序得出的结果只是很多行的相对位置正确，但是无法确定其正确的绝对顺序。

此处引入了人工干预，进行了简单的辨析之后，便得到了正确答案。

二、英文文件纵横切片的复原：

相比于中文文件，英文文件的行分类要更难。一方面每个英文字母的纵向高度不同，而且有的整体位置较高，有的整体位置较低，所以难以定位其每一行的位置，对字母进行筛选；另一方面，因为英文字母很多都有弧度，而且信息较少，所以英文文件经过纵横切片后更加难以复原。其算法流程图如图6所示：

本算法中文文件和英文文件的区别主要在于数据的预处理和行分类上面，后面的算法几乎一样，所以此处的描述会比以更加简洁。

（1）行分类

本算法先根据边缘的白边确定最右列。因为英文碎片更加难以进行行分类，所以本算法首先尝试了对碎片的上下左右边缘进行直接上下左右综合评价进行匹配。但是结果发现，该方案的正确率较低，没有实际意义。所以本算法仍旧采取对碎片进行行分类处理。

对于行分类，本算法的思路是，为了避免灰色块的影响，当且仅当像素点的RGB值为255时，将其编码为0；其它情况下均将其编码为1。之后，对碎片进行从下到上的扫描，每当遇到一个高度超过10个像素的白色区域后再进入含有超过14个像素的黑色像素的行时，将那一行的所有像素都变成黑色，然后继续扫描，每次这种白色到黑色的边界时都进行这样的处理。对所有整理出的基线进行或运算并分析其其它线段的差，选择阈值为1个像素，对英文碎片的基线进行整理。

按照上述方法处理碎片，其原图与处理后的图片分别如图7和图8所示：

根据上述方法将事例图片进行无序拼接，得到其基线如图9所示：

(2) （2）单边双属性综合评价模型

算法同中文文件横纵切片相似，行分类后，再从右向左进行匹配，每次选取综合评价值最高的进行匹配。

对其结果进行作图，本算法发现结果并不完全正确，还有一部分结果有少许错误。所以本算法接下来对结果进行人工干预，按照碎片的边缘和整句话的语义，将每一行的碎片顺序进行矫正。

人工检验后，笔者发现本结果完全正确，下面本算法进行行间排序。

（3）行间排序

吸取了对中文横纵切片后的结果的行间排序的教训，此番对于英文的行间排序，本算法采用了直接双属性综合评价法。因为本算法依旧无法确定首末行，所以用MATLAB进行计算后，双属性排序得出的结果只是很多行的相对位置正确，但是无法确定其正确的绝对顺序。

此处进行了人工干预，进行了简单的辨析之后，便得到了正确答案。

附图说明

图1是本算法进行中文碎片匹配的算法流程图。

图2是本算法进行英文碎片匹配的算法流程图。

图3是本算法进行中文碎片匹配的第一幅图片。

图4是本算法对于第一幅原图进行中心定标后输出的图片。

图5是本算法进行中文碎片匹配的第二幅图片。

图6是本算法对于第二幅原图进行中心定标后输出的图片。

图7是本算法进行英文碎片匹配的第三幅图片。

图8是本算法对于第三幅图片进行基线定标后输出的图片。

图9是本算法进行行分类后输出的某一行图片。

Claims

1.一种融入FFT的综合评价的碎纸片纵横切拼接复原算法。

2.其特征在于能够进行中英文单面横纵切片的恢复。

3.如权利要求1一种融入FFT的综合评价的碎纸片纵横切拼接复原算法。

4.其特征在于它可以进行中文和英文文件的复原。

5.如权利要求2一种融入FFT的综合评价的碎纸片纵横切拼接复原算法。

6.其特征在于，本算法对于中英文文件的复原主要经过行分类、综合评价匹配法、行排序和人工干预组成。

7.中文的行分类依靠行中心线，英文依靠行基线。

8.如权利要求2一种融入FFT的综合评价的碎纸片纵横切拼接复原算法。

9.其特征在于，每个汉字的大小不完全一样，一方面为了便于观察，另一方面为了减少部分形如“翁”之类的汉字中间空白部分的干扰。

10.本算法首先对灰度矩阵进行预处理。

11.如权利要求2一种融入FFT的综合评价的碎纸片纵横切拼接复原算法。

12.其特征在于，本算法将各个碎片编码后矩阵的边缘列进行FFT快速傅里叶变换，因为最终图片的最左边全为白色，所以首先可以得到原图最左边一列，再将该碎片的最右列和其他碎片的最左列逐一进行互相关系数和综合评价值的计算，得出一族互相关系数，选取其中结果最大的一列的碎片进行匹配，得到最终结果。

13.如权利要求2一种融入FFT的综合评价的碎纸片纵横切拼接复原算法。

14.其特征在于，本发明认为两个相邻的矩阵如果综合评价值越高，则两图片的匹配度越好，选取匹配度最高的图片进行匹配。

15.因为互协方差函数不能进行归一化处理，从而用量化的指标来清楚地反映出两个信号的相关系数，所以本算法采用了基于信号处理从归一化互相关系数模型去对两个信号的相关系数进行定量的衡量。

16.行匹配与列排序的方法一致，均靠综合评价值去进行匹配。

17.如权利要求2一种融入FFT的综合评价的碎纸片纵横切拼接复原算法。

18.其特征在于，英文文件的行分类要更难。

19.一方面每个英文字母的纵向高度不同，而且有的整体位置较高，有的整体位置较低，所以难以定位其每一行的位置，对字母进行筛选；另一方面，因为英文字母很多都有弧度，而且信息较少，所以英文文件经过纵横切片后更加难以复原。

20.其算法流程图如图6所示。

21.本算法中文文件和英文文件的区别主要在于数据的预处理和行分类上面。