CN104537629A

CN104537629A - 利用曲线匹配和信息对齐的粉碎文件重构方法

Info

Publication number: CN104537629A
Application number: CN201510023241.2A
Authority: CN
Inventors: 孔祥维; 尚士泽
Original assignee: Dalian University of Technology
Current assignee: Dalian University of Technology
Priority date: 2015-01-16
Filing date: 2015-01-16
Publication date: 2015-04-22

Abstract

本发明利用曲线匹配和信息对齐的粉碎文件重构方法属于信息安全领域、信号与信息处理技术，涉及到粉碎文件重构中利用曲线匹配和信息对齐进行文件碎片重构方法。该方法利用曲线匹配和信息对齐进行文件碎片拼接，提取每个碎片的轮廓曲线信息，通过计算两曲线间的距离判断曲线间的相似性，进而寻找相邻碎片；判断碎片方向，减少不必要的匹配；在匹配过程中，通过对碎片文本线、字符、颜色和图形信息的对齐来排除错误匹配；通过碎片对的选择得到正确的碎片对，并通过所选碎片对的匹配信息完成粉碎文件重构。本发明对碎片旋转具有鲁棒性，可容忍一定的边缘重叠区域存在，提高了匹配效率；适用于信息安全领域，有效地帮助文件检验人员重构粉碎文件。

Description

利用曲线匹配和信息对齐的粉碎文件重构方法

技术领域

本发明属于信息安全领域、信号与信息处理技术，涉及到粉碎文件重构中利用曲线匹配和信息对齐进行文件碎片重构方法。

背景技术

为防止重要信息外泄，通常采用的方法是使用碎纸机将文件粉碎，因此司法取证部门常常需要恢复毁坏的文件用于案件分析。2011年，美国国防部组织一项名为“DARPA碎纸机挑战”的竞赛用于鼓励粉碎文件重构问题的研究，并为第一名提供5万美元的奖励。此项竞赛共包括五个题目，其难度不断增加，由200片至6000片彩色扫描文件碎片构成，这五个题目也成为测试文件重构算法性能的标准测试集之一。

针对文件或图像重构类的问题已有较多公开发表的算法，但对碎纸机粉碎的文件重构问题的解决仍然十分困难。首先是文件碎片的尺寸和形状，碎片尺寸一般在3mm×6mm左右，碎纸机使用者希望碎片尺寸足够小来避免信息泄露的可能。另外，由于碎纸机的机械结构比较固定，文件碎片的形状十分相近，这对于使用形状特征重构文件的难度大大增加；其次，纸张在粉碎过程中产生形变也增加了重构的难度，形变主要存在于碎片的边缘。由于粉碎之后还需扫描成数字图像，存在的碎片丢失，颜色变化以及碎片重叠等问题均增加了文件重构的难度；第三，在文件恢复过程中还需要考虑文件碎片的数量，数量越大恢复的难度越大。尽管在数字文件恢复过程中有较多自动复原的算法(如硬盘数据的文件恢复)，这些算法应用在文件碎片重构中不但耗费大量时间而且运算结果不稳定，很难得到正确的文件图像，因此在碎片拼接过程中需要更多的人工干预才能完成。总之，粉碎文件重构是一个十分复杂的过程，需要计算机的识别和人工筛选。

近年来也有许多学者提出了粉碎文件重构的算法。P.Butler等人在2012年的IEEE Symposium on Visual Analytics Science and Technology会议上发表的论文“The Deshredder:A Visual Analytic Approach to Reconstructing ShreddedDocuments”中使用由距离构成的Luma时间序列来描述碎片的形状，将碎片进行倾斜矫正之后，将Luma序列中的峰值点作为特征并利用Chamfer相似性度量的方法寻找相邻碎片；A.Deever等人在2012年的IEEE International Conferenceon Image Processing会议上发表的论文“Semi-automatic Assembly of RealCross-cut Shredded Document”中对碎片轮廓点进行采样，并记录采样点的空间位置用于描述碎片形状，利用匹配代价函数来描述两个形状之间的相似性。上述方法中，在碎片拼接时需要较多人工干预或者碎片匹配效率都较低。

发明内容

本发明要解决的技术问题是针对现有技术的不足，发明一种利用曲线匹配和信息对齐的方法进行粉碎文件重构，利用碎片轮廓曲线的相似性寻找正确碎片对，并利用碎片上文本线、字符、颜色和图形信息的对齐排除错误匹配，完成文件碎片重构。本发明采用曲线匹配和信息对齐相结合的方法对文件碎片进行匹配，该方法对碎片旋转具有鲁棒性，同时可容忍一定的边缘重叠区域存在，提高了匹配效率。

本发明采用的技术方案是利用曲线匹配和信息对齐的粉碎文件重构方法，其特征是，重构方法利用曲线匹配和信息对齐进行文件碎片拼接，提取每个碎片的轮廓曲线信息，通过计算两曲线间的距离判断曲线间的相似性，进而寻找相邻碎片；判断碎片方向，减少不必要的匹配；在曲线匹配过程中，通过对碎片文本线、字符、颜色和图形信息的对齐来排除错误匹配；通过碎片对的选择得到正确的碎片对，并通过所选碎片对的匹配信息完成粉碎文件重构；具体步骤如下：

1)扫描粉碎文件及碎片图像预处理

首先，对粉碎文件进行扫描，得到粉碎文件的碎片图像；然后对碎片图像进行预处理，其过程包括碎片图像分割，碎片图像倾斜校正，碎片图像的文本线、颜色、字符和图形信息提取，碎片拐点信息提取，碎片轮廓曲线信息提取；

a)碎片图像分割

文件碎片是无序摆放，并扫描在同一幅图像中，需要将碎片图像逐一分割出来；碎片图像分割利用公开的边缘搜索方法，识别碎片轮廓曲线像素坐标后，逐一遍历直到对该轮廓曲线像素记录完成一个闭区间，即该碎片图像的轮廓曲线像素被完整地记录下来，最后将轮廓内碎片像素拷贝来完成碎片图像分割；

b)碎片图像倾斜校正

若碎片中的文本线有一定的倾斜角度，需要进行倾斜校正使文本线达到水平；倾斜校正采用投影法，将碎片图像进行顺时针和逆时针旋转若干角度，并将碎片图像中的文本线信息水平投影至和碎片图像等高的列向量中，列向量中的元素只记录该行有无直线信息，找到某一旋转角度，使得列向量中直线信息数量最小，则该角度为碎片图像的倾斜角度，按照上述方法将所有碎片进行倾斜校正；

c)碎片图像信息提取

由于碎片图像中文本线、字符和颜色区域有不同的灰度值，可使用不同阈值对将碎片图像二值化然后分别提取其信息；使用Smallest Univalue SegmentAssimilating Nucleus算子提取碎片拐点，由于碎片形状接近于矩形，因此每个碎片可提取四个拐点；拐点将碎片轮廓分为四条边，两个长边用于曲线匹配，两条短边用于碎片方向检测；倾斜校正过程使得碎片图像的轮廓曲线像素坐标发生变化，再次利用边缘搜索算法提取碎片图像的轮廓曲线；

2)碎片图像方向检测：

利用角度符号矩阵检测碎片方向，计算碎片短边的两端点与短边上任意一点的角度符号并累计求和，通过阈值将碎片方向分为向上、向下和未知三类；定义点A，C为碎片一短边的两个拐点，点B为碎片短边上的顶点，定义∠ABC为向量BA逆时针旋转至BC的角度；通过角度判断确定碎片方向；∠ABC的角度符号通过式(1)判断：当∠ABC＞180°时，SignAngle＝1；当∠ABC＝180°时，SignAngle＝0；当∠ABC＜180°时，SignAngle＝-1；其中：

SignAngle = sgn (\begin{matrix} |\begin{matrix} x_{A} & y_{A} & 1 \\ x_{B} & y_{B} & 1 \\ x_{C} & y_{C} & 1 \end{matrix}| \end{matrix}) - - - (1)

将点B遍历相应边上的所有像素并计算角度符号再累加求和，得角度符号累计和为：

SumSignAngle = \underset{N}{Σ} (SignAngle) - - - (2)

其中，N为碎片短边包含的像素数；

为减小碎片方向检测的错误率，本发明对碎片方向的检测结果做出规定：如果则碎片为正向，如果则碎片为反向，其余情况均判断为未知方向；

3)曲线匹配方法

假设两曲线的坐标长度为L，将曲线起点重合在一起定义为点O，OA和OB分别表示两曲线的向量方向；每条曲线的向量方向由曲线上所有点与起始点组成向量的平均值得到，曲线向量方向的夹角表示曲线夹角；点C_x和D_x分别是曲线向量OA和OB上与起点O距离为x的两点，点C′_x和D′_x点分别是两条曲线上与起点O距离为x的两点；在理想情况下两个曲线间的夹角为0°或180°，其中180°表示匹配的两碎片存在上下颠倒的位置关系；在实际情况下，倾斜校正后碎片间仍存在误差；

将曲线旋转使两条曲线的曲线向量方向相同，并定义曲线上两点C′_x和D′_x之间的距离为弧线差的绝对值|C_xD_x-C′_xD′_x|，两曲线间的距离D可表示为[0,L]内的所有x所在位置的曲线上两点距离的平均值：

D = mean (Σ_{x = 0}^{L} | C_{x} D_{x} - C_{x}^{'} D_{x}^{'} |) - - - (3)

OA和OB之间的夹角为α，则弧线C_xD_x的长度为：

C_xD_x＝α·x (4)

同理，弧线C′_xD′_x的长度为：

C′_xD′＝α′·x (5)

将式(4)和(5)带入(3)中，得到曲线距离为：

D = mean (Σ_{x = 0}^{L} x \cdot | α - α_{x}^{'} |) - - - (6)

理想情况下正确碎片对之间的曲线距离D＝0，但由于点O位置未知，曲线上的所有点均有可能为O，因此，两碎片间的曲线匹配将有多个结果，其中，正确结果应该使得曲线间距离最小，即D＝min{D_o1,D_o2,D_o3,…}，其中D_o1,D_o2,D_o3表示O点在不同位置情况下的曲线距离；在计算曲线匹配时应逐沿着一条曲线并逐一像素的移动另一曲线进行匹配，并计算曲线间距离；

4)信息对齐

a)文本线对齐：将碎片2沿着碎片1方向移动，每对齐一次文本线就计算一次曲线距离，直到完成所有文本线的对齐；假设两个碎片上的文本线个数分别为M和N，则曲线匹配须计算M+N-1次，即得到M+N-1个曲线距离；当碎片上文本线的宽度大于1个像素时，通过对齐文本线的中心位置来完成；

b)字符和图形信息对齐：粉碎文件时，一个字符可能被分割为两个或者多个区域，并存在于碎片边缘，利用这些信息可获得正确的匹配结果；由于文件粉碎时带来的碎片形变，使碎片边缘存在重叠区域，本发明使用以轮廓曲线像素为中心大小为10×20像素的矩形滑动窗在轮廓曲线上进行遍历搜索，矩形窗中心位置为碎片轮廓曲线上的像素，如果矩形中心两侧均存在字符信息，则认为这两个曲线在该处的字符信息是对齐的；图形信息对齐与字符信息对齐相同；

c)颜色信息对齐：定义颜色信息重合率作为特征，假设两个曲线上包含颜色信息的像素个数分别为N₁和N₂，N表示两曲线颜色信息中重叠的像素个数，颜色信息重合率可定义为：

R = \min = (\frac{N}{N_{1}}, \frac{N}{N_{2}}) - - - (7)

当颜色信息重合率大于一定阈值时，认为两碎片的颜色信息是对齐的；

5)碎片对选择

碎片对选择的策略是将任意碎片与其余碎片进行匹配，并返回所有可能匹配情况的曲线距离，将曲线距离按照升序排列，在所列出的碎片对中选择正确的匹配结果；

6)粉碎图像重构

图像重构是利用已选择的碎片对匹配信息，对整个粉碎文件进行拼接重构；在重构过程中应考虑碎片拼接顺序及拼接过程中对空间位置关系变化的调整；首先选择任意碎片图像作为重构基础，然后选择与该碎片正确匹配的碎片进行拼接，以此类推恢复粉碎文件。

本发明的效果和益处是针对粉碎文件重构取证，利用曲线匹配和信息对齐的方法重构粉碎文件。该发明通过寻找碎片轮廓的拐点将文件碎片轮廓分割为若干条曲线，通过匹配得到曲线间距离用来描述曲线相似性，进而选择正确的碎片对，再结合所选碎片对的匹配信息重构粉碎文件。在曲线匹配过程中，通过对碎片边缘的信息对齐可以排除错误配对，这些信息包括文本线、颜色、字符和图形等信息。本发明适用于信息安全领域，曲线匹配方法对碎片旋转具有鲁棒性，并能容忍碎片边缘重叠区域的存在，结合曲线匹配过程中的信息对齐可提高对碎片匹配效率。

附图说明

图1是粉碎文件重构流程图；图2是方向为正向(箭头朝下)的碎片及其碎片模型；图3是方向为反向(箭头朝上)的碎片及其碎片模型；图4是曲线匹配示意图；图5是碎片拼接示意图；图6是曲线匹配中的字符信息对齐示意图；图7是曲线匹配中的颜色信息对齐示意图；图8是碎片拼接过程示意图；图9是DARPA数据集中题目2的文件重构结果图。

具体实施方式

以下结合技术方案和附图详细叙述本发明的具体实施方式。

在本方法中，采用的实验样本来自“DARPA碎纸机挑战”竞赛的题目2，其扫描分辨率为400dpi，图像格式为TIFF，共有碎片图像363个，碎片中包含文本线、手写字符、颜色和图形信息。本发明主要针对粉碎文件重构取证，该发明将文件碎片轮廓分割为若干条曲线，通过曲线距离大小来描述两曲线的相似度，进而选择碎片对进行曲线匹配，同时重点提取了碎片的文本线、颜色、字符和图形等信息进行对齐以排除错误配对，最后结合匹配信息重构粉碎的文件图像，算法具体流程如图1所示。

实施例的具体步骤如下：

1)扫描碎片图像及碎片图像预处理

首先，对碎片图像进行扫描，然后对扫描的碎片图像进行预处理，其过程包括碎片图像分割，碎片倾斜矫正，碎片文本线、颜色、字符、图形、拐点和轮廓曲线信息提取。

a)碎片图像分割

由于文件碎片是无序摆放，并扫描在同一幅图像中，需要将碎片图像逐一分割出来；碎片图像分割利用公开的边缘搜索方法，识别碎片轮廓曲线像素坐标后，逐一遍历直到对该轮廓曲线像素记录完成一个闭区间，即该碎片图像的轮廓曲线像素完整地记录下来，最后将轮廓内碎片像素拷贝，完成碎片图像分割。

b)碎片图像倾斜矫正

采用投影法进行碎片图像的倾斜矫正，使碎片图像中的文本线保持水平，如果碎片图像中不包含文本线则不需进行倾斜校正；校正之后将碎片图像重新保存；

c)碎片图像信息提取

由于碎片图像中文本线、字符和颜色区域有不同的灰度值，可使用不同阈值对将碎片图像二值化然后分别提取其信息；使用Smallest Univalue SegmentAssimilating Nucleus算子提取碎片拐点；倾斜校正过程使得碎片图像的轮廓曲线像素坐标发生变化，再次利用边缘搜索算法提取碎片图像的轮廓曲线；

2)碎片图像方向检测：

利用角度符号矩阵和角度符号累积和检测碎片方向，采用前面的公式(1)和(2)进行计算。首先，计算碎片短边的两端点与短边上任意一点的角度符号并累计求和，通过阈值将碎片方向分为向上、向下和未知三类；定义点A，C为碎片一短边的两个拐点，点B为碎片短边上的顶点，定义∠ABC为向量BA逆时针旋转至BC的角度；通过角度判断确定碎片方向；∠ABC的角度符号通过式(1)判断：当∠ABC＞180°时，SignAngle＝1；当∠ABC＝180°时，SignAngle＝0；当∠ABC＜180°时，SignAngle＝-1。为减小碎片方向检测的错误率，本发明对碎片方向的检测结果做出规定：如果则碎片为正向，如果则碎片为反向，其余情况均判断为未知方向；

图2和图3分别为方向为正向和反向的碎片图像及其模型，通过方向判断，实施例的题目2中包括正向碎片170个，反向碎片142个，未知方向碎片51个。

3)曲线匹配方法

图4为曲线1和曲线2匹配示意图，假设两曲线的坐标长度为L，将曲线起点重合在一起定义为点O，OA和OB分别表示两曲线的向量方向。曲线匹配方法是旋转OA使与OB重合，然后计算曲线上对应像素之间的弧线距离，采用公式(3)-(6)进行计算。理想情况下正确碎片对之间的曲线距离D＝0，但由于点O位置未知，曲线上的所有点均有可能为O，因此两碎片间的曲线匹配将有多个结果，其中正确结果应该使得曲线间距离最小，即D＝min{D_o1,D_o2,D_o3,…}，其中D_o1,D_o2,D_o3表示O点在不同位置情况下的曲线距离。在计算曲线匹配时应逐沿着一条曲线并逐一像素的移动另一曲线进行匹配，并计算曲线间距离。

图5给出曲线匹配后两碎片拼接的例子，使碎片轮廓曲线的方向向量OA和OB重合，两碎片图像能正确拼接。

4)信息对齐

a)文本线对齐：当两碎片进行曲线匹配时，将一碎片沿着另一碎片方向移动，每对齐一次文本线就计算一次曲线距离，直到完成所有文本线的对齐。假设两个碎片上的文本线个数分别为M和N，则曲线匹配须计算M+N-1次，即得到M+N-1个曲线距离。当碎片上文本线的宽度大于1个像素时，通过对齐文本线的中心位置来完成。

b)字符、图形和颜色信息对齐

本发明使用矩形窗遍历方法对字符和图形信息对齐：粉碎文件时，一个字符可能被分割为两个或者多个区域，并存在于碎片边缘，利用这些信息可获得正确的匹配结果。本发明使用以轮廓曲线像素为中心大小为10×20像素的矩形滑动窗在轮廓曲线上进行遍历搜索，矩形窗中心位置为碎片轮廓曲线上的像素，如果矩形中心两侧均存在字符信息，则认为这两个曲线在该处的字符信息是对齐的；图形信息对齐与字符信息对齐相同；图6为字符信息对齐示意图，当碎片拼接之后，建立矩形窗，并沿着碎片边缘遍历所有碎片相接触的轮廓曲线像素，如果字符信息均能得到对齐，说明两碎片的字符信息是对齐的。

c)颜色信息对齐：有时粉碎文件上存在较大区域的污迹，污迹颜色与文件背景颜色不同，因此，该颜色信息对齐可用于碎片匹配。利用公式(7)计算颜色信息重合率，当颜色信息重合率大于一定阈值时，认为两碎片的颜色信息是对齐的；本发明中，颜色信息重合率选择0.7作为阈值，如果碎片图像中存在多个颜色时，颜色的对齐率将会得到分别计算。图7给出颜色信息对齐示意图，当两碎片拼接之后，计算颜色信息重合率，图中箭头区域分别表示两个碎片的颜色信息区域，该碎片对的颜色信息重合率为0.93。

5)碎片对选择

碎片对选择的策略是将任意碎片与其余碎片进行匹配，在信息对齐过程中排除所有无法进行信息对齐的匹配情况，并返回所有可能匹配情况的曲线距离，将曲线距离按照升序排列，在所列出的碎片对中选择正确的匹配结果。

6)碎片图像重构

图像重构是利用已选择的碎片对匹配信息，对整个粉碎文件进行拼接重构。在重构过程中应考虑碎片拼接顺序及拼接过程中对空间位置关系变化的调整。碎片图像拼接具体步骤如图8所示，第一步：假设首次选择碎片1，将其复制到全局图像中，搜索匹配信息发现碎片1与碎片2或3进行匹配，将碎片2或3拼接到全局图像的碎片1上；第二步：选择与碎片2或3进行匹配，且没有出现在全局图像中的碎片，为碎片5，7或8，将此三个碎片拼接到全局图像中；第三步将重复第二步的工作直到所有选择的碎片对被拼接到全局图像中，最后全局图像即为碎片图像的重构。图9为DARPA数据集中题目2的重构结果，本发明只选择带有信息的碎片进行匹配，对于文件边缘的空白碎片不予考虑。

综上所述，本发明选取DARPA数据集中题目2用于实验。首先，对文件碎片扫描图像进行预处理，包括碎片分割，倾斜矫正和信息提取；其次，利用角度符号累积和计算碎片方向；第三，通过计算曲线间距离对曲线进行匹配，在匹配过程中利用文本线、字符、颜色和图形信息对齐排除错误的匹配；第四，将得到的匹配碎片对按照曲线距离升序排列，选择正确的碎片对；最后，通过图像拼接重构文件图像。

实验结果证明，本发明能够在碎片数量多达363片情况下重构文件图像，且碎片尺寸小，碎片形状相似度大。重构方法易于实现，对于不具有专业取证知识的人员，也可以利用此技术进行粉碎文件重构工作。

Claims

1.一种利用曲线匹配和信息对齐的粉碎文件重构方法，其特征是，重构方法利用曲线匹配和信息对齐进行文件碎片拼接，提取每个碎片的轮廓曲线信息，通过计算两曲线间的距离判断曲线间的相似性，进而寻找相邻碎片；判断碎片方向，减少不必要的匹配；在曲线匹配过程中，通过对碎片文本线、字符、颜色和图形信息的对齐来排除错误匹配；通过碎片对的选择得到正确的碎片对，并通过所选碎片对的匹配信息完成粉碎文件重构；具体步骤如下：

1)扫描粉碎文件及碎片图像预处理

a)碎片图像分割

b)碎片图像倾斜校正

c)碎片图像信息提取

2)碎片图像方向检测：

SignAngle = sgn (| \begin{matrix} x_{A} & y_{A} & 1 \\ x_{B} & y_{B} & 1 \\ x_{C} & y_{C} & 1 \end{matrix} |) - - - (1)

SumSignAngle = \underset{n}{Σ} (SignAngle) - - - (2)

其中，N为碎片短边包含的像素数；

为减小碎片方向检测的错误率，本发明对碎片方向的检测结果做出规定：

如果则碎片为正向，如果则碎片为反向，其余情况均判断为未知方向；

3)曲线匹配方法

D = mean (Σ_{x = 0}^{L} | C_{x} D_{x} - C_{x}^{'} D_{x}^{'} |) - - - (3)

OA和OB之间的夹角为α，则弧线C_xD_x的长度为：

C_xD_x＝α·x (4)

同理，弧线C′_xD′_x的长度为：

C′_xD′＝α′·x (5)

将式(4)和(5)带入(3)中，得到曲线距离为：

D = mean (Σ_{x = 0}^{L} x \cdot | α - α_{x}^{'} |) - - - (6)

理想情况下正确碎片对之间的曲线距离D＝0，但由于点O位置未知，曲线上的所有点均有可能为O，因此，两碎片间的曲线匹配将有多个结果，其中，正确结果应该使得曲线间距离最小，即D＝min{D_o1,D_o2,D_o3,···}，其中D_o1,D_o2,D_o3表示O点在不同位置情况下的曲线距离；在计算曲线匹配时应逐沿着一条曲线并逐一像素的移动另一曲线进行匹配，并计算曲线间距离；

4)信息对齐

b)字符和图形信息对齐：本发明使用矩形窗遍历方法对字符和图形信息对齐，粉碎文件时，一个字符可能被分割为两个或者多个区域，并存在于碎片边缘，利用这些信息可获得正确的匹配结果；由于文件粉碎时带来的碎片形变，使碎片边缘存在重叠区域，本发明使用以轮廓曲线像素为中心的矩形滑动窗在轮廓曲线上进行遍历搜索，矩形窗中心位置为碎片轮廓曲线上的像素，如果矩形中心两侧均存在字符信息，则认为这两个曲线在该处的字符信息是对齐的；图形信息对齐与字符信息对齐相同；

R = \min (\frac{N}{N_{1}}, \frac{N}{N_{2}}) - - - (7)

5)碎片对选择

6)粉碎图像重构