CN105303199A

CN105303199A - 一种基于内容特征和K-means的数据碎片类型识别方法

Info

Publication number: CN105303199A
Application number: CN201510896005.1A
Authority: CN
Inventors: 傅德胜; 经正俊
Original assignee: Nanjing University of Information Science and Technology
Current assignee: Nanjing University of Information Science and Technology
Priority date: 2015-12-08
Filing date: 2015-12-08
Publication date: 2016-02-03

Abstract

一种基于内容特征和K-means的数据碎片类型识别方法，所采取的识别方法为：通过提取数据碎片的PCA-LDA特征，以此作为特征向量，利用K-means分类器对数据碎片类型进行分类识别。一方面利用PCA-LDA能够对数据碎片的特征进行很好的刻画，有利于提高识别的准确度；另一方面利用K-means分类器进行分类识别能够提高识别效率，从而提高了数据碎片的识别的精度和速度。

Description

一种基于内容特征和K-means的数据碎片类型识别方法

技术领域

本发明属于电子取证领域，具体涉及一种基于内容特征和K-means的数据碎片类型识别方法。

背景技术

在计算机取证中，取证人员常会遇到数据碎片问题，由于数据碎片位于存储介质的底层，且其元信息遭到丢失或损坏，一般的基于扩展名和魔术的识别方法对其失效，不能够对数据碎片类型进行正确的识别，从而对后续的数据恢复等工作造成困难。

如何对当前已知的数据类型的数据碎片进行自动化分析并提取其特征，用于对未知类型的数据块(可能为整个文件,也可能为数据碎片)的分类及检测，已经成为目前国内外研究的热点和难点问题之一,亟需在数据碎片类型识别的精度及速度上有所突破。

在现有的数据碎片分类识别算法中，主要方法有基于字节频率的分布特征识别法(许潭潭.基于内容的数据碎片类型识别技术研究[D].杭州电子科技大学,2014.)，基于统计量特征识别法(曹鼎,罗军勇.改进的基于内容的文件类型识别算法[J].计算机工程与设计,2012,32(12):4246-4250.)等。基于字节频率的分布特征识别法基本思想是通过统计数据碎片中字节的频率分布(ByteFrequencyDistribution,BFD)直方图作为特征向量进行识别，Xu等^[1]通过离散余弦变换(DiscreteCosineTransform，DCT)利用中低频系数和BFD作为特征向量进行识别较好地提高了识别精度。基于统计量特征的识别方法的基本思想是利用数据碎片的统计量(如均值、标准差、峰值等)进行分析识别。曹鼎等^[2]将定长和变长元组运用于统计特征中，有效的提高了识别的准确率，但是其实验数据集也只有四种类型，实验数据集过小。

以上数据碎片类型的识别方法中，由于在特征选取上对数据碎片的描述不够，导致不能够很好识别碎片类型，此外很多作者实验是局限在较小的私有数据集上进行，实验效果的有效性难以保证。

发明内容

发明的目的是将基于内容特征和K-means理论应用于数据碎片的取证分析中，提高识别的准确度和识别效率，提升电子取证水平与能力。

本方法中涉及的主要技术：

[1]PCA-LDA技术：PCA即主成分分析技术其旨在利用降维的思想，把多指标转化为少数几个综合指标。LDA即线性鉴别分析，其基本思想是将高维的模式样本投影到最佳鉴别矢量空间，以达到抽取分类信息和压缩特征空间维数的效果。由于LDA方法采用了使得样本能够正确分类识别的先验知识，即寻找最优投影方向，使得投影后向量的类间离散度矩阵和类内离散度矩阵的比率最大化，能够提高识别率。

[2]K-means聚类算法：1967年，MacQueend等总结了Cox、Fisher等的研究成果提出了K-means聚类算法。K-means算法是一种很典型的基于距离的聚类算法，采用距离作为相似性的评价指标，即认为两个对象的距离越近,其相似度就越高。K-means算法在每次迭代中都要检测每个样本是否分类准确，否则就需要调整。如果在一次迭代算法中，所有数据对象被准确分类，则不需要再调整，聚类中心也不再改变，这标志着聚类准则函数收敛。

K-means算法的核心思想是将n个数据对象划分成K个簇，每个簇中的数据对象的相似度较高，不同簇之间的数据对象的相似度较低，即簇内紧凑，簇间独立。该算法处理过程如下：

(1)从数据集中随机选择k个对象,每一个对象作为一个初始簇的中心；

(2)将其他数据对象分配到距离其最近的各个簇中；

(3)每一个簇计算其所有对象的平均值,作为该簇的新的中心；

(4)重复步骤2和3直到目标函数收敛。

所以在应用过程中只需要定义合适的距离计算方法即可非常方便地将K-means算法转化为计算机可执行程序进行上机运行，所以K-means聚类算法是目前对集合元素进行分类的常用方法。

技术方案

1、一种基于内容特征和K-means的数据碎片类型识别方法，包括以下步骤：

[1]将数据碎片按照字节为单位转换成十进制数，并按照8*8大小进行分块。

[2]对分块后的数据碎片利用主PCA在投影方向上提取特征向量，首先按照公式(a)计算样本协方差矩阵

S = \frac{1}{M - 1} Σ_{i = 1}^{M} (X_{i} - u) {(X_{i} - u)}^{T} - - - (a)

其中即为样本均值。

[3]选取S中前t个最大特征值组成特征向量U，如式(b)所示：

U＝[U₁,U₂,...,U_t](b)

[4]计算t维特征空间类间离散度，如式(c)所示：

S_{b} = Σ_{i = 1}^{L} P (i) (u_{i} - u) {(u_{i} - u)}^{T} - - - (c)

其中P(i)为先验概率，其中u为所有样本向量的均值向量，u_i为第i个样本类别的均值向量。

[5]计算t维特征空间类内离散度，如式(d)所示：

S_{w} = Σ_{i = 1}^{L} \underset{X_{i} &Element; w_{k}}{Σ} (u_{i} - X_{i}) {(u_{i} - X_{i})}^{T} - - - (d)

[6]求解矩阵的特征值，选取l个最大特征值组成的向量为组合特征向量V，如式(e)所示：

V＝[V₁,V₂,...,V_l](e)

[7]对样本图像特征向量集合V_N中随机选取k个向量作为中心向量。

[8]采用欧式距离公式如式(f)所示，分别计算V_N中各向量到各中心向量之间的距离，按照最小距离原则进行聚类。

d (i, j) = \sqrt{{(v_{i, 1} - v_{j, 1})}^{2} + {(v_{i, 2} - v_{j, 2})}^{2} + ... + {(v_{i, p} - v_{j, p})}^{2}} - - - (f)

其中v_i,p代表集合V_N中第i个向量的第p个元素。

[9]根据(2)中的聚类结果，计算各簇内样本的均值作为新的中心向量。

[10]根据更新后的中心点，按照最小距离原则再次进行聚类划分。

[11]重复上述步骤，直到前后两次聚类后的聚类中心相同时停止运算。

有益效果

提供一种具有抗攻击性的数据碎片类型识别方法，为提升数据恢复技术水平与能力服务。

本发明与现有方法相比具有以下优点:

[1]利用PCA-LDA能够对数据碎片的特征进行很好的刻画，克服了现有方法中特征选取上对数据碎片的描述不够，导致不能够很好识别碎片类型的问题，进而提高了识别的准确度；

[2]利用K-means分类器进行分类识别能够提高识别效率，从而提高了数据碎片的识别的精度和速度，并且采用公开数据集进行测试，与现有方法相比结果更加具有可靠性。

附图说明

图1为算法流程图。

具体实施方式

[1]选取公共的数据集govdocs1为测试数据集，实验中共选取了30种不同类型的文件进行测试，文件类型如表1所示：

表1实验中测试文件类型

TXT	DOC	DOCX	PPT	PPTX	BMP
						CSV	EPS	TIF	JPEG	PNG	HTML
GZ	JAVA	LOG	PDF	PS	PUB
						RTF	TEX	SQL	PPM	XML	WP
XLS	XLSX	XBM	TTF	SWF	GIF

[2]在实验中，每种类型随机选取10个以上的文件进行碎片化，碎片的大小以1024字节为标准，并保证碎片化后每种类型的文件含有5000个以上的碎片，然后再从中选取1000个数据碎片进行实验。

[3]将实验数据分为训练样本和测试样本两部分，两者互不包含。

[4]对训练样本中的数据碎片进行分块处理，将二进制bit按照字节为单位转换为十进制数，并进行8*8分块。

[5]计算训练样本分块后数据碎片的PCA-LDA特征作为特征向量。

[6]对训练样本数据的PCA-LDA特征向量进行聚类处理。

[7]对测试样本中的数据碎片进行分块处理，将二进制bit按照字节为单位转换为十进制数，并进行8*8分块。

[8]计算测试样本分块后数据碎片的PCA-LDA特征作为特征向量。

[9]利用[0030]中获得的聚类结果对测试样本的特征向量进行识别，获得最终识别结果。

本发明具有以下优点:

[1]利用PCA-LDA能够对数据碎片的特征进行很好的刻画，有利于提高识别的准确度；

[2]利用K-means分类器进行分类识别能够提高识别效率，从而提高了数据碎片的识别的精度和速度。

Claims

1.一种基于Krawtchouk矩和KNN-SMO分类器的密级标志识别方法，其特征在于，包括以下步骤：

(1)对密级标识图像按照式(a)进行灰度化，以减少不必要的干扰和降低处理的复杂度；设图像灰度f(x,y)∈[c₁,c₂]，若令集合则可以通过判断像素值是否在集合C中进行分类：

f (x, y) = \{\begin{matrix} a & f (x, y) &Element; C \\ b & f (x, y) &NotElement; C \end{matrix} - - - (a)

通过选定适当的a,b值就可以对图像的灰度化分割，实现图像的增强，达到拉伸图像的效果增加图像对比度；

(2)对灰度化后的图像进行去噪，采取3*3或者5*5的均值滤波法进行去噪，去除干扰信息的影响；

(3)将灰度化后的图像进行反相操作，使字符区域呈现为白色，背景区域呈现为黑色，使得文字轮廓与背景色对比更加强烈，有利于观察文字特征，然后利用全局阈值法对反相后的按照式(b)进行二值化：

f (x, y) = \{\begin{matrix} 255 & f (x, y) \leq T \\ 0 & f (x, y) > T \end{matrix} - - - (b)

(4)对二值化后的图像采用Hough变换方法进行倾斜校正，通过把直线从图像空间转换到参数空间，求得参数空间局部极大值获得图像文字的倾斜角；

(5)利用垂直投影法进行文字行切分以及基于回溯的最大宽度法进行单个字符的切分，最终得到包含每一个字符的文字序列；

(6)对每个字符进行细化，提取文字的骨架，使各个笔划均由宽度为1个像素的形式表示；

(7)对图像进行大小归一化和位置归一化，得到大小为N×N的图像，并使得待识别内容位于图像中心；

(8)计算图像的Krawcthouk矩分别选取两个1阶Krawcthouk矩、两个2阶Krawcthouk矩和四个3阶Krawcthouk矩构造图像的特征向量V＝(KMI_0,1,KMI_1,0,KMI_0,2,KMI_2,0,KMI_0,3,KMI_3,0,KMI_1,2,KMI_2,1)作为密级图像的特征；

(9)构造KNN-SMO分类器，利用KNN算法对训练集进行修剪,根据每个样本与其最近邻的K的样本的类别的异同决定其取舍，利用SMO算法进行训练；

(10)将数据集分为训练集和测试集，利用构造的KNN-SMO分类器对密级标识图像进行识别，获取密级标识信息。