CN105303199A - 一种基于内容特征和K-means的数据碎片类型识别方法 - Google Patents

一种基于内容特征和K-means的数据碎片类型识别方法 Download PDF

Info

Publication number
CN105303199A
CN105303199A CN201510896005.1A CN201510896005A CN105303199A CN 105303199 A CN105303199 A CN 105303199A CN 201510896005 A CN201510896005 A CN 201510896005A CN 105303199 A CN105303199 A CN 105303199A
Authority
CN
China
Prior art keywords
image
kmi
data fragment
carried out
identification
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201510896005.1A
Other languages
English (en)
Inventor
傅德胜
经正俊
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nanjing University of Information Science and Technology
Original Assignee
Nanjing University of Information Science and Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nanjing University of Information Science and Technology filed Critical Nanjing University of Information Science and Technology
Priority to CN201510896005.1A priority Critical patent/CN105303199A/zh
Publication of CN105303199A publication Critical patent/CN105303199A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/23Clustering techniques
    • G06F18/232Non-hierarchical techniques
    • G06F18/2321Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions
    • G06F18/23213Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions with fixed number of clusters, e.g. K-means clustering
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2413Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on distances to training or reference patterns

Landscapes

  • Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Probability & Statistics with Applications (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

一种基于内容特征和K-means的数据碎片类型识别方法,所采取的识别方法为:通过提取数据碎片的PCA-LDA特征,以此作为特征向量,利用K-means分类器对数据碎片类型进行分类识别。一方面利用PCA-LDA能够对数据碎片的特征进行很好的刻画,有利于提高识别的准确度;另一方面利用K-means分类器进行分类识别能够提高识别效率,从而提高了数据碎片的识别的精度和速度。

Description

一种基于内容特征和K-means的数据碎片类型识别方法
技术领域
本发明属于电子取证领域,具体涉及一种基于内容特征和K-means的数据碎片类型识别方法。
背景技术
在计算机取证中,取证人员常会遇到数据碎片问题,由于数据碎片位于存储介质的底层,且其元信息遭到丢失或损坏,一般的基于扩展名和魔术的识别方法对其失效,不能够对数据碎片类型进行正确的识别,从而对后续的数据恢复等工作造成困难。
如何对当前已知的数据类型的数据碎片进行自动化分析并提取其特征,用于对未知类型的数据块(可能为整个文件,也可能为数据碎片)的分类及检测,已经成为目前国内外研究的热点和难点问题之一,亟需在数据碎片类型识别的精度及速度上有所突破。
在现有的数据碎片分类识别算法中,主要方法有基于字节频率的分布特征识别法(许潭潭.基于内容的数据碎片类型识别技术研究[D].杭州电子科技大学,2014.),基于统计量特征识别法(曹鼎,罗军勇.改进的基于内容的文件类型识别算法[J].计算机工程与设计,2012,32(12):4246-4250.)等。基于字节频率的分布特征识别法基本思想是通过统计数据碎片中字节的频率分布(ByteFrequencyDistribution,BFD)直方图作为特征向量进行识别,Xu等[1]通过离散余弦变换(DiscreteCosineTransform,DCT)利用中低频系数和BFD作为特征向量进行识别较好地提高了识别精度。基于统计量特征的识别方法的基本思想是利用数据碎片的统计量(如均值、标准差、峰值等)进行分析识别。曹鼎等[2]将定长和变长元组运用于统计特征中,有效的提高了识别的准确率,但是其实验数据集也只有四种类型,实验数据集过小。
以上数据碎片类型的识别方法中,由于在特征选取上对数据碎片的描述不够,导致不能够很好识别碎片类型,此外很多作者实验是局限在较小的私有数据集上进行,实验效果的有效性难以保证。
发明内容
发明的目的是将基于内容特征和K-means理论应用于数据碎片的取证分析中,提高识别的准确度和识别效率,提升电子取证水平与能力。
本方法中涉及的主要技术:
[1]PCA-LDA技术:PCA即主成分分析技术其旨在利用降维的思想,把多指标转化为少数几个综合指标。LDA即线性鉴别分析,其基本思想是将高维的模式样本投影到最佳鉴别矢量空间,以达到抽取分类信息和压缩特征空间维数的效果。由于LDA方法采用了使得样本能够正确分类识别的先验知识,即寻找最优投影方向,使得投影后向量的类间离散度矩阵和类内离散度矩阵的比率最大化,能够提高识别率。
[2]K-means聚类算法:1967年,MacQueend等总结了Cox、Fisher等的研究成果提出了K-means聚类算法。K-means算法是一种很典型的基于距离的聚类算法,采用距离作为相似性的评价指标,即认为两个对象的距离越近,其相似度就越高。K-means算法在每次迭代中都要检测每个样本是否分类准确,否则就需要调整。如果在一次迭代算法中,所有数据对象被准确分类,则不需要再调整,聚类中心也不再改变,这标志着聚类准则函数收敛。
K-means算法的核心思想是将n个数据对象划分成K个簇,每个簇中的数据对象的相似度较高,不同簇之间的数据对象的相似度较低,即簇内紧凑,簇间独立。该算法处理过程如下:
(1)从数据集中随机选择k个对象,每一个对象作为一个初始簇的中心;
(2)将其他数据对象分配到距离其最近的各个簇中;
(3)每一个簇计算其所有对象的平均值,作为该簇的新的中心;
(4)重复步骤2和3直到目标函数收敛。
所以在应用过程中只需要定义合适的距离计算方法即可非常方便地将K-means算法转化为计算机可执行程序进行上机运行,所以K-means聚类算法是目前对集合元素进行分类的常用方法。
技术方案
1、一种基于内容特征和K-means的数据碎片类型识别方法,包括以下步骤:
[1]将数据碎片按照字节为单位转换成十进制数,并按照8*8大小进行分块。
[2]对分块后的数据碎片利用主PCA在投影方向上提取特征向量,首先按照公式(a)计算样本协方差矩阵
S = 1 M - 1 Σ i = 1 M ( X i - u ) ( X i - u ) T - - - ( a )
其中即为样本均值。
[3]选取S中前t个最大特征值组成特征向量U,如式(b)所示:
U=[U1,U2,...,Ut](b)
[4]计算t维特征空间类间离散度,如式(c)所示:
S b = Σ i = 1 L P ( i ) ( u i - u ) ( u i - u ) T - - - ( c )
其中P(i)为先验概率,其中u为所有样本向量的均值向量,ui为第i个样本类别的均值向量。
[5]计算t维特征空间类内离散度,如式(d)所示:
S w = Σ i = 1 L Σ X i ∈ w k ( u i - X i ) ( u i - X i ) T - - - ( d )
[6]求解矩阵的特征值,选取l个最大特征值组成的向量为组合特征向量V,如式(e)所示:
V=[V1,V2,...,Vl](e)
[7]对样本图像特征向量集合VN中随机选取k个向量作为中心向量。
[8]采用欧式距离公式如式(f)所示,分别计算VN中各向量到各中心向量之间的距离,按照最小距离原则进行聚类。
d ( i , j ) = ( v i , 1 - v j , 1 ) 2 + ( v i , 2 - v j , 2 ) 2 + ... + ( v i , p - v j , p ) 2 - - - ( f )
其中vi,p代表集合VN中第i个向量的第p个元素。
[9]根据(2)中的聚类结果,计算各簇内样本的均值作为新的中心向量。
[10]根据更新后的中心点,按照最小距离原则再次进行聚类划分。
[11]重复上述步骤,直到前后两次聚类后的聚类中心相同时停止运算。
有益效果
提供一种具有抗攻击性的数据碎片类型识别方法,为提升数据恢复技术水平与能力服务。
本发明与现有方法相比具有以下优点:
[1]利用PCA-LDA能够对数据碎片的特征进行很好的刻画,克服了现有方法中特征选取上对数据碎片的描述不够,导致不能够很好识别碎片类型的问题,进而提高了识别的准确度;
[2]利用K-means分类器进行分类识别能够提高识别效率,从而提高了数据碎片的识别的精度和速度,并且采用公开数据集进行测试,与现有方法相比结果更加具有可靠性。
附图说明
图1为算法流程图。
具体实施方式
[1]选取公共的数据集govdocs1为测试数据集,实验中共选取了30种不同类型的文件进行测试,文件类型如表1所示:
表1实验中测试文件类型
TXT DOC DOCX PPT PPTX BMP
CSV EPS TIF JPEG PNG HTML
GZ JAVA LOG PDF PS PUB
RTF TEX SQL PPM XML WP
XLS XLSX XBM TTF SWF GIF
[2]在实验中,每种类型随机选取10个以上的文件进行碎片化,碎片的大小以1024字节为标准,并保证碎片化后每种类型的文件含有5000个以上的碎片,然后再从中选取1000个数据碎片进行实验。
[3]将实验数据分为训练样本和测试样本两部分,两者互不包含。
[4]对训练样本中的数据碎片进行分块处理,将二进制bit按照字节为单位转换为十进制数,并进行8*8分块。
[5]计算训练样本分块后数据碎片的PCA-LDA特征作为特征向量。
[6]对训练样本数据的PCA-LDA特征向量进行聚类处理。
[7]对测试样本中的数据碎片进行分块处理,将二进制bit按照字节为单位转换为十进制数,并进行8*8分块。
[8]计算测试样本分块后数据碎片的PCA-LDA特征作为特征向量。
[9]利用[0030]中获得的聚类结果对测试样本的特征向量进行识别,获得最终识别结果。
本发明具有以下优点:
[1]利用PCA-LDA能够对数据碎片的特征进行很好的刻画,有利于提高识别的准确度;
[2]利用K-means分类器进行分类识别能够提高识别效率,从而提高了数据碎片的识别的精度和速度。

Claims (1)

1.一种基于Krawtchouk矩和KNN-SMO分类器的密级标志识别方法,其特征在于,包括以下步骤:
(1)对密级标识图像按照式(a)进行灰度化,以减少不必要的干扰和降低处理的复杂度;设图像灰度f(x,y)∈[c1,c2],若令集合则可以通过判断像素值是否在集合C中进行分类:
f ( x , y ) = a f ( x , y ) ∈ C b f ( x , y ) ∉ C - - - ( a )
通过选定适当的a,b值就可以对图像的灰度化分割,实现图像的增强,达到拉伸图像的效果增加图像对比度;
(2)对灰度化后的图像进行去噪,采取3*3或者5*5的均值滤波法进行去噪,去除干扰信息的影响;
(3)将灰度化后的图像进行反相操作,使字符区域呈现为白色,背景区域呈现为黑色,使得文字轮廓与背景色对比更加强烈,有利于观察文字特征,然后利用全局阈值法对反相后的按照式(b)进行二值化:
f ( x , y ) = 255 f ( x , y ) ≤ T 0 f ( x , y ) > T - - - ( b )
(4)对二值化后的图像采用Hough变换方法进行倾斜校正,通过把直线从图像空间转换到参数空间,求得参数空间局部极大值获得图像文字的倾斜角;
(5)利用垂直投影法进行文字行切分以及基于回溯的最大宽度法进行单个字符的切分,最终得到包含每一个字符的文字序列;
(6)对每个字符进行细化,提取文字的骨架,使各个笔划均由宽度为1个像素的形式表示;
(7)对图像进行大小归一化和位置归一化,得到大小为N×N的图像,并使得待识别内容位于图像中心;
(8)计算图像的Krawcthouk矩分别选取两个1阶Krawcthouk矩、两个2阶Krawcthouk矩和四个3阶Krawcthouk矩构造图像的特征向量V=(KMI0,1,KMI1,0,KMI0,2,KMI2,0,KMI0,3,KMI3,0,KMI1,2,KMI2,1)作为密级图像的特征;
(9)构造KNN-SMO分类器,利用KNN算法对训练集进行修剪,根据每个样本与其最近邻的K的样本的类别的异同决定其取舍,利用SMO算法进行训练;
(10)将数据集分为训练集和测试集,利用构造的KNN-SMO分类器对密级标识图像进行识别,获取密级标识信息。
CN201510896005.1A 2015-12-08 2015-12-08 一种基于内容特征和K-means的数据碎片类型识别方法 Pending CN105303199A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201510896005.1A CN105303199A (zh) 2015-12-08 2015-12-08 一种基于内容特征和K-means的数据碎片类型识别方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201510896005.1A CN105303199A (zh) 2015-12-08 2015-12-08 一种基于内容特征和K-means的数据碎片类型识别方法

Publications (1)

Publication Number Publication Date
CN105303199A true CN105303199A (zh) 2016-02-03

Family

ID=55200441

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201510896005.1A Pending CN105303199A (zh) 2015-12-08 2015-12-08 一种基于内容特征和K-means的数据碎片类型识别方法

Country Status (1)

Country Link
CN (1) CN105303199A (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106202480A (zh) * 2016-07-19 2016-12-07 淮阴工学院 一种基于K‑means和LDA双向验证的网络行为习惯聚类方法
CN107729591A (zh) * 2016-08-10 2018-02-23 格罗方德半导体股份有限公司 使用无监督机器学习的自动全芯片设计空间采样
WO2021093857A1 (zh) * 2019-11-14 2021-05-20 深圳前海微众银行股份有限公司 特征聚类处理方法、集群服务器及可读存储介质

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20070211964A1 (en) * 2006-03-09 2007-09-13 Gad Agam Image-based indexing and classification in image databases
CN101901346A (zh) * 2010-05-06 2010-12-01 复旦大学 一种对彩色数字图像进行不良内容识别的方法
CN103093236A (zh) * 2013-01-15 2013-05-08 北京工业大学 一种基于图像语义分析的移动终端色情过滤方法
CN104504161A (zh) * 2015-01-21 2015-04-08 北京智富者机器人科技有限公司 一种基于机器人视觉平台的图像检索方法
CN105512682A (zh) * 2015-12-07 2016-04-20 南京信息工程大学 一种基于Krawtchouk矩和KNN-SMO分类器的密级标识识别方法

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20070211964A1 (en) * 2006-03-09 2007-09-13 Gad Agam Image-based indexing and classification in image databases
CN101901346A (zh) * 2010-05-06 2010-12-01 复旦大学 一种对彩色数字图像进行不良内容识别的方法
CN103093236A (zh) * 2013-01-15 2013-05-08 北京工业大学 一种基于图像语义分析的移动终端色情过滤方法
CN104504161A (zh) * 2015-01-21 2015-04-08 北京智富者机器人科技有限公司 一种基于机器人视觉平台的图像检索方法
CN105512682A (zh) * 2015-12-07 2016-04-20 南京信息工程大学 一种基于Krawtchouk矩和KNN-SMO分类器的密级标识识别方法

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106202480A (zh) * 2016-07-19 2016-12-07 淮阴工学院 一种基于K‑means和LDA双向验证的网络行为习惯聚类方法
CN106202480B (zh) * 2016-07-19 2019-06-11 淮阴工学院 一种基于K-means和LDA双向验证的网络行为习惯聚类方法
CN107729591A (zh) * 2016-08-10 2018-02-23 格罗方德半导体股份有限公司 使用无监督机器学习的自动全芯片设计空间采样
WO2021093857A1 (zh) * 2019-11-14 2021-05-20 深圳前海微众银行股份有限公司 特征聚类处理方法、集群服务器及可读存储介质

Similar Documents

Publication Publication Date Title
CN102663100B (zh) 一种两阶段混合粒子群优化聚类方法
Jiang et al. Distance measures for image segmentation evaluation
Khan et al. Iris Recognition Using Image Moments and k‐Means Algorithm
CN102663431B (zh) 一种基于区域加权的图像匹配计算方法
Hassaïne et al. A set of geometrical features for writer identification
CN103699523A (zh) 产品分类方法和装置
CN104239553A (zh) 一种基于Map-Reduce框架的实体识别方法
CN106909946A (zh) 一种多模态融合的商品分类系统
CN109657011A (zh) 一种筛选恐怖袭击事件犯罪团伙的数据挖掘方法及系统
CN104794496A (zh) 一种改进mRMR算法的遥感特征优选算法
US11281714B2 (en) Image retrieval
CN112579783B (zh) 基于拉普拉斯图谱的短文本聚类方法
Wen et al. Fragmented edge structure coding for Chinese writer identification
Gordo et al. Document classification and page stream segmentation for digital mailroom applications
CN105303199A (zh) 一种基于内容特征和K-means的数据碎片类型识别方法
CN103246877B (zh) 基于图像轮廓的人脸识别新方法
Chaabouni et al. Static and dynamic features for writer identification based on multi-fractals.
Xu et al. A File Fragment Classification Method Based on Grayscale Image.
CN112417152A (zh) 涉案舆情的话题检测方法和装置
CN103440292B (zh) 基于比特向量的多媒体信息检索方法和系统
CN102902984B (zh) 基于局部一致性的遥感影像半监督投影降维方法
Mohammed et al. Improvement in twins handwriting identification with invariants discretization
CN103955676B (zh) 一种人脸识别方法及系统
CN115309891A (zh) 一种文本分类方法、装置、设备及计算机存储介质
De Araujo et al. Automatic cluster labeling based on phylogram analysis

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
WD01 Invention patent application deemed withdrawn after publication

Application publication date: 20160203

WD01 Invention patent application deemed withdrawn after publication