CN105512682A - 一种基于Krawtchouk矩和KNN-SMO分类器的密级标识识别方法 - Google Patents

一种基于Krawtchouk矩和KNN-SMO分类器的密级标识识别方法 Download PDF

Info

Publication number
CN105512682A
CN105512682A CN201510890894.0A CN201510890894A CN105512682A CN 105512682 A CN105512682 A CN 105512682A CN 201510890894 A CN201510890894 A CN 201510890894A CN 105512682 A CN105512682 A CN 105512682A
Authority
CN
China
Prior art keywords
image
smo
knn
kmi
classifier
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201510890894.0A
Other languages
English (en)
Other versions
CN105512682B (zh
Inventor
傅德胜
经正俊
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shenzhen yuan Material Technology Group Co.,Ltd.
Original Assignee
Nanjing University of Information Science and Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nanjing University of Information Science and Technology filed Critical Nanjing University of Information Science and Technology
Priority to CN201510890894.0A priority Critical patent/CN105512682B/zh
Publication of CN105512682A publication Critical patent/CN105512682A/zh
Application granted granted Critical
Publication of CN105512682B publication Critical patent/CN105512682B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/74Image or video pattern matching; Proximity measures in feature spaces
    • G06V10/75Organisation of the matching processes, e.g. simultaneous or sequential comparisons of image or video features; Coarse-fine approaches, e.g. multi-scale approaches; using context analysis; Selection of dictionaries
    • G06V10/758Involving statistics of pixels or of feature values, e.g. histogram matching
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2413Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on distances to training or reference patterns
    • G06F18/24147Distances to closest patterns, e.g. nearest neighbour classification

Abstract

一种基于Krawtchouk矩和KNN-SMO分类器的密级标识识别方法,所采取的识别方法为:将基于Krawtchouk矩和KNN-SMO的理论运用于电子取证中的密级标识的识别中,该方法首先通过对密级标识进行图像预处理后,通过计算图像的低阶Krawtchouk矩组成特征向量,然后利用KNN-SMO分类器对密级标识图片进行分类识别。一方面利用低阶Krawtchouk矩能够对图像的特征进行很好地刻画,且量在常见的攻击下具有很好的稳定性,另一方面运用KNN-SMO组合分类器使得分类器既具有KNN快速分类的能力也拥有SMO在克服小样本问题上的优势,从而提高了密级标识识别精度与速度。

Description

一种基于Krawtchouk矩和KNN-SMO分类器的密级标识识别方法
技术领域
本发明属于电子取证领域,具体涉及一种基于Krawtchouk矩和KNN-SMO分类器的密级标志识别方法。
背景技术
在电子取证中,在完成对涉密文件的检索后,需要对涉密文件的密级标识进行进一步的识别,将检查的结果以记录的形成日志,作为取证的证据。
现有的识别方法,常见的方法有模板匹配法(AravindaCV,PrakashHN.TemplatematchingmethodforKannadaHandwrittenrecognitionbasedoncorrelationanalysis[C]//ContemporaryComputingandInformatics(IC3I),2014InternationalConferenceon.IEEE,2014:857-861.)
、字符特征统计法(DasS,jyotiChoudhuryS,DasAK,etal.SelectionofGraph-BasedFeaturesforCharacterRecognitionUsingSimilarityBasedFeatureDependencyandRoughSetTheory[M]//RecentAdvancesinInformationTechnology.SpringerIndia,2014:57-64.)
和神经网络法(杨天长.基于神经网络的文字识别技术研究及应用[D].北方工业大学,2013.)等。模版匹配法基本思想是将待识别图像与模板图像进行直接或间接(对待识别图像进行一定的处理)相关运算得到相关值,根据相关值的大小去判定是否为模板字符。该方法相对简单,对于背景单一或者无污染的图片识别准确率较高,但随着背景图像的噪声增加,识别效果会急剧下降。基于字符特征的方法就是通过统计字符的特征,如轮廓特征、笔画特征、骨架特征和复杂指数特征等等,然后根据这些特征的相似度进行判别。该方法对于较为复杂的文字以及污染较轻的图片有较好的识别效果,但是对于污染较重的图片识别效果较差。神经网络法是通过利用神经网络对大量文字图像样本进行训练,通过神经网络不断的学习和收缩达到识别的目的。但是由于神经网络的结构设计严重依赖先验知识和经验,无法准确控制其是否收敛以及收敛速度。
上述方法一旦密级标识遭受常见攻击如几何攻击(旋转、缩放和平移等)、滤波攻击(均值滤波、高斯滤波等)、直方图均衡化攻击等利用上述方法无法准确的识别出密级标识。因此研究针对常见攻击具有稳定性的识别方法具有重要的意义。
发明内容
发明目的:电子取证中,在完成对涉密文件的检索后,需要对涉密文件的密级标识进行进一步的识别,将检查的结果以记录的形成日志,作为取证的证据。针对通常文字识别算法对遭受攻击后的密级标识无法进行有效的识别,提出了基于Krawtchouk矩和KNN-SMO分类器的密级标识识别方法,利用低阶Krawtchouk矩能够对图像的特征进行很好地刻画,且量在常见的攻击下具有很好的稳定性,并且运用KNN-SMO组合分类器使得分类器既具有KNN快速分类的能力也拥有SMO在克服小样本问题上的优势,从而提高了密级标识识别精度与速度。
本方法中涉及的主要技术有:
[1]Krawtchouk矩:离散Krawtchouk多项式,定义如式(a)-(b)所示,
Kn(x;p,N-1)=2F1(-n,-x;-N;1/p)(a)
给出了大小为M×N灰度图像f(x,y)的m+n阶Krawtchouk矩Qmn的定义,如式(c)所示:
在式(a)-(b)中,2F1(a,b;c;z)为超几何函数,p是一个常数,且满足p∈(0,1),(a)h为Pochhammer算子,其值为a(a-1)(a-2)…(a-h+1),(b)h和(c)h同理可得。式中为加权归一化的Krawtchouk正交多项式,其定义如式(d)所示:
式中,ω(x;p,N)和ρ(n;x,N)的定义分别如式(e)-(f)所示:
[2]KNN分类算法:该算法的基本原理是如果一个样本在特征空间中的k个最相似(即特征空间中最邻近)的样本中的大多数属于某一个类别,则该样本也属于这个类别。基本描述如下:
对一个C类别问题,每类有Ni个样本,i=1,2,…,C,则第i类ωi判别函数为公式(g)-(h)所示:
其中计算样本的距离可以使用样本距离有欧氏距离、曼哈顿距离以及范数等。
[3]SMO算法:SMO算法并成为最快的二次规划优化算法,其基本思想如下:
对于输入数据集T={(x1,y1),...,(xl,yl)}∈(Rn×y)l,xi∈Rn,yi∈Y={1,-1},i=1,...,l,实现公式(i)-(j)的化目标
其中0≤αi≤C,i=1,...,l。
技术方案
1、一种基于Krawtchouk矩和KNN-SMO分类器的密级标志识别方法,包括以下步骤:
(1)对密级标识图像按照式(a)进行灰度化,以减少不必要的干扰和降低处理的复杂度。设图像灰度f(x,y)∈[c1,c2],若令集合则可以通过判断像素值是否在集合C中进行分类:
通过选定适当的a,b值就可以对图像的灰度化分割,实现图像的增强,达到拉伸图像的效果增加图像对比度;
(2)对灰度化后的图像进行去噪,采取3*3或者5*5的均值滤波法进行去噪,去除干扰信息的影响;
(3)将灰度化后的图像进行反相操作,使字符区域呈现为白色,背景区域呈现为黑色,使得文字轮廓与背景色对比更加强烈,有利于观察文字特征。然后利用全局阈值法对反相后的按照式(b)进行二值化:
(4)对二值化后的图像采用Hough变换方法进行倾斜校正,其基本思想是通过把直线从图像的空间转换到参数的空间,求得参数空间的局部极大值获得图像文字的倾斜角;
(5)利用垂直投影法进行文字行切分以及基于回溯的最大宽度法进行单个字符的切分,最终得到包含每一个字符的文字序列;
(6)对每个字符进行细化,提取文字的骨架,使各个笔划均由宽度为1个像素的形式表示;
(7)对图像进行大小归一化和位置归一化,得到大小为N×N的图像,并使得待识别内容位于图像中心;
(8)计算图像的Krawcthouk矩分别选取两个1阶Krawcthouk矩、两个2阶Krawcthouk矩和四个3阶Krawcthouk矩构造图像的特征向量V=(KMI0,1,KMI1,0,KMI0,2,KMI2,0,KMI0,3,KMI3,0,KMI1,2,KMI2,1)作为密级图像的特征;
(9)构造KNN-SMO分类器,方案如下:首先利用KNN算法对训练集进行修剪,根据每个样本与其最近邻的K的样本的类别的异同决定其取舍,然后利用SMO算法进行训练;
(10)将数据集分为训练集和测试集,利用构造的KNN-SMO分类器对密级标识图像进行识别,获取密级标识信息。
有益效果
提供一种具有抗攻击性的涉密文件密级标识识别算法,为提升电子取证的技术水平与能力服务。
本发明与其他方案相比,克服了通常文字识别算法对遭受攻击后的密级标识无法进行有效的识别缺点,并且具有以下优点:
[1]利用低阶Krawtchouk矩能够对图像的内容特征进行很好地刻画,且量在常见的攻击下Krawtchouk矩具有很好的稳定性,有利于对密级标识的识别。
[2]利用KNN-SMO组合分类器使得分类器既具有KNN快速分类的能力也拥有SMO在克服小样本问题上的优势,从而提高了密级标识识别精度与速度。
附图说明
图1为算法流程图。
具体实施方式
以下结合附图具体说明本发明方案:
[1]对密级标志进行不同的攻击(包括彷射变换、JPEG压缩、亮度降低、模糊处理、中值滤波、均值滤波、对比度增强等)获取实验数据。
[2]将实验数据分为训练样本和测试样本两部分,两者互不包含。
[3]预处理训练样本,包括图像灰度化、图像反相和二值化、图像去噪、倾斜校正、行字切分、细化以及归一化等步骤。
[4]计算预处理后训练样本的低阶Krawtchouk矩作为训练特征。
[5]构造KNN-SMO分类器,首先利用利用KNN算法对训练集进行修剪,根据每个样本与其最近邻的K的样本的类别的异同决定其取舍,利用SMO算法进行训练获取训练模型。
[6]对测试样本进行图像预处理,包括图像灰度化、图像反相和二值化、图像去噪、倾斜校正、行字切分、细化以及归一化等步骤。
[7]计算预处理后的测试样本的低阶Krawtchouk矩作为特征向量。
[8]利用[7]中获得的训练模型对测试样本的特征向量进行识别,获得最终识别结果。
本发明是通过以下方案实现的:
[1]一种基于Krawtchouk矩和KNN-SMO分类器的密级标志识别方法,该方法具体内容如下所述:
[2]对密级标识图像按照式(a)进行灰度化,以减少不必要的干扰和降低处理的复杂度。设图像灰度f(x,y)∈[c1,c2],若令集合则可以通过判断像素值是否在集合C中进行分类:
通过选定适当的a,b值就可以对图像的灰度化分割,实现图像的增强,达到拉伸图像的效果增加图像对比度。
[3]对灰度化后的图像进行去噪,采取3*3或者5*5的均值滤波法进行去噪,去除干扰信息的影响。
[4]将灰度化后的图像进行反相操作,使字符区域呈现为白色,背景区域呈现为黑色,使得文字轮廓与背景色对比更加强烈,有利于观察文字特征。然后利用全局阈值法对反相后的按照式(b)进行二值化:
[5]对二值化后的图像采用Hough变换方法进行倾斜校正,其基本思想是通过把直线从图像的空间转换到参数的空间,求得参数空间的局部极大值获得图像文字的倾斜角。
[6]利用垂直投影法进行文字行切分以及基于回溯的最大宽度法进行单个字符的切分,最终得到包含每一个字符的文字序列。
[7]对每个字符进行细化,提取文字的骨架,使各个笔划均由宽度为1个像素的形式表示。
[8]对图像进行大小归一化和位置归一化,得到大小为N×N的图像,并使得待识别内容位于图像中心。
[9]计算图像的Krawcthouk矩分别选取两个1阶Krawcthouk矩、两个2阶Krawcthouk矩和四个3阶Krawcthouk矩构造图像的特征向量V=(KMI0,1,KMI1,0,KMI0,2,KMI2,0,KMI0,3,KMI3,0,KMI1,2,KMI2,1)作为密级图像的特征。
[10]构造KNN-SMO分类器,方案如下:首先利用利用KNN算法对训练集进行修剪,根据每个样本与其最近邻的K的样本的类别的异同决定其取舍,利用SMO算法进行训练。
[11]将数据集分为训练集合测试集,利用构造的KNN-SMO分类器对密级标识图像进行识别,获取密级标识信息。
本发明具有以下优点:
[1]利用低阶Krawtchouk矩能够对图像的内容特征进行很好地刻画,且量在常见的攻击下Krawtchouk矩具有很好的稳定性,有利于对密级标识的识别。
[2]利用KNN-SMO组合分类器使得分类器既具有KNN快速分类的能力也拥有SMO在克服小样本问题上的优势,从而提高了密级标识识别精度与速度。

Claims (1)

1.一种基于Krawtchouk矩和KNN-SMO分类器的密级标志识别方法,其特征在于,包括以下步骤:
(1)对密级标识图像按照式(a)进行灰度化,以减少不必要的干扰和降低处理的复杂度;设图像灰度f(x,y)∈[c1,c2],若令集合则可以通过判断像素值是否在集合C中进行分类:
f ( x , y ) = a f ( x , y ) ∈ C b f ( x , y ) ∉ C - - - ( a )
通过选定适当的a,b值就可以对图像的灰度化分割,实现图像的增强,达到拉伸图像的效果增加图像对比度;
(2)对灰度化后的图像进行去噪,采取3*3或者5*5的均值滤波法进行去噪,去除干扰信息的影响;
(3)将灰度化后的图像进行反相操作,使字符区域呈现为白色,背景区域呈现为黑色,使得文字轮廓与背景色对比更加强烈,有利于观察文字特征,然后利用全局阈值法对反相后的按照式(b)进行二值化:
f ( x , y ) = 255 f ( x , y ) ≤ T 0 f ( x , y ) > T - - - ( b )
(4)对二值化后的图像采用Hough变换方法进行倾斜校正,通过把直线从图像的空间转换到参数的空间,求得参数空间的局部极大值获得图像文字的倾斜角;
(5)利用垂直投影法进行文字行切分以及基于回溯的最大宽度法进行单个字符的切分,最终得到包含每一个字符的文字序列;
(6)对每个字符进行细化,提取文字的骨架,使各个笔划均由宽度为1个像素的形式表示;
(7)对图像进行大小归一化和位置归一化,得到大小为N×N的图像,并使得待识别内容位于图像中心;
(8)计算图像的Krawcthouk矩分别选取两个1阶Krawcthouk矩、两个2阶Krawcthouk矩和四个3阶Krawcthouk矩构造图像的特征向量V=(KMI0,1,KMI1,0,KMI0,2,KMI2,0,KMI0,3,KMI3,0,KMI1,2,KMI2,1)作为密级图像的特征;
(9)构造KNN-SMO分类器,利用KNN算法对训练集进行修剪,根据每个样本与其最近邻的K的样本的类别的异同决定其取舍,利用SMO算法进行训练;
(10)将数据集分为训练集和测试集,利用构造的KNN-SMO分类器对密级标识图像进行识别,获取密级标识信息。
CN201510890894.0A 2015-12-07 2015-12-07 一种基于Krawtchouk矩和KNN-SMO分类器的密级标识识别方法 Active CN105512682B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201510890894.0A CN105512682B (zh) 2015-12-07 2015-12-07 一种基于Krawtchouk矩和KNN-SMO分类器的密级标识识别方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201510890894.0A CN105512682B (zh) 2015-12-07 2015-12-07 一种基于Krawtchouk矩和KNN-SMO分类器的密级标识识别方法

Publications (2)

Publication Number Publication Date
CN105512682A true CN105512682A (zh) 2016-04-20
CN105512682B CN105512682B (zh) 2018-11-23

Family

ID=55720648

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201510890894.0A Active CN105512682B (zh) 2015-12-07 2015-12-07 一种基于Krawtchouk矩和KNN-SMO分类器的密级标识识别方法

Country Status (1)

Country Link
CN (1) CN105512682B (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105303199A (zh) * 2015-12-08 2016-02-03 南京信息工程大学 一种基于内容特征和K-means的数据碎片类型识别方法
CN106203528A (zh) * 2016-07-19 2016-12-07 华侨大学 一种基于特征融合和knn的3d画智能分类算法
CN108564064A (zh) * 2018-04-28 2018-09-21 北京宙心科技有限公司 一种基于视觉高效ocr识别算法

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR101114135B1 (ko) * 2004-05-20 2012-02-20 마이크로소프트 코포레이션 카메라 입력된 문서들을 위한 저해상 ocr
CN102509112A (zh) * 2011-11-02 2012-06-20 珠海逸迩科技有限公司 车牌识别方法及其识别系统
CN102509091A (zh) * 2011-11-29 2012-06-20 北京航空航天大学 一种飞机尾号识别方法

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR101114135B1 (ko) * 2004-05-20 2012-02-20 마이크로소프트 코포레이션 카메라 입력된 문서들을 위한 저해상 ocr
CN102509112A (zh) * 2011-11-02 2012-06-20 珠海逸迩科技有限公司 车牌识别方法及其识别系统
CN102509091A (zh) * 2011-11-29 2012-06-20 北京航空航天大学 一种飞机尾号识别方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
PT YAP等: ""Image analysis by Krawtchouk moments"", 《IMAGE PROCESSING IEEE TRANSACTIONS ON》 *
傅德胜等: ""基于PCA-LDA和KNN-SMO的数据碎片"", 《软件》 *

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105303199A (zh) * 2015-12-08 2016-02-03 南京信息工程大学 一种基于内容特征和K-means的数据碎片类型识别方法
CN106203528A (zh) * 2016-07-19 2016-12-07 华侨大学 一种基于特征融合和knn的3d画智能分类算法
CN106203528B (zh) * 2016-07-19 2019-07-09 华侨大学 一种基于特征融合和knn的3d画智能分类算法
CN108564064A (zh) * 2018-04-28 2018-09-21 北京宙心科技有限公司 一种基于视觉高效ocr识别算法

Also Published As

Publication number Publication date
CN105512682B (zh) 2018-11-23

Similar Documents

Publication Publication Date Title
Gao et al. Automatic change detection in synthetic aperture radar images based on PCANet
Nguyen et al. Robust minutiae extractor: Integrating deep networks and fingerprint domain knowledge
Kuruvilla et al. A review on image processing and image segmentation
Xu et al. Multiple morphological component analysis based decomposition for remote sensing image classification
CN104778457B (zh) 基于多示例学习的视频人脸识别方法
Lukic et al. Leaf recognition algorithm using support vector machine with Hu moments and local binary patterns
CN102254188B (zh) 掌纹识别方法及装置
CN106126585B (zh) 基于质量分级与感知哈希特征组合的无人机图像检索方法
CN110287780B (zh) 一种光照下人脸图像特征提取方法
CN108509927B (zh) 一种基于局部对称图结构的手指静脉图像识别方法
Chauhan et al. Binarization techniques for degraded document images—A review
Ilmi et al. Handwriting digit recognition using local binary pattern variance and K-Nearest Neighbor classification
CN105512682A (zh) 一种基于Krawtchouk矩和KNN-SMO分类器的密级标识识别方法
Jumaa et al. Finger vein recognition using two parallel enhancement ppproachs based fuzzy histogram equalization
Demir et al. Improving SVM classification accuracy using a hierarchical approach for hyperspectral images
CN103942572A (zh) 一种基于双向压缩数据空间维度缩减的面部表情特征提取方法和装置
Cheung et al. Ultra local binary pattern for image texture analysis
Zebari et al. Analysis of dense descriptors in 3D face recognition
Subbuthai et al. Identifying the character by applying PCA method using Matlab
Melendez et al. Efficient distance-based per-pixel texture classification with Gabor wavelet filters
Xie et al. A novel infrared face recognition based on local binary pattern
Angadi et al. Detection of face spoofing using multiple texture descriptors
Hasan et al. Application of binary particle swarm optimization in automatic classification of wood species using gray level co-occurence matrix and K-Nearest neighbor
CN104408715A (zh) 基于自适应模糊c均值聚类模糊化的sar图像分析方法
Fernandez et al. Classifying suspicious content in Tor Darknet

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
CP02 Change in the address of a patent holder
CP02 Change in the address of a patent holder

Address after: 210000 No. 219 Ning six road, Jiangbei new district, Nanjing, Jiangsu

Patentee after: NANJING University OF INFORMATION SCIENCE & TECHNOLOGY

Address before: No.69, OTI street, Jianye District, Nanjing City, Jiangsu Province, 210000

Patentee before: NANJING University OF INFORMATION SCIENCE & TECHNOLOGY

TR01 Transfer of patent right
TR01 Transfer of patent right

Effective date of registration: 20220613

Address after: 518000 217, Sangda science and technology industrial building, No. 9, Keji Road, Science Park community, Yuehai street, Nanshan District, Shenzhen City, Guangdong Province

Patentee after: Shenzhen yuan Material Technology Group Co.,Ltd.

Address before: No.219, ningliu Road, Jiangbei new district, Nanjing, Jiangsu Province, 210000

Patentee before: NANJING University OF INFORMATION SCIENCE & TECHNOLOGY