CN105512682B - 一种基于Krawtchouk矩和KNN-SMO分类器的密级标识识别方法 - Google Patents

一种基于Krawtchouk矩和KNN-SMO分类器的密级标识识别方法 Download PDF

Info

Publication number
CN105512682B
CN105512682B CN201510890894.0A CN201510890894A CN105512682B CN 105512682 B CN105512682 B CN 105512682B CN 201510890894 A CN201510890894 A CN 201510890894A CN 105512682 B CN105512682 B CN 105512682B
Authority
CN
China
Prior art keywords
image
smo
knn
security level
classifier
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201510890894.0A
Other languages
English (en)
Other versions
CN105512682A (zh
Inventor
傅德胜
经正俊
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shenzhen yuan Material Technology Group Co.,Ltd.
Original Assignee
Nanjing University of Information Science and Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nanjing University of Information Science and Technology filed Critical Nanjing University of Information Science and Technology
Priority to CN201510890894.0A priority Critical patent/CN105512682B/zh
Publication of CN105512682A publication Critical patent/CN105512682A/zh
Application granted granted Critical
Publication of CN105512682B publication Critical patent/CN105512682B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/74Image or video pattern matching; Proximity measures in feature spaces
    • G06V10/75Organisation of the matching processes, e.g. simultaneous or sequential comparisons of image or video features; Coarse-fine approaches, e.g. multi-scale approaches; using context analysis; Selection of dictionaries
    • G06V10/758Involving statistics of pixels or of feature values, e.g. histogram matching
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2413Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on distances to training or reference patterns
    • G06F18/24147Distances to closest patterns, e.g. nearest neighbour classification

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Computation (AREA)
  • Data Mining & Analysis (AREA)
  • Artificial Intelligence (AREA)
  • General Physics & Mathematics (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Computing Systems (AREA)
  • Databases & Information Systems (AREA)
  • General Health & Medical Sciences (AREA)
  • Medical Informatics (AREA)
  • Software Systems (AREA)
  • Multimedia (AREA)
  • Image Analysis (AREA)

Abstract

一种基于Krawtchouk矩和KNN‑SMO分类器的密级标识识别方法,所采取的识别方法为:将基于Krawtchouk矩和KNN‑SMO的理论运用于电子取证中的密级标识的识别中,该方法首先通过对密级标识进行图像预处理后,通过计算图像的低阶Krawtchouk矩组成特征向量,然后利用KNN‑SMO分类器对密级标识图片进行分类识别。一方面利用低阶Krawtchouk矩能够对图像的特征进行很好地刻画,且量在常见的攻击下具有很好的稳定性,另一方面运用KNN‑SMO组合分类器使得分类器既具有KNN快速分类的能力也拥有SMO在克服小样本问题上的优势,从而提高了密级标识识别精度与速度。

Description

一种基于Krawtchouk矩和KNN-SMO分类器的密级标识识别 方法
技术领域
本发明属于电子取证领域,具体涉及一种基于Krawtchouk矩和KNN-SMO分类器的密级标志识别方法。
背景技术
在电子取证中,在完成对涉密文件的检索后,需要对涉密文件的密级标识进行进一步的识别,将检查的结果以记录的形成日志,作为取证的证据。
现有的识别方法,常见的方法有模板匹配法(Aravinda C V,Prakash HN.Template matching method for Kannada Handwritten recognition based oncorrelation analysis[C]//Contemporary Computing and Informatics(IC3I),2014International Conferenceon.IEEE,2014:857-861.)、字符特征统计法(Das S,jyotiChoudhury S,Das A K,et al.Selection of Graph-Based Features for CharacterRecognition Using Similarity Based Feature Dependency and Rough Set Theory[M]//Recent Advances in Information Technology.Springer India,2014:57-64.)
和神经网络法(杨天长.基于神经网络的文字识别技术研究及应用[D].北方工业大学,2013.)等。模版匹配法基本思想是将待识别图像与模板图像进行直接或间接(对待识别图像进行一定的处理)相关运算得到相关值,根据相关值的大小去判定是否为模板字符。该方法相对简单,对于背景单一或者无污染的图片识别准确率较高,但随着背景图像的噪声增加,识别效果会急剧下降。基于字符特征的方法就是通过统计字符的特征,如轮廓特征、笔画特征、骨架特征和复杂指数特征等等,然后根据这些特征的相似度进行判别。该方法对于较为复杂的文字以及污染较轻的图片有较好的识别效果,但是对于污染较重的图片识别效果较差。神经网络法是通过利用神经网络对大量文字图像样本进行训练,通过神经网络不断的学习和收缩达到识别的目的。但是由于神经网络的结构设计严重依赖先验知识和经验,无法准确控制其是否收敛以及收敛速度。
上述方法一旦密级标识遭受常见攻击如几何攻击(旋转、缩放和平移等)、滤波攻击(均值滤波、高斯滤波等)、直方图均衡化攻击等利用上述方法无法准确的识别出密级标识。因此研究针对常见攻击具有稳定性的识别方法具有重要的意义。
发明内容
发明目的:电子取证中,在完成对涉密文件的检索后,需要对涉密文件的密级标识进行进一步的识别,将检查的结果以记录的形成日志,作为取证的证据。针对通常文字识别算法对遭受攻击后的密级标识无法进行有效的识别,提出了基于Krawtchouk矩和KNN-SMO分类器的密级标识识别方法,利用低阶Krawtchouk矩能够对图像的特征进行很好地刻画,且量在常见的攻击下具有很好的稳定性,并且运用KNN-SMO组合分类器使得分类器既具有KNN快速分类的能力也拥有SMO在克服小样本问题上的优势,从而提高了密级标识识别精度与速度。
本方法中涉及的主要技术有:
[1]Krawtchouk矩:离散Krawtchouk多项式,定义如式(a)-(b)所示,
Kn(x;p,N-1)=2F1(-n,-x;-N;1/p) (a)
给出了大小为M×N灰度图像f(x,y)的m+n阶Krawtchouk矩Qmn的定义,如式(c)所示:
在式(a)-(b)中,2xF10(ya,0b;c;z)为超几何函数,p是一个常数,且满足p∈(0,1),(a)h为Pochhammer算子,其值为a(a-1)(a-2)…(a-h+1),(b)h和(c)h同理可得。式中为加权归一化的Krawtchouk正交多项式,其定义如式(d)所示:
式中,ω(x;p,N)和ρ(n;x,N)的定义分别如式(e)-(f)所示:
[2]KNN分类算法:该算法的基本原理是如果一个样本在特征空间中的k个最相似(即特征空间中最邻近)的样本中的大多数属于某一个类别,则该样本也属于这个类别。基本描述如下:
对一个C类别问题,每类有Ni个样本,i=1,2,…,C,则第i类ωi判别函数为公式(g)-(h)所示:
其中计算样本的距离可以使用样本距离有欧氏距离、曼哈顿距离以及范数等。
[3]SMO算法:SMO算法并成为最快的二次规划优化算法,其基本思想如下:
对于输入数据集T={(x1,y1),...,(xl,yl)}∈(Rn×y)l,xi∈Rn,yi∈Y={1,-1},i=1,...,l,实现公式(i)-(j)的化目标
其中0≤αi≤C,i=1,...,l。
技术方案
一种基于Krawtchouk矩和KNN-SMO分类器的密级标志识别方法,包括以下步骤:
(1)对密级标识图像按照式(a)进行灰度化,以减少不必要的干扰和降低处理的复杂度。设图像灰度f(x,y)∈[c1,c2],若令集合则可以通过判断像素值是否在集合C中进行分类:
通过选定适当的a,b值就可以对图像的灰度化分割,实现图像的增强,达到拉伸图像的效果增加图像对比度;
(2)对灰度化后的图像进行去噪,采取3*3或者5*5的均值滤波法进行去噪,去除干扰信息的影响;
(3)将灰度化后的图像进行反相操作,使字符区域呈现为白色,背景区域呈现为黑色,使得文字轮廓与背景色对比更加强烈,有利于观察文字特征。然后利用全局阈值法对反相后的图像按照式(b)进行二值化:
(4)对二值化后的图像采用Hough变换方法进行倾斜校正,其基本思想是通过把直线从图像的空间转换到参数的空间,求得参数空间的局部极大值获得图像文字的倾斜角;
(5)利用垂直投影法进行文字行切分以及基于回溯的最大宽度法进行单个字符的切分,最终得到包含每一个字符的文字序列;
(6)对每个字符进行细化,提取文字的骨架,使各个笔划均由宽度为1个像素的形式表示;
(7)对图像进行大小归一化和位置归一化,得到大小为N×N的图像,并使得待识别内容位于图像中心;
(8)计算图像的Krawcthouk矩分别选取两个1阶Krawcthouk矩、两个2阶Krawcthouk矩和四个3阶Krawcthouk矩构造图像的特征向量V=(KMI0,1,KMI1,0,KMI0,2,KMI2,0,KMI0,3,KMI3,0,KMI1,2,KMI2,1)作为密级图像的特征;
(9)构造KNN-SMO分类器,方案如下:首先利用KNN算法对训练集进行修剪,根据每个样本与其最近邻的K的样本的类别的异同决定其取舍,然后利用SMO算法进行训练;
(10)将数据集分为训练集和测试集,利用构造的KNN-SMO分类器对密级标识图像进行识别,获取密级标识信息。
有益效果
提供一种具有抗攻击性的涉密文件密级标识识别算法,为提升电子取证的技术水平与能力服务。
本发明与其他方案相比,克服了通常文字识别算法对遭受攻击后的密级标识无法进行有效的识别缺点,并且具有以下优点:
[1]利用低阶Krawtchouk矩能够对图像的内容特征进行很好地刻画,且量在常见的攻击下Krawtchouk矩具有很好的稳定性,有利于对密级标识的识别。
[2]利用KNN-SMO组合分类器使得分类器既具有KNN快速分类的能力也拥有SMO在克服小样本问题上的优势,从而提高了密级标识识别精度与速度。
附图说明
图1为算法流程图。
具体实施方式
以下结合附图具体说明本发明方案:
[1]对密级标志进行不同的攻击(包括彷射变换、JPEG压缩、亮度降低、模糊处理、中值滤波、均值滤波、对比度增强等)获取实验数据。
[2]将实验数据分为训练样本和测试样本两部分,两者互不包含。
[3]预处理训练样本,包括图像灰度化、图像反相和二值化、图像去噪、倾斜校正、行字切分、细化以及归一化等步骤。
[4]计算预处理后训练样本的低阶Krawtchouk矩作为训练特征。
[5]构造KNN-SMO分类器,首先利用利用KNN算法对训练集进行修剪,根据每个样本与其最近邻的K的样本的类别的异同决定其取舍,利用SMO算法进行训练获取训练模型。
[6]对测试样本进行图像预处理,包括图像灰度化、图像反相和二值化、图像去噪、倾斜校正、行字切分、细化以及归一化等步骤。
[7]计算预处理后的测试样本的低阶Krawtchouk矩作为特征向量。
[8]利用[7]中获得的训练模型对测试样本的特征向量进行识别,获得最终识别结果。
本发明是通过以下方案实现的:
[1]一种基于Krawtchouk矩和KNN-SMO分类器的密级标志识别方法,该方法具体内容如下所述:
[2]对密级标识图像按照式(a)进行灰度化,以减少不必要的干扰和降低处理的复杂度。设图像灰度f(x,y)∈[c1,c2],若令集合则可以通过判断像素值是否在集合C中进行分类:
通过选定适当的a,b值就可以对图像的灰度化分割,实现图像的增强,达到拉伸图像的效果增加图像对比度。
[3]对灰度化后的图像进行去噪,采取3*3或者5*5的均值滤波法进行去噪,去除干扰信息的影响。
[4]将灰度化后的图像进行反相操作,使字符区域呈现为白色,背景区域呈现为黑色,使得文字轮廓与背景色对比更加强烈,有利于观察文字特征。然后利用全局阈值法对反相后的按照式(b)进行二值化:
[5]对二值化后的图像采用Hough变换方法进行倾斜校正,其基本思想是通过把直线从图像的空间转换到参数的空间,求得参数空间的局部极大值获得图像文字的倾斜角。
[6]利用垂直投影法进行文字行切分以及基于回溯的最大宽度法进行单个字符的切分,最终得到包含每一个字符的文字序列。
[7]对每个字符进行细化,提取文字的骨架,使各个笔划均由宽度为1个像素的形式表示。
[8]对图像进行大小归一化和位置归一化,得到大小为N×N的图像,并使得待识别内容位于图像中心。
[9]计算图像的Krawcthouk矩分别选取两个1阶Krawcthouk矩、两个2阶Krawcthouk矩和四个3阶Krawcthouk矩构造图像的特征向量V=(KMI0,1,KMI1,0,KMI0,2,KMI2,0,KMI0,3,KMI3,0,KMI1,2,KMI2,1)作为密级图像的特征。
[10]构造KNN-SMO分类器,方案如下:首先利用利用KNN算法对训练集进行修剪,根据每个样本与其最近邻的K的样本的类别的异同决定其取舍,利用SMO算法进行训练。
[11]将数据集分为训练集合测试集,利用构造的KNN-SMO分类器对密级标识图像进行识别,获取密级标识信息。
本发明具有以下优点:
[1]利用低阶Krawtchouk矩能够对图像的内容特征进行很好地刻画,且量在常见的攻击下Krawtchouk矩具有很好的稳定性,有利于对密级标识的识别。
[2]利用KNN-SMO组合分类器使得分类器既具有KNN快速分类的能力也拥有SMO在克服小样本问题上的优势,从而提高了密级标识识别精度与速度。

Claims (1)

1.一种基于Krawtchouk矩和KNN-SMO分类器的密级标志识别方法,其特征在于,包括以下步骤:
(1)对密级标识图像按照式(a)进行灰度化,以减少不必要的干扰和降低处理的复杂度;设图像灰度f(x,y)∈[c1,c2],若令集合则通过判断像素值是否在集合C中进行分类:
通过选定的a,b值就可以对图像的灰度化分割,实现图像的增强,达到拉伸图像的效果增加图像对比度;
(2)对灰度化后的图像进行去噪,采取3*3或者5*5的均值滤波法进行去噪,去除干扰信息的影响;
(3)将灰度化后的图像进行反相操作,使字符区域呈现为白色,背景区域呈现为黑色,使得文字轮廓与背景色对比更加强烈,有利于观察文字特征,然后利用全局阈值法对反相后的图像按照式(b)进行二值化:
(4)对二值化后的图像采用Hough变换方法进行倾斜校正,通过把直线从图像的空间转换到参数的空间,求得参数空间的局部极大值获得图像文字的倾斜角;
(5)利用垂直投影法进行文字行切分以及基于回溯的最大宽度法进行单个字符的切分,最终得到包含每一个字符的文字序列;
(6)对每个字符进行细化,提取文字的骨架,使各个笔划均由宽度为1个像素的形式表示;
(7)对图像进行大小归一化和位置归一化,得到大小为N×N的图像,并使得待识别内容位于图像中心;
(8)计算图像的Krawcthouk矩分别选取两个1阶Krawcthouk矩、两个2阶Krawcthouk矩和四个3阶Krawcthouk矩构造图像的特征向量V=(KMI0,1,KMI1,0,KMI0,2,KMI2,0,KMI0,3,KMI3,0,KMI1,2,KMI2,1)作为密级图像的特征;
(9)构造KNN-SMO分类器,利用KNN算法对训练集进行修剪,根据每个样本与其最近邻的K的样本的类别的异同决定其取舍,利用SMO算法进行训练;
(10)将数据集分为训练集和测试集,利用构造的KNN-SMO分类器对密级标识图像进行识别,获取密级标识信息。
CN201510890894.0A 2015-12-07 2015-12-07 一种基于Krawtchouk矩和KNN-SMO分类器的密级标识识别方法 Active CN105512682B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201510890894.0A CN105512682B (zh) 2015-12-07 2015-12-07 一种基于Krawtchouk矩和KNN-SMO分类器的密级标识识别方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201510890894.0A CN105512682B (zh) 2015-12-07 2015-12-07 一种基于Krawtchouk矩和KNN-SMO分类器的密级标识识别方法

Publications (2)

Publication Number Publication Date
CN105512682A CN105512682A (zh) 2016-04-20
CN105512682B true CN105512682B (zh) 2018-11-23

Family

ID=55720648

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201510890894.0A Active CN105512682B (zh) 2015-12-07 2015-12-07 一种基于Krawtchouk矩和KNN-SMO分类器的密级标识识别方法

Country Status (1)

Country Link
CN (1) CN105512682B (zh)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105303199A (zh) * 2015-12-08 2016-02-03 南京信息工程大学 一种基于内容特征和K-means的数据碎片类型识别方法
CN106203528B (zh) * 2016-07-19 2019-07-09 华侨大学 一种基于特征融合和knn的3d画智能分类算法
CN108564064A (zh) * 2018-04-28 2018-09-21 北京宙心科技有限公司 一种基于视觉高效ocr识别算法

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR101114135B1 (ko) * 2004-05-20 2012-02-20 마이크로소프트 코포레이션 카메라 입력된 문서들을 위한 저해상 ocr
CN102509091A (zh) * 2011-11-29 2012-06-20 北京航空航天大学 一种飞机尾号识别方法
CN102509112A (zh) * 2011-11-02 2012-06-20 珠海逸迩科技有限公司 车牌识别方法及其识别系统

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR101114135B1 (ko) * 2004-05-20 2012-02-20 마이크로소프트 코포레이션 카메라 입력된 문서들을 위한 저해상 ocr
CN102509112A (zh) * 2011-11-02 2012-06-20 珠海逸迩科技有限公司 车牌识别方法及其识别系统
CN102509091A (zh) * 2011-11-29 2012-06-20 北京航空航天大学 一种飞机尾号识别方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
"Image analysis by Krawtchouk moments";PT Yap等;《Image Processing IEEE Transactions on》;20031027;第12卷(第11期);1367-1377页 *
"基于PCA-LDA和KNN-SMO的数据碎片";傅德胜等;《软件》;20150715;第36卷(第7期);21-25页 *

Also Published As

Publication number Publication date
CN105512682A (zh) 2016-04-20

Similar Documents

Publication Publication Date Title
Gao et al. Automatic change detection in synthetic aperture radar images based on PCANet
CN110334706B (zh) 一种图像目标识别方法及装置
CN107610114B (zh) 基于支持向量机的光学卫星遥感影像云雪雾检测方法
CN111340824B (zh) 一种基于数据挖掘的图像特征分割方法
CN110443128B (zh) 一种基于surf特征点精确匹配的指静脉识别方法
CN104091147B (zh) 一种近红外眼睛定位及眼睛状态识别方法
CN104778457B (zh) 基于多示例学习的视频人脸识别方法
CN107909081B (zh) 一种深度学习中图像数据集的快速获取和快速标定方法
CN107316031A (zh) 用于行人重识别的图像特征提取方法
CN109766858A (zh) 结合双边滤波的三维卷积神经网络高光谱影像分类方法
CN106874942B (zh) 一种基于正则表达式语义的目标模型快速构建方法
CN109978848A (zh) 基于多光源颜色恒常模型检测眼底图像中硬性渗出的方法
CN109801305B (zh) 基于深度胶囊网络的sar图像变化检测方法
CN110472479A (zh) 一种基于surf特征点提取和局部lbp编码的指静脉识别方法
CN110706235A (zh) 一种基于双级级联分割的远红外行人检测方法
CN106446925A (zh) 一种基于图像处理的海豚身份识别的方法
CN111967511A (zh) 一种基于异构特征融合网络的地基云图分类方法
CN105512682B (zh) 一种基于Krawtchouk矩和KNN-SMO分类器的密级标识识别方法
CN110348289A (zh) 一种基于二值图的手指静脉识别方法
CN108121972A (zh) 一种局部遮挡条件下的目标识别方法
CN111783885A (zh) 一种基于局部增强的毫米波图像的质量分类模型构建方法
Ticay-Rivas et al. Pollen classification based on geometrical, descriptors and colour features using decorrelation stretching method
CN114373079A (zh) 一种快速准确的探地雷达目标检测方法
CN111127407B (zh) 一种基于傅里叶变换的风格迁移伪造图像检测装置及方法
CN109829511B (zh) 基于纹理分类的下视红外图像中云层区域检测方法

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
CP02 Change in the address of a patent holder

Address after: 210000 No. 219 Ning six road, Jiangbei new district, Nanjing, Jiangsu

Patentee after: NANJING University OF INFORMATION SCIENCE & TECHNOLOGY

Address before: No.69, OTI street, Jianye District, Nanjing City, Jiangsu Province, 210000

Patentee before: NANJING University OF INFORMATION SCIENCE & TECHNOLOGY

CP02 Change in the address of a patent holder
TR01 Transfer of patent right

Effective date of registration: 20220613

Address after: 518000 217, Sangda science and technology industrial building, No. 9, Keji Road, Science Park community, Yuehai street, Nanshan District, Shenzhen City, Guangdong Province

Patentee after: Shenzhen yuan Material Technology Group Co.,Ltd.

Address before: No.219, ningliu Road, Jiangbei new district, Nanjing, Jiangsu Province, 210000

Patentee before: NANJING University OF INFORMATION SCIENCE & TECHNOLOGY

TR01 Transfer of patent right