CN111275114A - 一种sdn架构下的基于集成学习的网络资质图片鉴别方法 - Google Patents

一种sdn架构下的基于集成学习的网络资质图片鉴别方法 Download PDF

Info

Publication number
CN111275114A
CN111275114A CN202010066749.1A CN202010066749A CN111275114A CN 111275114 A CN111275114 A CN 111275114A CN 202010066749 A CN202010066749 A CN 202010066749A CN 111275114 A CN111275114 A CN 111275114A
Authority
CN
China
Prior art keywords
node
image
training
model
classifier
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Withdrawn
Application number
CN202010066749.1A
Other languages
English (en)
Inventor
黄惠芬
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Individual
Original Assignee
Individual
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Individual filed Critical Individual
Priority to CN202010066749.1A priority Critical patent/CN111275114A/zh
Publication of CN111275114A publication Critical patent/CN111275114A/zh
Withdrawn legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2411Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on the proximity to a decision surface, e.g. support vector machines
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/23Clustering techniques
    • G06F18/232Non-hierarchical techniques
    • G06F18/2321Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions
    • G06F18/23213Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions with fixed number of clusters, e.g. K-means clustering
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F9/00Arrangements for program control, e.g. control units
    • G06F9/06Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
    • G06F9/46Multiprogramming arrangements
    • G06F9/50Allocation of resources, e.g. of the central processing unit [CPU]
    • G06F9/5005Allocation of resources, e.g. of the central processing unit [CPU] to service a request
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/46Descriptors for shape, contour or point-related descriptors, e.g. scale invariant feature transform [SIFT] or bags of words [BoW]; Salient regional features
    • G06V10/462Salient features, e.g. scale invariant feature transforms [SIFT]

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Evolutionary Computation (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Artificial Intelligence (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Software Systems (AREA)
  • Probability & Statistics with Applications (AREA)
  • Multimedia (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开了一种SDN架构下的基于集成学习的网络资质图片鉴别方法,属于网络技术领域,包括以下步骤:模型训练、图像分类识别和数据库比对;本发明的有益效果是:本发明利用SDN控制器获悉网络拓扑及节点状况,选择当前任务较少的节点为弱分类器训练节点,节点任务完成以后,将训练后的弱分类器根据验证准确度进行赋权、回归,得到最后分类器模型,本发明利用SDN架构,提高网络节点利用率,具有较快的运行速率;将集成学习思想应用于网络资质图像的分类识别中,识别准确率高。

Description

一种SDN架构下的基于集成学习的网络资质图片鉴别方法
技术领域
本发明属于网络技术领域,具体涉及一种SDN架构下的基于集成学习的网络资质图片鉴别方法。
背景技术
资质证明大体可以分为两类,一类是单位的,包括机关、团体、法人、企业等非自然人的实体或其下属部门的,另一类是个人的,它是说明单位或个人做事的一种资格,资质图片是资质证明的图片。
现有技术存在以下问题:现有分类模型训练时间较长、训练准确度不高等。
发明内容
为解决上述背景技术中提出的问题。本发明提供了一种SDN架构下的基于集成学习的网络资质图片鉴别方法,具有较快的运行速率,训练时间短以及识别准确率高的特点。
为实现上述目的,本发明提供如下技术方案:一种SDN架构下的基于集成学习的网络资质图片鉴别方法,包括以下步骤:
(1)模型训练:
①任务基础设置:目前网络较为主流的资质图像按照是否合法分成两大类,并且将合法的资质图像分成五类,即安全生产许可证、经营许可证、省级文明单位证、食品卫生许可证及工程设计许可证;
②分布节点(即弱分类器模型训练节点)选择:
(a)SDN控制器计算节点资源忙闲程度:SDN控制器可以掌控全局网络拓扑,并且可以判断各节点的忙闲状态;根据弱分类器模型训练的要求,各节点的忙闲状态反映其资源使用情况,主要由内存、CPU、交换带宽等物理资源占用情况来决定;将物理资源占比定义为已用和总量的比值,且状态如下:
Figure BDA0002376201120000021
(b)SDN控制器选择弱分类器模型训练节点的方法如下:
(i)针对每一个节点,计算其物理资源占用比,判断其忙闲状态:
分别计算该节点的内存、CPU及交换带宽的占用比,
if内存、CPU、交换带宽占用比全部<70%,
该节点为空闲节点,
If三项占用比<40%,
最优空闲节点,
End,
Else,
该节点为忙节点,
End;
(ii)将所有空闲节点进行优先级排序,依据是:最优空闲节点优先,且与任务节点路由距离为次排序标准;
(iii)选择排序最靠前的9个节点作为弱分类器模型训练的节点;
(c)SDN控制器将相应任务流表下发到SDN交换机:SDN控制器向各分布节点相连的SDN交换机下发“Packet-out”消息,以通知执行任务的分布节点的物理地址信息、路由信息、任务节点相关信息;
③分布节点进行弱分类器模型训练:
(a)节点数据准备及处理:分布节点接收到交换机的任务相关信息之后,启动弱分类器模型训练任务,首先将网络图片采用爬虫技术下载各类资质图片到制定目录,以形成本发明所需的各类图像的训练子集和验证子集;生成训练集和验证集图像的文件列表;对图像归一化预处理:所有图片样本的尺寸是256*256,选取常见5类资质图像,每类图像2000幅,为每幅图像的标签是5种资质图像分类标签中的一种,并下载非资质图片为5000幅,按比例分成训练集和测试集;
(b)网络图像特征提取:针对资质图像的特殊性,采用SIFT特征,该特征具有尺度不变性,即使改变旋转角度、图像亮度或拍摄视角,仍然能够得到好的检测效果,流程如下:
(i)提取每幅图像的sift特征,此时每幅图的特征数量不固定,但是每个特征的维数是确定的;
(ii)利用K-均值聚类方法将上述特征聚类为固定数量为100的特征;
(iii)对100个特征值进行归一化处理;
(iv)将训练集和验证集每幅图的100个特征向量及其所属分类标签分别作为模型训练和预测验证的输入;
(c)分布节点模型训练:在各节点利进行一个弱分类器训练,获得用于资质图像分类的弱分类器模型,产生节点训练模型,分类问题可以定义为:已知集合C={y1,y2,…,yn}和x={x1,x2,…},存在映射y=f(x),使任意xi∈X,存在yi∈C,yi=f(xi)成立;
(i)SVM模型训练:SVM是以最优化理论为基础来处理机器学习的方式,主要是用来解决两类分类的问题,在两类中寻找一个最优超分平面将两类分开;SVM是二分类的分类器模型,本发明中有五类,标签为1,2,3,4,5;训练过程中,进行二分类模型组合(1,2),(1,3),(1,4),(1,5),(2,3),(2,4),(2,5),(3,4),(3,5),(4,5),将所对应的特征向量作为训练集,得到十个分类结果,对十个结果采取大数投票形式,得到该分类器结果;
(ii)SVM模型验证:将验证集图像特征向量输入至分类器模型,获得预测分类结果,将其与自身所属类别标签对比,计算分布节点模型准确度:
Figure BDA0002376201120000041
(d)分布节点任务完成:各分布节点模型训练结束后,通过相连的SDN交换机发送任务完成消息到SDN控制器;
④最终分类器模型生成
(a)SDN控制器接收到所有分布节点的完成信息后,下发Packet-out消息通知各分布节点将分类器模型传输到任务节点;
(b)分类器模型集成:主要针对各分布节点训练得到的分类器模型进行赋权、回归,本次模型训练工作结束;
(i)按照各类型分类器的准确率的高低进行排序,对高准确率的分类器赋予较高的权重,相应的,准确率低的分类器的权重就低;
(ii)对不同类型的分类器模型进行集成得最终分类器模型,最终分类器的输出结果等于各分类器加权投票后的最大值;
C=Max{w1*C1,……,wj*Cj}
其中,C为最终分类器的分类结果输出,表示第j类分类器的权重,表示第j类分类器的输出结果,其值由同类别的各分类器结果多数投票(即少数服从多数的大数原则)获得;
⑤SDN控制器定期通知分布节点执行分类器训练流程(ii-v),更新分布节点模型,以更新最终分类器模型;
(2)图像分类识别:
①待检测数据准备:任务节点定期启动网络爬虫工具,获取一段时间内的新出现的网络资质图像数据;
②对待检测网络资质图像利用最终分类器模型进行资质图像分类识别;
(3)数据库比对:
将图像分类结果与各网站所属企业、单位的资质备份数据库对比,判断其是否合法。
在本发明中进一步的,所述节点数据准备及处理过程中,训练集和测试集的比例为7:3。
在本发明中进一步的,所述图像SIFT特征提取包括以下步骤:1)多尺度空间极值点检测:搜索所有尺度上的图像位置,通过高斯微分函数来识别潜在的对于尺度和旋转不变的候选关键点;2)关键点的精确定位:在每个候选的位置上,通过一个拟合精细的模型来确定位置和尺度,同时关键点的选择依据于它们的稳定程度;3)关键点的主方向计算:基于图像局部的梯度方向,分配给每个关键点位置一个或多个方向,所有后面的对图像数据的操作都相对于关键点的方向、尺度和位置进行变换,从而提供对于这些变换的不变性;4)描述子的构造:在每个关键点周围的邻域内,在选定的尺度上测量图像局部的梯度;这些梯度被变换成一种表示,这种表示允许比较大的局部形状的变形和光照变化。
在本发明中进一步的,所述SIFT图像特征提取中的图片特征维数为128维。
在本发明中进一步的,所述K-means聚类算法包括以下步骤:1)初始化:输入数据点集合X,并指定聚类类数N,在X中随机选取N个对象作为初始聚类中心;2)设定迭代终止条件:比如最大循环次数或者聚类中心收敛误差容限;3)更新样本属于哪个类:计算每个对象与各个种子聚类中心之间的距离,把每个对象分配给距离它最近的聚类中心;4):更新类的聚类中心,每分配一个样本,聚类的聚类中心会根据聚类中现有的对象被重新计算;反复执行第3步和第4步直至满足某个终止条件,终止条件可以是没有(或最小数目)对象被重新分配给不同的聚类,没有(或最小数目)聚类中心再发生变化,误差平方和局部最小。
在本发明中进一步的,所述分布节点模型训练过程中采用支持向量机、神经网络(NB)和K近邻(KNN)算法3种分类方法,共计在9个分布节点上分别弱分类器训练,即最后产生SVM、神经网络(NB)及K近邻(KNN)算法模型各三个。
与现有技术相比,本发明的有益效果是:
本发明利用SDN控制器获悉网络拓扑及节点状况,选择当前任务较少的节点为弱分类器训练节点,节点任务完成以后,将训练后的弱分类器根据验证准确度进行赋权、回归,得到最后分类器模型,本发明利用SDN架构,提高网络节点利用率,具有较快的运行速率;将集成学习思想应用于网络资质图像的分类识别中,识别准确率高。
附图说明
图1为本发明鉴别流程的结构示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
实施例1
请参阅图1,本发明提供以下技术方案:一种SDN架构下的基于集成学习的网络资质图片鉴别方法,包括以下步骤:
(1)模型训练:
①任务基础设置:目前网络较为主流的资质图像按照是否合法分成两大类,并且将合法的资质图像分成五类,即安全生产许可证、经营许可证、省级文明单位证、食品卫生许可证及工程设计许可证;
②分布节点(即弱分类器模型训练节点)选择:
(a)SDN控制器计算节点资源忙闲程度:SDN控制器可以掌控全局网络拓扑,并且可以判断各节点的忙闲状态;根据弱分类器模型训练的要求,各节点的忙闲状态反映其资源使用情况,主要由内存、CPU、交换带宽等物理资源占用情况来决定;将物理资源占比定义为已用和总量的比值,且状态如下:
Figure BDA0002376201120000071
(b)SDN控制器选择弱分类器模型训练节点的方法如下:
(i)针对每一个节点,计算其物理资源占用比,判断其忙闲状态:
分别计算该节点的内存、CPU及交换带宽的占用比,
if内存、CPU、交换带宽占用比全部<70%,
该节点为空闲节点,
If三项占用比<40%,
最优空闲节点,
End,
Else,
该节点为忙节点,
End;
(ii)将所有空闲节点进行优先级排序,依据是:最优空闲节点优先,且与任务节点路由距离为次排序标准;
(iii)选择排序最靠前的9个节点作为弱分类器模型训练的节点;
(c)SDN控制器将相应任务流表下发到SDN交换机:SDN控制器向各分布节点相连的SDN交换机下发“Packet-out”消息,以通知执行任务的分布节点的物理地址信息、路由信息、任务节点相关信息;
③分布节点进行弱分类器模型训练:
(a)节点数据准备及处理:分布节点接收到交换机的任务相关信息之后,启动弱分类器模型训练任务,首先将网络图片采用爬虫技术下载各类资质图片到制定目录,以形成本发明所需的各类图像的训练子集和验证子集;生成训练集和验证集图像的文件列表;对图像归一化预处理:所有图片样本的尺寸是256*256,选取常见5类资质图像,每类图像2000幅,为每幅图像的标签是5种资质图像分类标签中的一种,并下载非资质图片为5000幅,按比例分成训练集和测试集,为了具有更好的效果,本实施例中,优选的,所述节点数据准备及处理过程中,训练集和测试集的比例为7:3;
(b)网络图像特征提取:针对资质图像的特殊性,采用SIFT特征,该特征具有尺度不变性,即使改变旋转角度、图像亮度或拍摄视角,仍然能够得到好的检测效果,流程如下:
(i)提取每幅图像的sift特征,为了具有尺度不变性,即使改变旋转角度、图像亮度或拍摄视角,仍然能够得到好的检测效果,本实施例中,优选的,所述图像SIFT特征提取包括以下步骤:1)多尺度空间极值点检测:搜索所有尺度上的图像位置,通过高斯微分函数来识别潜在的对于尺度和旋转不变的候选关键点;2)关键点的精确定位:在每个候选的位置上,通过一个拟合精细的模型来确定位置和尺度,同时关键点的选择依据于它们的稳定程度;3)关键点的主方向计算:基于图像局部的梯度方向,分配给每个关键点位置一个或多个方向,所有后面的对图像数据的操作都相对于关键点的方向、尺度和位置进行变换,从而提供对于这些变换的不变性;4)描述子的构造:在每个关键点周围的邻域内,在选定的尺度上测量图像局部的梯度,这些梯度被变换成一种表示,这种表示允许比较大的局部形状的变形和光照变化,此时每幅图的特征数量不固定,但是每个特征的维数是确定的,为了具有更好的效果,本实施例中,优选的,所述SIFT图像特征提取中的图片特征维数为128维;
(ii)利用K-均值聚类方法将上述特征聚类为固定数量为100的特征,为了具有更好的效果,本实施例中,优选的,所述K-means聚类算法包括以下步骤:1)初始化:输入数据点集合X,并指定聚类类数N,在X中随机选取N个对象作为初始聚类中心;2)设定迭代终止条件:比如最大循环次数或者聚类中心收敛误差容限;3)更新样本属于哪个类:计算每个对象与各个种子聚类中心之间的距离,把每个对象分配给距离它最近的聚类中心;4):更新类的聚类中心,每分配一个样本,聚类的聚类中心会根据聚类中现有的对象被重新计算;反复执行第3步和第4步直至满足某个终止条件,终止条件可以是没有(或最小数目)对象被重新分配给不同的聚类,没有(或最小数目)聚类中心再发生变化,误差平方和局部最小;
(iii)对100个特征值进行归一化处理;
(iv)将训练集和验证集每幅图的100个特征向量及其所属分类标签分别作为模型训练和预测验证的输入;
(c)分布节点模型训练:在各节点利进行一个弱分类器训练,获得用于资质图像分类的弱分类器模型,产生节点训练模型,分类问题可以定义为:已知集合C={y1,y2,…,yn}和X={x1,x2,…},存在映射y=f(x),使任意xi∈X,存在yi∈C,yi=f(xi)成立,为了避免由于单节点、单分类模型训练产生的数据及模型偏差,本实施例中,优选的,所述分布节点模型训练过程中采用支持向量机(SupportVectorMachine,简称SVM)、神经网络(NB)和K近邻(KNN)算法3种分类方法,共计在9个分布节点上分别弱分类器训练,即最后产生SVM、神经网络(NB)及K近邻(KNN)算法模型各三个;
(i)SVM模型训练:SVM是以最优化理论为基础来处理机器学习的方式,主要是用来解决两类分类的问题,在两类中寻找一个最优超分平面将两类分开;SVM是二分类的分类器模型,本发明中有五类,标签为1,2,3,4,5;训练过程中,进行二分类模型组合(1,2),(1,3),(1,4),(1,5),(2,3),(2,4),(2,5),(3,4),(3,5),(4,5),将所对应的特征向量作为训练集,得到十个分类结果,对十个结果采取大数投票形式,得到该分类器结果;
(ii)SVM模型验证:将验证集图像特征向量输入至分类器模型,获得预测分类结果,将其与自身所属类别标签对比,计算分布节点模型准确度:
Figure BDA0002376201120000101
(d)分布节点任务完成:各分布节点模型训练结束后,通过相连的SDN交换机发送任务完成消息到SDN控制器;
④最终分类器模型生成
(a)SDN控制器接收到所有分布节点的完成信息后,下发Packet-out消息通知各分布节点将分类器模型传输到任务节点;
(b)分类器模型集成:主要针对各分布节点训练得到的分类器模型进行赋权、回归,本次模型训练工作结束;
(i)按照各类型分类器的准确率的高低进行排序,对高准确率的分类器赋予较高的权重,相应的,准确率低的分类器的权重就低;
(ii)对不同类型的分类器模型进行集成得最终分类器模型,最终分类器的输出结果等于各分类器加权投票后的最大值;
C=Max{w1*C1,……,wj*Cj}
其中,C为最终分类器的分类结果输出,表示第j类分类器的权重,表示第j类分类器的输出结果,其值由同类别的各分类器结果多数投票(即少数服从多数的大数原则)获得;
⑤SDN控制器定期通知分布节点执行分类器训练流程(ii-v),更新分布节点模型,以更新最终分类器模型;
(2)图像分类识别:
①待检测数据准备:任务节点定期启动网络爬虫工具,获取一段时间内的新出现的网络资质图像数据;
②对待检测网络资质图像利用最终分类器模型进行资质图像分类识别;
(3)数据库比对:
将图像分类结果与各网站所属企业、单位的资质备份数据库对比,判断其是否合法。
本实施例的工作原理:本发明实施过程分为模型训练、图像分类识别及数据库比对三部分,具体步骤如下:
(1)模型训练:
①任务基础设置:目前网络较为主流的资质图像按照是否合法分成两大类,并且将合法的资质图像分成五类,即安全生产许可证、经营许可证、省级文明单位证、食品卫生许可证及工程设计许可证;
②分布节点(即弱分类器模型训练节点)选择:
(a)SDN控制器计算节点资源忙闲程度:SDN控制器可以掌控全局网络拓扑,并且可以判断各节点的忙闲状态;根据弱分类器模型训练的要求,各节点的忙闲状态反映其资源使用情况,主要由内存、CPU、交换带宽等物理资源占用情况来决定;将物理资源占比定义为已用和总量的比值,且状态如下:
Figure BDA0002376201120000111
(b)SDN控制器选择弱分类器模型训练节点的方法如下:
(i)针对每一个节点,计算其物理资源占用比,判断其忙闲状态:
分别计算该节点的内存、CPU及交换带宽的占用比,
if内存、CPU、交换带宽占用比全部<70%,
该节点为空闲节点,
If三项占用比<40%,
最优空闲节点,
End,
Else,
该节点为忙节点,
End;
(ii)将所有空闲节点进行优先级排序,依据是:最优空闲节点优先,且与任务节点路由距离为次排序标准;
(iii)选择排序最靠前的9个节点作为弱分类器模型训练的节点;
(c)SDN控制器将相应任务流表下发到SDN交换机:SDN控制器向各分布节点相连的SDN交换机下发“Packet-out”消息,以通知执行任务的分布节点的物理地址信息、路由信息、任务节点相关信息;
③分布节点进行弱分类器模型训练:
(a)节点数据准备及处理:分布节点接收到交换机的任务相关信息之后,启动弱分类器模型训练任务,首先将网络图片采用爬虫技术下载各类资质图片到制定目录,以形成本发明所需的各类图像的训练子集和验证子集;生成训练集和验证集图像的文件列表;对图像归一化预处理:所有图片样本的尺寸是256*256,选取常见5类资质图像,每类图像2000幅,为每幅图像的标签是5种资质图像分类标签中的一种,并下载非资质图片为5000幅,按7:3的比例分成训练集和测试集;
(b)网络图像特征提取:针对资质图像的特殊性,采用SIFT特征,该特征具有尺度不变性,即使改变旋转角度、图像亮度或拍摄视角,仍然能够得到好的检测效果,流程如下:
(i)提取每幅图像的sift特征,(图像SIFT特征提取包括以下步骤:1)多尺度空间极值点检测:搜索所有尺度上的图像位置,通过高斯微分函数来识别潜在的对于尺度和旋转不变的候选关键点;2)关键点的精确定位:在每个候选的位置上,通过一个拟合精细的模型来确定位置和尺度,同时关键点的选择依据于它们的稳定程度;3)关键点的主方向计算:基于图像局部的梯度方向,分配给每个关键点位置一个或多个方向,所有后面的对图像数据的操作都相对于关键点的方向、尺度和位置进行变换,从而提供对于这些变换的不变性;4)描述子的构造:在每个关键点周围的邻域内,在选定的尺度上测量图像局部的梯度,这些梯度被变换成一种表示,这种表示允许比较大的局部形状的变形和光照变化),此时每幅图的特征数量不固定,但是每个特征的维数是确定的,图片特征维数为128维;
(ii)利用K-均值聚类方法(K-means聚类算法包括以下步骤:1)初始化:输入数据点集合X,并指定聚类类数N,在X中随机选取N个对象作为初始聚类中心;2)设定迭代终止条件:比如最大循环次数或者聚类中心收敛误差容限;3)更新样本属于哪个类:计算每个对象与各个种子聚类中心之间的距离,把每个对象分配给距离它最近的聚类中心;4):更新类的聚类中心,每分配一个样本,聚类的聚类中心会根据聚类中现有的对象被重新计算;反复执行第3步和第4步直至满足某个终止条件,终止条件可以是没有(或最小数目)对象被重新分配给不同的聚类,没有(或最小数目)聚类中心再发生变化,误差平方和局部最小)将上述特征聚类为固定数量为100的特征;
(iii)对100个特征值进行归一化处理;
(iv)将训练集和验证集每幅图的100个特征向量及其所属分类标签分别作为模型训练和预测验证的输入;
(c)分布节点模型训练:在各节点利进行一个弱分类器训练,获得用于资质图像分类的弱分类器模型,产生节点训练模型,分类问题可以定义为:已知集合C={y1,y2,…,yn}和X={x1,x2,…},存在映射y=f(x),使任意xi∈X,存在yi∈C,yi=f(xi)成立,分布节点模型训练过程中采用支持向量机(SupportVectorMachine,简称SVM)、神经网络(NB)和K近邻(KNN)算法3种分类方法,共计在9个分布节点上分别弱分类器训练,即最后产生SVM、神经网络(NB)及K近邻(KNN)算法模型各三个,目的是为了避免由于单节点、单分类模型训练产生的数据及模型偏差;
(i)SVM模型训练:SVM是以最优化理论为基础来处理机器学习的方式,主要是用来解决两类分类的问题,在两类中寻找一个最优超分平面将两类分开;SVM是二分类的分类器模型,本发明中有五类,标签为1,2,3,4,5;训练过程中,进行二分类模型组合(1,2),(1,3),(1,4),(1,5),(2,3),(2,4),(2,5),(3,4),(3,5),(4,5),将所对应的特征向量作为训练集,得到十个分类结果,对十个结果采取大数投票形式,得到该分类器结果;
(ii)SVM模型验证:将验证集图像特征向量输入至分类器模型,获得预测分类结果,将其与自身所属类别标签对比,计算分布节点模型准确度:
Figure BDA0002376201120000141
(d)分布节点任务完成:各分布节点模型训练结束后,通过相连的SDN交换机发送任务完成消息到SDN控制器;
④最终分类器模型生成
(a)SDN控制器接收到所有分布节点的完成信息后,下发Packet-out消息通知各分布节点将分类器模型传输到任务节点;
(b)分类器模型集成:主要针对各分布节点训练得到的分类器模型进行赋权、回归,本次模型训练工作结束;
(i)按照各类型分类器的准确率的高低进行排序,对高准确率的分类器赋予较高的权重,相应的,准确率低的分类器的权重就低;
(ii)对不同类型的分类器模型进行集成得最终分类器模型,最终分类器的输出结果等于各分类器加权投票后的最大值;
C=Max{w1*C1,……,wj*Cj}
其中,C为最终分类器的分类结果输出,表示第j类分类器的权重,表示第j类分类器的输出结果,其值由同类别的各分类器结果多数投票(即少数服从多数的大数原则)获得;
⑤SDN控制器定期通知分布节点执行分类器训练流程(ii-v),更新分布节点模型,以更新最终分类器模型;
(2)图像分类识别:
①待检测数据准备:任务节点定期启动网络爬虫工具,获取一段时间内的新出现的网络资质图像数据;
②对待检测网络资质图像利用最终分类器模型进行资质图像分类识别;
(3)数据库比对:
将图像分类结果与各网站所属企业、单位的资质备份数据库对比,判断其是否合法。
尽管已经示出和描述了本发明的实施例,对于本领域的普通技术人员而言,可以理解在不脱离本发明的原理和精神的情况下可以对这些实施例进行多种变化、修改、替换和变型,本发明的范围由所附权利要求及其等同物限定。

Claims (6)

1.一种SDN架构下的基于集成学习的网络资质图片鉴别方法,包括以下步骤:
(1)模型训练:
①任务基础设置:目前网络较为主流的资质图像按照是否合法分成两大类,并且将合法的资质图像分成五类,即安全生产许可证、经营许可证、省级文明单位证、食品卫生许可证及工程设计许可证;
②分布节点(即弱分类器模型训练节点)选择:
(a)SDN控制器计算节点资源忙闲程度:SDN控制器可以掌控全局网络拓扑,并且可以判断各节点的忙闲状态;根据弱分类器模型训练的要求,各节点的忙闲状态反映其资源使用情况,主要由内存、CPU、交换带宽等物理资源占用情况来决定;将物理资源占比定义为已用和总量的比值,且状态如下:
Figure FDA0002376201110000011
(b)SDN控制器选择弱分类器模型训练节点的方法如下:
(i)针对每一个节点,计算其物理资源占用比,判断其忙闲状态:
分别计算该节点的内存、CPU及交换带宽的占用比,
if内存、CPU、交换带宽占用比全部<70%,
该节点为空闲节点,
If三项占用比<40%,
最优空闲节点,
End,
Else,
该节点为忙节点,
End;
(ii)将所有空闲节点进行优先级排序,依据是:最优空闲节点优先,且与任务节点路由距离为次排序标准;
(iii)选择排序最靠前的9个节点作为弱分类器模型训练的节点;
(c)SDN控制器将相应任务流表下发到SDN交换机:SDN控制器向各分布节点相连的SDN交换机下发“Packet-out”消息,以通知执行任务的分布节点的物理地址信息、路由信息、任务节点相关信息;
③分布节点进行弱分类器模型训练:
(a)节点数据准备及处理:分布节点接收到交换机的任务相关信息之后,启动弱分类器模型训练任务,首先将网络图片采用爬虫技术下载各类资质图片到制定目录,以形成本发明所需的各类图像的训练子集和验证子集;生成训练集和验证集图像的文件列表;对图像归一化预处理:所有图片样本的尺寸是256*256,选取常见5类资质图像,每类图像2000幅,为每幅图像的标签是5种资质图像分类标签中的一种,并下载非资质图片为5000幅,按比例分成训练集和测试集;
(b)网络图像特征提取:针对资质图像的特殊性,采用SIFT特征,该特征具有尺度不变性,即使改变旋转角度、图像亮度或拍摄视角,仍然能够得到好的检测效果,流程如下:
(i)提取每幅图像的sift特征,此时每幅图的特征数量不固定,但是每个特征的维数是确定的;
(ii)利用K-均值聚类方法将上述特征聚类为固定数量为100的特征;
(iii)对100个特征值进行归一化处理;
(iv)将训练集和验证集每幅图的100个特征向量及其所属分类标签分别作为模型训练和预测验证的输入;
(c)分布节点模型训练:在各节点利进行一个弱分类器训练,获得用于资质图像分类的弱分类器模型,产生节点训练模型,分类问题可以定义为:已知集合C={y1,y2,…,yn}和X={x1,x2,…},存在映射y=f(x),使任意xi∈X,存在yi∈C,yi=f(xi)成立;
(i)SVM模型训练:SVM是以最优化理论为基础来处理机器学习的方式,主要是用来解决两类分类的问题,在两类中寻找一个最优超分平面将两类分开;SVM是二分类的分类器模型,本发明中有五类,标签为1,2,3,4,5;训练过程中,进行二分类模型组合(1,2),(1,3),(1,4),(1,5),(2,3),(2,4),(2,5),(3,4),(3,5),(4,5),将所对应的特征向量作为训练集,得到十个分类结果,对十个结果采取大数投票形式,得到该分类器结果;
(ii)SVM模型验证:将验证集图像特征向量输入至分类器模型,获得预测分类结果,将其与自身所属类别标签对比,计算分布节点模型准确度:
Figure FDA0002376201110000031
(d)分布节点任务完成:各分布节点模型训练结束后,通过相连的SDN交换机发送任务完成消息到SDN控制器;
④最终分类器模型生成
(a)SDN控制器接收到所有分布节点的完成信息后,下发Packet-out消息通知各分布节点将分类器模型传输到任务节点;
(b)分类器模型集成:主要针对各分布节点训练得到的分类器模型进行赋权、回归,本次模型训练工作结束;
(i)按照各类型分类器的准确率的高低进行排序,对高准确率的分类器赋予较高的权重,相应的,准确率低的分类器的权重就低;
(ii)对不同类型的分类器模型进行集成得最终分类器模型,最终分类器的输出结果等于各分类器加权投票后的最大值;
C=Max{w1*C1,……,wj*Cj}
其中,C为最终分类器的分类结果输出,表示第j类分类器的权重,表示第j类分类器的输出结果,其值由同类别的各分类器结果多数投票(即少数服从多数的大数原则)获得;
⑤SDN控制器定期通知分布节点执行分类器训练流程(ii-v),更新分布节点模型,以更新最终分类器模型;
(2)图像分类识别:
①待检测数据准备:任务节点定期启动网络爬虫工具,获取一段时间内的新出现的网络资质图像数据;
②对待检测网络资质图像利用最终分类器模型进行资质图像分类识别;
(3)数据库比对:
将图像分类结果与各网站所属企业、单位的资质备份数据库对比,判断其是否合法。
2.根据权利要求1所述的一种SDN架构下的基于集成学习的网络资质图片鉴别方法,其特征在于:所述节点数据准备及处理过程中,训练集和测试集的比例为7:3。
3.根据权利要求1所述的一种SDN架构下的基于集成学习的网络资质图片鉴别方法,其特征在于:所述图像SIFT特征提取包括以下步骤:1)多尺度空间极值点检测:搜索所有尺度上的图像位置,通过高斯微分函数来识别潜在的对于尺度和旋转不变的候选关键点;2)关键点的精确定位:在每个候选的位置上,通过一个拟合精细的模型来确定位置和尺度,同时关键点的选择依据于它们的稳定程度;3)关键点的主方向计算:基于图像局部的梯度方向,分配给每个关键点位置一个或多个方向,所有后面的对图像数据的操作都相对于关键点的方向、尺度和位置进行变换,从而提供对于这些变换的不变性;4)描述子的构造:在每个关键点周围的邻域内,在选定的尺度上测量图像局部的梯度;这些梯度被变换成一种表示,这种表示允许比较大的局部形状的变形和光照变化。
4.根据权利要求1所述的一种SDN架构下的基于集成学习的网络资质图片鉴别方法,其特征在于:所述SIFT图像特征提取中的图片特征维数为128维。
5.根据权利要求1所述的一种SDN架构下的基于集成学习的网络资质图片鉴别方法,其特征在于:所述K-means聚类算法包括以下步骤:1)初始化:输入数据点集合X,并指定聚类类数N,在X中随机选取N个对象作为初始聚类中心;2)设定迭代终止条件:比如最大循环次数或者聚类中心收敛误差容限;3)更新样本属于哪个类:计算每个对象与各个种子聚类中心之间的距离,把每个对象分配给距离它最近的聚类中心;4):更新类的聚类中心,每分配一个样本,聚类的聚类中心会根据聚类中现有的对象被重新计算;反复执行第3步和第4步直至满足某个终止条件,终止条件可以是没有(或最小数目)对象被重新分配给不同的聚类,没有(或最小数目)聚类中心再发生变化,误差平方和局部最小。
6.根据权利要求1所述的一种SDN架构下的基于集成学习的网络资质图片鉴别方法,其特征在于:所述分布节点模型训练过程中采用支持向量机、神经网络(NB)和K近邻(KNN)算法3种分类方法,共计在9个分布节点上分别弱分类器训练,即最后产生SVM、神经网络(NB)及K近邻(KNN)算法模型各三个。
CN202010066749.1A 2020-01-20 2020-01-20 一种sdn架构下的基于集成学习的网络资质图片鉴别方法 Withdrawn CN111275114A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010066749.1A CN111275114A (zh) 2020-01-20 2020-01-20 一种sdn架构下的基于集成学习的网络资质图片鉴别方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010066749.1A CN111275114A (zh) 2020-01-20 2020-01-20 一种sdn架构下的基于集成学习的网络资质图片鉴别方法

Publications (1)

Publication Number Publication Date
CN111275114A true CN111275114A (zh) 2020-06-12

Family

ID=71003315

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010066749.1A Withdrawn CN111275114A (zh) 2020-01-20 2020-01-20 一种sdn架构下的基于集成学习的网络资质图片鉴别方法

Country Status (1)

Country Link
CN (1) CN111275114A (zh)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111756760A (zh) * 2020-06-28 2020-10-09 深圳壹账通智能科技有限公司 基于集成分类器的用户异常行为检测方法及相关设备
CN111899035A (zh) * 2020-07-31 2020-11-06 西安加安信息科技有限公司 一种高端酒水鉴真的方法、移动终端和计算机存储介质
CN112507895A (zh) * 2020-12-14 2021-03-16 广东电力信息科技有限公司 基于大数据分析自动归类资质证书文件的方法及装置
CN114401192A (zh) * 2021-12-20 2022-04-26 广西壮族自治区公众信息产业有限公司 一种多sdn控制器协同训练方法

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111756760A (zh) * 2020-06-28 2020-10-09 深圳壹账通智能科技有限公司 基于集成分类器的用户异常行为检测方法及相关设备
CN111899035A (zh) * 2020-07-31 2020-11-06 西安加安信息科技有限公司 一种高端酒水鉴真的方法、移动终端和计算机存储介质
CN111899035B (zh) * 2020-07-31 2024-04-30 西安加安信息科技有限公司 一种高端酒水鉴真的方法、移动终端和计算机存储介质
CN112507895A (zh) * 2020-12-14 2021-03-16 广东电力信息科技有限公司 基于大数据分析自动归类资质证书文件的方法及装置
CN114401192A (zh) * 2021-12-20 2022-04-26 广西壮族自治区公众信息产业有限公司 一种多sdn控制器协同训练方法
CN114401192B (zh) * 2021-12-20 2024-02-06 广西壮族自治区公众信息产业有限公司 一种多sdn控制器协同训练方法

Similar Documents

Publication Publication Date Title
CN111275114A (zh) 一种sdn架构下的基于集成学习的网络资质图片鉴别方法
Cai et al. Heterogeneous image feature integration via multi-modal spectral clustering
CN111126482B (zh) 一种基于多分类器级联模型的遥感影像自动分类方法
CN109002834B (zh) 基于多模态表征的细粒度图像分类方法
CN111191732A (zh) 一种基于全自动学习的目标检测方法
CN105701502A (zh) 一种基于蒙特卡罗数据均衡的图像自动标注方法
CN104392250A (zh) 一种基于MapReduce的图像分类方法
CN110378366A (zh) 一种基于耦合知识迁移的跨域图像分类方法
Afsari et al. Group action induced distances for averaging and clustering linear dynamical systems with applications to the analysis of dynamic scenes
CN107451597A (zh) 一种样本类别标签纠正方法及装置
CN106250909A (zh) 一种基于改进视觉词袋模型的图像分类方法
Cao et al. Local information-based fast approximate spectral clustering
Zhang et al. Large-scale aerial image categorization using a multitask topological codebook
CN103605711A (zh) 支持向量机分类器的构造方法及装置、分类方法及装置
Liu et al. Convolutional fine-grained classification with self-supervised target relation regularization
CN112511547A (zh) 基于Spark和聚类的网络异常流量分析方法及系统
CN110751027A (zh) 一种基于深度多示例学习的行人重识别方法
CN111178196B (zh) 一种细胞分类的方法、装置及设备
CN104036021A (zh) 混合生成式和判别式学习模型的图像语义标注方法
CN109978051A (zh) 基于混合神经网络的监督分类方法
CN112632857A (zh) 一种配电网的线损确定方法、装置、设备和存储介质
Liu et al. A weight-incorporated similarity-based clustering ensemble method
Li et al. Few-shot meta-learning on point cloud for semantic segmentation
CN111461130A (zh) 一种高精度图像语义分割算法模型及分割方法
Liu et al. PGR-Net: A parallel network based on group and regression for age estimation

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
WW01 Invention patent application withdrawn after publication
WW01 Invention patent application withdrawn after publication

Application publication date: 20200612