CN111275114A

CN111275114A - 一种sdn架构下的基于集成学习的网络资质图片鉴别方法

Info

Publication number: CN111275114A
Application number: CN202010066749.1A
Authority: CN
Inventors: 黄惠芬
Original assignee: Individual
Current assignee: Individual
Priority date: 2020-01-20
Filing date: 2020-01-20
Publication date: 2020-06-12

Abstract

本发明公开了一种SDN架构下的基于集成学习的网络资质图片鉴别方法，属于网络技术领域，包括以下步骤：模型训练、图像分类识别和数据库比对；本发明的有益效果是：本发明利用SDN控制器获悉网络拓扑及节点状况，选择当前任务较少的节点为弱分类器训练节点，节点任务完成以后，将训练后的弱分类器根据验证准确度进行赋权、回归，得到最后分类器模型，本发明利用SDN架构，提高网络节点利用率，具有较快的运行速率；将集成学习思想应用于网络资质图像的分类识别中，识别准确率高。

Description

一种SDN架构下的基于集成学习的网络资质图片鉴别方法

技术领域

本发明属于网络技术领域，具体涉及一种SDN架构下的基于集成学习的网络资质图片鉴别方法。

背景技术

资质证明大体可以分为两类，一类是单位的，包括机关、团体、法人、企业等非自然人的实体或其下属部门的，另一类是个人的，它是说明单位或个人做事的一种资格，资质图片是资质证明的图片。

现有技术存在以下问题：现有分类模型训练时间较长、训练准确度不高等。

发明内容

为解决上述背景技术中提出的问题。本发明提供了一种SDN架构下的基于集成学习的网络资质图片鉴别方法，具有较快的运行速率，训练时间短以及识别准确率高的特点。

为实现上述目的，本发明提供如下技术方案：一种SDN架构下的基于集成学习的网络资质图片鉴别方法，包括以下步骤：

(1)模型训练：

①任务基础设置：目前网络较为主流的资质图像按照是否合法分成两大类，并且将合法的资质图像分成五类，即安全生产许可证、经营许可证、省级文明单位证、食品卫生许可证及工程设计许可证；

②分布节点(即弱分类器模型训练节点)选择：

(a)SDN控制器计算节点资源忙闲程度:SDN控制器可以掌控全局网络拓扑，并且可以判断各节点的忙闲状态；根据弱分类器模型训练的要求，各节点的忙闲状态反映其资源使用情况，主要由内存、CPU、交换带宽等物理资源占用情况来决定；将物理资源占比定义为已用和总量的比值，且状态如下：

(b)SDN控制器选择弱分类器模型训练节点的方法如下：

(i)针对每一个节点，计算其物理资源占用比，判断其忙闲状态：

分别计算该节点的内存、CPU及交换带宽的占用比，

if内存、CPU、交换带宽占用比全部＜70％，

该节点为空闲节点，

If三项占用比＜40％，

最优空闲节点，

End，

Else，

该节点为忙节点，

End；

(ii)将所有空闲节点进行优先级排序，依据是：最优空闲节点优先，且与任务节点路由距离为次排序标准；

(iii)选择排序最靠前的9个节点作为弱分类器模型训练的节点；

(c)SDN控制器将相应任务流表下发到SDN交换机：SDN控制器向各分布节点相连的SDN交换机下发“Packet-out”消息，以通知执行任务的分布节点的物理地址信息、路由信息、任务节点相关信息；

③分布节点进行弱分类器模型训练：

(a)节点数据准备及处理：分布节点接收到交换机的任务相关信息之后，启动弱分类器模型训练任务，首先将网络图片采用爬虫技术下载各类资质图片到制定目录，以形成本发明所需的各类图像的训练子集和验证子集；生成训练集和验证集图像的文件列表；对图像归一化预处理：所有图片样本的尺寸是256*256，选取常见5类资质图像，每类图像2000幅，为每幅图像的标签是5种资质图像分类标签中的一种，并下载非资质图片为5000幅，按比例分成训练集和测试集；

(b)网络图像特征提取：针对资质图像的特殊性，采用SIFT特征，该特征具有尺度不变性，即使改变旋转角度、图像亮度或拍摄视角，仍然能够得到好的检测效果，流程如下：

(i)提取每幅图像的sift特征，此时每幅图的特征数量不固定，但是每个特征的维数是确定的；

(ii)利用K-均值聚类方法将上述特征聚类为固定数量为100的特征；

(iii)对100个特征值进行归一化处理；

(iv)将训练集和验证集每幅图的100个特征向量及其所属分类标签分别作为模型训练和预测验证的输入；

(c)分布节点模型训练：在各节点利进行一个弱分类器训练，获得用于资质图像分类的弱分类器模型，产生节点训练模型，分类问题可以定义为：已知集合C＝{y₁，y₂，…，y_n}和x＝{x₁，x₂，…}，存在映射y＝f(x)，使任意x_i∈X,存在y_i∈C,y_i＝f(x_i)成立；

(i)SVM模型训练：SVM是以最优化理论为基础来处理机器学习的方式，主要是用来解决两类分类的问题，在两类中寻找一个最优超分平面将两类分开；SVM是二分类的分类器模型，本发明中有五类，标签为1,2,3,4,5；训练过程中，进行二分类模型组合(1,2),(1,3),(1,4),(1,5),(2,3),(2,4),(2,5),(3,4),(3,5),(4,5),将所对应的特征向量作为训练集，得到十个分类结果，对十个结果采取大数投票形式，得到该分类器结果；

(ii)SVM模型验证：将验证集图像特征向量输入至分类器模型，获得预测分类结果，将其与自身所属类别标签对比，计算分布节点模型准确度：

(d)分布节点任务完成：各分布节点模型训练结束后，通过相连的SDN交换机发送任务完成消息到SDN控制器；

④最终分类器模型生成

(a)SDN控制器接收到所有分布节点的完成信息后，下发Packet-out消息通知各分布节点将分类器模型传输到任务节点；

(b)分类器模型集成：主要针对各分布节点训练得到的分类器模型进行赋权、回归，本次模型训练工作结束；

(i)按照各类型分类器的准确率的高低进行排序，对高准确率的分类器赋予较高的权重，相应的，准确率低的分类器的权重就低；

(ii)对不同类型的分类器模型进行集成得最终分类器模型，最终分类器的输出结果等于各分类器加权投票后的最大值；

C＝Max{w₁*C₁，……，w_j*C_j}

其中，C为最终分类器的分类结果输出，表示第j类分类器的权重，表示第j类分类器的输出结果，其值由同类别的各分类器结果多数投票(即少数服从多数的大数原则)获得；

⑤SDN控制器定期通知分布节点执行分类器训练流程(ii-v)，更新分布节点模型，以更新最终分类器模型；

(2)图像分类识别：

①待检测数据准备：任务节点定期启动网络爬虫工具，获取一段时间内的新出现的网络资质图像数据；

②对待检测网络资质图像利用最终分类器模型进行资质图像分类识别；

(3)数据库比对：

将图像分类结果与各网站所属企业、单位的资质备份数据库对比，判断其是否合法。

在本发明中进一步的，所述节点数据准备及处理过程中，训练集和测试集的比例为7：3。

在本发明中进一步的，所述图像SIFT特征提取包括以下步骤：1)多尺度空间极值点检测：搜索所有尺度上的图像位置，通过高斯微分函数来识别潜在的对于尺度和旋转不变的候选关键点；2)关键点的精确定位：在每个候选的位置上，通过一个拟合精细的模型来确定位置和尺度，同时关键点的选择依据于它们的稳定程度；3)关键点的主方向计算：基于图像局部的梯度方向，分配给每个关键点位置一个或多个方向，所有后面的对图像数据的操作都相对于关键点的方向、尺度和位置进行变换，从而提供对于这些变换的不变性；4)描述子的构造：在每个关键点周围的邻域内，在选定的尺度上测量图像局部的梯度；这些梯度被变换成一种表示，这种表示允许比较大的局部形状的变形和光照变化。

在本发明中进一步的，所述SIFT图像特征提取中的图片特征维数为128维。

在本发明中进一步的，所述K-means聚类算法包括以下步骤：1)初始化：输入数据点集合X，并指定聚类类数N，在X中随机选取N个对象作为初始聚类中心；2)设定迭代终止条件：比如最大循环次数或者聚类中心收敛误差容限；3)更新样本属于哪个类：计算每个对象与各个种子聚类中心之间的距离，把每个对象分配给距离它最近的聚类中心；4)：更新类的聚类中心，每分配一个样本，聚类的聚类中心会根据聚类中现有的对象被重新计算；反复执行第3步和第4步直至满足某个终止条件，终止条件可以是没有(或最小数目)对象被重新分配给不同的聚类，没有(或最小数目)聚类中心再发生变化，误差平方和局部最小。

在本发明中进一步的，所述分布节点模型训练过程中采用支持向量机、神经网络(NB)和K近邻(KNN)算法3种分类方法，共计在9个分布节点上分别弱分类器训练，即最后产生SVM、神经网络(NB)及K近邻(KNN)算法模型各三个。

与现有技术相比，本发明的有益效果是：

本发明利用SDN控制器获悉网络拓扑及节点状况，选择当前任务较少的节点为弱分类器训练节点，节点任务完成以后，将训练后的弱分类器根据验证准确度进行赋权、回归，得到最后分类器模型，本发明利用SDN架构，提高网络节点利用率，具有较快的运行速率；将集成学习思想应用于网络资质图像的分类识别中，识别准确率高。

附图说明

图1为本发明鉴别流程的结构示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

实施例1

请参阅图1，本发明提供以下技术方案：一种SDN架构下的基于集成学习的网络资质图片鉴别方法，包括以下步骤：

(1)模型训练：

②分布节点(即弱分类器模型训练节点)选择：

(b)SDN控制器选择弱分类器模型训练节点的方法如下：

分别计算该节点的内存、CPU及交换带宽的占用比，

if内存、CPU、交换带宽占用比全部＜70％，

该节点为空闲节点，

If三项占用比＜40％，

最优空闲节点，

End，

Else，

该节点为忙节点，

End；

③分布节点进行弱分类器模型训练：

(a)节点数据准备及处理：分布节点接收到交换机的任务相关信息之后，启动弱分类器模型训练任务，首先将网络图片采用爬虫技术下载各类资质图片到制定目录，以形成本发明所需的各类图像的训练子集和验证子集；生成训练集和验证集图像的文件列表；对图像归一化预处理：所有图片样本的尺寸是256*256，选取常见5类资质图像，每类图像2000幅，为每幅图像的标签是5种资质图像分类标签中的一种，并下载非资质图片为5000幅，按比例分成训练集和测试集，为了具有更好的效果，本实施例中，优选的，所述节点数据准备及处理过程中，训练集和测试集的比例为7：3；

(i)提取每幅图像的sift特征，为了具有尺度不变性，即使改变旋转角度、图像亮度或拍摄视角，仍然能够得到好的检测效果，本实施例中，优选的，所述图像SIFT特征提取包括以下步骤：1)多尺度空间极值点检测：搜索所有尺度上的图像位置，通过高斯微分函数来识别潜在的对于尺度和旋转不变的候选关键点；2)关键点的精确定位：在每个候选的位置上，通过一个拟合精细的模型来确定位置和尺度，同时关键点的选择依据于它们的稳定程度；3)关键点的主方向计算：基于图像局部的梯度方向，分配给每个关键点位置一个或多个方向，所有后面的对图像数据的操作都相对于关键点的方向、尺度和位置进行变换，从而提供对于这些变换的不变性；4)描述子的构造：在每个关键点周围的邻域内，在选定的尺度上测量图像局部的梯度，这些梯度被变换成一种表示，这种表示允许比较大的局部形状的变形和光照变化，此时每幅图的特征数量不固定，但是每个特征的维数是确定的，为了具有更好的效果，本实施例中，优选的，所述SIFT图像特征提取中的图片特征维数为128维；

(ii)利用K-均值聚类方法将上述特征聚类为固定数量为100的特征，为了具有更好的效果，本实施例中，优选的，所述K-means聚类算法包括以下步骤：1)初始化：输入数据点集合X，并指定聚类类数N，在X中随机选取N个对象作为初始聚类中心；2)设定迭代终止条件：比如最大循环次数或者聚类中心收敛误差容限；3)更新样本属于哪个类：计算每个对象与各个种子聚类中心之间的距离，把每个对象分配给距离它最近的聚类中心；4)：更新类的聚类中心，每分配一个样本，聚类的聚类中心会根据聚类中现有的对象被重新计算；反复执行第3步和第4步直至满足某个终止条件，终止条件可以是没有(或最小数目)对象被重新分配给不同的聚类，没有(或最小数目)聚类中心再发生变化，误差平方和局部最小；

(iii)对100个特征值进行归一化处理；

(c)分布节点模型训练：在各节点利进行一个弱分类器训练，获得用于资质图像分类的弱分类器模型，产生节点训练模型，分类问题可以定义为：已知集合C＝{y₁，y₂，…，y_n}和X＝{x₁，x₂，…}，存在映射y＝f(x)，使任意x_i∈X,存在y_i∈C,y_i＝f(x_i)成立，为了避免由于单节点、单分类模型训练产生的数据及模型偏差，本实施例中，优选的，所述分布节点模型训练过程中采用支持向量机(SupportVectorMachine，简称SVM)、神经网络(NB)和K近邻(KNN)算法3种分类方法，共计在9个分布节点上分别弱分类器训练，即最后产生SVM、神经网络(NB)及K近邻(KNN)算法模型各三个；

④最终分类器模型生成

C＝Max{w₁*C₁，……，w_j*C_j}

(2)图像分类识别：

(3)数据库比对：

本实施例的工作原理：本发明实施过程分为模型训练、图像分类识别及数据库比对三部分，具体步骤如下：

(1)模型训练：

②分布节点(即弱分类器模型训练节点)选择：

(b)SDN控制器选择弱分类器模型训练节点的方法如下：

分别计算该节点的内存、CPU及交换带宽的占用比，

if内存、CPU、交换带宽占用比全部＜70％，

该节点为空闲节点，

If三项占用比＜40％，

最优空闲节点，

End，

Else，

该节点为忙节点，

End；

③分布节点进行弱分类器模型训练：

(a)节点数据准备及处理：分布节点接收到交换机的任务相关信息之后，启动弱分类器模型训练任务，首先将网络图片采用爬虫技术下载各类资质图片到制定目录，以形成本发明所需的各类图像的训练子集和验证子集；生成训练集和验证集图像的文件列表；对图像归一化预处理：所有图片样本的尺寸是256*256，选取常见5类资质图像，每类图像2000幅，为每幅图像的标签是5种资质图像分类标签中的一种，并下载非资质图片为5000幅，按7：3的比例分成训练集和测试集；

(i)提取每幅图像的sift特征，(图像SIFT特征提取包括以下步骤：1)多尺度空间极值点检测：搜索所有尺度上的图像位置，通过高斯微分函数来识别潜在的对于尺度和旋转不变的候选关键点；2)关键点的精确定位：在每个候选的位置上，通过一个拟合精细的模型来确定位置和尺度，同时关键点的选择依据于它们的稳定程度；3)关键点的主方向计算：基于图像局部的梯度方向，分配给每个关键点位置一个或多个方向，所有后面的对图像数据的操作都相对于关键点的方向、尺度和位置进行变换，从而提供对于这些变换的不变性；4)描述子的构造：在每个关键点周围的邻域内，在选定的尺度上测量图像局部的梯度，这些梯度被变换成一种表示，这种表示允许比较大的局部形状的变形和光照变化)，此时每幅图的特征数量不固定，但是每个特征的维数是确定的，图片特征维数为128维；

(ii)利用K-均值聚类方法(K-means聚类算法包括以下步骤：1)初始化：输入数据点集合X，并指定聚类类数N，在X中随机选取N个对象作为初始聚类中心；2)设定迭代终止条件：比如最大循环次数或者聚类中心收敛误差容限；3)更新样本属于哪个类：计算每个对象与各个种子聚类中心之间的距离，把每个对象分配给距离它最近的聚类中心；4)：更新类的聚类中心，每分配一个样本，聚类的聚类中心会根据聚类中现有的对象被重新计算；反复执行第3步和第4步直至满足某个终止条件，终止条件可以是没有(或最小数目)对象被重新分配给不同的聚类，没有(或最小数目)聚类中心再发生变化，误差平方和局部最小)将上述特征聚类为固定数量为100的特征；

(iii)对100个特征值进行归一化处理；

(c)分布节点模型训练：在各节点利进行一个弱分类器训练，获得用于资质图像分类的弱分类器模型，产生节点训练模型，分类问题可以定义为：已知集合C＝{y₁，y₂，…，y_n}和X＝{x₁，x₂，…}，存在映射y＝f(x)，使任意x_i∈X,存在y_i∈C,y_i＝f(x_i)成立，分布节点模型训练过程中采用支持向量机(SupportVectorMachine，简称SVM)、神经网络(NB)和K近邻(KNN)算法3种分类方法，共计在9个分布节点上分别弱分类器训练，即最后产生SVM、神经网络(NB)及K近邻(KNN)算法模型各三个，目的是为了避免由于单节点、单分类模型训练产生的数据及模型偏差；

④最终分类器模型生成

C＝Max{w₁*C₁，……，w_j*C_j}

(2)图像分类识别：

(3)数据库比对：

尽管已经示出和描述了本发明的实施例，对于本领域的普通技术人员而言，可以理解在不脱离本发明的原理和精神的情况下可以对这些实施例进行多种变化、修改、替换和变型，本发明的范围由所附权利要求及其等同物限定。

Claims

1.一种SDN架构下的基于集成学习的网络资质图片鉴别方法，包括以下步骤：

(1)模型训练：

②分布节点(即弱分类器模型训练节点)选择：

(b)SDN控制器选择弱分类器模型训练节点的方法如下：

分别计算该节点的内存、CPU及交换带宽的占用比，

if内存、CPU、交换带宽占用比全部＜70％，

该节点为空闲节点，

If三项占用比＜40％，

最优空闲节点，

End，

Else，

该节点为忙节点，

End；

③分布节点进行弱分类器模型训练：

(iii)对100个特征值进行归一化处理；

④最终分类器模型生成

C＝Max{w₁*C₁，……，w_j*C_j}

(2)图像分类识别：

(3)数据库比对：

2.根据权利要求1所述的一种SDN架构下的基于集成学习的网络资质图片鉴别方法，其特征在于：所述节点数据准备及处理过程中，训练集和测试集的比例为7：3。

3.根据权利要求1所述的一种SDN架构下的基于集成学习的网络资质图片鉴别方法，其特征在于：所述图像SIFT特征提取包括以下步骤：1)多尺度空间极值点检测：搜索所有尺度上的图像位置，通过高斯微分函数来识别潜在的对于尺度和旋转不变的候选关键点；2)关键点的精确定位：在每个候选的位置上，通过一个拟合精细的模型来确定位置和尺度，同时关键点的选择依据于它们的稳定程度；3)关键点的主方向计算：基于图像局部的梯度方向，分配给每个关键点位置一个或多个方向，所有后面的对图像数据的操作都相对于关键点的方向、尺度和位置进行变换，从而提供对于这些变换的不变性；4)描述子的构造：在每个关键点周围的邻域内，在选定的尺度上测量图像局部的梯度；这些梯度被变换成一种表示，这种表示允许比较大的局部形状的变形和光照变化。

4.根据权利要求1所述的一种SDN架构下的基于集成学习的网络资质图片鉴别方法，其特征在于：所述SIFT图像特征提取中的图片特征维数为128维。

5.根据权利要求1所述的一种SDN架构下的基于集成学习的网络资质图片鉴别方法，其特征在于：所述K-means聚类算法包括以下步骤：1)初始化：输入数据点集合X，并指定聚类类数N，在X中随机选取N个对象作为初始聚类中心；2)设定迭代终止条件：比如最大循环次数或者聚类中心收敛误差容限；3)更新样本属于哪个类：计算每个对象与各个种子聚类中心之间的距离，把每个对象分配给距离它最近的聚类中心；4)：更新类的聚类中心，每分配一个样本，聚类的聚类中心会根据聚类中现有的对象被重新计算；反复执行第3步和第4步直至满足某个终止条件，终止条件可以是没有(或最小数目)对象被重新分配给不同的聚类，没有(或最小数目)聚类中心再发生变化，误差平方和局部最小。

6.根据权利要求1所述的一种SDN架构下的基于集成学习的网络资质图片鉴别方法，其特征在于：所述分布节点模型训练过程中采用支持向量机、神经网络(NB)和K近邻(KNN)算法3种分类方法，共计在9个分布节点上分别弱分类器训练，即最后产生SVM、神经网络(NB)及K近邻(KNN)算法模型各三个。