CN111832466A

CN111832466A - 基于vgg网络的暴力分拣识别方法、装置、设备及存储介质

Info

Publication number: CN111832466A
Application number: CN202010654232.4A
Authority: CN
Inventors: 李斯; 赵齐辉
Original assignee: Dongpu Software Co Ltd
Current assignee: Dongpu Software Co Ltd
Priority date: 2020-07-08
Filing date: 2020-07-08
Publication date: 2020-10-27

Abstract

本发明提供一种基于VGG网络的暴力分拣识别方法、装置、设备及存储介质，其中，暴力分拣识别方法包括步骤：S100：在原VGG16网络的基础上，对VGG16网络的Flatten层进行替换，以构建不同于原VGG16网络架构的VGG网络；S200：通过DSS监控平台获取训练样本，并根据预设训练条件对VGG网络进行训练；S300：将待识别的暴力分拣图像导入已训练的VGG网络中进行识别，以对暴力分拣图像中的人员分拣货物进行识别。采用GlobalAveragePooling2D对VGG16网络的Flatten层进行替换，增加了VGG16网络中各网络层之间的联系，根据预设训练条件地VGG网络进行训练，可以根据训练情况动态调整学习率，前期有助于VGG网络的探索，及后期有助于VGG网络局部收敛。

Description

基于VGG网络的暴力分拣识别方法、装置、设备及存储介质

技术领域

本发明涉及快递分拣技术领域，具体涉及一种基于VGG网络的暴力分拣识别方法、装置、终端设备及存储介质。

背景技术

近年来，快递行业快速发展，快递乱丢以及快件遭到破坏的投诉现象剧增。其投诉原因表面上是从业人员服务水平差，但追根究底，民营快递多以加盟制为主，由于管理松散、准入门槛低，对基层网点的管理和员工培训很难做到严格规范。其中，暴力分拣是一个十分突出的问题。货物分拣是快递行业的中间过程，由于工作量大，经常出现员工不按规范操作，以扔的方式将物品归类，包装盒内的物品极易受损，如果分拣的时候动作幅度较大或者违规操作会破损货物。

基于上述的问题，目前所使用的解决方案是通过人力监控以及客户的反馈对业务员的评分，根据评分对业务员进行处理，但是这样的监控方式效率太低，同时也需要消耗过多的人力资源，这样并不划算。现有技术采用AI技术对暴力分拣进行监控，但是目前AI技术应用水平不足，因此，尚未有一套算法应用于人员分拣货物识别。

发明内容

针对暴力分拣识别过程中存在的问题，本申请提供基于VGG网络的暴力分拣识别方法、装置、设备及存储介质，通过对VGG网络进行调整，增加网络层之间的联系，动态调整学习率，提高VGG网络的快速收敛性，进而提高暴力分拣识别的速度和准确率。

本发明提供的技术方案如下：

本发明提供一种基于VGG网络的暴力分拣识别方法，包括步骤：

S100：在原VGG16网络的基础上，对VGG16网络的Flatten层进行替换，以构建不同于原VGG16网络架构的VGG网络；

S200：通过DSS监控平台获取训练样本，并根据预设训练条件对所述VGG网络进行训练：

S300：将待识别的暴力分拣图像导入已训练的VGG网络中进行识别，以对所述暴力分拣图像中的人员分拣货物进行识别。

进一步优选的，所述对VGG16网络的Flatten层进行替换，具体为：采用GlobalAveragePooling2D替换Flatten层。

进一步优选的，所述步骤S200具体包括步骤：

S201：通过DSS监控平台获取若干训练样本，所述若干训练样本包括第一类型图像和第二类型图像，所述第一类型图像的内容包括人员、货物及装载货物的货车；

S202：根据预设比例将所述若干训练样本分类为训练集和测试集；

S203：根据所述预设训练条件对所述VGG网络进行调整；

S204：将所述训练集导入调整后的VGG网络进行训练；

S205：将所述测试集导入训练后的VGG网络进行测试；

S206：重复步骤S203至S205，直到获取满足要求的VGG网络。

进一步优选的，所述预设训练条件包括学习率动态递减，损失函数在不降低的条件下VGG网络停止训练。

进一步优选的，所述学习率采用指数递减，计算公为：

，其中，LR为学习率，LRB为学习率基数，LRD为学习率衰减率，

为学习率衰减率指数，

global_step为运行BATCH_SIZE的轮数，learnign_rate_step＝训练样本总数/BATCH_SIZE。

进一步优选的，所述VGG网络的参数的更新计算公式为：

，w_n+1为更新后的参数，w_n为当前参数，

为损失函数的梯度。

本发明还提供一种基于VGG网络的暴力分拣识别装置，包括：

VGG网络构建模块，用于在原VGG16网络的基础上，对VGG16网络的Flatten层进行替换，以构建不同于原VGG16网络架构的VGG网络；

训练模块，用于通过DSS监控平台获取训练样本，并根据预设训练条件对所述VGG网络进行训练：

识别模块，用于将待识别的暴力分拣图像导入已训练的VGG网络中进行识别，以对所述暴力分拣图像中的人员分拣货物进行识别。

本发明还提供一种暴力分拣识别设备，包括处理器和存储器，所述存储器中存储有至少一条指令、至少一段程序、代码集或指令集，所述至少一条指令、所述至少一段程序、所述代码集或所述指令集由所述处理器加载并执行以实现上述的暴力分拣识别方法。

本发明还提供一种计算机可读存储介质，所述计算机可读存储介质上存储有计算机程序，所述计算机程序被处理器执行时实现上述的暴力分拣识别方法。

通过本发明提供的基于VGG网络的暴力分拣识别方法、装置、设备及存储介质，带来的有益效果是：采用GlobalAveragePooling2D对VGG16网络的Flatten层进行替换，增加了VGG16网络中各网络层之间的联系，根据预设训练条件地VGG网络进行训练，可以根据训练情况动态调整学习率，前期有助于VGG网络的探索，及后期有助于VGG网络局部收敛。

附图说明

图1为暴力分拣识别方法流程图；

图2为VGG16网络架构图；

图3为VGG16网络卷积计算示意图；

图4为GlobalAveragePooling2D原理图；

图5为本申请暴力分拣识别结果示意图；

图6为暴力分拣识别装置原理图；

图7为暴力分拣识别设备原理图。

具体实施方式

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对照附图说明本发明的具体实施方式。显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图，并获得其他的实施方式。

在快递行业中，不论是分拨中心还是网点，暴力分拣是不可避免的一种货物分拣行为，基于暴力分拣所带来的货物损坏等问题，常常需要对暴力分拣进行识别，优其是在分拨中心，暴力分拣识别的过程是先识别出人员在货车上分拣货物的状态，然后再基于该人员的动作或货物的分拣状态，进一步判断该人员的分拣动作是否是暴力分拣，由于在分拨中心，因为货车到站不是所有时间段都处于卸货状态，所以先对人员在货车内的状态进行识别，基于此，本申请提供一种基于VGG网络的暴力分拣识别方法，具体是对人员分拣货物进行识别。下面通过以下实施例对本发明的构思进行详细说明。

实施例一：

本实施例提供一种基于VGG网络的暴力分拣识别方法，其流程图如图1所示，具体包括以下步骤。

S100：在原VGG16网络的基础上，对VGG16网络的Flatten层进行替换，以构建不同于原VGG16网络架构的VGG网络。

S200：通过DSS监控平台获取训练样本，并根据预设训练条件对所述VGG网络进行训练。

在对上述步骤S100-S300进行具体描述之前，本实施例先对现有的VGG16网络进行描述。

现有的VGG16网络如图2所示，包括以下各网络层：

(1)包含13个卷积层，每个卷积层都不会改变前一层的特征图长和宽；通过Conv可以实现通道数的增加。假设输入图片尺寸为(batch_size，3，224，224)，如果希望这一层的输出特征图尺寸为(batch_size，64，224，224)，需要使用64个尺寸为3x3并且3个通道的卷积核。

(2)包含5个池化层，分别分布在2或者3次卷积以后。池化层的作用是降低特征图尺寸并且能提高网络抗干扰能力。假设上一层得到的特征图尺寸为(batch_size，64，224，224)，选取Max Pooling的核尺寸为2x2，每次移动两个步长，那么得到的输出特征图尺寸为(batch_size，64，112，112)。VGG16选取的是max pooling仅仅是各种池化方式中的一种，类似的池化还有均值池化等。

(3)包含3个全连接层，从现在普遍使用的pytorch与tensorflow框架上进行分析可知，卷积层的输入核输出应该是4D的张量(batch_size，channels，height，width)，而全连接的输入核输出应该是(batch_size，features_number)。因此，卷积层输出的特征图需要进行维度和尺寸变换操作，才能送入全连接层，因此，最后一层卷积层与全连接层之间设置有过渡层，该过渡层为Flatten层，Flatten层将池化后的数据拉平，变成一维向量来表示，方便输入到全连接层。最后一个全连接层输出的特征数量为1000，代表其功能为1000分类。

结合图2，现有VGG16网络的具体卷积计算如下：

1)输入图像尺寸为224x224x3，经64个通道为3的3x3的卷积核，步长为1，padding＝same填充，卷积两次，再经ReLU激活，输出的尺寸大小为224x224x64；

2)经max pooling(最大化池化)，滤波器为2x2，步长为2，图像尺寸减半，池化后的尺寸变为112x112x64；

3)经128个3x3的卷积核，两次卷积，ReLU激活，尺寸变为112x112x128

4)max pooling池化，尺寸变为56x56x128；

5)经256个3x3的卷积核，三次卷积，ReLU激活，尺寸变为56x56x256

6)max pooling池化，尺寸变为28x28x256；

7)经512个3x3的卷积核，三次卷积，ReLU激活，尺寸变为28x28x512

8)max pooling池化，尺寸变为14x14x512；

9)经512个3x3的卷积核，三次卷积，ReLU，尺寸变为14x14x512

10)max pooling池化，尺寸变为7x7x512；

11)然后Flatten层，将数据拉平成向量，变成一维7x7x512＝25088；

11)再经过两层1x1x4096，一层1x1x1000的全连接层(共三层)，经ReLU激活；

12)最后通过softmax输出1000个预测结果

原VGG16网络的结构并不复杂，而且这种网络结构很规整，都是几个卷积层后面跟着可以压缩图像大小的池化层，池化层缩小图像的高度和宽度。同时，卷积层的过滤器数量变化存在一定的规律，由64翻倍变成128，再到256和512。每一步都进行翻倍，或者说在每一组卷积层进行过滤器翻倍操作，这是设计此种网络结构的另一个简单原则，但是，原VGG16网络的主要缺点是需要训练的特征数量非常巨大，容易产生过拟合现象。

具体的，在卷积神经网络的最后，往往会出现一两层全连接层，全连接一般会把卷积输出的二维特征图转化成一维的一个向量，全连接层的每一个节点都与上一层每个节点连接，是把前一层的输出特征都综合起来，所以该层的权值参数是最多的。例如在VGG16中，第一个全连接层FC1有4096个节点，上一层POOL2是7*7*512＝25088个节点，则该传输需要4096*25088个权值，需要耗很大的内存。

如图3所示，最后的两列小圆球就是两个全连接层，在最后一层卷积结束后，进行了最后一次池化，输出了20个12*12的图像，然后通过了一个全连接层变成了1*100的向量。其原理是：有20*100个12*12的卷积核卷积出来的，对于输入的每一张图，用了一个和图像一样大小的核卷积，这样整幅图就变成了一个数，如果厚度是20就是那20个核卷积完了之后相加求和。这样就能把一张图高度浓缩成一个数。

因为传统的VGG16网络的输出都是分类，也就是几个类别的概率甚至就是一个数一类别号，因此，全连接层就是高度提纯的特征，以便发送给最后的分类器或者回归。

但是全连接层的参数实在是太多了，图3所示的图里就有20*12*12*100个参数。

基于此，本申请对原VGG16网络的架构进行调整，具体是对VGG16网络的Flatten层采用GlobalAveragePooling2D进行替换，以减少了参数的使用量，避免过拟合现象。

GlobalAveragePooling2D的工作原理如图4所示，假设卷积层的最后输出是h×w×d的三维特征图，具体大小为6×6×3，经过GAP(GlobalAveragePooling2D)转换后，变成了大小为1×1×3的输出值，也就是每一层h×w会被平均化成一个值。

GlobalAveragePooling2D的思想就是：用feature map直接表示属于某个类的confidence map，比如有10个类，就在最后输出10个feature map，每个feature map中的值加起来求平均值，这十个数字就是对应的概率或者叫置信度。然后把得到的这些平均值直接作为属于某个类别的confidence value，再输入softmax中分类。

基于上述描述，下面对本申请提供的暴力分拣识别方法的具体过程进行描述。

在步骤S100中，在原VGG16网络的基础上，采用GlobalAveragePooling2D替换Flatten层，以构建不同于原VGG16网络架构的VGG网络。本申请构建的VGG网络具有增加了各网络层之间联系的优点。

在步骤S200中，通过DSS监控平台获取训练样本，并根据预设训练条件对VGG网络进行训练。该步骤具体包括以下步骤：

S201：通过DSS监控平台获取若干训练样本。

DSS监控平台可以访问一局域网中的所有监控摄像头，且DSS监控平台具有自动截图功能，并以bmp格式保存截取的图像，因此，通过DSS监控平台可以获取所需的若干训练样本，例如，获取800张训练样本。

该训练样本可以分为两种类型：第一类型图像和第二类型图像，针对暴力分拣，第一类型图像的内容包括：人员、货物及装载货物的货车，第二类型图像为除第一类型图像之外的其他图像，例如，第二类型图像的内容仅包括货物、仅包括人员、或者仅包括货车等。

S202：根据预设比例将若干训练样本分类为训练集和测试集。

将步骤S202获得的若干训练样本按预设比例分类为训练集和测试集，例如，训练集为训练样本总数的90％，测试集为训练样本总数的10％。

S203：根据预设训练条件对VGG网络进行调整。

本实施例中的预设训练条件包括学习率动态递减和损失函数在不降低的条件下VGG网络停止训练，调整后的VGG网络前期较强有助于算法探索，后期较弱有助于局部收敛，能够达到快速收敛，节约训练时间的目的。

其中，学习率采用指数递减，计算公为：

其中，LR为学习率，LRB为学习率基数，LRD为学习率衰减率，

为学习率衰减率指数，

VGG网络的参数的更新计算公式为：

w_n+1为更新后的参数，w_n为当前参数，

为损失函数的梯度，其中，损失函数的表达式为loss＝(w+1)²。

S204：将训练集导入调整后的VGG网络进行训练。

选取BATCH_SIZE等于4，训练20个epoch，VGG网络信息以h5格式存入。

S205：将测试集导入训练后的VGG网络进行测试。

S206：重复步骤S203至S205，直到获取满足要求的VGG网络。

在S300中，将待识别的暴力分拣图像导入已训练的VGG网络中进行识别，以对暴力分拣图像中的人员分拣货物进行识别。

基于上述暴力分拣识别方法，当VGG网络训练完成后，选取一些图片，该图片来自非样本集，进行盲测，载入h5格式结尾的模型文件进行测试，输出该图片属于哪个分类，如图5所示。

本实施例提供的暴力分拣识别方法，采用GlobalAveragePooling2D对VGG16网络的Flatten层进行替换，增加了VGG16网络中各网络层之间的联系，根据预设训练条件地VGG网络进行训练，可以根据训练情况动态调整学习率，前期有助于VGG网络的探索，及后期有助于VGG网络局部收敛。

实施例二：

基于实施例一，本实施例提供一种基于VGG网络的暴力分拣识别装置，其原理图如图6所示，包括VGG网络构建模块100、训练模块200和识别模块300。

VGG网络构建模块100用于在原VGG16网络的基础上，对VGG16网络的Flatten层进行替换，以构建不同于原VGG16网络架构的VGG网络；具体的，采用GlobalAveragePooling2D替换Flatten层。

关于VGG16网络的结构及Flatten层和GlobalAveragePooling2D的工作原理，具体请参考实施例一，本实施例不作赘述。

训练模块200用于通过DSS监控平台获取训练样本，并根据预设训练条件对所述VGG网络进行训练。

进一步，训练模块200包括训练样本获取单元201、训练样本分类单元202、调整单元203、训练单元204和测试单元205。

训练样本获取单元201用于通过DSS监控平台获取若干训练样本，该若干训练样本包括第一类型图像和第二类型图像，所述第一类型图像的内容包括人员、货物及装载货物的货车；关于第二类型图像的定义请参考实施例一，本实施例不作赘述。

训练样本分类单元202用于根据预设比例将若干训练样本分类为训练集和测试集；训练样本分类单元202通过运行脚本代码进行分类，分成训练集和测试集，例如，训练集占训练样本总数的90％，测试集占训练样本总数的10％。

调整单元203用于根据预设训练条件对VGG网络进行调整。其中，预设训练条件包括学习率动态递减，损失函数在不降低的条件下VGG网络停止训练。

具体的，学习率采用指数递减，计算公为：

其中，LR为学习率，LRB为学习率基数，LRD为学习率衰减率，

为学习率衰减率指数，

VGG网络的参数的更新计算公式为：

w_n+1为更新后的参数，w_n为当前参数，

为损失函数的梯度。

训练单元204用于将训练集导入调整后的VGG网络进行训练。

测试单元205用于将测试集导入训练后的VGG网络进行测试。

识别模块300用于将待识别的暴力分拣图像导入已训练的VGG网络中进行识别，以对暴力分拣图像中的人员分拣货物进行识别。

本实施例提供的暴力分拣识别装置，采用GlobalAveragePooling2D对VGG16网络的Flatten层进行替换，增加了VGG16网络中各网络层之间的联系，根据预设训练条件地VGG网络进行训练，可以根据训练情况动态调整学习率，前期有助于VGG网络的探索，及后期有助于VGG网络局部收敛。

实施例三：

基于实施例一和实施例二，本实施例提供一种暴力分拣识别设备，该终端设备的原理图如图7所示，该设备700可以是平板电脑、笔记本电脑或台式电脑。终端设备700还可能被称为便携式终端、膝上型终端、台式终端等其他名称。

通常，终端设备700包括有处理器7001和存储器7002，处理器7001可以包括一个或多个处理核心，比如4核心处理器、8核心处理器等。处理器7001可以采用DSP(DigitalSignal Processing，数字信号处理)、FPGA(Field-Programmable Gate Array，现场可编程门阵列)、PLA(Programmable Logic Array，可编程逻辑阵列)中的至少一种硬件形式来实现。处理器7001也可以包括主处理器和协处理器，主处理器是用于对在唤醒状态下的数据进行处理的处理器，也称CPU(Central Processing Unit，中央处理器)；协处理器是用于对在待机状态下的数据进行处理的低功耗处理器。

在一些实施例中，处理器7001可以在集成有GPU(Graphics Processing Unit，图像处理器)，GPU用于负责显示屏所需要显示的内容的渲染和绘制。一些实施例中，处理器7001还可以包括AI(Artificial Intelligence，人工智能)处理器，该AI处理器用于处理有关机器学习的计算操作。

存储器7002可以包括一个或多个计算机可读存储介质，该计算机可读存储介质可以是非暂态的。存储器7002还可包括高速随机存取存储器，以及非易失性存储器，比如一个或多个磁盘存储设备、闪存存储设备。在一些实施例中，存储器7002中的非暂态的计算机可读存储介质用于存储至少一个指令、至少一段程序、代码集或指令集，该至少一条指令、至少一段程序、代码集或指令集用于被处理器7001所执行以实现本申请中实施例一提供的暴力分拣识别方法。

因此，本申请的设备700通过至少一条指令、至少一段程序、代码集或指令集执行实施例一提供的暴力分拣识别方法，具有以下优点：

采用GlobalAveragePooling2D对VGG16网络的Flatten层进行替换，增加了VGG16网络中各网络层之间的联系，根据预设训练条件地VGG网络进行训练，可以根据训练情况动态调整学习率，前期有助于VGG网络的探索，及后期有助于VGG网络局部收敛。

在一些实施例中，设备700还可选包括有：外围设备接口7003和至少一个外围设备。处理器7001、存储器7002和外围设备接口7003之间可以通过总线或信号线相连。各个外围设备可以通过总线、信号线或电路板与外围设备接口7003相连。

具体到本实施例中，为了实现暴力分拣识别，相应的外围设备包括DSS监控平台7004，DSS监控平台7004可以访问一局域网中的所有监控摄像头，且DSS监控平台7004具有自动截图功能，并以bmp格式保存截取的图像，因此，处理器7001通过DSS监控平台7004可以获取所需的若干训练样本，例如，获取800张训练样本。

本发明还提供一种计算机可读存储介质，该计算机可读存储介质可以为非易失性计算机可读存储介质，该计算机可读存储介质也可以为易失性计算机可读存储介质。该计算机可读存储介质中存储有指令，当该指令在计算机上运行时，使得计算机执行实施例一中的暴力分拣识别方法。

实施例二中的模块如果以软件功能模块的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(Read-only memory，ROM)、随机存取存储器(Random access memory，RAM)、磁碟或者光盘等各种可以存储程序代码的介质。

以上应用了具体个例对本发明进行阐述，只是用于帮助理解本发明，并不用以限制本发明。对于本发明所属技术领域的技术人员，依据本发明的思想，还可以做出若干简单推演、变形或替换。

Claims

1.一种基于VGG网络的暴力分拣识别方法，其特征在于，包括步骤：

S200：通过DSS监控平台获取训练样本，并根据预设训练条件对所述VGG网络进行训练；

2.如权利要求1所述的暴力分拣识别方法，其特征在于，所述对VGG16网络的Flatten层进行替换，具体为：采用GlobalAveragePooling2D替换Flatten层。

3.如权利要求1所述的暴力分拣识别方法，其特征在于，所述步骤S200具体包括步骤：

S203：根据所述预设训练条件对所述VGG网络进行调整；

S204：将所述训练集导入调整后的VGG网络进行训练；

S205：将所述测试集导入训练后的VGG网络进行测试；

S206：重复步骤S203至S205，直到获取满足要求的VGG网络。

4.如权利要求3所述的暴力分拣识别方法，其特征在于，所述预设训练条件包括学习率动态递减，损失函数在不降低的条件下VGG网络停止训练。

5.如权利要求4所述的暴力分拣识别方法，其特征在于，所述学习率采用指数递减，计算公为：

其中，LR为学习率，LRB为学习率基数，LRD为学习率衰减率，

为学习率衰减率指数，

6.如权利要求4所述的暴力分拣识别方法，其特征在于，所述VGG网络的参数的更新计算公式为：

w_n+1为更新后的参数，w_n为当前参数，

为损失函数的梯度。

7.一种基于VGG网络的暴力分拣识别装置，其特征在于，包括：

训练模块，用于通过DSS监控平台获取训练样本，并根据预设训练条件对所述VGG网络进行训练；

8.如权利要求7所述的暴力分拣识别装置，其特征在于，所述对VGG16网络的Flatten层进行替换，具体为：采用GlobalAveragePooling2D替换Flatten层。

9.一种暴力分拣识别设备，其特征在于，包括处理器和存储器，所述存储器中存储有至少一条指令、至少一段程序、代码集或指令集，所述至少一条指令、所述至少一段程序、所述代码集或所述指令集由所述处理器加载并执行以实现如权利要求1至6中任一项所述的暴力分拣方法。

10.一种计算机可读存储介质，所述计算机可读存储介质上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现如权利要求1-6中任一项所述的暴力分拣方法。