CN108171175B

CN108171175B - 一种深度学习样本增强系统及其运行方法

Info

Publication number: CN108171175B
Application number: CN201711479715.XA
Authority: CN
Inventors: 杜俊珑; 晋兆龙; 邹文艺
Original assignee: Suzhou Keda Technology Co Ltd
Current assignee: Suzhou Keda Technology Co Ltd
Priority date: 2017-12-29
Filing date: 2017-12-29
Publication date: 2020-06-23
Anticipated expiration: 2037-12-29
Also published as: CN108171175A

Abstract

本发明公开了一种深度学习样本增强系统，包括：录制并提供视频序列的视频模块、从视频序列中获取优化的SSD网络的检测器、包括已标注数据的原始样本的样本模块、对视频序列抽样检测并进行统计分析的采样模块、筛选模块、标注模块；同时本发明还公开了深度学习样本增强系统的运行方法。通过深度学习样本增强系统，自动选取训练样本，增强训练样本的多样性、复杂性，减少训练样本的冗余度，提升算法的训练效果和泛化能力；而且本发明的深度学习样本增强系统的运行方法在不进行算法层面的优化的基础上，可以直接大幅提升模型效果，同时减少图像标注的无效工作量。

Description

一种深度学习样本增强系统及其运行方法

技术领域

本发明所述的技术方案属于深度学习领域，本发明涉及一种深度学习样本增强系统及其运行方法。

背景技术

目前，深度学习算法因其参数量巨大，需要大量的训练样本才能让算法训练收敛，如果样本量不足时，需要使用迁移学习的方式，基于别的大数据样本上训练出来的模型，用自已的数据进行Finetune。样本在深度学习算法中的作用至关重要，样本的数量、质量、多样性、复杂性等等都直接关系到算法最终训练模型能否有一个好的测试效果、是否有很强的泛化能力而不是过拟合。

已有的深度学习框架如Caffe等，自身会提供一些样本增强的方法如随机裁切、随机扩展、随机镜像、随机颜色变换等，但这些方法都是在已有的数据集上进行样本增强，可以增加样本的数量，和一定程度地增加样本的多样性，减缓样本的冗余性，但是不能从根本上去增加样本的复杂性、去除样本的冗余性，也不能解决样本的不均衡性问题，过度依赖这些增强技术会导致训练过拟合。SSD(Single Shot Detection)是一种端对端一步到位、效果优异、速度快的目标检测算法，可用于实时的视频目标检测，但原版SSD对小目标的检测效果不好。

在安防领域目标检测的实际应用中，训练样本图像来源主要是各种监控视频，由于监控布置的摄像头数目巨大(一个城市就有上万路的视频),可从这些视频中采集到大量样本进行标注，并用于训练。但是如果使用人工的方式主观、随机地从各路视频中去选取视频帧作为样本，势必导致样本集充满随机不确定性，很难采样到最好的样本分布，并且工作量巨大。

发明内容

为解决现有技术的不足，本发明提供一种深度学习样本增强系统及其运行方法，通过优化SSD网络，并在样本采样阶段增强深度学习样本，提升检测效果，同时减少图像标注的无效工作量。

为实现上述目的，采用以下技术方案：

一种深度学习样本增强系统，包括：

视频模块，录制并提供视频序列；

检测器，检测器从视频序列中获取优化的SSD网络；

样本模块，样本模块中包括已标注数据的原始样本，用原始样本训练优化后的SSD网络，得到检测模型及其在固定测试集上的平均精度均值；统计样本模块中的样本分布数据，得到样本筛选规则，其中固定测试集，是从原始样本中随机抽取出一定数量的样本集合，用来评估检测模型的平均精度，平均精度均值是检测模型相对于测试集的准确度的平均值；

采样模块，采样模块利用检测模型对视频序列进行抽样检测，并对抽样检测结果进行统计分析；

筛选模块，筛选模块按照样本模块中得到样本筛选规则对所有视频抽样检测的统计分析结果进行排序，选取至少两张排序后的图像作为新样本；

标注模块，通过人工精确标注新样本，并将标注后的新样本加入样本模块中，标注后的新样本与原始样本共同形成最终训练样本，以分别更新样本集和所述样本筛选规则。

深度学习样本增强系统的运行方法，包括以下步骤：

步骤一：对SSD网络进行优化，获得优化后的SSD网络；

步骤二：采用原始样本训练优化后的SSD网络，得到检测模型及其在固定测试集上的平均精度均值；统计原始样本的样本分布数据，得到样本筛选规则；其中固定测试集是独立的用于评价检测模型车；

步骤三：用检测模型对视频序列进行抽样检测，对抽样检测结果进行统计分析，按照样本模块中得到样本筛选规则对统计分析结果进行排序，选取至少两张排序后排名靠前的的图像作为新样本；

步骤四：人工精确标注新样本，并将标注后的新样本加入样本模块中，标注后的新样本与原始样本共同形成最终训练样本，同时样本模块统计最终训练样本的样本分布数据，更新样本筛选规则；以得到的最终训练样本作为下一轮训练的原始样本，至少重复两次重复步骤二、三、四，最终到增强样本集合。

进一步的，步骤一中对SSD网络进行优化具体为：在SSD网络的高层特征与低层特征之间增加conv3_3特征层作为小目标检测层，对conv3_3特征层、高层特征以及低层特征进行融合并将融合后的结果反馈给检测器，即得到优化后的SSD网络；对conv3_3特征层、高层特征以及低层特征进行融合是指对conv3_3特征层、高层特征以及低层特征进行反卷积处理。

进一步的，步骤二中样本分布数据包括但不限于分类样本分布、尺寸分布、比例分布、场景分布；其中筛选规则是根据样本的统计分析结果得到的，用来平衡样本的分类、尺寸、比例、场景的均衡性，筛选规则保证了样本的多样性、均衡性和复杂性。

进一步的，步骤三中所述的抽样检测为随机隔帧抽样检测；对抽样检测的统计分析结果进行排序时，提高分类、尺寸、比例、场景占比低的样本以及目标数多的样本的权重；排序的依据是对视频抽样检测的统计分析结果进行打分，打分规则根据对原始样本的统计分析结果确定，把原始样本中目标数占比最少的分类，以及所有占比少于所设定阈值的分类作为待打分的分类，统计当前图像中待打分分类的目标数占比，如果大于原始样本中该分类的统计占比，则打分为原始样本中统计占比的倒数值，如果当前图像中该分类占比小于原始样本中的统计占比则打分为0，其余非待打分分类的目标打分亦为0；同理再对目标的尺寸、比例、场景进行类似的打分，最后根据打分结果进行；其中，随机的大间隔隔帧抽样，进一步保证了样本重复冗余性较低。

本发明的有益效果：

1.通过深度学习样本增强系统，自动选取训练样本，增强训练样本的多样性、复杂性，减少训练样本的冗余度，提升算法的训练效果和泛化能力；

2.本发明的深度学习样本增强系统的运行方法在不进行算法层面的优化的基础上，可以直接大幅提升模型效果，同时减少图像标注的无效工作量。

附图说明

图1为本发明的一种深度学习样本增强系统的一个实施例的结构框图；

图2为本发明的深度学习样本增强系统的运行方法的一个实施例的流程示意图；

图3为本发明的SSD网络优化方法的一个实施例的流程示意图。

具体实施方式

实施例

参照图1所示，一种深度学习样本增强系统，其包括：

视频模块，录制并提供视频序列；

检测器，检测器从视频序列中获取优化的SSD网络；

样本模块，样本模块中包括一千个已标注数据的原始样本，用原始样本训练优化后的SSD网络，得到检测模型及其在固定测试集上的平均精度均值；统计样本模块中的样本分布数据，得到样本筛选规则，其中固定测试集，是从原始样本中随机抽取出一定数量的样本集合，用来评估检测模型的平均精度，平均精度均值是检测模型相对于测试集的准确度的平均值；

筛选模块，筛选模块按照样本模块中得到样本筛选规则对所有视频抽样检测的统计分析结果进行排序，选取两帧以上排序后的图像作为新样本；

参照图2所示，深度学习样本增强系统的运行方法，包括以下步骤：

步骤一：对SSD网络进行优化，获得优化后的SSD网络；对SSD网络进行优化具体为：在SSD网络的高层特征与低层特征之间增加conv3_3特征层作为小目标检测层，对conv3_3特征层、高层特征以及低层特征进行融合并将融合后的结果反馈给检测器，即得到优化后的SSD网络；所述的融合是指对conv3_3特征层、高层特征以及低层特征进行反卷积处理(参照图3所示)。

步骤二：利用一千张人工挑选并标注的特定检测场景的原始样本训练优化后的SSD网络，得到检测模型及其在固定测试集上的平均精度均值；统计原始样本的分类样本分布、尺寸分布、比例分布、场景分布数据，得到样本筛选规则；

步骤三：用检测模型对一个十分钟的视频进行随机隔帧抽样检测，得到两百帧的图像，对抽样检测结果进行统计分析，按照样本模块中得到样本筛选规则对统计分析结果进行排序，对视频抽样检测的统计分析结果进行排序时，提高分类、尺寸、比例、场景占比低的样本以及目标数多的样本的权重；排序的依据是对视频抽样检测的统计分析结果进行打分，打分规则根据对原始样本的统计分析结果确定，把原始样本中目标数占比最少的卡车作为待打分的分类，统计当前图像中卡车的目标数占比为6％，如果大于原始样本中卡车的统计占比5％，则打分为原始样本中统计占比的倒数值20分，如果当前图像中卡车的占比为3％小于原始样本中的统计占比5％则打分为0，其余非待打分分类的目标打分亦为0；同理再对目标的尺寸、比例、场景进行类似的打分，最后根据打分结果进行，选取排序后排名最靠前100帧的图像作为新样本；

步骤四：人工精确标注新样本，并将标注后的新样本加入样本模块中，标注后的新样本与原始样本共同形成最终训练样本，同时样本模块统计最终训练样本的样本分布数据，更新样本筛选规则；以得到的最终训练样本作为下一轮训练的原始样本，重复10次步骤二、三、四，最终到增强样本集合，最终在样本模块中得到一个包含两千个增强样本的样本集合。

以上显示和描述了本发明的基本原理、主要特征和优点。本行业的技术人员应该了解，上述实施例不以任何形式限制本发明，凡采用等同替换或等效变换的方式所获得的技术方案，均落在本发明的保护范围内。

Claims

1.一种深度学习样本增强系统，其特征在于，其包括：

视频模块，录制并提供视频序列；

检测器，检测器从视频序列中获取优化的SSD网络；在SSD网络的高层特征与低层特征之间增加conv3_3特征层作为小目标检测层，对conv3_3特征层、高层特征以及低层特征进行融合并将融合后的结果反馈给检测器，即得到优化后的SSD网络；

样本模块，样本模块中包括已标注数据的原始样本，用原始样本训练优化后的SSD网络，得到检测模型及其在固定测试集上的平均精度均值；统计样本模块中的样本分布数据，得到样本筛选规则；

标注模块，通过人工精确标注新样本，并将标注后的新样本加入样本模块中。

2.权利要求1所述的深度学习样本增强系统的运行方法，其特征在于，包括以下步骤：

步骤一：对SSD网络进行优化，获得优化后的SSD网络；

步骤二：采用原始样本训练优化后的SSD网络，得到检测模型及其在固定测试集上的平均精度均值；统计原始样本的样本分布数据，得到样本筛选规则；

步骤三：用检测模型对视频序列进行抽样检测，对抽样检测结果进行统计分析，并按照筛选规则对统计分析结果进行排序，选取至少两帧排序后的图像作为新样本；

步骤四：标注新样本，新样本与原始样本共同形成最终训练样本，统计最终训练样本的样本分布数据，更新样本筛选规则；以得到的最终训练样本作为下一轮训练的原始样本，至少重复两次重复步骤二、三、四，最终到增强样本集合；

对SSD网络进行优化具体为：

在SSD网络的高层特征与低层特征之间增加conv3_3特征层作为小目标检测层，对conv3_3特征层、高层特征以及低层特征进行融合并将融合后的结果反馈给检测器，即得到优化后的SSD网络。

3.根据权利要求2所述的深度学习样本增强系统的运行方法，其特征在于：对conv3_3特征层、高层特征以及低层特征进行融合是指对conv3_3特征层、高层特征以及低层特征进行反卷积处理。

4.根据权利要求3所述的深度学习样本增强系统的运行方法，其特征在于：样本分布数据至少包括分类样本分布、尺寸分布、比例分布、场景分布。

5.根据权利要求4所述的深度学习样本增强系统的运行方法，其特征在于，步骤三中所述的抽样检测为随机隔帧抽样检测。

6.根据权利要求5所述的深度学习样本增强系统的运行方法，其特征在于，步骤三中，对所有抽样检测的统计分析结果进行排序时，提高分类、尺寸、比例、场景占比低的样本以及目标数多的样本的权重。