CN111985473A

CN111985473A - 一种店外经营识别方法

Info

Publication number: CN111985473A
Application number: CN202010845412.0A
Authority: CN
Inventors: 孙德亮
Original assignee: China Re Cloud Technology Co ltd
Current assignee: China Re Cloud Technology Co ltd
Priority date: 2020-08-20
Filing date: 2020-08-20
Publication date: 2020-11-24

Abstract

本发明提供一种店外经营识别方法，包括以下步骤：使用DeepLabv3+模型检测出建筑物、街道、人员位置，得到mask图；使用opencv对ROI区域进行裁剪；采用目标检测模型检测属于店外经营的类别，当检测到后返回检测成功数据,未检测到返回‑1。本发明采用目标检测方式检测识别店外经营，可给类似场景或者智慧城管提供思路。

Description

一种店外经营识别方法

技术领域

本发明涉及人工智能图像识别领域，具体涉及一种店外经营识别方法。

背景技术

店外经营，指经营者通过占用其经营场所店面以外或附近的公共场所进行经营活动的行为，是一种较为常见的不规范经营现象。现有技术中城市管理部门采用人力来对违法的店外经营活动进行识别，工作效率较低，同时人力成本巨大。

发明内容

为了解决现有技术在城市管理过程中不能对违法的店外经营现象进行高效率识别的问题，本发明提供一种可以自动对店外经营活动进行高效率识别的方法。

本发明提供一种店外经营识别方法，包括以下步骤：

使用DeepLabv3+模型检测出建筑物、街道、人员位置，得到mask图；

DeepLabv3+模型是现有技术中斯坦福大学李飞飞组的研究者提出的图像语义分割模型。DeepLabv3+论文题目为Rethinking Atrous Convolution for Semantic ImageSegmentation。DeepLabv3+开源代码连接为https://github.com/eveningdong/DeepLabV3-Tensorflow。

使用opencv对ROI区域进行裁剪；Mask图中值等于1为街道区域，根据Mask图保留原图中的街面部分。Mask图中值不等于1的索引值对应到原图中的索引值将其值替换成(0,0,0)。

OpenCV是现有技术中一个基于BSD许可(开源)发行的跨平台计算机视觉和机器学习软件库。ROI是region of interest的缩写，表示感兴趣区域。

采用目标检测模型检测属于店外经营的类别，当检测到后返回检测成功数据,未检测到返回-1。

本发明目标检测模型采用yolov3模型。

Yolo(You only look once)是现有技术中的单阶段目标检测方法,它于2016年提出第一版Yolov1，至今有许多基于它的改进模型。本发明采用Yolov3是其中之一。

进一步的，所述Mask图包括街面类别，店铺建筑类别，背景类别；

靠墙边、门、窗属于街道类别；

马路中间属于背景类别。

Mask表示掩模。

Mask的提取包括以下步骤：

提取感兴趣区：语义分割模型DeepLabv3+输出的是一个包含街道面、商店建筑、背景等3类别的Mask图。Mask图与原图大小尺寸完全一致，所以Mask图中街道面的下标索引在原图中的相同下标索引就是街面区域。Mask图中街道面下标索引对应值等于1，其它下标索引对应值等于0，得到只有街面与背景的Mask图。只有街面与背景的Mask图与待处理图像相乘，得到感兴趣区图像，感兴趣区内图像值保持不变，而区外图像值都为0；

屏蔽作用：用掩膜对图像上某些区域作屏蔽，使其不参加处理或不参加处理参数的计算，或仅对屏蔽区作处理或统计；

进一步的，检测成功数据格式为[[类别序号,类别置信度,x1,y1,x2,y2],...]，其中x1,y1,x2,y2表示店外经营区域的坐标。

本发明的有益效果是：

1本发明使用语义分割模型可以剔除店外经营中类别混乱的复杂背景。

2本发明去除图片中建筑物等背景，只保留街道中有用信息方式缩减输入图像尺寸大小，提升模型执行时间。

3本发明采用目标检测方式检测识别店外经营，可给类似场景或者智慧城管提供思路。

4本发明可以实现地面物品与建筑物门判别。

附图说明

图1为检测识别流程图。

图2为基础模块ConvReluBN示意图。

图3为基础模块编码器示意图。

图4为基础模块解码器示意图。

图5为基础模块ConvBNLeaky示意图。

图6为DeepLabv3+网络示意图。

图7为基础模块DetectionBlock示意图。

图8为Yolov3网络示意图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，下面通过具体实施方式结合附图对本发明作进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。

实施例一：

本发明一实施例详细步骤如下：

步骤1，收集1386张用于训练的原始图片；

步骤2，将待标注区域划分为3类，包括街道面，建筑物，背景；

步骤3，使用LabelMe工具标注图片；Labelme是一个图形界面的图像标注软件。Labelme可对图像进行标注，包括多边形、矩形、线、点和图像级标注。它是用Python编写的，并使用Qt作为其图形界面。

步骤4，标注图片Labelme格式转成语义分割Mask图片；

步骤5，使用10折交叉验证(10-fold Cross Validation)算法按9∶1划分训练集与测试集；

步骤6，采用数据增强左右翻转方式；

步骤7，对收集到的1386张用于训练的原始图片进行图像预处理，采用以下公式将图像数据归一化到正负0.1之间。这样做目的是加快了梯度下降求最优解的速度，提高一定的精度。

s＝[0.5 0.5 0.5]

公式中x表示输入图片数据，m表示均值，s表示标准差；B表示像素的蓝色通道数据，G表示像素的绿色通道数据，R像素的表示红色通道数据。小括号内表示下标索引，输入图像大小为512。

步骤8，DeepLabv3+模型中编码器模块6个ConvReluBN的设置分别是如下。第1个ConvReluBN卷积核设置为1，步长设置为1，填充设置为0。第2个ConvReluBN卷积核设置为1，步长设置为1，填充设置为0。第3个ConvReluBN卷积核设置为3，步长设置为1，填充设置为6。第4个ConvReluBN卷积核设置为3，步长设置为1，填充设置为12。第5个ConvReluBN卷积核设置为3，步长设置为1，填充设置为18。第6个ConvReluBN卷积核设置为1，步长设置为1，填充设置为0；

步骤9，DeepLabv3+模型中解码器模块从上到下3个ConvReluBN的设置分别是如下。第1个ConvReluBN卷积核设置为1，步长设置为1，填充设置为0。第2个ConvReluBN卷积核设置为3，步长设置为1，填充设置为1。第3个ConvReluBN卷积核设置为3，步长设置为1，填充设置为1；

步骤10，DeepLabv3+模型中ConvReluBN模块中卷积核大小设置为3，步长设置为1，填充设置为1。Conv卷积核设置为1，步长设置为1，填充设置为0；

步骤11，xception65模型与DeepLabv3+模型之间衔接具体为:从xception65模型FC层前面输出作为DeepLabv3+模型的输入；

Xception65模型是现有技术中谷歌提出的一种神经网络结构。

步骤12，DeepLabv3+模型参数设置，输入图片大小设置为(512,512)，模型参数Epoch设置为120，模型参数batch_size设置为1，骨干网络采用xception65，初始学习率采用0.1，优化算法采用Adam算法，Epochloss设置为softmax_with_cross_entropy；

Adam算法是现有技术中的一阶优化算法，它能基于训练数据迭代的更新神经网络权重。

步骤13，利用训练好的模型得到所有图片的mask图；

步骤14，ROI裁剪只需要保留街道面信息，其它部分可以丢弃。x与m具有相同维度大小的图片矩阵，在mask图中找出所有街面位置的索引，采用以下公式将这些索引值映射到1386张用于训练的原始图片中，在原始图像中得到街面的信息。

0≤n≤255

其中x表示原图像矩阵，m表示mask图矩阵，n表示类别为街道的值；B表示像素的蓝色通道数据，G表示像素的绿色通道数据，R像素的表示红色通道数据；i表示图像高度这维度上的值，0＜＝i＜＝最大高度。j表示图像宽度这维度上的值，0＜＝j＜＝最大宽度。i与j作为图像的下标索引可表示图像中的任一像素点。

步骤15，将所有图片裁剪得到1386张含街面图片；

步骤16，将所有街面图片划分2类[属于店外经营，背景]；

步骤17，用labelImg工具标注含街面图片；labelImg是一款用于目标检测识别任务图像标注工具，可创建数据集。

步骤18，使用10折交叉验证(10-fold Cross Validation)算法按9:1划分训练集与测试集；

步骤19，使用kmeans算法计算anchors，对yolov3模型进行店外经营识别训练。anchors作为先验框，yolov3只需要学习真实坐标与先验框的偏移量，而不用去学整个预测框；

kmeans算法是现有技术中一种迭代求解的聚类分析算法，其步骤是，预将数据分为K组，则随机选取K个对象作为初始的聚类中心，然后计算每个对象与各个种子聚类中心之间的距离，把每个对象分配给距离它最近的聚类中心。聚类中心以及分配给它们的对象就代表一个聚类。每分配一个样本，聚类的聚类中心会根据聚类中现有的对象被重新计算。这个过程将不断重复直到满足某个终止条件。终止条件可以是没有(或最小数目)对象被重新分配给不同的聚类，没有(或最小数目)聚类中心再发生变化，误差平方和局部最小。

anchor是预先在每个可能的位置画了的多个框，然后通过RPN和后续的分类网络一次一次的筛选，看看这个区域是不是需要的目标，如果是则学习这个先验框与真实框的偏移量，最后得到比较准确的框，anchor就是从开始就假定可能存在要检测目标的那个区域。

步骤20，采用数据增强左右翻转、随机裁剪方式；

步骤21，获取需要进行店外经营检测的图像，采用以下公式对待检测图像进行预处理。这样做目的是加快了梯度下降求最优解的速度，提高一定的精度。

s＝[0.229 0.224 0.225]，

公式中x表示输入图片数据，m表示均值，s表示标准差；

步骤22，Yolov3网络中DetectionBlock模块中5个ConvBNLeaky参数采用如下设置。第1个ConvBNLeaky卷积核设置为1，步长设置为1，填充设置为0。第2个ConvBNLeaky卷积核设置为3，步长设置为1，填充设置为1。第3个ConvBNLeaky卷积核设置为1，步长设置为1，填充设置为0。第4个ConvBNLeaky卷积核设置为3，步长设置为1，填充设置为1。第5个ConvBNLeaky卷积核设置为1，步长设置为1，填充设置为0；

步骤23，Yolov3网络中前面的一个ConvBNLeaky卷积核设置为1，步长设置为1，填充设置为0。DetectionBlock模块之后的ConvBNLeaky卷积核设置为3，步长设置为1，填充设置为1。conv卷积核设置为1，步长设置为1，填充设置为0；

步骤24，ResNet50模型与Yolov3模型之间衔接是：从ResNet50模型中取3个不同尺寸的特征c2，c1，c0作为Yolov3模型的输入；

步骤25，Yolov3模型参数设置，输入图片大小设置为(608,608)，iters设置为100000，batch_size设置为8，骨干网络设置为ResNet50，初始学习率设置为0.000125，优化算法设置为MomentumOptimizer算法，yolo_head设置为YOLOv3Head，anchors:设置为[[10,13],[16,30],[33,23],[30,61],[62,45],[59,119],[116,90],[156,198],[373,326]]，loss设置为iou_loss；iters，anchors，yolo_head分别为Yolov3模型的参数。

步骤26，利用训练好的模型对需要进行店外经营检测的图像进行分析，获取店外经营数据。

本发明的有益效果是：

4本发明可以实现地面物品与建筑物门判别。

显然，本领域的技术人员应该明白，上述本发明的各步骤可以用通用的计算装置来实现，它们可以集中在单个的计算装置上，或者分布在多个计算装置所组成的网络上，可选地，它们可以用计算装置可执行的程序代码来实现，从而，可以将它们存储在计算机存储介质(ROM/RAM、磁碟、光盘)中由计算装置来执行，并且在某些情况下，可以以不同于此处的顺序执行所示出或描述的步骤，或者将它们分别制作成各个集成电路模块，或者将它们中的多个步骤制作成单个集成电路模块来实现。所以，本发明不限制于任何特定的硬件和软件结合。以上内容是结合具体的实施方式对本发明所作的进一步详细说明，不能认定本发明的具体实施只局限于这些说明。对于本发明所属技术领域的普通技术人员来说，在不脱离本发明构思的前提下，还可以做出若干简单推演或替换，都应当视为属于本发明的保护范围。

Claims

1.一种店外经营识别方法，其特征在于，包括以下步骤：

使用opencv对ROI区域进行裁剪；

2.如权利要求1所述的一种店外经营识别方法，其特征在于，

所述Mask图包括街面类别，店铺建筑类别，背景类别；

靠墙边、门、窗属于街道类别；

马路中间属于背景类别。

3.如权利要求1所述的一种店外经营识别方法，其特征在于，

检测成功数据格式为[[类别序号,类别置信度,x1,y1,x2,y2],...]，其中x1,y1,x2,y2表示店外经营区域的坐标。