CN109977782B

CN109977782B - 基于目标位置信息推理的跨店经营行为检测方法

Info

Publication number: CN109977782B
Application number: CN201910145284.6A
Authority: CN
Inventors: 陈晋音; 泮安涛; 郑海斌; 胡可科; 熊晖
Original assignee: Zhejiang University of Technology ZJUT
Current assignee: Zhejiang University of Technology ZJUT
Priority date: 2019-02-27
Filing date: 2019-02-27
Publication date: 2021-01-08
Anticipated expiration: 2039-02-27
Also published as: CN109977782A

Abstract

本发明公开了一种基于目标位置信息推理的跨店经营行为检测方法，包括：利用数据集训练目标检测网络，获得行人与店外物品检测模型、店面检测模型；截取监控视频获得帧图像，将帧图像输入至行人与店外物品检测模型、店面检测模型中，获得两个模型对应的检测结果；当检测结果中同时出现行人、店面以及店外物品时，根据目标位置信息判断行人与店外物品的关联关系，认为存在关联关系的行人与店外物品为关联目标；针对关联目标行人，计算关联目标行人的时间权重，在关联目标行人的时间权重满足跨店经营行为判断条件时，则存在跨店经营行为。该方法能够实现对跨店经营行为的实时准确检测。

Description

基于目标位置信息推理的跨店经营行为检测方法

技术领域

本发明属于目标识别领域，具体涉及一种基于目标位置信息推理的跨店经营行为检测方法。

背景技术

目标检测一直是计算机视觉领域的一个研究热点。快速准确地检测期望目标是很多学者努力的方向。一个好的识别模型要求快速实时的检测目标，并且对目标的定位与分类准确。近年来，随着神经网络模型的发展以及它在目标检测领域的优秀表现，使得其在该领域获得极大的关注并且大量的应用模型也随之诞生。目前每年计算机视觉会议上依然会有很多目标检测改进模型论文的提交与发表。Mask R-CNN便是在众多识别模型中表现优秀的两个目标检测模型。

Mask R-CNN来自Faster R-CNN的改进。Faster R-CNN是相关作者于2015年提出的快速目标检测模型。该模型起源与R-CNN，R-CNN虽然相比较传统的目标检测方法有了很大的提升，但是效率不尽人意。在其之后的Fast R-CNN虽然效率有了一定的提升，但是还是难以达到实时性的要求，Faster R-CNN在Fast R-CNN的基础上运行效率和识别准确率又有了提升，基本达到了实时检测的效果。而Mask R-CNN的主要作者何凯明在Faster R-CNN的基础上提出了新的卷积网络，在完成目标检测的同时完成语义分割。并且检测分割效果表现与效率表现依然优秀。

随着目标检测模型的发展，目标检测技术的相关应用也飞速发展，利用预先布置的监控摄像头，目前已经实现了很多有趣且实用的应用，包括高速路上的自动抓拍，手机相机的场景识别，场景文本识别，智慧城市建设都依靠摄像头的数据采集，依赖目标检测技术的支持。这些应用项目的落地提高了生产工作效率，推动社会进步。包括华为，海康威视，大华等很多公司都参与到目标检测及相关技术的应用项目，相关产品也日臻完善。

跨店经营，又称店外经营，指商家将待售物品摆放到店外经营，占用人行道或者其他非合法经营区域范围的行为，该现象主要集中在小城镇人员流动密集，店铺分布密集的街区。跨店经营是城管人员需要经常管理整治的一个情景之一，该场景下店家用商品占用人行道，影响市容，造成一定的不良影响。因此，在智慧城市领域，对店外跨店经营进行自动识别和干预是十分必要的事情。

目前，目标检测模型具有检测快的特性，得到广泛应用，但是现实场景中，店外跨店经营行人是流动的，且较复杂，单独的目标检测模型不足以满足跨店经营行为的检测判断，因此，迫切地需要一种检测方法能够快速准确地识别跨店经营行为。

发明内容

本发明的目的是提供一种基于目标位置信息推理的跨店经营行为检测方法，该检测方法通过控制行人与店面检测模型、店外物品检测模型以及目标位置信息推理的检测准确性，以实现对跨店经营行为的实时准确检测。

为了实现上述发明目的，本发明提供以下技术方案:

一种基于目标位置信息推理的跨店经营行为检测方法，包括以下步骤：

利用构建的数据集对Faster R-CNN进行训练获得店面检测模型，利用构建的数据集对改进的Mask R-CNN进行训练获得行人与店外物品检测模型；

截取监控视频获得帧图像，将帧图像输入至行人与店面检测模型、店外物品检测模型中，获得两个模型对应的检测结果；

当检测结果中同时出现行人、店面以及店外物品时，根据目标位置信息判断行人与店外物品的关联关系，即存在潜在的跨店经营行为，认为存在关联关系的行人与店外物品为关联目标；

针对关联目标行人，计算关联目标行人的时间权重，在关联目标行人的时间权重满足跨店经营行为判断条件时，则存在跨店经营行为。

本发明提供的跨店经营行为检测方法通过街区图像的店面、行人、以及店外物品三者推理，在行人遮挡较多复杂的情况下，实现跨店经营行为的判断，克服传统直接识别的方法在人物走动频繁，场景复杂情况下频繁判断出错的难题。

本发明中，所述数据集的构建过程为：

从监控视频中截取帧图像，并筛选帧图像中同时包含有行人、店面以及点外物品的帧图像，对筛选得到的帧图像中的行人、店面以及店外物品进行标注和分类，形成数据集。

其中，截取帧图像的过程为：

设置一个时钟timer，timer初始值为0，每过一帧视频图像，timer自动加1，设当前监考视频帧率为r，则有：

当R＝1时，进行一次采样，即截取一帧图像，当R＝0时，则忽略该帧帧图像。

本发明中，以Faster R-CNN作为店面的目标检测网络，利用训练集对Faster R-CNN进行训练后，获得店面检测模型。该店面检测模型主要用于店面的识别，其输入为监考视频的帧图像，输出为帧图像中店面的矩形框位置信息。

其中，所述改进的Mask R-CNN主要体现在对Mask R-CNN的部分参数结构的改进，具体包括：

(1)在RPN阶段，主动抛弃面积小于阈值S_min的和面积大于阈值S_max的边框区域；

(2)增大边框区域部分损失函数的权重，总损失函数为：

L＝L_cls+δ*L_box+L_mask

其中，δ>1，L_box表示边框区域损失函数，L_cls表示目标分类的损失函数，L_mask表示目标掩膜的损失函数。

具体地，改进的Mask R-CNN的训练过程为：

将数据集以固定比例分成训练集与测试集，利用训练集对改进的Mask R-CNN进行预训练，并利用测试集对预训练的Mask R-CNN进行测试；

针对测试识别准确率低于80％的类别模型，将训练集中该类别对应的图像按照一定的比例分割成大小两部分，对于比例较大的一部分中的图像随机添加噪声，保持比例较小的另一部分的图像不变，构成新训练集；

利用新训练集对测试识别准确率低于80％的类别模型再次进行迭代训练，优化模型参数，获得最终的行人与店外物品检测模型。

该行人与店外物品检测模型主要用于行人和店外物品的识别，其输入为监控视频帧图像，输出为帧图像中行人和店外物品的识别框，也就是矩形框位置信息。

本发明中，其中，所述训练集来自于网络、监控摄像头的实时监控视频以及自行拍照获得的图片。

由于跨店经营行为的相关行人，店外物品与店面存在一定的空间上的靠近以及靠近关系在时间上的持续。因此根据目标位置信息推理可以快速的判断跨店经营行为。所述根据目标位置信息判断行人与店外物品的关联关系包括：

设行人与店外物品所在识别框的中心点坐标分别为：A(x1,y1)，B(x2,y2)，则行人与店外物品之间的距离s为：

s＝[(x1-x2)²+(y1-y2)²]^1/2

当行人与店外物品之间的距离s小于距离阈值s_min时，认为行人与店外物品构成关联。

时间权重是指关联目标行人在某区域位置的时间长度。设定时间权重每增加一个时间单位权重增加w1，具体地，所述计算关联目标行人的时间权重包括：

针对连续的帧图像，计算前后帧图像检测结果中关联目标行人的重叠率；

当重叠率大于重叠阈值a％时，则认为关联目标行人为同一个人，则更新时间权重W：

W＝A×t+w₀

其中，A为增加系数，w₀为时间权重初始值，W为时间t时目标的时间权重。

其中，所述计算前后帧图像检测结果中关联目标行人的重叠率包括：

设前后帧图像中的识别框的面积分别为S1，S2，重叠区域面积为S，则重叠率k为：

其中，min(S1,S2)表示S1,S2两者中求较小值。

本发明提供的跨店经营行为检测方法的评价指标包括店面与行人识别准确率，店外物品识别准确率，店外经营行为识别准确率。其中，店面与行人准确率描述店面与行人检测能力，包括位置和分类两个指标。店外物品识别准确率描述道路两旁店面的识别能力，包括位置和分类两个指标。其中位置指标由结果统计人主观估计，当目标定位与实际位置相差较大时认为检测错误。店外经营行为识别准确率描述利用识别结果进行位置信息的推理的并最终判断是否存在店外经营行为的能力。

本发明通过利用改进的Mask R-CNN与Faster R-CNN的识别结果，利用关注目标时间与空间上的关系实现人物，店外物品，店面占位置信息推理判断店外经营行为，经过多个实际场景的测试，本发明在复杂场景下能够很好的判别店外经营行为，减少城管人员的工作负担，提高城镇管理效率和管理质量。

此外，本发明在上述的识别模型基础上增加人物，店外物品，店面位置信息推理部分，相比较传统直接识别的方式，本发明在提升识别准确率的同时降低了误判率。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图做简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动前提下，还可以根据这些附图获得其他附图。

图1是基于目标位置信息推理的跨店经营行为检测方法的流程图；

图2是行人、店外物品、店面位置信息推理以及时间权重判断流程图；

图3是改进的Mask R-CNN的结构示意图；

图4是跨店经营行为的识别效果图。

具体实施方式

为使本发明的目的、技术方案及优点更加清楚明白，以下结合附图及实施例对本发明进行进一步的详细说明。应当理解，此处所描述的具体实施方式仅仅用以解释本发明，并不限定本发明的保护范围。

系统硬件与软件的环境建立：

为了能够支持本发明的运行，本发明要求设备运行环境为Linux系统，显卡显存应在8G以上。同时软件环境配置包括Python3.0及以上，安装MySQL软件，以及支持opencv，numpy，tensorflow-gpu，其中opencv版本要求3.0及以上。

如图1和图2所示，实施例提供的基于目标位置信息推理的跨店经营行为检测方法包括以下过程：

目标检测网络的训练与测试：

为了能够识别系统关注目标，需要训练目标检测网络的权重参数。具体地训练过程为：

获取训练图片以构建训练集，可以从网络爬取训练图片，从监控摄像头的实时监控视频中截取训练图片，或者自行拍照获取训练图片。

对Mask R-CNN进行改进后形成Mask R-CNN for OutDoor Business作为行人与店外物品的目标检测网络，选择Faster R-CNN作为店面的目标检测网络。

构建数据集时，从监控视频中截取帧图像，并筛选帧图像中同时包含有行人、店面以及点外物品的帧图像，对筛选得到的帧图像中的行人、店面以及店外物品进行标注和分类，形成数据集。其中，Mask R-CNN的标注工具为Labelme，Faster R-CNN的标注工具为Laeblimg。

标注时，较远处较小的人物不做标注；标注超出店面部分的物品，不做具体分类；相对于摄像头倾斜角度较大的店面不予标注。

具体地，Faster R-CNN网络具体包括：

VGG网络，用于由10个卷积层和3个最大池化层、2个全连接层组成，10个卷积层和3个最大池化层用于提取输入图像的特征，输出特征图；第一个全连接层用于将特征图连接成1*1*4096维的向量并输出，第二个全连接层用于对1*1*4096维的向量中的物体进行分类，输出物体类别及分类置信度；

RPN，接收VGG网络输出的特征图，用于在VGG网络输出的特征图中，提取可能存在目标的矩形候选区域ROI；

ROI池化层，连接在RPN与第一个全连接层之间，接收VGG网络输出的特征图和RPN输出的矩形候选区域ROI，用于将矩形候选区域ROI映射到特征图上后输出特征图；

第三全连接层，连接于第一全连接层之后，用于对1*1*4096维的向量中ROI框选的物体进行边界确定，输出物体坐标。

利用数据集对Faster R-CNN进行训练，即可以获得店面检测模型。

其中改进的Mask R-CNN主要体现在对Mask R-CNN的部分参数结构的改进，如图3所示，具体包括：

在RPN阶段包含框区大小限制算法，即主动抛弃面积小于阈值S_min的和面积大于阈值S_max的边框区域；

此外，还增大边框区域部分损失函数的权重，总损失函数为：

L＝L_cls+δ*L_box+L_mask

训练时，采用预训练+模型微调的办法获得识别效果较好的行人与店外物品检测模型，具体地，训练过程可以为：

将数据集以固定比例(可以为6:4)分成训练集与测试集，利用训练集对改进的Mask R-CNN进行预训练，并利用测试集对预训练的Mask R-CNN进行测试；

针对测试识别准确率低于80％的类别模型，将训练集中该类别对应的图像按照一定的比例(可以为6:4)分割成大小两部分，对于比例较大的一部分(也就是60％部分)中的图像随机添加噪声，保持比例较小的另一部分(也就是40％)的图像不变，构成新训练集；

举例说明，假设行人与店外物品检测模型中总计需要分成9类，9类可以分别为：Person、Store、Apple、Orange、Banana、Boiler、Streamer、Luggage以及Bottle。针对其中的一类如Store，利用测试集进行测试时，发现预训练得到的模型对于Store的识别准确率低于80％，则对需要利用Store对应的图像对模型进行再次调优训练。

Mask R-CNN和Faster R-CNN训练后，即可以获得行人与店外物品检测模型和店面检测模型。经测试，行人识别率准确率高达96.7％，店外物品识别率准确率达到了83.5％，店面正向识别上识别率准确率达到了94.6％。以上识别结果满足了跨店经营的识别要求。设测试图片的张数为n，在n张图片中出现待测试对象m个，对于识别结果，在所有待测对象中，正确识别的数量为x，则上述准确率a计算公式如下：

店面正向识别是指摄像头正对或以不大的倾斜角拍摄店面获得的识别结果，以上测试结果由实际监控数据测试运行并统计获得。

通过以上步骤即可以获得模型参数确定，且能够准确识别行人、店面以及店外物品的行人与店面检测模型和店外物品检测模型。系统保存获得的行人与店面检测模型和店外物品检测模型。

跨店行为的检测过程：

为了实现判断的实时性，减少计算负担，对视频进行帧采样，而不对每一帧都进行分析。前述视频帧采样是指采取视频中的某一帧的帧图像。根据实际监控视频帧率20-28不等的情况以及检测模型的运行效率表现，本发明采用每秒采样两张帧图像的策略。具体采样方法如下：

识别与判断，为了正确识别相应的目标，获得预期的识别效果，本发明的目标识别需要满足如下要求：

(1)摄像头需正对店面或者偏转较小；

(2)店外物品不能被行人完全遮挡；

在上述条件满足基础上，前端监控摄像头将获取的图像数据传到后端服务器，进行识别与判断。利用之前已训练好的行人与店外物品检测模型和店面检测模型进行目标识别，获得检测结果，检测结果中包含行人、店外物品、店面，然后，基于识别结果进行跨店经营判断。

行人、店外物品、店面位置信息推理以及时间权重判断流程图如图2所示，在检测结果的基础上，计算帧图像中目标的平面距离，寻找能够关联的目标并进行关联，确定关联目标行人。若没有，则反复请求图像数据。本图像中识别的结果包括人物若存在关联目标，摄像头会在此场景处停留，计算关联目标行人的时间权重，当时间权重超过阈值，则判定存在跨店经营行为；若经过一段时间未出现目标时间权重超过阈值，系统认为该场景下无跨店经营行为，监控摄像头转入另一场景。需要说明，上述关注目标特指人物，店外物品，店面三个目标。

具体地，根据目标位置信息判断行人与店外物品的关联关系包括：

s＝[(x1-x2)²+(y1-y2)²]^1/2

针对关联目标行人，计算关联目标行人的时间权重包括：

针对连续的帧图像，计算前后帧图像检测结果中关联目标行人的重叠率：

其中，前后帧图像中的识别框的面积分别为S1，S2，重叠区域面积为S，min(S1,S2)表示S1,S2两者中求较小值；

W＝A×t+w₀

上述监控摄像头转入另一场景包括两个情况，同一个摄像头通过转动摄像头切换不同的画面以及不同摄像头画面之间的切换。

在判断存在跨店经营场景之后，系统会自动保存相关帧图像，作为证据，并将本次结果写入数据库。系统会按一定的时间周期提醒城市管理人员清理结果，对违规商家进行处罚。上述写入数据库内容包括摄像头位置，取证时间，取证图片保存路径三个方面内容，图像保存路径为系统或人为预设的路径加上图片文件名。

上述的时间周期是指实际城市管理人员的执法周期。其数值根据实际实际情况而定。在该周期过后，城市管理人员可以根据数据库中的记录和进一步人为去除误判，来完成执法，此数据库也可以作为接口，提供他用。

案例

本案例是本方案在实际监控摄像头数据的实际场景的一个测试。场景情景说明如下：该视频为一早餐店的实际监控录像，该店面存在跨店经营的行为，且店外物品明显。在本案例中，系统利用摄像头监考数据成功判断快店经营行为。

当摄像头刚开始转到该场景，获取该场景图像信息时，系统开始传递帧图像到后端服务器并利用训练好的检测模型关注目标。初始场景下，系统只做识别并且关联相关物品，不做跨店经营的判断。本案例中存在平面距离相近的并且满足关联条件的目标，系统对相关物品进行物体关联并初始化人物的时间权重为w₀。此时，系统认为此场景下存在跨店经营行为的可能。

在检测检测到关联之后，摄像头会在此场景下持续观察一段时间，每隔一段时间，再次获取一帧图像，进行上述关联操做并且计算人物的时间权重。前后帧之间同一人物所代表的时间权重会随着时间的增加而增加。增加的策略如下：

W＝A×t+w₀

上式中，t代表时间，A代表增加系数，w₀为初始值，W表示时间t时目标的时间权重。

当相同的目标关联信息维持一段时间，时间权重增长达到阈值时，系统判断此时存在跨店经营行为，并且保存此张帧图像取证，并清除该场景下记录的相关目标的位置与权重信息。

保存图像如图4。对图4说明如下：图4为摄像头监控一段时间并且判定存在跨店经营行为后的图像，系统输出并保存取证的图像。图中矩形框表示不同分类的检测结果，由框图颜色深浅区别不同的分类目标，可以根据框中的内容分辨该矩形框的分类内容。但是对于店外物品这一分类，系统不做具体分类，只是以矩形框的形式直接框出相关范围。连接不同目标的线段表示相互关联的两个对象。图4中，一人物与店面用线段连接，此时该人物的时间权重超过阈值，这表示该人物与该店面很大概率存在跨店经营行为，因此系统判定认为存在跨店经营行为。

在取证后，系统会将此次判断记入数据库，记录内容包括摄像头位置信息，取证时间信息，取证图像保存路径这三个方面信息。并转到其他场景继续监控。

以上所述的具体实施方式对本发明的技术方案和有益效果进行了详细说明，应理解的是以上所述仅为本发明的最优选实施例，并不用于限制本发明，凡在本发明的原则范围内所做的任何修改、补充和等同替换等，均应包含在本发明的保护范围之内。

Claims

1.一种基于目标位置信息推理的跨店经营行为检测方法，包括以下步骤：

利用构建的数据集对Faster R-CNN进行训练获得店面检测模型，利用构建的数据集对改进的Mask R-CNN进行训练获得行人与店外物品检测模型，所述改进的Mask R-CNN主要体现在对Mask R-CNN的部分参数结构的改进，具体包括：

(2)增大边框区域部分损失函数的权重，总损失函数为：

L＝L_cls+δ*L_box+L_mask

其中，δ>1，L_box表示边框区域损失函数，L_cls表示目标分类的损失函数，L_mask表示目标掩膜的损失函数；

截取监控视频获得帧图像，将帧图像输入至行人与店外物品检测模型、店面检测模型中，获得两个模型对应的检测结果；

针对关联目标行人，计算关联目标行人的时间权重，在关联目标行人的时间权重满足跨店经营行为判断条件时，则存在跨店经营行为；

所述根据目标位置信息判断行人与店外物品的关联关系包括：

s＝[(x1-x2)²+(y1-y2)²]^1/2

当行人与店外物品之间的距离s小于距离阈值s_min时，认为行人与店外物品构成关联；

所述计算关联目标行人的时间权重包括：

W＝A×t+w₀

2.如权利要求1所述的基于目标位置信息推理的跨店经营行为检测方法，其特征在于，所述数据集的构建过程为：

3.如权利要求1或2所述的基于目标位置信息推理的跨店经营行为检测方法，其特征在于，截取帧图像的过程为：

4.如权利要求1所述的基于目标位置信息推理的跨店经营行为检测方法，其特征在于，改进的Mask R-CNN的训练过程为：

5.如权利要求1所述的基于目标位置信息推理的跨店经营行为检测方法，其特征在于，所述计算前后帧图像检测结果中关联目标行人的重叠率包括：

其中，min(S1,S2)表示S1,S2两者中求较小值。