CN112329521A

CN112329521A - 一种基于深度学习的多目标跟踪视频巡店方法

Info

Publication number: CN112329521A
Application number: CN202011014178.3A
Authority: CN
Inventors: 吕琨; 彭靖田
Original assignee: Shanghai Pinlan Data Technology Co ltd
Current assignee: Shanghai Pinlan Data Technology Co ltd
Priority date: 2020-09-24
Filing date: 2020-09-24
Publication date: 2021-02-05

Abstract

本发明公开了一种基于深度学习的多目标跟踪视频巡店方法，涉及深度学习的多目标跟踪技术领域。本发明包括如下步骤：P1、用工业相机采集高清视频；P2、将采集完成的视频上传至库存盘点系统；P3、将巡店视频输入训练好的YOLO V3+DeepSort模型中；P4、根据预测结果进行货物盘点和后续操作；步骤P3中YOLO V3+DeepSort模型包括Detection跟踪步骤以及track跟踪步骤。本发明应用非图像特征，显著提升了商品规格分类的识别准确率，同样适用于同种商品不同规格的识别。

Description

一种基于深度学习的多目标跟踪视频巡店方法

技术领域

本发明属于深度学习的多目标跟踪技术领域，特别是涉及一种基于深度学习的多目标跟踪视频巡店方法。

背景技术

对于线下零售商店或超市，货架上商品货物的盘点是一项耗时耗力的任务。尤其是商业超市，需要每天整理库存信息，及时对货架商品进行补货操作。

传统零售店的货物盘点一般都是人工，这样耗费大量人力，且很容易造成误检和漏检的问题。随着智能化加速，先进很多大型超市已经开始使用机器智能盘点货物。其根本技术是基于视频，进行视觉识别和物体跟踪。

传统的视觉目标跟踪流程即给定某视频序列初始帧的目标大小与位置的情况下，预测后续帧中该目标的大小与位置。需要手动提取特征所以速度慢，无法处理和适应复杂的跟踪变化，鲁棒性和准确度都比较差.。因此，针对以上问题，提供一种基于深度学习的多目标跟踪视频巡店方法具有重要意义。本发明提供了。因此，针对以上问题，提供一种基于深度学习的多目标跟踪视频巡店方法具有重要意义。

发明内容

本发明提供了一种基于深度学习的多目标跟踪视频巡店方法，解决了以上问题。

为解决上述技术问题，本发明是通过以下技术方案实现的：

本发明的一种基于深度学习的多目标跟踪视频巡店方法，包括如下步骤：

P1、用工业相机采集高清视频；

P2、将采集完成的视频上传至库存盘点系统；

P3、将巡店视频输入训练好的YOLO V3+DeepSort模型中；

P4、根据预测结果进行货物盘点和后续操作。

进一步地，所述步骤P3中YOLO V3+DeepSort模型包括Detection跟踪步骤以及track跟踪步骤；

所述Detection跟踪步骤，包括如下步骤：

S1、分配Track indices和Detection indices；

S2、计算Cost matrix此处只有cosine distance；

S3、计算Kalman预测的每个track平均轨道的位置和实际detect的BBox间的平方马氏距离cost matrix；

S4、将cisine cost matrix中track和detection间平方马氏距离大于阈值，即不满足b的对应值置为无穷大，方便后续计算

S5、将cosine cost matrix中track和detecion间cosine距离大于阈值，即不满足b的对应值置为较大，方便后续删除；

S6、使用Hungarian算法对track和detect进行匹配，并返回匹配结果；

S7、对匹配对结果进行筛选,删去appearance较大对匹配，即cosion disance过大；并返回值步骤S02并循环检测帧数；

S8、得到初步的matches，unmatched tracks和unmatched detections；

所述track跟踪步骤，包括如下步骤：

T1、将只有一帧为匹配的track看做IOU的candidate，超过的视为unmatchedtrack；

T2、计算track candidate和unmatched detection之间的IOU disatance；

T3、将IOU distance大于阈值0.7对置大便于后续剔除；

T4、使用Hungarian算法对track和detect进行匹配，并返回匹配结果；

T5、对匹配对结果进行筛选，删去IOU较小对区域；

T6、得到再次处理的matches，unmatched tracks和unmatched detections。

本发明相对于现有技术包括有以下有益效果：

本发明的一种基于深度学习的多目标跟踪视频巡店方法的模型能够更好地处理目标被长时间遮挡、漏检误检的情况，运用YOLO V3+DeepSort算法在视频巡店中的结果是ID switch指标降低了25％。

当然，实施本发明的任一产品并不一定需要同时达到以上所述的所有优点。

附图说明

为了更清楚地说明本发明实施例的技术方案，下面将对实施例描述所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明的一种基于深度学习的多目标跟踪视频巡店方法的整体步骤图；

图2为图1中YOLO V3+DeepSort模型的Detection跟踪步骤图；

图3为图1中YOLO V3+DeepSort模型的track跟踪步骤。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其它实施例，都属于本发明保护的范围。

近年来，基于深度学习的多目标跟踪算法得到较快的发展。在大数据背景下，利用深度学习训练网络模型，得到的卷积特征输出表达能力更强。在目标跟踪上，初期的应用方式是把网络学习到的特征，直接应用到相关滤波或Struck的跟踪框架里面，从而得到更好的跟踪结果，但本质上卷积输出得到的特征表达，更优于HOG或CN特征，这也是深度学习的优势之一，但同时也带来了计算量的增加。深度学习的另一大优势是端到端的输出。

对于视频盘点货物的目标跟踪算法，我们利用YOLO V3/Faster RCNN/SSD等目标检测框架加上Deep SORT多目标跟踪算法可以有效提高检测精度。

Deep SORT算法的前身是SORT,全称是Simple Online and Realtime Tracking。SORT最大特点是基于Faster R-CNN的目标检测方法，并利用卡尔曼滤波算法+匈牙利算法，极大提高了多目标跟踪的速度，同时达到了SOTA的准确率。但在SORT中，仅仅通过IOU来进行匹配虽然速度非常快，但是ID switch依然非常大。

DeepSort中最大的特点是加入外观信息，借用了ReID领域模型来提取特征，减少了ID switch的次数。Deep SORT算法在SORT算法的基础上增加了级联匹配(MatchingCascade)+新轨迹的确认(confirmed)。

请参阅图1-3所示，本发明的一种基于深度学习的多目标跟踪视频巡店方法，包括如下步骤：

P1、用工业相机采集高清视频，需要考虑到光照，远近高度，拍摄速度等影响因素；

P2、将采集完成的视频上传至库存盘点系统；

P3、将巡店视频输入训练好的YOLO V3+DeepSort模型中；

P4、根据预测结果进行货物盘点和后续操作。

其中，步骤P3中YOLO V3+DeepSort模型包括Detection跟踪步骤以及track跟踪步骤；

所述Detection跟踪步骤，包括如下步骤：

S1、分配Track indices和Detection indices；

S2、计算Cost matrix此处只有cosine distance；

S8、得到初步的matches，unmatched tracks和unmatched detections；

所述track跟踪步骤，包括如下步骤：

T2、计算track candidate和unmatched detection之间的IOU disatance；

T3、将IOU distance大于阈值0.7对置大便于后续剔除；

T5、对匹配对结果进行筛选，删去IOU较小对区域；

T6、得到再次处理的matches，unmatched tracks和unmatched detections。

本发明的主要创新点是将YOLO V3+DeepSort算法用于视频盘点货物，从而实现智能高效的盘点效果。

如图2-3所示，为YOLO V3+DeepSort模型的流程图，相当于目标检测中的twostages的结构，采用detection+track，没有进行end-to-end的训练方式，优点是我们可以根据实际项目中的跟踪效果分别对detection部分(yolo)和track部分(deepsort)采取一些优化手段，以实现我们的业务上更好的效果。

细节说明解释：

1，Detection，也就是包含了每个检测到的对象

2，tracker，是Tracker类的一个对象，我们可以理解为一个跟踪器，它可以根据检测到的detections，进行匹配、筛选、更新的操作

3，track，是Track类的一个对象，每个Tracker里面包含一个tracks列表，列表的每个元素是Track的一个对象，它的属性是根据单个detection生成的均值、方差、id等等，我们可以理解为一个跟踪器里面的多个跟踪目标。

4，检测类别，需要检测的各种商品的类别

5，级联匹配与IOU匹配

有益效果：

本发明的一种基于深度学习的多目标跟踪视频巡店方法应用非图像特征，显著提升了商品规格分类的识别准确率，同样适用于同种商品不同规格的识别。

以上公开的本发明优选实施例只是用于帮助阐述本发明。优选实施例并没有详尽叙述所有的细节，也不限制该发明仅为所述的具体实施方式。显然，根据本说明书的内容，可作很多的修改和变化。本说明书选取并具体描述这些实施例，是为了更好地解释本发明的原理和实际应用，从而使所属技术领域技术人员能很好地理解和利用本发明。本发明仅受权利要求书及其全部范围和等效物的限制。

Claims

1.一种基于深度学习的多目标跟踪视频巡店方法，其特征在于，包括如下步骤：

P1、用工业相机采集高清视频；

P2、将采集完成的视频上传至库存盘点系统；

P3、将巡店视频输入训练好的YOLO V3+DeepSort模型中；

P4、根据预测结果进行货物盘点和后续操作。

2.如权利要求1所述的一种基于深度学习的多目标跟踪视频巡店方法，其特征在于，所述步骤P3中YOLO V3+DeepSort模型包括Detection跟踪步骤以及track跟踪步骤；

所述Detection跟踪步骤，包括如下步骤：

S1、分配Track indices和Detection indices；

S2、计算Cost matrix此处只有cosine distance；

S8、得到初步的matches，unmatched tracks和unmatched detections；

所述track跟踪步骤，包括如下步骤：

T1、将只有一帧为匹配的track看做IOU的candidate，超过的视为unmatched track；

T2、计算track candidate和unmatched detection之间的IOU disatance；

T3、将IOU distance大于阈值0.7对置大便于后续剔除；

T5、对匹配对结果进行筛选，删去IOU较小对区域；

T6、得到再次处理的matches，unmatched tracks和unmatched detections。