CN114359973A

CN114359973A - 基于视频的商品状态识别方法、设备及计算机可读介质

Info

Publication number: CN114359973A
Application number: CN202210205543.1A
Authority: CN
Inventors: 周斌; 丁明
Original assignee: Guangzhou Xuanwu Wireless Technology Co Ltd
Current assignee: Guangzhou Xuanwu Wireless Technology Co Ltd
Priority date: 2022-03-04
Filing date: 2022-03-04
Publication date: 2022-04-15

Abstract

本发明公开了一种基于视频的商品状态识别方法、设备及计算机可读介质，该方法包括：确定售货机的待识别区域，获取对应的视频信息，对所述视频信息的视频帧解码，生成关于识别目标的图片流；利用目标检测器对所述图片流进行检测；根据检测结果对识别目标的位置进行预测，或对识别目标进行目标匹配；利用目标分类器对预测结果或目标匹配结果进行目标分类，根据分类结果更新识别目标的状态。本发明通过算法的边缘部署可以实现离线计算，算法通用性强；通过特殊算法处理，在商品短暂的遮挡也可以识别出来，减少了商品的漏识别率；并在目标跟踪阶段采用多帧投票机制，提高了商品类别的识别率。

Description

基于视频的商品状态识别方法、设备及计算机可读介质

技术领域

本发明涉及无人售货机商品识别技术领域，尤其涉及一种基于视频的商品状态识别方法、设备及计算机可读介质。

背景技术

针对无人售货机中商品状态的识别，主流的方法通常包括重力感应加视觉识别技术、射频识别技术。前者由于是纯重力感应式设备，一方面需要以商品重量为判断标准，即要在每层隔板下方安装有一个重力感应模块，而针对冰柜类的售货机还需要特殊定制。另一方面，采用的视觉识别技术中往往包含大量的算法，不仅计算量大，计算过程复杂，且无法进行离线识别，使用范围受到较大的限制。后者采用射频识别则需要对每个商品贴上射频识别标签，不仅成本高，同时容易受其他信号干扰或因标签遮挡、重叠，进而影响识别率，无法解决售货机同一滑道摆放多个相同商品的识别问题。

发明内容

本发明的目的在于提供一种基于视频的商品状态识别方法、设备、终端及计算机可读介质，以解决现有的商品识别方法中存在的适用范围局限、识别率低下及成本高的问题。

为实现上述目的，本发明提供一种基于视频的商品状态识别方法，包括：

确定售货机的待识别区域，获取对应的视频信息，对所述视频信息的视频帧解码，生成关于识别目标的图片流；

利用目标检测器对所述图片流进行检测；

根据检测结果对识别目标的位置进行预测，或对识别目标进行目标匹配；

利用目标分类器对预测结果或目标匹配结果进行目标分类，根据分类结果更新识别目标的状态。

进一步，作为优选地，在所述确定售货机的待识别区域之前，还包括：

对已有的商品和人手数据采样，根据采样结果和初始检测器进行建模，生成目标检测器及检测框。

进一步，作为优选地，所述初始检测器采用YOLOV5。

进一步，作为优选地，在所述生成目标检测器及检测框之后，还包括：

对所述检测框进行标注，并对标注后的检测框进行分类；

利用分类后的检测框对初始分类器进行训练，生成目标分类器。

进一步，作为优选地，所述初始分类器采用ResNet 18。

进一步，作为优选地，所述根据检测结果对识别目标的位置进行预测，包括：

将识别目标分为人手目标和商品目标；

当为人手目标时，利用人手目标的运动速度和方向预测人手的下一帧目标框位置；

当为商品目标时，计算商品目标框交并比最大时所对应的人手跟踪目标，利用人手跟踪目标的运动速度和方向预测商品的下一帧目标框位置。

进一步，作为优选地，所述对识别目标进行目标匹配，包括：

计算所有检测框与识别目标的匹配损失，根据计算结果更新检测框的位置。

进一步，作为优选地，还包括采用多帧多权重投票机制进行目标分类。

本发明还提供一种基于视频的商品状态识别设备，包括：

拍摄触发装置、摄像模块、主控模块及电源模块；

所述电源模块用于为所述拍摄触发装置、摄像模块、主控模块进行供电；

所述拍摄触发装置，用于当售货机门打开时触发摄像模块启动录像，当售货机门关闭时触发摄像模块结束录像；

所述主控模块用于进行商品状态识别。

本发明还提供一种计算机可读介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现如上任一项所述的基于视频的商品状态识别方法。

相对于现有技术，本发明的有益效果在于：

1）算法边缘部署可以实现离线计算，对于无信号覆盖的区域也可以正常运行；

2）对冰柜内商品摆放无要求，同时人拿取也可以随意动作，算法通用性强；

3）通过特殊算法处理，在商品短暂的遮挡也可以识别出来，减少了商品的漏识别率；

4）目标跟踪阶段采用多帧投票机制，提高的商品类别的识别率。

附图说明

为了更清楚地说明本发明的技术方案，下面将对实施方式中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施方式，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本发明某一实施例提供的基于视频的商品状态识别方法的流程示意图；

图2是本发明又一实施例提供的基于视频的商品状态识别方法的流程示意图；

图3是本发明某一实施例提供的识别商品状态算法的处理流程图；

图4是本发明某一实施例提供的基于视频的商品状态识别方法设备的结构示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

应当理解，文中所使用的步骤编号仅是为了方便描述，不对作为对步骤执行先后顺序的限定。

应当理解，在本发明说明书中所使用的术语仅仅是出于描述特定实施例的目的而并不意在限制本发明。如在本发明说明书和所附权利要求书中所使用的那样，除非上下文清楚地指明其它情况，否则单数形式的“一”、“一个”及“该”意在包括复数形式。

术语“包括”和“包含”指示所描述特征、整体、步骤、操作、元素和/或组件的存在，但并不排除一个或多个其它特征、整体、步骤、操作、元素、组件和/或其集合的存在或添加。

术语“和/或”是指相关联列出的项中的一个或多个的任何组合以及所有可能组合，并且包括这些组合。

请参阅图1，本发明某一实施例提供一种基于视频的商品状态识别方法。如图1所示，该基于视频的商品状态识别方法包括步骤S10至步骤S40。各步骤具体如下：

S10、确定售货机的待识别区域，获取对应的视频信息，对所述视频信息的视频帧解码，生成关于识别目标的图片流。

本步骤中，首先确定售货机的待识别区域。其中售货机可以是冰柜或者货架等用于放置商品的设备，商品状态包括“拿放”过程。算法识别商品的状态拿取需要使用售货机的待识别区域，将售货机区域用多边形来表示，以顺时针的方式存储多边形的顶点图像坐标保存值售货机前端设备的存储卡中，每台设备需要绘制保存一次。在确定好待识别区域后，获取对应的视频信息，然后对所述视频信息的视频帧解码，生成关于识别目标的图片流。

S20、利用目标检测器对所述图片流进行检测。

在一具体实施例中，在执行步骤S20之前，需要执行步骤S50，以得到目标检测器。如图2所示，步骤S50包括对已有的商品和人手数据采样，根据采样结果和初始检测器进行建模，生成目标检测器及检测框。在生成目标检测器之后，在步骤S20中利用目标检测器对图片流进行检测，检测出目标为人手或者为商品。作为优选地，本实施例中的初始检测器采用YOLOV5。

S30、根据检测结果对识别目标的位置进行预测，或对识别目标进行目标匹配。

本步骤中，首先需要判断识别目标的位置是否为第一帧，如果为第一帧则建立所有检测目标的跟踪器，对所有的跟踪目标进行下一帧框的位置预测；否则进行目标匹配。

在一具体实施例中，对识别目标的位置进行预测包括：

3.1）将识别目标分为人手目标和商品目标；

3.2）当为人手目标时，利用人手目标的运动速度和方向预测人手的下一帧目标框位置；

3.3）当为商品目标时，计算商品目标框交并比最大时所对应的人手跟踪目标，利用人手跟踪目标的运动速度和方向预测商品的下一帧目标框位置。

在一具体实施例中，对识别目标进行目标匹配包括：

其中，匹配损失的计算公式如下：

；

其中，A表示检测目标框，B表示跟踪目标的框，

表示跟踪目标和检测目标框的交集；

表示跟踪目标和检测目标框的并集。

S40、利用目标分类器对预测结果或目标匹配结果进行目标分类，根据分类结果更新识别目标的状态。

在某一实施例中，需要在步骤S50后，执行步骤S60以得到目标分类器，然后将该目标分类器用于步骤S40中。如图2所示，步骤S60具体为：对所述检测框进行标注，并对标注后的检测框进行分，并利用分类后的检测框对初始分类器进行训练，生成目标分类器。作为优选地，本实施例的初始分类器采用ResNet 18，目标分类采用多帧多权重投票机制进行目标分类。

为了帮助理解本发明提供的方案，在一具体实施例中，提供了整套识别算法的处理流程，如图3所示，具体地，该识别算法包括以下步骤：

1）检测器建模：利用深度学习检测器对所有商品和手进行建模；检测器类别为2，其中所有手中拿的物品为一类，手为一类。建模数据使用设备拍摄，首先将设备安装于实验冰柜正确位置，实验人拿取冰柜中的物品进行拍摄采样，将采样的数据分帧进行检测框标注，然后进行模型训练，需要说明的是，本实施例使用的检测器优选为量化后的YOLOV5，检测器在前端推理的时间能够达到120ms。

2）分类器建模：本步骤将步骤1）中标注的框提取出来保存，然后人工进行分类。分类好后使用分类器进行训练。为了能够达到更快的处理速度，实施例使用的分类器优选为量化后的ResNet18，而分类器的推理时间可达到为4ms。

3）绘制待识别区域：以无人售货冰柜为例，本算法识别商品拿取状态需要使用冰柜区域，将冰柜区域用多边形来表示，以顺时针的方式存储多边形的顶点图像坐标保存值前端设备的存储卡中，每台设备需要绘制保存一次。

4）将视频帧进行解码，输出一帧图片流。利用建模好的检测器对图片检测，检测出人手和商品。

5）跟踪目标位置预测：如果为第一帧则建立所有检测目标的跟踪器，并且对所有的跟踪目标进行下一帧框的位置预测，具体为：

5.1）将跟踪目标分为人手目标和物品目标，人手目标直接利用其运动速度和方向预测下一帧目标框位置。

5.2）计算出和物品跟踪目标框交并比(Intersection-over-Union, IoU)最大的手跟踪目标，利用手跟踪目标的移动速度和方向预测物品跟踪目标的框位置（可以解决短时间手遮挡导致跟踪丢失问题）。如果所有的手和该物品跟踪目标都没有交集则使用物品跟踪目标的运动速度和方向预测其下一帧框位置。

6）目标匹配：如果为第一帧则建立所有检测目标的跟踪器，否则在本步骤中进行目标匹配。具体为：利用当前目标检测框和跟踪目标进行最大交并比匹配，其中匹配损失计算如下：

；

其中，A表示检测目标框，B表示跟踪目标的框，

表示跟踪目标和检测目标框的交集；

表示跟踪目标和检测目标框的并集。

计算当前所有检测框和跟踪目标的两两匹配损失。先利用所有检测框和确定的跟踪目标利用二分图最优权值匹配方法进行匹配，剩余未匹配上的检测框和不确定的跟踪目标利用同样的方法进行匹配。

对于匹配上的跟踪目标利用检测框更新框的位置，对于未匹配上的跟踪目标设置未匹配计数标志(time_since_update)，对于未匹配上的检测建立新的跟踪目标并设定不确定目标标志(Tentative)。对于未匹配的跟踪（包括遮挡的跟踪目标），在计数标志小于一定阈值（算法中使用100）时，会进行跟踪目标位置预测，具体步骤5），因此本步骤能够解决商品短暂的遮挡识别问题。

7）目标分类：在拿取过程中因为存在遮挡和动态变化导致商品分类不准，为了解决这个问题，本文使用多帧多权重投票机制来确定手拿物品的类别。具体如下：

7.1）设定移动窗口大小为win=10，针对每个跟踪目标区域计算框的面积A_i，利用分类器分类得到类别C_i及其得分S_i，i=0,1,2...表示帧数，将数据A_i、C_i、S_i保存至列表L；

7.2）如果列表L长度小于win，则使用列表中所有数据，如果列表L长度大于win则获取最后窗口大小长度的数据进行计算确信度：

；

式中，max(i-win,0)表示如果i-win>0返回i-win否则返回0。i表示帧数，score_i即当前帧数该目标的分类置信度，分母下面的max表示L中向前取win长度的数据中最大的那个面积。最后，取L中最后win个分类置信度最高的类别设为C_n作为当前该目标的真实类别。

8）更新每个目标的状态信息：如果跟踪目标框中心点在步骤3中所描述的区域内则目标的state状态设置为-1，如果在区域外面设置为1。

9）实时记录拿取放入状态：如果跟踪目标state由-1变为1则该跟踪目标被人拿出区域（冰柜）；如果右1变为-1则为该目标被人放入区域内；否则不记录。

综上所述，本发明实施例提供的一种基于视频的商品状态识别方法至少可以实现以下效果：

（1）算法边缘部署可以实现离线计算，对于无信号覆盖的区域也可以正常运行；

（2）对冰柜内商品摆放无要求，同时人拿取也可以随意动作，算法通用性强；

（3）通过特殊算法处理，在商品短暂的遮挡也可以识别出来，减少了商品的漏识别率；

（4）目标跟踪阶段采用多帧投票机制，提高的商品类别的识别率。

请参阅图4，在本发明某一实施例中还提供一种基于视频的商品状态识别设备，包括：

拍摄触发装置01、摄像模块02、主控模块03及电源模块04；

电源模块04，用于为拍摄触发装置01、摄像模块02、主控模块03进行供电；

拍摄触发装置01，用于当售货机门打开时触发摄像模块02启动录像，当售货机门关闭时触发摄像模块02结束录像；

主控模块03，用于进行商品状态识别，即部署如图3所示的识别算法。

需要说明的是，该基于视频的商品状态识别设备不仅安装简单，只需要安装在冰柜合适的位置即可，而且通过边缘部署，可实现离线计算。

在另一示例性实施例中，还提供一种包括计算机程序的计算机可读介质，该计算机程序被处理器执行时实现如上述任一项实施例所述的基于视频的商品状态识别方法的步骤。其中，该计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质或者是上述两者的任意组合。计算机可读存储介质的更具体的示例至少（非穷尽性列表）包括以下：具有一个或多个布线的电连接部（电子装置），便携式计算机盘盒（磁装置），随机存取存储器（RAM），只读存储器（ROM），可擦除可编辑只读存储器（EPROM或闪速存储器），光纤装置，以及便携式只读存储器（CDROM）。另外，计算机可读存储介质甚至可以是可在其上打印程序的纸或其他合适的介质，因为可以例如通过对纸或其他介质进行光学扫描，接着进行编辑、解译或必要时以其他合适方式进行处理来以电子方式获得程序，然后将其存储在计算机存储器中。

在本申请实施例中，计算机可读信号介质可以包括在基带中或者作为载波一部分传播的数据信号，其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式，包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是计算机可读存储介质以外的任何计算机可读介质，该计算机可读介质可以发送、传播或者传输用于指令执行系统、输入法或者器件使用或者与其结合使用的程序。计算机可读介质上包含的程序代码可以用任何适当的介质传输，包括但不限于：无线、电线、光缆、射频（Radio Frequency，RF）等等，或者上述的任意合适的组合。

以上所述是本发明的优选实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明原理的前提下，还可以做出若干改进和润饰，这些改进和润饰也视为本发明的保护范围。

Claims

1.一种基于视频的商品状态识别方法，其特征在于，包括：

利用目标检测器对所述图片流进行检测；

2.根据权利要求1所述的基于视频的商品状态识别方法，其特征在于，在所述确定售货机的待识别区域之前，还包括：

3.根据权利要求2所述的基于视频的商品状态识别方法，其特征在于，所述初始检测器采用YOLOV5。

4.根据权利要求2所述的基于视频的商品状态识别方法，其特征在于，在所述生成目标检测器及检测框之后，还包括：

对所述检测框进行标注，并对标注后的检测框进行分类，并利用分类后的检测框对初始分类器进行训练，生成目标分类器。

5.根据权利要求4所述的基于视频的商品状态识别方法，其特征在于，所述初始分类器采用ResNet 18。

6.根据权利要求1所述的基于视频的商品状态识别方法，其特征在于，所述根据检测结果对识别目标的位置进行预测，包括：

将识别目标分为人手目标和商品目标；

7.根据权利要求1所述的基于视频的商品状态识别方法，其特征在于，所述对识别目标进行目标匹配，包括：

8.根据权利要求1所述的基于视频的商品状态识别方法，其特征在于，还包括采用多帧多权重投票机制进行目标分类。

9.一种基于视频的商品状态识别设备，其特征在于，包括：

拍摄触发装置、摄像模块、主控模块及电源模块；

所述主控模块用于进行商品状态识别。

10.一种计算机可读介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现如权利要求1-8任一项所述的基于视频的商品状态识别方法。