CN111461104B

CN111461104B - 视觉识别方法、装置、设备及存储介质

Info

Publication number: CN111461104B
Application number: CN201910056515.6A
Authority: CN
Inventors: 李耀波; 刘旭
Original assignee: Beijing Jingdong Qianshi Technology Co Ltd
Current assignee: Beijing Jingbangda Trade Co Ltd; Beijing Jingdong Qianshi Technology Co Ltd
Priority date: 2019-01-22
Filing date: 2019-01-22
Publication date: 2024-04-09
Anticipated expiration: 2039-01-22
Also published as: CN111461104A

Abstract

本发明提供了一种视觉识别方法、装置、设备及存储介质，该方法包括：若监测到用户拿取目标，则采集视频帧图片；确定每帧图片中的目标的感兴趣区域；提取每帧图片中的目标的感兴趣区域形成每帧目标图片；对每帧目标图片进行缩放处理，获得每帧目标缩放图片；采用第一目标检测算法对每帧目标缩放图片进行视觉识别，以获得识别结果。由于对每帧图片进行无效区域的排除，提取出目标的感兴趣区域进行缩放处理后作为第一目标检测算法的输入图片，放大了目标的感兴趣区域的比例，所以提高了目标的检出率和准确率。

Description

视觉识别方法、装置、设备及存储介质

技术领域

本发明实施例涉及计算机视觉技术领域，尤其涉及一种视觉识别方法、装置、设备及存储介质。

背景技术

随着移动互联网及人工智能的发展，涌现了无人售货柜，无人售货超市等来满足人们的购物需求，提高人们的购物体验。在无人售货柜或无人售货超市购物时，需要在人们从货架上选购商品的过程中对商品进行自动视觉识别。

目标的视觉识别方法是通过架设在货架顶部的传感器采集包含目标的图像或视频序列并利用计算机视觉技术对图像或视频序列中的目标进行检测，实现对目标的分类，达到识别的结果。

现有技术中，对目标的视觉识别方法主要有基于图像匹配的视觉识别方法，基于特征向量比对的视觉识别方法或基于深度学习的视觉识别方法。基于图像匹配的视觉识别方法中，利用图像的特征点进行匹配，根据采集的目标图片与注册库中的匹配度进行识别分类。基于特征向量比对的视觉识别方法提取采集的图片内目标的特征向量，并与注册库中的物品的特征向量进行距离度量判断相似度从而进行视觉识别。基于深度学习的视觉识别方法运用目标检测算法对图片中的目标进行目标定位，从而达到视觉识别的结果。目标检测算法可以为SSD算法。

现有技术中的基于图像匹配的视觉识别方法和基于特征向量比对的视觉识别方法受光线变化和目标姿态变化的影响较大，并且算法复杂，耗时长。而现有技术中的基于SSD算法视觉识别方法虽然受光线变化和目标姿态变化的影响小，耗时短，但由于目标在无人售货柜或无人售货超市的货架上分多层摆放，架在顶部的摄像头拍摄的画面中的远景目标过小，导致基于SSD算法视觉识别方法的目标检出率和准确率都大大降低。

发明内容

本发明实施例提供一种视觉识别方法、装置、设备及存储介质，解决了现有技术中视觉识别方法受光线变化和目标姿态变化的影响小，耗时短，架在顶部的摄像头拍摄的画面中的远景目标过小，导致基于SSD算法视觉识别方法的目标检出率和准确率都大大降低的技术问题。

第一方面，本发明实施例提供一种视觉识别方法，包括：若监测到拾取方拿取目标，则采集视频帧图片；确定每帧图片中的目标的感兴趣区域；提取所述每帧图片中的目标的感兴趣区域形成每帧目标图片；对所述每帧目标图片进行缩放处理，获得每帧目标缩放图片；采用第一目标检测算法对每帧目标缩放图片进行视觉识别，以获得识别结果。

第二方面，本发明实施例提供一种视觉识别装置，包括：视频帧图片采集单元，用于若监测到拾取方拿取目标，则采集视频帧图片；目标感兴趣区域确定单元，用于确定每帧图片中的目标的感兴趣区域；目标感兴趣区域提取单元，用于提取所述每帧图片中的目标的感兴趣区域形成每帧目标图片；目标图片缩放单元，用于对所述每帧目标图片进行缩放处理，获得每帧目标缩放图片；目标识别单元，用于采用第一目标检测算法对每帧目标缩放图片进行视觉识别，以获得识别结果。

第三方面，本发明实施例提供一种电子设备，包括：一个或多个处理器；存储装置，用于存储一个或多个程序；视频帧采集装置，用于采集视频帧图片；当所述一个或多个程序被所述一个或多个处理器执行，使得所述一个或多个处理器实现如第一方面中任一项所述的方法。

第四方面，本发明实施例提供一种可读存储介质，其特征在于，其上存储有计算机程序，所述计算机程序被处理器执行以实现如第一方面中任一项所述的方法。

基于以上各方面，本发明实施例提供一种视觉识别方法、装置、设备及存储介质，通过若监测到拾取方拿取目标，则采集视频帧图片；确定每帧图片中的目标的感兴趣区域；提取每帧图片中的目标的感兴趣区域形成每帧目标图片；对每帧目标图片进行缩放处理，获得每帧目标缩放图片；采用第一目标检测算法对每帧目标缩放图片进行视觉识别，以获得识别结果。由于对每帧图片进行无效区域的排除，提取出目标的感兴趣区域进行缩放处理后作为SSD算法的输入图片，放大了目标的感兴趣区域的比例，所以即使对于物理位置较低的目标，也能够满足第一目标检测算法对目标的大小需求，避免由于目标过小导致目标检测准确率，检出率较低的问题，提高了目标的检出率和准确率。

应当理解，上述发明内容部分中所描述的内容并非旨在限定本发明的实施例的关键或重要特征，亦非用于限制本发明的范围。本发明的其它特征将通过以下的描述变得容易理解。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例提供的视觉识别方法的一种应用场景图；

图2为本发明实施例一提供的视觉识别方法的流程图；

图3为本发明实施例二提供的视觉识别方法的流程图；

图4为本发明实施例二提供的视觉识别方法中步骤302的流程图；

图5为本发明实施例二提供的视觉识别方法中步骤303的流程图；

图6为本发明实施例二提供的视觉识别方法中步骤303b的流程图；

图7为本发明实施例二中确定目标的感兴趣区域的第一示意图；

图8为本发明实施例二中确定目标的感兴趣区域的第二示意图；

图9为本发明实施例二中步骤306中确定每帧目标缩放图片中的目标类别的流程图；

图10为本发明实施例三提供的视觉识别装置的结构示意图；

图11为本发明实施例四提供的视觉识别装置的结构示意图；

图12为本发明实施例五提供的电子设备的结构示意图。

具体实施方式

下面将参照附图更详细地描述本发明的实施例。虽然附图中显示了本发明的某些实施例，然而应当理解的是，本发明可以通过各种形式来实现，而且不应该被解释为限于这里阐述的实施例，相反提供这些实施例是为了更加透彻和完整地理解本发明。应当理解的是，本发明的附图及实施例仅用于示例性作用，并非用于限制本发明的保护范围。

本发明实施例的说明书和权利要求书及上述附图中的术语“第一”、“第二”、“第三”、“第四”等(如果存在)是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本发明实施例如能够以除了在这里图示或描述的那些以外的顺序实施。此外，术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

为了清楚理解本申请的技术方案，下面对本申请中涉及的算法进行解释：

深度学习模型：深度学习是机器学习研究中的一个新的领域，其动机在于建立、模拟人脑进行分析学习的神经网络，它模仿人脑的机制来解释数据，例如图像，声音和文本。深度学习概念源于人工神经网络的研究。含多隐层的多层感知器就是一种深度学习结构。深度学习通过组合低层特征形成更加抽象的高层表示属性类别或特征，以发现数据的分布式特征表示。

SSD算法：SSD算法为基于深度学习的目标检测算法，将待测图片输入到SSD算法中，输出目标物的位置信息和类别信息，若同一类别有多个目标物，还可输出目标物的数量信息，其核心思想是在特征图上采用卷积核来预测目标物的类别信息，位置信息等。

下面对本申请实施例提供的视觉识别方法的应用场景进行介绍。图1为本申请实施例提供的视觉识别方法的一种应用场景图，如图1所示，本实施例中的目标可设置在货架上，可以为无人售货柜，无人售货超市，仓库，或无人售货商场中的货架101上的目标。在货架顶端有视频帧采集装置，该视频帧采集装置可以为视频传感器或摄像头等。在货架上每层都放置目标，视频传感器或摄像头可全程拍摄视场内拾取方拿出目标的全过程。其中，拾取方可以为用户的人手，或用户拾取目标的工具或机械臂对应的拾取部位等。目标102为货架上被拾取方拿取的目标物。本发明实施例中，在每次监测到拾取方拿取目标时，则开始采集视频帧图片，图1中为摄像头103采集到的一帧图片104，根据采集到的视频帧图片，确定每帧图片中的目标的感兴趣区域105，提取每帧图片中的目标的感兴趣区域形成每帧目标图片106；对每帧目标图片进行缩放处理，获得每帧目标缩放图片107，采用目标识别模块108中的第一目标检测算法对每帧目标缩放图片进行视觉识别，以获得识别结果。由于能够排除每帧图片中的无效区域，并且放大了目标的感兴趣区域的比例，并且对于物理位置较低的目标也能够放大目标的感兴趣区域的比例，进而在将每帧目标缩放图片输入到目标检测算法中后，避免了第一目标检测算法对小目标检测准确率，检出率较低的问题，提高了目标的检出率和准确率。

本发明实施例提供的视觉识别方法的应用场景还可以为将该视觉识别方法与人脸识别或行人识别技术相结合，分析用户的感兴趣目标，用于商业智能分析领域，视频监控领域等。

本发明实施例中对视觉识别方法的应用场景不作限定。

以下将参照附图来具体描述本申请的实施例。

实施例一

图2为本发明实施例一提供的视觉识别方法的流程图，如图2所示，则本实施例提供的视觉识别方法的执行主体为视觉识别装置，该视觉识别装置可以集成在电子设备中，电子设备可以为计算机，服务器，移动终端，或无人售货柜等，则本实施例提供的视觉识别方法包括以下几个步骤。

步骤201，若监测到拾取方拿取目标，则采集视频帧图片。

本实施例中，如图1所示，该目标可放置在货架上，货架包括多个货架层，拾取方从货架上拿取的目标为需要进行视觉识别的目标。在货架顶端设置视频帧采集装置，如为视频传感器或摄像头等。

其中，目标可以为商品，物品等，本实施例中对此不作限定。

具体地，本实施例中，可在每个货架层的每个预设位置安装压力传感器，压力传感器可以感知对应位置的目标的压力变化，当拾取方拿目标时，压力传感器能够感知压力变化监测到拾取方拿取了目标，启动摄像头采集视频帧图片。或者本实施例中，采用摄像头监测拾取方是否拿取目标，若监测到拾取方拿取目标，则采集视频帧图片。

本实施例中，监测拾取方拿取目标的方法还可以为其他方法，本实施例中不作限定。

其中，采集的视频帧图片中包括多帧图片，如摄像头在1秒中采集25帧图片。

本实施例中，拾取方可以为用户的人手，或用户拾取目标的工具或机械臂对应的拾取部位等，本实施例中对此不作限定。

步骤202，确定每帧图片中的目标的感兴趣区域。

其中，感兴趣区域，(英文名为：region of interest，简称ROI区域)，其为从每帧图片中采用图形勾勒出的需要处理的区域。采用的图形可以为矩形框，圆形，椭圆形或多边形等。

具体地，本实施例中，可采用图像分割的算法或图像分类的算法或者采用其他方法确定出每帧图片中的目标的感兴趣区域，本实施例中对此不作限定，确定出每帧图片中的目标的感兴趣区域后，在每帧图片中采用图形勾勒出目标的需要处理的区域，如图1所示，105为勾勒出的目标的需要处理的区域。

步骤203，提取每帧图片中的目标的感兴趣区域形成每帧目标图片。

如图1所示，具体地，本实施例中，将获取到的每帧图片中的目标的感兴趣区域从每帧图片中抽离出来，抽离出来的图片为每帧目标图片106。

步骤204，对每帧目标图片进行缩放处理，获得每帧目标缩放图片。

具体地，本实施例中，为了能采用第一目标检测算法加速视觉识别效率，输入到第一目标检测算法中的图片为分辨率较低，大小较小的图片，所以本实施例中对每帧目标图片进行缩放处理，缩放处理后的图片为每帧目标缩放图片，该每帧目标缩放图片大小与第一目标检测算法相匹配。

步骤205，采用第一目标检测算法对每帧目标缩放图片进行视觉识别，以获得识别结果。

本实施例中，将每帧目标缩放图片输入到第一目标检测算法对应的模型中，采用第一目标检测算法对每帧目标缩放图片中的目标的类别，位置和/或数量进行识别，输出目标的所属类别，目标的位置及目标的数量。

其中，第一目标检测算法可以为第一SSD算法还可以为其他目标检测算法，第一SSD算法为由各种目标缩放图片组成的训练集对SSD算法对应的模型进行训练后的优化后的SSD算法。

本实施例提供的视觉识别方法，通过若监测到拾取方拿取目标，则采集视频帧图片；确定每帧图片中的目标的感兴趣区域；提取每帧图片中的目标的感兴趣区域形成每帧目标图片；对每帧目标图片进行缩放处理，获得每帧目标缩放图片；采用第一目标检测算法对每帧目标缩放图片进行视觉识别，以获得识别结果。由于对每帧图片进行无效区域的排除，提取出目标的感兴趣区域进行缩放处理后作为第一目标检测算法的输入图片，放大了目标的感兴趣区域的比例，所以即使对于物理位置较低的目标，也能够满足第一目标检测算法对目标的大小需求，避免由于目标过小导致目标检测准确率，检出率较低的问题，提高了目标的检出率和准确率。

实施例二

图3为本发明实施例二提供的视觉识别方法的流程图，如图3所示，本实施例提供的视觉识别方法，是在本发明实施例一提供的视觉识别方法的基础上，对步骤202、步骤205的进一步细化，并且还包括了根据识别结果获取目标的价格数据；将目标的价格数据推送给用户终端的步骤，则本实施例提供的视觉识别方法包括以下步骤。

步骤301，若监测到拾取方拿取目标，则采集视频帧图片。

进一步地，本实施例中，目标可放置在货架上，货架上的目标为无人售货柜、仓库、无人售货超市或商场的货架上的目标。

优选地，本实施例中，拾取方为用户的人手。

步骤302，检测每帧图片中的拾取方的感兴趣区域。

本实施例中，由于拾取方在拿取目标时，拾取方与目标进行接触，拾取方的感兴趣区域与目标的感兴趣区域有关联，所以本实施例中，采用先检测每帧图片中的拾取方的感兴趣区域，然后根据每帧图片中的拾取方的感兴趣区域确定每帧图片中的目标的感兴趣区域的方法确定每帧图片中的目标的感兴趣区域。

优选地，本实施例中，图4为本发明实施例二提供的视觉识别方法中步骤302的流程图，如图4所示，步骤302包括以下几个步骤。

步骤302a，对每帧图片进行缩小处理。

具体地，本实施例中，拾取方无论是用户人手还是机械臂拾取部位，拾取方特征明显，在拍摄的每帧图片中能够容易识别出，所以为了能够加速视觉识别速度，在检测每帧图片中的拾取方的感兴趣区域时，对每帧图片进行缩小处理，将每帧图片缩小到与第二目标检测算法相匹配的大小。

步骤302b，采用第二目标检测算法检测缩小后的每帧图片中的拾取方的感兴趣区域。

优选地，本实施例中，第二目标检测算法为第二SSD算法。

具体地，本实施例中，首先采用由各种拾取方图片组成的训练集对第二目标检测算法的模型进行训练，获得优化的第二目标检测算法的模型，将缩小后的每帧图片输入到优化的第二目标检测算法的模型中，对缩小后的每帧图片的拾取方进行检测，输出缩小后的每帧图片中的拾取方的感兴趣区域。

其中，若检测到拾取方的感兴趣区域，则采用矩形框框出拾取方的感兴趣区域。

步骤303，根据每帧图片中的拾取方的感兴趣区域确定每帧图片中的目标的感兴趣区域。

进一步地，图5为本发明实施例二提供的视觉识别方法中步骤303的流程图，如图5所示，步骤303包括以下几个步骤。

步骤303a，若未检测到某帧图片的拾取方的感兴趣区域，则确定该帧图片中的目标的感兴趣区域为全图区域。

步骤303b，若检测到某帧图片的拾取方的感兴趣区域，则根据该帧图片的拾取方的感兴趣区域的个数确定每帧图片中的目标的感兴趣区域。

进一步地，若拾取方为用户的人手，则由于用户的人手在拿取目标的过程中，可能由于带手套或袖子遮挡会导致检测不到人手的感兴趣区域的情况发生。所以本实施例中，若未检测到某帧图片的拾取方的感兴趣区域，则在确定该帧图片中的目标的感兴趣区域时，将全图区域确定为该帧图片中的目标的感兴趣区域。并且由于每个拾取方在拿取目标的过程中，拿取目标的动作会不同，若拾取方为用户的人手，则有的用户会单手拿取目标，有的用户会两手拿取目标，所以会导致若检测到某帧图片的拾取方的感兴趣区域，拾取方的感兴趣区域也会有一个或两个的情况发生。若拾取方为机械臂的拾取部位，根据目标及机械臂的不同，有的机械臂会采用两个拾取部位拾取目标，有的机械臂会采用一个拾取部位拾取目标，所以也会导致若检测到某帧图片的拾取方的感兴趣区域，拾取方的感兴趣区域也会有一个或两个的情况发生。所以本实施例中若检测到某帧图片的拾取方的感兴趣区域，则根据该帧图片的拾取方的感兴趣区域的个数确定每帧图片中的目标的感兴趣区域。

优选地，本实施例中，拾取方的感兴趣区域为矩形框区域，图6为本发明实施例二提供的视觉识别方法中步骤303b的流程图，如图6所示，步骤303b包括以下几个步骤。

步骤303b1，若该帧图片的拾取方的感兴趣区域为一个，则按照拾取方的感兴趣区域的长度和宽度的最大值的预设倍数从拾取方的感兴趣区域的中心点向四周确定该帧图片中的目标的感兴趣区域。

图7为本发明实施例二中确定目标的感兴趣区域的第一示意图，如图7所示，本实施例中，若该帧图片71的拾取方的感兴趣区域为一个，则首先确定拾取方的感兴趣区域72中的长度和宽度的最大值，然后确定长度和宽度的最大值的预设倍数的值，该确定的长度和宽度的最大值的预设倍数的值为勾勒目标感兴趣区域73的方框的边长值。预设倍数可以为2倍、2.5倍或三倍等。最后从拾取方的感兴趣区域72的中心点向四周扩张，达到方框的边长值，该方框为确定出的该帧图片中的目标的感兴趣区域73。

需要说明的是，在该帧图片71，拾取方的感兴趣区域72和目标的感兴趣区域73中均包括背景信息，图7中未显示背景信息。

在图7中，拾取方感兴趣区域72的长度大于宽度，采用长度的2.5倍作为目标感兴趣区域73的方框的边长值，以拾取方的感兴趣区域72的中心点为目标的感兴趣区域73的中心点勾勒出目标感兴趣区域73的方框。

步骤303b2，若该帧图片的拾取方的感兴趣区域为两个，则分别确定每个拾取方的感兴趣区域对应的待定目标的感兴趣区域，将包含两个待定目标的感兴趣区域的最小矩形区域确定为该帧图片的目标的感兴趣区域。

进一步地，本实施例中，若该帧图片的拾取方的感兴趣区域为两个，则按照拾取方的感兴趣区域为一个的方式确定每个拾取方的待定目标的感兴趣区域。即按照第一个拾取方的感兴趣区域的长度和宽度的最大值的预设倍数从第一拾取方的感兴趣区域的中心点向四周确定第一待定目标的感兴趣区域。按照第二个拾取方的感兴趣区域的长度和宽度的最大值的预设倍数从第二拾取方的感兴趣区域的中心点向四周确定第二待定目标的感兴趣区域。然后确定包含第一个待定目标的感兴趣区域和第二个待定目标的感兴趣区域的最小矩形区域，将该最小矩形区域确定为该帧图片的最终的目标的感兴趣区域。

图8为本发明实施例二中确定目标的感兴趣区域的第二示意图，如图8所示，本实施例中，若该帧图片81的拾取方的感兴趣区域为两个分别为82和84，则说明用户双手或机械臂的两个拾取部位拿取目标，分别确定出第一拾取方的感兴趣区域82对应的第一待定目标的感兴趣区域83和第二拾取方的感兴趣区域84对应的第二待定目标的感兴趣区域85。然后确定出包含第一个待定目标的感兴趣区域和第二个待定目标的感兴趣区域的最终的目标的感兴趣区域86。

需要说明的是，在该帧图片81，拾取方的感兴趣区域82和84，第一个待定目标的感兴趣区域83和第二个待定目标的感兴趣区域85，目标的感兴趣区域86中均包括背景信息，图8中未显示背景信息。

需要说明的是，本实施例中，步骤302-步骤303是对本发明实施例一中的步骤202的进一步地细化。

本实施例提供的视觉识别方法，在确定每帧图片中的目标的感兴趣区域时，首先通过检测每帧图片中的拾取方的感兴趣区域，然后根据每帧图片中的拾取方的感兴趣区域确定每帧图片中的目标的感兴趣区域，若未检测到某帧图片的拾取方的感兴趣区域，则确定该帧图片中的目标的感兴趣区域为全图区域；若检测到某帧图片的拾取方的感兴趣区域，则根据该帧图片的拾取方的感兴趣区域的个数确定每帧图片中的目标的感兴趣区域，根据该帧图片的拾取方的感兴趣区域的个数确定每帧图片中的目标的感兴趣区域时，若该帧图片的拾取方的感兴趣区域为一个，则按照拾取方的感兴趣区域的长度和宽度的最大值的预设倍数从拾取方的感兴趣区域的中心点向四周确定该帧图片中的目标的感兴趣区域；若该帧图片的拾取方的感兴趣区域为两个，则分别确定每个拾取方的感兴趣区域对应的待定目标的感兴趣区域，将包含两个待定目标的感兴趣区域的最小矩形区域确定为该帧图片的目标的感兴趣区域，由于拾取方的特征明显，能够快速而准确的识别出拾取方的感兴趣区域，根据拾取方的感兴趣区域分情况的确定目标的感兴趣区域，能够对目标的感兴趣区域进行更加准确地确定。

步骤304，提取每帧图片中的目标的感兴趣区域形成每帧目标图片。

步骤305，对每帧目标图片进行缩放处理，获得每帧目标缩放图片。

本实施例中，步骤304-步骤305的实现方式与本发明实施例一中的步骤203-步骤204的实现方式相同，在此不再一一赘述。

步骤306，采用第一目标检测算法对每帧目标缩放图片进行视觉识别，确定每帧目标缩放图片中的目标类别和数量。

优选地，第一目标检测算法为第一SSD算法。

具体地，本实施例中，在采用第一SSD算法对每帧目标缩放图片进行视觉识别，确定每帧目标缩放图片中的目标类别和数量之前，采用各种目标缩放图片组成的训练集对第一SSD算法的模型进行训练，训练集的训练样本中，目标的个数可以为一个或多个，使训练后的SSD算法的模型中的各参数达到最忧，获得优化后的第一SSD算法，将每帧目标缩放图片输入到采用优化的第一SSD算法的模型中，优化后的第一SSD算法对每帧目标缩放图片进行视觉识别，确定每帧目标缩放图片中的目标类别和数量。

图9为本发明实施例二中步骤306中确定每帧目标缩放图片中的目标类别的流程图，如图9所示，本实施例中，步骤306中采用第一目标检测算法对每帧目标缩放图片进行视觉识别，确定每帧目标缩放图片中的目标类别，具体以下步骤：

步骤306a，采用第一SSD算法对每帧目标缩放图片进行视觉识别，确定每帧目标缩放图片中的目标各类别的识别概率。

进一步地，本实施例中，采用第一SSD算法对每帧目标缩放图片进行视觉识别，输出每帧目标缩放图片中的目标属于各个类别的识别概率。如识别出目标属于A类别的概率为76％，属于B类别的概率为5％，属于C类别的概率为20％。

步骤306b，将每帧目标缩放图片对应的目标各类别中最大识别概率与置信度阈值进行对比。

其中，置信度阈值为识别出目标类别和不能识别出目标类别对应的阈值。置信度阈值的取值可以为75％，80％等，本实施例中对此不作限定。

步骤306c，若某帧目标缩放图片对应的目标各类别中最大识别概率大于置信度阈值，则确定该帧目标缩放图片对应的目标类别为最大识别概率对应的类别。

本实施例中，将每帧目标缩放图片对应的目标各类别中最大识别概率与置信度阈值进行对比，若某帧目标缩放图片对应的目标各类别中最大识别概率大于置信度阈值，则确定能够识别出目标对应的类别，目标对应的类别为最大识别概率对应的类别。若某帧目标缩放图片对应的目标各类别中最大识别概率小于或等于置信度阈值，则确定不能够识别出目标对应的类别。

举例说明为：置信度阈值为75％，某帧目标缩放图片对应的目标各类别中最大识别概率为A类别的识别概率，为76％，76％大于75％，则确定该帧目标缩放图片对应的目标类别为A类别。

步骤307，若连续N帧识别出的每帧目标缩放图片对应的目标属于同一类别的个数大于预设个数，则确定目标的类别为该类别。

进一步地，本实施例中，每帧目标缩放图片都有对应目标的类别，若连续N帧目标缩放图片中大于预设个数的每帧目标缩放图片对应的目标的类别为同一类别，则确定目标类别为该大部分目标缩放图片对应的类别。

例如目标缩放图片的连续帧数N为30帧，预设个数为24个，即80％以上的目标缩放图片对应的类别为同一类别，则确定目标类别为80％以上的目标缩放图片对应的类别。

本实施例中，预设个数与目标缩放图片的帧数有关，对预设个数具体取值不作限定。

步骤308，若连续N帧识别出的每帧目标缩放图片对应的目标数量为相同数量的个数大于预设个数，则确定目标的数量为该相同数量。

进一步地，本实施例中，每帧目标缩放图片都有对应目标的数量，若连续N帧目标缩放图片中大于预设个数的每帧目标缩放图片对应的目标的数量为同一数量，则确定目标的数量为该大部分目标缩放图片对应的数量。

例如目标缩放图片的连续帧数N为30帧，预设个数为24个，即80％以上的目标缩放图片对应的数量为两个，则确定目标数量为80％以上的目标缩放图片对应的数量，即为两个。

其中，N的取值还可以为其他数值，本实施例中对此不作限定。

需要说明的是，本实施例中，步骤306-步骤308是对本发明实施例一中的步骤205的进一步地细化。

本实施例提供的视觉识别方法，通过采用第一目标检测算法对每帧目标缩放图片进行视觉识别，以获得识别结果时，采用第一SSD算法对每帧目标缩放图片进行视觉识别，确定每帧目标缩放图片中的目标类别和数量；若连续N帧识别出的每帧目标缩放图片对应的目标属于同一类别的个数大于预设个数，则确定目标的类别为该类别；若连续N帧识别出的每帧目标缩放图片对应的目标数量为相同数量的个数大于预设个数，则确定目标的数量为该相同数量。通过对每帧目标缩放图片进行视觉识别，并根据所有目标缩放图片的识别结果确定拾取方一次拿取目标的类别和数量，能够进一步的提高识别的准确率。

步骤309，根据识别结果获取目标的价格数据；将目标的价格数据推送给用户终端。

进一步地，本实施例中，可将视觉识别方法应用在无人售货柜，仓库，无人售货超市或商场中，在识别出目标所属的类别和数量后，获取该目标的价格数据，并将拾取方所拿取的所有目标的价格数据推送给用户终端，以使用户通过用户终端对目标进行统计或进行线上结算等处理。

本实施例提供的视觉识别方法，在采用第一目标检测算法对每帧目标缩放图片进行视觉识别，以获得识别结果之后，根据识别结果获取目标的价格数据；将目标的价格数据推送给用户终端，以使用户终端进行统计或线上结算，能够将视觉识别方法应用到无人售货柜，仓库，无人售货超市或商场的应用场景中，满足无人售货购物的结算需求或仓库拣货需求。

实施例三

图10为本发明实施例三提供的视觉识别装置的结构示意图，如图10所示，本实施例提供的视觉识别装置包括：视频帧图片采集单元1001，目标感兴趣区域确定单元1002，目标感兴趣区域提取单元1003，目标图片缩放单元1004及目标识别单元1005。

其中，视频帧图片采集单元1001，用于若监测到拾取方拿取目标，则采集视频帧图片。目标感兴趣区域确定单元1002，用于确定每帧图片中的目标的感兴趣区域。目标感兴趣区域提取单元1003，用于提取每帧图片中的目标的感兴趣区域形成每帧目标图片。目标图片缩放单元1004，用于对每帧目标图片进行缩放处理，获得每帧目标缩放图片。目标识别单元1005，用于采用第一目标检测算法对每帧目标缩放图片进行视觉识别，以获得识别结果。

本实施例提供的视觉识别装置可以执行本发明实施例一所示方法实施例的技术方案。

本实施例提供的视觉识别装置，通过视频帧图片采集单元若监测到拾取方拿取目标，则采集视频帧图片；目标感兴趣区域确定单元确定每帧图片中的目标的感兴趣区域；目标感兴趣区域提取单元提取每帧图片中的目标的感兴趣区域形成每帧目标图片；目标图片缩放单元对每帧目标图片进行缩放处理，获得每帧目标缩放图片；目标识别单元采用第一目标检测算法对每帧目标缩放图片进行视觉识别，以获得识别结果。由于对每帧图片进行无效区域的排除，提取出目标的感兴趣区域进行缩放处理后作为第一目标检测算法的输入图片，放大了目标的感兴趣区域的比例，所以即使对于物理位置较低的目标，也能够满足第一目标检测算法对目标的大小需求，避免由于目标过小导致第一目标检测算法目标检测准确率，检出率较低的问题，提高了目标的检出率和准确率。

实施例四

图11为本发明实施例四提供的视觉识别装置的结构示意图，如图11所示，本实施例提供的视觉识别装置在本发明实施例三提供的视觉识别装置的基础上，进一步地，还包括：价格数据获取单元1101，价格数据推送单元1102。

进一步地，目标感兴趣区域确定单元1002，具体包括：拾取方感兴趣区域检测模块1002a和目标感兴趣区域确定模块1002b。

其中，拾取方感兴趣区域检测模块1002a，用于检测每帧图片中的拾取方的感兴趣区域。目标感兴趣区域确定模块1002b，用于根据每帧图片中的拾取方的感兴趣区域确定每帧图片中的目标的感兴趣区域。

进一步地，拾取方感兴趣区域检测模块1002a，具体用于：对每帧图片进行缩小处理；采用第二目标检测算法检测缩小后的每帧图片中的拾取方的感兴趣区域。

进一步地，目标感兴趣区域确定模块1002b，具体包括：第一目标感兴趣区域确定模块1002b1和第二目标感兴趣区域确定模块1002b2。

其中，第一目标感兴趣区域确定模块1002b1，用于若未检测到某帧图片的拾取方的感兴趣区域，则确定该帧图片中的目标的感兴趣区域为全图区域。第二目标感兴趣区域确定模块1002b2，用于若检测到某帧图片的拾取方的感兴趣区域，则根据该帧图片的拾取方的感兴趣区域的个数确定每帧图片中的目标的感兴趣区域。

进一步地，拾取方的感兴趣区域为矩形框区域，相应地，第二目标感兴趣区域确定模块1002b2，具体用于：若该帧图片的拾取方的感兴趣区域为一个，则按照拾取方的感兴趣区域的长度和宽度的最大值的预设倍数从拾取方的感兴趣区域的中心点向四周确定该帧图片中的目标的感兴趣区域；若该帧图片的拾取方的感兴趣区域为两个，则分别确定每个拾取方的感兴趣区域对应的待定目标的感兴趣区域，将包含两个待定目标的感兴趣区域的最小矩形区域确定为该帧图片的目标的感兴趣区域。

进一步地，目标识别单元1005，具体包括：每帧目标识别模块1005a，目标类别识别模块1005b，目标数量识别模块1005c。

其中，每帧目标识别模块1005a，用于采用第一SSD算法对每帧目标缩放图片进行视觉识别，确定每帧目标缩放图片中的目标类别和数量。目标类别识别模块1005b，用于若连续N帧识别出的每帧目标缩放图片对应的目标属于同一类别的个数大于预设个数，则确定目标的类别为该类别。目标数量识别模块1005c，用于若连续N帧识别出的每帧目标缩放图片对应的目标数量为相同数量的个数大于预设个数，则确定目标的数量为该相同数量。

进一步地，每帧目标识别模块1005a，具体用于：采用第一SSD算法对每帧目标缩放图片进行视觉识别，确定每帧目标缩放图片中的目标各类别的识别概率；将每帧目标缩放图片对应的目标各类别中最大识别概率与置信度阈值进行对比；若某帧目标缩放图片对应的目标各类别中最大识别概率大于置信度阈值，则确定该帧目标缩放图片对应的目标类别为最大识别概率对应的类别。

本实施例中，目标为无人售货柜、无人售货超市或商场的货架上的目标。

进一步地，价格数据获取单元1101，用于根据识别结果获取目标的价格数据。价格数据推送单元1102，用于将目标的价格数据推送给拾取方终端。

本实施例提供的视觉识别装置可以执行本发明实施例二所示方法实施例的技术方案。

本实施例提供的视觉识别装置，在目标感兴趣区域确定单元确定每帧图片中的目标的感兴趣区域时，首先通过拾取方感兴趣区域检测模块检测每帧图片中的拾取方的感兴趣区域，然后目标感兴趣区域确定模块根据每帧图片中的拾取方的感兴趣区域确定每帧图片中的目标的感兴趣区域，第一目标感兴趣区域确定模块若未检测到某帧图片的拾取方的感兴趣区域，则确定该帧图片中的目标的感兴趣区域为全图区域；第二目标感兴趣区域确定模块若检测到某帧图片的拾取方的感兴趣区域，则根据该帧图片的拾取方的感兴趣区域的个数确定每帧图片中的目标的感兴趣区域，根据该帧图片的拾取方的感兴趣区域的个数确定每帧图片中的目标的感兴趣区域时，若该帧图片的拾取方的感兴趣区域为一个，则按照拾取方的感兴趣区域的长度和宽度的最大值的预设倍数从拾取方的感兴趣区域的中心点向四周确定该帧图片中的目标的感兴趣区域；若该帧图片的拾取方的感兴趣区域为两个，则分别确定每个拾取方的感兴趣区域对应的待定目标的感兴趣区域，将包含两个待定目标的感兴趣区域的最小矩形区域确定为该帧图片的目标的感兴趣区域，由于拾取方的特征明显，能够快速而准确的识别出拾取方的感兴趣区域，根据拾取方的感兴趣区域分情况的确定目标的感兴趣区域，能够对目标的感兴趣区域进行更加准确地确定。

本实施例提供的视觉识别装置，目标识别单元采用第一SSD算法对每帧目标缩放图片进行视觉识别，以获得识别结果时，每帧目标识别模块采用第一SSD算法对每帧目标缩放图片进行视觉识别，确定每帧目标缩放图片中的目标类别和数量；目标类别识别模块若识别出的每帧目标缩放图片对应的目标属于同一类别的个数大于预设个数，则确定目标的类别为该类别；目标数量识别模块若识别出的每帧目标缩放图片对应的目标数量为相同数量的个数大于预设个数，则确定目标的数量为该相同数量。通过对每帧目标缩放图片进行视觉识别，并根据所有目标缩放图片的识别结果确定拾取方一次拿取目标的目标的类别和数量，能够进一步的提高识别的准确率。

本实施例提供的视觉识别装置，在目标识别单元采用第一SSD算法对每帧目标缩放图片进行视觉识别，以获得识别结果之后，价格数据获取单元根据识别结果获取目标的价格数据；价格数据推送单元将目标的价格数据推送给用户终端，以使用户终端进行线上结算，能够将视觉识别方法应用到无人售货柜，仓库，无人售货超市或商场的应用场景中，满足无人售货购物的结算需求或仓库拣货需求。

实施例五

图12为本发明实施例五提供的电子设备的结构示意图，如图12所示，本实施例中，电子设备包括：一个或多个处理器1201，存储装置1202和视频帧采集装置1203。

其中，存储装置1202，用于存储一个或多个程序。视频帧采集装置1203，用于采集视频帧图片。当一个或多个程序被一个或多个处理器1201执行，使得一个或多个处理器1201实现如本发明实施例一提供的视觉识别方法或本发明实施例二提供的视觉识别方法。

相关说明可以对应参见图1至图9所对应的相关描述进行理解，此处不做过多赘述。

本实施例提供的电子设备，包括一个或多个处理器；存储装置，用于存储一个或多个程序；视频帧采集装置，用于采集视频帧图片；当一个或多个程序被一个或多个处理器执行，使得一个或多个处理器实现实施例一或实施例二的方法。由于对每帧图片进行无效区域的排除，提取出目标的感兴趣区域进行缩放处理后作为第一目标检测算法的输入图片，放大了目标的感兴趣区域的比例，所以即使对于物理位置较低的目标，也能够满足第一目标检测算法对目标的大小需求，避免由于目标过小导致SSD算法目标检测准确率，检出率较低的问题，提高了目标的检出率和准确率。

实施例六

本发明实施例六提供一种可读存储介质，其上存储有计算机程序，计算机程序被处理器执行以实现如本发明实施例一提供的视觉识别方法或本发明实施例二提供的视觉识别方法。

本实施例提供的可读存储介质，存储有计算机程序，计算机程序被处理器执行以实现如本发明实施例一提供的视觉识别方法或本发明实施例二提供的视觉识别方法，由于对每帧图片进行无效区域的排除，提取出目标的感兴趣区域进行缩放处理后作为第一目标检测算法的输入图片，放大了目标的感兴趣区域的比例，所以即使对于物理位置较低的目标，也能够满足第一目标检测算法对目标的大小需求，避免由于目标过小导致第一目标检测算法目标检测准确率，检出率较低的问题，提高了目标的检出率和准确率。

在本发明所提供的几个实施例中，应该理解到，所揭露的装置和方法，可以通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的，例如，模块的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个模块或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，装置或模块的间接耦合或通信连接，可以是电性，机械或其它的形式。

作为分离部件说明的模块可以是或者也可以不是物理上分开的，作为模块显示的部件可以是或者也可以不是物理模块，即可以位于一个地方，或者也可以分布到多个网络模块上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。

另外，在本发明各个实施例中的各功能模块可以集成在一个处理模块中，也可以是各个模块单独物理存在，也可以两个或两个以上模块集成在一个模块中。上述集成的模块既可以采用硬件的形式实现，也可以采用硬件加软件功能模块的形式实现。

用于实施本发明的方法的程序代码可以采用一个或多个编程语言的任何组合来编写。这些程序代码可以提供给通用计算机、专用计算机或其他可编程数据处理装置的处理器或控制器，使得程序代码当由处理器或控制器执行时使流程图和/或框图中所规定的功能/操作被实施。程序代码可以完全在机器上执行、部分地在机器上执行，作为独立软件包部分地在机器上执行且部分地在远程机器上执行或完全在远程机器或服务器上执行。

在本发明的上下文中，机器可读介质可以是有形的介质，其可以包含或存储以供指令执行系统、装置或设备使用或与指令执行系统、装置或设备结合地使用的程序。机器可读介质可以是机器可读信号介质或机器可读储存介质。机器可读介质可以包括但不限于电子的、磁性的、光学的、电磁的、红外的、或半导体系统、装置或设备，或者上述内容的任何合适组合。机器可读存储介质的更具体示例会包括基于一个或多个线的电气连接、便携式计算机盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦除可编程只读存储器(EPROM或快闪存储器)、光纤、便捷式紧凑盘只读存储器(CD-ROM)、光学储存设备、磁储存设备、或上述内容的任何合适组合。

此外，虽然采用特定次序描绘了各操作，但是这应当理解为要求这样操作以所示出的特定次序或以顺序次序执行，或者要求所有图示的操作应被执行以取得期望的结果。在一定环境下，多任务和并行处理可能是有利的。同样地，虽然在上面论述中包含了若干具体实现细节，但是这些不应当被解释为对本公开的范围的限制。在单独的实施例的上下文中描述的某些特征还可以组合地实现在单个实现中。相反地，在单个实现的上下文中描述的各种特征也可以单独地或以任何合适的子组合的方式实现在多个实现中。

尽管已经采用特定于结构特征和/或方法逻辑动作的语言描述了本主题，但是应当理解所附权利要求书中所限定的主题未必局限于上面描述的特定特征或动作。相反，上面所描述的特定特征和动作仅仅是实现权利要求书的示例形式。

Claims

1.一种视觉识别方法，其特征在于，包括：

若监测到拾取方拿取目标，则采集视频帧图片；

检测每帧图片中的拾取方的感兴趣区域；

若未检测到某帧图片的拾取方的感兴趣区域，则确定所述帧图片中的目标的感兴趣区域为全图区域；

若检测到某帧图片的拾取方的感兴趣区域，则根据所述帧图片的拾取方的感兴趣区域的个数确定每帧图片中的目标的感兴趣区域；

提取所述每帧图片中的目标的感兴趣区域形成每帧目标图片；

对所述每帧目标图片进行缩放处理，获得每帧目标缩放图片；

采用第一目标检测算法对每帧目标缩放图片进行视觉识别，以获得识别结果；

其中，所述根据所述帧图片的拾取方的感兴趣区域的个数确定每帧图片中的目标的感兴趣区域包括：

若所述帧图片的拾取方的感兴趣区域为一个，则从所述拾取方的感兴趣区域的中心点向四周确定所述帧图片中的目标的感兴趣区域；

若所述帧图片的拾取方的感兴趣区域为两个，则分别确定每个拾取方的感兴趣区域对应的待定目标的感兴趣区域，将包含两个待定目标的感兴趣区域的最小区域确定为所述帧图片的目标的感兴趣区域。

2.根据权利要求1所述的方法，其特征在于，所述检测每帧图片中的拾取方的感兴趣区域，具体包括：

对所述每帧图片进行缩小处理；

采用第二目标检测算法检测缩小后的每帧图片中的拾取方的感兴趣区域。

3.根据权利要求1所述的方法，其特征在于，所述拾取方的感兴趣区域为矩形框区域，所述根据所述帧图片的拾取方的感兴趣区域的个数确定每帧图片中的目标的感兴趣区域，具体包括：

若所述帧图片的拾取方的感兴趣区域为一个，则按照所述拾取方的感兴趣区域的长度和宽度的最大值的预设倍数从所述拾取方的感兴趣区域的中心点向四周确定该帧图片中的目标的感兴趣区域；

若所述帧图片的拾取方的感兴趣区域为两个，则分别确定每个拾取方的感兴趣区域对应的待定目标的感兴趣区域，将包含两个待定目标的感兴趣区域的最小矩形区域确定为该帧图片的目标的感兴趣区域。

4.根据权利要求1所述的方法，其特征在于，所述采用第一目标检测算法对每帧目标缩放图片进行视觉识别，以获得识别结果，具体包括：

采用第一SSD算法对每帧目标缩放图片进行视觉识别，确定每帧目标缩放图片中的目标类别和数量；

若连续N帧识别出的每帧目标缩放图片对应的目标属于同一类别的个数大于预设个数，则确定所述目标的类别为该类别；

若连续N帧识别出的每帧目标缩放图片对应的目标数量为相同数量的个数大于预设个数，则确定所述目标的数量为该相同数量。

5.根据权利要求4所述的方法，其特征在于，所述采用第一目标检测算法对每帧目标缩放图片进行视觉识别，确定每帧目标缩放图片中的目标类别，具体包括：

采用第一SSD算法对每帧目标缩放图片进行视觉识别，确定每帧目标缩放图片中的目标各类别的识别概率；

将所述每帧目标缩放图片对应的目标各类别中最大识别概率与置信度阈值进行对比；

若所述某帧目标缩放图片对应的目标各类别中最大识别概率大于置信度阈值，则确定该帧目标缩放图片对应的目标类别为最大识别概率对应的类别。

6.根据权利要求1所述的方法，其特征在于，所述目标为无人售货柜、仓库、无人售货超市或商场的货架上的目标。

7.根据权利要求6所述的方法，其特征在于，所述采用第一目标检测算法对每帧目标缩放图片进行视觉识别，以获得识别结果之后，还包括：

根据识别结果获取所述目标的价格数据；

将所述目标的价格数据推送给用户终端。

8.一种视觉识别装置，其特征在于，包括：

视频帧图片采集单元，用于若监测到拾取方拿取目标，则采集视频帧图片；

目标感兴趣区域确定单元，用于检测每帧图片中的拾取方的感兴趣区域；若未检测到某帧图片的拾取方的感兴趣区域，则确定所述帧图片中的目标的感兴趣区域为全图区域；若检测到某帧图片的拾取方的感兴趣区域，则根据所述帧图片的拾取方的感兴趣区域的个数确定每帧图片中的目标的感兴趣区域；

目标感兴趣区域提取单元，用于提取所述每帧图片中的目标的感兴趣区域形成每帧目标图片；

目标图片缩放单元，用于对所述每帧目标图片进行缩放处理，获得每帧目标缩放图片；

目标识别单元，用于采用第一目标检测算法对每帧目标缩放图片进行视觉识别，以获得识别结果；

其中，所述目标感兴趣区域确定单元，还用于：

9.一种电子设备，其特征在于，包括：

一个或多个处理器；

存储装置，用于存储一个或多个程序；

视频帧采集装置，用于采集视频帧图片；

当所述一个或多个程序被所述一个或多个处理器执行，使得所述一个或多个处理器实现如权利要求1-7中任一项所述的方法。

10.一种可读存储介质，其特征在于，其上存储有计算机程序，所述计算机程序被处理器执行以实现如权利要求1-7中任一项所述的方法。