CN108416902A

CN108416902A - 基于差异识别的实时物体识别方法和装置

Info

Publication number: CN108416902A
Application number: CN201810168160.5A
Authority: CN
Inventors: 王毕才; 吕廷迅; 谭勇; 袁俊
Original assignee: Chengdu Fruit Xiaomei Network Technology Co Ltd
Current assignee: Chengdu Haoxiangni Network Technology Co ltd
Priority date: 2018-02-28
Filing date: 2018-02-28
Publication date: 2018-08-17
Anticipated expiration: 2038-02-28
Also published as: CN108416902B

Abstract

本申请公开了一种基于差异识别的实时物体识别方法和装置，该方法包括：图像比对步骤：每隔预设时间间隔获取所述无人售货机的货架上的物体的图像，将获取的每一个图像与所述图像的前一个图像进行特征点匹配，将存在未匹配成功的特征点的图像作为待检测图像；物体识别步骤：将所述待检测图像输入经过训练的深度神经网络模型进行物体识别；购买结算步骤：根据物体识别结果确定用户最终提取的物体，进行结算。通过该方法，能够对用户在所述无人售货机的货架提取的商品进行更好地识别和判断，提高检测的准确率，提升了用户体验。

Description

基于差异识别的实时物体识别方法和装置

技术领域

本申请涉及图像处理领域，特别是涉及一种基于差异识别的实时物体检测方法和装置。

背景技术

现有的智能无人售货机，购买者在购物时需要系统自动识别用户拿走的商品。在公共场所设置这样的机器，不但方便了用户，同时还节省了大量人工费用。然而，通常这样的智能售货机都是采用高速摄像头实时捕捉用户拿取商品的过程来识别购买的商品。然而，有时用户拿取物体的速度过快，会导致摄像头来不及跟踪，从而造成识别困难，或者完全无法识别；有时用户完全握住物体或者只是露出物体的一部分，或者用户有意或无意遮挡住物体的关键部位，也会造成识别困难，或者完全无法识别。整个购物流程中，物体检测识别是其关键因素。检测识别算法包括物体模型训练和图片对比识别两个流程。受到柜体内部光源限制，加上用户拿取过程中的物体遮挡，或自身包装袋反光等影响，传统的检测识别算法在这种复杂光线场景条件下表现较差，识别成功率较低上述这些情况都会导致结算错误，使得用户不能顺利购物，用户体验变差。

发明内容

本申请的目的在于克服上述问题或者至少部分地解决或缓减解决上述问题。

根据本申请的一个方面，提供了一种物体识别方法，所述方法包括：

图像比对步骤：每隔预设时间间隔获取所述无人售货机的货架上的物体的图像，将获取的每一个图像与所述图像的前一个图像进行特征点匹配，将存在未匹配成功的特征点的图像作为待检测图像；

物体识别步骤：将所述待检测图像输入经过训练的深度神经网络模型进行物体识别；

购买结算步骤：根据物体识别结果确定用户最终提取的物体，进行结算。

通过该方法，能够对用户在所述无人售货机的货架提取的商品进行更好地识别和判断，提高检测的准确率，提升了用户体验。

可选地，所述图像比对步骤还包括：通过尺度不变特征变换(SIFT)算法分别计算所述图像与该图像的前一个图像的特征点，并进行特征点匹配。

可选地，所述图像比对步骤还包括：对于所述待检测图像，将匹配成功的特征点所对应的图像部分设置为纯色，未匹配成功的特征点所对应的图像部分保持不变。

可选地，所述深度神经网络模型为检测网络(DetectNet)模型。

可选地，通过以下步骤对所述检测网络模型进行训练和验证：

将所述货架上的物体的图片和该物体的标签输入所述检测网络模型；

将所述物体的图片切分成若干个网格，对于每个网格内的方块，利用所述检测网络模型中基于谷歌网络(GoogLeNet)的全卷积网络(FCN)进行物体类别和物体边界框的特征抽取和预测；

对于每个网格内的方块，利用损失函数同时计算物体覆盖(object coverage)预测和物体边界框(object bunding box)预测的损失度量；

通过聚类函数生成预测的对象边界框的最终集合，得到预测结果；和

利用均值平均预测(mean Average Precision,mAP)对所述检测网络模型的性能进行验证。

根据本申请另一个方面，还提供了一种物体识别装置，所述装置包括：

图像比对模块，其被配置成每隔预设时间间隔获取所述无人售货机的货架上的物体的图像，将获取的每一个图像与所述图像的前一个图像进行特征点匹配，将存在未匹配成功的特征点的图像作为待检测图像；

物体识别模块，其被配置成将所述图像比对模块的待检测图像输入经过训练的神经网络模型进行物体识别；

购买结算模块，其被配置成根据所述物体识别模块的物体识别结果确定用户最终提取的物体，进行结算。

通过该装置，能够对用户在所述无人售货机的货架提取的商品进行更好地识别和判断，提高检测的准确率，提升了用户体验。

可选地，所述深度神经网络模型为检测网络模型。

可选地，通过以下模块对所述检测网络模型进行训练和验证：

输入模块，其被配置成将所述货架上的物体的图片和该物体的标签输入所述检测网络模型；

特征抽取和预测模块，其被配置成将所述物体的图片切分成若干个网格，对于每个网格内的方块，利用所述检测网络模型中基于谷歌网络的全卷积网络(FCN)进行物体类别和物体边界框的特征抽取和预测；

损失度量计算模块，其被配置成对于每个网格内的方块，利用损失函数同时计算物体覆盖(object coverage)预测和物体边界框(object bunding box)预测的损失度量；

预测结果生成模块，其被配置成通过聚类函数生成预测的对象边界框的最终集合，得到预测结果；和

验证模块，其被配置成利用均值平均预测(mAP)对所述检测网络模型的性能进行验证。

根据本申请另一个方面，还提供了一种计算机设备，包括存储器、处理器和存储在所述存储器内并能由所述处理器运行的计算机程序，其中，所述处理器执行所述计算机程序时实现上述的方法。

根据本申请另一个方面，还提供了一种计算机可读存储介质，其内存储有计算机程序，所述计算机程序在由处理器执行时实现上述的方法。

本申请提供了一种商品识别的整体解决方案，旨在解决用户使用无人售货机购买商品过程中的物体识别问题。现有技术中的解决方案大多是通过识别客户购买录像，关注点集中于客户购买动作，而由于客观环境和用户购买习惯的复杂多样性、硬件采购成本高、对网络状况要求严格、对服务后端架构压力大等因素导致无人售货机的整体解决方案面临极大的挑战。因此，本申请采用间隔拍摄图片，对图片进行特定点识别与匹配，找出用户提取或放回的物体，再利用深度神经网络对该物体进行识别，提高了系统的稳定性，改善了用户体验，为无人售货机的普及创造了更加有利的条件。

根据下文结合附图对本申请的具体实施例的详细描述，本领域技术人员将会更加明了本申请的上述以及其他目的、优点和特征。

附图说明

后文将参照附图以示例性而非限制性的方式详细描述本申请的一些具体实施例。附图中相同的附图标记标示了相同或类似的部件或部分。本领域技术人员应该理解，这些附图未必是按比例绘制的。附图中：

图1是根据本申请的物体识别方法的一个实施例的流程图；

图2是无人售货机的某一层的原始图像；

图3是用户提取物体后该层的图像；

图4是对待检测图像进行处理后得到的图像；

图5是对检测网络模型进行训练和验证的一个实施例的流程图；

图6是根据本申请的物体识别装置的一个实施例的框图；

图7根据本申请的无人售货机的一个实施例的框图。

具体实施方式

图1是根据本申请的物体识别方法的一个实施例的流程图，所述方法包括：

物体识别步骤：将所述待检测图像输入经过训练的深度神经网络模型进行物体识别；和

本申请所提供的方法能够实时识别客户购买的商品，由于采取的是静态画面的比对，不必对客户购买行为进行不合理的约束也不需要高速摄像装置来采集高清的画面；采用深度神经网络模型对物体进行识别，能够提高对物体的识别准确率，提升了用户体验，降低了无人售货机的成本。

其中，无人售货机可以是柜子、箱子或者其他形状。当无人售货机的门被打开或者将要被打开的状态可以通过用户的操作进行判断。例如，无人售货机的柜体外部可以贴有二维码标签，用户使用移动智能终端扫描所述二维码标签时，访问后台服务器，后台服务器给无人售货机发送解锁指令，此时，能够判断出柜门将要被用户打开。例如，无人售货机的柜体外部可以设置有生物信息采集装置，用于采集用户的生物信息或者手机信息，访问后台服务器，后台服务器给无人售货机发送解锁指令；其中，所述生物信息包括指纹信息、掌纹信息、掌静脉信息、指静脉信息、眼红膜信息或人脸信息；所述手机信息包括SIM卡信息、NFC信息等。还可以通过其他方式判断门被打开或者将要被打开，例如传感器感测门的移动。

可选地，柜体内每一层都可以设置有摄像装置，从而为每一层商品拍摄一张图像作为原始图像。图2是无人售货机的某一层的原始图像。

可选地，预设时间间隔范围为1秒至5秒，优选为1秒钟。

可选地，通过尺度不变特征变换算法分别计算所述图像与该图像的前一个图像的特征点，并进行特征点匹配。

通过尺度不变特征变换算法分别计算所述图像与该图像的前一个图像的特征点，进行特征点匹配，如果所述图像中存在未匹配成功的特征点，则认为用户放回了物体，将所述图像作为待检测图像；如果该图像的前一个图像中存在未匹配成功的特征点，则认为用户提取了物体，将前一个图像作为待检测图像，对于待检测图像，保留未匹配成功的特征点所对应的图像部分。

无人售货机的每层货架上按照要求摆放着对应的商品，假设某层货架上按照顺序摆放有小桶泡面、酸菜泡面、可乐、椰汁、薯片等商品。摄像装置可以是摄像头。例如，图2为摄像头在某个时刻对准该层商品拍摄了第一张图像。用户从最外层拿取了一盒饼干，此时参见图3，图3是用户提取物体后摄像头拍摄了第二张图片，通过SIFT算法比对第一张图片和第二张图片。由于SIFT算法具备尺度不变形、旋转不变形、图像亮度和拍摄视角的鲁棒性，同时由于目前大多数商品为了吸引客户颜色都比较鲜艳，特征比较丰富，因此SIFT算法能够在前后两张图片上都提取出比较多的图像特征点。将前后两张照片特征点进行匹配，匹配时考虑了商品的位置因素，被拿取的饼干将不会被匹配到。由于第二张图像具有第一张图像没有的关于饼干的特征点，因此认为客户提取了物体，将第二张图像作为待检测图像。对于待检测图像，保留未匹配成功的特征点所对应的图像部分，将该图片用深度神经网络模型进行检测，识别出商品的数量和类别。

本申请除了采用SIFT算法外，还可以通过高斯拉普拉斯算子检测(LoG)算法、行列式值(DoH)方法、加速稳健特征(SURF)算法、二进制稳健基元独立特征(BRIEF)算法等检测算法实现，这些算法的实质都是在检测和发现图像的特征点，并最终用于比较图片局部或整体的相似性。

可选地，纯色可以为黑色、白色或者其他颜色。例如，图4是对待检测图像进行处理后得到的图像。在该图中，将所有被匹配到的特征点及其周围都重置为白色，这样第一张图片中的饼干就没有被白色覆盖，将该图片利用深度神经网络模型检测，识别出商品对应的类别，就可以判断出用户购买了一盒饼干。

可选地，所述深度神经网络模型为检测网络模型。

图5是对检测网络模型进行训练和验证的一个实施例的流程图，可选地，通过以下步骤对所述检测网络模型进行训练和验证：

将所述物体的图片切分成若干个网格，对于每个网格内的方块，利用所述检测网络模型中基于谷歌网络的全卷积网络进行物体类别和物体边界框的特征抽取和预测；

对于每个网格内的方块，利用损失函数同时计算物体覆盖预测和物体边界框预测的损失度量；

利用均值平均预测对所述检测网络模型的性能进行验证。

DetectNet模型训练数据样本是包含多个对象的较大图像。对于图像中的每个对象，训练标签必须不仅标注了对象的类别，而且还标注了该对象的边界框的顶点的坐标。可选地，该模型的标签为三维标签，该标签的格式使得该模型能够以可变数量的对象提取任何大小的图像。

将所述货架上的物体的图片和该物体的标签输入所述检测网络模型后，将所述物体的图片切分成若干个网格，以规则的网格覆盖图像，网格的间距稍小于希望检测的最小对象。网络优选为正方形。每个网格正方形都标有两个关键信息：网格正方形中出现的目标类别以及相对于网格正方形中心的边界框顶点的像素坐标。在网格中不存在对象的情况下，使用特殊的“不用处理”类，以便数据表示保持固定大小。该模型还提供覆盖值0或1，以指示网格方块内是否存在对象。在同一网格中存在多个对象的情况下，该模型选择占据网格平方内最多像素的对象。换句话说，对于每个网格正方形，该模型必须预测一个物体是否存在，以及该物体的边界框顶点相对于网格正方形的中心的坐标。对于每个网格内的方块，利用所述检测网络模型中基于谷歌网络的全卷积网络进行物体类别和物体边界框的特征抽取和预测

对于每个网格内的方块，利用损失函数同时计算物体覆盖预测和物体边界框预测的损失度量。该模型使用这两个单独损失函数的线性组合来产生其最终损失函数以进行优化。

该方法对网格方块生成的一组边界框进行聚类和过滤。该方法使用矩形等价条件对边界框进行聚类，该条件将具有相似大小和位置的矩形组合在一起。相似性由变量eps定义，其中eps值为零表示没有聚类，并且当eps达到正无穷时，所有边界框被合并在一个聚类中。聚类后，包含少于或等于某个阈值的矩形的小群集将被拒绝。对于剩余的簇，计算平均矩形并放入输出矩形列表，从而生成预测的对象边界框的最终集合，得到预测结果。

该模型还计算并输出最终输出边界框集的均值平均预测分数。对于每个预测边界框和每个真实边界框，计算交叉点联合(IoU)分数。IoU是两个包围盒的重叠区域与两个包围盒的面积之和的比率。用户可以定义IoU阈值，例如，0.7。该参数可以表征该模型对感兴趣对象的敏感程度，可以降低误报率，提高边界框的估计精度。

图6是根据本申请的物体识别装置的一个实施例的框图。根据本申请的另一个方面，还提供了一种物体识别装置，所述装置包括：

物体识别模块，其被配置成将所述图像比对模块的待检测图像输入经过训练的神经网络模型进行物体识别；和

可选地，所述图像比对模块还被配置为：通过尺度不变特征变换算法分别计算所述图像与该图像的前一个图像的特征点，并进行特征点匹配。

可选地，所述图像比对模块还被配置为：对于所述待检测图像，将匹配成功的特征点所对应的图像部分设置为纯色，未匹配成功的特征点所对应的图像部分保持不变。

可选地，所述深度神经网络模型为检测网络模型。

特征抽取和预测模块，其被配置成将所述物体的图片切分成若干个网格，对于每个网格内的方块，利用所述检测网络模型中基于谷歌网络的全卷积网络进行物体类别和物体边界框的特征抽取和预测；

损失度量计算模块，其被配置成对于每个网格内的方块，利用损失函数同时计算物体覆盖预测和物体边界框预测的损失度量；

上述装置中各个模块中的数据处理方式与前文所述方法中各个步骤的数据处理方式相同或相似，此处不再赘述。

根据本申请的另一个方面，还提供了一种计算机设备，包括存储器、处理器和存储在所述存储器内并能由所述处理器运行的计算机程序，其中，所述处理器执行所述计算机程序时实现如上所述的方法。

根据本申请的另一个方面，还提供了一种计算机可读存储介质，其内存储有计算机程序，所述计算机程序在由处理器执行时实现如上所述的方法。

图7根据本申请的无人售货机的一个实施例的框图。根据本申请的另一个方面，还提供了一种无人售货机，包括：柜体1、所述柜体内的货架2、摄像头3、处理器(未示出)和服务器4。其中，所述摄像头设置在所述柜体内，所述摄像头连接至所述处理器。该处理器可以作广泛理解，例如，可以是运算终端：定制开发终端，安装Linux系统，并带有一定容量的硬盘存储功能。服务器优选为GPU云服务器，用于DetectNet模型的训练，以及实时的物体识别计算。处理器和服务器之间可以通过无线网络连接，例如，可以说4G或WIFI网络。

所述摄像头在所述柜体的门被打开或者将要被打开时，获取所述无人售货机中货架上的物体的图像作为原始图像，并且在所述无人售货机的门被打开后，每隔预设时间间隔获取所述货架上的物体的图像，将获取的所有图片传送至所述处理器；

所述处理器将获取的每一个图像与所述图像的前一个图像进行特征比对，确定用户从所述货架上提取的物体或者放回到所述货架的物体；在所述无人售货机的门被关闭时或者关闭后，确定用户最终提取的物体，进行结算。

可选地，所述处理器通过尺度不变特征变换算法分别计算所述图像与该图像的前一个图像的特征点，进行特征点匹配；如果所述图像中存在未匹配成功的特征点，则认为用户放回了物体，将所述图像作为待检测图像；如果该图像的前一个图像中存在未匹配成功的特征点，则认为用户提取了物体，将前一个图像作为待检测图像；对于待检测图像，保留未匹配成功的特征点所对应的图像部分；利用机器学习的方法对处理后的待检测图像进行识别，确定所述待检测图像中的物体。

可选地，所述处理器将所述待检测图像中匹配成功的特征点所对应的图像部分设置为纯色，未匹配成功的特征点所对应的图像部分保持不变。

可选地，所述摄像头可以设置在柜体内的顶壁以及每层货架的下方，以便对下方的货架进行拍摄；也可以设置在柜体内的侧壁；也可以设置在其他适当的位置。可以理解的是，可以由一个或者多个摄像头对每层货架的物体进行拍摄，在利用多个摄像头进行拍摄的情况下，该多个摄像头可以设置在该层货架上方，或者设置在该层货架旁边的柜体内壁，或者二者的结合。

本发明解决了智能无人售货机硬件采购成本高、对外部环境依赖程度高、对网络实时性和带宽要求高、对后端压力大、要求限制用户购买习惯等不利条件，为智能无人售货机的广泛推广奠定了基础。

在上述实施例中，本发明提供的方法和装置可以全部或部分地通过软件、硬件、固件或者其任意组合来实现。当使用软件实现时，可以全部或部分地以计算机程序产品的形式实现。在计算机加载和执行所述计算机程序指令时，全部或部分地产生按照本申请实施例所述的流程或功能。所述计算机可以是通用计算机、专用计算机、计算机网络、获取其他可编程装置。所述计算机指令可以存储在计算机可读存储介质中，或者从一个计算机可读存储介质向另一个计算机可读存储介质传输，例如，所述计算机指令可以从一个网站站点、计算机、服务器或数据中心通过有线(例如同轴电缆、光纤、数字用户线(DSL))或无线(例如红外、无线、微波等)方式向另一个网站站点、计算机、服务器或数据中心进行传输。所述计算机可读存储介质可以是计算机能够存取的任何可用介质或者是包含一个或多个可用介质集成的服务器、数据中心等数据存储设备。

专业人员应该还可以进一步意识到，结合本文中所公开的实施例描述的各示例的单元及算法步骤，能够以电子硬件、计算机软件或者二者的结合来实现，为了清楚地说明硬件和软件的可互换性，在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本申请的范围。

以上所述，仅为本申请较佳的具体实施方式，但本申请的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本申请揭露的技术范围内，可轻易想到的变化或替换，都应涵盖在本申请的保护范围之内。因此，本申请的保护范围应该以权利要求的保护范围为准。

Claims

1.一种物体识别方法，所述方法包括：

2.根据权利要求1所述的方法，其特征在于，所述图像比对步骤还包括：

通过尺度不变特征变换(SIFT)算法分别计算所述图像与该图像的前一个图像的特征点，并进行特征点匹配。

3.根据权利要求2所述的方法，其特征在于，所述图像比对步骤还包括：

对于所述待检测图像，将匹配成功的特征点所对应的图像部分设置为纯色，未匹配成功的特征点所对应的图像部分保持不变。

4.根据权利要求1至3的任一项所述的方法，其特征在于：所述深度神经网络模型为检测网络(DetectNet)模型。

5.根据权利要求4所述的方法，其特征在于，通过以下步骤对所述检测网络模型进行训练和验证：

输入步骤：将所述货架上的物体的图片和该物体的标签输入所述检测网络模型；

特征抽取和预测步骤：将所述物体的图片切分成若干个网格，对于每个网格内的方块，利用所述检测网络模型中基于谷歌网络(GoogLeNet)的全卷积网络(FCN)进行物体类别和物体边界框的特征抽取和预测；

损失度量计算步骤：对于每个网格内的方块，利用损失函数同时计算物体覆盖(objectcoverage)预测和物体边界框(object bunding box)预测的损失度量；

预测结果生成步骤：通过聚类函数生成预测的对象边界框的最终集合，得到预测结果；和

验证步骤：利用均值平均预测(mAP)对所述检测网络模型的性能进行验证。

6.一种物体识别装置，所述装置包括：

7.根据权利要求6所述的装置，其特征在于，所述深度神经网络模型为检测网络(DetectNet)模型。

8.根据权利要求7所述的装置，其特征在于，通过以下模块对所述检测网络模型进行训练和验证：

特征抽取和预测模块，其被配置成将所述物体的图片切分成若干个网格，对于每个网格内的方块，利用所述检测网络模型中基于谷歌网络(GoogLeNet)的全卷积网络(FCN)进行物体类别和物体边界框的特征抽取和预测；

9.一种计算机设备，包括存储器、处理器和存储在所述存储器内并能由所述处理器运行的计算机程序，其中，所述处理器执行所述计算机程序时实现如权利要求1至5中任一项所述的方法。

10.一种计算机可读存储介质，其内存储有计算机程序，所述计算机程序在由处理器执行时实现如权利要求1至5中任一项所述的方法。