CN113780248B

CN113780248B - 多视角识别商品智能生成订单方法、装置及智能售货机

Info

Publication number: CN113780248B
Application number: CN202111318651.1A
Authority: CN
Inventors: 陈俏锋; 黄超群; 张元熙; 郭家龙; 邱俊波; 王浩; 张�杰; 束学璋
Original assignee: Yopoint Smart Retail Technology Ltd; Wuhan Xingxun Intelligent Technology Co ltd
Current assignee: Yopoint Smart Retail Technology Ltd
Priority date: 2021-11-09
Filing date: 2021-11-09
Publication date: 2022-03-18
Anticipated expiration: 2041-11-09
Also published as: CN113780248A; CN114627422A

Abstract

本发明属于图像处理技术领域，解决了现有技术智能售货机采用多角度视频分析，其存在硬件成本高或处理效率低下，所导致的用户体验效果不佳技术问题，提供了一种多视角识别商品智能生成订单方法、装置及智能售货机。该方法包括：获取商品区域从不同视角的各基础视频进行物理拼接后的目标视频；将目标视频的各帧图像输入目标检测网络进行目标检测，得到各商品的商品信息；利用各商品的商品位置信息进行去重，得到各目标商品；从而生成与各目标商品对应的订单信息。本发明对计算机算力要求低，数据处理量小能快速生成订单，提高用户体验。

Description

多视角识别商品智能生成订单方法、装置及智能售货机

技术领域

本发明涉及图像分析技术领域，尤其涉及一种多视角识别商品智能生成订单方法、装置及智能售货机。

背景技术

随着人工智能技术的不断发展，零售业的售卖方式也发生了巨大的变化，其中智能售货机已经遍布在城市的各种场合，包括车站、商城、旅游景区或百货店均能发现各式各样的智能售货机，智能售货机以其无需专人看守、用户自动下单、购物结账的方式，极大遍历了特殊场景用户对于商品的购物需求。

然而，现有智能售货机包括全开门智能售货机，全开门智能售货机用户可以在智能售货机柜门打开时，在一次购物中可以进行多次拿放操作，同时可以一次选择多件商品后再进行统一结算，该智能售货机极大方便了用户的购物需求，但是这类智能售货机因为主要依赖购物视频进行商品订单结算，当用户在拿放商品时，商品部分特征会被遮挡，因此容易产生误检，生成异常订单的问题，为了消除商品因遮挡导致误检问题，通常会从多个角度采集购物视频，然后通过对各视频的各帧图像进行检测，对比各视频的检出结果来确定最终的商品订单，因为需要对过个视频进行检测，这需要处理器具有多线程处理数据能力，这需要较大的算力和成本，或采用单线程处理需要排队等待，处理效率低，影响用户体验。

发明内容

有鉴于此，本发明实施例提供了一种多视角识别商品智能生成订单方法、装置及智能售货机，用以解决现有的智能售货机采用多角度视频分析，其存在硬件成本高或处理效率低下，所导致的用户体验效果不佳技术问题。

本发明采用的技术方案是：

本发明提供了多视角识别商品智能生成订单方法，所述方法包括：

S10：获取商品区域的目标视频，其中，所述目标视频由若干基础视频对应的各帧图像进行物理拼接后得到的视频流构成，每一所述基础视频是以一视角采集所述商品区域发生的同一事件的图像组成，各个基础视频对应采集同一所述事件的视角不同；

S11：将所述目标视频的各帧图像输入目标检测网络进行识别，得到各商品的商品信息；

S12：根据各所述商品信息的商品位置信息对各所述商品进行去重，得到各目标商品；

S13：根据各所述目标商品的所述商品信息，输出与各所述目标商品对应的订单信息；

其中，所述商品信息至少包括以下之一：商品类别、对应各商品类别的置信度和表征检出商品的检测框的所述商品位置信息。

优选地，所述S10包括：

S101：获取放置商品的各商品区，其中，所述商品区为沿智能售货机的货架排列方向对智能售货机放置商品的区域进行虚拟分区，得到的各所述商品区；

S102：获取在各商品区相向设置的各摄像头采集的视角范围内的基础视频；

S104：对各所述基础视频的各帧图像按采集时序相对应的各帧图像一一进行物理拼接，得到所述目标视频；

其中，所述物理拼接为拼接后的图像为参与拼接的所有图像的尺寸和。

优选地，所述S102包括：

S1021：对智能售货机的商品区域沿货架排列方向从上至下分为上商品区和下商品区；

S1022：在所述上商品区的左右两侧和所述下商品区的左右两侧分别相向设有一摄像头；

其中，左侧的所述摄像头的视角方向为从左上角至右下角，右侧的所述摄像头的视角方向为从右上角至左下角。

优选地，所述S10包括：

S105：获取用于采集视频数据的摄像头的帧率和摄像头数量；

S106：根据所述帧率和所述摄像头数量，确定各摄像头开始采集对应商品区的视频数据的间隔时间；

S107：根据各所述间隔时间，控制各所述摄像头获取对应的各基础视频；

S108：对各所述基础视频的各帧图像按采集时序相对应的各帧图像一一进行物理拼接，得到所述目标视频。

优选地，所述S11包括：

S111：将所述目标视频的各帧图像按采集时刻分为首帧图像和所述首帧图像以外的非首帧图像；

S112：根据所述首帧图像的图像信息，确定所述首帧图像中各商品所属商品区域的定位信息；

S113：根据所述定位信息，对所述目标视频的各帧图像中的各目标添加基础置信度；

S114：利用所述目标检测网络对所述目标视频的各帧图像进行目标检测，得到各商品的基础商品信息；

S115：根据各商品的所述基础商品信息的置信度结合各商品的所述基础置信度，得到包含各商品的目标置信度的各所述商品信息。

优选地，所述S111包括：

S1111：对所述目标视频的各帧图像进行目标数量检测，确定发生商品变动对应的各帧图像；

S1112：根据所述发生商品变动的各帧图像，将所述目标视频分为多个目标子视频；

S1113：将各所述目标子视频的各帧图像按采集时刻分为所述首帧图像和所述非首帧图像。

优选地，所述S12包括：

S121：获取多个正样本和多个负样本，其中，各所述正样本均为不同视角的图像拼接后出现在图像中不同位置属于同一商品的目标，各负样本均为不同视角的图像拼接后出现在图像中不同位置属于不同商品的目标；

S122：将包含各所述正样本和各所述负样本的样本输入支持向量机中进行训练，得到可以通过商品位置信息来区分不同视角下的各商品是否为同一商品的商品去重分类器；

S123：根据各所述商品信息的商品位置信息，利用所述商品去重分类器进行去重，得到各所述目标商品；

其中，各所述样本为智能售货机上各摄像头采集的各帧图像进行物理拼接得到的图像。

本发明还提供了一种多视角识别商品智能生成订单装置，所述装置包括：

视频采集模块：用于获取商品区域的目标视频，其中，所述目标视频由若干基础视频对应的各帧图像进行物理拼接后得到的视频流构成，每一所述基础视频是以一视角采集所述商品区域发生的同一事件的图像组成，各个基础视频对应采集同一所述事件的视角不同；

目标检测模块：用于将所述目标视频的各帧图像输入目标检测网络进行识别，得到各商品的商品信息；

目标处理模块：用于根据各所述商品信息的商品位置信息对各所述商品进行去重，得到各目标商品；

订单生成模块：用于根据各所述目标商品的所述商品信息，输出与各所述目标商品对应的订单信息；

本发明还提供了一种智能售货机，包括：至少一个处理器、至少一个存储器以及存储在所述存储器中的计算机程序指令，当所述计算机程序指令被所述处理器执行时实现上述任一项所述的方法。

本发明还提供了一种介质，其上存储有计算机程序指令，当所述计算机程序指令被处理器执行时实现上述任一项所述的方法。

综上所述，本发明的有益效果如下：

本发明提供的一种多视角识别商品智能生成订单方法、装置及智能售货机，通过从不同视角获取商品区域的视频进行物理拼接，得到目标视频，然后对目标视频的各帧图像进行目标检测和同一帧图像内的同一商品进行去重，得到用于生产订单信息的目标商品；该方法通过从不同视角获取购物事件的视频，然后进行物理拼接，直接对拼接后的图像进行分析，因此只需要计算机具有单线程处理能力即可，对计算机算力要求低，数据处理量小能快速生成订单，提高用户体验。

附图说明

为了更清楚地说明本发明实施例的技术方案，下面将对本发明实施例中所需要使用的附图作简单地介绍，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图，这些均在本发明的保护范围内。

图1为实施例1中多视角识别商品智能生成订单方法的流程示意图；

图2为实施例1中具有多个不同视角摄像头的智能售货机的结构示意图；

图3为实施例1中获取物理拼接的目标视频的流程示意图；

图4为实施例1中获取商品信息的流程示意图；

图5为实施例1中商品去重的流程示意图；

图6为实施例2中基于商品区重量变化对视频分段处理的智能生成订单方法的流程示意图；

图7为实施例2中基础视频拼接目标视频的流程示意图；

图8为实施例2中获取目标子视频的流程示意图；

图9为实施例2中生成订单信息的流程示意图；

图10为实施例3中多视角识别商品智能生成订单装置的流程示意图；

图11为实施例4中基于商品区重量变化对视频分段处理的智能生成订单装置的流程示意图；

图12为实施例5中包括智能售货机的自动结算系统的结构示意图；

图13为实施例6中智能售货机的结构示意图；

图1至图13的附图标记：

1、柜体；11、货架； 12、商品区； 2、柜门； 3、摄像头。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述。需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。在本发明的描述中，需要理解的是，术语“中心”、“上”、“下”、“前”、“后”、“左”、“右”、“竖直”、“水平”、“顶”、“底”、“内”、“外”等指示的方位或位置关系为基于附图所示的方位或位置关系，仅是为了便于描述本申请和简化描述，而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作，因此不能理解为对本发明的限制。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。如果不冲突，本发明以及实施例中的各个特征可以相互结合，均在本发明的保护范围之内。

实施例1

现有全开门智能售货机因为具有传统售货机的便于一次选购多件商品、一次购物中多次更换商品，同时，能够在用户完成一次复杂购物过程中快速生成订单，通过自主结算方式快速结算，相较于现有的通过一次扫码仅能购买一件商品，且购买后无法重新选择，全开门智能售货机具有操作简单，用户购物自主选择性更强的优点；然而因为全开门智能售货机在一次购物中，用户可以购买多件商品，同时可以多次进行商品的上架和下架，从而因为遮挡问题会导致大量商品在上架或下架过程中，由于遮挡位置不同，导致同一商品前后检出不同结果，造成异常订单影响用户体验效果和商家信誉。

本发明是基于从多个角度获取用户从智能售货机购物的购物视频进行可行性研究，通过在智能售货机的商品区设置从不同方向对商品区进行实时监控的摄像头，结合多个摄像头拍摄的购物视频，然后通过画面拼接、对比分析等方式，得到用户购物的订单信息，然后通过服务器进行自动结算，提高用户的购物体验，同时减少人工结算流程。

具体的，请参见图2，图2为全开门的智能售货机的结构示意图，智能售货机包括柜体1和柜门2，柜体1和柜门2进行转动连接，且柜门2相对于柜体1处于闭合状态时，柜门2覆盖住柜体1的所有放置商品的商品区，即无法对柜体内的商品进行拿取操作，当柜门2打开时，柜体1中的所有商品均展现在用户面前，用户可以在一次购物中心选择任意商品，同时也可以选择多件商品，既可以对选择的商品进行拿出，也可以对选择后需要放回的商品进行放回，柜体1内设有货架11，货架11可以是将柜体1分为多个商品区12的货架，其中，在柜体1的内部各商品区均设有摄像头，这样可以从过个角度获取用户从智能售货机购物的购物视频，避免单一角度采集的购物视频因为遮挡问题导致购物视频的可靠性不高的问题，图2所示的智能售货机在售货机的内部左侧壁和右侧壁均设有多个摄像头从而可以对同一商品区以相对的视角方向采集购物视频，提高视频数据的可靠性。

请参见图1，图1为多视角识别商品智能生成订单方法的流程示意图，所述方法包括：

具体的，在智能售货机的不同位置设置有摄像头，从而实现以不同视角获取智能售货机的商品区域的视频数据，在用户从智能售货机开始购物的时候，各摄像头从不同角度获取用户拿取或放回商品的基础视频，并将不同摄像头获取的基础视频的各帧图像按采集时序进行物理拼接，得到最终由拼接图像组成的目标视频；其中，同一事件为用户一次购物的全过程。

需要说明的是：物理拼接为将两张图像拼接为一张图像，拼接后的图像为参与拼接的图像尺寸和；同时，不同视频的各帧图像进行物理拼接为：第一视频的第一帧图像、第二视频的第一帧图像…第N视频的第一帧图像进行拼接，第一视频的第二帧图像、第二视频的第二帧图像…第N视频的第二帧图像进行拼接，依次类推，第一视频的第n帧图像、第二视频的第n帧图像…第N视频的第n帧图像进行拼接，得到目标视频。

在一实施例中，请参见图3，所述S10包括：

具体的，智能售货机存在多层货架，将智能售货机放置商品的区域分为多个商品区域，各商品区域包括至少一层货架，摄像头的视角沿货架的排列方向设置，如智能售货机的货架从上至下包括多层货架，将各摄像头分别设置在智能售货机的左右侧壁上，各摄像头的视角为从左上至右下或从右上至左下或从上至下。其中，设置在同一商品区位于不同侧的摄像头，其安装高度相同。

在一实施例中，所述S101包括：

S1011：对智能售货机的商品区域沿摄像头从上至下的视角方向分为上商品区和下商品区；

S1012：在所述上商品区的左右两侧和所述下商品区的左右两侧分别设有一摄像头；

具体的，在一优选实施例中，将智能售货机的货架分为上商品区和下商品区，在上下商品区的左右侧壁上均设置有一个摄像头，上商品区的左右摄像头能够采集整个区域的视频数据，下商品区的左右摄像头仅能采集下商品区范围内的视频数据。

需要说明的是：将货架分为上下两个商品区，各商品区分别相对设置一对摄像头，能够保证在一次购物事件中，从上下左右四个方向获取购物的视频数据，提高数据的可靠性；该方式既能节约成本，又能控制目标视频的各帧图像大小，减少数据处理量。

S102：获取在各商品区相向设置的各摄像头采集的视角范围内的基础视频；具体的，各摄像头获取对应区域的视频流，得到用户在拿取商品或放回商品过程中的视频。

S103：对各所述基础视频的各帧图像按采集时序相对应的各帧图像一一进行物理拼接，得到所述目标视频；

具体的，将不同基础视频的各帧图像进行物理拼接，具体拼接方式参见前述方法，得到最终的目标视频。

在一实施例中，所述S10包括：

S105：获取用于采集视频数据的摄像头的帧率和摄像头数量；

具体的，用于采集视频数据的各摄像头的帧率相同，如20帧/秒；根据摄像头的数量和帧率来确定各摄像头开始采集视频数据的时间，设各摄像头或各组摄像头之间采集视频数据的开始时间存在时间间隔，其中，优选间隔时间为相邻两帧图像对应的时间差的整数倍，如：包括4个摄像头，各摄像头的开始采集时间均间隔1/4帧率对应的时间，或者将4个摄像头分成两组，各组摄像头开始采集视频数据的间隔时间为1/2帧率对应的时间；从而变相提高图像帧率，保证采集到商品区域更多时刻的图像信息，以便提高检测的准确性。

S11：将所述目标视频的各帧图像输入目标检测网络进行目标检测，得到各商品的商品信息；

具体的，将拼接的到的各帧图像送入目标检测网络进行目标检测，得到检出的各目标的商品信息，其中，商品信息至少包括以下之一：商品在图像中的位置信息、检测框的面积信息、商品类别信息、置信度。

在一实施例中，请参见图4，所述S11包括：

在一实施例中，所述S111包括：

具体的，将目标视频的各帧图像分为首帧图像和首帧图像之外的非首帧图像，其中，首帧图像包括不限于完整的目标视频的第一帧图像，还可以是将目标视频分为多个视频段，首帧图像为各视频段的第一帧图像；将首帧图像进行初步目标检测，确定目标来自于哪一商品区，将商品来源的商品区域摄像头拍摄的视频数据记为该商品的定位视频。

具体的，在确定商品的定位信息后，对定位信息对应的定位视频的各帧图像中的各目标添加一基础置信度，例如：将智能售货机的分为多个商品区，各商品区均设有对应的摄像头；需要说明的是：商品在拿放时，不仅拿出对应的商品区还是放入对应的商品区的摄像头会采集到对应的视频数据，可能其他商品区的摄像头也能采集到对应的视频数据，例如：将智能售货机的商品区分为上商品区和下商品区，当从下商品区那商品时，商品既存在于上商品区位置摄像头的视频中也存在下商品区位置摄像头的视频中，因为商品属于下商品区，则在下商品区位置摄像头的视频数据中，商品的成像尺寸更大，有利于提高检测准确性，因此可以对下商品区摄像头拍摄的视频的各帧图像中的目标增加一个基础置信度记为第一基础置信度，对上商品区摄像头对应的视频中的各帧图像的目标增加一个基础置信度记为第二基础置信度，其中，第二基础置信度小于第一基础置信度；同理，商品属于上商品区时，第二基础置信度大于第一基础置信度。

在一优选实施例中，所述S113包括：

S1131：获取商品置信度增强对应的商品移动的边界线；

S1132：根据相邻图像帧中商品位于所述边界线的不同状态区域对所述目标视频分段，得到置信度增强的第一视频段和正常置信度的第二视频段；

S1133：结合所述定位视频，对与所述目标商品所属的商品区域对应的所述第一视频段的各帧图像中的各目标添加基础置信度。

具体的，当商品从商品区拿出后，随着距离摄像头的距离增加，商品在图像中的成像尺寸减小，因此检测准确性将会降低，因此将距离摄像头区域近的各帧图像作为重点检测对象，因此利用边界线将目标视频分为第一视频段和第二视频段，将第一视频段的各帧图像中属于定位视频的图像区域的各目标增加基础置信度，或者，将第一视频段的各帧图像中属于定位视频的图像区域的各目标增加第一基础置信度，将第一视频段的各帧图像中不属于定位视频的图像区域的各目标增加第二基础置信度，其中，第一基础置信度大于第二基础置信度。

S115：根据各商品的所述基础商品信息的置信度叠加各商品的所述基础置信度，得到包含各商品的目标置信度的各所述商品信息。

具体的，将目标视频的各帧图像送入目标检测网络进行检测，得到各帧图像中各目标的基础商品信息，其中，基础商品信息至少包括以下之一：商品类别、置信度和表征检出商品的检测框的所述商品位置信息，本次检出的各目标的置信度记为实际置信度，然后将属于第一视频段的各目标的实际置信度加上基础置信度，得到第一视频段的各目标的目标置信度；将第二视频段的各目标的实际置信度作为最终的目标置信度，从而得到由目标置信度构成的各目标的商品信息。

具体的，根据商品信息中用于表征检出目标的检出框的各位置信息，确定不同摄像头拍摄的视频中哪些是同一商品，实现商品去重；商品去重的具体方法包括不限于采用分类器，进行同一商品检测，以及采用不同视频中，同一帧图像中商品成像位置，以及成像尺寸之间的先对关系，从而对同一商品进行为别，实现商品去重。

在一实施例中，请参见图5，所述S12包括：

具体的，控制智能售货机上的各摄像头获取多次购物训练时间的训练视频，对训练视频的各帧图像的各目标进行人工标注，各帧图像中不同摄像头的拍摄的图像区域内属于同一商品的不同位置信息的目标记为正样本，将其他位置信息的目标作为负样本，即一次拿取两件商品，记为商品A和商品B，假设共有四个不同视角的摄像头，在任一帧四个摄像头均拍摄到商品A和商品B的图像中，那么拼接对应的目标帧图像就存在4个商品A构成的正阳本和4个商品B构成的正样本，以及商品A与商品B之间构成的负样本。

具体的，利用人工标记的样本集进行训练，得到一个可以根据商品位置信息来区分商品是否为同一商品的分类器，从而利用该分类器对目标视频的各帧图像进行去重，使得各帧图像检测出的目标均为独立的商品。

在一实施例中，所述S12包括：

第一步：将所述目标视频的各帧图像以各视角的图像区域分别进行分区，得到与各视角的图像对应的各图像子区域；

具体的，目标视频的各帧图像为各摄像头拍摄的各帧图像区域进行物理拼接得到，因此，将目标视频的各帧图像的各图像区域分为多个图像子区域，如：目标视频是由4个视频的各帧图像进行拼接而成，因此，目标视频的每一帧图像包括4个图像区域，记为左上图像区域、右上图像区域、左下图像区域和右下图像区域，然后分别将各图像区域分为多个图像子区域。

第二步：根据各商品对应的所述图像子区域和所述成像尺寸信息，得到不同视角属于同一所述图像子区域的各商品的所述成像尺寸信息的相对关系；

具体的，对比在不同视角的图像中检测到的商品的成像位置对应的图像子区域和成像尺寸，确定属于不同视角图像且为同一图像子区域的目标的成像尺寸的相对关系，如：在4个图像区域的右下角均检测到目标，其中，左上图像区域和右上图像区域中目标的图像重合度很高，大于重合度阈值，左下图像区域的目标成像范围属于左上图像区域的目标成像范围，右下图像区域的目标成像范围属于右上图像区域的目标成像范围，可以确定4个图像区域检测到的目标为同一商品；若左上图像区域和右上图像区域中目标的图像重合度很低，小于重合度阈值，左下图像区域的目标成像范围属于左上图像区域的目标成像范围，右下图像区域的目标成像范围属于右上图像区域的目标成像范围，可以确定左上和左下图像区域检测到的目标为同一商品，右上和右下图像区域检测到的目标为同一商品；包括不限于上述情形，此处不一一列举。

第三步：根据各商品的所述成像尺寸信息的相对关系对商品进行去重，得到各所述目标商品。

具体的，在确定各帧图像中同一商品对应的多个检测目标后，进行去重，可以选择保留置信度高的目标作为该同一商品的检出结果。

其中，所述商品信息至少包括以下之一：商品类别、置信度和表征检出商品的检测框的所述商品位置信息。

在一实施例中，在所述S10之前还包括：

S01：实时获取第三摄像头采集的智能售货机当前状态的视频；

具体的，在智能售货机上还设有第三摄像头，第三摄像头用于检测智能售货机是否开启或关闭，第三摄像头可以是实时开启，也可以是用户在进行购物请求后开启。

S02：对所述智能售货机当前状态的视频的各帧图像进行分析，确定所述智能售货机的柜门是处于开启还是闭合状态；

S03：当检测到所述智能售货机柜门处于开启状态，则控制用于采集商品区域对应的视频信息的第一主摄像头、第一子摄像头、第二主摄像头和第二子摄像头开启；

S04：当检测到所述智能售货机柜门处于关闭状态，则控制用于采集商品区域对应的视频信息的第一主摄像头、第一子摄像头、第二主摄像头和第二子摄像头关闭。

具体的，当用户进行自动购物时，对售货机状态视频的各帧图像进行分析，确定售货机柜门的状态，当检测到售货机柜门开启，则开启第一主摄像头、第一子摄像头、第二主摄像头和第二子摄像头获取商品区域的视频数据，得到各基础视频；当检测到售货机柜门关闭，则关闭第一主摄像头、第一子摄像头、第二主摄像头和第二子摄像头。

采用本实施例的多视角识别商品智能生成订单方法，通过从不同视角获取商品区域的视频进行物理拼接，得到目标视频，然后对目标视频的各帧图像进行目标检测和同一帧图像内的同一商品进行去重，得到用于生产订单信息的目标商品；该方法通过从不同视角获取购物事件的视频，可以防止商品被遮挡引起的订单异常，提高检测准确性和用户体验效果。

实施例2

在实施例1中，通过从不同视角获取智能售货机的商品区域的视频数据，然后不同视频的各帧图像进行拼接，得到目标视频，对目标视频的各帧图像进行分析得到商品订单信息；然而，在一次购物事件中，用户可能存在重复选择或反复跟换等复杂操作，形成多次拿放挑选商品事件，常常导致针对近似度高的商品存在误检或混检的现象，影响检测准确性。因此本发明实施例2在实施例1的基础上对多视角识别商品智能生成订单方法进行了进一步改进；请参见图6，所述方法包括：

S20：获取商品区域的目标视频和商品区域的重量变化信息；

具体的，商品区域的目标视频为摄像头对智能售货机在一次购物过程中采集的图像数据，该目标视频可以是一个摄像头采集的商品区域对应的视频数据，也可以是多个摄像头采集的各视频数据，或多个摄像头采集的视频数据采用拼接、融合等方式得到的处理后的视频数据；商品区域的重量变化信息包括重量增减信息、时间信息，仅利用重量增减信息可以快速判断商品上架或商品下架动作，从而对神经网络进行目标检测提供指导，甚至可以结合少量图像分析直接判断出用户最终是否拿取商品，如：第一时刻检测到重量减少，则表明用户拿了商品，通过图像分析发现用户只拿了一件商品，在第二时刻检测到重量增加，在这期间未检测到其他重量变化信息，则可以判定用户把第一次拿出的商品直接放回货架，然后可以删除第一时刻至第二时刻的视频数据，减少后续数据处理量。

在一实施例中，请参见图7，所述S20包括：

S201：获取从不同视角采集商品区域的各基础视频；

具体的，在智能售货机的不同位置设置有摄像头，从而实现以不同视角获取智能售货机的商品区域的基础视频，可以为本次购物进行目标检测提供更可靠的图像数据，提高目标检测的准确性。

在一实施例中，所述S201包括：

S2011：获取沿智能售货机的货架排列方向将智能售货机放置商品区域分为多个虚拟的商品区；

S2012：获取在各商品区相向设置的各摄像头采集的视角范围内的基础视频。

具体的，智能售货机存在多层货架，将智能售货机放置商品的区域分为多个商品区域，各商品区域包括至少一层货架，摄像头的视角沿货架的排列方向设置，如智能售货机的货架从上至下包括多层货架，将各摄像头分别设置在智能售货机的左右侧壁上，各摄像头的视角为从左上至右下或从右上至左下或从上至下。其中，设置在同一商品区位于不同侧的摄像头，其安装高度相同；当用户进行购物时，开启各摄像头获取本次购物的视频，从而得到本次购物不同视角的各基础视频。

在一实施例中，所述S201包括：

S2014：获取用于采集视频数据的摄像头的帧率和摄像头数量；

S2015：根据所述帧率和所述摄像头数量，确定各摄像头开始采集对应商品区的视频数据的间隔时间；

S2016：根据各所述间隔时间，控制各所述摄像头获取对应的各基础视频。

具体的，用于采集视频数据的各摄像头的帧率相同，如20帧/秒；根据摄像头的数量和帧率来确定各摄像头开始采集视频数据的时间，设各摄像头或各组摄像头之间采集视频数据的开始时间存在时间间隔，其中，优选间隔时间为相邻两帧图像对应的时间差的整数倍，如：包括4个摄像头，各摄像头的开始采集时间均间隔1/4帧率对应的时间，或者将4个摄像头分成两组，各组摄像头开始采集视频数据的间隔时间为1/2帧率对应的时间；从而变相提高图像帧率，保证采集到商品区域更多时刻的图像信息，以便提高检测的准确性；在检测到开始购物后，各摄像头依据自身的开始时间，获取对应区域的视频数据，得到各基础视频，其中，开始购物的信号为用户通过识别码验证，如：二维码、条形码等，或者智能售货机的柜门打开后，具体的开始购物的信号此处不做限定。

S202：将各所述基础视频的各帧图像按采集时序相对应的各帧图像一一进行物理拼接，得到所述目标视频；

具体的，在发生用户购物的时候，各摄像头从不同角度获取用户拿取或放回商品的基础视频，并将不同摄像头获取的基础视频的各帧图像进行物理拼接，得到最终由拼接图像组成的目标视频；其中，同一事件为用户一次购物的全过程。

需要说明的是：物理拼接为将两张图像拼接为一张图像，拼接后的图像为参与拼接的图像尺寸和；同时，不同基础视频的各帧图像进行物理拼接为：第一视频的第一帧图像、第二视频的第一帧图像…第N视频的第一帧图像进行拼接，第一视频的第二帧图像、第二视频的第二帧图像…第N视频的第二帧图像进行拼接，依次类推，第一视频的第n帧图像、第二视频的第n帧图像…第N视频的第n帧图像进行拼接，得到目标视频。

S21：根据所述重量变化信息对所述目标视频进行分段，得到多个目标子视频；

具体的，实时检测商品区域的重量变化信息，当检测到重量变化时，认为此时存在拿取和放入商品动作，则将本次重量变化和前一次重量变化之间的目标视频作为一个目标子视频，从而将目标视频分为多个目标子视频；可以针对每个目标子视频进行目标检测，得到与各目标子视频对应的多个商品信息，提高商品订单的准确性。

在一实施例中，请参见图8，所述S21包括：

S211：根据所述重量变化信息的各时间信息，将所述目标视频进行分段多个第一视频；

S212：根据所述重量变化信息的增减信息，将各所述第一视频分为商品上架和商品下架对应的各所述目标子视频。

具体的，在检测到商品区域存在重量变化时，依据重量变化的时间信息确定当前图像帧，从而得到一个目标子视频，然后根据重量变化信息的增减信息，确定该目标子视频为放入商品视频或拿取商品视频。

在一实施例中，所述S212包括：

S2121：获取用于界定商品属于上架和下架的边界线；

S2122：根据相邻图像帧中商品位于所述边界线的不同状态区域，结合对应的所述重量变化信息的增减信息，将各所述第一视频分为商品上架和商品下架对应的各所述目标子视频。

具体的，在智能售货机的柜门区域设置虚拟的边界线，该边界线用于结合重量变化信息确定商品的拿取或放入，因为，用户在挑选商品时，可能在极短时间呢对同一区域的商品进行多次拿放，此时的画面属于智能售货机内部，这部分商品存在遮挡严重，如果仅以重量变化来分段视频，则会产生大量极短视频，这些极短视频单独分析不仅增加计算量，同时意义不大，甚至会提高检出错误率，通过结合商品离开边界线或进入边界线来划分各段视频，可以提高检测的准确性。

S22：将各所述目标子视频的各帧图像输入目标检测网络进行目标检测，得到与各所述目标子视频对应的商品信息；

S23：根据各所述目标子视频对应的所述商品信息，输出订单信息。

在一实施例中，请参见图9，所述S23包括：

S231：根据所述商品信息的商品位置信息对各帧图像的同一商品进行去重，得到去重后的各目标商品；

具体的，具体参见实施例的去重方法，此处不再赘述。

在一实施例中，所述S231包括：

S2311：获取多个正样本和多个负样本，其中，各所述正样本均为不同视角的图像拼接后出现在图像中不同位置属于同一商品的目标，各负样本均为不同视角的图像拼接后出现在图像中不同位置属于不同商品的目标；

S2312：将包含各所述正样本和各所述负样本的样本输入支持向量机中进行训练，得到可以通过商品位置信息来区分不同视角下的各商品是否为同一商品的商品去重分类器；

S2313：根据各所述商品信息的商品位置信息，利用所述商品去重分类器进行去重，得到各所述目标商品；

具体的，商品去重参见实施例1的方法，此处不再赘述。

在一实施例中，所述S231包括：

具体的，商品去重参见实施例1的方法，此处不再赘述。

S232：根据各所述目标商品的商品信息，输出与各所述目标商品对应的所述订单信息。

采用本实施例的基于商品区重量变化对视频分段处理的智能生成订单方法，通过实时采集用户购物过程中商品区的重量变化信息，依据重量变化信息对购物的目标视频进行分段，得到多个目标子视频，然后将各目标子视频的各帧图像利用目标检测网络进行目标检测，最终得到用户购物的商品信息，从而生成购物订单信息；该方法通过重量变化把完整的目标视频分为多个目标子视频进行目标检测，可以避免拿出或放入事件的相互影响，提高检测准确性和用户体验效果。

实施例3

本发明实施例3基于实施例1至实施例2的方法对应还提供了一种多视角识别商品智能生成订单装置，请参见图10，包括：

采用本实施例的基于多视角图像分析的订单生成装置，通过从不同视角获取商品区域的视频进行物理拼接，得到目标视频，然后对目标视频的各帧图像进行目标检测和同一帧图像内的同一商品进行去重，得到用于生产订单信息的目标商品；该方法通过从不同视角获取购物事件的视频，可以防止商品被遮挡引起的订单异常，提高检测准确性和用户体验效果。

需要说明的是，该装置还包括实施例1至实施例2记载的其余技术方案，此处不再赘述。

实施例4

本发明实施例4基于实施例1至实施例2的方法对应还提供了一种基于商品区重量变化对视频分段处理的智能生成订单装置，请参见图11，包括：

视频采集模块：用于获取商品区域的目标视频和商品区域的重量变化信息；

视频分段模块：用于根据所述重量变化信息对所述目标视频进行分段，得到多个目标子视频；

数据处理模块：用于将各所述目标子视频的各帧图像输入目标检测网络进行目标检测，得到与各所述目标子视频对应的商品信息；

订单生成模块：用于根据各所述目标子视频对应的所述商品信息，输出订单信息。

采用本实施例的基于商品区重量变化对视频分段处理的智能生成订单装置，通过实时采集用户购物过程中商品区的重量变化信息，依据重量变化信息对购物的目标视频进行分段，得到多个目标子视频，然后将各目标子视频的各帧图像利用目标检测网络进行目标检测，最终得到用户购物的商品信息，从而生成购物订单信息；该方法通过重量变化把完整的目标视频分为多个目标子视频进行目标检测，可以避免拿出或放入事件的相互影响，提高检测准确性和用户体验效果

需要说明的是，该装置还包括实施例4记载的其余技术方案，此处不再赘述。

实施例5

本发明提供了一种智能售货机的自动结算系统，请参见图12，自动结算系统包括智能售货机、移动终端和服务器，该自动结算系统能够采用上述实施例所述的自动购物方法。用户通过移动终端识别智能售货机上的识别码，服务器建立用户的购物事件，不同视角的摄像头开始采集购物视频或者在智能售货机柜门开启后摄像头开始采集购物视频或者用户进入预设范围内摄像头开始采集购物视频，当用户离开预设购物范围内或智能售货机的柜门关闭后，摄像头停止采集购物视频并将购物视频传输给服务器，服务器根据购物视频生成用户的订单信息发送给移动终端，用户通过移动终端的订单信息进行自主结算或设置自动结算；该自动结算系统用户自主购物的选择性更好，订单准确性高，能够提高用户的购物体验。

实施例6

本发明提供了一种智能售货机设备和存储介质，如图13所示，包括至少一个处理器、至少一个存储器以及存储在所述存储器中的计算机程序指令。

具体地，上述处理器可以包括中央处理器（CPU），或者特定集成电路（ApplicationSpecific Integrated Circuit，ASIC），或者可以被配置成实施本发明实施例的一个或多个集成电路，智能售货机为商品区位置设置有能覆盖全部商品区的柜门，该柜门为可开启和关闭的活动柜门，同时该智能售货机还包括设有摄像头、二维码、条形码等便于购物的识别设备。

存储器可以包括用于数据或指令的大容量存储器。举例来说而非限制，存储器可包括硬盘驱动器（Hard Disk Drive，HDD）、软盘驱动器、闪存、光盘、磁光盘、磁带或通用串行总线（Universal Serial Bus，USB）驱动器或者两个或更多个以上这些的组合。在合适的情况下，存储器可包括可移除或不可移除(或固定)的介质。在合适的情况下，存储器可在数据处理装置的内部或外部。在特定实施例中，存储器是非易失性固态存储器。在特定实施例中，存储器包括只读存储器（ROM）。在合适的情况下，该ROM可以是掩模编程的ROM、可编程ROM（PROM）、可擦除PROM（EPROM）、电可擦除PROM（EEPROM）、电可改写ROM（EAROM）或闪存或者两个或更多个以上这些的组合。

处理器通过读取并执行存储器中存储的计算机程序指令，以实现上述实施例方式一中任意一种多视角识别商品智能生成订单方法、基于商品区重量变化对视频分段处理的智能生成订单方法。

在一个示例中，电子设备还可包括通信接口和总线。其中，处理器、存储器、通信接口通过总线连接并完成相互间的通信。

通信接口，主要用于实现本发明实施例中各模块、装置、单元和/或设备之间的通信。

总线包括硬件、软件或两者，将电子设备的部件彼此耦接在一起。举例来说而非限制，总线可包括加速图形端口（AGP）或其他图形总线、增强工业标准架构（EISA）总线、前端总线（FSB）、超传输（HT）互连、工业标准架构（ISA）总线、无限带宽互连、低引脚数（LPC）总线、存储器总线、微信道架构（MCA）总线、外围组件互连（PCI）总线、PCI-Express（PCI-X）总线、串行高级技术附件（SATA）总线、视频电子标准协会局部（VLB）总线或其他合适的总线或者两个或更多个以上这些的组合。在合适的情况下，总线可包括一个或多个总线。尽管本发明实施例描述和示出了特定的总线，但本发明考虑任何合适的总线或互连。

综上所述，本发明实施例提供了一种多视角识别商品智能生成订单方法、基于商品区重量变化对视频分段处理的智能生成订单方法、装置、智能售货机及存储介质。

需要明确的是，本发明并不局限于上文所描述并在图中示出的特定配置和处理。为了简明起见，这里省略了对已知方法的详细描述。在上述实施例中，描述和示出了若干具体的步骤作为示例。但是，本发明的方法过程并不限于所描述和示出的具体步骤，本领域的技术人员可以在领会本发明的精神后，作出各种改变、修改和添加，或者改变步骤之间的顺序。

以上所述的结构框图中所示的功能块可以实现为硬件、软件、固件或者它们的组合。当以硬件方式实现时，其可以例如是电子电路、专用集成电路（ASIC）、适当的固件、插件、功能卡等等。当以软件方式实现时，本发明的元素是被用于执行所需任务的程序或者代码段。程序或者代码段可以存储在机器可读介质中，或者通过载波中携带的数据信号在传输介质或者通信链路上传送。“机器可读介质”可以包括能够存储或传输信息的任何介质。机器可读介质的例子包括电子电路、半导体存储器设备、ROM、闪存、可擦除ROM（EROM）、软盘、CD-ROM、光盘、硬盘、光纤介质、射频（RF）链路，等等。代码段可以经由诸如因特网、内联网等的计算机网络被下载。

最后应说明的是：以上各实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述各实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分或者全部技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的范围。

Claims

1.一种多视角识别商品智能生成订单方法，其特征在于，所述方法包括：

S10：获取商品区域的目标视频，其中，所述目标视频由若干基础视频对应的各帧图像进行物理拼接后得到的视频流构成，每一所述基础视频是以一视角采集所述商品区域发生的同一事件的图像组成，各个基础视频对应采集同一所述事件的视角不同，所述物理拼接为拼接后的图像为参与拼接的所有图像的尺寸和；

所述S11包括：

S115：根据各商品的所述基础商品信息的置信度结合各商品的所述基础置信度，得到包含各商品的目标置信度的各所述商品信息；

2.根据权利要求1所述的多视角识别商品智能生成订单方法，其特征在于，所述S10包括：

S101：获取沿智能售货机的货架排列方向将智能售货机放置商品区域分为多个虚拟的商品区；

S103：对各所述基础视频的各帧图像按采集时序相对应的各帧图像一一进行物理拼接，得到所述目标视频。

3.根据权利要求2所述的多视角识别商品智能生成订单方法，其特征在于，所述S101包括：

S1011：对智能售货机的商品区域沿货架排列方向从上至下分为上商品区和下商品区；

S1012：在所述上商品区的左右两侧和所述下商品区的左右两侧分别相向设有一摄像头；

4.根据权利要求1至3任一项所述的多视角识别商品智能生成订单方法，其特征在于，所述S10包括：

S105：获取用于采集视频数据的摄像头的帧率和摄像头数量；

5.根据权利要求4所述的多视角识别商品智能生成订单方法，其特征在于，所述S111包括：

S1112：根据所述发生商品变动的各图像帧，将所述目标视频分为多个目标子视频；

6.根据权利要求5所述的多视角识别商品智能生成订单方法，其特征在于，所述S12包括：

7.一种多视角识别商品智能生成订单装置，其特征在于，所述装置包括：

视频采集模块：用于获取商品区域的目标视频，其中，所述目标视频由若干基础视频对应的各帧图像进行物理拼接后得到的视频流构成，每一所述基础视频是以一视角采集所述商品区域发生的同一事件的图像组成，各个基础视频对应采集同一所述事件的视角不同，所述物理拼接为拼接后的图像为参与拼接的所有图像的尺寸和；

所述用于将所述目标视频的各帧图像输入目标检测网络进行识别，得到各商品的商品信息包括：

将所述目标视频的各帧图像按采集时刻分为首帧图像和所述首帧图像以外的非首帧图像；

根据所述首帧图像的图像信息，确定所述首帧图像中各商品所属商品区域的定位信息；

根据所述定位信息，对所述目标视频的各帧图像中的各目标添加基础置信度；

利用所述目标检测网络对所述目标视频的各帧图像进行目标检测，得到各商品的基础商品信息；

根据各商品的所述基础商品信息的置信度结合各商品的所述基础置信度，得到包含各商品的目标置信度的各所述商品信息；

8.一种智能售货机，其特征在于，包括：至少一个处理器、至少一个存储器以及存储在所述存储器中的计算机程序指令，当所述计算机程序指令被所述处理器执行时实现如权利要求1-6中任一项所述的方法。

9.一种介质，其上存储有计算机程序指令，其特征在于，当所述计算机程序指令被处理器执行时实现如权利要求1-6中任一项所述的方法。