CN115601686B

CN115601686B - 物品交付确认的方法、装置和系统

Info

Publication number: CN115601686B
Application number: CN202211584496.2A
Authority: CN
Inventors: 倪鼎; 刘西洋; 李鹏; 王炎
Original assignee: Zhejiang Lianhe Technology Co ltd
Current assignee: Zhejiang Shenxiang Intelligent Technology Co ltd
Priority date: 2022-12-09
Filing date: 2022-12-09
Publication date: 2023-04-11
Anticipated expiration: 2042-12-09
Also published as: CN115601686A

Abstract

本申请公开了一种物品交付确认的方法、装置和系统。该方法包括：获取目标场景的视频帧；根据所述视频帧，对其中的目标识别对象进行图像识别，并建立目标识别对象的运动轨迹；所述目标识别对象至少包括人手、目标类别的第一物品以及包装容器；判断所述第一物品的轨迹是否与所述包装容器的轨迹接近并最终重合或者消失，若是，则进入下一步；判断在所述第一物品的轨迹与所述包装容器的轨迹接近的过程中，是否伴随有运动轨迹相似的人手轨迹，若是，则判断所述第一物品交付完毕。该方法通用性和实时性强，获得的物品交付确认结果的可靠性和真实性高。

Description

物品交付确认的方法、装置和系统

技术领域

本申请涉及计算机技术领域，具体涉及一种物品交付确认的方法、装置和系统。

背景技术

数字化管理，是指利用计算机技术通过统计技术量化管理对象与管理行为。数字化管理能够提高管理的实时性和管理结果的可靠性和真实性，这种管理模式已经开始逐步应用于不同领域。

然而，在一些领域中仍然存在数字化管理程度低的问题。在线下销售领域中，销量统计是线下销售行业(例如，餐饮业)日常经营的基础数据。线下商铺的店家通过对线下物品的销售量(又称为物品的交付量)进行统计，以形成销售底账。传统技术中，通常采用事后盘点或者信息化的台账系统来确定当日的物品销售量。但上述传统技术中均需要依赖人工干预或配合，存在数字化管理程度低的问题，从而导致实时性差、以及获得的物品交付结果的可靠性和真实性低。此外，上述利用信息化的台账系统的方式还需要商铺安装有专门的设备，还存在通用性差的问题。

因此，亟需一种物品交付确认的方法，该方法通用性和实时性强，获得的物品交付确认结果的可靠性和真实性高。

发明内容

本申请提供一种物品交付确认的方法、装置和系统。该方法通用性和实时性强，获得的物品交付确认结果的可靠性和真实性高。

本申请实施例第一方面提供一种物品交付确认的方法，包括：获取目标场景的视频帧；根据所述视频帧，对其中的目标识别对象进行图像识别，并建立目标识别对象的运动轨迹；所述目标识别对象至少包括人手、目标类别的第一物品以及包装容器；判断所述第一物品的轨迹是否与所述包装容器的轨迹接近并最终重合或者消失，若是，则进入下一步；判断在所述第一物品的轨迹与所述包装容器的轨迹接近的过程中，是否伴随有运动轨迹相似的人手轨迹，若是，则判断所述第一物品交付完毕。

可选的，在一些实现方式中，所述判断在第一物品的轨迹与所述包装容器的轨迹接近的过程中，是否伴随有运动轨迹相似的人手轨迹的判断中，若判断结果为无法确定，则在确定伴随有运动轨迹进一步执行以下操作：在所述第一物品消失前后的预定时间段内的视频帧中，选择包括人手、包装容器的区域作为目标区域；利用经过训练的状态分类模型，对所述视频帧包括的目标区域进行运动状态识别，判断是否属于装袋动作；若是，则判断所述第一物品交付完毕。

可选的，在另一些实现方式中，所述对所述视频帧包括的目标区域进行运动状态识别，判断是否属于装袋动作的步骤中，所述第一物品消失前后的预定时间段内的视频帧包括多张，若在所述视频帧中，判断属于装袋动作的次数达到预定的次数，则判断所述第一物品交付完毕。

可选的，在另一些实现方式中，所述视频帧包括至少一张第一帧图像和至少一张第二帧图像；所述第一帧图像包括的所述第一物品对应的目标框，与所述第一帧图像包括的所述包装容器对应的目标框不存在重叠；所述第二帧图像包括的所述第一物品对应的目标框，与所述第二帧图像包括的所述包装容器对应的目标框的重叠程度大于第一阈值；所述根据所述视频帧，对其中的目标识别对象进行图像识别，并建立目标识别对象的运动轨迹，包括：确定所述目标识别对象位于所述第一帧图像中的第一位置，以及所述目标识别对象位于所述第二针图像中的第二位置，其中，所述第一位置与所述第二位置不同；通过具有时间顺序关系的视频帧，获得所述目标识别对象从所述第一位置运动到所述第二位置的轨迹，将所述轨迹确定为所述目标识别对象的运动轨迹，其中，所述第一位置为所述目标识别对象的运动轨迹的起始位置，所述第二位置为所述目标识别对象的运动轨迹的终止位置。

可选的，在另一些实现方式中，所述方法还包括：利用识别模型对所述第一帧图像中的目标识别对象进行识别，获得所述第一位置；以及，利用所述识别模型对所述第二帧图像中的目标识别对象进行识别，获得所述第二位置；其中，所述识别模型是通过第二训练获得的针对多类目标的检测模型。

可选的，在另一些实现方式中，利用识别模型对所述第一帧图像中的目标识别对象进行识别后，进一步采用预先训练获得目标识别对象指纹提取模型，提取具体的目标识别对象指纹；所述通过具有时间顺序关系的视频帧，获得所述目标识别对象从所述第一位置运动到所述第二位置的轨迹的过程中，依据所述目标识别对象指纹，对目标识别对象进行个体区分。

可选的，在另一些实现方式中，所述判断所述第一物品的轨迹是否与所述包装容器的轨迹接近并最终重合或者消失，包括：在所述第一物品的轨迹的终止位置对应的目标框与所述包装容器的在第一物品的轨迹终止时刻对应的目标框的重叠程度大于第一阈值的情况下，确定所述第一物品的轨迹与所述包装容器的轨迹接近并最终重合或消失。

可选的，在另一些实现方式中，所述判断在第一物品的轨迹与所述包装容器的轨迹接近的过程中，是否伴随有运动轨迹相似的人手轨迹，包括：在所述第一物品的轨迹与所述包装容器的轨迹接近的过程中的任意时刻，如果所述人手轨迹对应的目标框与所述第一物品的轨迹对应的目标框的重叠程度大于第二阈值，确定伴随有运动轨迹相似的人手轨迹。

可选的，在另一些实现方式中，采用经过专门训练的人手识别模型，对视频帧中的人手进行检测识别，所述人手识别模型首先识别视频帧包含的人体，然后从视频帧中截取的人体进一步识别人手。

可选的，在另一些实现方式中，所述目标识别对象还包括所述目标类别的第二物品，所述方法还包括：判断所述第二物品的轨迹是否跨过目标边界线，若是，则进入下一步；判断在所述第二物品的轨迹跨过所述目标边界线前后，是否伴随有运动轨迹相似的人手轨迹，若是，则判断所述第二物品交付完毕。

可选的，在另一些实现方式中，所述目标边界线为对所述视频帧进行人工标注获得的边界线；或者，所述目标边界线为利用检测模型对所述视频帧进行线条检测获得的，其中，所述检测模型是通过第三训练获得的检测模型。

可选的，在另一些实现方式中，所述视频帧来自一个以上的影像摄取设备；所述根据所述视频帧，对其中的目标识别对象进行图像识别，并建立目标识别对象的运动轨迹的步骤中，对于多个影像视频设备获得视频帧，进行时空融合后，再进一步获得目标识别对象的运动轨迹。

可选的，在另一些实现方式中，针对所述不同影像摄取设备的视频帧中，采用如下方式进行时空融合：对于所述视频帧中的属于不同类别的目标识别对象，相互之间不做融合；在所述视频帧中出现的时间段不存在重合的目标识别对象，相互之间不做融合；针对不同影像摄取设备的视频帧中，相同时刻出现，并且经过对视频帧的空间转换后，判断所处的空间位置相同的同类目标识别对象，识别为同一个目标识别对象。

可选的，在另一些实现方式中，所述判断所处的空间位置相同的方法包括：根据预先获得的设备位置关系，获得对不同影像摄取设备的视频帧进行空间转换的空间转换参数；使用所述空间转换参数，对不同影像摄取设备在属于相同时间区间获得的视频帧中的同类目标识别对象进行空间转换；在所述空间转换后，若所述同类目标识别对象的目标框底点位置处于预定的阈值范围内，则判断所述同类目标识别对象实际为同一目标识别对象。

本申请实施例第二方面提供一种物品交付确认的方法，包括：获取目标场景的视频帧；根据所述视频帧，对其中的目标识别对象进行图像识别，并建立目标识别对象的运动轨迹；所述目标识别对象至少包括人手和目标类别的物品；判断所述物品的轨迹是否跨过目标边界线，若是，则进入下一步；判断在所述物品的轨迹跨过所述目标边界线前后，是否伴随有运动轨迹相似的人手轨迹，若是，则判断所述物品交付完毕。

可选的，在一些实现方式中，所述目标边界线为对所述视频帧进行人工标注获得的边界线；或者，所述目标边界线为利用检测模型对所述视频帧进行线条检测获得的，其中，所述检测模型是通过训练获得的检测模型。

本申请实施例第三方面提供一种物品交付确认的装置，包括：获取单元，用于获取目标场景的视频帧；处理单元用于：根据所述视频帧，对其中的目标识别对象进行图像识别，并建立目标识别对象的运动轨迹；所述目标识别对象至少包括人手、目标类别的第一物品以及包装容器；所述处理单元还用于：判断所述第一物品的轨迹是否与所述包装容器的轨迹接近并最终重合或者消失，若是，则进入下一步；所述处理单元还用于：判断在所述第一物品的轨迹与所述包装容器的轨迹接近的过程中，是否伴随有运动轨迹相似的人手轨迹，若是，则判断所述第一物品交付完毕。

本申请实施例第四方面提供一种物品交付确认的装置，包括：获取单元，用于获取目标场景的视频帧；处理单元，用于根据所述视频帧，对其中的目标识别对象进行图像识别，并建立目标识别对象的运动轨迹；所述目标识别对象至少包括人手和目标类别的物品；所述处理单元还用于：判断所述物品的轨迹是否跨过目标边界线，若是，则进入下一步；所述处理单元还用于：判断在所述物品的轨迹跨过所述目标边界线前后，是否伴随有运动轨迹相似的人手轨迹，若是，则判断所述物品交付完毕。

本申请实施例第五方面提供一种物品交付确认的设备，其特征在于，包括：处理器；存储器，用于存储计算机程序，该计算机程序被处理器运行，执行上述第一方面所述的方法。

本申请实施例第六方面提供一种物品交付确认的设备，其特征在于，包括：处理器；存储器，用于存储计算机程序，该计算机程序被处理器运行，执行上述第二方面所述的方法。

本申请实施例第七方面提供一种计算机存储介质，其特征在于，所述计算机存储介质存储有计算机程序，该计算机程序被处理器运行，执行上述第一方面所述的方法。

本申请实施例第八方面提供一种计算机存储介质，其特征在于，所述计算机存储介质存储有计算机程序，该计算机程序被处理器运行，执行上述第二方面所述的方法。

本申请提供的物品交付确认的方法，包括：获取目标场景的视频帧；根据所述视频帧，对其中的目标识别对象进行图像识别，并建立目标识别对象的运动轨迹；所述目标识别对象至少包括人手、目标类别的第一物品以及包装容器；判断所述第一物品的轨迹是否与所述包装容器的轨迹接近并最终重合或者消失，若是，则进入下一步；判断在所述第一物品的轨迹与所述包装容器的轨迹接近的过程中，是否伴随有运动轨迹相似的人手轨迹，若是，则判断所述第一物品交付完毕。本申请提供的物品交付确认的方法中，对获取的目标场景的视频帧进行图像处理，获得该目标场景的视频帧中的第一物品的轨迹、人手轨迹和包装容器的轨迹。进一步，根据目标场景的视频帧中的第一物品的轨迹、人手轨迹和包装容器的轨迹确定第一物品是否交付完毕。实际应用中，目标场景中(例如，线下商场)均会安装有影像摄取设备，以记录目标场景内发生的各种事件，也就是说，可以复用目标场景已有的影像摄取设备对目标场景进行数据采集获得目标场景的视频帧，无需安装额外的设备，该方法通用性强。上述目标场景的视频帧可以是实时获取的，基于该视频帧获得的第一物品是否交付完毕的结果的实时性强。影像摄取设备采集到目标场景的视频帧后直接传输给执行上述物品交付确认的方法的设备，这个过程中不存在人为干预或配合，基于该目标场景的视频帧分析获得的物品交付结果的可靠性和真实性高。综上，该方法通用性和实时性强，获得的物品交付确认结果的可靠性和真实性高。

本申请提供的物品交付确认的方法，还包括针对直接取货而没有使用包装的场景的方法，该方法包括：获取目标场景的视频帧；根据所述视频帧，对其中的目标识别对象进行图像识别，并建立目标识别对象的运动轨迹；所述目标识别对象至少包括人手和目标类别的物品；判断所述物品的轨迹是否跨过目标边界线，若是，则进入下一步；判断在所述物品的轨迹跨过所述目标边界线前后，是否伴随有运动轨迹相似的人手轨迹，若是，则判断所述物品交付完毕。在本申请提供的物品交付确认的方法中，对获取的目标场景的视频帧进行图像处理，获得该目标场景的视频帧中的第一物品的轨迹和人手轨迹。进一步，根据获取的目标场景的视频帧中的第一物品的轨迹和人手轨迹确定第一物品是否交付完毕。实际应用中，目标场景中(例如，线下商场)均会安装有影像摄取设备，以记录目标场景内发生的各种事件，也就是说，可以复用目标场景已有的影像摄取设备对目标场景进行数据采集获得目标场景的视频帧，无需安装额外的设备，该方法通用性强。上述目标场景的视频帧可以是实时获取的，基于该视频帧获得的第一物品是否交付完毕的结果的实时性强。影像摄取设备采集到目标场景的视频帧后直接传输给执行上述物品交付确认的方法的设备，这个过程中不存在人为干预或配合，基于该目标场景的视频帧分析获得的物品交付结果的可靠性和真实性高。综上，该方法通用性和实时性强，获得的物品交付确认结果的可靠性和真实性高。

附图说明

为了更清楚地说明本申请实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请中记载的一些实施例，对于本领域普通技术人员来讲，还可以根据这些附图获得其他的附图。

图1A是本申请提供的物品交付确认的方法的应用场景的示意图。

图1B是上述图1A示出的应用场景中的计算设备130处理流程的示意图。

图1C是上述图1A示出的应用场景中的计算设备130处理流程的示意图。

图1D是本申请实施例提供的一种物品交付确认的系统的示意图。

图2是本申请实施例提供的一种物品交付确认的方法的示意图。

图3是本申请实施例提供的采用两个摄像机对目标场景进行图像采集获得目标场景的视频帧的采集画面的示意图。

图4是本申请实施例提供的第一物品与包装容器重叠程度的示意图。

图5是本申请实施例提供的目标识别对象的运动轨迹的示意图。

图6是本申请实施例提供的一种物品交付确认的方法的示意图。

图7是本申请实施例提供的一种模型训练方法的示意图。

图8是本申请实施例提供的一种物品交付确认的方法的示意图。

图9是本申请实施例提供的一种物品交付确认的方法的示意图。

图10是本申请实施例提供的一种物品交付确认的装置的结构示意图。

图11是本申请实施例提供的一种训练装置的结构示意图。

图12是本申请实施例提供的一种物品交付确认的设备的结构示意图。

图13是本申请实施例提供的一种训练设备的结构示意图。

具体实施方式

为使本申请的目的、优点和特征更加清楚，以下结合附图和具体实施方式对本申请中的技术方案作进一步详细说明。在下面的描述中，阐述了很多具体细节以便于充分理解本申请。但是，本申请能够以很多不同于在此描述的其它方式来实施，本领域技术人员可以在不违背本申请内涵的情况下做类似推广，因此本申请不受下面公开的具体实施方式的限制。

需要说明的是，在本申请的描述中，术语“第一”、“第二”等仅用于描述目的，而不能理解为指示或暗示相对重要性，以及特定的顺序或先后次序。对于本领域的普通技术人员而言，可以具体情况理解上述术语在本申请中的具体含义。此外，在本申请的描述中，除非另有说明，术语“多个”是指两个或两个以上。术语“和/或”，描述关联对象的关联关系，表示可以存在三种关系，例如，A和/或B，可以表示：单独存在A，同时存在A和B，单独存在B这三种情况。字符“/”一般表示前后关联对象是一种“或”的关系。术语“包括”和“具有”以及他们的任何变形，旨在覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

然而，在一些领域中仍然存在数字化管理程度低的问题。在线下销售领域中，销量统计是线下销售行业(例如，餐饮业)日常经营的基础数据。线下商铺的店家通过对线下物品的销售量(又称为物品的交付量)进行统计，以形成销售底账。目前一种对于线下销售量实时统计的方法是，为商铺中的每件商品设置唯一的商品编号，通过事后盘点商铺可以得知每天商品的销售量。但这种方法存在以下问题：对商铺中包括的所有商品贴上商品编号人工成本高、通用性差；事后盘点销售量的方法的实时性差。另一种对于线下销售量实时统计的方法是，对每件出售的商品都贴上二维码标签，要求店员对每件售出的商品进行扫码登记，利用与电子台账系统相互独立的扫码系统专门记录售出的商品。但这种方法存在以下问题：增加店员的工作流程；由于电子账单很容易造假，例如刷单逃单、虚假记账等，使得获得的销量统计结果的可靠性和真实性差。也就是说，上述传统技术中均需要人工干预或配合，存在数字化管理程度低的问题，从而导致实时性差、以及获得的物品交付结果的可靠性和真实性低。此外，上述利用信息化的台账系统的方式还需要商铺安装有专门的设备，还存在通用性差的问题。

为解决上述存在的问题，本申请实施例提供了一种物品交付确认的方法、装置和系统。

下面，结合附图对适用于本申请实施例的物品交付确认的方法的应用场景、物品交付确认的方法进行详细说明。可以理解的是，本申请提供的各实施例之间不冲突的情况下，下述的实施例及实施例中的特征可以相互组合。另外，下述各方法实施例中的步骤时序仅为一种举例，而非严格限定。

首先，结合附图介绍适用于本申请提供的物品交付确认的方法的应用场景。本申请所说的物品交付，主要是指小型动产的交付，典型如咖啡店中咖啡的交付；在这种交付场景中，交付的成立以掌控权的转移为依据，通俗而言，即物品在谁的手上就是谁的，对于商店而言，就是将物品从店员手上转移到顾客手上，这就是交付。整个交付过程的关键是物品的掌控权转移的刹那，如何判断该刹那的出现，需要确定明确的标准。本申请中，根据通常店铺销售场景，将物品装入包装作为交付判断的标准，在没有包装的场景，则以物品被拿出离开店铺控制范围为交付判断的标准。

图1A是本申请提供的物品交付确认的方法的应用场景的示意图。如图1A所示，该应用场景包括：目标场景110、影像摄取设备、计算设备130。其中，影像摄取设备和计算设备130可以通过有线网络或无线网络进行通信，以实现数据的传输。所述有线网络或无线网络使用标准通信技术和/或协议。网络通常为因特网、但也能够是任何网络，包括但不限于局域网(local area network，LAN)、城域网(metropolitan area network，MAN)、广域网(wide area network，WAN)、移动、有线或者无线网络、专用网络或者虚拟专用网络的任何组合)。

影像摄取设备可以是安装在目标场景110内的数据采集设备，影像摄取设备用于对目标场景110进行数据采集获得目标场景110的视频帧。其中，目标场景110的视频帧包括目标场景110的多张帧图像。对影像摄取设备类型不作具体限定。

计算设备130是具有计算和分析能力的设备。其中，计算设备130用于对从影像摄取设备采集的目标场景110的视频帧进行处理，以确定目标场景110对应的物品交付情况。进一步，根据该物品交付情况可以确定对应的物品销售量。具体来说，当确定一件物品已经处于交付状态，则对销售量进行加1处理。对计算设备130的呈现形式不作具体限定。例如，计算设备130可以是一台服务器，也可以是由多台服务器组成的服务器集群。或者计算设备130还可以是一个云计算服务中心。

上述图1A示出的应用场景，即利用计算设备130具有的计算和分析能力，采用数字化管理方式对目标场景(例如但不限于，商场)内发生的物品交付事件进行处理，即图1A示出的场景是一种数字化场景。在一些应用场景中，图1A中可以包括一个影像摄取设备，如影像摄取设备120。示例性的，图1B示出了这种应用场景中，计算设备130的处理流程。参见图1B，计算设备130对目标场景的视频帧进行处理包括以下流程：对获得的视频帧进行目标对象识别，对识别出的目标对象进行特征提取获得目标的特征信息(例如，特征指纹)。在一些实现方式中，目标对象至少包括：人手、物品和包装容器。可选的，在另一些实现方式中，目标对象至少包括：人手和物品。然后，根据目标对象的特征信息对视频帧中该目标对象进行目标跟随，获得该目标对象的运动轨迹。进一步，读获取的目标对象的运动轨迹执行动作识别，判断物品是否被装入包装容器或物品是否被人手取走。最后，根据动作识别结果确定物品交付结果。在动作识别结果为物品被装入包装容器或物品被人手取走的情况下，确定物品成功交付。

可选的，在另一些应用场景中，图1A中可以包括具有不同摄取视角的多个影像摄取设备，如影像摄取设备120和影像摄取设备121。示例性的，图1C示出了这种应用场景中，计算设备130的处理流程。参见图1C，目标场景的视频帧1可以是图1A中的影像摄取设备120在预设时间段内对目标场景110进行数据采集获得的；目标场景的视频帧2可以是图1A中的影像摄取设备121在预设时间段内对目标场景110进行数据采集获得的。其中，影像摄取设备120的摄取视角与影像摄取设备121的摄取视角不同，即目标场景的视频帧1与目标场景的视频帧1也不完全相同。这种应用场景下，计算设备130对目标场景的视频帧1处理获得物品交付结果1的流程、以及目标场景的视频帧2处理获得物品交付结果2的流程，与上述图1B示出的处理流程原理相同。区别在于，这种应用场景中，计算设备130获得物品交付结果1和物品交付结果2之后，还需要执行融合处理结果，确定是否对物品交付结果1和物品交付结果2进行融合处理的流程。若是，则对物品交付结果1物品交付结果2执行融合处理，获得融合处理后的结果。其中，该融合处理后的结果才是该目标场景110在预设时间段内真实的物品交付结果。若不是，计算设备130直接根据未融合的物品交付结果1和物品交付结果2，确定目标场景110在预设时间段内真实的物品交付情况。可以理解的是，上述融合处理包括对同一时刻同一类别的物品执行融合处理。

应理解，上述图1A至图1C仅为示意并不对本申请提供的物品交付确认的方法的应用场景、计算设备130的处理流程仅为示意，并不构成任何限定。例如，上述图1A中还可以包括更多数据的影像摄取设备。上述计算设备130还可以替换为分布式计算集群等。

图1D是本申请实施例提供的一种物品交付确认的系统的示意图。示例性的，如图1D所示，该系统包括线上环境和线下环境两部分。

线下环境主要包括数据采集系统10、数据打标系统20、模型训练系统30和模型部署工具40。其中，线下环境用于完成各个基础模型的优化和上线。具体来说，数据采集系统10用于对目标场景进行采集获得目标场景的视频帧。数据打标系统20用于对训练样本进行信息标注，以获得携带标注信息的训练样本。模型训练系统30用于利用训练样本和携带有标注信息的训练样本对模型进行训练，以获得训练好的模型。模型部署工具40用于将训练好的模型部署在网络中。

线上环境主要包括智能边缘处理系统50(例如，AI影像摄取设备或者边缘服务器)，服务器60(例如，云服务器或者本地服务器)和业务分析及回溯系统70。其中，线上环境用于完成实时视频流数据的智能化分析，处理结果的结构化存储和面向业务应用的结果展示、数据分析及视频回溯等功能。

应理解，上述图1D仅为示意并不对本申请提供的物品交付确认的系统构成任何限定。

接下来，结合附图介绍本申请实施提供的物品交付确认的方法。

图2是本申请实施例提供的一种物品交付确认的方法的示意图。可以理解的是，该方法可以由具有计算能力的计算设备执行。例如，该计算设备可以但不限于是上述图1示出的计算设备130。如图2所示，该方法包括步骤S210至步骤S240。下面，对步骤S210至步骤S240进行详细说明。

步骤S210，获取目标场景的视频帧。

对目标场景不作具体限定，可以根据实际需求进行选取。例如，目标场景可以但不限于是以下任意一种场景：传统门店线下零售场景、或者码头交货场景等。例如，传统门店可以是餐饮门店、咖啡门店、或图书门店等。

视频帧是包括多张帧图像的集合，其中，多张帧图像是影像摄取设备对目标场景进行图像采集获得的。视频帧包括的帧图像的数目与采集时间长度和采集频率有关，可以根据在不同目标场景下的需求设置采集时间长度和采集频率。也就是说，本申请实施例中对视频帧包括的多张帧图像的数目不作具体限定。例如，视频帧至少可以包括2张帧图像。又如，视频帧还可以包括50张帧图像。

对获取目标场景的视频帧的实现方式不作具体限定。例如，获取目标场景的视频帧，包括：从影像摄取设备处获取目标场景的视频帧。又如，获取目标场景的视频帧，包括：从第三方设备处获取目标场景的视频帧，该第三方设备中存储的视频帧是从影像摄取设备处获取的。

对获取目标场景的视频帧关联的影像摄取设备的数目不作具体限定。例如，目标场景的视频帧可以是由一个影像摄取设备采集获得的。又如，目标场景的视频帧可以是由多个影像摄取设备采集获得的，多个影像摄取设备中任意两个影像摄取设备采集对目标场景进行图像采集所对应的采集角度可以不同或相同。上述影像摄取设备可以是摄像机。可以理解的是，两个影像摄取设备对应的采集视角不同，即这两个影像摄取设备在同一时刻对同一目标场景进行采集所获得的帧图像不完全相同。示例性的，图3中的(1)示出了采用两个摄像机对目标场景进行图像采集获得目标场景的视频帧的采集画面，参见图3中的(1)，摄像机116和摄像机117用于对目标场景进行图像采集，摄像机116和摄像机117的采集视角不同，其中，目标场景包括售货员111、单品112、包装产品113、顾客手部114和桌面115。图3中的(2)示出了采用一个摄像机116对目标场景进行图像采集获得目标场景的视频帧的采集画面，图3中的(2)示出的目标场景与图3中的(1)示出的目标场景相同。

步骤S220，根据视频帧，对其中的目标识别对象进行图像识别，并建立目标识别对象的运动轨迹；目标识别对象至少包括人手、目标类别的第一物品以及包装容器。

在上述步骤S220中所描述的视频帧是包括多张帧图像的集合。执行上述步骤S220，即根据视频帧包括的多张帧图像，对其中的目标识别对象进行图像识别，并建立目标识别对象的运动轨迹。上述步骤S220中所描述的视频帧可以是由一个影像摄取设备对目标场景进行采集获得的，或者也可以是由多个具有不同摄取角度的多个影像摄取设备对目标场景进行采集获得的。可以理解的是，多个具有不同摄取角度的多个影像摄取设备在预设时间段内对目标场景进行采集获得的视频帧不完全相同。

下面，以利用一个摄取设备获取上述步骤S220中的视频帧为例介绍上述步骤S220的一种实现流程，即下文描述的实现方式一；以及以利用两个摄取设备获取上述步骤S220中的视频帧为例介绍上述步骤S220的另一种实现流程，即下文描述的实现方式二。

实现方式一：

实现方式一中，以上述步骤S220中所描述的视频帧包括至少两张帧图像，且该视频帧是由一个影像摄取设备对目标场景进行采集获得的为例介绍上述步骤S220的实现流程。在一些实现方式中，上述步骤S220中的视频帧包括至少一张第一帧图像和至少一张第二帧图像；第一帧图像包括的第一物品对应的目标框，与第一帧图像包括的包装容器对应的目标框不存在重叠；第二帧图像包括的第一物品对应的目标框，与第二帧图像包括的包装容器对应的目标框的重叠程度大于第一阈值。这种实现方式中，根据视频帧，对其中的目标识别对象进行图像识别，并建立目标识别对象的运动轨迹，包括：确定目标识别对象位于第一帧图像中的第一位置，以及目标识别对象位于第二帧图像中的第二位置，其中，第一位置与第二位置不同；通过具有时间顺序关系的视频帧，获得目标识别对象从第一位置运动到第二位置的轨迹，将轨迹确定为目标识别对象的运动轨迹，其中，第一位置为目标识别对象的运动轨迹的起始位置，第二位置为目标识别对象的运动轨迹的终止位置。

上述第一帧图像包括的第一物品对应的目标框，与第二帧图像包括的包装容器对应的目标框不存在重叠，也就是说，第一帧图像中示出的第一物品并未被放入包装容器中。上述第二帧图像包括的第一物品对应的目标框，与第二帧图像包括的包装容器对应的目标框的重叠程度大于第一阈值，也就是说，第二帧图像中示出的第一物品已经被放入包装容器中。在本申请实施例中，在第一物品与包装容器存在部分或全部重叠的情况下，可以认为第一物品已经被放入包装容器中。示例性的，图4中的(a)示出了包装容器与第一物品不存在重叠的示意图，即图4中的(a)示出的第一物品未被放入包装容器。图4中的(b)示出了包装容器与第一物品存在部分重叠的示意图，图4中的(c)示出了第一物品与包装容器存在全部重叠的示意图，即可以认为图4中的(b)和图4中的(c)示出的第一物品已经被放入包装容器中。

可选的，在上述建立目标识别对象的运动轨迹之前还可以执行以下步骤：利用识别模型对第一帧图像中的目标识别对象进行识别，获得第一位置；以及，利用识别模型对第二帧图像中的目标识别对象进行识别，获得第二位置；其中，识别模型是通过第二训练获得的针对多类目标的检测模型。其中，利用识别模型对第一帧图像中的目标识别对象进行识别，获得第一位置，包括：将第一帧图像输入至识别模型，识别模型输出标注有第一位置的第一帧图像。其中，利用识别模型对第二帧图像中的目标识别对象进行识别，获得第二位置，包括：将第二帧图像输入至识别模型，识别模型输出标注有第二位置的第二帧图像。下文中的图7详细介绍了获取识别模型的模型训练方法，此处未详细赘述的内容可以参见下文图7中的相关描述。

可选的，在利用识别模型对第一帧图像中的目标识别对象进行识别后，进一步采用预先训练获得目标识别对象指纹提取模型，提取具体的目标识别对象指纹；通过具有时间顺序关系的视频帧，获得目标识别对象从第一位置运动到第二位置的轨迹的过程中，依据目标识别对象指纹，对目标识别对象进行个体区分。上述实现方式，即通过目标识别对象的指纹对目标识别对象在视频帧中的运动轨迹进行跟踪。对跟踪算法不作具体限定，可以根据实际需求进行选取。例如，跟踪算法可以但不限于是多目标跟踪(Multi-ObjectTracking)算法，如Deep Sort算法。其中，目标识别对象指纹用于标识该目标识别对象，目标识别对象指纹记录了该目标识别对象的鉴别性信息。也就是说，根据一个目标识别对象指纹可以唯一确定该一个目标识别对象。本申请实施例中，对一个目标识别对象的鉴别性信息不作具体限定。例如，当目标识别对象为一件物品时，鉴别性信息可以但不限于是以下一种或多种信息：形状、体积、或者颜色。又如，当目标识别对象为人手时，鉴别性信息可以但不限于是以下一种或多种信息：人手的大小、或者人手的颜色。再如，当目标识别对象为包装容器时，鉴别性信息可以但不限于是以下一种或多种信息：包装容器的材质、包装容器的形状、或者包装容器的形状的大小。下文中的图7详细介绍了获取目标识别对象指纹提取模型的模型训练方法，此处未详细赘述的内容可以参见下文图7中的相关描述。

实现方式二：

实现方式二中，以上述步骤S220中所描述的视频帧是由多个影像摄取设备对目标场景进行采集获得的为例介绍上述步骤S220的实现流程，其中，多个影像摄取设备对应的摄取视角可以不同。

上述步骤S220中的视频帧来自一个以上的影像摄取设备。在一些实现方式中，上述一个以上的影像摄取设备对应的摄取视角不同，也就是说，该一个以上的影像摄取设备在同一时刻对目标场景进行图像采集所获得的视频帧存在差异。这种实现方式中，根据视频帧，对其中的目标识别对象进行图像识别，并建立目标识别对象的运动轨迹的步骤中，对于多个影像视频设备获得视频帧，进行时空融合后，再进一步获得目标识别对象的运动轨迹。

在一些实现方式中，上述多个影像摄取设备对应的摄取视角不同，也就是说，该多个影像摄取设备在同一时刻对目标场景进行图像采集所获得的视频帧存在差异。这样，针对所述不同影像摄取设备的视频帧中，采用如下方式进行时空融合：对于视频帧中的属于不同类别的目标识别对象，相互之间不做融合；在视频帧中出现的时间段不存在重合的目标识别对象，相互之间不做融合；针对不同影像摄取设备的视频帧中，相同时刻出现，并且经过对视频帧的空间转换后，判断所处的空间位置相同的同类目标识别对象，识别为同一个目标识别对象。通过执行上述流程，可以对出现在相同时间段相同位置的目标(同一目标)只计数一次，而对不同时间时段或不同位置的目标(不同目标)分别计数。前者实现了镜头之间的去重，后者实现了镜头之间的互补，该方法可以提高计数的准确性和全面性。

实际应用中，可以利用映射关系将不同摄像机以不同摄取视角对目标场景进行图像采集获得的视频帧，映射至不同摄像机中的任意一个摄像机对应的空间坐标系下。可选的，在一些实现方式中，判断所处的空间位置相同的方法包括：根据预先获得的设备位置关系，获得对不同影像摄取设备的视频帧进行空间转换的空间转换参数；使用空间转换参数，对不同影像摄取设备在属于相同时间区间获得的视频帧中的同类目标识别对象进行空间转换；在上述空间转换后，若同类目标识别对象的目标框底点位置处于预定的阈值范围内，则判断同类目标识别对象实际为同一目标识别对象。

示例性的，下面以图3中的(1)示出的采集场景为例，将该场景中的摄像机116所采集获得的视频帧1映射至摄像机117对应的空间坐标系下为例，描述上述空间转换过程。参见图3中的(1)示出的采集场景，对于桌面115所在区域，摄像机116和摄像机117之间可以通过坐标仿射变换实现物理空间的对齐。具体来说，先在选定的需要融合的摄像机116的镜头画面上标定桌面115的4个角点，将摄像机117的镜头作为基准，计算摄像机116的镜头相对基准镜头的坐标映射矩阵M，该M可以通过以下公式表示：

其中，x_i116表示摄像机116的镜头视角下，桌面115的第i个角点的图像坐标；x_i117表示摄像机117的镜头视角下，桌面115的第i个角点的图像坐标；M表示从摄像机116的镜头到摄像机117的镜头的坐标映射矩阵。

示例性的，继续以图3中的(1)示出的采集场景为例，描述“在上述空间转换后，同类目标识别对象的目标框底点位置是否处于预定的阈值范围内”。对摄像机116和摄像机117镜头的轨迹相同时刻的目标框的底点(低点取为目标框的下边框的中点，如果此时目标在桌面上，那么底点也是桌面点)，利用坐标映射矩阵M计算摄像机116的镜头的底点到摄像机117的镜头的映射，如果映射到摄像机117的镜头后的坐标位置与摄像机117的镜头的底点位置相近dist（x_117，x₁₁₆)，则说明这两个底点属于同一个位置，那么对应的目标也属于同一个目标，在最终计数时只记录一次，否则对两者计数累计。其中，dist(x_117，x₁₁₆)可以通过以下公式表示：

其中，x₁₁₇表示摄像机117的镜头视角下桌面115中的目标框的低点；x₁₁₆表示摄像机116的镜头视角下桌面115中的目标框的低点；M表示从摄像机116的镜头到摄像机117的镜头的坐标映射矩阵；dist()表示两点之间的欧式距离。

对上述步骤S220中所描述的目标类别和包装容器均不作具体限定。例如，目标类别可以是饮料、咖啡、或食物等。例如，包装容器可以是包装袋或包装盒等。

可选的，上述步骤S220中所描述的视频帧还可以包括除目标识别对象以外的对象，对此不作具体限定。可选的，在另一些实现方式中，上述步骤S220中所描述的目标识别对象还可以包括除去人手、目标类别的第一物品以及包装容器之外的其他对象，例如，其他对象可以但不限于是放置第一物品和/或包装容器的平面区域。

步骤S230，判断第一物品的轨迹是否与包装容器的轨迹接近并最终重合或者消失，若是，则进入下一步。

其中，判断第一物品的轨迹是否与包装容器的轨迹接近并最终重合或者消失，包括：在第一物品的轨迹的终止位置对应的目标框与包装容器的在第一物品的轨迹终止时刻对应的目标框的重叠程度大于第一阈值的情况下，确定第一物品的轨迹与包装容器的轨迹接近并最终重合或消失。对第一阈值的取值不作具体限定。上述第一物品的轨迹的终止位置对应的目标框，可以是包括第一物品的轨迹的终止位置处的最小目标框。上述包装容器的轨迹的终止位置对应的目标框，可以是包括包装容器的轨迹的终止位置处的最小目标框。对目标框的形状不做具体限定，例如目标框可以是规则形状的目标框或不规则形状的目标框。

步骤S240，判断在第一物品的轨迹与包装容器的轨迹接近的过程中，是否伴随有运动轨迹相似的人手轨迹，若是，则判断第一物品交付完毕。

所述运动轨迹相似，是指在同一时间，在空间上经过在一定阈值范围内的点。相似，包括空间和时间上的双重含义。

其中，所述判断在第一物品的轨迹与包装容器的轨迹接近的过程中，是否伴随有运动轨迹相似的人手轨迹的判断中，若判断结果为无法确定，则在确定伴随有运动轨迹进一步执行以下操作：在第一物品消失前后的预定时间段内的视频帧中，选择包括人手、包装容器的区域作为目标区域；利用经过训练的状态分类模型，对视频帧包括的目标区域进行运动状态识别，判断是否属于装袋动作；若是，则判断第一物品交付完毕。可以理解的是，在上述判断结果为是的情况下，可以直接确认第一物品交付完毕；在上述判断结果为否的情况下，可以直接确认第一物品没有完成交付。

在一些实现方式中，对视频帧包括的目标区域进行运动状态识别，判断是否属于装袋动作的步骤中，第一物品消失前后的预定时间段内的视频帧包括多张，若在视频帧中，判断属于装袋动作的次数达到预定的次数，则判断所述第一物品交付完毕。对预定的次数不作具体限定，可以根据实际场景和需求进行选取。例如，预定的次数可以为1次、2次或5次等。

上述目标区域的运动状态识别，可以采用专门监督训练的动作识别的状态分类模型进行分类识别；具体而言，是首先获得包含人手、物品、包装容器的图像，并且这些图像是物品消失前后的图像，所述动作识别模型对每一帧图像进行处理识别，获得一个结论；若物品消失前后的多帧图片的判断结果都是装袋，则判断结果是交付动作完成。

上述判断在第一物品的轨迹与包装容器的轨迹接近的过程中，是否伴随有运动轨迹相似的人手轨迹，具体可以采用如下方法：在第一物品的轨迹与包装容器的轨迹接近的过程中的任意时刻，如果人手轨迹对应的目标框与第一物品的轨迹对应的目标框的重叠程度大于第二阈值，确定伴随有运动轨迹相似的人手轨迹。对第二阈值的取值不作具体限定。人手轨迹对应的目标框可以是包括该人手轨迹对应的位置的最小目标框。

对于上述人手轨迹，需要确定图像中包含的人手；在一些具体实现方式中，采用经过专门训练的人手识别模型，对视频帧中的人手进行检测识别，人手识别模型首先识别视频帧包含的人体，然后从视频帧中截取的人体进一步识别人手。这种识别方式，采用了自顶向下(Top-down)的检测策略，即对帧图像执行人体检测识别出该帧图像包括的人体所在区域，然后将该人体所在区域从帧图像中截取出来，进一步，对截取出来的人体区域执行人手检测。下文中的图7详细介绍了获取人手识别模型的模型训练，此处未详细赘述的内容可以参见下文图7中的相关描述。

上述实现方式中，第一物品以打包形态出售，即第一物品被装入包装容器即可确定该第一物品处于售出态，即第一物品被交付。实际应用场景中，有些待售卖物品无需打包，即顾客可以直接取走该物品，这种情况下，也可以确认该物品处于输出态，即该物品被交付。下面，对这种场景中物品交付的流程进行详细描述。

在另一些实现方式中，上述步骤S220中所描述的目标识别对象还包括目标类别的第二物品，方法还包括：判断第二物品的轨迹是否跨过目标边界线，若是，则进入下一步；判断在第二物品的轨迹跨过目标边界线前后，是否伴随有运动轨迹相似的人手轨迹，若是，则判断第二物品交付完毕。可选的，若判断在第二物品的轨迹跨过目标边界线前后，没有伴随有运动轨迹相似的人手轨迹，则判断第二物品没有完成交付。可选的，在又一些实现方式中，上述步骤S220中所描述的目标识别对象还包括目标类别的第二物品，方法还包括：判断第二物品的轨迹是否跨过目标边界线，若是，则进入下一步；判断在第二物品的轨迹跨过目标边界线前后，是否伴随有人手，若是，则判断第二物品交付完毕。其中，判断在第二物品的轨迹跨过目标边界线前后，是否伴随有人手，包括：判断在第二物品的轨迹跨过目标边界线前后，第二物品的轨迹对应的目标框的范围内存在人手关键点，其中，人手关键点可以但不限于包括以下一种或多种：手掌、手掌、或者指关节。对目标边界线的确定方式不作限定。在一些实现方式中，目标边界线为对视频帧进行人工标注获得的边界线；或者，在另一些实现方式中，目标边界线为利用检测模型对视频帧进行线条检测获得的，其中，检测模型是通过第三训练获得的检测模型。在目标边界线为利用检测模型确定的情况下，还可以提供处理效率，以及降低人工部署的成本。下文中的图7详细介绍了获取检测模型的模型训练方法，此处未详细赘述的内容可以参见下文图7中的相关描述。示例性的，以下结合图5举例描述上述判断第二物品的轨迹跨过目标边界线的过程。参见图5，人手A从图5中的(a)示出的位置先运动至图5中的(b)示出的位置，再从图5中的(b)示出的位置运动至图5中的(c)示出的位置。第二物品从图5中的(a)示出的位置先运动至图5中的(b)示出的位置，再从图5中的(b)示出的位置运动至图5中的(c)示出的位置。从图5中的(a)至图5中的(c)示出的内容可以知，在第二物品的轨迹跨过目标边界线前后均有人手伴随，即在第二物品的轨迹跨过目标边界线前后均可以检测出人手关键点。

应理解的是，上述图2示出的物品交付确认的方法仅为示意，并不对本申请提供的物品交付确认的方法构成任何限定。例如，上述图2所描述的物品交付确认的实现方式中采用直接计数法，即对每个商品直接逐一计数。如果店面镜头安装角度较差，在装袋时人手或者单品可能遮挡严重，只有包装袋比较可见。如果袋子与单品存在明确的数量关系(例如咖啡店的大包装袋用于装两杯，小袋只装一杯)，可以只判断包装袋的跟踪轨迹上是否存在装袋状态，然后根据袋子数目推算单品数目，这实际上属于一种简化版的基于业务规则的间接计数法。

在本申请实施例中，对获取的目标场景的视频帧进行图像处理，获得该目标场景的视频帧中的第一物品的轨迹、人手轨迹和包装容器的轨迹。进一步，根据目标场景的视频帧中的第一物品的轨迹、人手轨迹和包装容器的轨迹确定第一物品是否交付完毕。实际应用中，目标场景中(例如，线下商场)均会安装有影像摄取设备，以记录目标场景内发生的各种事件，也就是说，可以复用目标场景已有的影像摄取设备对目标场景进行数据采集获得目标场景的视频帧，无需安装额外的设备，该方法通用性强。上述目标场景的视频帧可以是实时获取的，基于该视频帧获得的第一物品是否交付的结果的实时性强。影像摄取设备采集到目标场景的视频帧后直接传输给执行上述物品交付确认的方法的设备，这个过程中无需人为干预或配合，基于该目标场景的视频帧分析获得的物品交付结果的可靠性和真实性高，同时能够提升客户体验。另外，本申请实施例中还提出了基于多个影像摄取设备对应的多镜头融合的综合确认统计方案，通过时空融合来实现多镜头的去重和互补，基于此，该方法还适用于对复杂场景(例如，存在遮挡严重或者镜头点位不佳等条件下)的视频帧进行处理，这种场景下，获得的处理结果也具有较高的可靠性和准确性。在获得目标场景的视频帧对应的物品交付确认结果后，还可以对上述目标场景的视频帧和对应的物品交付确认的结果进行存档，提高了结果的可靠性和可溯性。上述物品交付确认的方法中，无需人工进行干预或配合，即该方法是一种数字化方法，该方法还有利于推动目标场景的数字化建设。综上，本申请实施例提供物品交付确认的方案，通用性和实时性强，物品交付确认结果的真实性、可靠性和可溯性高。

图6是本申请实施例提供的一种物品交付确认的方法的示意图。可以理解的是，该方法可以由具有计算能力的计算设备执行。例如，该计算设备可以但不限于是上述图1示出的计算设备130。如图6所示，该方法包括步骤S610至步骤S640。下面，对步骤S610至步骤S640进行介绍。

步骤S610，获取目标场景的视频帧。

步骤S620，根据视频帧，对其中的目标识别对象进行图像识别，并建立目标识别对象的运动轨迹；目标识别对象至少包括人手和目标类别的物品。

步骤S630，判断物品的轨迹是否跨过目标边界线，若是，则进入下一步。

步骤S640，判断在物品的轨迹跨过预设边界线前后，是否伴随有运动轨迹相似的人手轨迹，若是，则判断物品交付完毕。

上述步骤S610的实现原理与上述步骤S210的实现原理相同，此处未详细赘述的内容可以参见上文中对步骤S210的描述。

上述步骤S620的实现原理与上述步骤S220的实现原理类似，区别在于，上述步骤S220中的目标识别对象还包括包装容器，上述步骤S620中的目标识别对象可以不包括包装容器，此处未详细赘述的内容可以参见上文中对步骤S210的描述。

可选的，在一些实现方式中，判断物品的轨迹是否跨过目标边界线，若是，则进入下一步；判断在物品的轨迹跨过目标边界线前后，是否伴随有运动轨迹相似的人手轨迹，若是，则判断物品交付完毕。可选的，若判断在物品的轨迹跨过目标边界线前后，没有伴随有运动轨迹相似的人手轨迹，则判断物品没有完成交付。

可选的，在又一些实现方式中，判断物品的轨迹是否跨过目标边界线，若是，则进入下一步；判断在物品的轨迹跨过目标边界线前后，是否伴随有人手，若是，则判断物品交付完毕。其中，判断在物品的轨迹跨过目标边界线前后，是否伴随有人手，包括：判断在物品的轨迹跨过目标边界线前后，物品的轨迹对应的目标框的范围内存在人手关键点，其中，人手关键点可以但不限于包括以下一种或多种：手掌、手掌、或者指关节。对目标边界线的确定方式不作限定。在一些实现方式中，目标边界线为对视频帧进行人工标注获得的边界线；或者，在另一些实现方式中，目标边界线为利用检测模型对视频帧进行线条检测获得的，其中，检测模型是通过训练获得的检测模型。在目标边界线为利用检测模型确定的情况下，还可以提供处理效率，以及降低人工部署的成本。

应理解的是，上述图6示出的物品交付确认的方法仅为示意，并不对本申请提供的物品交付确认的方法构成任何限定。

在本申请实施例中，对获取的目标场景的视频帧进行图像处理，获得该目标场景的视频帧中的第一物品的轨迹和人手轨迹。进一步，根据目标场景的视频帧中的第一物品的轨迹和人手轨迹确定第一物品是否交付完毕。实际应用中，目标场景中(例如，线下商场)均会安装有影像摄取设备，以记录目标场景内发生的各种事件，也就是说，可以复用目标场景已有的影像摄取设备对目标场景进行数据采集获得目标场景的视频帧，无需安装额外的设备，该方法通用性强。上述目标场景的视频帧可以是实时获取的，基于该视频帧获得的第一物品是否交付的结果的实时性强。影像摄取设备采集到目标场景的视频帧后直接传输给执行上述物品交付确认的方法的设备，这个过程中无需人为干预或配合，基于该目标场景的视频帧分析获得的物品交付结果的可靠性和真实性高，同时能够提升客户体验。另外，本申请实施例中还提出了基于多个影像摄取设备对应的多镜头融合的综合确认统计方案，通过时空融合来实现多镜头的去重和互补，基于此，该方法还适用于对复杂场景(例如，存在遮挡严重或者镜头点位不佳等条件下)的视频帧进行处理，这种场景下，获得的处理结果也具有较高的可靠性和准确性。在获得目标场景的视频帧对应的物品交付确认结果后，还可以对上述目标场景的视频帧和对应的物品交付确认的结果进行存档，提高了结果的可靠性和可溯性。上述物品交付确认的方法中，无需人工进行干预或配合，即该方法是一种数字化方法，该方法还有利于推动目标场景的数字化建设。综上，本申请实施例提供物品交付确认的方案，通用性和实时性强，物品交付确认结果的真实性、可靠性和可溯性高。

下面，介绍上文提供的物品交付确认的方法中涉及的模型的训练流程。具体来说，上文所述的物品交付确认的方法中涉及的模型包括：状态分类模型、识别模型、目标识别对象指纹提取模型、人体识别模型、人手识别模型和检测模型。

图7是本申请实施例提供的一种模型训练方法的示意图。可以理解的是，该方法可以由训练设备执行。如图7所示，该方法包括步骤S710至步骤S740。下面，对步骤S710至步骤S740进行介绍。

步骤S710，获取训练样本和训练样本的标注信息。

在图7所描述的模型训练方法用于训练获得状态分类模型的情况下，训练样本为包括装袋动作的训练图像(即正样本)。相应的，训练样本的标注信息为属于装袋动作。可选的，训练样本还可以为不包括装袋动作的训练图像(即负样本)。相应的，训练样本的标注信息为不属于装袋动作。

在图7所描述的模型训练方法用于训练获得识别模型的情况下，训练样本为包括多种类别的目标物品。相应的，训练样本的标注信息为每种类别。对识别模型的结构不作具体限定。示例性的，识别模型但不限于是Yolov5模型。

在图7所描述的模型训练方法用于训练获得目标识别对象指纹提取模型的情况下，训练样本为包括目标识别对象类别的训练图像。相应的，训练样本的标注信息为目标识别对象的类别标签。可选的，训练样本还可以为不包括目标类别识别对象的训练图像(即负样本)。相应的，训练样本的标注信息为不包括目标识别对象的类别标签。对指纹提取模型的结构不作具体限定。示例性的，指纹提取模型可以但不限于是resnet18模型。

在图7所描述的模型训练方法用于训练获得人体识别模型的情况下，训练样本为包括人体的训练图像(即正样本)。相应的，训练样本的标注信息为人体。可选的，训练样本还可以为不包括人体的训练图像(即负样本)。相应的，训练样本的标注信息为不是人体。对人体识别模型的结构不作具体限定。示例性的，人体识别模型可以但不限于是Yolov5模型。

在图7所描述的模型训练方法用于训练获得人手识别模型的情况下，训练样本为包括人手的训练图像(即正样本)。相应的，训练样本的标注信息为人手。可选的，训练样本还可以为不包括人手的训练图像(即负样本)。相应的，训练样本的标注信息为不是人手。对人手识别模型的结构不作具体限定。示例性的，人手识别模型可以但不限于是HRNet模型。

在图7所描述的模型训练方法用于训练获得检测模型的情况下，训练样本为包括目标边界线的训练图像(即正样本)。相应的，训练样本的标注信息为目标边界线。可选的，训练样本还可以为不包括目标边界线的训练图像(即负样本)。相应的，训练样本的标注信息为不是目标边界线。对检测模型的结构不作具体限定。示例性的，检测模型可以但不限于是卷积神经网络(convolutional neural networks,CNNs)

步骤S720，将训练样本输入至模型，获得模型输出结果。

步骤S730，根据训练样本的标注信息和模型的输出结果之间的差异，对模型进行训练。

在一些实现方式中，可以利用损失函数表示训练样本的标注信息和模型的输出结果之间的差异。通过调整模型的参数，以最小化损失函数。对损失函数的类型不作具体限定，例如损失函数可以是交叉熵函数。

步骤S740，待训练达到预设训练条件时，停止对模型的训练，获得训练后的模型。

对预设训练条件不作具体限定，可以根据实际需求进行选取。在一些实现方式中，上述步骤S740所描述的预设训练条件包括以下任意一种条件：对所述模型的训练次数大于预设训练次数、所述模型的输出结果对应的损失值在预设误差范围内、或者所述模型的输出结果达到预设识别精度。其中，所述预设训练次数、预设误差范围和预设识别精度可以根据实际需求进行选取，本申请实施例对此不作具体限定。

应理解上述图7示出的模型训练的方法仅为示意，并不对本申请实施例提供的物品交付确认的方法中所利用的模型的训练方法构成限定。

下面，结合图8介绍本申请提供的另一种物品交付确认的方法。可以理解的是，图8所述描述的物品交付确认的方法为上述图2所描述的方法的一个具体示例。具体来说，图8所描述的方法，是以上述图2所描述的方法中的目标场景为商铺中售货员所在区域，以上述图2所描述的目标场景的视频帧为图像序列，以上述图2所描述的第一物品为商品，以上述图2所描述的目标边界线是第一边界线，以及以上述图2所描述的目标识别对象包括人手、物品和放置物品的桌面为例进行描述的。

图8是本申请实施例提供的一种物品交付确认的方法的示意图。应理解，图8的例子仅仅是为了帮助本领域技术人员理解本申请实施例，而非要将申请实施例限制于所示例的具体数值或具体场景。本领域技术人员根据下面所给出的图8的例子，显然可以进行各种等价的修改或变化，这样的修改和变化也落入本申请实施例的范围内。图8示出的方法可以但不限于由上述图1A中的计算设备130执行。如图8所示，该方法包括S801至S808。下面，对S801至S808进行介绍。

S801，获取图像序列，图像序列是对预设时间段内售货员所在区域进行图像采集获得的，图像序列包括的多张图像中的每张图像包括商品、人手和用于放置商品的平面。

S802，分别对每张图像中的商品、人手和用于放置商品的平面进行识别，获得每张图像包括的商品所在区域、人手所在区域、用于放置商品的平面的第一边界线所在区域。

S803，对每张图像包括的商品所在区域进行特征提取，获得商品所在区域的特征指纹。

S804，根据图像序列包括的多张图像中的每张图像中的商品所在区域的特征指纹对商品的运动轨迹进行追踪，获得商品在预设时间段内的运动轨迹。

S805，判断商品在预设时间段内的运动轨迹是否跨过第一边界线。

其中，执行上述S805后，判断商品在预设时间段内的运动轨迹没有跨过第一边界线，则在执行上述S805后继续执行S808；执行上述S805后，判断商品在预设时间段内的运动轨迹跨过第一边界线，则在执行上述S805后继续执行S806。

S806，判断商品在预设时间段内的运动轨迹跨过第一边界线前后，是否存在人手伴随。

其中，执行上述S806后，判断存在人手伴随，则在执行上述S806后继续执行S807；执行上述S806后，判断不存在人手伴随，则在执行上述S806后继续执行S808。

S807，确定商品在预设时间段内售出。

可以理解的是，当确认商品在预设时间段内被售出后，该预设时间段内的销售量包括对该商品进行统计获得的结果。

S808，确定商品在预设时间段内未售出。

可以理解的是，当确认商品在预设时间段内未被售出，该预设时间段内的销售量不包括对该商品进行统计获得的结果。

可以理解的是，上述S801至S808中未详细赘述的内容，可以参见上文中图2所描述的方法中对应内容的介绍。

下面，结合图9介绍本申请提供的另一种物品交付确认的方法。可以理解的是，图9所述描述的物品交付确认的方法为上述图6所描述的方法的一个具体示例。具体来说，图9所描述的方法，是以上述图6所描述的方法中的目标场景为商铺中售货员所在区域，以上述图6所描述的目标场景的视频帧为图像序列，以上述图6所描述的第一物品为商品，以上述图6所描述的目标边界线是第一边界线，以及以上述图6所描述的目标识别对象包括人手、包装袋、物品和放置物品的桌面为例进行描述的。

图9是本申请实施例提供的一种物品交付确认的方法的示意图。应理解，图9的例子仅仅是为了帮助本领域技术人员理解本申请实施例，而非要将申请实施例限制于所示例的具体数值或具体场景。本领域技术人员根据下面所给出的图9的例子，显然可以进行各种等价的修改或变化，这样的修改和变化也落入本申请实施例的范围内。图9示出的方法可以但不限于由上述图1A中的计算设备130执行。如图9所示，该方法包括S901至S910。下面，对S901至S910进行介绍。

S901，获取图像序列，图像序列是对预设时间段内售货员所在区域进行图像采集获得的，图像序列包括的多张图像中的每张图像包括商品、人手、包装袋和桌面。

S902，分别对每张图像中的商品、人手和用于放置商品的平面进行识别，获得每张图像包括的商品所在区域、人手所在区域、包装袋所在区域、桌面所在区域。

S903，对每张图像包括的商品所在区域进行特征提取，获得商品所在区域的特征指纹；对每张图像包括的包装袋所在区域进行特征提取，获得商品所在区域的特征指纹。

S904，根据图像序列包括的多张图像中的每张图像中的商品所在区域的特征指纹对商品的运动轨迹进行追踪，获得商品在预设时间段内的运动轨迹；以及根据图像序列包括的多张图像中的每张图像中的包装袋所在区域的特征指纹对包装袋的运动轨迹进行追踪，获得包装袋在预设时间段内的运动轨迹。

S905，判断商品的运动轨迹是否与包装袋的运动迹接近并最终重合或者消失。

其中，执行上述S905后，判断轨迹接近并最终重合或消失，则在执行上述S905后继续执行S906；执行上述S905后，判断不存在轨迹接近并最终重合或消失，则在执行上述S905后继续执行S908。

S906，判断在商品的运动轨迹与包装袋的运动轨迹接近的过程中，是否存在人手伴随。

其中，执行上述S906后，若判断结果无法确定，则在执行上述S906后可以继续执行S909和S910；或者，执行上述S906后，若判断结果为是，则在执行上述S906后可以继续执行S907；执行上述S906后，判断不存在人手伴随，则在执行上述S906后继续执行S908。

S907，确定商品在预设时间段内售出。

S908，确定商品在预设时间段内未售出。

S909，利用多分类模型对图像序列包括的多张图像中的每张图像包括的包装袋和人手所在区域进行装袋识别，获得多个识别结果，每个识别结果为属于装袋状态或不属于装袋状态。

其中，多分类模型与上述图2所描述的方法中的状态分类模型的作用相同。

S910，判断多个识别结果对应的属于装袋状态的次数是否大于或等于预设阈值。

其中，若判断多个识别结果对应的属于装袋状态的次数是大于或等于预设阈值，执行上述S910后执行S907；或者，若判断多个识别结果对应的属于装袋状态的次数是小于预设阈值，执行上述S910后执行S908。

可以理解的是，上述S901至S910中未详细赘述的内容，可以参见上文中图6所描述的方法中对应内容的介绍。

上文结合图1至图9描述了本申请实施例提供的物品交付确认的方法的应用场景、系统、物品交付确认的方法、以及模型训练的方法。下面，结合图10至图13，描述本申请实施例的装置和设备。应理解，物品交付确认的方法、模型训练的方法的描述与装置和设备实施例的描述相互对应，因此，未详细描述的部分可以参见上文的相关描述。

与本申请实施例提供的物品交付确认的方法对应的，本申请实施例提供一种物品交付确认的装置。

图10是本申请实施例提供的一种物品交付确认的装置的结构示意图。如图10所示，该装置包括获取单元1001和处理单元1002，

获取单元1001，用于获取目标场景的视频帧；处理单元1002用于：根据所述视频帧，对其中的目标识别对象进行图像识别，并建立目标识别对象的运动轨迹；所述目标识别对象至少包括人手、目标类别的第一物品以及包装容器；所述处理单元1002还用于：判断所述第一物品的轨迹是否与所述包装容器的轨迹接近并最终重合或者消失，若是，则进入下一步；所述处理单元1002还用于：判断在所述第一物品的轨迹与所述包装容器的轨迹接近的过程中，是否伴随有运动轨迹相似的人手轨迹，若是，则判断所述第一物品交付完毕。

可选的，在一些实现方式中，所述处理单元1002还用于：在所述第一物品消失前后的预定时间段内的视频帧中，选择包括人手、包装容器的区域作为目标区域；利用经过训练的状态分类模型，对所述视频帧包括的目标区域进行运动状态识别，判断是否属于装袋动作；若是，则判断所述第一物品交付完毕。

可选的，在另一些实现方式中，所述处理单元1002还用于：所述对所述视频帧包括的目标区域进行运动状态识别，判断是否属于装袋动作的步骤中，所述第一物品消失前后的预定时间段内的视频帧包括多张，若在所述视频帧中，判断属于装袋动作的次数达到预定的次数，则判断所述第一物品交付完毕。

可选的，在另一些实现方式中，所述视频帧包括至少一张第一帧图像和至少一张第二帧图像；所述第一帧图像包括的所述第一物品对应的目标框，与所述第二帧图像包括的所述包装容器对应的目标框不存在重叠；所述第二帧图像包括的所述第一物品对应的目标框，与所述第二帧图像包括的所述包装容器对应的目标框的重叠程度大于第一阈值；所述处理单元1002还用于：确定所述目标识别对象位于所述第一帧图像中的第一位置，以及所述目标识别对象位于所述第二针图像中的第二位置，其中，所述第一位置与所述第二位置不同；通过具有时间顺序关系的视频帧，获得所述目标识别对象从所述第一位置运动到所述第二位置的轨迹，将所述轨迹确定为所述目标识别对象的运动轨迹，其中，所述第一位置为所述目标识别对象的运动轨迹的起始位置，所述第二位置为所述目标识别对象的运动轨迹的终止位置。

可选的，在另一些实现方式中，所述处理单元1002还用于：利用识别模型对所述第一帧图像中的目标识别对象进行识别，获得所述第一位置；以及，利用所述识别模型对所述第二帧图像中的目标识别对象进行识别，获得所述第二位置；其中，所述识别模型是通过第二训练获得的针对多类目标的检测模型。

可选的，在另一些实现方式中，所述处理单元1002还用于：利用识别模型对所述第一帧图像中的目标识别对象进行识别后，进一步采用预先训练获得目标识别对象指纹提取模型，提取具体的目标识别对象指纹；所述通过具有时间顺序关系的视频帧，获得所述目标识别对象从所述第一位置运动到所述第二位置的轨迹的过程中，依据所述目标识别对象指纹，对同类的目标识别对象进行个体区分。

可选的，在另一些实现方式中，所述处理单元1002还用于：在所述第一物品的轨迹的终止位置对应的目标框与所述包装容器的轨迹的终止位置对应的目标框的重叠程度大于第一阈值的情况下，确定所述第一物品的轨迹与所述包装容器的轨迹接近并最终重合或消失。

可选的，在另一些实现方式中，所述处理单元1002还用于：在所述第一物品的轨迹与所述包装容器的轨迹接近的过程中的任意时刻，如果所述人手轨迹对应的目标框与所述第一物品的轨迹对应的目标框的重叠程度大于第二阈值，确定伴随有运动轨迹相似的人手轨迹。

可选的，在另一些实现方式中，所述处理单元1002还用于：采用经过专门训练的人手识别模型，对视频帧中的人手进行检测识别，所述人手识别模型首先识别视频帧包含的人体，然后从视频帧中截取的人体进一步识别人手。

可选的，在另一些实现方式中，所述目标识别对象还包括所述目标类别的第二物品，所述处理单元1002还用于：判断所述第二物品的轨迹是否跨过目标边界线，若是，则进入下一步；判断在所述第二物品的轨迹跨过所述目标边界线前后，是否伴随有运动轨迹相似的人手轨迹，若是，则判断所述第二物品交付完毕。

可选的，在另一些实现方式中，所述视频帧来自一个以上的影像摄取设备；所述处理单元1002还用于：对于多个影像视频设备获得视频帧，进行时空融合后，再进一步获得目标识别对象的运动轨迹。

可选的，在另一些实现方式中，所述处理单元1002还用于：对于所述视频帧中的属于不同类别的目标识别对象，相互之间不做融合；在所述视频帧中出现的时间段不存在重合的目标识别对象，相互之间不做融合；针对不同影像摄取设备的视频帧中，相同时刻出现，并且经过对视频帧的空间转换后，判断所处的空间位置相同的同类目标识别对象，识别为同一个目标识别对象。

可选的，在另一些实现方式中，所述处理单元1002还用于：根据预先获得的设备位置关系，获得对不同影像摄取设备的视频帧进行空间转换的空间转换参数；使用所述空间转换参数，对不同影像摄取设备在属于相同时间区间获得的视频帧中的同类目标识别对象进行空间转换；在所述空间转换后，若所述同类目标识别对象的目标框底点位置处于预定的阈值范围内，则判断所述同类目标识别对象实际为同一目标识别对象。

与本申请实施例提供的模型训练的方法对应的，本申请实施例提供一种训练装置。

图11是本申请实施例提供的一种训练装置的结构示意图。如图11所示，该训练装置包括训练单元1101，该训练单元1101用于执行上述图7所描述的模型训练的方法中所涉及的各个步骤。

与本申请实施例提供的物品交付确认的方法对应的，本申请实施例提供一种物品交付确认的设备。

图12是本申请实施例提供的一种物品交付确认的设备的结构示意图。如图12所示，物品交付确认的设备包括：存储器1201、处理器1202、通信接口1203以及通信总线1204。其中，存储器1201、处理器1202、通信接口1203通过通信总线1204实现彼此之间的通信连接。

存储器1201可以是只读存储器(read only memory，ROM)，静态存储设备，动态存储设备或者随机存取存储器(random access memory，RAM)。存储器1201可以存储程序，当存储器1201中存储的程序被处理器1202执行时，处理器1202和通信接口1203用于执行本申请实施例的物品交付确认的方法的各个步骤。

处理器1202可以采用通用的中央处理器(central processing unit，CPU)，微处理器，应用专用集成电路(application specific integrated circuit，ASIC)，图形处理器(graphics processing unit，GPU)或者一个或多个集成电路，用于执行相关程序，以实现本申请实施例的物品交付确认的装置中的单元所需执行的功能，或者执行本申请方法实施例的物品交付确认的方法。

处理器1202还可以是一种集成电路芯片，具有信号的处理能力。在实现过程中，本申请的物品交付确认的方法的各个步骤可以通过处理器1202中的硬件的集成逻辑电路或者软件形式的指令完成。上述的处理器1202还可以是通用处理器、数字信号处理器(digital signal processing，DSP)、专用集成电路(application specific integratedcircuit，ASIC)、现成可编程门阵列(field programmable gate array，FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。可以实现或者执行本申请实施例中的公开的各方法、步骤及逻辑框图。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。结合本申请实施例所公开的方法的步骤可以直接体现为硬件译码处理器执行完成，或者用译码处理器中的硬件及软件模块组合执行完成。软件模块可以位于随机存储器，闪存、只读存储器，可编程只读存储器或者电可擦写可编程存储器、寄存器等本领域成熟的存储介质中。该存储介质位于存储器1201，处理器1202读取存储器1201中的信息，结合其硬件完成本申请实施例的物品交付确认的装置中包括的单元所需执行的功能，或者执行本申请方法实施例的物品交付确认的方法。

通信接口1203使用例如但不限于收发器一类的收发装置，来实现图12所示的电子设备与其他设备或通信网络之间的通信。例如，可以通过通信接口1203发送目标场景的视频帧。

通信总线1204可包括在图12所示的电子设备各个部件(例如，存储器1201、处理器1202、通信接口1203)之间传送信息的通路。

与本申请实施例提供的模型训练的方法对应的，本申请实施例提供一种训练设备。

图13是本申请实施例提供的一种训练设备的结构示意图，训练设备1300上可以部署有图11所描述的训练装置，用于实现上文中图7所描述的模型训练的方法的各个步骤。具体的，训练设备1300由一个或多个服务器实现，训练设备1300可因配置或性能不同而产生比较大的差异，可以包括一个或一个以上中央处理器(central processing units，CPU)1322(例如，一个或一个以上处理器)和存储器1332，一个或一个以上存储应用程序1342或数据1344的存储介质1330(例如一个或一个以上海量存储设备)。其中，存储器1332和存储介质1330可以是短暂存储或持久存储。存储在存储介质1330的程序可以包括一个或一个以上模块(图示没标出)，每个模块可以包括对训练设备中的一系列指令操作。更进一步地，中央处理器1322可以设置为与存储介质1330通信，在训练设备1300上执行存储介质1330中的一系列指令操作。

训练设备1300还可以包括一个或一个以上电源1326，一个或一个以上有线或无线网络接口1350，一个或一个以上输入输出接口1358，和/或，一个或一个以上操作系统1341，例如Windows ServerTM，Mac OS XTM，UnixTM，LinuxTM，FreeBSDTM等等。

本申请实施例还提供一种存储介质，所述存储介质存储有程序，所述程序被处理器执行，用于实现上述物品交付确认的方法。

本申请实施例还提供一种存储介质，所述存储介质存储有程序，所述程序被处理器执行，用于实现上述模型训练的方法。

需要说明的是，尽管在上文详细描述中提及了用于动作执行的若干模块或者单元，但是这种划分并非强制性的。实际上，根据本申请的具体实施方式，上文描述的两个或更多模块或者单元的特征和功能可以在一个模块或者单元中具体化。反之，上文描述的一个模块或者单元的特征和功能可以进一步划分为由多个模块或者单元来具体化。

此外，尽管在附图中以特定顺序描述了本申请中方法的各个步骤，但是，这并非要求或者暗示必须按照该特定顺序来执行这些步骤，或是必须执行全部所示的步骤才能实现期望的结果。附加的或备选的，可以省略某些步骤，将多个步骤合并为一个步骤执行，以及/或者将一个步骤分解为多个步骤执行等。

应当注意，本申请的实施方式可以通过硬件、软件或者软件和硬件的结合来实现。硬件部分可以利用专用逻辑来实现；软件部分可以存储在存储器中，由适当的指令执行系统，例如微处理器或者专用设计硬件来执行。本领域的普通技术人员可以理解上述的设备和方法可以使用计算机可执行指令和/或包含在处理器控制代码中来实现，例如在诸如磁盘、CD或DVD-ROM的载体介质、诸如只读存储器(固件)的可编程的存储器或者诸如光学或电子信号载体的数据载体上提供了这样的代码。本申请的设备及其模块可以由诸如超大规模集成电路或门阵列、诸如逻辑芯片、晶体管等的半导体、或者诸如现场可编程门阵列、可编程逻辑设备等的可编程硬件设备的硬件电路实现，也可以用由各种类型的处理器执行的软件实现，也可以由上述硬件电路和软件的结合例如固件来实现。

以上所述，仅为本申请的具体实施方式，但本申请的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本申请揭露的技术范围内，凡在本申请的精神和原则之内所作的任何修改、等同替换和改进等，都应涵盖在本申请的保护范围之内。

Claims

1.一种物品交付确认的方法，其特征在于，包括：

获取目标场景的视频帧；

根据所述视频帧，对其中的目标识别对象进行图像识别，并建立目标识别对象的运动轨迹；所述目标识别对象至少包括人手、目标类别的第一物品以及包装容器；

判断所述第一物品的轨迹是否与所述包装容器的轨迹接近并最终重合或者消失，若是，则进入下一步；

判断在所述第一物品的轨迹与所述包装容器的轨迹接近的过程中，是否伴随有运动轨迹相似的人手轨迹，若是，则判断所述第一物品交付完毕。

2.根据权利要求1所述的方法，其特征在于，所述判断在第一物品的轨迹与所述包装容器的轨迹接近的过程中，是否伴随有运动轨迹相似的人手轨迹的判断中，若判断结果为无法确定，则在确定伴随有运动轨迹进一步执行以下操作：

在所述第一物品消失前后的预定时间段内的视频帧中，选择包括人手、包装容器的区域作为目标区域；

利用经过训练的状态分类模型，对所述视频帧包括的目标区域进行运动状态识别，判断是否属于装袋动作；

若是，则判断所述第一物品交付完毕。

3.根据权利要求2所述的方法，其特征在于，所述对所述视频帧包括的目标区域进行运动状态识别，判断是否属于装袋动作的步骤中，所述第一物品消失前后的预定时间段内的视频帧包括多张，若在所述视频帧中，判断属于装袋动作的次数达到预定的次数，则判断所述第一物品交付完毕。

4.根据权利要求1至3任一项所述的方法，其特征在于，所述视频帧包括至少一张第一帧图像和至少一张第二帧图像；所述第一帧图像包括的所述第一物品对应的目标框，与所述第一帧图像包括的所述包装容器对应的目标框不存在重叠；所述第二帧图像包括的所述第一物品对应的目标框，与所述第二帧图像包括的所述包装容器对应的目标框的重叠程度大于第一阈值；

所述根据所述视频帧，对其中的目标识别对象进行图像识别，并建立目标识别对象的运动轨迹，包括：

确定所述目标识别对象位于所述第一帧图像中的第一位置，以及所述目标识别对象位于所述第二帧图像中的第二位置，其中，所述第一位置与所述第二位置不同；

通过具有时间顺序关系的视频帧，获得所述目标识别对象从所述第一位置运动到所述第二位置的轨迹，将所述轨迹确定为所述目标识别对象的运动轨迹，其中，所述第一位置为所述目标识别对象的运动轨迹的起始位置，所述第二位置为所述目标识别对象的运动轨迹的终止位置。

5.根据权利要求4所述的方法，其特征在于，所述方法还包括：

利用识别模型对所述第一帧图像中的目标识别对象进行识别，获得所述第一位置；以及，

利用所述识别模型对所述第二帧图像中的目标识别对象进行识别，获得所述第二位置；

其中，所述识别模型是通过第二训练获得的针对多类目标的检测模型。

6.根据权利要求5所述的方法，其特征在于，

利用识别模型对所述第一帧图像中的目标识别对象进行识别后，进一步采用预先训练获得目标识别对象指纹提取模型，提取具体的目标识别对象指纹；

所述通过具有时间顺序关系的视频帧，获得所述目标识别对象从所述第一位置运动到所述第二位置的轨迹的过程中，依据所述目标识别对象指纹，对目标识别对象进行个体区分。

7.根据权利要求1至3任一项所述的方法，其特征在于，所述判断所述第一物品的轨迹是否与所述包装容器的轨迹接近并最终重合或者消失，包括：

在所述第一物品的轨迹的终止位置对应的目标框与所述包装容器的在第一物品的轨迹终止时刻对应的目标框的重叠程度大于第一阈值的情况下，确定所述第一物品的轨迹与所述包装容器的轨迹接近并最终重合或消失。

8.根据权利要求1至3任一项所述的方法，其特征在于，所述判断在第一物品的轨迹与所述包装容器的轨迹接近的过程中，是否伴随有运动轨迹相似的人手轨迹，包括：

在所述第一物品的轨迹与所述包装容器的轨迹接近的过程中的任意时刻，如果所述人手轨迹对应的目标框与所述第一物品的轨迹对应的目标框的重叠程度大于第二阈值，确定伴随有运动轨迹相似的人手轨迹。

9.根据权利要求8所述的方法，其特征在于，采用经过专门训练的人手识别模型，对视频帧中的人手进行检测识别，所述人手识别模型首先识别视频帧包含的人体，然后从视频帧中截取的人体进一步识别人手。

10.根据权利要求1至3任一项所述的方法，其特征在于，所述目标识别对象还包括所述目标类别的第二物品，所述方法还包括：

判断所述第二物品的轨迹是否跨过目标边界线，若是，则进入下一步；

判断在所述第二物品的轨迹跨过所述目标边界线前后，是否伴随有运动轨迹相似的人手轨迹，若是，则判断所述第二物品交付完毕。

11.根据权利要求10所述的方法，其特征在于，

所述目标边界线为对所述视频帧进行人工标注获得的边界线；或者，

所述目标边界线为利用检测模型对所述视频帧进行线条检测获得的，其中，所述检测模型是通过第三训练获得的检测模型。

12.根据权利要求1所述的方法，其特征在于，所述视频帧来自一个以上的影像摄取设备；

所述根据所述视频帧，对其中的目标识别对象进行图像识别，并建立目标识别对象的运动轨迹的步骤中，对于多个影像视频设备获得视频帧，进行时空融合后，再进一步获得目标识别对象的运动轨迹。

13.根据权利要求12所述的方法，其特征在于，针对所述不同影像摄取设备的视频帧中，采用如下方式进行时空融合：

对于所述视频帧中的属于不同类别的目标识别对象，相互之间不做融合；

在所述视频帧中出现的时间段不存在重合的目标识别对象，相互之间不做融合；

针对不同影像摄取设备的视频帧中，相同时刻出现，并且经过对视频帧的空间转换后，判断所处的空间位置相同的同类目标识别对象，识别为同一个目标识别对象。

14.根据权利要求13所述的方法，其特征在于，所述判断所处的空间位置相同的方法包括：

根据预先获得的设备位置关系，获得对不同影像摄取设备的视频帧进行空间转换的空间转换参数；

使用所述空间转换参数，对不同影像摄取设备在属于相同时间区间获得的视频帧中的同类目标识别对象进行空间转换；

在所述空间转换后，若所述同类目标识别对象的目标框底点位置处于预定的阈值范围内，则判断所述同类目标识别对象实际为同一目标识别对象。

15.一种物品交付确认的装置，其特征在于，包括：

获取单元，用于获取目标场景的视频帧；

处理单元用于：根据所述视频帧，对其中的目标识别对象进行图像识别，并建立目标识别对象的运动轨迹；所述目标识别对象至少包括人手、目标类别的第一物品以及包装容器；

所述处理单元还用于：判断所述第一物品的轨迹是否与所述包装容器的轨迹接近并最终重合或者消失，若是，则进入下一步；

所述处理单元还用于：判断在所述第一物品的轨迹与所述包装容器的轨迹接近的过程中，是否伴随有运动轨迹相似的人手轨迹，若是，则判断所述第一物品交付完毕。

16.一种电子设备，其特征在于，包括：

处理器；

存储器，用于存储计算机程序，该计算机程序被处理器运行，执行权利要求1至14任意一项所述的方法。

17.一种存储介质，其特征在于，所述存储介质存储有程序和数据，所述程序被处理器执行，用于实现权利要求1至14任一项所述的方法。