CN117671548A

CN117671548A - 异常分拣检测方法、装置、电子设备及存储介质

Info

Publication number: CN117671548A
Application number: CN202210979392.5A
Authority: CN
Inventors: 蔡文杰
Original assignee: SF Technology Co Ltd
Current assignee: SF Technology Co Ltd
Priority date: 2022-08-16
Filing date: 2022-08-16
Publication date: 2024-03-08
Also published as: WO2024037660A1

Abstract

本申请公开了一种异常分拣检测方法、装置、电子设备及存储介质，包括：获取分拣场地的目标视频；提取所述目标视频中的全局动作特征，以及所述目标视频中的远景动作特征，其中，所述远景动作特征中包含所述目标视频中的远景动作信息；根据所述全局动作特征和所述远景动作特征，确定所述分拣场地中的异常分拣区域。可见，本申请实施例提供的异常分拣检测方法同时根据全局动作特征和包含远景动作信息的远景动作特征，确定分拣场地中的异常分拣区域，可以增加远景动作信息的丰富性，尤其在分拣场地较大的情况下，全局动作特征中包含的动作信息较少，通过远景动作特征可以增强全局动作特征中的动作信息，提高异常分拣区域的检测准确性。

Description

异常分拣检测方法、装置、电子设备及存储介质

技术领域

本申请涉及物流分拣技术领域，具体涉及一种异常分拣检测方法、装置、电子设备及存储介质。

背景技术

暴力分拣动作检测这一任务非常困难。物流场景中，监控摄像头画面包含的场景很大，而具体抛扔的区域很小。另外，画面中也存在很多运动的物体，包括叉车、皮带运转的货物、人等，这使得基于人工设定规则的方法难以准确检测暴力分拣。目前应用较多的方法为基于深度学习的方法。基于深度学习的方法能够自动地学习暴力分拣的特征，从而免去人工设定规则。

然而，现有的基于深度学习的方法准确率不高，无法准确检测出现暴力分拣的区域。

发明内容

本申请提供一种异常分拣检测方法、装置、电子设备及存储介质，旨在解决目前的异常分拣检测方法检测不准确的问题。

第一方面，本申请提供一种异常分拣检测方法，包括：

获取分拣场地的目标视频；

提取所述目标视频中的全局动作特征，以及所述目标视频中的远景动作特征，其中，所述远景动作特征中包含所述目标视频中的远景动作信息；

根据所述全局动作特征和所述远景动作特征，确定所述分拣场地中的异常分拣区域。

在本申请一种可能的实现方式中，所述提取所述目标视频中的全局动作特征，以及所述目标视频中的远景动作特征，包括：

将所述目标视频中的视频帧按照预设的图像区域进行分块处理，得到各所述视频帧对应的图像块；

将对应同一图像区域的图像块按照时序进行排列，得到所述目标视频对应的多个图像块序列；

通过预设的自注意力模型对所述目标视频对应的多个图像块序列进行处理，得到所述目标视频中的全局动作特征；

对所述全局动作特征进行降采样处理，得到所述目标视频中包含远景动作信息的远景动作特征。

在本申请一种可能的实现方式中，所述通过预设的自注意力模型对所述目标视频对应的多个图像块序列进行处理，得到所述目标视频中的全局动作特征，包括：

对各所述图像块序列进行编码处理，得到每个图像块序列对应的编码特征；

对于每个编码特征，通过预设的自注意力模型，计算得到与除所述每个编码特征外其他编码特征之间的注意力权重；

根据所述每个编码特征对应的注意力权重，对各所述编码特征进行加权融合处理，得到全局动作特征。

在本申请一种可能的实现方式中，所述根据所述全局动作特征和所述远景动作特征，确定所述分拣场地中的异常分拣区域，包括：

融合所述全局动作特征和所述远景动作特征，得到所述目标视频的增强动作特征；

根据所述增强动作特征，确定所述分拣场地中的异常分拣区域。

在本申请一种可能的实现方式中，所述根据所述增强动作特征，确定所述分拣场地中的异常分拣区域，包括：

对所述增强动作特征进行预测处理，得到所述分拣场地中待筛选的初始分拣区域的第一位置；

获取所述分拣场地中包裹放置区域的第二位置；

若所述第一位置与所述第二位置之间的距离大于预设的距离阈值，则将所述初始分拣区域设定为异常分拣区域。

在本申请一种可能的实现方式中，所述根据所述全局动作特征和所述远景动作特征，确定所述分拣场地中的异常分拣区域之后，所述方法还包括：

将所述异常分拣区域与所述分拣场地中的预设分拣区域进行匹配，得到所述异常分拣区域所属的目标分拣区域，以及所述目标分拣区域对应的目标分拣线；

输出所述目标分拣线对应的告警信息至目标终端。

在本申请一种可能的实现方式中，所述获取分拣场地的目标视频，包括：

获取分拣场地中多个视频获取装置各自拍摄得到的第一初始视频和第二初始视频；

检测得到所述第一初始视频中的第一分拣线，以及所述第二初始视频中的第二分拣线；

若所述第一分拣线和所述第二分拣线中包含同一分拣线，并且在所述第一初始视频和所述第二初始视频中拍摄得到的所述同一分拣线均不完整，则对所述第一初始视频中的视频帧和所述第二初始视频中的视频帧进行拼接，得到拼接后的视频帧，以及由所述拼接后的视频帧构成的目标视频。

第二方面，本申请提供一种异常分拣检测装置，包括：

获取单元，用于获取分拣场地的目标视频；

提取单元，用于提取所述目标视频中的全局动作特征，以及所述目标视频中的远景动作特征，其中，所述远景动作特征中包含所述目标视频中的远景动作信息；

确定单元，用于根据所述全局动作特征和所述远景动作特征，确定所述分拣场地中的异常分拣区域。

在本申请一种可能的实现方式中，提取单元还用于：

在本申请一种可能的实现方式中，确定单元还用于：

获取所述分拣场地中包裹放置区域的第二位置；

在本申请一种可能的实现方式中，确定单元还用于：

输出所述目标分拣线对应的告警信息至目标终端。

在本申请一种可能的实现方式中，获取单元还用于：

第三方面，本申请还提供一种电子设备，电子设备包括处理器、存储器以及存储于存储器中并可在处理器上运行的计算机程序，处理器调用存储器中的计算机程序时执行本申请提供的任一种异常分拣检测方法中的步骤。

第四方面，本申请还提供一种存储介质，存储介质上存储有计算机程序，计算机程序被处理器执行时实现本申请提供的任一种异常分拣检测方法中的步骤。

综上所述，本申请实施例提供的异常分拣检测方法包括：获取分拣场地的目标视频；提取所述目标视频中的全局动作特征，以及所述目标视频中的远景动作特征，其中，所述远景动作特征中包含所述目标视频中的远景动作信息；根据所述全局动作特征和所述远景动作特征，确定所述分拣场地中的异常分拣区域。

可见，本申请实施例提供的异常分拣检测方法同时根据全局动作特征和包含远景动作信息的远景动作特征，确定分拣场地中的异常分拣区域，可以增加远景动作信息的丰富性，尤其在分拣场地较大的情况下，全局动作特征中包含的动作信息较少，通过远景动作特征可以增强全局动作特征中的动作信息，提高异常分拣区域的检测准确性。

附图说明

为了更清楚地说明本申请实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本申请实施例提供的异常分拣检测方法的应用场景示意图；

图2是本申请实施例中提供的异常分拣检测方法的一种流程示意图；

图3是本申请实施例中提供的检测模型的一种示意图；

图4是本申请实施例中提供的获取全局动作特征的一种流程示意图；

图5是本申请实施例中提供的预设的图像区域的一种示意图；

图6是本申请实施例中提供的图像块序列的一种示意图；

图7是本申请实施例中提供的检测模型的另一种示意图；

图8是本申请实施例中提供的获取异常分拣区域的一种流程示意图；

图9是本申请实施例中提供的输出告警信息的一种流程示意图；

图10是本申请实施例中提供的获取目标视频的一种流程示意图；

图11是本申请实施例中提供的第一初始视频和第二初始视频的一种流程示意图；

图12是本申请实施例中提供的异常分拣检测装置的一个实施例结构示意图；

图13是本申请实施例中提供的电子设备的一个实施例结构示意图。

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

在本申请实施例的描述中，需要理解的是，术语“第一”、“第二”仅用于描述目的，而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此，限定有“第一”、“第二”的特征可以明示或者隐含地包括一个或者更多个所述特征。在本申请实施例的描述中，“多个”的含义是两个或两个以上，除非另有明确具体的限定。

为了使本领域任何技术人员能够实现和使用本申请，给出了以下描述。在以下描述中，为了解释的目的而列出了细节。应当明白的是，本领域普通技术人员可以认识到，在不使用这些特定细节的情况下也可以实现本申请。在其它实例中，不会对公知的过程进行详细阐述，以避免不必要的细节使本申请实施例的描述变得晦涩。因此，本申请并非旨在限于所示的实施例，而是与符合本申请实施例所公开的原理和特征的最广范围相一致。

本申请实施例提供一种异常分拣检测方法、装置、电子设备和存储介质。其中，该异常分拣检测装置可以集成在电子设备中，该电子设备可以是服务器，也可以是终端等设备。

本申请实施例异常分拣检测方法的执行主体可以为本申请实施例提供的异常分拣检测装置，或者集成了该异常分拣检测装置的服务器设备、物理主机或者用户设备(UserEquipment，UE)等不同类型的电子设备，其中，异常分拣检测装置可以采用硬件或者软件的方式实现，UE具体可以为智能手机、平板电脑、笔记本电脑、掌上电脑、台式电脑或者个人数字助理(Personal Digital Assistant，PDA)等终端设备。

该电子设备可以采用单独运行的工作方式，或者也可以采用设备集群的工作方式。

参见图1，图1是本申请实施例所提供的异常分拣检测系统的场景示意图。其中，该异常分拣检测系统可以包括电子设备101，电子设备101中集成有异常分拣检测装置。

另外，如图1所示，该异常分拣检测系统还可以包括存储器102，用于存储数据，如存储文本数据。

需要说明的是，图1所示的异常分拣检测系统的场景示意图仅仅是一个示例，本申请实施例描述的异常分拣检测系统以及场景是为了更加清楚的说明本申请实施例的技术方案，并不构成对于本申请实施例提供的技术方案的限定，本领域普通技术人员可知，随着异常分拣检测系统的演变和新业务场景的出现，本发明实施例提供的技术方案对于类似的技术问题，同样适用。

下面，开始介绍本申请实施例提供的异常分拣检测方法，本申请实施例中以电子设备作为执行主体，为了简化与便于描述，后续方法实施例中将省略该执行主体，该异常分拣检测方法包括：获取分拣场地的目标视频；提取所述目标视频中的全局动作特征，以及所述目标视频中的远景动作特征，其中，所述远景动作特征中包含所述目标视频中的远景动作信息；根据所述全局动作特征和所述远景动作特征，确定所述分拣场地中的异常分拣区域。

参照图2，图2是本申请实施例提供的异常分拣检测方法的一种流程示意图。需要说明的是，虽然在流程图中示出了逻辑顺序，但是在某些情况下，可以以不同于此处的顺序执行所示出或描述的步骤。该异常分拣检测方法具体可以包括以下步骤201-步骤203，其中：

201、获取分拣场地的目标视频。

本申请实施例提供的异常分拣检测方法可用于物流快递领域，检测分拣场地中是否存在分拣员暴力分拣的情况，若存在暴力分拣的情况，则认为分拣场地中存在异常分拣。例如，本请实施例提供的异常分拣检测方法可以检测分拣员是否通过抛扔等易损坏包裹的动作，将包裹运输装置上的包裹分拣至包裹放置区域。

其中，分拣场地可以是指快递公司下属的分拣厂。

目标视频是指待检测的视频。示例性地，电子设备可以将视频获取装置拍摄的实时视频作为目标视频，检测当前分拣场地中是否存在异常分拣。例如，电子设备可以从视频获取装置上传至预设数据库的视频流中取帧，取帧的频率可以为每秒6帧，并在取到的帧数达到预设值时，将取到的视频帧组成目标视频。若取帧的频率可以为每秒6帧，并且预设值为6帧，则电子设备从上述视频流中获取对应时间戳与当前时间之间的时间差为1秒之内的视频帧，并从这些视频帧中随机选取6张视频帧，以这6张视频帧构成目标视频。若取帧的频率可以为每秒6帧，并且预设值为12帧，则电子设备从上述视频流中获取对应时间戳与当前时间之间的时间差为1秒之内的第一视频帧，并从第一视频帧中随机选取6张第二视频帧，然后从上述视频流中获取对应时间戳与当前时间之间的时间差为2秒至1秒的第三视频帧，并从第三视频帧中随机选取6张第四视频帧，以第二视频帧和第四视频帧构成目标视频。

其中，预设数据库可以是指快递公司后台用于存储视频的数据库。

其中，上述预设值可以根据实际场景进行设置，不能将上述例子中的值作为对本申请实施例的限制。

其中，视频获取装置可以是指安装在分拣场地中的摄像头等等。

在另一些实施例中，快递公司还可以通过本申请实施例提供的异常检测方法，对历史拍摄的视频进行检查，判断是否曾有分拣员存在暴力分拣的情况。例如，快递公司可以在每月的分拣员违规检查中通过本申请实施例提供的异常检测方法，判断是否曾有分拣员存在暴力分拣的情况。同样地，电子设备可以通过对历史视频进行取帧的方法试试本申请实施例提供的异常检测方法，具体不进行赘述。

202、提取所述目标视频中的全局动作特征，以及所述目标视频中的远景动作特征，其中，所述远景动作特征中包含所述目标视频中的远景动作信息。

其中，全局动作特征是指包含目标视频中所有分拣员的动作信息的时序特征。示例性地，电子设备可以通过预设的三维卷积神经网络(3D Convolutional NeuralNetwork)中的卷积层对目标视频进行处理，提取得到全局动作特征。

其中，三维卷积神经网络是一种通过三维卷积核提取特征的卷积神经网络，可以提取得到视频中的深度信息，在本申请实施例中，可以采用PoseC3D等等开源的三维卷积神经网络提取得到全局动作特征。

预设的三维卷积神经网络可以由初始的三维卷积神经网络训练得到。例如，可以通过以下方法训练初始的三维卷积神经网络：

获取携带动作标签的样本视频，其中，动作标签可以是指样本视频中分拣员的分拣动作类型，以及样本视频中分拣动作发生的区域，由人工进行标注得到。

通过初始的三维卷积神经网络中的卷积层提取样本视频中的时序特征，并通过初始的三维卷积神经网络中的全连接层，根据时序特征预测样本视频对应的预测动作类型。

根据预测动作类型和动作标签，对初始的三维卷积神经网络中的参数进行调整，得到预设的三维卷积神经网络。

通过步骤(1.1)-(1.3)，可以对初始的三维卷积神经网络中的卷积层进行训练，训练后的卷积层可以有效提取目标视频中的全局动作特征。

远景动作特征是指包含所述目标视频中的远景动作信息的时序特征。其中，远景动作信息是指远景区域在目标视频中对应的图像区域内，所包含的动作信息，远景区域是指与视频获取装置之间相距较远的分拣场地区域。

可以理解的，全局动作特征与远景动作特征之间的区别在于，全局动作特征中同时包括了远景动作信息和近景动作信息，而远景动作特征仅包含远景动作信息，全局动作特征中包含的动作信息种类更多。

同样地，电子设备可以通过三维卷积神经网络提取得到目标视频中的远景动作特征。具体的训练方法可以参考上文，将样本视频的动作标签更改为样本视频中分拣员的远景动作类型，以及样本视频中远景动作发生的区域即可。

203、根据所述全局动作特征和所述远景动作特征，确定所述分拣场地中的异常分拣区域。

异常分拣区域可以是指在分拣场地中发生异常分拣行为的区域，可以有一个，可以有多个。

电子设备可以将全局动作特征和远景动作特征融合后，根据融合得到的特征进行预测，得到目标视频中发生异常分拣行为的区域，然后根据目标视频的图像区域和分拣场地的场地区域之间的预设转换关系，得到异常分拣区域。

其中，预设转换关系可以是指在坐标转换关系，即在目标视频上建立图像坐标系，并在分拣场地上建立场地坐标系，然后将图像坐标系中的坐标与场地坐标系中的坐标之间的转换关系作为预设转换关系，然后存储在快递公司的后台数据库中，在执行步骤203时，电子设备从该后台数据库中读取得到预设转换关系。

可以理解的，将全局动作特征和远景动作特征融合的目的是提高远景动作信息的丰富性，进而可以增加异常分拣区域的检测准确性。由于分拣场地的场地较大，通常远景区域与视频获取装置之前相距较远，因此远景区域在目标视频中对应的图像区域较小，全局动作特征中包含的远景动作信息较少，若仅通过三维卷积神经网络提取全局动作特征，然后根据全局动作特征确定异常分拣区域，则在异常分拣区域为远景区域的一部分时，电子设备可能无法精确检测到该异常分拣区域。而将全局动作特征和远景动作特征融合后，可以提高远景动作信息的丰富性，因此可以提高异常分拣区域检测的准确性，特别适用于大场地的应用场景。

示例性地，步骤“根据所述全局动作特征和所述远景动作特征，确定所述分拣场地中的异常分拣区域”，可以包括：

(2.1)融合所述全局动作特征和所述远景动作特征，得到所述目标视频的增强动作特征。

增强动作特征是指将全局动作特征和远景动作特征融合后得到的特征，可以理解的，增强动作特征中包含丰富的远景动作信息，以及近景动作信息。

在一些实施例中，电子设备可以通过预设的特征金字塔网络(Feature PyramidNetwork，FPN)融合全局动作特征和远景动作特征，得到目标视频的增强动作特征。

其中，特征金字塔网络是一种可以融合多尺度特征的网络模型。

(2.2)根据所述增强动作特征，确定所述分拣场地中的异常分拣区域。

在一些实施例中，电子设备在执行步骤(2.2)时，可以通过预设的Faster R-CNN(Faster Region-Convolutional Neural Network)中的RPN层和预测层，根据增强动作特征，预测得到异常分拣区域。

其中，Faster R-CNN是一种通过生成候选框，并通过非极大值抑制对候选框进行检测和筛选，得到目标的神经网络，可以包括卷积层、RPN(Region Proposal Network)层和预测层。卷积层用于提取特征，RPN层用于生成候选框，并通过非极大值抑制对候选框进行检测和筛选，预测层可以由全连接层构成，用于根据筛选后候选框内包含的特征进行目标预测。

需要说明的是，由于在目标视频中出现暴力分拣行为的可能性不高，异常分拣区域的数量不多，因此若通过Faster R-CNN预测异常分拣区域，则在通过非极大值抑制对候选框进行筛选时，可以仅提取IoU(Intersection overUnion，交并比)最大的n个候选框，根据这n个候选框预测异常分拣区域。

其中，IoU用于判断候选框与异常分拣区域之间的重叠程度，IoU越大，候选框与异常分拣区域之间的重叠程度越高，IoU越小，候选框与异常分拣区域之间的重叠程度越低。

为了方便理解，图3示出了一种可以用于异常分拣检测的检测模型300，其中，检测模型300包括：

第一特征提取层301，可以由第一三维卷积神经网络的卷积层构成，用于提取全局动作特征；

第二特征提取层302，可以由第二三维卷积神经网络的卷积层构成，用于提取远景动作特征，可以理解的，第一三维卷积神经网络和第二三维卷积神经网络应当为不同的三维卷积神经网络；

特征融合层303，可以由特征金字塔网络构成，用于融合全局动作特征和远景动作特征，得到增强动作特征；

预测层304，可以由Faster R-CNN中的RPN(Region Proposal Network)层和预测层构成，用于根据增强动作特征预测异常分拣区域。

为了进一步提高异常分拣区域的检测准确性，在一些实施例中，可以通过自注意力机制，提取全局动作特征，并且在通过自注意力机制进行处理时，通过对视频帧进行分块的方式，降低自注意力的计算量。参考图4，此时，步骤“提取所述目标视频中的全局动作特征，以及所述目标视频中的远景动作特征”，包括：

401、将所述目标视频中的视频帧按照预设的图像区域进行分块处理，得到各所述视频帧对应的图像块。

视频帧对应的图像块可以是指对该视频帧进行裁剪后，得到的子图像。

示例性地，电子设备可以在目标视频中的视频帧上建立图像坐标系，然后根据预设的图像区域在图像坐标系上对应的坐标范围，对视频帧进行分块处理，得到对应的图像块，可以理解的，每个视频帧对应的图像块数量应当与预设的图像区域的数量相同。为了方便理解，图5中示出了一种分块处理的情况，假设在图5的例子中，预设的图像区域为4个相同大小的矩形区域，因此对视频帧501进行分块处理是指将视频帧501分为4个大小相同的矩形图像块，即图像块A、B、C和D。预设图像区域的数量和大小可以根据实际场景的需求进行设置，本申请实施例对此不进行限制。

需要说明的是，为了保证对后续对图像块进行自注意力处理时，不会提取到重复的信息，预设的图像区域之间不应当有重叠区域。以图5中的视频帧502为例，假设根据预设的图像区域进行划分后，视频帧502被分为4个图像块a、b、c和d，则a和b之间包含重叠区域e，因此不能按照本例中预设的图像区域对视频帧进行分块处理。

402、将对应同一图像区域的图像块按照时序进行排列，得到所述目标视频对应的多个图像块序列。

其中，按照时序进行排列是指：将对应同一图像区域的图像块按照各图像块对应的视频帧的时序进行排列。为了方便理解，参考图6，假设图6中预设的图像区域为4个相同大小的矩形区域，即对视频帧进行分块处理是指将视频帧分为4个大小相同的矩形图像块，并且目标视频中的视频帧共包含视频帧601、602、603，则视频帧601、602、603分块后可以分别得到图像块6011、6012、6013、6014、6021、6022、6023、6024、6031、6032、6033、6034，进行排序后，可以得到由图像块6011、6021、6031构成的第一图像块序列，由图像块6012、6022、6032构成的第二图像块序列，由图像块6013、6023、6033构成的第三图像块序列，由图像块6014、6024、6034构成的第四图像块序列。可以理解的，图像块序列的数量同样与预设的图像区域的数量相同。

403、通过预设的自注意力模型对所述目标视频对应的多个图像块序列进行处理，得到所述目标视频中的全局动作特征。

参考图7，图7中示出了另一种可以用于异常分拣检测的检测模型700，其中，检测模型700包括：

分块层701，用于对视频帧进行分块处理和排序处理，得到目标视频对应的多个图像块序列，例如，可以分块层701达到步骤401-步骤402的目的。示例性地，可以将swimtransformer模型中的Patch Partition模块作为分块层701。

编码层702，用于对每个图像块序列进行编码处理，得到每个图像块序列的特征，可以将swim transformer模型中的Linear Embedding模块作为编码层702。

自注意力层703，用于对每一个图像块序列进行自注意力处理，得到各图像块序列的注意力权重，并根据对应的注意力权重，对每一个图像块序列的特征进行加权融合，得到全局动作特征，可以将swim transformer模型中的Basic Layer模块作为自注意力层703。

降采样层704，用于对全局动作特征进行降采样处理，得到远景动作特征，可以将另一个与自注意力层703相连的Basic Layer模块作为降采样层704。

特征融合层705，可以由特征金字塔网络构成，用于融合全局动作特征和远景动作特征，得到增强动作特征。

预测层706，可以由Faster R-CNN中的RPN(Region Proposal Network)层和预测层构成，用于根据增强动作特征预测异常分拣区域。

其中，swim transformer是一种可以通过分块注意力提高计算速度的模型。

可见，电子设备可以调用训练好的检测模型700，通过训练好的检测模型700中的编码层702和自注意力层703实现步骤403的目的。一方面可以通过自注意力机制提高特征提取的准确性，另一方面通过分块的方式，降低自注意力机制所需要的计算量，在保证了准确性的同时实现了模型的轻量化。

为了方便理解，以下给出一种步骤403的具体实现方式，步骤“通过预设的自注意力模型对所述目标视频对应的多个图像块序列进行处理，得到所述目标视频中的全局动作特征”，包括：

(3.1)对各所述图像块序列进行编码处理，得到每个图像块序列对应的编码特征。

示例性地，电子设备可以调用训练好的检测模型700中的编码层702，实现步骤(3.1)的目的，将每一个图像序列输入编码层702，即可得到对应图像区域的编码特征。

(3.2)对于每个编码特征，通过预设的自注意力模型，计算得到与除所述每个编码特征外其他编码特征之间的注意力权重。

示例性地，电子设备可以调用训练好的检测模型700中的自注意力层703，实现步骤(3.2)的目的，在自注意力层703中，可以通过式子(1)-式子(4)计算得到每个编码特征对应的注意力权重：

Q_i＝W_qx_i式子(2)

K_i＝W_kx_i式子(3)

V_i＝W_vx_i式子(4)

其中，z_i是指第i个编码特征与除第i个编码特征外其他编码特征之间的注意力权重，j是指第j个其他编码特征，n是指编码特征的总数，即图像块序列的总数，x_i是指第i个编码向量，d_k是指K的维度，即W_k与编码向量乘积的向量维度，W_q、W_k、W_v均为预设的参数。

(3.3)根据所述每个编码特征对应的注意力权重，对各所述编码特征进行加权融合处理，得到全局动作特征。

示例性地，可以通过式子(5)得到全局动作特征：

其中，b是指全局动作特征，z_i是指第i个编码特征与除第i个编码特征外其他编码特征之间的注意力权重，x_i是指第i个编码向量，n是指编码特征的总数，即图像块序列的总数。

404、对所述全局动作特征进行降采样处理，得到所述目标视频中包含远景动作信息的远景动作特征。

在一些实施例中，可以调用训练好的检测模型700中的降采样层704，实现步骤404的目的。

由于远景区域在目标视频中对应的图像区域较小，全局动作特征中包含的远景动作信息较少，因此即使对全局动作特征进行降采样，去除全局动作特征中的远景动作信息的概率也相对较低，反而可以压缩其中与远景动作信息无关的其他信息，进而得到包含远景动作信息的远景动作特征。

可见，通过步骤401-404的方法，一方面可以通过自注意力机制，提取全局动作特征，并且在通过自注意力机制进行处理时，通过对视频帧进行分块的方式，降低自注意力的计算量。另一方面，相比检测模型300，步骤401-404中采用的检测模型700无需增加模型分支提取远景动作特征，而是可以直接对全局动作特征进行降采样，以得到远景动作特征，降低了检测模型的参数量和计算时间。此外，由于步骤401-404中通过降采样的方法得到远景动作特征，经过降采样后，全局特征特征和远景动作特征的尺度不同，因此检测模型700中采用能够融合不同尺度特征的特征金字塔网络作为特征融合层705，以融合全局特征特征和远景动作特征，保证特征融合时不会因为尺度不匹配导致增强动作特征中包含错误的信息。

为了避免误判，在一些实施例中还可以根据分拣员与包裹放置区域之间的区域，判断异常分拣动作的产生原因是否为分拣员与包裹放置区域过近。参考图8，此时，步骤“根据所述增强动作特征，确定所述分拣场地中的异常分拣区域”，包括：

801、对所述增强动作特征进行预测处理，得到所述分拣场地中待筛选的初始分拣区域的第一位置。

示例性地，电子设备可以调用训练好的检测模型700中的预测层706，实现步骤801的目的。此时，初始分拣区域是指分拣场地中，预测层706预测的包含异常分拣行为的分拣区域。其中，第一位置可以是指初始分拣区域在分拣场地中的位置。

802、获取所述分拣场地中包裹放置区域的第二位置。

包裹放置区域的说明可以参考步骤201中，具体不进行赘述。其中，第二位置可以是指包裹放置区域在分拣场地中的位置。

在一些实施例中，电子设备可以对开源的目标检测网络进行训练，得到区域检测网络，通过区域检测网络检测放置区域在目标视频的图像坐标系中对应的图像坐标，然后通过上文中的预设转换关系，将图像坐标系中的图像坐标转换至场地坐标系中的第二位置。例如，电子设备可以对YOLOv2进行训练，得到区域检测网络，通过区域检测网络检测放置区域在目标视频的图像坐标系中对应的图像坐标，然后通过上文中的预设转换关系，将图像坐标系中的图像坐标转换至场地坐标系中的第二位置。

其中，场地坐标系和图像坐标系的说明可以参考上文，具体不进行赘述。

其中，YOLOv2是一种通过卷积层和全连接层实现目标检测的网络。

803、若所述第一位置与所述第二位置之间的距离大于预设的距离阈值，则将所述初始分拣区域设定为异常分拣区域。

预设的距离阈值用于评估初始分拣区域与放置区域之间的距离大小。若第一位置与所述第二位置之间的距离小于或者等于预设的距离阈值，则说明初始分拣区域与放置区域之间相距较近，分拣员出现异常分拣动作的原因可能是考虑到包裹即使抛扔至放置区域，也因为相距较近而不会被损坏，而并非是分拣员没有考虑包裹安全，不将初始分拣区域作为异常分拣区域。若第一位置与所述第二位置之间的距离大于预设的距离阈值，则说明初始分拣区域与放置区域之间相距较远，分拣员出现异常分拣动作的原因是未考虑包裹安全，此时可以将初始分拣区域作为异常分拣区域。

其中，预设的距离阈值可以存储在快递公司的后台数据库中。

可见，通过步骤801-步骤803的方法，可以提高异常分拣区域的检测准确性，避免误判。

在一些实施例中，可以在得到异常分拣区域后，将异常分拣区域与分拣场地中各分拣线对应的预设区域进行匹配，确定异常分拣行为对应的分拣线，然后输出该分拣线对应的告警信息，方便分拣场地的管理人员进行管理。参考图9，此时，步骤“根据所述全局动作特征和所述远景动作特征，确定所述分拣场地中的异常分拣区域”之后，所述方法还包括：

901、将所述异常分拣区域与所述分拣场地中的预设分拣区域进行匹配，得到所述异常分拣区域所属的目标分拣区域，以及所述目标分拣区域对应的目标分拣线。

预设分拣区域是指分拣线对应的预设工作区域，当异常分拣行为发生在预设分拣区域时，说明作出异常分拣行为的分拣员为该预设分拣区域对应的分拣线的工作人员。

其中，预设分拣区域以及对应的分拣线可以存储在快递公司的后台数据库中。

示例性地，电子设备可以分别获取异常分拣区域和预设分拣区域在场地坐标系中的坐标区域，然后根据各自的坐标区域，从预设分拣区域中获取包含异常分拣区域的目标分拣区域，以及目标分拣区域对应的目标分拣线。

902、输出所述目标分拣线对应的告警信息至目标终端。

其中，告警信息可以包括文字信息、语音信息等等，本申请实施例对此不进行限制。

示例性地，电子设备可以根据目标分拣线，生成对应的告警信息。例如当告警信息为文字信息时，电子设备在确定目标分拣线后可以生成以“目标生产线出现暴力分拣行为”为例的文字信息，并将其发送至目标终端。

其中，目标终端可以是指智能手机、个人电脑、管理平台等等，本申请实施例对此不进行限制。例如，目标终端可以是指分拣场地的场地管理平台。

在一些实施例中，为了避免不同视频获取装置拍摄到同一分拣线时，视频中远景的图像内容不同，进而预测得到的同一分拣线的异常分拣结果不同，导致管理人员产生困惑，可以将多个视频获取装置拍摄的视频进行拼接，然后将拼接的视频作为目标视频。参考图10，此时，步骤“获取分拣场地的目标视频”，包括：

1001、获取分拣场地中多个视频获取装置各自拍摄得到的第一初始视频和第二初始视频。

其中，第一初始视频和第二初始视频可以是指分拣场地中部署的两个相邻视频获取装置所捕获的两段视频。例如，可以是指两个相邻摄像头所捕获的两端视频。需要说明的是，第一初始视频和第二初始视频的拍摄时间应当相同。

根据本申请实施例所要解决的技术问题可知，第一初始视频和第二初始视频内应当包含了分拣场地中至少一部分相同区域的信息(包含至少一条相同的分拣线的信息)。以通过两个相邻摄像头分别获取第一初始视频和第二初始视频为例进行说明，参考图11，在图11中，分拣场地1100内的区域1101为第一摄像头的图像捕获区域，区域1102为相邻的第二摄像头的图像捕获区域，因此分拣场地1100中的区域1103为同时被第一摄像头和第二摄像头捕获的分拣场地区域，第一初始视频和第二初始视频中会包含分拣场地中同一区域的信息。

1002、检测得到所述第一初始视频中的第一分拣线，以及所述第二初始视频中的第二分拣线。

示例性地，电子设备可以对开源的目标检测网络进行训练，得到分拣线检测网络，然后通过分拣线检测网络，检测得到第一分拣线和第二分拣线。例如，可以对YOLOv2进行训练，得到分拣线检测网络，然后通过分拣线检测网络，检测得到第一分拣线和第二分拣线。

其中，YOLOv2的说明可以参考上文，具体不进行赘述。

为了方便下面的步骤，可以将“完整分拣线”、“不完整分拣线”作为样本的标签，对开源的目标检测网络进行训练，进而分拣线检测网络输出的第一分拣线和第二分拣线会携带是否完整的信息。其中，一条分拣线不完整是指对应的视频中未拍摄到整条该分拣线。例如分拣线过长，对应的视频获取装置的视野内无法拍摄到整条该分拣线时，对于该视频获取装置拍摄得到的视频，该分拣线即为不完整分拣线。

1003、若所述第一分拣线和所述第二分拣线中包含同一分拣线，并且在所述第一初始视频和所述第二初始视频中拍摄得到的所述同一分拣线均不完整，则对所述第一初始视频中的视频帧和所述第二初始视频中的视频帧进行拼接，得到拼接后的视频帧，以及由所述拼接后的视频帧构成的目标视频。

示例性地，电子设备可以获取第一初始视频的图像坐标系中，第一分拣线的第一图像坐标，以及第二初始视频的图像坐标系中，第二分拣线的第二图像坐标，并通过第一初始视频对应的预设转换关系，将第一图像坐标转换场地坐标系中的场地坐标，通过第二初始视频对应的预设转换关系，将第二图像坐标转换场地坐标系中的场地坐标，若存在场地坐标相同的第一分拣线和第二分拣线，则说明第一分拣线和第二分拣线中包含同一分拣线。从上文中可知，通过训练，分拣线检测网络输出的第一分拣线和第二分拣线会携带是否完整的信息，因此电子设备可以直接读取该信息，当同一分拣线在第一分拣线和/或第二分拣线中携带的信息为“不完整分拣线”时，对所述第一初始视频中的视频帧和所述第二初始视频中的视频帧进行拼接，得到拼接后的视频帧，以及由所述拼接后的视频帧构成的目标视频。

为了更好实施本申请实施例中的异常分拣检测方法，在异常分拣检测方法基础之上，本申请实施例中还提供一种异常分拣检测装置，如图12所示，为本申请实施例中异常分拣检测装置的一个实施例结构示意图，该异常分拣检测装置1200包括：

获取单元1201，用于获取分拣场地的目标视频；

提取单元1202，用于提取所述目标视频中的全局动作特征，以及所述目标视频中的远景动作特征，其中，所述远景动作特征中包含所述目标视频中的远景动作信息；

确定单元1203，用于根据所述全局动作特征和所述远景动作特征，确定所述分拣场地中的异常分拣区域。

在本申请一种可能的实现方式中，提取单元1202还用于：

在本申请一种可能的实现方式中，确定单元1203还用于：

获取所述分拣场地中包裹放置区域的第二位置；

在本申请一种可能的实现方式中，确定单元1203还用于：

输出所述目标分拣线对应的告警信息至目标终端。

在本申请一种可能的实现方式中，获取单元1201还用于：

具体实施时，以上各个单元可以作为独立的实体来实现，也可以进行任意组合，作为同一或若干个实体来实现，以上各个单元的具体实施可参见前面的方法实施例，在此不再赘述。

由于该异常分拣检测装置可以执行任意实施例中异常分拣检测方法中的步骤，因此，可以实现本申请任意实施例中异常分拣检测方法所能实现的有益效果，详见前面的说明，在此不再赘述。

此外，为了更好实施本申请实施例中异常分拣检测方法，在异常分拣检测方法

基础之上，本申请实施例还提供一种电子设备，参阅图13，图13示出了本申请实施例电子设备的一种结构示意图，具体的，本申请实施例提供的电子设备包括处理器1301，处理器1301用于执行存储器1302中存储的计算机程序时实现任意实施例中异常分拣检测方法的各步骤；或者，处理器1301用于执行存储器1302中存储的计算机程序时实现如图12对应实施例中各单元的功能。

示例性的，计算机程序可以被分割成一个或多个模块/单元，一个或者多个模块/单元被存储在存储器1302中，并由处理器1301执行，以完成本申请实施例。一个或多个模块/单元可以是能够完成特定功能的一系列计算机程序指令段，该指令段用于描述计算机程序在计算机装置中的执行过程。

电子设备可包括，但不仅限于处理器1301、存储器1302。本领域技术人员可以理解，示意仅仅是电子设备的示例，并不构成对电子设备的限定，可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件。

处理器1301可以是中央处理单元(Central Processing Unit，CPU)，还可以是其他通用处理器、数字信号处理器(Digital Signal Processor，DSP)、专用集成电路(Application Specific Integrated Circuit，ASIC)、现成可编程门阵列(Field-Programmable Gate Array，FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等，处理器是电子设备的控制中心，利用各种接口和线路连接整个电子设备的各个部分。

存储器1302可用于存储计算机程序和/或模块，处理器1301通过运行或执行存储在存储器1302内的计算机程序和/或模块，以及调用存储在存储器1302内的数据，实现计算机装置的各种功能。存储器1302可主要包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需的应用程序(比如声音播放功能、图像播放功能等)等；存储数据区可存储根据电子设备的使用所创建的数据(比如音频数据、视频数据等)等。此外，存储器可以包括高速随机存取存储器，还可以包括非易失性存储器，例如硬盘、内存、插接式硬盘，智能存储卡(Smart Media Card，SMC)，安全数字(Secure Digital，SD)卡，闪存卡(Flash Card)、至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。

所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的异常分拣检测装置、电子设备及其相应单元的具体工作过程，可以参考任意实施例中异常分拣检测方法的说明，具体在此不再赘述。

本领域普通技术人员可以理解，上述实施例的各种方法中的全部或部分步骤可以通过指令来完成，或通过指令控制相关的硬件来完成，该指令可以存储于一存储介质中，并由处理器进行加载和执行。

为此，本申请实施例提供一种存储介质，存储介质上存储有计算机程序，该计算机程序被处理器执行时执行本申请任意实施例中异常分拣检测方法中的步骤，具体操作可参考任意实施例中异常分拣检测方法的说明，在此不再赘述。

其中，该存储介质可以包括：只读存储器(ROM，Read Only Memory)、随机存取存储器(RAM，Random Access Memory)、磁盘或光盘等。

由于该存储介质中所存储的指令，可以执行本申请任意实施例中异常分拣检测方法中的步骤，因此，可以实现本申请任意实施例中异常分拣检测方法所能实现的有益效果，详见前面的说明，在此不再赘述。

以上对本申请实施例所提供的一种异常分拣检测方法、装置、存储介质及电子设备进行了详细介绍，本文中应用了具体个例对本申请的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本申请的方法及其核心思想；同时，对于本领域的技术人员，依据本申请的思想，在具体实施方式及应用范围上均会有改变之处，综上所述，本说明书内容不应理解为对本申请的限制。

Claims

1.一种异常分拣检测方法，其特征在于，包括：

获取分拣场地的目标视频；

2.根据权利要求1所述的异常分拣检测方法，其特征在于，所述提取所述目标视频中的全局动作特征，以及所述目标视频中的远景动作特征，包括：

3.根据权利要求2所述的异常分拣检测方法，其特征在于，所述通过预设的自注意力模型对所述目标视频对应的多个图像块序列进行处理，得到所述目标视频中的全局动作特征，包括：

4.根据权利要求1所述的异常分拣检测方法，其特征在于，所述根据所述全局动作特征和所述远景动作特征，确定所述分拣场地中的异常分拣区域，包括：

5.根据权利要求4所述的异常分拣检测方法，其特征在于，所述根据所述增强动作特征，确定所述分拣场地中的异常分拣区域，包括：

获取所述分拣场地中包裹放置区域的第二位置；

6.根据权利要求1所述的异常分拣检测方法，其特征在于，所述根据所述全局动作特征和所述远景动作特征，确定所述分拣场地中的异常分拣区域之后，所述方法还包括：

输出所述目标分拣线对应的告警信息至目标终端。

7.根据权利要求1-6任一项所述的异常分拣检测方法，其特征在于，所述获取分拣场地的目标视频，包括：

8.一种异常分拣检测装置，其特征在于，包括：

获取单元，用于获取分拣场地的目标视频；

9.一种电子设备，其特征在于，所述电子设备包括处理器、存储器以及存储于所述存储器中并可在所述处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现如权利要求1至7任一项所述的异常分拣检测方法中的步骤。

10.一种存储介质，其特征在于，所述存储介质上存储有计算机程序，所述计算机程序被处理器执行时实现权利要求1至7任一项所述的异常分拣检测方法中的步骤。