CN112434666A

CN112434666A - 重复动作识别方法、装置、介质及设备

Info

Publication number: CN112434666A
Application number: CN202011456177.4A
Authority: CN
Inventors: 梁帆
Original assignee: Dongguan Prophet Big Data Co ltd
Current assignee: Guangdong Prophet Big Data Co ltd
Priority date: 2020-12-11
Filing date: 2020-12-11
Publication date: 2021-03-02
Anticipated expiration: 2040-12-11
Also published as: CN112434666B

Abstract

本说明书实施例公开了一种重复动作识别方法、装置及电子设备，该方法包括将每帧图像输入预先训练的操作区域识别模型和操作人员识别模型，获得操作区域检测框和操作人员检测框，筛选位于操作区域内的操作人员，将筛选的图像输入预先训练的肢体识别模型，获得操作人员的躯干信息和手臂信息，根据躯干信息和手臂信息对每个操作区域内的操作人员进行单一动作识别；计算待测视频的不同帧图像中具有相同序号的操作区域内存在单一动作的时间，当存在单一动作的时间大于时间阈值时，判断该操作区域内的操作人员执行了重复动作。有助于提高重复动作识别的准确率，有效监督不规范的重复动作，提高了食品安全监管效率，降低了企业的人力和物力成本。

Description

重复动作识别方法、装置、介质及设备

技术领域

本说明书涉及计算机视觉技术领域，尤其是涉及一种重复动作识别方法、装置、介质及设备。

背景技术

学校、企业、工厂等食堂就餐人数较多，食品安全涉及方方面面，不仅要保证食材来源可靠、加工过程的安全卫生，同时如果餐具清洗不干净，残留的食物残渣将产生有害物质、滋生有害病菌，会对学校、企业、工厂里的用餐员工的健康造成威胁，因此对餐具的消毒、清洁等工作更不可忽视。

现有针对食堂的餐具清洗一般采用人工清洗方式，由于学校、企业、工厂等食堂人流量大，用餐时间集中，往往会在同一时间有很多人将用餐后的餐具送到餐盘回收处，餐盘堆积，给工作人员带来很大的回收清洗压力，一旦工作人员懈怠不负责任，极易出现安全问题，尽管在清洗间安装监控，但目前的视频监控回访通过抽检的方式，无法实现对工作人员在岗履职情况进行全面监管，存在极大的漏洞和安全隐患。

发明内容

本说明书实施例的目的在于提供一种重复动作识别方法、装置、介质及设备，可以实现对操作人员及其重复动作的准确识别，监督不规范的重复操作，提升食品安全的监管效率，降低人力和物力成本。

为实现上述目的，第一方面，本说明书提供一种重复动作识别方法，所述方法包括：

将待测视频进行分帧处理后的每帧图像分别输入预先训练的操作区域识别模型和操作人员识别模型，在每帧图像中获得操作区域检测框和操作人员检测框；

对于每帧图像，根据所述操作区域检测框和所述操作人员检测框筛选位于操作区域内的操作人员；

将位于所述操作区域内的操作人员的图像输入预先训练的肢体识别模型进行骨骼节点定位，获得每个操作区域内的操作人员的躯干信息和手臂信息；

根据所述躯干信息和手臂信息对每帧图像中每个操作区域内的操作人员进行单一动作识别，获得单一动作得分；

根据每帧图像中每个操作区域内的操作人员的单一动作得分，计算待测视频的不同帧图像中具有相同序号的操作区域内存在单一动作的时间，当该操作区域内存在单一动作的时间大于时间阈值时，判断该操作区域内的操作人员在待测时间段内执行了重复动作。

可选的，所述对于每帧图像，根据所述操作区域检测框和操作人员检测框筛选位于操作区域内的操作人员包括：

对于每帧图像，计算所述操作区域检测框的中心点坐标和所述操作人员检测框的中心点坐标之间的欧氏距离；

当所述欧氏距离小于第一距离阈值时，筛选出位于操作区域内的操作人员。

可选的，所述躯干信息为操作人员脖子关节点与臀部关节点形成的三角形区域过脖子关节点的中线段，所述手臂信息为操作人员手肘关节点与肩膀关节点形成的手臂线段。

可选的，所述根据所述躯干信息和手臂信息对每帧图像中每个操作区域内的操作人员进行单一动作识别，获得单一动作得分包括：

对于每帧图像中每个操作区域内的操作人员，当所述躯干信息和所述操作区域检测框之间的位置关系满足第一预设条件，且所述手臂线段和所述操作区域检测框的中心的距离满足第二预设条件时，判断操作区域内的操作人员执行了单一动作，获得单一动作得分；其中，所述第一预设条件和所述第二预设条件分别为：

将所述躯干信息靠近头部的端点坐标记为a(x1，y1)，远离头部的端点坐标记为b(x2，y2)，所述操作区域检测框坐标记为(x_m,y_m,w_m,h_m)，其中，(x_m,y_m)表示所述操作区域检测框左上角的坐标，(w_m,h_m)表示所述操作区域检测框的宽和高，则所述第一预设条件为：

x_m+w_m+s1＞x1+σ＞x2或者x_m-s2＜x1-σ＜x2

其中，s1，s2为边界常数，σ为偏移常数；

所述第二预设条件为所述操作区域检测框的中心到所述手臂线段的距离l_a位于第二距离阈值和第三距离阈值之间，其中，所述操作区域检测框的中心到所述手臂线段的距离l_a的计算公式如下：

其中，

(x3，y3)表示操作人员肩膀关节点的坐标，(x4，y4)表示操作人员手肘关节点的坐标。

可选的，根据每帧图像中每个操作区域内的操作人员的单一动作得分，计算待测视频的不同帧图像中具有相同序号的操作区域内存在单一动作的时间，当该操作区域内存在单一动作的时间大于时间阈值时，判断该操作区域内的操作人员在待测时间段内执行了重复动作包括：

对于待测视频的不同帧图像，采用时间窗，按照时间方向以预设步长滑动，删除每个时间窗内具有相同序号的操作区域内单一动作得分异常的图像；

计算检测时间段中所有滑动窗口内保留的图像中操作区域内存在单一动作的时间，当该操作区域内存在单一动作的时间大于时间阈值时判断该操作区域内的操作人员在待测时间段内执行了重复动作。

第二方面，本说明书实施例提供一种重复动作识别装置，所述装置包括：

检测模块，用于将待测视频进行分帧处理后的每帧图像分别输入预先训练的操作区域识别模型和操作人员识别模型，在每帧图像中获得操作区域检测框和操作人员检测框；

筛选模块，用于对于每帧图像，根据所述操作区域检测框和所述操作人员检测框筛选位于操作区域内的操作人员；

肢体识别模块，用于将位于所述操作区域内的操作人员的图像输入预先训练的肢体识别模型进行骨骼节点定位，获得每个操作区域内的操作人员的躯干信息和手臂信息；

单一动作识别模块，用于根据所述躯干信息和手臂信息对每帧图像中每个操作区域内的操作人员进行单一动作识别，获得单一动作得分；

重复动作识别模块，用于根据每帧图像中每个操作区域内的操作人员的单一动作得分，计算待测视频的不同帧图像中具有相同序号的操作人员存在单一动作的时间，当该操作人员存在单一动作的时间大于时间阈值时，判断该操作人员在待测时间段内执行了重复动作。

可选的，所述筛选模块包括距离计算单元和筛选单元，其中，

所述距离计算单元，用于对于每帧图像，计算所述操作区域检测框的中心点坐标和所述操作人员检测框的中心点坐标之间的欧氏距离；

所述筛选单元，用于当所述欧氏距离小于第一距离阈值时，筛选出位于操作区域内的操作人员。

所述躯干信息为操作人员脖子关节点与臀部关节点形成的三角形区域过脖子关节点的中线段，所述手臂信息为操作人员手肘关节点与肩膀关节点形成的手臂线段。

第三方面，本说明书实施例提供一种电子设备，包括：

存储器，用于存储计算机程序；

处理器，用于执行所述存储器中存储的计算机程序，且所述计算机程序被执行时，实现上述第一方面任一项所述的重复动作识别方法。

第四方面，本说明书实施例提供一种计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时，实现上述第一方面任一项所述的重复动作识别方法。

本说明书一个或多个实施例提供的重复动作识别方法、装置、介质及设备，可以基于预先训练好的操作区域识别模型和操作人员识别模型，在待测场景中识别出操作区域检测框和操作人员检测框，筛选出位于操作区域检测框内的操作人员，基于预先训练好的肢体识别模型获得操作人员的躯干信息和手臂信息，根据躯干信息和手臂信息判断操作人员是否存在单一动作，通过对待测视频的不同帧图像中具有相同序号的操作人员，计算其存在单一动作的时间，当待测时段内存在单一动作的时间大于阈值时判断其执行了重复动作。本说明书公开的重复动作识别方法，有助于提高重复动作识别的准确率，有效监督不规范的重复动作，克服现有技术依靠人工抽查视频监控不能全面监控操作人员履职情况的技术问题，进一步提高了食品安全监管效率，降低了企业的人力和物力成本。

附图说明

为了更清楚地说明本说明书实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本说明书中记载的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。在附图中：

图1为本说明书提供的一种重复动作识别方法实施例的流程示意图；

图2为本说明书提供的一些实施例中的进行操作区域识别的示意图；

图3为本说明书提供的一些实施例中进行操作人员识别的示意图；

图4为本说明书提供的一些实施例中进行肢体识别的示意图；

图5为本说明书提供的一种重复动作识别的方法另一实施例的流程示意图；

图6为本说明书提供的一些实施例中待测视频内操作区域m在每一帧的单一动作识别结果集合的示意图；

图7为本说明书提供的一些实施例中对每个时间窗内单一动作识别结果的示意图；

图8为本说明书提供的一些实施例中保留每个时间窗内存在单一动作的时间大于第一时间阈值的示意图；

图9为本说明书提供的一种重复动作识别装置实施例的结构示意图。

具体实施方式

为了使本技术领域的人员更好地理解本说明书中的技术方案，下面将结合本说明书一个或多个实施例中的附图，对本说明书一个或多个实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅是说明书一部分实施例，而不是全部的实施例。基于说明书一个或多个实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都应当属于本说明书实施例方案保护的范围。

本说明书提供的实施例可以应用于终端设备、计算机系统及服务器等电子设备，其可与众多其他通用或者专用的计算机系统环境或者配置一起操作。适于与终端设备、计算机系统以及服务器等电子设备一起使用的众所周知的终端设备、计算机系统、环境和/或配置的例子，包括但不限于：个人计算机系统、服务器计算机系统、瘦客户机、厚客户机、手持或者膝上设备、基于微处理器的系统、机顶盒、可编程消费电子产品、网络个人电脑、小型计算机系统、大型计算机系统和包括上述任何系统的分布式云计算技术环境，等等。

终端设备、计算机系统以及服务器等电子设备可以在由计算机系统执行的计算机系统可执行指令(诸如程序模块)的一般语境下描述。通常，程序模块可以包括例程、程序、目标程序、组件、逻辑以及数据结构等等，它们执行特定的任务或者实现特定的抽象数据类型。计算机系统/服务器可以在分布式云计算环境中实施，分布式云计算环境中，任务是由通过通信网络链接的远程处理设备执行的。在分布式云计算环境中，程序模块可以位于包括存储设备的本地或远程计算系统存储介质上。

参见图1，图1是本说明书提供的一种重复动作识别方法实施例流程示意图。虽然本说明书提供了如下述实施例或附图所示的方法操作步骤或装置结构，但基于常规或者无需创造性的劳动在所述方法或装置中可以包括更多或者部分合并后更少的操作步骤或模块单元。在逻辑性上不存在必要因果关系的步骤或结构中，这些步骤的执行顺序或装置的模块结构不限于本说明书实施例或附图所示的执行顺序或模块结构。所述方法或模块结构的在实际中的装置、服务器或终端产品应用时，可以按照实施例或者附图所示的方法或模块结构进行顺序执行或者并行执行(例如并行处理器或者多线程处理的环境、甚至包括分布式处理、服务器集群的实施环境)。具体的一个实施例如图1所示，本说明书提供的重复动作识别方法的一个实施例中，所述方法可以包括如下步骤：

S200:将待测视频进行分帧处理后的每帧图像分别输入预先训练的操作区域识别模型和操作人员识别模型，在每帧图像中获得操作区域检测框和操作人员检测框。

在一个可选示例中，本说明书中可以实时的将多帧具有时序关系的待测图像分别输入预先训练的操作区域识别模型中进行操作区域识别，所述多帧具有时序关系的待测图像可以为视频中的多个连续的视频帧，也可以为从视频中的多个连续的视频帧中切分出来的多个图像块。由于视频中的多个连续的视频帧具有时序关系，因此，通过对视频帧切分所获得的多个图像块也具有时序关系。本申请中的具有时序关系的待测场景图像的大小应满足操作区域识别模型对输入图像大小的预设要求，例如，待测场景图像的大小可以包括但不限于224×224。

本说明书实施例中，首先需要训练操作区域识别模型，操作区域识别模型的拓扑结构可以为第一卷积神经网络，用于对待测图像中的操作区域进行检测，即第一卷积神经网络对输入的多个具有时序关系的待测图像进行识别处理，并在每一帧待测图像中输出识别结果，也即操作区域检测框，从而能够获得操作区域检测框的位置坐标。

在一个可选示例中，所述第一卷积神经网络可以是具有深度学习能力的卷积神经网络，包括但不限于多个卷积层，该卷积神经网络还可以包括：池化层、全连接层以及用于执行分类操作的层等。第一卷积神经网络能够实现深度学习，与其他深度学习结构相比，深度卷积神经网络在图像识别方面展示出更加突出的性能。

在对待测图像进行操作区域检测之前，可以通过预先使用包含丰富操作区域标注信息的数据集作为训练样本，对第一卷积神经网络的图像分类任务进行训练，获得具有操作区域分类作用的操作区域识别模型。

利用该经过训练的操作区域识别模型对待测图像进行测试，可以获得该待测图像中各区域的操作区域置信度。其中，操作区域置信度为该区域的图像为操作区域的概率，将该操作区域置信度和预设的操作区域置信度阈值进行比较，可以将各区域图像进行分类，区分出操作区域和非操作区域，从而获得操作区域检测框及操作区域检测框的坐标信息。

需要说明的是，所述操作区域例如是食堂或者餐厅的清洁池、也可以是车间流水线上的工位，所述操作人员可以是食堂或者餐厅的清洗工人，也可以是车间流水线上的操作工人，本发明对应用场景并不进行限制，只要操作人员在操作区域内连续重复某种动作即可。

请参考图2，图2为本说明书提供的一些实施例中进行操作区域识别的示意图，图2的应用场景中，操作区域为食堂清洗池，操作人员为食堂清洗工人，将待测图像输入预先训练好的操作区域识别模型，在每一帧图像中获得操作区域检测框，也即图2中所示的清洗池区域。

同理，本说明书实施例中，首先需要训练操作人员识别模型，操作人员识别模型的拓扑结构可以为第二卷积神经网络，包括但不限于多个卷积层，该卷积神经网络还可以包括：池化层、全连接层以及用于执行分类操作的层等。

在对待测图像进行操作区域检测之前，可以通过预先使用包含丰富操作人员标注信息的数据集作为训练样本，对第二卷积神经网络的图像分类任务进行训练，获得具有操作人员分类作用的操作人员识别模型。

利用该经过训练的操作人员识别模型对待测图像进行测试，可以获得该待测图像中各区域的操作人员置信度。其中，操作人员置信度为该区域的图像为操作人员的概率，将该操作人员置信度和预设的操作人员置信度阈值进行比较，可以将各区域图像进行分类，区分出操作人员区域和非操作人员区域，从而获得操作人员检测框及操作人员检测框的坐标信息。

请参见图3，图3为本说明书提供的一些实施例中进行操作人员识别的示意图，将待测图像输入预先训练好的操作人员识别模型，能够从待测图像中检测到操作人员的位置，获得操作人员检测框。

S220.对于每帧图像，根据所述操作区域检测框和所述操作人员检测框筛选位于所述操作区域检测框内的操作人员的待测图像。

本说明书实施例中，在获得操作区域检测框和操作人员检测框之后，可以根据操作区域检测框和操作人员检测框的坐标信息计算操作区域检测框的中心点和操作人员检测框的中心点之间的欧氏距离，如果二者之间的距离小于第一距离阈值，则认为操作区域检测框内有操作人员存在，从而筛选出位于操作区域检测框内的操作人员的待测图像。

S240.将位于所述操作区域内的操作人员的图像输入预先训练的肢体识别模型进行骨骼节点定位，获得每个操作区域内的操作人员的躯干信息和手臂信息。

本说明书实施例中，首先需要训练肢体识别模型，肢体识别模型的拓扑结构可以为第三卷积神经网络，包括但不限于多个卷积层，还可以包括池化层、全连接层以及用于执行分类操作的层等。

在对操作区域检测框内含有操作人员的待测图像进行肢体识别之前，可以通过预先使用包含丰富肢体标注信息的数据集作为训练样本，对第三卷积神经网络的图像分类认为进行训练，获得具有肢体识别作用的肢体识别模型。

利用该经过训练的肢体识别模型对操作区域检测框内含有操作人员的待测场景图像进行测试，可以定位出操作人员的眼睛、鼻子、脖子、肩膀、手臂、手腕、臀部、胯骨、膝盖和脚踝等关节点，将上述关节点按顺序连接组成操作人员的基本骨架，从而可以从中获得该图像中各操作人员的躯干信息和手臂信息。

在一个可选示例中，所述躯干信息为操作人员脖子关节点与臀部关节点形成的三角形区域过脖子关节点的中线段，所述手臂信息为操作人员手肘关节点与肩膀关节点形成的手臂线段。

请参见图4，图4为本说明书提供的一些实施例中进行肢体识别的示意图。将待测场景图像输入预先训练好的肢体识别模型，利用该经过训练的肢体识别模型对操作区域检测框内含有操作人员的待测场景图像进行测试，可以定位出操作人员的眼睛、鼻子、脖子、肩膀、手臂、手腕、臀部、胯骨、膝盖和脚踝等关节点，将上述关节点按顺序连接组成操作人员的基本骨架，从而可以从中获得该图像中各操作人员的躯干信息和手臂信息。

S260.根据所述躯干信息和手臂信息对每帧图像中每个操作区域内的操作人员进行单一动作识别，获得单一动作得分。

本说明书实施例中，可以对获取的躯干信息和手臂信息以及操作区域检测框的坐标信息进行分析，如果操作人员在操作区域工作时的单一动作标准，则操作人员的躯干和操作区域检测框之间的位置关系满足相应的条件，同时操作人员的手臂和操作区域检测框之间的位置关系也会满足相应的条件，如果同时满足两个条件，则认为操作区域检测框内的操作人员存在单一动作，在一些实施例中，可以将存在单一动作的操作区域的得分记为1，将不存在单一动作的操作区域的得分记为0。当检测到操作区域检测框内的操作人员存在单一动作时，记录每帧图像中存在单一动作的操作人员及对应的时间，在每帧图像中形成单一动作集合，该集合中包含单一动作的操作人员信息及对应的时间。

S280.根据每帧图像中每个操作区域内的操作人员的单一动作得分，计算待测视频的不同帧图像中具有相同序号的操作区域内的操作人员存在单一动作的时间，当该操作区域内的操作人员存在单一动作的时间大于时间阈值时，判断该操作区域内的操作人员在待测时间段内执行了重复动作。

对于待测视频，通过分析不同帧图像中每个操作区域内的操作人员存在单一动作的时间是否大于时间阈值，如果是，则判断该操作区域内的操作人员在待测时间段内执行了重复动作，也即该操作人员在待测时间段内完成了履职。

需要说明的是，本说明书实施例对上述各步骤的执行顺序不限于本说明书实施例或附图所示的执行顺序，在一些示例中，可以先执行步骤S200，即先将待测图像输入预先训练的操作区域识别模型进行操作区域识别，获得操作区域检测框，再执行步骤S220，即再将待测图像输入预先训练的操作人员识别模型进行操作人员识别，获得操作人员检测框。在另一些示例中，也可以先执行步骤S220，即先将待测图像输入预先训练的操作人员识别模型进行操作人员识别，获得操作人员检测框，再执行步骤S200，即再将待测图像输入预先训练的操作区域识别模型进行操作区域识别，获得操作区域检测框。

本说明书实施例提供的重复动作识别方法，在待测场景中识别出操作区域检测框和操作人员检测框，筛选出位于操作区域检测框内的操作人员，基于预先训练好的肢体识别模型获得操作人员的躯干信息和手臂信息，根据躯干信息和手臂信息判断操作人员是否存在单一动作，通过对待测视频的不同帧图像中具有相同序号的操作人员，计算其存在单一动作的时间，当待测时段内存在单一动作的时间大于阈值时判断其执行了重复动作。本说明书公开的重复动作识别方法，有助于提高重复动作识别的准确率，有效监督不规范的重复动作，克服现有技术依靠人工抽查视频监控不能全面监控操作人员履职情况的技术问题，进一步提高了食品安全监管效率，降低了企业的人力和物力成本。

参见图5，图5是本说明书提供的一种重复动作识别方法另一实施例流程示意图，所述方法可以包括如下步骤：

S300.将待测视频进行分帧处理后的每帧图像分别输入预先训练的操作区域识别模型和操作人员识别模型，在每帧图像中获得操作区域检测框和操作人员检测框。

在一个可选示例中，操作区域识别模型的拓扑结构可以为第一卷积神经网络，至少包括6个卷积层，第一卷积神经网络的激活函数，可以使用ReLU(英文：Rectified LinearUnits，中文：修正线性单元)激活函数，用于选取出各层中参与模型训练的神经元。所述第一卷积神经网络的损失函数可以为L1和L2范数损失函数。其中，L1范数损失函数，也被称为最小绝对值偏差(LAD)，或者最小绝对值误差(LAE)。是把实际值与经过操作区域识别模型输出的估计值的绝对差值的总和最小化。L2范数损失函数，也被称为最小平方误差(LSE)，是把实际值和经给操作区域识别模型输出的估计值的差值的平方和最小化。具体如下：

其中，第一卷积神经网络使用的ReLU激活函数公式如下：

PReLU(x)＝max(αx，x)

其中，α表示经验常数。

第一卷积神经网络的损失函数的计算公式如下：

L＝L₁+L₂

其中，

表示所述操作区域检测框的中心坐标误差，(x_m，y_m)表示所述第一卷积神经网络输出的所述操作区域检测框的中心坐标，m表示所述第一卷积神经网络输出的所述操作区域检测框的序号，

表示所述操作区域检测框的真实的中心坐标，

表示激活函数带来的分类误差，其中，p_m表示所述第一卷积神经网络输出的所述操作区域检测框的分类结果，

表示所述操作区域检测框的真实的分类结果。

在一个可选示例中，操作人员识别模型的拓扑结构可以为第二卷积神经网络，至少包括4个卷积层，第二卷积神经网络的激活函数，可以使用GELU(英文：Gaussian ErrorLinerar Units，中文：高斯误差线性单位)激活函数，用于选取出各层中参与模型训练的神经元。所述第二卷积神经网络的损失函数可以为L1和L2范数损失函数。具体如下：

其中，第二卷积神经网络使用的GELU激活函数公式如下：

所述第二卷积神经网络的损失函数的计算公式如下：

L＝L₁+L₂

其中，

表示所述操作人员检测框的中心坐标误差，(x_r，y_r)表示所述第二卷积神经网络输出的所述操作人员检测框的中心坐标，r表示所述第二卷积神经网络输出的所述操作人员检测框的序号，

表示所述操作人员检测框的真实的中心坐标，(w_r，h_r)表示所述第二卷积神经网络输出的所述操作人员检测框的宽和高，

表示所述操作人员检测框的真实的宽和高，

表示激活函数带来的分类误差，其中，p_r表示所述第二卷积神经网络输出的所述操作人员检测框的分类结果，

表示所述操作人员检测框的真实的分类结果。

S320.对于每帧图像，计算所述操作区域检测框的中心点坐标和所述操作人员检测框的中心点坐标之间的欧氏距离，当所述欧氏距离小于第一距离阈值时，筛选出位于操作区域内的操作人员。

本说明书实施例中，将操作区域检测框的坐标记为(x_m,y_m,w_m,h_m)，其中，(x_m,y_m)表示操作区域检测框左上角的坐标，(w_m,h_m)表示操作区域检测框的宽和高，将操作人员检测框的坐标记为(x_r,y_r,w_r,h_r)，其中，(x_r,y_r,)表示操作人员检测框的左上角的坐标，(w_r,h_r)表示操作人员检测框的宽和高，则操作区域检测框的中心点坐标和操作人员检测框的中心点坐标之间的欧氏距离l的计算公式如下：

如果欧氏距离l小于预设的距离阈值l_人，则判断操作区域检测框内存在操作人员，否则，如果欧氏距离l大于预设的距离阈值l_人，则判断操作区域检测框内不存在操作人员，其中，距离阈值l_人为相同应用场景下的历史数据训练得到的经验常数。

S340.将位于所述操作区域内的操作人员的图像输入预先训练的肢体识别模型进行骨骼节点定位，获得每个操作区域内的操作人员的躯干信息和手臂信息。

在一个可选实例中，肢体识别模型的拓扑结构可以为第三卷积神经网络，至少包括8个卷积层，第三卷积神经网络的损失函数可以是L1范数损失函数，计算公式如下：

其中，(x_i，y_i)表示第三卷积神经网络输出的肢体骨骼节点的坐标，i表示第三卷积神经网络输出的肢体骨骼节点的序号，

表示肢体骨骼节点的实际坐标，ω为常数。

在一些示例中，所述躯干信息为操作人员脖子关节点与臀部关节点形成的三角形区域过脖子关节点的中线段，所述手臂信息为操作人员手肘关节点与肩膀关节点形成的手臂线段。

对操作区域内的操作人员进行肢体识别，记录每一帧图像中的位于操作区域内的操作人员的躯干信息和手臂的信息，分别得到每帧图像中位于操作区域内的操作人员的躯干集合{(a_q，b_q)}和手臂坐标集合{(e_q，f_q)}。其中a_q＝(x1_q，y1_q)表示序号为q的操作人员的躯干线段靠近头部的端点坐标，b_q＝(x2_q，y2_q)表示序号为q的操作人员的躯干线段远离头部的端点坐标。e_q＝(x3_q，y3₃)表示序号为q的操作人员肩膀的坐标，f_q＝(x4_q，y4_q)表示序号为q的操作人员手肘的坐标。

S360.对于每帧图像中每个操作区域内的操作人员，当所述躯干信息和所述操作区域检测框之间的位置关系满足第一预设条件，且所述手臂线段和所述操作区域检测框的中心的距离满足第二预设条件时，判断操作区域内的操作人员进行了单一动作，获得单一动作得分。

具体地，对单帧图像内检测到的操作区域内的操作工人的单一动作进行检测，分别计算躯干信息和操作区域检测框的位置关系，得到躯干的检测结果r1，以及计算手臂信息和操作区域检测框的位置关系，得到手臂的检测结果r2，若r1×r2＞0则存在单一动作，识别结果re＝1。反之re＝0。

将所述躯干信息靠近头部的端点坐标记为a(x1，y1)，远离头部的端点坐标记为b(x2，y2)，所述操作区域检测框坐标记为(x_m,y_m,w_m,h_m)，其中，其中，(x_m,y_m)表示操作区域检测框左上角的坐标，(w_m,h_m)表示操作区域检测框的宽和高，则所述第一预设条件为：

x_m+w_m+s1＞x1+σ＞x2或者x_m-s2＜x1-σ＜x2

其中s1，s2为边界常数，σ为偏移常数，都是由历史数据训练得到的经验常数。

第二预设条件为：

其中，l_a为所述操作区域检测框的中心到所述手臂线段的距离l₁l₂为经验距离阈值。

即所述第二预设条件为所述操作区域检测框的中心到所述手臂线段的距离l位于第二距离阈值和第三距离阈值之间，其中，所述操作区域检测框的中心到所述手臂线段的距离l_a的计算公式如下：

其中，

在每一帧图像中，将每个操作区域的检测结果汇总，得到该帧的单一动作识别结果集合{re_q}，其中，q表示操作人员的序号。

S380.对于待测视频的不同帧图像，采用时间窗，按照时间方向以预设步长滑动，删除每个时间窗内具有相同序号的操作区域内单一动作得分异常的图像。

在本说明书实施例中，对于待测视频的每一帧图像都执行上述S300-360的操作，也即在每一帧图像中都获得了单一动作识别结果集合{re_q}，在待测视频内获得单一动作检测结果集合

其中，q表示操作人员的序号，t1，…，tn表示待测图像对应的时间。

以序号为m的操作区域为例，对该操作区域内的操作人员进行重复动作的分析如下：

获取操作区域m在待测视频内每一帧的检测结果集合

请参见图6，图6为待测视频内操作区域m在每一帧的单一动作识别结果集合的示意图，其中，横坐标表示待测视频对应的时间，单位为s/秒，纵坐标表示单一动作识别结果(对应图2的应用场景时为清洗动作识别结果)。

从检测开始时间以步长s_t(单位：s)移动长度为l_t(单位：s)时间窗，计算移动每一步时集合

内时间tj在时间窗范围内的存在单一动作的操作区域对应的得分之和rt_k：(见附图6中阴影部分面积)

其中，k为移动的步数。

对所有时间窗内获得的得分集合{rt_k}(见附图7，图7为本说明书一些实施例中对每个时间窗内单一动作识别结果的示意图)进行逻辑分析，将异常周期(见附图2方框内分布)分布归零，得到过滤后的{rt′_k}(见附图8，图8为本说明书一些实施例中保留每个时间窗内存在单一动作的时间大于第一时间阈值的示意图)。也即对于序号为m的操作区域，删掉每个时间窗内单一动作得分与相邻帧图像中该操作区域i的单一动作得分跨度大于阈值的图像，或者删掉每个时间窗内单一动作得分与预设帧图像中单一动作得分出现多个周期中心的图像。

S400.计算检测时间段中所有滑动窗口内保留的操作区域内存在单一动作的时间，当所有滑动窗口内该操作人员存在单一动作的时间大于第二时间阈值时判断该操作人员在待测时间段内执行了重复动作。

在本步骤中，计算单一动作的待测视频内出现的时间长度，其中，n为视频的帧率。

最后计算序号为m的操作区域内的操作人员的重复动作执行结果rs_m：

其中，T为时间阈值，为经验常数，结果rs_m为1说明序号为m的操作区域内的操作人员执行了重复动作，也即该操作区域内的操作人员完成了履职。

对每一帧图像中重复上述对序号m的操作区域内的操作人员进行重复动作分析的步骤，得到该帧图像内每个操作区域的操作人员的重复动作识别结果的集合{rs_m}，m表示场景内操作区域的序号，由此实现待测视频中对每个操作区域的操作工人的履职评价。

本说明书实施例提供的重复动作识别方法，有助于提高重复动作识别的准确率，有效监督不规范的重复动作，克服现有技术依靠人工抽查视频监控不能全面监控操作人员履职情况的技术问题，进一步提高了食品安全监管效率，降低了企业的人力和物力成本。

本说明书中的各个实施例均采用递进的方式描述，各个实施例之间相同相似的部分互相参见即可，每个实施例重点说明的都是与其他实施例的不同之处。具体的可以参照前述相关处理相关实施例的描述，在此不做一一赘述。

上述对本说明书特定实施例进行了描述。其它实施例在所附权利要求书的范围内。在一些情况下，在权利要求书中记载的动作或步骤可以按照不同于实施例中的顺序来执行并且仍然可以实现期望的结果。另外，在附图中描绘的过程不一定要求示出的特定顺序或者连续顺序才能实现期望的结果。在某些实施方式中，多任务处理和并行处理也是可以的或者可能是有利的。

基于上述实施例提供的方法，说明书一个或多个实施例还提供一种重复动作识别装置，请参见图9，图9是本说明书提供的一种重复动作识别装置实施例的结构示意图，所述装置可以包括检测模块500、筛选模块520、肢体识别模块540、单一动作识别模块560和重复动作识别模块580。其中，

所述检测模块500，用于将待测视频进行分帧处理后的每帧图像分别输入预先训练的操作区域识别模型和操作人员识别模型，在每帧图像中获得操作区域检测框和操作人员检测框。

所述筛选模块520，用于对于每帧图像，根据所述操作区域检测框和所述操作人员检测框筛选位于操作区域内的操作人员。

所述肢体识别模块540，用于将位于所述操作区域内的操作人员的图像输入预先训练的肢体识别模型进行骨骼节点定位，获得每个操作区域内的操作人员的躯干信息和手臂信息。

所述单一动作识别模块560，用于根据所述躯干信息和手臂信息对每帧图像中每个操作区域内的操作人员进行单一动作识别，获得单一动作得分；

所述重复动作识别模块580，用于根据每帧图像中每个操作区域内的操作人员的单一动作得分，计算待测视频的不同帧图像中具有相同序号的操作人员存在单一动作的时间，当该操作人员存在单一动作的时间大于时间阈值时，判断该操作人员在待测时间段内执行了重复动作。

在一个可选示例中，所述操作区域识别模型的拓扑结构为第一卷积神经网络，所述第一卷积神经网络包括六个卷积层，其激活函数为ReLU函数，其损失函数为L1和L2范数损失函数。

具体如下：

其中，第一卷积神经网络使用的ReLU激活函数公式如下：

PReLU(x)＝max(αx，x)

其中，α表示经验常数。

第一卷积神经网络的损失函数的计算公式如下：

L＝L₁+L₂

其中，

表示所述操作区域检测框的中心坐标误差，(x_m，y_m)表示所述第一卷积神经网络输出的所述操作区域检测方框的中心坐标，m表示所述第一卷积神经网络输出的所述操作区域检测框的序号，

表示所述操作区域检测框的真实的中心坐标，

表示所述操作区域检测框的真实的分类结果。

在一个可选示例中，所述操作人员识别模型的拓扑结构为第二卷积神经网络，所述第二卷积神经网络包括四个卷积层，其激活函数为GELU激活函数，其损失函数为L1和L2范数损失函数。

其中，第二卷积神经网络使用的GELU激活函数公式如下：

所述第二卷积神经网络的损失函数的计算公式如下：

L＝L₁+L₂

其中，

表示所述操作人员检测框的真实的宽和高，

表示所述操作人员检测框的真实的分类结果。

在一个可选示例中，所述筛选模块可包括距离计算单元和筛选单元，其中，所述距离计算单元用于计算所述操作区域检测框的中心点坐标和所述操作人员检测框的中心点坐标之间的欧氏距离；所述筛选单元用于当所述欧氏距离小于第一距离阈值时，筛选出位于操作区域内的操作人员。

如果欧氏距离l小于预设的距离阈值l_人，则判断操作区域检测框内存在操作人员，否则，如果欧氏距离l大于预设的距离阈值l_人，则判断操作区域检测框内不存在操作人员。

在一个可选示例中，所述肢体识别模型的拓扑结构为第三卷积神经网络，所述第三卷积神经网络包括八个卷积层，其损失函数为L1范数损失函数，计算公式如下：

表示肢体骨骼节点的实际坐标，ω为常数。

在一个可选示例中，所述单一动作识别模块用于对于每帧图像中每个操作区域内的操作人员，当所述躯干信息和所述操作区域检测框之间的位置关系满足第一预设条件，且所述手臂线段和所述操作区域检测框的中心的距离满足第二预设条件时，判断操作区域内的操作人员进行了单一动作；

x_m+w_m+s1＞x1+σ＞x2或者x_m-s2＜x1-σ＜x2

其中，s1，s2为边界常数，σ为偏移常数；

所述第二预设条件为所述操作区域检测框的中心到所述手臂线段的距离l位于第二距离阈值和第三距离阈值之间，其中，所述操作区域检测框的中心到所述手臂线段的距离l_a的计算公式如下：

其中，

即第二预设条件为：

在一个可选示例中，重复动作识别模块还用于对于待测视频的不同帧图像，对于待测视频的不同帧图像，采用时间窗，按照时间方向以预设步长滑动，删除每个时间窗内具有相同序号的操作区域内单一动作得分异常的图像；计算检测时间段中所有滑动窗口内保留的图像中操作区域内存在单一动作的时间，当该操作区域内存在单一动作的时间大于时间阈值时判断该操作区域内的操作人员在待测时间段内执行了重复动作。

在本说明书实施例中，在每一帧图像中都获得了单一动作识别结果集合{re_q}，在待测视频内获得单一动作检测结果集合

获取操作区域m在待测视频内每一帧的检测结果集合

请参见图6，图6为待测视频内操作区域m在每一帧的检测结果集合的示意图，其中，横坐标表示待测视频对应的时间，单位为s/秒，纵坐标表示单一动作识别结果(对应图2的应用场景时为清洗动作识别结果)。

内时间tj在时间窗范围内的存在单一动作的操作区域对应的时间之和rt_k：(见附图6中阴影部分面积)

其中，k为移动的步数。

对所有时间窗内获得的时间集合{rt_k}(见附图7，图7为本说明书一些实施例中对每个时间窗内单一动作识别结果的示意图)进行逻辑分析，将异常周期(见附图2方框内分布)分布归零，得到过滤后的{rt′_k}(见附图8，图8为本说明书一些实施例中保留每个时间窗内存在单一动作的时间大于第一时间阈值的示意图)。也即对于序号为m的操作区域，删掉每个时间窗内单一动作得分与相邻帧图像中该操作区域i的单一动作得分跨度大于阈值的图像，或者删掉每个时间窗内单一动作得分与预设帧图像中单一动作得分出现多个周期中心的图像。

计算单一动作的待测视频内出现的时间长度，其中，n为视频的帧率。

对每一帧图像中重复上述对序号m的操作区域内的操作人员进行重复动作分析的操作，得到该帧图像内每个操作区域的操作人员的重复动作识别结果的集合{rs_m}，m表示场景内操作区域的序号，由此实现待测视频中对每个操作区域的操作工人的履职评价。

本说明书实施例提供的重复动作识别装置，有助于提高重复动作识别的准确率，有效监督不规范的清洗动作，克服现有技术依靠人工抽查视频监控的方式监管操作人员是否在岗履职时不全面的技术问题，进一步提高了食品安全监管效率，降低了企业的人力和物力成本。

需要说明的，上述所述的重复动作识别装置根据方法实施例的描述还可以包括其他的实施方式。具体的实现方式可以参照相关方法实施例的描述，在此不作一一赘述。

相应的，本说明书实施例还公开了一种电子设备，所述电子设备，包括存储器，处理器以及存储在所述存储器上并可在处理器上运行的计算机程序，所处处理器执行所述计算机程序时实现本说明书上述任一实施例中所述的重复动作识别方法的步骤。

相应的，本说明书实施例还公开了一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现本说明书上述任一实施例中所述的重复动作识别方法的步骤。

本说明书实施例并不局限于必须是符合标准数据模型/模板或本说明书实施例所描述的情况。某些行业标准或者使用自定义方式或实施例描述的实施基础上略加修改后的实施方案也可以实现上述实施例相同、等同或相近、或变形后可预料的实施效果。应用这些修改或变形后的数据获取、存储、判断、处理方式等获取的实施例，仍然可以属于本说明书的可选实施方案范围之内。

本说明书中的各个实施例均采用递进的方式描述，各个实施例之间相同相似的部分互相参见即可，每个实施例重点说明的都是与其他实施例的不同之处。尤其，对于系统实施例而言，由于其基本相似于方法实施例，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。在本说明书的描述中，参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本说明书的至少一个实施例或示例中。在本说明书中，对上述术语的示意性表述并不必须针对的是相同的实施例或示例。而且，描述的具体特征、结构、材料或者特点可以在任一个或多个实施例或示例中以合适的方式结合。此外，在不相互矛盾的情况下，本领域的技术人员可以将本说明书中描述的不同实施例或示例以及不同实施例或示例的特征进行结合和组合。

以上所述仅为本说明书的实施例而已，并不用于限制本说明书。对于本领域技术人员来说，本说明书可以有各种更改和变化。凡在本说明书的精神和原理之内所作的任何修改、等同替换、改进等，均应包含在本说明书的权利要求范围之内。

Claims

1.一种重复动作识别方法，其特征在于，所述方法包括：

2.根据权利要求1所述的重复动作识别方法，其特征在于，所述对于每帧图像，根据所述操作区域检测框和操作人员检测框筛选位于操作区域内的操作人员包括：

3.根据权利要求1所述的重复动作识别方法，其特征在于，所述躯干信息为操作人员脖子关节点与臀部关节点形成的三角形区域过脖子关节点的中线段，所述手臂信息为操作人员手肘关节点与肩膀关节点形成的手臂线段。

4.根据权利要求3所述的重复动作识别方法，其特征在于，所述根据所述躯干信息和手臂信息对每帧图像中每个操作区域内的操作人员进行单一动作识别，获得单一动作得分包括：

将所述躯干信息靠近头部的端点坐标记为a(x1，y1)，远离头部的端点坐标记为b(x2，y2)，所述操作区域检测框坐标记为(x_m，y_m，w_m，h_m)，其中，(x_m，y_m)表示所述操作区域检测框左上角的坐标，(w_m，h_m)表示所述操作区域检测框的宽和高，则所述第一预设条件为：

x_m+w_m+s1＞x1+σ＞x2或者x_m-s2＜x1-σ＜x2

其中，s1，s2为边界常数，σ为偏移常数；

其中，

5.根据权利要求1所述的重复动作识别方法，其特征在于，根据每帧图像中每个操作区域内的操作人员的单一动作得分，计算待测视频的不同帧图像中具有相同序号的操作区域内存在单一动作的时间，当该操作区域内存在单一动作的时间大于时间阈值时，判断该操作区域内的操作人员在待测时间段内执行了重复动作包括：

计算检测时间段中所有时间窗内保留的图像中操作区域内存在单一动作的时间，当该操作区域内存在单一动作的时间大于时间阈值时判断该操作区域内的操作人员在待测时间段内执行了重复动作。

6.一种重复动作识别装置，其特征在于，所述装置包括：

7.根据权利要求6所述的重复动作识别装置，其特征在于，所述筛选模块包括距离计算单元和筛选单元，其中，

8.根据权利要求6所述的重复动作识别装置，其特征在于，所述躯干信息为操作人员脖子关节点与臀部关节点形成的三角形区域过脖子关节点的中线段，所述手臂信息为操作人员手肘关节点与肩膀关节点形成的手臂线段。

9.一种电子设备，其特征在于，包括：

存储器，用于存储计算机程序；

处理器，用于执行所述存储器中存储的计算机程序，且所述计算机程序被执行时，实现上述权利要求1-5中任一项所述的重复动作识别方法。

10.一种计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时，实现上述权利要求1-5中任一项所述的重复动作识别方法。