CN114005183B

CN114005183B - 动作识别方法、装置、设备及存储介质

Info

Publication number: CN114005183B
Application number: CN202111658098.6A
Authority: CN
Inventors: 请求不公布姓名
Original assignee: Beijing Real AI Technology Co Ltd
Current assignee: Beijing Real AI Technology Co Ltd
Priority date: 2021-12-31
Filing date: 2021-12-31
Publication date: 2023-07-18
Anticipated expiration: 2041-12-31
Also published as: CN114005183A

Abstract

本申请涉及一种动作识别方法、装置、设备及存储介质，涉及图像处理领域，其中，方法包括：获取目标用户使用目标工具实施目标工序时的多个图像帧；从多个图像帧中确定与第一时刻对应的目标图像帧、多个第一参考图像帧和多个第二参考图像帧，目标图像帧的起始播放时刻滞后于多个第一参考图像帧的结束播放时刻，且结束播放时刻早于多个第二参考图像帧的起始播放时刻；根据目标图像帧、多个第一参考图像帧、和多个第二参考图像帧，得到包括目标工具的工具关键点位置信息的第一位置序列，和包括目标用户的肢体关键点位置信息的第二位置序列；根据第一位置序列和第二位置序列，得到目标用户的目标动作类型，由此，提升了动作类型的识别精确度和鲁棒性。

Description

动作识别方法、装置、设备及存储介质

技术领域

本申请实施例涉及图像处理技术领域，尤其涉及一种动作识别方法、装置、设备及存储介质。

背景技术

计算机视觉检测技术用于装配生产线上对复杂设备的装配环节进行监控。

相关技术中，基于RGB图像信息，对工人的动作进行识别。即预先构建工人不同动作对应的RGB图像特征，基于不同动作对应的RGB图像特征训练模型，在实际识别过程中，该模型将当前拍摄的图像中的RGB图像特征与预先构建的不同动作的RGB图像特征进行匹配，根据匹配结果来确定对应的工人动作。

然而，工厂装配车间往往环境比较复杂，比如，拍摄得到的工人不同动作对应的RGB图像中，除了包含用户的肢体图像之外，RGB图像中有许多无关信息，比如，还包括装配车间的宣传册等图像信息，以及其他工人的肢体图像信息等。使用RGB信息进行模型训练，导致除了学习得到用户的肢体图像的有关图像特征之外，还学习到上述提到的许多无关信息的退图像特征，从而，使用RGB信息进行训练的模型不易收敛到用户的肢体的动作的图像特征，导致用户在有关工序中执行的动作类型的识别精确度不高。

发明内容

本申请实施例提供一种动作识别方法、装置、设备及存储介质，能够提高识别当前时刻工人的动作类型的精确度，以及提升对动作类型识别的鲁棒性。

第一方面，本申请实施例提出一种动作识别方法，包括以下步骤：获取视频流，所述视频流包括目标用户使用目标工具实施目标工序时的多个图像帧；从所述多个图像帧中确定与第一时刻对应的目标图像帧、第一图像集合和第二图像集合，所述第一图像集合包括多个第一参考图像帧，所述第二图像集合包括多个第二参考图像帧，所述目标图像帧的起始播放时刻滞后于所述多个第一参考图像帧的结束播放时刻，且所述目标图像帧的结束播放时刻早于所述多个第二参考图像帧的起始播放时刻；根据所述目标图像帧、多个所述第一参考图像帧、和多个所述第二参考图像帧，得到第一位置序列和第二位置序列，所述第一位置序列包括所述目标工具的工具关键点位置信息；所述第二位置序列包括所述目标用户的肢体关键点位置信息；根据所述第一位置序列和所述第二位置序列，得到所述目标图像帧中所述目标用户的目标动作类型。

第二方面，本申请实施例还提供了一种动作识别装置，所述装置包括：收发模块，用于获取视频流，所述视频流包括目标用户使用目标工具实施目标工序时的多个图像帧；处理模块，用于从所述收发模块获取的所述多个图像帧中确定与第一时刻对应的目标图像帧、第一图像集合和第二图像集合；根据所述目标图像帧、多个所述第一参考图像帧、和多个所述第二参考图像帧，得到第一位置序列和第二位置序列；其中，所述第一图像集合包括多个第一参考图像帧，所述第二图像集合包括多个第二参考图像帧，所述目标图像帧的起始播放时刻滞后于所述多个第一参考图像帧的结束播放时刻，且所述目标图像帧的结束播放时刻早于所述多个第二参考图像帧的起始播放时刻，所述第一位置序列包括所述目标工具的工具关键点位置信息；所述第二位置序列包括所述目标用户的肢体关键点位置信息；所述处理模块还用于根据所述第一位置序列和所述第二位置序列，得到所述目标图像帧中所述目标用户的目标动作类型。

本申请实施例还提供了一种服务器，所述服务器包括：处理器；用于存储所述处理器可执行指令的存储器；所述处理器，用于从所述存储器中读取所述可执行指令，并执行所述指令以实现如本申请实施例提供的动作识别方法。

本申请实施例还提供了一种计算机可读存储介质，所述存储介质存储有计算机程序，所述计算机程序用于执行如本申请实施例提供的动作识别方法。

本申请实施例提供的技术方案与现有技术相比具有如下优点：

在识别目标图像帧的动作类型时，一方面，由于目标动作类型是结合目标图像帧之前的多个第一参考图像帧，和目标图像帧之后的多个第二参考图像帧共同确定，所以能够提升确定目标动作类型的准确性；另一方面，由于第一位置序列包括目标工具的工具关键点，第二位置序列包括目标用户的肢体关键点，所以结合第一位置序列以及第二位置序列中包括的两类关键点进行时空分析，能够使得时空分析的结果更加准确，从而进一步提升确定目标动作类型的准确率，同时也能够提升确定目标动作类型的鲁棒性。

附图说明

此处的附图被并入说明书中并构成本说明书的一部分，示出了符合本公开的实施例，并与说明书一起用于解释本公开的原理。

为了更清楚地说明本公开实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，对于本领域普通技术人员而言，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1为本申请实施例的一种动作识别的流程图；

图2为本申请实施例的一种动作识别场景示意图；

图3为本申请实施例的一种动作识别方法的流程图；

图4为本申请实施例的另一种动作识别的场景示意图；

图5为本申请实施例的另一种动作识别的场景示意图；

图6为本申请实施例的另一种动作识别方法的流程图；

图7为本申请实施例的另一种动作识别的场景示意图；

图8为本申请实施例的另一种动作识别方法的流程图；

图9为本申请实施例提供的一种动作识别装置的结构示意图；

图10为本申请实施例提供的一种服务器的结构示意图。

具体实施方式

为了能够更清楚地理解本公开的上述目的、特征和优点，下面将对本公开的方案进行进一步描述。需要说明的是，在不冲突的情况下，本公开的实施例及实施例中的特征可以相互组合。

需要说明的是，在本文中，诸如“第一”和“第二”等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

在下面的描述中阐述了很多具体细节以便于充分理解本公开，但本公开还可以采用其他不同于在此描述的方式来实施；显然，说明书中的实施例只是本公开的一部分实施例，而不是全部的实施例。

本申请实施例的动作识别方法，可以应用在任意需要监测用户的动作类型的人工智能领域，比如，可以为装配生产线中，对工人的装配动作类型的识别领域，比如，可以为监考场景中，对学生的作业动作类型的识别领域等。在本申请的实施例中，为了描述的方便，主要以该动作识别方法应用在装配生产线上的工人动作类型的监测说明。本申请实施例的动作识别方法的执行主体，可以为任意具备处理器的电子设备，该电子设备中包括但不限于本地服务器、云服务器等，在实际进行动作识别的过程中，可以在对应的电子设备中部署集成了本申请的动作识别方法的模型来进行动作识别。

其中，上述提到的人工智能可以理解为以深度学习技术为主要学习技术，依赖于有关电子设备的人工智能计算能力，对场景中采集到的包含用户肢体以及用户所持工具的图像等进行深度学习，学习得到有可以识别得到用户的动作类型的有关模型，基于该模型实现对用户动作类型的智能性识别，满足有关场景中对用户动作类型的检测需求，便于对应场景中基于用户动作类型进行人员安排、动作纠正等提供依据。

为了解决上述背景技术中提到的，对装配生产线上用户的动作识别时，识别精确度不高且识别模型部署的算力要求较高的问题，本申请提出了一种结合人体肢体关键点位置和使用工具的工具关键点信息来识别工人的动作的方式，在该方法中，一方面，基于深度学习技术来提取工人的肢体关键点信息，避免图像中无关信息对识别结果的干扰，也具备一定的变换图像视角时的模型泛化性，另一方面，结合用户实施操作时的工具的工具关键点位置共同来识别动作，进一步提升了识别的准确性，还一方面，基于工具关键点位置和肢体关键点位置及其时序上的变化序列来识别动作，更加保证了识别的精确性。且基于有关关键点位置信息的模型训练，算力要求相对较小，在保证识别精度的基础上，降低了算力要求，且模型的泛化性也较高。

也即是说，如图1所示，本申请中使用人体骨架提取技术提取连续视频帧中（图中为5帧）每一帧图像帧肢体关键点位置和物体检测技术提取连续视频帧中每一帧图像帧中对应工具的工具关键点位置，先获取人体关键点位置和关键工具的关键点位置信息，再使用时空图卷积神经网络等模型对连续视频帧的对应关键点信息进行时空分析，从而判断出对应的识别时刻下连续视频帧中对应的中间图像帧中的工人的准确行为，比如动作类型等。

以本申请的动作识别方法，应用在装配生产线对A工序的工人B进行动作识别的实际应用场景为例，如图2所示，若是动作识别方法应用在服务器C中，则可以通过摄像采集设备获取工人B在执行A工序时的视频流，进而，将该视频流发送给对应的服务器C。

服务器C在视频流中获取对应的识别时刻下的图像帧s，以及在图像帧s之前的连续多帧第一参考图像帧，以及在图像帧s之后的连续多帧第二参考图像帧（图中未示出），服务器C提取图像帧s及其对应的第一参考图像帧和第二参考图像帧中工人B的肢体关键点位置信息，以及所持的目标工具D的工具关键点位置信息，根据这两类关键点位置信息识别B在当前识别时刻下的目标动作类型。相较于现有技术，一方面中，通过提取肢体关键点位置信息和工具关键点位置信息，不但能够避免对RGB视频图像直接分析，增强在工厂装配杂乱环境中进行行为识别的鲁棒性；另一方面中，使用物体检测信息和时空图神经网络，同时结合时间空间信息对人工动作及工具零件进行分析，能够提高人体检测的准确度。又一方面中，通过分析人体的肢体关键点位置和关键工具的关键点位置，能够使得时空图卷积神经网络可以对细颗粒度的行为进行监控，如区分在不同位置进行螺钉装配等，进而提高识别当前时刻工人的动作类型的精确度。

下面参考附图描述本申请实施例的动作识别方法。该动作识别方法可以应用在任意电子设备中，该电子设备可以为包含处理器的服务器等，该服务器包含本地服务器、云服务器等。

图3为本申请实施例的一种动作识别方法的流程图，如图3所示，该方法包括：

步骤301，获取视频流，视频流包括目标用户使用目标工具实施目标工序时的多个图像帧。

其中，目标工序是当前待识别的装配生产线上的任意一个工序，为了监控装配生产线上的不同工序，可以针对每个工序架设摄像头进行视频流的拍摄等，当前也可以由同一个摄像头拍摄多个工序的视频流等，在此不作限制。其中，装配生产线上的工序可以为上货工序、安装工序等。

步骤302，从多个图像帧中确定与第一时刻对应的目标图像帧、第一图像集合和第二图像集合。

第一图像集合包括多个第一参考图像帧，第二图像集合包括多个第二参考图像帧，目标图像帧的起始播放时刻滞后于多个第一参考图像帧的结束播放时刻，且目标图像帧的结束播放时刻早于多个第二参考图像帧的起始播放时刻。

在本实施例中，拍摄目标用户实施目标工序时的视频流时，根据预设的识别时刻间隔确定视频流中与第一时刻对应的目标图像帧，其中，第一时刻可以理解为待识别动作类型的识别时刻。

也可以理解，在本实施例中，根据预设的识别时刻间隔每隔预设的时间间隔识别对应目标图像帧，比如，当预设的识别时刻间隔为0.04s，则可以每隔0.04s确定一个识别时刻来识别对应的目标图像帧。

其中，视频流拍摄的图像帧的拍摄间隔可以根据摄像头的硬件配置等设置，若在第一时刻下没有拍摄时间一致的图像帧时，可以将距离第一时刻下拍摄时间最为接近的一帧图像帧作为目标图像帧。当在第一时刻下有拍摄时间一致的图像帧时，则将对应的图像帧作为目标图像帧。

可以理解的是，为了提升判断的准确性，在本实施例中，不仅仅判断目标图像帧，还针对其前面和后面的相邻图像帧共同参考来确定目标图像帧中包含的动作类型等。

在本实施例中，目标图像帧的起始播放时刻滞后于多个第一参考图像帧的结束播放时刻，比如，多个第一参考图像帧可以为在目标图像帧之前相邻的连续n帧第一参考图像帧，目标图像帧的结束播放时刻早于多个第二参考图像帧的起始播放时刻，比如，多个第二参考图像帧可以为在目标图像帧之后相邻的连续n帧第二参考图像帧，其中，n为大于1的自然数。当然，第二参考图像帧和第一参考图像帧的数量可以相同也可以不同，在此不作限制。

举例而言，第一时刻对应的目标图像帧为F_t，则对应的第一参考图像帧包括{F_t-n,…，F_t-1}，对应的第二参考图像帧包括{ F_t+1，…，F_t+n}。

步骤303，根据目标图像帧、多个第一参考图像帧、和多个第二参考图像帧，得到第一位置序列和第二位置序列。

第一位置序列包括目标工具的工具关键点位置信息，第二位置序列包括目标用户的肢体关键点位置信息。

在本实施例中，根据多个第一参考图像帧、目标图像帧、和多个第二参考图像帧获取包括目标工具的工具关键点位置信息的序列的第一位置序列，以及包括目标用户的肢体关键点位置信息的序列的第二位置序列。

在一些可能的实施例中，将目标图像帧、多个第一参考图像帧和多个第二参考图像帧输入第一预设模型，以获取目标用户持有的目标工具的工具关键点位置信息序列，比如，将{F_t-n,…，F_t-1，F_t，F_t+1，…，F_t+n}作为一组图像帧序列逐个输入第一预设模型，以获取每个图像帧对应的工具关键点位置信息，进而，获取该工具关键点位置信息序列，或者，将{F_t-n,…，F_t-1，F_t，F_t+1，…，F_t+n}作为一组图像帧序列一次性输入第一预设模型，直接获取工具关键点位置信息的序列对应的第一位置序列。

其中，不同工序下对应于同一个目标工具的第一预设模型可以复用，以提高第一预设模型的通用性。

需要强调的是，本实施例中的目标工具属于用户实施目标工序时可以用到的关联工具，比如，可以是扳手等，当关联工具的数量为多个时，第一预设模型针对每个关联工具对应的样本图像训练得到，每个关联工具的工具关键点位置信息序列的获取方式与目标工具的获取方式类似。另外，本实施例中的工具关键点位置信息对应的关键点，可以为目标工具中任意伴随使用的过程会进行位置变化的点，该关键点可以为一个也可以为多个，对应的工具关键点位置信息包括对应目标工具的坐标信息，举例而言，如图4所示，当目标工具为扳手时，其对应的工具关键点位置信息对应的关键点位于扳手的手柄上。

为了便于描述，本实施例中以目标工具为例进行第一预设模型的识别和训练的说明。

在本申请的一些可能的实施例中，当多个第一参考图像帧和第二参考图像均为n帧时，在将n帧第一参考图像帧、目标图像帧、和n帧第二参考图像帧输入第一预设模型之前，获取包含目标工序中的目标工具对应的第一样本图像帧，为了提升训练的精度，该第一样本图像帧来源于任意用户通过目标工具执行目标工序时的视频流，并且该第一样本图像中的第一样本工具关键点位置信息，可为预先标标注的第一样本工具关键点位置信息。

进而，根据第一样本图像帧和第一样本工具关键点位置信息训练获取第一预设模型，比如，将第一样本图像输入对应的初始第一预设模型，获取该第一预设模型输出的样本工具关键点位置信息，根据损失函数计算输出的样本工具关键点位置信息和第一样本工具关键点位置信息的位置差值，当样本工具关键点为多个时，对应的第一样本工具关键点位置信息的损失值为所有样本工具关键点的位置差值的均值等。

进而，判断每帧第一样本图像帧的位置差值是否大于等于预设差值阈值，若是大于预设差值阈值则修改初始第一预设模型的模型参数，直至初始第一预设模型输出的每帧第一样本图像帧的位置差值小于等于对应的预设差值阈值，则完成对第一预设模型的训练。

在一些可能的实施例中，当多个第一参考图像帧和第二参考图像均为n帧时，将n帧第一参考图像帧、目标图像帧、和n帧第二参考图像帧输入第二预设模型，获取目标用户的肢体关键点位置信息序列。

在本实施例中，将n帧第一参考图像帧、目标图像帧、和n帧第二参考图像帧输入第二预设模型，该第二预设模型用于提取用户的肢体关键点信位置信息，该用户的肢体关键点信息包括但不限于指尖、胳膊肘、眼睛、鼻尖等和人体动作关联的点。

其中，该第二预设模型仅需要根据实际动作进行视频帧打标，打标过程简单，模型训练方便，通用性高。

在本实施例中，将n帧第一参考图像帧、目标图像帧、和n帧第二参考图像帧输入第二预设模型，以获取持有目标工具的目标用户的肢体关键点位置信息序列，比如，将{F_t-n,…，F_t-1，F_t，F_t+1，…，F_t+n}作为一组图像帧序列逐个输入第二预设模型，以获取每个图像帧对应的目标用户的肢体关键点位置信息，进而，获取该用户的肢体关键点位置信息序列，或者，将{F_t-n,…，F_t-1，F_t，F_t+1，…，F_t+n}作为一组图像帧序列一次性输入第二预设模型，直接获取目标用户的肢体关键点位置信息序列。

在本申请的一个实施例中，在将n帧第一参考图像帧、目标图像帧、和n帧第二参考图像帧输入第二预设模型之前，获取包含任意用户的肢体图像的第二样本图像帧，该任意用户可以从执行目标工序时的拍摄的视频流中提取，且标注第二样本图像帧的第一样本肢体关键点位置信息，根据第二样本图像帧和第一样本肢体关键点位置信息训练获取第二预设模型。

比如，将第二样本图像输入对应的初始第二预设模型，获取该第二预设模型输出的样本肢体关键点位置信息，根据对应的损失函数计算输出的样本肢体关键点位置信息和第一样本肢体关键点位置信息的位置差值，当肢体关键点为多个时，对应的第一样本肢体关键点位置信息的位置差值即损失值，为所有输出的样本肢体关键点位置信息的位置差值的均值等，判断每帧第二样本图像帧的位置差值是否大于等于预设差值阈值，若是大于预设差值阈值则修改初始第二预设模型的模型参数，直至初始第二预设模型输出的位置差值小于等于对应的预设差值阈值，则完成对第二预设模型的训练。

步骤305，根据第一位置序列和第二位置序列，得到目标图像帧中目标用户的目标动作类型。

在本实施例中，提取的第一位置序列和第二位置序列将组成一个时序结构数据，用来表示人体的姿态变化和人体与工具间的位置关系变化。

举例而言，如图5所示，当目标工具为“扳手”，目标用户的肢体关键点如图5所示时，则根据对应的工具关键点位置信息序列和肢体关键点位置信息序列组成的时序结构数据，反映了目标工具和人体肢体之间的关键点在位置关系以及时间关系两个维度的关系变化，图中n为2，第一参考视图像帧为A1和A2，目标图像帧为A3，第二参考图像帧为A4和A5。

在一些可能的实施例中，可以通过第三预设模型得到目标动作类型，其中，第三预设模型可以为时空图卷积神经网络模型等，第三预设模型将有效的分析以上关键位置信息之间的变化的关系，包括相同图像帧下的不同关键点的位置信息等。

需要强调的是，在训练第三预设模型时，学习得到目标工序下每个动作类型下使用的，每个工具的工具关键点位置信息序列对应的第一位置序列，和肢体关键点位置信息序列对应的第二位置序列的位置关系等，因此，需要预先获取目标工序下包含的动作类型，以及完成动作时需要使用到的工具，训练每个工具的识别工具的工具关键点位置信息的第一预设模型，以及训练执行每个动作类型下检测肢体关键点位置信息的第二预设模型，进而，基于目标工序下每个动作类型下使用的，每个工具的关键点位置信息序列和肢体关键点位置信息序列的位置关系训练第三预设模型。

在训练过程中，将完成目标工序时的一段时间内的视频流按照工序分类要求切分成不同的视频流段，每个视频流段对应于一个动作类型，比如，当目标工序包括识别安装螺钉，安装螺钉，整理线束，标记零件，填写单据五个动作类型时，则可以将拍摄的一段时间用户执行目标工序时的视频流，拆分为与每个动作类型对应的视频流段，据此切分对每一帧的图像帧进行分类打标，将固定长度的连续图像帧通过物体检测模型（第一预设模型）和人体骨架模型（第二预设模型）转化为结构化数据，作为第三预设模型的输入特征。

将连续图像帧中的中间图像帧即目标图像帧，作为模型的动作类型标签，使用第三预设模型对动作类型进行第三预设模型训练，应用第三预设模型进行准实时的动作类型的识别。从而，固定长度的连续图像帧通过二阶段模型，完成信息特征的提取和动作类型的分类。根据动作类型的分类进行后处理规则判断，最终实现工人工作动作的识别和监控判断。

为了使得本领域的技术人员更加清楚上述实施例中提到的第三预设模型的训练过程，下面以用户当前执行的目标动作类型对应的第三预设模型的训练过程为例，说明如何训练第三预设模型。

其中，在本实施例中，为了考虑不同图像帧下相同关键点的位置信息及不同图像帧下不同关键点的位置信息等，在训练时还精简了对应的肢体关键点。在本实施例中，多个第一参考图像帧和第二参考图像均为n帧。描述如下：

在本实施例中，第三预设模型的训练过程如图6所示，将工具关键点位置信息序列和肢体关键点位置信息序列输入第三预设模型之前，包括：

步骤601，获取包含用户完成目标工序时执行目标动作类型时的多个样本图像集合。

在本实施例中，该用户可以为任意完成目标工序时执行目标动作类型的任何一个用户，其中，每个样本图像集合中包括执行所述目标动作类型时第三样本图像帧，在第三样本图像帧之前相邻的连续n帧样本图像帧，和，在第三样本图像帧之后相邻的连续n帧样本图像帧。

在本实施例中，多个样本图像集合对应的样本图像帧可以来源于：在不同的时间段采集的同一个用户执行目标工序时执行目标动作类型时拍摄的视频流，也可以是同一个时段内针对不同用户执行目标工序时执行目标动作类型时拍摄的视频流，或者可以是不同时段下来源于不同用户执行目标工序时执行目标动作类型时拍摄的视频流。

步骤602，获取每个样本图像集合中的每帧样本图像帧中的用户持有的目标工具的第二样本工具关键点位置信息。

在本实施例中，获取每个样本图像集合中的每帧样本图像帧中的、用户持有的目标工具的第二样本工具关键点位置信息，该第二样本工具关键点位置信息可以是预先标注的。

步骤603，获取每个样本图像集合中的每帧样本图像帧中的用户的第二样本肢体关键点位置信息。

在本实施例中，获取每个样本图像集合中的每帧样本图像帧中的、用户的第二样本肢体关键点位置信息，该第二样本肢体关键点位置信息可以是预先标注的。

步骤604，查询预设的数据库获取每帧第三样本图像帧中与目标工具对应的关联肢体关键点。

在本实施例中，考虑到用户持有不同的工具时，并非是与所有的肢体关键点都有关系，使用不同的工具关联的肢体关键点不同，当使用的工具为“扳手”时，其关联肢体关键点为肩膀关键点、胳膊肘关键点、手腕关键点等，因此，预先设置数据库，该数据库中包含不同的工具和对应的关联肢体关键点的对应关系，因此，查询预设的数据库获取每帧第三样本图像帧中与目标工具对应的关联肢体关键点。

步骤605，提取第二肢体关键点位置信息中与关联肢体关键点匹配的目标样本肢体关键点位置信息。

在本实施例中，提取样本图像集合中的每帧样本图像帧的第二肢体关键点位置信息中与关联肢体关键点匹配的目标样本肢体关键点位置信息，从而，降低了对模型的算力要求。

步骤606，根据多个样本图像集合对应的所有第二样本工具关键点位置信息和所有目标样本肢体关键点位置信息，和目标动作类型训练获取第三预设模型。

在本实施例中，根据多个样本图像集合对应的所有第二样本工具关键点位置信息，和所有目标样本肢体关键点位置信息，和目标动作类型训练获取第三预设模型。

在一些可能的实施例中，还可以根据目标工具作用的零件类型训练第三预设模型，其中，该零件类型包括“螺丝钉”、“传送带”等，在训练第三预设模型时，除了输入多个样本图像集合对应的所有第二样本工具关键点位置信息，和所有目标样本肢体关键点位置信息之外，还输入目标工具对应的零件类型标签等，保证第三预设模型在识别动作类型时还考虑零件类型，进一步提升了动作类型识别的精确度。

需要说明的是，在不同的应用场景中，根据多个样本图像集合对应的所有第二样本工具关键点位置信息，和所有目标样本肢体关键点位置信息，和目标动作类型训练获取第三预设模型的方式不同，示例说明如下：

在本申请的一个实施例中，根据工厂实际使用场景，嵌入关键点位置之间的关系信息，增加模型的准确性，减少数据需求量。如图6所示，可嵌入肩部关键点间的关系，腿部关键点间的关系，手与工具的关系等来训练对应的第三预设模型。

在本实施例中，根据每个样本图像集合对应的所有第二样本工具关键点位置信息，和所有目标样本肢体关键点位置信息生成关键点位置关系矩阵，其中，该关键点位置关系矩阵可以为一个也可以为多个，即在本实施例中，根据执行目标动作类型时关键点之间的联系，将目标样本肢体关键点拆分为多组，每组目标样本肢体关键点之间的位置互相关联，生成每组目标样本肢体关键点对应的关键点位置关系矩阵，进而，根据多个样本图像集合的所有关键点位置关系矩阵和目标动作类型训练获取第三预设模型，在训练第三预设模型时，可以根据损失函数等来计算，在此不再赘述。

综上，本申请实施例的动作识别方法，在识别目标图像帧的动作类型时，一方面，结合目标图像帧之前的多个第一参考图像帧，和目标图像帧之后的多个第二参考图像帧，共同确定动作类型，提升动作类型确定的准确性，另一方面，结合目标工具的工具关键点的第一位置序列，以及目标用户的肢体关键点的第二位置序列这关键点位置信息进行时空分析，从而进一步提升了动作类型确定的准确率，提升了动作类型确定的鲁棒性。

基于上述实施例，为了方便对工人的管理，提升生产效率，还可以基于识别的目标动作类型进行对应工序下的工人安排等。如图8所示，在本申请的一个实施例中，该方法还包括：

步骤801，获取预设时长内连续多个第一时刻对应的多类目标动作类型。

在本申请的实施例中，正如在训练过程中将用户执行目标工序时的视频流按照动作类型拆分，可以根据多个第一时刻获取每个第一时刻对应的目标动作类型，当多个第一时刻对应的预设时长较长即大于执行目标工序时的通常执行时长，则对应的预设时长内多个第一时刻下识别得到的目标动作类型，应当包含类型不同的多类目标动作类型，该多个不同的目标动作类型为该用户执行目标工序时的执行动作顺序。其中，第一时刻间隔根据实验数据标定，第一时刻间隔限制了可以准确捕捉到每类动作类型下的目标图像帧。

步骤802，按照第一时刻间隔对应的第一时刻由前到后的顺序，对多类目标动作类型排序生成目标排序结果。

在本实施例中，按照第一时刻间隔对应的第一时刻由前到后的顺序，对多类目标动作类型排序生成目标排序结果，该多类目标动作类型标识用户完成目标工序时的动作顺序。

步骤803，若目标排序结果与标准排序结果不一致，则获取用户与目标工序对应的当前操作得分，并对当前操作得分和预设单位分值相减计算，并根据相减计算的结果更新当前操作得分。

在本实施例中，判断目标排序结果是否与目标工序对应的标准排序结果一致。

其中，标准排序结果为根据目标工序的操作流程规定的动作类型的执行顺序，判断目标排序结果是否与目标工序对应的标准排序结果一致，以确动作类型的执行顺序是否符合操作规定。在本实施例中，若是与标准排序结果不一致，则获取目标用户与目标工序对应的当前操作得分，即可以预先获取每个目标工序安排的用户的学历信息、工作经验信息等资历信息，根据资历信息确定每个用户的初始操作等分，若当前是第一次判断，则当前操作得分为初始操作得分。

进而，对当前操作得分和预设单位分值相减计算，并根据相减计算的结果更新当前操作得分，即对操作失误的用户进行减分。

进一步地，可以基于当前操作得分进行工人管理。

在本申请的一个实施例中，获取所述目标用户实施所述目标工序时的初始操作得分，即预先获取每个目标工序安排的用户的学历信息、工作经验信息等资历信息，根据资历信息确定每个用户的初始操作等分，计算当前操作得分和初始操作得分的得分差值，得分差值代表体现了目标用户实施出错的情况，根据得分差值确定目标用户实施目标工序的出错率，比如对得分差值进行归一化处理后得到对应的出错率，又比如，获取当前目标用户执行目标工序的总次数，基于得分差值和总次数的比值确定出错率。

在本申请的一个实施例中，在得到出错率之后，获取目标工序的工序标识，获取目标用户的用户标识，根据用户标识、工序标识和出错率生成装配报告，以便于根据该装配报告使得有关人员获知对应的出错工序是什么，出错率等。

在本申请的一个实施例中，判断目标工序对应的所有用户的当前操作得分是否小于预设得分阈值，该所有用户为执行目标工序对应的所有安排的用户，得分阈值根据实验数据标定。若所有用户中的目标用户的当前操作得分小于预设得分阈值，则表明可能目标用户不适合对应的目标工序，因此，向预设的控制平台发送携带目标用户的用户标识的报警消息，该用户标识包括用户编号等可以唯一定位用户的信息，控制平台收到对应的报警消息后，可以提示有关管理人员更换目标用户的作业工序等。

在本申请的一个实施例中，在目标时段内，目标工序所在的装配生产线还包括多个工序，获取操作得分集合，操作得分集合包括目标工序所在的装配生产线中各工序对应的操作总分，操作总分包括目标时段内，装配生产线上的每个工序对应的所有用户的所有当前操作得分的得分之和，比如，工序A安排了3个用户，该3个用户的当前操作总分作为该工序A的得分和，其中，当一个工序安排了多个用户作业时，多个用户可以同时工作也可以轮询工作，不作限制。

进而，根据操作总分得到装配生产线上的每个工序的热力值分布信息，比如，对操作总分进行归一化处理得到对应的热力值等，进而，根据装配生产线上所有工序对应的所有热力值生成装配生产线的热力图，比如，查询预设对应关系确定每个工序对应的颜色，基于颜色体现每个工序的热力值等，向预设的控制平台发送热力图，以使得控制平台显示热力图。以便于控制平台的工作人员根据热力图及时调整每个工序中安排的作业用户等。

在本实施例中，当用户在不同的时间段在不同的目标工序上作业时，也可以根据该用户在不同的目标工序上的当前操作得分值确定其在每个目标工序上的作业的时长等，比如，在其当前操作得分值较高的目标工序上安排较长作业时长等。

在一些可能的实施例中，为了进一步实现装配生产线的生产效率，还可以获取第一时刻下，每个工序对应的当前用户的当前操作得分，基于当前操作得分生成对应工序的热力值，基于所有工序的当前的热力值生成热力图，有助于对装配生产线的实时控制。

在本实施例中，还可以在目标排序结果与所述目标工序对应的标准排序结果不一致时，确定不一致的目标动作类型，统计在预设的时长内对应用户针对每个动作类型出错的频次等，基于出错的目标动作类型和频次生成对应用户的作业报告，以便于管理人员根据该报告进行用户的工作分配。

或者，在本申请的一个实施例中，若是确定不一致的目标动作类型后，判断目标动作类型是否属于预设的安全等级较高的动作类型，若属于预设的安全等级较高的动作类型，则直接生成报警信息，以便于管理人员及时干预，以保证生产活动的正常进行等。

综上，本申请实施例的动作识别方法，还可以根据识别的动作类型确定目标工序上用户的当前操作得分等，便于后续对容易出错的工序进行改善、对出错率高的用户进行工序工位调动等。

为了实现上述实施例，本申请还提出了一种动作识别装置。

图9为本申请实施例提供的一种动作识别装置的结构示意图，该装置可由软件和/或硬件实现，一般可集成在服务器中。如图9所示，该装置包括：

收发模块910，用于获取视频流，视频流包括目标用户使用目标工具实施目标工序时的多个图像帧；

处理模块920，用于从多个图像帧中确定与第一时刻对应的目标图像帧、第一图像集合和第二图像集合，第一图像集合包括多个第一参考图像帧，第二图像集合包括多个第二参考图像帧，目标图像帧的起始播放时刻滞后于多个第一参考图像帧的结束播放时刻，且目标图像帧的结束播放时刻早于多个第二参考图像帧的起始播放时刻；

可以理解的是，为了提升判断的准确性，在本实施例中，处理模块920不仅仅判断目标图像帧，还针对其前面和后面的相邻图像帧共同参考来确定目标图像帧中包含的动作类型等。

处理模块920，还用于根据目标图像帧、多个第一参考图像帧、和多个第二参考图像帧，得到第一位置序列和第二位置序列，第一位置序列包括目标工具的工具关键点位置信息；第二位置序列包括目标用户的肢体关键点位置信息；

在本实施例中，处理模块920，根据多个第一参考图像帧、目标图像帧、和多个第二参考图像帧获取包括目标工具的工具关键点位置信息的序列的第一位置序列，以及包括目标用户的肢体关键点位置信息的序列的第二位置序列。

在一些可能的实施例中，处理模块920将目标图像帧、多个第一参考图像帧和多个第二参考图像帧输入第一预设模型，以获取目标用户持有的目标工具的工具关键点位置信息序列，比如，将{F_t-n,…，F_t-1，F_t，F_t+1，…，F_t+n}作为一组图像帧序列逐个输入第一预设模型，以获取每个图像帧对应的工具关键点位置信息，进而，获取该工具关键点位置信息序列，或者，将{F_t-n,…，F_t-1，F_t，F_t+1，…，F_t+n}作为一组图像帧序列一次性输入第一预设模型，直接获取工具关键点位置信息的序列对应的第一位置序列。

处理模块920，用于根据第一位置序列和第二位置序列，得到目标图像帧中目标用户的目标动作类型。

在本实施例中，处理模块920可以通过第三预设模型得到目标动作类型，其中，第三预设模型可以为时空图卷积神经网络模型等，第三预设模型将有效的分析以上关键位置信息之间的变化的关系，包括相同图像帧下的不同关键点的位置信息等。

需要说明的是，本申请实施例的动作识别装置可以参照结合图1-图7描述的测试动作识别方法实施例，其实现原理类似，在此对有些技术细节不再赘述。

综上，本申请实施例的动作识别装置，在识别目标图像帧的动作类型时，一方面，结合目标图像帧之前的多个第一参考图像帧，和目标图像帧之后的多个第二参考图像帧，共同确定动作类型，提升动作类型确定的准确性，另一方面，结合目标工具的工具关键点的第一位置序列，以及目标用户的肢体关键点的第二位置序列这关键点位置信息进行时空分析，从而进一步提升了动作类型确定的准确率，提升了动作类型确定的鲁棒性。

基于上述实施例，为了方便对工人的管理，提升生产效率，还可以基于识别的目标动作类型进行对应工序下的工人安排等。

在本申请的一个实施例中，处理模块920，还用于获取预设时长内连续多个第一时刻对应的多类目标动作类型；

在本实施例中，正如在训练过程中将用户执行目标工序时的视频流按照动作类型拆分，处理模块920可以根据多个第一时刻获取每个第一时刻对应的目标动作类型，当多个第一时刻对应的预设时长较长即大于执行目标工序时的通常执行时长，则对应的预设时长内多个第一时刻下识别得到的目标动作类型，应当包含类型不同的多类目标动作类型，该多个不同的目标动作类型为该用户执行目标工序时的执行动作顺序。其中，第一时刻间隔根据实验数据标定，第一时刻间隔限制了可以准确捕捉到每类动作类型下的目标图像帧。

处理模块920按照第一时刻由前到后的顺序，对多类目标动作类型排序生成目标排序结果；

在本实施例中，处理模块920按照第一时刻间隔对应的第一时刻由前到后的顺序，对多类目标动作类型排序生成目标排序结果，该多类目标动作类型标识用户完成目标工序时的动作顺序。

处理模块920在目标排序结果与标准排序结果不一致时，获取用户与目标工序对应的当前操作得分；

在本实施例中，处理模块920进一步判断目标排序结果是否与目标工序对应的标准排序结果一致。

其中，标准排序结果为根据目标工序的操作流程规定的动作类型的执行顺序，判断目标排序结果是否与目标工序对应的标准排序结果一致，以确定动作类型的执行顺序是否符合操作规定。在本实施例中，若是处理模块920判断获知与标准排序结果不一致，则获取目标用户与目标工序对应的当前操作得分，即可以预先获取每个目标工序安排的用户的学历信息、工作经验信息等资历信息，根据资历信息确定每个用户的初始操作等分，若当前是第一次判断，则当前操作得分为初始操作得分。

处理模块920对当前操作得分和预设单位分值相减计算，并根据相减计算的结果更新当前操作得分。

在本实施例中，处理模块920对当前操作得分和预设单位分值相减计算，并根据相减计算的结果更新当前操作得分，即对操作失误的用户进行减分。

进一步地，可以基于当前操作得分进行工人管理。

在本申请的一个实施例中，处理模块920，用于获取所述目标用户实施所述目标工序时的初始操作得分；

处理模块920，还用于计算所述当前操作得分和所述初始操作得分的得分差值；

处理模块920，还用于根据所述得分差值确定所述目标用户实施所述目标工序的出错率。

在本实施例中，处理模块920获取所述目标用户实施所述目标工序时的初始操作得分，即预先获取每个目标工序安排的用户的学历信息、工作经验信息等资历信息，根据资历信息确定每个用户的初始操作等分，处理模块920计算当前操作得分和初始操作得分的得分差值，得分差值代表体现了目标用户实施出错的情况，处理模块920根据得分差值确定目标用户实施目标工序的出错率，比如对得分差值进行归一化处理后得到对应的出错率，又比如，获取当前目标用户执行目标工序的总次数，基于得分差值和总次数的比值确定出错率。

在本申请的一个实施例中，处理模块920，还用于获取所述目标工序的工序标识并获取所述目标用户的用户标识；

处理模块920，还用于根据所述用户标识、所述工序标识和所述出错率生成装配报告。

在本实施例中，在得到出错率之后，处理模块920获取目标工序的工序标识，处理模块920获取目标用户的用户标识，处理模块920根据用户标识、工序标识和出错率生成装配报告，以便于根据该装配报告使得有关人员获知对应的出错工序是什么，出错率等。

在本申请的一个实施例中，

处理模块920在所述当前操作得分小于预设得分阈值时，则向预设的控制平台发送携带所述目标用户的用户标识的报警消息。

在本实施例中，处理模块920判断目标工序对应的所有用户的当前操作得分是否小于预设得分阈值，该所有用户为执行目标工序对应的所有安排的用户，得分阈值根据实验数据标定。若所有用户中的目标用户的当前操作得分小于预设得分阈值，则表明可能目标用户不适合对应的目标工序，因此，收发模块910向预设的控制平台发送携带目标用户的用户标识的报警消息，该用户标识包括用户编号等可以唯一定位用户的信息，控制平台收到对应的报警消息后，可以提示有关管理人员更换目标用户的作业工序等。

在本申请的一个实施例中，在目标时段内，所述目标工序所在的装配生产线还包括多个工序；处理模块920，还用于获取操作得分集合，所述操作得分集合包括所述目标工序所在的装配生产线中各工序对应的操作总分，所述操作总分包括所述目标时段内，所述装配生产线上的每个工序对应的所有用户的所有所述当前操作得分的得分之和；

处理模块920根据所述操作总分得到所述装配生产线上的每个工序的热力值分布信息；

在处理模块920获取到对应的热力值分布信息后，处理模块920还用于根据所述装配生产线中各工序对应的所有所述热力值分布信息生成所述装配生产线的热力图；

进一步地，处理模块920还用于向预设的控制平台发送所述热力图。

在目标时段内，目标工序所在的装配生产线还包括多个工序，处理模块920获取操作得分集合，操作得分集合包括目标工序所在的装配生产线中各工序对应的操作总分，操作总分包括目标时段内，装配生产线上的每个工序对应的所有用户的所有当前操作得分的得分之和。

进而，处理模块920根据操作总分得到装配生产线上的每个工序的热力值分布信息，比如，对操作总分进行归一化处理得到对应的热力值等，进而，处理模块920根据装配生产线上所有工序对应的所有热力值生成装配生产线的热力图，比如，查询预设对应关系确定每个工序对应的颜色，基于颜色体现每个工序的热力值等，收发模块910向预设的控制平台发送热力图，以使得控制平台显示热力图。以便于控制平台的工作人员根据热力图及时调整每个工序中安排的作业用户等。

在本申请的一个实施例中，处理模块920还用于在目标排序结果与所述标准排序结果一致，获取目标用户与所述目标工序对应的当前操作得分；

处理模块920还用于对所述当前操作得分和预设单位分值求和计算，处理模块920根据所述求和计算的结果更新所述当前操作得分。

需要说明的是，本申请实施例的动作识别装置可以参照结合图8描述的测试动作识别方法实施例，其实现原理类似，在此对有些技术细节不再赘述。

综上，本申请实施例的动作识别装置，还可以根据识别的动作类型确定目标工序上用户的当前操作得分等，便于后续对容易出错的工序进行改善、对出错率高的用户进行工序工位调动等。

图10为本申请实施例提供的一种服务器的结构示意图。

下面具体参考图10，其示出了适于用来实现本申请实施例中的服务器1000的结构示意图。本申请实施例中的服务器1000可以包括但不限于本地服务器和云服务器。图10示出的服务器仅仅是一个示例，不应对本申请实施例的功能和使用范围带来任何限制。

如图10所示，服务器1000可以包括处理器（例如中央处理器、图形处理器等）1001，其可以根据存储在只读存储器（ROM）1002中的程序或者从存储器1008加载到随机访问存储器（RAM）1003中的程序而执行各种适当的动作和处理。在RAM 1003中，还存储有服务器1000操作所需的各种程序和数据。处理器1001、ROM 1002以及RAM 1003通过总线1004彼此相连。输入/输出（I/O）接口1005也连接至总线1004。

通常，以下装置可以连接至I/O接口1005：包括例如摄像头等的输入装置1006；包括例如液晶显示器（LCD）等用于显示上述实施例的热力图的输出装置1007；包括例如磁带、硬盘等的存储器1008；以及通信装置1009。通信装置1009可以允许服务器1000与其他设备进行无线或有线通信以交换数据。虽然图10示出了具有各种装置的服务器1000，但是应理解的是，并不要求实施或具备所有示出的装置。可以替代地实施或具备更多或更少的装置。

在一些实施方式中，服务器可以利用诸如HTTP（HyperText Transfer Protocol，超文本传输协议）之类的任何当前已知或未来研发的网络协议与摄像设备等进行通信，并且可以与任意形式或介质的数字数据通信（例如，通信网络）互连。通信网络的示例包括局域网（“LAN”），广域网（“WAN”），网际网（例如，互联网）以及端对端网络（例如，ad hoc端对端网络），以及任何当前已知或未来研发的网络。

特别地，根据本申请的实施例，上文参考流程图描述的过程可以被实现为计算机软件程序，该计算机程序/指令被处理器执行时实现上述结合图1-图8描述的所有动作识别方法对应的实施例。该计算机程序包含用于执行流程图所示的方法的程序代码。在这样的实施例中，该计算机程序可以通过通信装置1009从网络上被下载和安装，或者从存储器1008被安装，或者从ROM 1002被安装。在该计算机程序被处理器1001执行时，执行本申请图1-图8描述的所有动作识别方法对应的实施例中限定的上述功能。

为了实现上述实施例，本申请还提出了一种计算机可读介质，该计算机可读介质可以是上述服务器中所包含的，也可以是单独存在，而未装配入该服务器中。

上述计算机可读介质承载有一个或者多个程序，当上述一个或者多个程序被该服务器执行时，使得该服务器：获取视频流，视频流包括目标用户使用目标工具实施目标工序时的多个图像帧，从多个图像帧中确定与第一时刻对应的目标图像帧、第一图像集合和第二图像集合，根据目标图像帧、多个第一参考图像帧、和多个第二参考图像帧，得到第一位置序列和第二位置序列，进而，根据第一位置序列和第二位置序列，得到目标图像帧中目标用户的目标动作类型。从而，一方面，结合目标图像帧之前的多个第一参考图像帧，和目标图像帧之后的多个第二参考图像帧，共同确定动作类型，提升动作类型确定的准确性，另一方面，结合目标工具的工具关键点的第一位置序列，以及目标用户的肢体关键点的第二位置序列这关键点位置信息进行时空分析，从而进一步提升了动作类型确定的准确率，提升了动作类型确定的鲁棒性。

以上所述仅是本申请的具体实施方式，使本领域技术人员能够理解或实现本申请。对这些实施例的多种修改对本领域的技术人员来说将是显而易见的，本文中所定义的一般原理可以在不脱离本申请的精神或范围的情况下，在其它实施例中实现。因此，本申请将不会被限制于本文所述的这些实施例，而是要符合与本文所申请的原理和新颖特点相一致的最宽的范围。

Claims

1.一种动作识别方法，其特征在于，包括以下步骤：

获取视频流，所述视频流包括目标用户使用目标工具实施目标工序时的多个图像帧，其中所述目标工序是装配生产线上的任意一个工序；

从所述多个图像帧中确定与第一时刻对应的目标图像帧、第一图像集合和第二图像集合，所述第一图像集合包括多个第一参考图像帧，所述第二图像集合包括多个第二参考图像帧，所述目标图像帧的起始播放时刻滞后于所述多个第一参考图像帧的结束播放时刻，且所述目标图像帧的结束播放时刻早于所述多个第二参考图像帧的起始播放时刻；

根据在所述视频流中的顺序分别提取所述目标图像帧、多个所述第一参考图像帧和多个所述第二参考图像帧中每一帧图像中所述目标用户的肢体关键点位置信息和工具关键点位置信息，其中所述工具关键点位置信息是将所述目标图像帧、多个所述第一参考图像帧和多个所述第二参考图像帧输入第一预设模型后得到，其中所述肢体关键点位置信息是将所述目标图像帧、所述第一参考图像帧和所述第二参考图像帧输入第二预设模型后得到；

根据属于同一图像帧的肢体关键点位置信息和工具关键点位置信息构建位置关系图像帧；

根据所有所述图像帧对应的位置关系帧获取时序结构图像序列；

将所述时序结构图像序列输入第三预设模型以得到所述目标图像帧中所述目标用户的目标动作类型，其中所述第三预设模型是根据所述肢体关键点位置信息、工具关键点位置信息和目标动作类型进行训练得到；

所述方法还包括：

获取预设时长内连续多个所述第一时刻对应的多类所述目标动作类型；

按照所述第一时刻由前到后的顺序，对多类所述目标动作类型排序生成目标排序结果；

若所述目标排序结果与标准排序结果不一致，则获取所述目标用户与所述目标工序对应的当前操作得分；

对所述当前操作得分和预设单位分值相减计算，并根据所述相减计算的结果更新所述当前操作得分。

2.如权利要求1所述的动作识别方法，其特征在于，在所述根据所述相减计算的结果更新所述当前操作得分之后，还包括：

获取所述目标用户实施所述目标工序时的初始操作得分；

计算所述当前操作得分和所述初始操作得分的得分差值；

根据所述得分差值确定所述目标用户实施所述目标工序的出错率。

3.如权利要求2所述的动作识别方法，其特征在于，在所述根据所述得分差值确定所述目标用户实施所述目标工序的出错率之后，还包括：

获取所述目标工序的工序标识；

获取所述目标用户的用户标识；

根据所述用户标识、所述工序标识和所述出错率生成装配报告。

4.如权利要求1所述的动作识别方法，其特征在于，在所述根据所述相减计算的结果更新所述当前操作得分之后，还包括：

在所述当前操作得分小于预设得分阈值时，则向预设的控制平台发送携带所述目标用户的用户标识的报警消息。

5.如权利要求1所述的动作识别方法，其特征在于，在目标时段内，所述目标工序所在的装配生产线还包括多个工序；在所述根据所述相减计算的结果更新所述当前操作得分之后，所述方法还包括：

获取操作得分集合，所述操作得分集合包括所述目标工序所在的装配生产线中各工序对应的操作总分，所述操作总分包括所述目标时段内，所述装配生产线上的每个工序对应的所有用户的所有所述当前操作得分的得分之和；

根据所述操作总分得到所述装配生产线上的每个工序的热力值分布信息；

根据所述得分集合得到热力值分布信息，所述热力值分布信息包括所述各工序的热力值；

根据所述装配生产线中各工序对应的所有所述热力值分布信息生成所述装配生产线的热力图；

向预设的控制平台发送所述热力图。

6.如权利要求1所述的动作识别方法，其特征在于，在所述按照所述第一时刻由前到后的顺序，对多类所述目标动作类型排序生成目标排序结果之后，还包括：

若所述目标排序结果与所述标准排序结果一致，则获取所述目标用户与所述目标工序对应的当前操作得分；

对所述当前操作得分和预设单位分值求和计算，并根据所述求和计算的结果更新所述当前操作得分。

7.一种动作识别装置，其特征在于，包括：

收发模块，用于获取视频流，所述视频流包括目标用户使用目标工具实施目标工序时的多个图像帧，其中所述目标工序是装配生产线上的任意一个工序；

处理模块，用于从所述收发模块获取的所述多个图像帧中确定与第一时刻对应的目标图像帧、第一图像集合和第二图像集合；根据在所述视频流中的顺序分别提取所述目标图像帧、多个第一参考图像帧和多个第二参考图像帧中每一帧图像中所述目标用户的肢体关键点位置信息和工具关键点位置信息，其中所述工具关键点位置信息是将所述目标图像帧、多个所述第一参考图像帧和多个所述第二参考图像帧输入第一预设模型后得到，其中所述肢体关键点位置信息是将所述目标图像帧、所述第一参考图像帧和所述第二参考图像帧输入第二预设模型后得到；

8.一种服务器，其特征在于，所述服务器包括：

处理器；

用于存储所述处理器可执行指令的存储器；

所述处理器，用于从所述存储器中读取所述可执行指令，并执行所述可执行指令以实现上述权利要求1-6中任一所述的动作识别方法。

9.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质存储有计算机程序，所述计算机程序用于执行上述权利要求1-6中任一所述的动作识别方法。