CN113989944A

CN113989944A - 操作动作识别方法、装置及存储介质

Info

Publication number: CN113989944A
Application number: CN202111624359.2A
Authority: CN
Inventors: 不公告发明人
Original assignee: Beijing Real AI Technology Co Ltd
Current assignee: Beijing Real AI Technology Co Ltd
Priority date: 2021-12-28
Filing date: 2021-12-28
Publication date: 2022-01-28
Anticipated expiration: 2041-12-28
Also published as: CN113989944B

Abstract

本申请实施例涉及图像处理领域，并提供了一种操作动作识别方法、装置及存储介质。其中方法包括：获取待识别的视频数据，其中，视频数据包括多帧图像；按照预先确定的选区坐标，分别从各帧图像中选取出多个规则形状的选区图像，其中，每个选区图像对应至少一个操作动作特征；分别对各帧图像的多个选区图像进行预处理，并将各帧图像预处理后的多个选区图像拼接为一个预定尺寸的待识别图像；对各帧图像的待识别图像进行分类处理，得到每帧图像的操作动作标签。上述方法能够有效的提升图像分类的准确性和泛化能力，并有效的解决了由于个人操作习惯、个人体貌特征和复杂背景影响所导致的误判率高的问题，还能够提高操作动作识别的效率。

Description

操作动作识别方法、装置及存储介质

技术领域

本申请实施例涉及图像处理领域，尤其是涉及一种操作动作识别方法、装置、存储介质及计算机设备。

背景技术

工厂的生产环节离不开工人各式各样的操作行为，工人的操作状况信息的收集不仅关系到行业的生产安全，更关系到生产效率的高低。目前，针对工人操作动作的识别主要依赖于现场或者远程布置的专职人员的监督，但是，这种监督方法人力成本较高，且无法实现多工位的实时监控，而且还容易出现误判等问题，为了解决人工监督操带来的一系列问题，一些技术正在尝试通过图像处理或人工智能等方式实现对操作动作进行智能识别。

在现有技术中，一种常用的动作识别方法是利用物体检测模型寻找图像中的人，再对寻找到的人进行分类得到人正在做的动作。但是，此类方法需要训练得到两个模型，其中一个用于模型用于寻找人体，另一个模型用于对人体进行分类，两个模型的准确度都会影响到最终的识别结果，导致识别的准确率较低。并且，此类方法还易受到个人操作习惯和个人体貌特征的影响，也易受到图像中复杂背景的影响，导致误判率较高。

发明内容

有鉴于此，本申请实施例提供了一种操作动作识别方法、装置、存储介质及计算机设备，主要目的在于解决现有技术中操作动作识别的准确率较低且易受到环境干扰导致误判率较高的技术问题。

第一方面中，本申请实施例提供了一种操作动作识别方法，该方法包括：

获取待识别的视频数据，其中，视频数据包括多帧图像；

按照预先确定的选区坐标，分别从各帧图像中选取出多个规则形状的选区图像，其中，每个选区图像对应至少一个操作动作特征；

分别对各帧图像的多个选区图像进行预处理，并将各帧图像预处理后的多个选区图像拼接为一个预定尺寸的待识别图像；

对各帧图像的待识别图像进行分类处理，得到每帧图像的操作动作标签。

第二方面中，本申请实施例提供了一种实施上述操作动作识别方法的操作动作识别装置，该装置包括：

输入输出模块，用于获取待识别的视频数据，其中，视频数据包括多帧图像；

处理模块，用于按照预先确定的选区坐标，分别从各帧图像中选取出多个规则形状的选区图像，其中，每个选区图像对应至少一个操作动作特征；分别对各帧图像的多个选区图像进行预处理，并将各帧图像预处理后的多个选区图像拼接为一个预定尺寸的待识别图像；对各帧图像的待识别图像进行分类处理，得到每帧图像的操作动作标签；

输入输出模块，还用于输出每帧图像的操作动作标签。

在一个实施例中，所述输入输出模块，还用于获取样本视频数据，其中，样本视频数据包括多帧图像，每帧图像标注有一个操作动作标签；所述处理模块，还用于将多帧图像转换为多帧光流图像，并将多帧光流图像划分为多个光流图像集，其中，每个光流图像集中的光流图像标注有同一个操作动作标签；计算各个光流图像集中的多帧光流图像的各个像素点的像素值均值，并将像素值均值大于预设像素值的像素点的集合确定为操作区域；接收样本视频数据中预先选定的特征识别区域；将操作区域和/或特征识别区域划分为多个规则形状的备选区域，并根据多个规则形状的备选区域对应的坐标值，得到选区坐标；所述输入输出模块，还用于输出选区坐标。

在一个实施例中，所述输入输出模块，还用于获取样本视频数据，其中，样本视频数据包括多个完整工序的分片视频，每个分片视频包括至少一个操作动作的多帧图像；所述处理模块，还用于对样本视频数据中的每个操作动作的初始帧和结束帧分别进行标注，得到多个第一图像集，其中，第一图像集包含目标操作动作的所有帧图像，目标操作动作为完整工序中的任意操作动作；为各个第一图像集中的所有帧图像设置目标操作动作对应的操作动作标签；所述输入输出模块，还用于输出各个第一图像集中所有帧图像的操作动作标签。

在一个实施例中，所述输入输出模块，还用于获取每个操作动作对应的预设起始动作和预设结束动作；所述处理模块，具体用于根据每个操作动作对应的预设起始动作和预设结束动作，对样本视频数据中的每个操作动作的初始帧和结束帧分别进行标注；针对每个操作动作，根据操作动作的初始帧、结束帧以及初始帧和结束帧之间的所有帧图像，构建第一图像集；为样本视频数据中除多个第一图像集之外的所有帧图像设置非操作动作标签；所述输入输出模块，还用于输出除多个第一图像集之外的所有帧图像的非操作动作标签。

在一个实施例中，所述处理模块，具体用于对各个操作动作标签对应的帧图像的数量进行统计；根据各个操作动作标签对应的帧图像的数量中的最大值，确定目标数量区间；当任一操作动作标签对应的帧图像的数量未在目标数量区间时，通过复制操作获取操作动作标签对应的帧图像，以使操作动作标签对应的帧图像的数量在目标数量区间内。

在一个实施例中，所述处理模块，具体用于分别对各帧图像的多个选区图像进行尺寸变换处理，得到各帧图像的多个尺寸相同的选区变换图像；按照预定的图像拼接顺序，分别将各帧图像的多个选区变换图像拼接为一个组合图像；依据预定尺寸，对各帧图像的组合图像中的空白区域进行图像填充，得到各帧图像的待识别图像。

在一个实施例中，所述输入输出模块，还用于获取待识别的视频数据对应的当前图像数据和预设的标准图像数据；所述处理模块，还用于通过特征匹配算法，根据当前图像数据和标准图像数据，得到标准图像数据到当前图像数据的放射转换矩阵；利用放射转换矩阵，将预先确定的选区坐标转换为当前图像数据的选区坐标；所述输入输出模块，还用于输出当前图像数据的选区坐标；所述处理模块，还用于按照当前图像数据的选区坐标，分别从各帧图像中选取出多个规则形状的选区图像。

第三方面中，本申请实施例提供了一种存储介质，其上存储有计算机程序，所述程序被处理器执行时实现上述操作动作识别方法。

第四方面中，本申请实施例供了一种计算机设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现上述操作动作识别方法。

本申请实施例提供的一种操作动作识别方法、装置、存储介质及计算机设备，首先获取待识别的视频数据，然后按照预先确定的选区坐标，分别从视频数据的各帧图像中选取出多个包含有操作动作特征的选区图像，并对多个选区图像进行预处理后将其拼接为一个预定尺寸的待识别图像，最后对该待识别图像进行分类处理，得到每帧图像的操作动作标签。上述方法通过选取包含操作动作特征的选区图像，并将其拼接为预定尺寸的待识别图像后进行图像分类，能够剔除掉图像中多余的背景信息，并且保留住图像中更多的操作动作信息，有效的提升了图像分类的准确性和泛化能力，也有效的解决了由于个人操作习惯、个人体貌特征和复杂背景影响所导致的误判率高的问题。此外，上述方法无需进行人体识别和时序推理等复杂的计算过程，只需进行一次图像分类即可得到操作动作的识别结果，极大的缩短了操作动作识别的时间，提高了操作动作识别的效率，从而达到了多工位实时监测的目的。

上述说明仅是本申请实施例技术方案的概述，为了能够更清楚了解本申请实施例的技术手段，而可依照说明书的内容予以实施，并且为了让本申请实施例的上述和其它目的、特征和优点能够更明显易懂，以下特举本申请的具体实施方式。

附图说明

此处所说明的附图用来提供对本申请实施例的进一步理解，构成本申请的一部分，本申请的示意性实施例及其说明用于解释本申请，并不构成对本申请的不当限定。在附图中：

图1示出了本申请实施例提供的一种操作动作识别方法的场景示意图；

图2示出了本申请实施例提供的一种操作动作识别方法的流程示意图；

图3示出了本申请实施例提供的一种操作动作识别方法的场景示意图；

图4示出了本申请实施例提供的一种操作动作识别方法的场景示意图；

图5示出了本申请实施例提供的一种操作动作识别装置的结构示意图；

图6示出了本申请实施例提供的一种计算机设备的内部结构示意图。

具体实施方式

下文中将参考附图详细说明本申请的各个实施例。需要说明的是，在不冲突的情况下，本申请中的实施例及实施例中的特征可以相互组合。

本申请实施例提供的操作动作识别方法，可以应用于如图1所示的应用环境中。如图1所示，计算机设备110可以通过网络与数据采集设备120进行通信，数据采集设备120可以采集至少一个工位130上的视频数据，并将采集到的视频数据发送至计算机设备110上，计算机设备110可以对视频数据进行一系列的处理，最终得到视频数据中各帧图像的操作动作标签（即操作动作名称），从而达到对工位130上的各个操作动作进行实时监测的目的。其中，计算机设备可以但不限于是各种个人计算机、笔记本电脑、智能手机、平板电脑、便携式可穿戴设备、服务器或者是多个服务器组成的服务器集群等。数据采集设备可以是固定位置和角度的摄像设备，摄像设备的形状、设置方式和尺寸不限。

在一个实施例中，如图2所示，提供了一种操作动作识别方法，以该方法应用于如图1所示的计算机设备110为例进行说明，包括以下步骤：

201、获取待识别的视频数据。

具体的，计算机设备可以通过数据采集设备直接获取待识别的视频数据，也可以通过数据库等存储介质获取保存状态下的视频数据。在本实施例中，视频数据可以包括多帧图像，每帧图像可能包含一个操作动作，也可能未包含任何操作动作，其中，操作动作是指预先规定好的与操作过程有关的动作。如在生厂场景下，操作动作可以是用记号笔在规定的位置上做标记，也可以是在某个固定位置拧螺丝等等。举例来说，一段待识别的视频数据共包括70帧图像，从第1帧到第30帧，图像中的人用记号笔在规定的位置上做标记（执行操作动作1），从第31帧到第39帧，图像中的人挠了一下脑袋（未执行任何操作动作），从第40帧到第70帧，图像中的人在某个固定位置拧了一颗螺丝（执行操作动作2）。

202、按照预先确定的选区坐标，分别从视频数据的各帧图像中选取出多个规则形状的选区图像。

具体的，计算机设备可以按照预先确定的选区坐标，从视频数据的各帧图像中逐一的选取出多个规则形状的选区图像。其中，选区坐标是指多个选区图像在帧图像上的一组坐标值，通过选区坐标，可以在各帧图像中选取出预先设定的多个选区图像。在本实施例中，选区图像是规则形状的图像，如正方形、矩形和正六边形的图像等等，并且，选区图像包含有至少一个操作动作特征，操作动作特征可以是图像中人物所在的位置或人物手部的位置等等。在本实施例中，为了提升选区图像的选取准确度，可以通过光流图像和/或人为划定区域等方式来确定多个选区图像的所在位置，从而确定选区坐标。

203、分别对各帧图像的多个选区图像进行预处理，并将各帧图像预处理后的多个选区图像拼接为一个预定尺寸的待识别图像。

具体的，计算机设备可以对各帧图像的多个选区图像进行预处理，其中，预处理可以为尺寸变换处理、图像旋转处理和图像增强处理等等，通过图像预处理，可以提高选区图像的识别度或降低图像的处理难度。进一步的，计算机设备可以将各帧图像预处理后的多个选区图像拼接为一个预定尺寸的待识别图像，其中，预定尺寸与步骤104中图像分类处理所要求的图像尺寸相关。在本实施例中，由于选区图像是从帧图像中选取出来的小部分图像，因此，拼接后的待识别图像的尺寸会明显小于帧图像的尺寸，图像分类处理的难度和复杂度也会大大降低，并且，拼接后的待识别图像去除了大部分的干扰特征，如人的身高体貌体征和背景中无关人员的特征等等，因此，图像识别的准确度会大大提升。

204、对各帧图像的待识别图像进行分类处理，得到每帧图像的操作动作标签。

具体的，计算机设备可以对视频数据中的每帧图像的待识别图像进行逐一的分类处理，其中，图像分类处理可以借用一些预先训练的模型或算法来实现，经过图像分类处理之后，可以得到每帧图像的操作动作标签，即得到每帧图像对应的操作动作名称。以步骤101中的示例来说，经过步骤102至步骤104的处理后，视频数据的每帧图像都被设置了一个操作动作标签，其中，第1帧图像到第30帧图像的操作动作标签为操作动作1，第31帧图像到第39帧图像的操作动作标签为非操作动作，第40帧图像到第70帧图像的操作动作标签为操作动作2，以此完成对视频数据中操作动作的自动识别。

本实施例提供的操作动作识别方法，首先获取待识别的视频数据，然后按照预先确定的选区坐标，分别从视频数据的各帧图像中选取出多个包含有操作动作特征的选区图像，并对多个选区图像进行预处理后将其拼接为一个预定尺寸的待识别图像，最后对该待识别图像进行分类处理，得到每帧图像的操作动作标签。上述方法通过选取包含操作动作特征的选区图像，并将其拼接为预定尺寸的待识别图像后进行图像分类，能够剔除掉图像中多余的背景信息，并且保留住图像中更多的操作动作信息，有效的提升了图像分类的准确性和泛化能力，也有效的解决了由于个人操作习惯、个人体貌特征和复杂背景影响所导致的误判率高的问题。此外，上述方法无需进行人体识别和时序推理等复杂的计算过程，只需进行一次图像分类即可得到操作动作的识别结果，极大的缩短了操作动作识别的时间，提高了操作动作识别的效率，从而达到了多工位实时监测的目的。

在一个实施例中，步骤102中的选区坐标的确定方法具体可以通过以下步骤实现：首先获取样本视频数据，其中，样本视频数据包括多帧图像，每帧图像标注有一个操作动作标签，然后将多帧图像转换为多帧光流图像，并将多帧光流图像划分为多个光流图像集，其中，每个光流图像集中的光流图像标注有同一个操作动作标签，进而计算各个光流图像集中的多帧光流图像的各个像素点的像素值均值，并将像素值均值大于预设像素值的像素点的集合确定为操作区域，以及接收样本视频数据中预先选定的特征识别区域，最后将操作区域和/或特征识别区域划分为多个规则形状的备选区域，并根据多个规则形状的备选区域对应的坐标值，得到选区坐标。

具体的，在上述实施例中，计算机设备可以通过固定位置和角度的摄像头采集包含至少一个完整工序的样本视频数据，其中，样本视频数据包括多帧图像，每帧图像都标注有一个操作动作标签。在实际应用场景中，工人生产过程的操作步骤通常都是标准化的，比如操作动作名称固定、操作动作顺序固定、操作工具位置固定、用时基本固定，操作动作所用的工具基本固定等等，在此基础上，可以将生产过程的操作动作以外的所有动作都归为一类，并称为非操作动作。在采集的样本视频数据中，非操作动作的图像应尽可能少，这样可以提高选区坐标选取的准确性，进而提高操作动作识别的准确性。

进一步的，计算机设备可以通过光流算法将样本视频数据的多帧图像转换为多帧光流图像，其中，转换后的光流图像的每个像素值均在0至255之间，光流图像的像素值越大，图像中的像素点所在的位置的运动变化越大，即光流图像中像素值大的地方也正是在整个操作流程中不同操作动作差异最大的地方。在本实施例中，可以计算同一个操作动作标签的多帧光流图像的各个像素点的像素值均值，然后将像素值均值与预设像素值进行比较，最后将像素值均值大于预设像素值的像素点的集合确定为操作区域。此外，计算机还可以接收样本视频数据中预先选定的特征识别区域，其中，特征识别区域可以为某个操作动作中拧螺丝的位置，也可以为某个操作动作的工位区域等等，特征识别区域可以作为操作区域的补充，为一些难以区分的操作动作做单独处理。在本实施例中，操作区域和/或特征识别区域的大小不固定，区域之间可以相互重叠。

进一步的，通过将操作区域和/或特征识别区域划分为多个规则形状的备选区域，并对多个规则形状的备选区域对应的坐标值进行计算，即可得到备选区域对应的选区坐标，其中，选区坐标可以是多个备选区域的各个边界的坐标值，也可以是多个备选区域的中心点坐标值和长宽值等等。本实施例提出的方法通过将视频数据中的图像转换为光流图像，可以提取出图像中发生运动变化较大的区域，并且，上述方法通过将运动变化较大的区域作为操作区域，并结合人工选定的特征识别区域，可以有效的提升选区图像的选取准确度，进而提升操作动作识别的准确度。

在一个实施例中，在利用样本视频数据确定选区坐标之前，可以先对样本视频数据进行标注，其中，对样本视频数据进行标注方法具体可以通过以下步骤实现：首先获取样本视频数据，其中，样本视频数据包括多个完整工序的分片视频，每个分片视频包括至少一个操作动作的多帧图像，然后对样本视频数据中的每个操作动作的初始帧和结束帧分别进行标注，得到多个第一图像集，其中，第一图像集包含目标操作动作的所有帧图像，目标操作动作为完整工序中的任意操作动作，最后为各个第一图像集中的所有帧图像设置目标操作动作对应的操作动作标签。

具体的，在上述实施例中，计算机设备可以通过固定位置和角度的摄像头采集包含多个完整工序的样本视频数据，其中，样本视频数据可以为一个或多个工人的多个完整工序的操作步骤，例如大于5个完整工序。此外，如果光线对操作动作识别也有影响的话，也可以获取多个不同光照时段的样本视频视频。进一步的，可以通过人工或动作识别等方式对每个操作动作的初始帧和结束帧分别进行标注，再针对每个操作动作的初始帧和结束帧以及两帧图像之间的帧图像，统一设置一个对应的操作动作标签，以此完成样本视频数据的标注过程。举例来说，参照图3，在对操作动作进行标注时，可以先标注出的每个操作动作的初始帧和结束帧，例如，先标注出“跑步开始帧”和“跑步结束帧”，然后在将“跑步开始帧”和“跑步结束帧”以及两帧之间的所有帧图像设置一个跑步动作的标签。上述方法只需要标注出每个操作动作的初始帧和结束帧，并为每个操作动作的初始帧和结束帧之间的全部帧图像统一设置相应的操作动作标签，即可完成对样本视频数据的标注，因此，上述标注方法的标注量较少，可以有效的提高样本视频数据的标注效率。

在一个实施例中，对样本视频数据中的每个操作动作的初始帧和结束帧进行自动标注的方法可以通过以下步骤实现：首先获取每个操作动作对应的预设起始动作和预设结束动作，然后根据每个操作动作对应的预设起始动作和预设结束动作，对样本视频数据中的每个操作动作的初始帧和结束帧分别进行标注，最后针对每个操作动作，根据操作动作的初始帧、结束帧以及初始帧和结束帧之间的所有帧图像，构建第一图像集，最后为样本视频数据中除多个第一图像集之外的所有帧图像设置非操作动作标签，完成自动标注过程。上述方法通过动作识别技术，可以对样本视频数据中的初始帧和结束帧进行自动标注，还可以为样本视频数据中与操作动作无关的帧图像统一设置一个非操作动作标签，因此，上述标注方法可以有效的提高样本视频数据的标注效率，并降低标注所需的人力成本。

在一个实施例中，在对样本视频数据进行标注之后，还可以通过以下方式提高标注样本的均衡度，该方法包括可以以下步骤：首先对各个操作动作标签对应的帧图像的数量进行统计，然后根据各个操作动作标签对应的帧图像的数量中的最大值，确定目标数量区间，当任一操作动作标签对应的帧图像的数量未在目标数量区间时，通过复制操作获取操作动作标签对应的帧图像，以使操作动作标签对应的帧图像的数量在目标数量区间内。举例来说，在一个完整的工序中，打胶操作的用时最多，为30s，拧螺丝操作的用时最少，为2s，则标注后的样本图像就会出现标签失衡的问题，针对这个问题，可以对拧螺丝操作对应的帧图像进行复制，以获得更多拧螺丝操作对应的帧图像，使拧螺丝操作对应的帧图像的数量与打胶操作对应的帧图像的数量相平衡，最终达到提升图像分类准确度的目的。上述方法通过将各个操作动作标签的样本数据的数量保持在一个目标数量区间内，可以有效的提高图像样本的均衡度，从而提高图像分类的准确性。

在一个实施例中，上述步骤103中对多个选区图像进行拼接的的方法可以通过以下步骤实现：首先分别对各帧图像的多个选区图像进行尺寸变换处理，得到各帧图像的多个尺寸相同的选区变换图像，然后按照预定的图像拼接顺序，分别将各帧图像的多个选区变换图像拼接为一个组合图像，最后依据预定尺寸，对各帧图像的组合图像中的空白区域进行图像填充，得到各帧图像的待识别图像。举例来说，参照图4，在对帧图像进行处理时，可以首先将图像的多个选区图像变换处理为多个尺寸相同的小正方形图像，然后再按照预定的图像拼接顺序，将多个小正方形图像拼接为一个组合图像，最后按照预定尺寸，将未拼接的区域填充为固定颜色，得到待识别图像。上述方法通过将选区图像转换为统一尺寸的选区变换图像，再对选区变化图像进行拼接后对图像中空白的部分进行填充，可以有效的减少图片拼接所带来的计算量，从而降低图像处理的难度。

在一个实施例中，在步骤102之前，上述操作动作识别方法还可以包括以下步骤：首先获取待识别的视频数据对应的当前图像数据和预设的标准图像数据，然后通过特征匹配算法，根据当前图像数据和标准图像数据，得到标准图像数据到当前图像数据的放射转换矩阵，最后利用放射转换矩阵，将预先确定的选区坐标转换为当前图像数据的选区坐标。在此基础上，步骤102具体为：按照当前图像数据的选区坐标，分别从各帧图像中选取出多个规则形状的选区图像。上述方法通过将当前图像数据和预设的标准图像数据进行比对，并通过放射转换矩阵对预先确定的选区坐标进行坐标转换处理，得到当前图像数据的选区坐标，可以有效的防止视频拍照位置和视频拍照方向改变导致的选区图像选取不准确的问题，从而保障了图像分类的准确度。

进一步的，作为上述实施例具体实施方式的细化和扩展，为了完整说明本实施例的实施过程，下面通过具体的实施例对本申请实施例提供的操作动作识别方法做进一步说明。

在本实施例中，以汽车前悬架组装的实际操作流程为例，具体说明操作动作识别方法的具体实施步骤。这里先描述一下前悬架的组装流程：前悬架的骨架会固定安装在AGV（Automated Guided Vehicle，自动导引运输车）小车上，AGV小车会按照地面的指示标志的引导到达指定的工位。当AGV小车停稳后，操作工人会按照当前工位的固定操作流程进行组装。操作的步骤动作都是标准化的，比如步骤项目和顺序固定、操作工具位置固定、用时也基本固定。在操作的过程中，会用到标准的工具，如热风枪、扳手、标记笔等。

具体的，操作动作识别方法的实施步骤可以分为四个部分，分别为样本视频数据采集、选区图像选择、图像分类模型训练和操作动作识别，下面结合实例进行逐一阐述。

一、样本视频数据采集：

数据采集设备一般为固定位置和角度的摄像头，与实际使用中的摄像设备相同或类似。在本实施例中，可以录制1至3人的多个完整周期的操作步骤，例如大于5个周期等。如果有光线的影响，如日光的影响，也可以按照不同光照时段分别录取视频，当样本视频数据采集完成后，可以按照以下步骤对样本视频数据进行标注。

a）在样本视频数据中标记每个操作动作的初始帧和结束帧，其中，不在标准操作动作里的所有动作都归为一类，这里称之为非操作动作。

b）将样本视频数据的每帧都转化成对应的图像，并依据标记的每个操作动作的初始帧和结束帧，对初始帧和结束帧之间的每帧图像进行标签设置。

c）针对由操作动作用时不同所引发的样本不均衡样本的问题，根据每个操作动作的标签数量情况，获取更多的数量少的样本图像数据，并使得每个操作动作标签的样本图像数量基本一致。

二、选区图像选择：

选区图像的选择是本实施例的一个重点内容。如果直接使用数据采集获得的带标签的图像进行动作分类，并不会得到很好的动作识别结果，原因如下：1）工厂环境复杂，视频往往会有其他人或物的闯入，这会对图像识别产生严重干扰；2）有些操作步骤十分相似，仅手部动作会有细微差异，整体图像体现不出这种细微的差别；3）工人个人习惯不同，导致新人操作动作可能识别不准确。

为了解决上述问题，在对图像进行分类识别之前加入了选区图像选择的步骤。这个步骤会带来至少有三个好处：1）排除无用背景环境的干扰；2）增加对手部等细节的识别；3）减少输入模型的尺寸，增加模型推理效率和速度。选区图像的选择可以分为以下5个步骤：

a）利用光流算法对采集的样本视频进行光流计算，得到光流的三维矩阵。其中，三维矩阵的第一维度是时间，第二维度和第三维度是每一个光流图像的长和宽。其中，光流图像的每个像素值均在0至255之间，数值越大，光流图像越亮，同时也代表样本视频在发生的运动变化越大。

b）沿时间维度对光流三维矩阵求均值（即计算标签相同的多帧光流图像的各个像素点的像素值均值），得到一个二维矩阵。此二维矩阵表示一个综合光流图像，二维矩阵数值越大，综合光流图像越亮，二维矩阵数值越大的地方正是在整个操作流程中不同操作动作差异最大的地方。因此，相当于确定了图像中具体的可以体现不同操作动作的差异区域（即操作区域）。

c）对光流计算得到的差异区域进行矩形划分，用多个选取矩形将差异区域覆盖，此时，可以接收人工选择的多个选区的矩形将差异区域覆盖，也可以通过自动化的算法选择多个选区的矩形将差异区域覆盖。

d）在原始样本视频上，通过专家知识选择性的挑选个别操作动作的特征识别区域。其中，专家知识可以是对算法工程师和工厂工人之间对每个操作动作进行分析达成的共识，从而得到一个特有的、可代表此动作步骤的多个矩形区域，其中，区域的大小不固定，矩形区域之间可重叠。选取的特征识别区域可以作为操作区域的补充，为一些难以区分的动作做单独处理。

e）基于多个选区的矩形区域坐标和/或选取的特征识别区域坐标，确定每个选区的坐标。例如，以摄像头采集的图像的左下角顶点作为原点，图像的左边框向上为Y轴，图像的下边框向右为X轴建立平面直角坐标系，坐标系的X轴单位长度为图像相邻两个横向像素点之间的距离值，坐标系的Y轴单位长度为图像相邻两个纵向像素点之间的距离值，可以将选择好的区域以坐标的形式信息保存在文件中，比如矩形左上、右下坐标（x1, y1, x2,y2），或者矩形中心、长宽（x, y, w, h）。

三、图像分类模型训练：

具体的，可以选择任意一种模块来训练图像分类模型，如常见的ResNet，VGG等，这里以ResNet18作为示例，详细介绍具体的训练步骤：

a）保存一帧干扰少的原始图像作为区域校准的标准图像数据。

b）按照确定的n个选区的区域坐标，选取样本视频的各个帧图像里的n个样本矩形图像，并通过插值算法将n个样本矩形图像转化成正方形尺寸。

c）正方形的尺寸根据模型的输入大小和矩形区域的数量计算得到。如ResNet18要求的图像输入尺寸为224×224，共有n个矩形，则正方形尺寸大小为

，其中

表示向上取整。

d）将转化成的n个样本正方形图像（小正方形图像）组成一个整体样本正方形图像，整体样本正方形图像共有

个小正方形图像，如果小正方形图像数量不够，则补成全黑的小正方形图像，注意每次拼接的大正方形的小正方形的位置和顺序是固定不变的。

e）将拼接后的224×224大正方形图像和原图像操作动作的标签作为ResNet18模型的输入进行训练。

f）对样本视频中的每一帧图像均进行以上处理后分为训练集和测试集，按照标准的神经网络训练步骤得到在训练集上最优的模型，训练好的模型会给出当前图像所对应的操作动作标签。

g）为提升模型的泛化能力，可以在两个地方加上数据增强步骤：1）在矩形区域选取部分，可以对矩形的位置和长宽加上适当大小的随机数，使矩形区域产生适当随机性；2）对矩形区域的图像可选择性地进行随机缩放、随机亮度变化、随机仿射变换，随机色彩变换、随机灰度等常规图像数据增强手段。

四、模型使用：

模型使用方法与模型训练步骤基本类似，也需要按照约定好的选区区域将视频流中的每帧图像进行划分和重新组合，在此之前会有矩形或图像校准环节，这里介绍校准步骤。

a）如果摄像头没有位置的变动则不需要对其进行校准，校准的目的主要是调整因为摄像头位置或角度的改变带来预选框位置在图像中的变化。

b）利用Speeded-Up Robust Features或Oriented FAST and Rotated BRIEF等特征匹配算法将新摄像头图像和模型训练时得到的摄像头图像进行对比，得到模型训练时的图像到新图像的仿射转换矩阵，利用此矩阵可将模型训练时的矩形区域坐标转换成新图像中的坐标，从而利用新坐标选取图像即可。

本实施例避免使用计算资源消耗高、推理时间长的骨架识别模型，而采用自动选区图像分类的算法，将一个人体骨架的时序算法转化成了图片分类模型，大大提高识别的准确度并缩短识别时间。

需要说明的是，实际应用中，上述所有可能的实施方式可以采用结合的方式任意组合，形成本申请的可能的实施例，在此不再一一赘述。

进一步的，作为图1至图4所示方法的具体实现，本实施例提供了一种操作动作识别装置，如图5所示，该装置包括：输入输出模块31和处理模块32。

输入输出模块31，可用于获取待识别的视频数据，其中，视频数据包括多帧图像；

处理模块32，可用于按照预先确定的选区坐标，分别从各帧图像中选取出多个规则形状的选区图像，其中，每个选区图像对应至少一个操作动作特征；分别对各帧图像的多个选区图像进行预处理，并将各帧图像预处理后的多个选区图像拼接为一个预定尺寸的待识别图像；对各帧图像的待识别图像进行分类处理，得到每帧图像的操作动作标签；

输入输出模块31，还可用于输出每帧图像的操作动作标签。

在具体的应用场景中，所述输入输出模块31，还可用于获取样本视频数据，其中，样本视频数据包括多帧图像，每帧图像标注有一个操作动作标签；所述处理模块32，还可用于将多帧图像转换为多帧光流图像，并将多帧光流图像划分为多个光流图像集，其中，每个光流图像集中的光流图像标注有同一个操作动作标签；计算各个光流图像集中的多帧光流图像的各个像素点的像素值均值，并将像素值均值大于预设像素值的像素点的集合确定为操作区域；接收样本视频数据中预先选定的特征识别区域；将操作区域和/或特征识别区域划分为多个规则形状的备选区域，并根据多个规则形状的备选区域对应的坐标值，得到选区坐标；所述输入输出模块31，还可用于输出选区坐标。

在具体的应用场景中，所述输入输出模块31，还可用于获取样本视频数据，其中，样本视频数据包括多个完整工序的分片视频，每个分片视频包括至少一个操作动作的多帧图像；所述处理模块32，还可用于对样本视频数据中的每个操作动作的初始帧和结束帧分别进行标注，得到多个第一图像集，其中，第一图像集包含目标操作动作的所有帧图像，目标操作动作为完整工序中的任意操作动作；为各个第一图像集中的所有帧图像设置目标操作动作对应的操作动作标签；所述输入输出模块31，还可用于输出各个第一图像集中所有帧图像的操作动作标签。

在具体的应用场景中，所述输入输出模块31，还可用于获取每个操作动作对应的预设起始动作和预设结束动作；所述处理模块32，具体可用于根据每个操作动作对应的预设起始动作和预设结束动作，对样本视频数据中的每个操作动作的初始帧和结束帧分别进行标注；针对每个操作动作，根据操作动作的初始帧、结束帧以及初始帧和结束帧之间的所有帧图像，构建第一图像集；为样本视频数据中除多个第一图像集之外的所有帧图像设置非操作动作标签；所述输入输出模块31，还可用于输出除多个第一图像集之外的所有帧图像的非操作动作标签。

在具体的应用场景中，所述处理模块32，具体可用于对各个操作动作标签对应的帧图像的数量进行统计；根据各个操作动作标签对应的帧图像的数量中的最大值，确定目标数量区间；当任一操作动作标签对应的帧图像的数量未在目标数量区间时，通过复制操作获取操作动作标签对应的帧图像，以使操作动作标签对应的帧图像的数量在目标数量区间内。

在具体的应用场景中，所述处理模块32，具体可用于分别对各帧图像的多个选区图像进行尺寸变换处理，得到各帧图像的多个尺寸相同的选区变换图像；按照预定的图像拼接顺序，分别将各帧图像的多个选区变换图像拼接为一个组合图像；依据预定尺寸，对各帧图像的组合图像中的空白区域进行图像填充，得到各帧图像的待识别图像。

在具体的应用场景中，所述输入输出模块31，还可用于获取待识别的视频数据对应的当前图像数据和预设的标准图像数据；所述处理模块32，还可用于通过特征匹配算法，根据当前图像数据和标准图像数据，得到标准图像数据到当前图像数据的放射转换矩阵；利用放射转换矩阵，将预先确定的选区坐标转换为当前图像数据的选区坐标；所述输入输出模块31，还可用于输出当前图像数据的选区坐标；所述处理模块32，还可用于按照当前图像数据的选区坐标，分别从各帧图像中选取出多个规则形状的选区图像。

需要说明的是，本实施例提供的一种操作动作识别装置所涉及各功能单元的其它相应描述，可以参考图1至图4中的对应描述，在此不再赘述。

基于上述如图1至图4所示方法，相应的，本实施例还提供了一种存储介质，其上存储有计算机程序，该程序被处理器执行时实现上述如图1至图4所示的操作动作识别方法。

基于这样的理解，本申请实施例的技术方案可以以软件产品的形式体现出来，该待识别软件产品可以存储在一个非易失性存储介质（可以是CD-ROM，U盘，移动硬盘等）中，包括若干指令用以使得一台计算机设备（可以是个人计算机，服务器，或者网络设备等）执行本申请各个实施场景所述的方法。

基于上述如图1至图4所示的方法，以及图5所示的操作动作识别装置实施例，为了实现上述目的，如图6所示，本实施例还提供了一种操作动作识别的计算机设备，具体可以为个人计算机、服务器、智能手机、平板电脑、智能手表、或者其它网络设备等，该计算机设备包括存储介质和处理器；存储介质，用于存储计算机程序和操作系统；处理器，用于执行计算机程序以实现上述如图1至图4所示的方法。

可选的，该计算机设备还可以包括内存储器、通信接口、网络接口、摄像头、射频（Radio Frequency，RF）电路，传感器、音频电路、WI-FI模块、显示屏（Display）、输入装置比如键盘（Keyboard）等，可选的，通信接口还可以包括USB接口、读卡器接口等。网络接口可选的可以包括标准的有线接口、无线接口（如WI-FI接口）等。

本领域技术人员可以理解，本实施例提供的一种操作动作识别的计算机设备结构并不构成对该计算机设备的限定，可以包括更多或更少的部件，或者组合某些部件，或者不同的部件布置。

存储介质中还可以包括操作系统、网络通信模块。操作系统是管理上述计算机设备硬件和待识别软件资源的程序，支持信息处理程序以及其它待识别软件和/或程序的运行。网络通信模块用于实现存储介质内部各组件之间的通信，以及与信息处理计算机设备中其它硬件和软件之间通信。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到本申请实施例可以借助软件加必要的通用硬件平台的方式来实现，也可以通过硬件实现。通过应用本申请实施例的技术方案，首先获取待识别的视频数据，然后按照预先确定的选区坐标，分别从视频数据的各帧图像中选取出多个包含有操作动作特征的选区图像，并对多个选区图像进行预处理后将其拼接为一个预定尺寸的待识别图像，最后对该待识别图像进行分类处理，得到每帧图像的操作动作标签。与现有技术相比，上述方法能够有效的提升图像分类的准确性和泛化能力，并有效的解决由于个人操作习惯、个人体貌特征和复杂背景影响所导致的误判率高的问题，还能够缩短操作动作识别的时间，提高操作动作识别的效率。

本领域技术人员可以理解附图只是一个优选实施场景的示意图，附图中的模块或流程并不一定是实施本申请实施例所必须的。本领域技术人员可以理解实施场景中的装置中的模块可以按照实施场景描述进行分布于实施场景的装置中，也可以进行相应变化位于不同于本实施场景的一个或多个装置中。上述实施场景的模块可以合并为一个模块，也可以进一步拆分成多个子模块。

上述本申请实施例序号仅仅为了描述，不代表实施场景的优劣。以上公开的仅为本申请的几个具体实施场景，但是，本申请并非局限于此，任何本领域的技术人员能思之的变化都应落入本申请的保护范围。

Claims

1.一种操作动作识别方法，其特征在于，所述方法包括：

获取待识别的视频数据，其中，所述视频数据包括多帧图像；

分别对各帧图像的多个选区图像进行预处理，并将所述各帧图像预处理后的多个选区图像拼接为一个预定尺寸的待识别图像；

对所述各帧图像的待识别图像进行分类处理，得到每帧图像的操作动作标签。

2.根据权利要求1所述的方法，其特征在于，所述选区坐标的确定方法，包括：

获取样本视频数据，其中，所述样本视频数据包括多帧图像，每帧图像标注有一个操作动作标签；

将所述多帧图像转换为多帧光流图像，并将所述多帧光流图像划分为多个光流图像集，其中，每个光流图像集中的光流图像标注有同一个操作动作标签；

计算各个所述光流图像集中的多帧光流图像的各个像素点的像素值均值，并将像素值均值大于预设像素值的像素点的集合确定为操作区域；

接收样本视频数据中预先选定的特征识别区域；

将所述操作区域和/或特征识别区域划分为多个规则形状的备选区域，并根据所述多个规则形状的备选区域对应的坐标值，得到所述选区坐标。

3.根据权利要求2所述的方法，其特征在于，所述样本视频数据的标注方法，包括：

获取样本视频数据，其中，所述样本视频数据包括多个完整工序的分片视频，每个分片视频包括至少一个操作动作的多帧图像；

对所述样本视频数据中的每个操作动作的初始帧和结束帧分别进行标注，得到多个第一图像集，其中，所述第一图像集包含目标操作动作的所有帧图像，所述目标操作动作为所述完整工序中的任意操作动作；

为各个所述第一图像集中的所有帧图像设置所述目标操作动作对应的操作动作标签。

4.根据权利要求3所述的方法，其特征在于，所述对所述样本视频数据中的每个操作动作的初始帧和结束帧分别进行标注，得到多个第一图像集，包括：

获取每个操作动作对应的预设起始动作和预设结束动作；

根据所述每个操作动作对应的预设起始动作和预设结束动作，对所述样本视频数据中的每个操作动作的初始帧和结束帧分别进行标注；

针对每个所述操作动作，根据所述操作动作的初始帧、结束帧以及所述初始帧和所述结束帧之间的所有帧图像，构建所述第一图像集；

为所述样本视频数据中除所述多个第一图像集之外的所有帧图像设置非操作动作标签。

5.根据权利要求3或4所述的方法，其特征在于，所述方法还包括：

对各个操作动作标签对应的帧图像的数量进行统计；

根据所述各个操作动作标签对应的帧图像的数量中的最大值，确定目标数量区间；

当任一所述操作动作标签对应的帧图像的数量未在所述目标数量区间时，通过复制操作获取所述操作动作标签对应的帧图像，以使所述操作动作标签对应的帧图像的数量在所述目标数量区间内。

6.根据权利要求1所述的方法，其特征在于，所述分别对各帧图像的多个选区图像进行预处理，并将所述各帧图像预处理后的多个选区图像拼接为一个预定尺寸的待识别图像，包括：

分别对所述各帧图像的多个选区图像进行尺寸变换处理，得到所述各帧图像的多个尺寸相同的选区变换图像；

按照预定的图像拼接顺序，分别将所述各帧图像的多个选区变换图像拼接为一个组合图像；

依据所述预定尺寸，对所述各帧图像的组合图像中的空白区域进行图像填充，得到各帧图像的待识别图像。

7.根据权利要求1所述的方法，其特征在于，在按照预先确定的选区坐标，分别从各帧图像中选取出多个规则形状的选区图像之前，所述方法还包括：

获取所述待识别的视频数据对应的当前图像数据和预设的标准图像数据；

通过特征匹配算法，根据所述当前图像数据和所述标准图像数据，得到所述标准图像数据到所述当前图像数据的放射转换矩阵；

利用所述放射转换矩阵，将所述预先确定的选区坐标转换为当前图像数据的选区坐标；

则所述按照预先确定的选区坐标，分别从各帧图像中选取出多个规则形状的选区图像，包括：

按照当前图像数据的选区坐标，分别从各帧图像中选取出多个规则形状的选区图像。

8.一种操作动作识别装置，其特征在于，所述装置包括：

输入输出模块，用于获取待识别的视频数据，其中，所述视频数据包括多帧图像；

处理模块，用于按照预先确定的选区坐标，分别从各帧图像中选取出多个规则形状的选区图像，其中，每个选区图像对应至少一个操作动作特征；分别对各帧图像的多个选区图像进行预处理，并将所述各帧图像预处理后的多个选区图像拼接为一个预定尺寸的待识别图像；对所述各帧图像的待识别图像进行分类处理，得到每帧图像的操作动作标签；

所述输入输出模块，还用于输出每帧图像的操作动作标签。

9.一种存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现权利要求1至7中任一项所述的方法的步骤。

10.一种计算机设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，其特征在于，所述计算机程序被处理器执行时实现权利要求1至7中任一项所述的方法的步骤。