CN115527080A

CN115527080A - 生成视频动作识别模型的方法及电子设备

Info

Publication number: CN115527080A
Application number: CN202211101991.3A
Authority: CN
Inventors: 孙熠; 孙凯; 杨晓刚
Original assignee: Alibaba China Co Ltd
Current assignee: Alibaba China Co Ltd
Priority date: 2022-09-09
Filing date: 2022-09-09
Publication date: 2022-12-27

Abstract

本申请实施例公开了生成视频动作识别模型的方法及电子设备，所述方法包括：获取训练样本数据，所述训练样本数据包括多份视频数据；在对视频动作识别模型进行训练的过程中，对于无监督式训练部分，基于对未按照动作片段进行切分的原始视频数据进行视频帧采样的方式生成模型的输入数据，其中，在每次采样时，根据单个动作的平均持续帧数进行确定时间维度上的采样范围。通过本申请实施例，能够节省对训练样本数据的人工处理成本。

Description

生成视频动作识别模型的方法及电子设备

技术领域

本申请涉及视频动作识别技术领域，特别是涉及生成视频动作识别模型的方法及电子设备。

背景技术

视频的理解与识别是计算机视觉的基础任务之一，视频动作识别就是其中一个充满挑战而又具有较高实际应用价值的任务。所谓的视频动作识别就是指，通过视频动作识别模型识别出视频中包括哪些具体的动作类别。

其中，视频动作识别模型需要通过训练的方式生成，在对这种视频动作识别模型进行训练时，需要获取一些视频数据作为训练样本，现有技术中，还需要通过人工的方式分别对各个视频数据进行观看，并按照动作对这些视频数据切分为动作片段，还可能需要进行标注等，因此，人工操作成本很高。

发明内容

本申请提供了生成视频动作识别模型的方法及电子设备，能够节省对训练样本数据的人工处理成本。

本申请提供了如下方案：

一种生成视频动作识别模型的方法，包括：

获取训练样本数据，所述训练样本数据包括多份视频数据；

在对视频动作识别模型进行训练的过程中，对于无监督式训练部分，基于对未按照动作片段进行切分的原始视频数据进行视频帧采样的方式生成模型的输入数据，其中，在每次采样时，根据单个动作的平均持续帧数进行确定时间维度上的采样范围。

其中，还包括：

在通过对同一视频数据进行至少两次视频帧采样以构造同一组差异化输入数据时，每次的视频帧采样在时间轴上具有相同的采样起点，以及相同的采样范围，以便通过构造出的多组差异化输入数据对所述算法模型的训练效果进行评估。

其中，在所述对同一视频数据进行至少两次视频帧采样的过程中，其中一次视频帧采样采用均匀采样的方式确定帧间隔，其他各次视频帧采样采用在均匀采样基础上添加偏移量的方式确定采样帧间隔。

其中，所述偏移量为固定值或者随机值。

其中，还包括：

从所述多份视频数据中选取出部分具有代表性的视频数据，以用于切分为多个动作片段，并获取各动作片段的动作类别标注信息，以便通过有监督与无监督相结合的方式对所述算法模型进行训练。

其中，所述从所述多份视频数据中选取出部分具有代表性的视频数据，包括：

从所述多份视频数据中选取出不同产生时间、不同人物对应的部分视频数据。

利用所述算法模型对所述视频数据中包含的动作片段以及对应的动作类别进行预测；

从同一动作类别对应的多个动作片段中，确定相互之间差异较大的部分动作片段，作为对应动作类别的代表动作片段；

将所述代表动作片段所在的视频数据作为选取出的参与到有监督式训练中的部分具有代表性的视频数据。

其中，所述从同一动作类别对应的多个动作片段中，确定相互之间差异较大的部分动作片段，包括：

利用所述算法模型获取同一动作类别下包括的多个动作片段的特征向量；

通过计算所述多个动作片段的特征向量之间的距离，确定不同动作片段之间的差异量化值；

根据所述不同动作片段之间的差异量化值，确定相互之间差异较大的部分动作片段。

一种视频处理方法，包括：

对目标工厂中工人的生产工作过程进行视频采集，以得到视频数据；

利用预先生成的视频动作识别模型对所述视频数据中工人执行的动作类型进行识别；其中，在对所述视频动作识别模型进行训练时，对于无监督式训练部分，基于对未按照动作片段进行切分的原始视频数据进行视频帧采样的方式生成模型的输入数据，其中，在每次采样时，根据单个动作的平均持续帧数进行确定时间维度上的采样范围；

根据所识别出的动作类型，以及所述工人所在生产环节所需执行的动作类型规范信息，确定所述工人在所述生产工作过程中执行的动作是否符合规范。

其中，还包括：

如果所述工人在所述生产工作过程中执行的动作不符合规范，则向所述工人发送提示信息。

其中，还包括：

如果所述工人在所述生产工作过程中执行的动作不符合规范，则确定对应的生产对象标识信息，并向对应的质检用户提供质检提示信息。

一种生成视频动作识别模型的装置，包括：

训练样本数据获取单元，用于获取训练样本数据，所述训练样本数据包括多份视频数据；

输入数据构造单元，用于在对视频动作识别模型进行训练的过程中，对于无监督式训练部分，基于对未按照动作片段进行切分的原始视频数据进行视频帧采样的方式生成模型的输入数据，其中，在每次采样时，根据单个动作的平均持续帧数进行确定时间维度上的采样范围。

一种视频处理装置，包括：

视频采集单元，用于对目标工厂中工人的生产工作过程进行视频采集，以得到视频数据；

动作识别单元，用于利用预先生成的视频动作识别模型对所述视频数据中工人执行的动作类型进行识别；其中，在对所述视频动作识别模型进行训练时，对于无监督式训练部分，基于对未按照动作片段进行切分的原始视频数据进行视频帧采样的方式生成模型的输入数据，其中，在每次采样时，根据单个动作的平均持续帧数进行确定时间维度上的采样范围；

判断单元，用于根据所识别出的动作类型，以及所述工人所在生产环节所需执行的动作类型规范信息，确定所述工人在所述生产工作过程中执行的动作是否符合规范。

一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现前述任一项所述的方法的步骤。

一种电子设备，包括：

一个或多个处理器；以及

与所述一个或多个处理器关联的存储器，所述存储器用于存储程序指令,所述程序指令在被所述一个或多个处理器读取执行时，执行前述任一项所述的方法的步骤。

根据本申请提供的具体实施例，本申请公开了以下技术效果：

通过本申请实施例提供的方案，在对视频动作识别模型进行训练的过程中，如果涉及到无监督式训练，则可以直接采用未经切分的原始视频数据进行无监督式训练，也即，直接从原始视频数据中进行视频帧采样的方式来构造出具体的输入数据。这样，由于不需要对原始视频数据进行切分或裁剪，因此，可以降低模型训练过程中的人工操作成本。另外，在每次采样时，可以根据单个动作的平均持续帧数进行确定时间维度上的采样范围，这样，可以使得输入数据跨动作类别的概率大幅降低，可以从一定程度上保证模型输入数据的有效性。

另外，在通过对同一视频数据进行至少两次视频帧采样以构造同一组差异化输入数据时，每次的视频帧采样在时间轴上可以具有相同的采样起点，以及相同的采样范围，以便通过构造出的多组差异化输入数据对所述算法模型的训练效果进行评估。通过这种方式，可以满足同一组内的差异化输入数据之间对应相同或者相似动作内容的要求，从而使得构造出的多组差异化输入数据能够用于对模型训练效果进行评估。

当然，实施本申请的任一产品并不一定需要同时达到以上所述的所有优点。

附图说明

为了更清楚地说明本申请实施例或现有技术中的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是现有技术中的训练样本处理方式示意图；

图2是本申请实施例提供的训练样本处理方式示意图；

图3是本申请实施例提供的采样方式的示意图；

图4是本申请实施例提供的第一方法的流程图；

图5是本申请实施例提供的第二方法的流程图；

图6是本申请实施例提供的第一装置的示意图；

图7是本申请实施例提供的第二装置的示意图；

图8是本申请实施例提供的电子设备的示意图。

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员所获得的所有其他实施例，都属于本申请保护的范围。

为了便于理解本申请实施例提供的方案，下面首先对现有技术中的算法模型训练方法进行介绍。

对于算法模型训练而言，通常可以分为有监督式训练、无监督式训练，以及半监督式训练三种方式，视频动作识别模型也不例外，下面分别进行简单介绍。

一、有监督式训练是指，每个输入数据有其对应的标注信息，该标注信息即作为理论结果来进行模型训练。也就是说，有监督式训练要求所有输入数据均经过数据标注过程，如果完全采用有监督式训练的方式进行视频动作识别模型的训练，则需要采集大量的动作视频数据并对数据进行全量的标注。其中，具体在标注时，需要标注人员通过人工的方式观看完整的视频数据，并从中标注出多个动作片段的起止时间，以及对应的动作类别，进而可以将一个视频数据切分为多个动作片段，其中，每个动作片段可以仅包括一个完整的动作，且包括对应的动作类别标注信息。这种方式虽然能够得到比较准确的预测结果，但是，由于标注过程会占用大量的人工，因此，成本会比较高。另外，这种方式训练出的模型的泛化性也相对较差。所谓的泛化性是指模型在处理从未见过的数据时，其精度和处理训练用数据时精度的差距。该差距越小，则说明模型的泛化性越强。

二、无监督式训练是指，输入数据没有已知正确的标注信息，根据若干个输入数据间的关系和它们所对应的模型输出间的关系的异同来进行模型训练。如果采用无监督式训练的方式进行视频动作识别模型的训练，则意味着不需要标注具体的动作类别，人工成本会有所降低，并且，相对于有监督式的训练方式可以使得模型获得较强的泛化性。但是，由于一个原始视频中通常是由多个动作片段在时间轴上连接在一起组成的，而算法模型训练过程中，是在一条输入数据中仅包括一个动作这样的前提下进行训练的。因此，在现有技术中，在采用无监督方式对视频动作识别模型进行训练时，仍然需要对原始视频数据进行切分，得到一个个的动作片段，且每个动作片段中仅包含一个完整的动作。并且，在对原始视频数据进行切分的过程中，仍然需要通过人工观看的方式对各个片段的起止时间点进行标记。也就是说，相较于有监督方式下的标注数据而言，仅省略了对具体动作片段对应的动作类别进行打标的步骤。但是，由于在动作视频标注的整体流程中，动作切分是更为耗费人工判断时间的步骤，且在进行动作切分时，标注人员已经完整观看过了动作片段，即已经知道动作类型，不进行动作打标也只是省去了一个点选的简单人工动作，而动作切分所需的完整观看视频的时间无法避免。

三、半监督式训练是指，结合有监督式训练和无监督式训练，也即，一部分训练数据经过标注，其余大部分训练数据可以不经过标注。具体的，可以以一定的比例混合有标注和无标注数据，例如，标注数据可以不高于10％，具体如标注数据10％，无标注数据90％，等等。时在训练过程中，两种方式可以交替进行，或者，也可以同时进行，例如，一次输入模型的多条数据中可以部分是有标注的数据，另一部分是无标注的数据，等等。这种半监督的方式，可以兼顾有监督式训练与无监督式训练的优点，可以通过较低的成本，获得较高预测准确度，以及较强泛化性的模型。

但是，在上述通过半监督方式对视频动作识别模型进行训练的过程中，由于其中仍然会涉及到无监督式训练的部分，因此，如果采用现有技术中的方式，则同样需要对具体的视频数据进行切分，以得到多个动作片段，以保证每个动作片段仅包含一个完整的动作。也就是说，如图1所示，其示出了按照上述方式进行半监督方式训练的数据处理流程。也即，在其中的有监督式训练的部分，需要将样本中的视频数据切分成多个动作片段，并为每个动作片段标注上具体的动作类别信息；在无监督式训练的部分，同样需要将样本中的视频数据进行切分成多个动作片段，只是不需要标注具体的动作类别而已。因此，这种半监督式训练方式，仍然存在切分过程中占用的人力成本比较高的问题。

针对上述情况，本申请实施例中，可以采用半监督式训练的方式，同时对其中包含的无监督式训练的部分，在数据输入形式上进行了改进，以降低训练成本，当然，这种改进方式也同样适用于完全采用无监督式训练的方式。

具体的改进方式是，在无监督式训练的过程中，可以直接采用未经切分的原始视频数据作为模型的输入数据进行训练。由于不需要切分，因此，也就不需要通过人工的方式提前将每个视频看完，也不需要添加起止时间标记，等等，这样可以大幅节省人力成本。例如，如图2所示，在本申请实施例中，如果采用半监督式的训练方式，则可以将少部分视频数据进行切分，标注等处理，另外的大部分数据则可以不需要进行切分，也不需要标注，直接可以参与到模型的训练中。

当然，由于未经切分的原始视频数据中可能是由多个动作片段连接在一起组合而成的，因此，并不符合具体模型训练过程中关于一条输入数据中仅包含一个动作的假设。针对该情况，考虑到具体在构造输入数据时，还涉及到视频帧的采样过程(需要将每条输入数据的长度保持一致，也即帧数相同，因此，可以通过采样的方式来达到该目的)，因此，可以通过对具体的采样方式进行改进，来尽量满足上述假设。

具体的，关于视频帧的采样过程，首先以现有技术中提前进行了动作片段切分的方案为例进行介绍。由于动作识别指将一段动作视频片段(也即动作片段)作为识别模型的输入进行处理，模型会输出该动作片段中的动作类别分类结果。具体来说，算法模型虽然可以一次处理多个输入数据，但是对于分类任务通常要求单个输入数据的维度(也即长度，在本申请实施例中，具体可以是每条输入数据中包含的视频帧数)固定。而对于动作片段而言，不同动作片段中包含的视频帧数通常是不一致的。为此，需要先对每个动作片段进行视频帧采样，即从完整动作片段中通过预设的采样方式，采样出固定数量的视频帧来代表该动作片段输入给模型进行处理。

其中，在对模型进行训练过程中，一个前提是，一条输入数据中通常仅包含同一种动作内容，对于现有技术中提前进行了动作片段切分的情况下，每条输入数据都是从这种动作片段中进行视频帧采样获得，因此，自然可以满足该前提。但是，在本申请实施例中，由于是未经切分的原始视频进行采样，而原始视频中会包括多种不同类别的动作内容，因此，如果不进行控制，会导致同一条输入数据中包括多种不同动作内容的情况。为此，在本申请实施例中，对具体的采样方式进行了改进，具体的，可以根据单个动作的平均持续帧数对采样范围进行限制。例如，假设单个动作的平均持续帧数是25帧，则可以使得每次采样都在25帧范围内进行采样。例如，输入数据的长度为8帧，某次采样起始点是原始视频中的第10帧，则此次采样可以在该视频中的第10帧到第35帧之间采样出8个视频帧作为一条输入数据，等等。这样，由于单个动作平均会持续25帧(仅用于举例介绍的假设值)左右，因此，一次采样如果在该采样范围内进行，会大幅降低输入数据跨动作类别的概率。也就是说，通过这种方式，可以尽可能使得构造出的输入数据中仅包含一种动作类别的动作内容，即使出现跨动作类别的情况，也尽量只跨两种动作类别，而不是跨多种，从而至少可以使得大部分输入数据的有效性得到保障。

另外，在无监督式训练中，由于输入数据的真实标签未知，因此，为了对模型的训练效果进行评估，通常需要对同一个动作片段进行至少两次不同的变换，从而构造出一组差异化输入数据，进而根据同一组内的差异化数据实际类别一致的约束来最大化相应两个输出间的相似度来训练模型。具体到动作识别的自监督训练时，不仅需要对采样的多个视频帧进行单帧内容上的图像进行变换，同时也需要通过诸如不同采样方式、采样参数的方式对采样视频帧所覆盖的时间维度进行变换。例如，如图3(A)所示，假设31所示为一个动作片段，可以通过对该动作片段进行两次采样，构造出两条不同的输入数据(也即，构成一组差异化输入数据)，这两条不同的输入数据中具有相同的视频帧数，但是，在具体的视频帧组成上是不同的。例如，第一条输入数据可能是某动作片段中的第1、4、7、10帧，第二条可能是该动作片段中的第3、6、9、12帧，等等。但是，由于是从同一动作片段中采样得到的，因此，如果模型的训练效果比较好，则将上述两条输入数据输入到模型之后，模型输出的结果应该是相同的，或者，至少应该是相似度比较高。因此，就可以将上述通过同一动作片段构造出的两条差异化输入数据对应的模型输出结果之间的相似度，来构造出损失函数，在模型训练过程中，通过不断调整模型中的参数值，来最大化该损失函数的函数值，直到算法收敛。

其中，在上述预先切分出多个动作片段的情况下，由于是基于具体的动作片段进行差异化输入数据的构造，因此，在每次针对同一动作片段进行采样时，可以采用固定间隔配合随机初始位置的方式。例如，在前述图3(A)所示的例子中，两次不同的采样操作，可以都是以3帧为间隔，其中第一次是从第1帧开始采样，第二次是从第3帧开始采样，等等。

具体到本申请实施例中，由于直接采用未经切分的原始视频数据进行训练，而不同的原始视频数据之间的长度也存在差异，因此，同样需要对这种原始视频数据进行采样。但是，由于原始视频数据没有经过切分，因此，其中可能包括多个不同的动作片段，还可能包括一些非动作片段，等等。例如，如图3(B)中的32处所示，其中，动作片段与非动作片段用了不同灰度的色块来进行表示，当前，该图示中仅示出了动作片段与非动作片段的区别，并未示出不同的动作片段之间的区别，但是可以理解的是，同一视频数据中每个不同的动作片段通常都是对应着不同的动作。

在上述图3(B)所示的情况下，如果仍然采用图3(A)所示的固定间隔配合随机初始位置的采样方式，则两次(或多次)采样构造出的一组差异化数据之间可能会存在差异过大的问题，即两次采样所得到的固定数量视频帧所包含的实际动作内容存在较大差异，从而使得无监督训练时所需的“同一个数据”上构建差异化变化结果的前提失效，导致识别结果变差。也就是说，如图3(B)所示，上下两个图例示出了基于同一视频数据进行两次采样操作，其中，箭头所示代表具体采样出的视频帧在视频中的位置。从图中可以看出，由于前后两次采样的起点位置随机，因此，第一次采样时，采样出的视频帧主要来自第1个动作片段，第2个非动作片段，另外还包括部分第2个动作片段的视频帧。而第二次采样时，采样出的视频帧主要来自第2个动作片段以及第3个动作片段，等等。这样，就使得构造出的两条输入数据之间对应着不同动作片段的数据帧，显然，对这样的输入数据对是无法对模型训练效果进行评估的。

针对上述情况，在本申请实施例中，在使用未经切分的原始视频数据进行无监督训练的基础上，为了构造出能够用于对模型训练效果进行有效评估的多组差异化输入数据，还可以采用“固定采样起点+固定采样范围”的差异化数据构造方式。也就是说，具体在基于同一份视频数据进行至少两次采样，以构造出一组差异化输入数据的过程中，每次采样在时间轴上可以具有相同的采样起点，以及相同的采样范围。例如，如图3(C)所示，假设某均是从视频的第10帧开始，并该帧之后25帧范围内的视频帧进行采样，等等。该采样方法充分考虑了未切分视频中未知有效动作片段分布的特点，通过固定采样起点以及固定采样范围，限制了每次采样帧覆盖范围进而最大限度保证采样帧包含动作内容的相似性。当然，为了保证每次采样结果之间的差异化，可以通过限制每次采样时的帧间隔等方式来实现，例如，可以使得其中一次视频帧采样采用均匀采样的方式确定帧间隔，其他各次视频帧采样采用在均匀采样基础上添加偏移量的方式确定采样帧间隔。其中，该偏移量可以是随机的，还可以是固定值，等等。另外，关于前述采样范围，同样可以根据单个动作的平均持续帧数进行确定。例如，假设单个动作持续的帧数通常为25帧，则该采样范围就可以设为25帧，等等，这样，可以降低同一输入数据跨多种动作类别的概率。

总之，通过本申请实施例，在对视频动作识别模型进行训练时，如果其中涉及到无监督的训练方式，则可以直接基于未经切分的原始视频数据进行训练，但是，为了使得输入数据的有效性得到保障，可以对每次采样的采样范围进行限制，具体可以根据单个动作的平均持续帧数来确定该采样范围，使得得到的输入数据中跨动作类别的概率降低。另外，在通过对视频数据进行采样来构造用于对所述算法模型的训练效果进行评估的多组差异化输入数据的过程中，在基于同一视频数据进行多次采样以构造同一组差异化输入数据时，每次的视频帧采样在时间轴上可以具有相同的采样起点，以及相同的采样范围。通过这种方式，最大限度保证多次采样得到的输入数据之间包含的动作内容的相似性，从而可以用于对模型训练结果进行有效的评估。

下面对本申请实施例提供的具体实现方案进行详细介绍。

实施例一

首先，本申请实施例一提供了一种生成视频动作识别模型的方法，参见图4，该方法可以包括：

S401：获取训练样本数据，所述训练样本数据包括多份视频数据。

具体的，由于本申请实施例中主要是对视频动作识别模型进行训练，因此，具体的训练样本主要可以是包括具体动作内容的视频数据。并且，具体的视频动作识别模型可以是是针对具体场景而特别训练的，例如，如背景技术部分所述，如果需要对智能服装工厂中工人的动作进行识别，则具体的训练样本就可以是这种智能服装工厂中针对工人的工作过程采集到的视频数据。具体的，每天、每人都可能会产生新的视频数据，这些视频数据都可以作为本申请实施例中的训练样本，参与到对视频动作识别模型的训练中。

其中，在本申请实施例中，主要可以采用半监督式的训练方式。其中，半监督式训练的过程中，可以包括有监督式训练的部分，以及无监督式训练的部分，因此，在获取到具体的训练样本之后，可以按照一定的比例划分出一部分训练样本，以用于参与到有监督式训练过程中，对于这部分训练样本，需要提前切分成多个动作片段，使得每个动作片段中仅包括一个动作的内容，并且，可以对动作片段进行达标，也即，为具体的动作片段标注上具体的动作类别。而其他参与到无监督式训练中的训练样本，则无需进行切分，更无需打标。

这里需要说明的是，在半监督式训练的方式下，虽然会涉及到有监督式以及无监督式相结合，但是，具体的算法模型可以是同一个，也即，通过有监督式以及无监督式对同一个算法模型进行训练，具体训练过程中，有监督式与无监督式可以交替进行，还可以是同时进行，等等。当然，本申请实施例提供的方案也可以应用于单纯的无监督式训练过程中。

S402：在对视频动作识别模型进行训练的过程中，对于无监督式训练部分，基于对未按照动作片段进行切分的原始视频数据进行视频帧采样的方式生成模型的输入数据，其中，在每次采样时，根据单个动作的平均持续帧数进行确定时间维度上的采样范围。

由于在本申请实施例中，对于无监督式训练的部分，可以直接基于未经切分的原始视频数据来进行，因此，具体在为算法模型构造具体的输入数据时，就是直接基于这种原始视频数据来进行视频帧采样，以使得每条输入数据具有固定的维度。为了保证输入数据的有效性，可以将采样范围进行限制。其中，关于具体的采样范围，在本申请实施例中，可以设定为一个比较小的范围，具体的，该采样范围可以是根据单个动作的平均持续帧数进行确定，以降低同一输入数据中包含多种类别的不同动作的概率。也就是说，如前文所述，如果一条输入数据中包括了多种不同类别的动作，则模型识别出该输入数据属于每种动作类别的概率可能都会比较低，因此，可以尽量减少输入数据的跨动作数量。而通过减小采样范围，则可以达到上述目的。例如，假设单个动作的平均持续帧数是25帧，则可以将采样范围设置为25，也即，假设以第N帧为起点，则可以在从第N帧到第N+25帧的范围内进行采样，以此降低同一条输入数据跨多种不同动作类别的概率。

需要说明的是，由于一条原始视频可能会比较长，而本申请中对采样起点位置并不进行限制，也即，采样起点位置具体落在哪里是未知的，但是，通过将采样范围控制在单个动作的平均持续帧数范围内，就可以达到降低采样结果跨多个动作类别的概率的目的。例如，如果采样起点恰好是某个动作片段的开始的位置，这种情况是比较理想的，通过控制采样范围，可以尽可能使得采样出的输入数据仅包括单个动作内容。而如果采样起点位于某个动作片段的中央位置，则在将采样范围控制在单个动作的持续帧数的情况下，可能会出现同一条输入数据中存在两种不同动作内容的情况。或者，如果采样起点位于某个动作片段即将结束的位置，下一个动作片段持续时间又比较短，也可能出现同一条输入数据中存在三种甚至更多不同动作内容的情况，等等。当然，在实际应用中，在通过对采样范围进行限制后，出现上述第三种情况的概率会大幅降低。也就是说，由于单个动作通常的平均持续帧数是可以统计出来的，同一视频中不同动作片段之间通常还可能穿插一些非动作片段，因此，整体上来看，以任意点作为采样起点，在该起点后的一定采样范围内，包括多个不同动作片段的概率都会比较低，大部分情况下都可以控制在一种或者两种动作内容范围内。

其中，在同一条输入数据跨两种类别的情况下，如果模型训练的比较理想，虽然识别出该输入数据属于某动作类别的概率可能只有80％(因为存在20％属于另一种动作类别的视频内容)，但是这种识别结果与单个动作对应的更高概率识别结果的情况相比，仍然具有一定的价值，能够为模型的学习训练起到正向的作用。当然，如果通过本申请实施例提供方式构造出的输入数据，模型输出的识别结果是，该输入数据属于每种动作类别的概率都比较低，则可能是由于该输入数据中包含了多种类别的动作内容导致的，此时，则可以将这种数据(通常只占少部分)剔除，以避免对模型训练结果的准确性造成负向影响。

另外，为了构建起能够对无监督式训练的训练效果进行评估的损失函数，并以此对模型中的参数进行更新，如前文所述，需要构建多组差异化输入数据，具体的，可以针对同一视频数据至少采样两次，以基于相同或者相似的动作内容，构建出一组差异化的输入数据，再根据模型针对同一组差异化输入数据预测出的动作类别结果之间的相似度，来对模型训练效果进行评估。

在上述构造差异化输入数据的过程中，在本申请实施例中，由于具体的原始视频数据中可能包括多种不同类别的动作内容，因此，可以采用固定采样起点以及固定采样范围的采样方式，也即，在基于同一视频数据构造一组差异化输入数据时，在每次进行采样时，可以从相同的起点开始，并在一定的范围内进行采样。当然，为了使得每次采样结果之间存在差异，则可以通过设置不同的采样间隔的方式来进行确定。例如，在一种具体的实现方式下，可以使得其中一次视频帧采样采用均匀采样的方式确定帧间隔，其他各次视频帧采样则可以采用在均匀采样基础上添加偏移量的方式确定采样帧间隔。其中，具体的偏移量可以是固定值，或者还可以是随机值，等等。

例如，假设采样起点是第一帧，范围是25帧，一共需要采样8帧，则在均匀采样的情况下，帧间隔可以为3帧，也即，采样结果可以为第1、4、7、10、13、16、19、22帧；第二次则可以在上述基础上添加偏移量，例如，向后偏移一帧，则采样结果可以为第1、5、8、11、14、17、20、23帧，等等。或者，具体的偏移量也可以是随机的，例如，有的可能是向前偏移，有的向后偏移，还可以存在部分偏移量为0的情况，等等。

另外需要说明的是，具体实现时，由于一条原始视频数据通常可能比较长(相对于单个动作内容的动作片段)，因此，可以从一条原始视频数据中构造出多组差异化输入数据，每一组差异化输入数据中可以包括至少两条。只要保证同一组差异化输入数据是以相同的采样起点以及采样范围内进行采样获得即可。例如，假设从某视频数据的第1帧作为采样起点，并在之后的25帧范围内(也即，第1到25帧)，进行两次采样，可以得到一组差异化输入数据。另外，该可以从该视频数据的第30帧作为采样起点，并在之后的25帧范围内(也即，第30到55帧)，进行两次采样，可以得到另一组差异化输入数据，等等。

以上对无监督式训练的部分进行了介绍，在具体实现时，由于通常还需要与有监督式训练的方式相结合，以进行半监督式的训练，因此，如前文所述，还涉及到对部分训练样本进行切分及标注的过程。具体实现时，可以从所述多份视频数据中选取出部分视频数据，以用于切分为多个动作片段，并获取各动作片段的动作类别标注信息，以便通过有监督与无监督相结合的方式对所述算法模型进行训练。

其中，具体在选取部分用于有监督式训练的视频数据的过程中，虽然可以选取出一小部分视频数据，但是，为了提升模型训练效果及效率，可以尽量提升训练样本的质量，也即，可以选取一些具有代表意义的视频数据参与到有监督式的训练中。具体的，假设需要由算法模型识别出5种具体的动作类别，则具体的训练样本(动作片段)中就可以包括这5种动作类别分别对应的动作片段，每一种动作类别下都可以包括多个具体的动作片段。其中，虽然是同一动作类别，但是，不同人可能有不同的做法，或者，不同场景下可能也会有不同做法，等等。因此，而为了使得模型训练效果更好，同一动作类别下的多个动作片段之间可以尽可能覆盖这些不同的做法，以此提升模型的泛化能力。换言之，如果同一动作类别下，能够体现多种不同做法的动作片段对于模型训练而言是更有意义的。因此，在进行训练数据选取(也即，选择将哪些训练样本进行切分、标注)时，也可以通过一些方式进行控制，以提升参与有监督式训练的样本的质量，进而提升模型的训练效率及效率。

为了达到上述目的，一种比较简单的方式可以是，从多份视频数据中选取出不同产生时间、不同人物对应的部分视频数据。也就是说，可以使得样本分布在不同时间、不同的人物，由于不同时间、不同人物在执行同一动作类别时，具体做法之间存在差异的概率会比较大，因此，可以通过这种方式来达到上述目的。

或者，另一种方式下，还可以首先通过无监督方式对算法模型进行了一定的训练，使得算法模型具有一定的预测能力的基础上，首先利用这种算法模型对训练样本中的各个视频数据中包含的动作片段以及对应的动作类别进行预测。具体的，算法模型可以对视频数据进行分段的识别，例如，每次从2S的视频片段中抽取出一定数量的视频帧，分别对各个片段包括的动作类别进行识别，将相邻且相同类别对应的视频片段连接在一起，可以得到具体的动作片段(当然，在无监督的方式下，无法直接给出具体的动作类别的名称)。之后，可以从同一动作类别对应的多个动作片段中，确定相互之间差异较大的部分动作片段，作为对应动作类别的代表动作片段，然后，将所述代表动作片段所在的视频数据作为参与到有监督式训练中的部分视频数据。

其中，关于同一动作类别对应的多个动作片段之间差异，具体的，由于算法模型进行动作识别的过程中，可以为具体的动作片段生成对应的特征向量，因此，可以利用所述算法模型获取同一动作类别下包括的多个动作片段的特征向量，然后，可以通过计算多个动作片段的特征向量之间的距离，确定不同动作片段之间的差异量化值；进而，可以根据所述不同动作片段之间的差异量化值，确定相互之间差异较大的部分动作片段。

也就是说，在通过无监督方式对模型进行了一定的训练之后，可以从原始视频数据中识别出动作片段，虽然不知道具体动作片段的类别名称，但是，可以大概确定出哪些动作片段属于同一类别，并且，能够为各个动作片段生成具体的特征向量。这样，可以根据同一类别下各个动作片段的特征向量之间的距离，来确定出各个动作片段中所包含的动作内容之间的差异程度。而具体的动作片段属于原始视频数据，因此，通过这种方式，可以大致确定出哪些视频数据中包含有更具有代表意义的动作片段，可以将这些视频数据选择出来，之后，再通过人工方式进行动作片段切分以及打标，以此提升参与到有监督式训练中的训练数据的质量。

需要说明的是，在完成对视频动作识别模型的训练之后，具体就可以将该模型应用于对视频中包含的动作类别进行识别或者预测的应用中。其中，具体预测的对象可以是预先录制好的视频文件，或者还可以是实时产生的视频流内容，等等。但是，无论是视频文件还是实时的视频流，具体的预测过程都可以是分段进行预测，再将每个分段对应的动作类别预测结果进行聚合，例如，将相邻且相同类别的分段连接在一起，组成一个动作片段，等等。其中，在进行分段预测时，就可以以2S(或者其他值)作为一个分段，从每2S对应的分段中分别进行视频帧的采样，并输入到模型中进行预测，等等。具体关于动作片段的预测或者识别结果，则可以用于对工人操作规范的指导或者纠正等过程中，以帮助提升具体所生产产品的质量，等等。

总之，通过本申请实施例，在对视频动作识别模型进行训练的过程中，如果涉及到无监督式训练，则可以直接采用未经切分的原始视频数据进行无监督式训练，也即，直接从原始视频数据中进行视频帧采样的方式来构造出具体的输入数据。这样，由于不需要对原始视频数据进行切分或裁剪，因此，可以降低模型训练过程中的人工操作成本。另外，在每次采样时，可以根据单个动作的平均持续帧数进行确定时间维度上的采样范围，这样，可以使得输入数据跨动作类别的概率大幅降低，可以从一定程度上保证模型输入数据的有效性。

实施例二

该实施例二主要从具体视频动作识别模型的应用角度进行介绍。具体的，视频动作识别具有广泛的应用场景。例如，在智能工厂或者数字工厂(具体如，智能服装工厂等)中，每个环节上的工人按照预设的标准执行各自的动作，以共同完成生产任务。因此，各个环节上工人的动作规范性，往往决定着最终生产出的产品的质量。在此过程中，可以通过数字化手段对工人生产流程进行管理，以提升产品质量，这就需要生成有效的视频动作识别模型，以用于自动从录制的视频或者实时采集的视频流中识别工人的动作是否符合规范，等等。

具体的，本申请实施例二就针对在上述智能工厂或数字工厂中的应用，提供了一种视频处理方法，参见图5，该方法可以包括：

S501：对目标工厂中工人的生产工作过程进行视频采集，以得到视频数据。

其中，视频数据可以是录制的视频文件，或者，也可以是实时采集的视频流。具体实现时，可以在目标工厂中的工作区域内部署视频采集设备，以用于对具体工人的生产工作过程进行视频采集。也即，具体视频数据可以包括具体工人在生产工作过程中具体所执行的动作。

S502：利用预先生成的视频动作识别模型对所述视频数据中工人执行的动作类型进行识别；其中，在对所述视频动作识别模型进行训练时，对于无监督式训练部分，基于对未按照动作片段进行切分的原始视频数据进行视频帧采样的方式生成模型的输入数据，其中，在每次采样时，根据单个动作的平均持续帧数进行确定时间维度上的采样范围。

在确定出待处理的视频数据后，可以使用预先生成的视频动作识别模型对所述视频数据中工人执行的动作类型进行识别，其中，该模型就可以是通过前述实施例一中所述的方式来建立的。具体在进行动作类型识别时，如实施例一中所述，可以对视频数据进行分段预测，之后，再将每个分段对应的动作类别预测结果进行聚合。例如，将相邻且相同类别的分段连接在一起，组成一个动作片段，等等。其中，在进行分段预测时，就可以以2S(或者其他值)作为一个分段，从每2S对应的分段中分别进行视频帧的采样，并输入到模型中进行预测，等等。

S503：根据所识别出的动作类型，以及所述工人所在生产环节所需执行的动作类型规范信息，确定所述工人在所述生产工作过程中执行的动作是否符合规范。

为了能够对工人的动作是否规范进行判断，还可以预先对工人所在生产环节所需执行的动作类型规范信息进行保存，这样，在识别出具体工人在对应生产环节上实际执行的动作类型之后，就可以通过与规范信息进行对比，判断工人的动作是否符合规范。例如，某生产环节上需要依次执行动作1、动作2、动作3等，某工人在工作过程中，对动作2执行的不够标准，以至于算法模型未能识别到该动作2，也即，该工人仅规范执行了动作1、3，未执行或者未规范执行的动作2，这就可能导致最终生产对象的质量受到影响。因此，可以通过本申请实施例中的判断结果，对工人操作规范进行指导或者纠正，进而帮助提升具体生产对象的质量。

具体实现时，具体的工厂中还可以配备有大屏设备，或者，可以为具体的工人配备终端设备，在识别出某个工人执行的动作不符合规范之后，可以向该工人提供提示信息。例如，可以将提示信息展示在大屏设备上，也可以直接发送到具体个人的终端设备上，等等。

另外，如果所述工人在所述生产工作过程中执行的动作不符合规范，则还可以确定对应的生产对象标识信息，并且，可以向对应的质检用户提供质检提示信息。例如，可以根据具体检出的不符合规范操作所在的时间段，确定出对应的生产对象的批次标识，之后，可以将该批次标识提供给质检用户，以提示质检用户对该批次的生产对象进行质检过程中提高注意力，等等。

关于该实施例二中的未详述部分，可以参见实施例一中的记载，这里不再赘述。

需要说明的是，本申请实施例中可能会涉及到对用户数据的使用，在实际应用中，可以在符合所在国的适用法律法规要求的情况下(例如，用户明确同意，对用户切实通知，等)，在适用法律法规允许的范围内在本文描述的方案中使用用户特定的个人数据。

与前述实施例一相对应，本申请实施例还提供了一种生成视频动作识别模型的装置，参见图6，该装置可以包括：

训练样本数据获取单元601，用于获取训练样本数据，所述训练样本数据包括多份视频数据；

输入数据构造单元602，用于在对视频动作识别模型进行训练的过程中，对于无监督式训练部分，基于对未按照动作片段进行切分的原始视频数据进行视频帧采样的方式生成模型的输入数据，其中，在每次采样时，根据单个动作的平均持续帧数进行确定时间维度上的采样范围。

具体的，该装置还可以包括：

差异化输入数据构造单元，用于在通过对同一视频数据进行至少两次视频帧采样以构造同一组差异化输入数据时，每次的视频帧采样在时间轴上具有相同的采样起点，以及相同的采样范围，以便通过构造出的多组差异化输入数据对所述算法模型的训练效果进行评估。

具体的，在所述对同一视频数据进行至少两次视频帧采样的过程中，其中一次视频帧采样采用均匀采样的方式确定帧间隔，其他各次视频帧采样采用在均匀采样基础上添加偏移量的方式确定采样帧间隔。

其中，所述偏移量为固定值或者随机值。

具体实现时，该装置还可以包括：

样本选取单元，用于从所述多份视频数据中选取出部分具有代表性的视频数据，以用于切分为多个动作片段，并获取各动作片段的动作类别标注信息，以便通过有监督与无监督相结合的方式对所述算法模型进行训练。

具体的，所述样本选取单元具体可以用于

或者，所述样本选取单元具体可以用于：

预测子单元，用于利用所述算法模型对所述视频数据中包含的动作片段以及对应的动作类别进行预测；

差异计算子单元，用于从同一动作类别对应的多个动作片段中，确定相互之间差异较大的部分动作片段，作为对应动作类别的代表动作片段；

选取子单元，用于将所述代表动作片段所在的视频数据作为选取出的参与到有监督式训练中的部分具有代表性的视频数据。

其中，所述差异计算子单元具体可以用于：

与前述实施例二相对应，本申请实施例还提供了一种视频处理装置，参见图7，该装置可以包括：

视频采集单元701，用于对目标工厂中工人的生产工作过程进行视频采集，以得到视频数据；

动作识别单元702，用于利用预先生成的视频动作识别模型对所述视频数据中工人执行的动作类型进行识别；其中，在对所述视频动作识别模型进行训练时，对于无监督式训练部分，基于对未按照动作片段进行切分的原始视频数据进行视频帧采样的方式生成模型的输入数据，其中，在每次采样时，根据单个动作的平均持续帧数进行确定时间维度上的采样范围；

判断单元703，用于根据所识别出的动作类型，以及所述工人所在生产环节所需执行的动作类型规范信息，确定所述工人在所述生产工作过程中执行的动作是否符合规范。

具体实现时，该装置还可以包括：

第一提示单元，用于如果所述工人在所述生产工作过程中执行的动作不符合规范，则向所述工人发送提示信息。

或者，还可以包括：

第二提示单元，用于如果所述工人在所述生产工作过程中执行的动作不符合规范，则确定对应的生产对象标识信息，并向对应的质检用户提供质检提示信息。

另外，本申请实施例还提供了一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现前述方法实施例中任一项所述的方法的步骤。

以及一种电子设备，包括：

一个或多个处理器；以及

与所述一个或多个处理器关联的存储器，所述存储器用于存储程序指令,所述程序指令在被所述一个或多个处理器读取执行时，执行前述方法实施例中任一项所述的方法的步骤。

其中，图8示例性的展示出了电子设备的架构，具体可以包括处理器810，视频显示适配器811，磁盘驱动器812，输入/输出接口813，网络接口814，以及存储器820。上述处理器810、视频显示适配器811、磁盘驱动器812、输入/输出接口813、网络接口814，与存储器820之间可以通过通信总线830进行通信连接。

其中，处理器810可以采用通用的CPU(Central Processing Unit，处理器)、微处理器、应用专用集成电路(Application Specific Integrated Circuit，ASIC)、或者一个或多个集成电路等方式实现，用于执行相关程序，以实现本申请所提供的技术方案。

存储器820可以采用ROM(Read Only Memory，只读存储器)、RAM(Random AccessMemory，随机存取存储器)、静态存储设备，动态存储设备等形式实现。存储器820可以存储用于控制电子设备800运行的操作系统821，用于控制电子设备800的低级别操作的基本输入输出系统(BIOS)。另外，还可以存储网页浏览器823，数据存储管理系统824，以及模型生成处理系统825等等。上述模型生成处理系统825就可以是本申请实施例中具体实现前述各步骤操作的应用程序。总之，在通过软件或者固件来实现本申请所提供的技术方案时，相关的程序代码保存在存储器820中，并由处理器810来调用执行。

输入/输出接口813用于连接输入/输出模块，以实现信息输入及输出。输入输出/模块可以作为组件配置在设备中(图中未示出)，也可以外接于设备以提供相应功能。其中输入设备可以包括键盘、鼠标、触摸屏、麦克风、各类传感器等，输出设备可以包括显示器、扬声器、振动器、指示灯等。

网络接口814用于连接通信模块(图中未示出)，以实现本设备与其他设备的通信交互。其中通信模块可以通过有线方式(例如USB、网线等)实现通信，也可以通过无线方式(例如移动网络、WIFI、蓝牙等)实现通信。

总线830包括一通路，在设备的各个组件(例如处理器810、视频显示适配器811、磁盘驱动器812、输入/输出接口813、网络接口814，与存储器820)之间传输信息。

需要说明的是，尽管上述设备仅示出了处理器810、视频显示适配器811、磁盘驱动器812、输入/输出接口813、网络接口814，存储器820，总线830等，但是在具体实施过程中，该设备还可以包括实现正常运行所必需的其他组件。此外，本领域的技术人员可以理解的是，上述设备中也可以仅包含实现本申请方案所必需的组件，而不必包含图中所示的全部组件。

通过以上的实施方式的描述可知，本领域的技术人员可以清楚地了解到本申请可借助软件加必需的通用硬件平台的方式来实现。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在存储介质中，如ROM/RAM、磁碟、光盘等，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本申请各个实施例或者实施例的某些部分所述的方法。

本说明书中的各个实施例均采用递进的方式描述，各个实施例之间相同相似的部分互相参见即可，每个实施例重点说明的都是与其他实施例的不同之处。尤其，对于系统或系统实施例而言，由于其基本相似于方法实施例，所以描述得比较简单，相关之处参见方法实施例的部分说明即可。以上所描述的系统及系统实施例仅仅是示意性的，其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性劳动的情况下，即可以理解并实施。

以上对本申请所提供的生成视频动作识别模型的方法及电子设备，进行了详细介绍，本文中应用了具体个例对本申请的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本申请的方法及其核心思想；同时，对于本领域的一般技术人员，依据本申请的思想，在具体实施方式及应用范围上均会有改变之处。综上所述，本说明书内容不应理解为对本申请的限制。

Claims

1.一种生成视频动作识别模型的方法，其特征在于，包括：

获取训练样本数据，所述训练样本数据包括多份视频数据；

2.根据权利要求1所述的方法，其特征在于，还包括：

3.根据权利要求2所述的方法，其特征在于，

在所述对同一视频数据进行至少两次视频帧采样的过程中，其中一次视频帧采样采用均匀采样的方式确定帧间隔，其他各次视频帧采样采用在均匀采样基础上添加偏移量的方式确定采样帧间隔。

4.根据权利要求3所述的方法，其特征在于，

所述偏移量为固定值或者随机值。

5.根据权利要求1所述的方法，其特征在于，还包括：

6.根据权利要求5所述的方法，其特征在于，

所述从所述多份视频数据中选取出部分具有代表性的视频数据，包括：

7.根据权利要求5所述的方法，其特征在于，

8.根据权利要求7所述的方法，其特征在于，

所述从同一动作类别对应的多个动作片段中，确定相互之间差异较大的部分动作片段，包括：

9.一种视频处理方法，其特征在于，包括：

10.根据权利要求9所述的方法，其特征在于，还包括：

11.根据权利要求9所述的方法，其特征在于，还包括：

12.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，该程序被处理器执行时实现权利要求1至11任一项所述的方法的步骤。

13.一种电子设备，其特征在于，包括：

一个或多个处理器；以及

与所述一个或多个处理器关联的存储器，所述存储器用于存储程序指令,所述程序指令在被所述一个或多个处理器读取执行时，执行权利要求1至11任一项所述的方法的步骤。