CN112446342B

CN112446342B - 关键帧识别模型训练方法、识别方法及装置

Info

Publication number: CN112446342B
Application number: CN202011415820.9A
Authority: CN
Inventors: 王小娟; 王昊昱; 金磊; 何明枢
Original assignee: Beijing University of Posts and Telecommunications
Current assignee: Beijing University of Posts and Telecommunications
Priority date: 2020-12-07
Filing date: 2020-12-07
Publication date: 2022-06-24
Anticipated expiration: 2040-12-07
Also published as: CN112446342A

Abstract

本发明提供一种关键帧识别模型训练方法、识别方法及装置，所述训练方法构建了新的初始网络模型结构，所述初始网络模型中，采用预设卷积神经网络模型提取连续图像中各帧的图像特征并输入至长短时记忆模块，将所述长短时记忆模块的输出向量作为全连接层的输入，所述全连接层输出连续图像中每一帧属于各关键帧的概率。初始网络模型的前半部分基于卷积神经网路提取图像特征，能够获得更多的语义信息。后半部分使用长短时记忆模块学习连续图像之间的关系，从而能够提取帧间关系特征，实现更高精度的动作识别。同时，基于卷积神经网络与长短时记忆模块的组合，使参数量较小，维持较低的时间复杂度，能够极大节约算力。

Description

关键帧识别模型训练方法、识别方法及装置

技术领域

本发明涉及图像处理技术领域，尤其涉及一种关键帧识别模型训练方法、识别方法及装置。

背景技术

目前，人工智能是最热门的研究方向之一，其中计算机视觉任务作为人工智能领域的子任务之一也得到了极大的重视和发展。随着应用需求的变化，许多计算机视觉任务由对图片进行分析进化成对视频进行分析，从而衍生出了一些基于视频分析的高级计算机视觉任务。

在智能视频监控、病人监护系统、运动员辅助训练等场景中对动作识别有着极高的要求。现有技术中，基于卷积神经网络的处理技术无法获取帧间关系，基于循环神经网络与其扩展模型的技术又不能充分提取单帧图像语义信息。而通过三维卷积进行时空特征提取的方式会极大地增加运算量，难以实现快速准确的动作识别。

发明内容

本发明实施例提供了一种关键帧识别模型训练方法、识别方法及装置，以解决现有技术无法获取帧间关系或算法过于复杂的问题，从而实现对连续图像中动作的高效识别。

本发明的技术方案如下：

一方面，本发明提供一种关键帧识别模型训练方法，包括：

获取训练样本集，基于预定义的识别对象连续的多个关键动作，所述训练样本集中包括多个连续图像序列样本，各连续图像序列样本中标记有各关键动作对应的一个或多个关键帧，各关键帧添加有对应的关键动作标签，各连续图像序列样本中的每一帧都标记有所述识别对象所在的原始人体框；

获取初始网络模型，所述初始网络模型中，采用预设卷积神经网络模型提取连续图像中各帧的图像特征并输入至长短时记忆模块，将所述长短时记忆模块的输出向量作为全连接层的输入，所述全连接层输出连续图像中每一帧属于各关键帧的概率；

采用所述训练样本集对所述初始网络模型进行训练，得到关键帧识别模型。

在一些实施例中，所述全连接层还输出连续图像中每一帧属于背景的概率。

在一些实施例中，采用所述训练样本集对所述初始网络模型进行训练中，还包括：

设置容错值，当所述初始网络模型的预测结果在所标记关键帧前后的第一数量帧范围内，所述第一数量等于所述容错值，认定为预测结果正确。

在一些实施例中，所述容错值的计算式为：

其中，δ表示容错值，n表示第一个关键帧动作到第五个关键帧动作之间的帧数，f为视频的帧率。

在一些实施例中，所述预设卷积神经网络模型为骨干网络MobileNetV2，并采用MobileNetV2基于imageNet数据集的训练权重作为初始权重；所述全连接层使用Xavier初始化生成初始权重；所述长短时记忆模块的序列输入长度为64。

在一些实施例中，采用所述训练样本集对所述初始网络模型进行训练中，采用带权重的交叉熵损失函数进行调参，其中，非关键帧权重为0.1，关键帧权重为1。

对连续图像序列样本随机选择输入起点；和/或

对连续图像序列样本中的各帧进行随机水平翻转；和/或

对连续图像序列样本中的各帧进行随机仿射变换，所述随机放射变换为-5～5°的随机旋转以及随机修剪。

另一方面，本发明提供一种关键帧识别方法，包括：

获取待识别连续图样；

将所述待识别连续图样输入如上述的关键帧识别模型训练方法得到的关键帧识别模型中，计算输出关键动作对应的一个或多个关键帧。

在一些实施例中，所述待识别连续图样是关于滑雪动作的连续图样，所述关键帧识别模型是基于滑雪过程中预设关键动作对应的关键帧进行训练得到的。

另一方面，本发明还提供一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现如上述方法的步骤。

本发明的有益效果至少是：

本发明所述关键帧识别模型训练方法、识别方法及装置中，所述关键帧识别模型训练方法在初始网络模型的前半部分基于卷积神经网路提取图像特征，能够获得更多的语义信息。后半部分使用长短时记忆模块学习连续图像之间的关系，从而能够提取帧间关系特征，实现更高精度的动作识别。同时，基于卷积神经网络与长短时记忆模块的组合，使参数量较小，维持较低的时间复杂度，能够极大节约算力。

进一步地，所述关键帧识别模型训练方法在初始网络模型的前半部分采用基于卷积神经网络的骨干网络对单帧图像进行特征提取，能够提取图像中较多语义信息。

本发明的附加优点、目的，以及特征将在下面的描述中将部分地加以阐述，且将对于本领域普通技术人员在研究下文后部分地变得明显，或者可以根据本发明的实践而获知。本发明的目的和其它优点可以通过在书面说明及其权利要求书以及附图中具体指出的结构实现到并获得。

本领域技术人员将会理解的是，能够用本发明实现的目的和优点不限于以上具体所述，并且根据以下详细说明将更清楚地理解本发明能够实现的上述和其他目的。

附图说明

此处所说明的附图用来提供对本发明的进一步理解，构成本申请的一部分，并不构成对本发明的限定。在附图中：

图1为本发明一实施例中所述关键帧识别模型训练方法的流程示意图；

图2为本发明一实施例中所述关键帧识别方法的流程示意图；

图3为本发明一实施例对滑雪过程中犁式转弯动作关键帧展示图；

图4为本发明一实施例中长短时记忆模块单一节点结构示意图；

图5为本发明一实施例中长短时记忆模块整体结构示意图；

图6为本发明一实施例中初始网络模型结构示意图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚明白，下面结合实施方式和附图，对本发明做进一步详细说明。在此，本发明的示意性实施方式及其说明用于解释本发明，但并不作为对本发明的限定。

在此，还需要说明的是，为了避免因不必要的细节而模糊了本发明，在附图中仅仅示出了与根据本发明的方案密切相关的结构和/或处理步骤，而省略了与本发明关系不大的其他细节。

应该强调，术语“包括/包含”在本文使用时指特征、要素、步骤或组件的存在，但并不排除一个或更多个其它特征、要素、步骤或组件的存在或附加。

计算机视觉任务顾名思义，是研究如何让计算机从图像和视频中获取高级、抽象的信息，从而完成代替人类视觉的自动化任务。近年来，许多计算机视觉任务的研究已经落地商用，比如热门的自动驾驶技术、人脸识别技术、智能安防技术的背后，都是以计算机视觉任务的研究为基础实现的。

随着任务要求的提高，许多计算机视觉任务从对图片进行分析进化成对视频进行分析，进而衍生出了一些基于视频分析的高级计算机视觉任务。其中，动作识别技术已广泛应用在智能视频监控、病人监护系统、运动员辅助训练等具体场景，完成通过人工智能来识别出给定视频里主要动作类型的分类问题，本质是对视频进行理解，需要考虑包括时空信息权重、视频长短、动作持续的起止时间差、语义标签置信度等因素，有着广阔的应用前景和潜在的经济价值和社会价值。

因此，本发明提供一种关键帧识别模型训练方法，用于构建和训练能够识别视频或连续图像中动作的网络模型，参照图1和图6，包括步骤S101～S104：

需要强调的是，本申请中关于步骤S101～S104的说明并不是对步骤先后顺序的修订，应当认为，在特定的使用场景中，部分步骤可以并行或调换先后顺序。

步骤S101：获取训练样本集，基于预定义的识别对象连续的多个关键动作，所述训练样本集中包括多个连续图像序列样本，各连续图像序列样本中标记有各关键动作对应的一个或多个关键帧，各关键帧添加有对应的关键动作标签，各连续图像序列样本中的每一帧都标记有所述识别对象所在的原始人体框。

步骤S102：获取初始网络模型，初始网络模型中，采用预设卷积神经网络模型提取连续图像中各帧的图像特征并输入至长短时记忆模块，将长短时记忆模块的输出向量作为全连接层的输入，全连接层输出连续图像中每一帧属于各关键帧的概率。

步骤S103：采用训练样本集对所述初始网络模型进行训练，得到关键帧识别模型。

在步骤S101中，为了对用于动作识别的初始网络模型进行训练，需要设置与实际应用场景向适应的训练样本集。训练样本集是根据具体的应用目的，针对特定识别对象的关键动作设置的。

其中，识别对象是指产生动作的主体，一般识别对象可以是人，在另一些应用场景中，也可以将其他动物或物体作为识别对象。关键动作是指需要识别的目标动作。进一步的，关键动作可以是相互关联而连续的动作，是一个复杂动作进行切分后得到的。在另一些实施例中，关键动作也可以是独立的。

为了提高训练的效果，训练样本集中的连续图像序列样本可以设置多个。连续图像序列样本为时间连续的视频帧序列，可以是正常速率的视频，也可以是倍速或慢速视频，优选的样本速率应当与实际应用场景中的视频速率一致。在一定时长的连续图像序列样本中，一个关键动作可能发生多次，则在该连续图像序列样本中可以标记出多个关键帧，并添加标签。同时，在关键帧中还通过添加候选框将识别对象标记出来，在训练过程中，采用选框内的图像进行处理运算，以提高初始网络模型的训练效果。

在步骤S102中，本申请构建了新的初始网络模型。具体的，在该初始模型的前半部分，采用了预设卷积神经网络模型以提取连续图像中各帧的图像特征，在另一些实施例中还可以采用SIFT(Scale-Invariant feature transform)算法或其他可以用于提取图像特征的模型或算法。

本实施例中，首先采用卷积神经网络对连续图像序列样本中的每一帧提取图像特征。卷积神经网络中，一些用于分类任务的骨干网络模型都能够有效地提取图像中关键特征，而由于不同骨干网络之间的性能和复杂度的不同，选择提取特征的骨干网络需要综合权衡网络模型的性能和复杂度。本实施例可以选用骨干网络MobileNetV2，该网络结构利用深度可分离卷积模块极大提高了特征提取的速度。能够把一段时间连续序列的RGB图像集合映射到一段时间连续序列的特征向量上。其中，骨干网络模型MobileNetV2可以采用在ImageNet数据集上预训练模型得到的权重作为初始权重。

进一步地，在连续图像序列样本中，即时间连续的视频帧序列中，仅通过提取单张图像特征作为参数判断关键帧是不准确的，为了参考前后动作之间的管理，还需要引入不同帧之间的特征关系，引入时序信息。因此，本实施例中，初始模型的后半部分采用循环神经网络中的长短时记忆模块对连续图像序列样本中的连续帧进行学习。长短时记忆模块需要固定的序列输入，但是不同人体动作视频的总帧数是变化的。长短时记忆模块的个数等于输入中的连续图像序列长度，较长的序列输入会导致模块学习偏向于理解长时间的关联，而较短的序列输入会导致网络遗忘视频中较早的图像。根据以上考虑，本实施例定义长短时记忆模块的序列输入长度为64。

进一步地，将每个长短时记忆模块的输出向量作为全连接层的输入，全连接层的作用是改变通道数以符合输出要求。令全连接层输出连续图像序列样本中每一帧图像对应关键帧的概率，对于有多个关键帧的情况，则输出每一帧图像对应各关键帧的概率集合e。选取输出概率值最大的帧作为相应关键帧的预测结果，在另一些实施例中，将概率大于设定值的帧作为相应关键帧的预测结果。例如，预设关键动作有a、b和c，对应的关键帧为A、B和C，则最终输出包括连续图像序列样本中每一帧图像属于A、B或C的概率。在另一些实施例中，所述全连接层还输出连续图像中每一帧属于背景的概率。其中，全连接层可以采用Xavier初始化生成初始权重。

在一些实施例中，由于非关键帧的数量远大于关键帧的数量，造成正负样本的不均衡，本实施例可以采用带权重的交叉熵损失函数，非关键帧权重为0.1，关键帧权重为1。

在步骤S103中，利用训练样本集对初始网络模型进行训练，具体的，对于一个连续图像序列样本，将每一帧中所标记的原始人体框作为初始网络模型的输入。在一些实施例中，还需要对初始网络模型的输入进行预处理，如对原始人体框的尺寸进行调整补充，以使其适应卷积神经网络的驶入要求，其中，需要补充的像素采用ImageNet数据集所有图像像素的RGB均值进行填充，使尺寸的达到输入需要。进一步的，原始人体框作中的每个像素都减去ImageNet数据集所有图像像素的RGB均值并除以标准差，使各像素点归一化至[-1,1]。

在一些实施例中，在步骤S103中，即采用所述训练样本集对所述初始网络模型进行训练中，还包括：设置容错值，当所述初始网络模型的预测结果在所标记关键帧前后的第一数量帧范围内，所述第一数量等于所述容错值，认定为预测结果正确。

在一些实施例中，容错值的计算式为：

其中，对于复杂动作切分得到的连续多个关键动作对应的关键帧，δ表示容错值，n表示第一个关键帧动作到第五个关键帧动作之间的帧数，f为视频的帧率。

在本实施例中，通过设置容错值，可以提高最终关键帧识别模型的容错能力和鲁棒性。例如，在连续图像序列样本中，当一个关键帧发生在两个连续帧之间的时候，那么最后的标注结果可以标记为这两个连续帧中的任意一帧，为了适应这种情况，对正常速率的视频，可以把容错值δ设置为1。

进一步地，为了提高对初始网络模型的训练效果，在输入训练数据的过程中，可以进行一定的数据增强处理，具体的，在步骤S103中，即采用所述训练样本集对所述初始网络模型进行训练中，还包括：

对连续图像序列样本随机选择输入起点；和/或对连续图像序列样本中的各帧进行随机水平翻转；和/或对连续图像序列样本中的各帧进行随机仿射变换，所述随机放射变换为-5～5°的随机旋转以及随机修剪。

在本实施例中，随机选择输入图像序列的起始点，可以避免网络学习对特定起始点的情况过拟合。通过对各帧进行随机水平翻转和仿射变换，能够模拟不同相机角度和距离的环境条件，能够极大提高训练得到的关键帧识别模型的鲁棒性，其中随机水平翻转过程中将标签对应的方向同时做变换。

进一步地，对于步骤S103，在训练过程中，可以将连续图像序列样本中的第一设定比例用于训练，剩余的部分作为测试集用于检验评估性能。具体的，在一些实施例中，将训练样本集中的连续图像序列样本按照7:3的比例随机划分为训练集和测试集，用于交叉验证，从而获得鲁棒的评估结果。

另一方面，本发明提供一种关键帧识别方法，如图2所示，包括步骤S201～S202：

步骤S201：获取待识别连续图样。

步骤S202：将待识别连续图样输入如上述的关键帧识别模型训练方法得到的关键帧识别模型中，计算输出关键动作对应的一个或多个关键帧。

在本实施例中，基于步骤S101～S103中训练得到的关键帧识别模型，对待识别的连续图样进行检验，以识别包含关键动作的关键帧。关键帧识别模型是针对特定的识别对象和要识别的关键动作进行训练得到的，即应用过程中要识别的目标对象和目标动作，应当采用与之相对应的关键帧识别模型进行识别。

在一些实施例中，待识别连续图样是关于滑雪动作的连续图样，关键帧识别模型是基于滑雪过程中预设关键动作对应的关键帧进行训练得到的。

在本实施例中，将关键帧识别方法应用于具体的场景，以对滑雪动作进行识别。具体的，在该应用场景下的关键帧识别模型是基于人在滑雪过程中的多个关键动作进行训练得到的，能够识别连续图像序列或视频中发生关键动作的关键帧。进一步地，另一些应用场景中，经过特定样本进行训练得到的关键帧识别模型可以用于识别其他类型的动作。

下面结合一具体实施方式进行说明，在滑雪场景中对关键动作所在关键帧进行识别。

首先需要对文字和附图中的部分概念进行说明。MobileNetV2：一种基于卷积神经网络的网络结构，用于图像特征提取。长短时记忆模块(LSTM)：一种特殊的递归神经网络，用于解决时间序列问题的预测。关键帧：从信息冗余的视频中冗选取的可以概括视频场景事件的帧，即包含关键动作的帧。光流：视频图像的一帧中的代表同一对象(物体)像素点移动到下一帧的移动量，使用二维向量表示。卷积神经网络：卷积计算且具有深度结构的前馈神经网络，用于提取图像特征。循环神经网络：以序列数据为输入，在序列的演进方向进行递归且所有节点(循环单元)按链式连接的递归神经网络。图卷积：在不规则图结构数据上实现的卷积操作。三维卷积：区别于二维卷积可以在三个方向(图像的高度、宽度、通道)上移动，在每个位置，逐元素的乘法和加法都会提供一个数值。FC(全连接层)：每一个结点都与上一层的所有结点相连，用来把前边提取到的特征综合起来。由于其全相连的特性，一般全连接层的参数也是最多的。深度可分离卷积：区别于二维卷积，一个卷积核负责一个通道，一个通道只被一个卷积核卷积。

将犁式转弯动作作为研究对象，具体流程可以包括如下第①～④，四个部分。

①建立样本数据集

为了验证关键帧识别方法，探索在滑雪运动中的应用，本实施例选择犁式转弯动作为分析研究的数据集内容。犁式转弯动作是高山滑雪转弯的重要基础技术，需要全身协同配合。犁式转弯动作的解析已有固定方案，可以作为我们数据集中关键帧构建的依据。

以公开数据源中681段犁式转弯的视频作为训练样本，视频包含了多个拍摄角度，包括正面、侧面、斜后方等角度；也包含了不同背景条件，如练习场、雪山等环境。这些拍摄角度和背景的变化丰富了场景信息，能够为网络提供更强的泛化能力和鲁棒性。可以对采集到的包含犁式转弯动作的视频进行了裁剪，保持每段犁式转弯动作片段为720p分辨率和30帧率。

②定义关键动作以及关键帧，构建训练样本集

本实施例中，定义犁式转弯动作分为五个关键动作，对应五类关键帧如下，如图3所示：

1.马上要出发的瞬间。

2.左转过程中，双板平行的瞬间。

3.左转到右转的转移过程中，双板对称的时刻。

4.右转过程中，双板平行的瞬间。

5.右转到左转的转移过程中，双板对称的时刻。

标记每一段犁式转弯动作片段视频中的5帧关键帧的帧数，并添加标签作为数据集标注的一部分，构成训练样本集。此外，由于犁式转弯动作是原地动作，还可以标记每段动作视频中包完整人体的矩形框，使用该矩形框作为网络输入可以有效地针对人体动作图像内容进行学习。

③构建初始网络模型

本实施例基于卷积神经网络与循环神经网络相结合构建网络结构，实现从一段动作视频中识别出预先定义好的该动作关键帧。

本实施例的初始网络模型首先使用卷积神经网络先对人体动作的连续视频中每一帧图像进行特征提取。卷积神经网络中，一些用于分类任务的骨干网络模型能够有效地提取图像中关键特征。由于不同骨干网络之间的性能和复杂度的不同，选择提取特征的骨干网络需要综合权衡网络模型的性能和复杂度。本实施例根据以上原则选用的骨干网络为MobileNetV2，该网络结构利用深度可分离卷积模块极大提高了特征提取的速度。能够把一段时间连续序列的RGB图像集合映射到一段时间连续序列的特征向量上。

进一步地，在时间连续的视频帧序列中，仅仅通过提取单张图像特征从而得到关键帧是不准确的，仍需要结合不同特征图之间的时序信息。因此，本实施例的初始网络模型后半部分使用了循环神经网络中的长短时记忆模块对人体动作的视频中连续帧进行学习。长短时记忆模块需要固定的序列输入，为了使初始网络模型对时序信息产生最优效果，本实施例定义长短时记忆模块的序列输入长度为64。

长短时记忆模块LSTM每一个模块的结构可以参照图4所示，其中，x为当前节点的输入，h表示上一个节点传递到当前节点的输出，y表示当前节点的出输出，h‘表示当前节点传递到下一节点的输出，W^h、Wⁱ和W^°为相应的权重系数。因此，h‘与x、h都有关。进一步地，参照图5所示，LSTM在每个节点连续传递，以实现对时序信息的提取，充分挖掘了帧间关系。长短时记忆模块还可以设置更为复杂的运算结构。

进一步地，将每个长短时记忆模块的输出向量作为全连接层的输入，以输出连续图像序列中每一帧属于各关键帧的概率。

本实施例的初始网络模型设计如图4所示，表示了以一段运动视频中连续图像序列I作为输入，经过骨干网络MobileNetV2进行单帧图像的特征提取，得到特征向量集合k。然后将特征向量集合f送入长短时记忆模块中学习帧与帧之间的关系，图中长短时记忆模块的个数等于输入中的连续图像序列长度。进一步地，将每个长短时记忆模块的输出向量作为全连接层的输入，全连接层改变向量的维度数量为定义好的关键帧数，另外，为了让全连接层不影响最终结果，本实施例把一段时间序列中每一张图像经过的全连接层共享参数。最后，全连接层输出连续图像序列中每一帧属于各关键帧的概率集合e，其中每一帧得到6个类别概率值，分别对应5个关键帧类别概率和1个背景类别概率，选取关键帧位置附近输出响应值最大的帧作为对应的预测关键帧。

④训练初始网络模型以得到关键帧识别模型

在本实施例中，以标注了完整人体的矩形框区域作为初始网络模型的输入，用于输入训练的矩形框还需要进行预处理，具体步骤如下：

1.初步调整：使用双线性插值调整矩形框大小，使最长边为224像素。

2.填充：使用ImageNet数据集所有图像像素的RGB均值，填充人体框大小到224*224。

3.归一化：减去ImageNet数据集所有像素的RGB均值并除以标准差。

4.经上述预处理得到初始网络模型的输入，网络框架使用PyTorch1.0，骨干网络MobileNetV2使用在ImageNet数据集上预训练模型权重作为初始权重，最后预测的全连接层使用Xavier初始化生成初始权重。另外，由于犁式转弯片段中非关键帧的数量远大于关键帧的数量，造成正负样本的不均衡，本实施例中，采用带权重的交叉熵损失函数，非关键帧权重为0.1，关键帧权重为1。

训练中本实施例对样本进行增强处理包括：

1.随机选择输入图像序列的起始点，避免网络学习对特定起始点的情况过拟合。

2.随机水平翻转。

3.随机仿射变换(-5～5°的旋转与修剪)，模拟不同相机角度与距离的环境条件。

所有的训练步骤都是在两张NVIDIA 1080Ti GPU上完成。

此外，在训练过程中，还可以定义容错值δ，表示若所预测关键帧在被标注关键帧帧数的δ帧范围内则可以认定为预测结果正确。对于正常速率的犁式转弯视频，如果一个关键帧发生在两个连续帧之间，那么最后的标注结果可由标注人员自行选择，因此对正常速率的视频，可以把容错值δ设置为1。由于在正常速率的视频中，第一个关键帧动作到第五个关键帧动作之间的帧数平均约等于30帧，选择的视频统一定义帧率为30，因此可以将慢速率视频的容错值δ定义为：

其中，对于复杂动作切分得到的连续多个关键动作对应的关键帧，n表示第一个关键帧动作到第五个关键帧动作之间的帧数，f为视频的帧率。

将每一个关键帧预测的结果汇总得到最终整体的评估指标为正确预测的关键帧事件的百分比(Percentage of Correct Events，PCE)。在具体实验方案中，可以在整体数据集上按照7：3的比例随机划分训练集和测试集，并在验证的时候进行交叉验证，从而获得鲁棒的评估结果。

⑤关键帧识别模型的应用

获取待识别的滑雪者的运动视频,并输入至④中训练得到的关键帧识别模型,可以输出视频中：马上要出发的瞬间、左转过程中双板平行的瞬间、左转到右转的转移过程中双板对称的时刻、右转过程中双板平行的瞬间以及右转到左转的转移过程中双板对称的时刻对应的关键中，以用于指导、评价和修正训练。

相比于现有技术中对视频动作进行细粒度分析处理的方案，优势包括：

一、相对于卷积神经网络的技术。主要算法包括在时间维度上应用金字塔网络学习帧间关系的时空金字塔网络、利用卷积神经网络捕获视频局部和全局特征的时空融合网络等，这类技术无法学习到时空特征间的像素级对应关系，并且空域卷积只在单RGB帧上进行，时域卷积只在堆叠的若干个时序相邻的光流帧上进行，帧间关系的捕获尺度非常有限；或者是使用扩充时间维度的三维卷积进行时空特征的提取，会大大增加运算量，提高时间复杂度。相比于基于卷积神经网络的技术，本发明因为在网络结构的后半部分使用长短时记忆模块学习连续图像序列之间的关系，从而能够更好地提取帧间关系特征。同时，本发明的网络结构中长短时记忆模块的参数量远远小于基于卷积神经网络的技术中时空三维卷积的参数量。所以，本发明对于基于卷积神经网络的技术的优点是能够在维持较低时间复杂度的情况下充分学习帧间关系。

二、相对于时空图卷积的技术。主要包括提出了空域图卷积和时域卷积结合的时空图卷积网络，融合了骨骼信息和关键点信息的双流图卷积网络等，这类技术主要以视频人体骨骼关键点信息作为输入，构建人体骨架图结构，计算邻接矩阵，并通过叠加骨骼关键点然后通过图卷积的方法处理帧间关系，所以相比于原始视频的输入信息存在较多缺失。而本发明输入为连续图像序列，完整的图像没有丢失信息。所以，本发明对于基于图卷积的技术的优点是保留了完整的输入信息。

综上所述，本发明所述关键帧识别模型训练方法、识别方法及装置中，所述关键帧识别模型训练方法在初始网络模型的前半部分基于卷积神经网路提取图像特征，能够获得更多的语义信息。后半部分使用长短时记忆模块学习连续图像之间的关系，从而能够提取帧间关系特征，实现更高精度的动作识别。同时，基于卷积神经网络与长短时记忆模块的组合，使参数量较小，维持较低的时间复杂度，能够极大节约算力。

本领域普通技术人员应该可以明白，结合本文中所公开的实施方式描述的各示例性的组成部分、系统和方法，能够以硬件、软件或者二者的结合来实现。具体究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本发明的范围。当以硬件方式实现时，其可以例如是电子电路、专用集成电路(ASIC)、适当的固件、插件、功能卡等等。当以软件方式实现时，本发明的元素是被用于执行所需任务的程序或者代码段。程序或者代码段可以存储在机器可读介质中，或者通过载波中携带的数据信号在传输介质或者通信链路上传送。“机器可读介质”可以包括能够存储或传输信息的任何介质。机器可读介质的例子包括电子电路、半导体存储器设备、ROM、闪存、可擦除ROM(EROM)、软盘、CD-ROM、光盘、硬盘、光纤介质、射频(RF)链路，等等。代码段可以经由诸如因特网、内联网等的计算机网络被下载。

还需要说明的是，本发明中提及的示例性实施例，基于一系列的步骤或者装置描述一些方法或系统。但是，本发明不局限于上述步骤的顺序，也就是说，可以按照实施例中提及的顺序执行步骤，也可以不同于实施例中的顺序，或者若干步骤同时执行。

本发明中，针对一个实施方式描述和/或例示的特征，可以在一个或更多个其它实施方式中以相同方式或以类似方式使用，和/或与其他实施方式的特征相结合或代替其他实施方式的特征。

以上所述仅为本发明的优选实施例而已，并不用于限制本发明，对于本领域的技术人员来说，本发明实施例可以有各种更改和变化。凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种关键帧识别模型训练方法，其特征在于，包括：

获取初始网络模型，所述初始网络模型中，采用预设卷积神经网络模型提取连续图像中各帧的图像特征并输入至长短时记忆模块，将所述长短时记忆模块的输出向量作为全连接层的输入，所述全连接层输出连续图像中每一帧属于各关键帧的概率；其中，所述预设卷积神经网络模型为骨干网络MobileNetV2，并采用MobileNetV2基于imageNet数据集的训练权重作为初始权重；

采用所述训练样本集对所述初始网络模型进行训练，并采用带权重的交叉熵损失函数进行调参，得到关键帧识别模型，其中，非关键帧权重为0.1，关键帧权重为1；

设置容错值，当所述初始网络模型的预测结果在所标记关键帧前后的第一数量帧范围内，所述第一数量等于所述容错值，认定为预测结果正确；所述容错值的计算式为：

2.根据权利要求1所述的关键帧识别模型训练方法，其特征在于，所述全连接层还输出连续图像中每一帧属于背景的概率。

3.根据权利要求1所述的关键帧识别模型训练方法，其特征在于，所述全连接层使用Xavier初始化生成初始权重；所述长短时记忆模块的序列输入长度为64。

4.根据权利要求1所述的关键帧识别模型训练方法，其特征在于，采用所述训练样本集对所述初始网络模型进行训练中，还包括：

对连续图像序列样本随机选择输入起点；和/或

对连续图像序列样本中的各帧进行随机水平翻转；和/或

对连续图像序列样本中的各帧进行随机仿射变换，所述随机仿射变换为-5～5°的随机旋转以及随机修剪。

5.一种关键帧识别方法，其特征在于，包括：

获取待识别连续图样；

将所述待识别连续图样输入如权利要求1～4任意一项所述的关键帧识别模型训练方法得到的关键帧识别模型中，计算输出关键动作对应的一个或多个关键帧。

6.根据权利要求5所述的关键帧识别方法，其特征在于，所述待识别连续图样是关于滑雪动作的连续图样，所述关键帧识别模型是基于滑雪过程中预设关键动作对应的关键帧进行训练得到的。

7.一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，其特征在于，所述处理器执行所述程序时实现如权利要求1至6任一项所述方法的步骤。