CN108647571A

CN108647571A - 视频动作分类模型训练方法、装置及视频动作分类方法

Info

Publication number: CN108647571A
Application number: CN201810292563.0A
Authority: CN
Inventors: 孙源良; 段立新; 李长升; 樊雨茂
Original assignee: Guoxin Youe Data Co Ltd
Current assignee: Guoxin Youe Data Co Ltd
Priority date: 2018-03-30
Filing date: 2018-03-30
Publication date: 2018-10-12
Anticipated expiration: 2038-03-30
Also published as: CN108647571B

Abstract

本发明提供一种视频动作分类模型训练方法、装置及视频动作分类方法，视频动作分类模型训练方法包括：获取多个带有标签的训练视频中的训练图像帧；使用目标神经网络模型为训练图像帧提取特征向量；对多个训练视频的训练图像帧的特征向量进行分布匹配，得到多个训练图像帧集合；按照多个训练图像帧集合中训练图像帧训练难度由小到大的顺序，对多个训练图像帧集合排序；并按排序依次使用每个训练图像帧集合对目标神经网络模型进行训练，获得视频动作分类模型。本申请实施例能够在学习到训练难度较小的训练视频帧特征的基础上，学习训练难度较大的训练图像帧与其他训练难度较小的训练图像帧之间的差异性特征，能够为训练视频进行更准确的分类。

Description

视频动作分类模型训练方法、装置及视频动作分类方法

技术领域

本发明涉及深度学习技术领域，具体而言，涉及一种视频动作分类模型训练方法、装置及视频动作分类方法。

背景技术

随着神经网络在图像、视频、语音、文本等领域的迅猛发展，推动了一系列智能产品的落地，用户对基于神经网络的各种模型的精度要求也越来越高。在基于神经网络构建视频动作分类模型的时候，为了让神经网络充分学习视频中图像的特征，以提升视频动作分类模型的分类，需要将大量的训练视频输入到神经网络中，对神经网络进行训练。

但是在实际中，在使用大量的训练视频对神经网络进行训练的过程中，由于视频与视频之间存在个体差异，导致神经网络对不同的视频进行学习的难度通常是不一样的。对于画面较为复杂的视频，神经网络往往无法学习到其中区别于其他视频的一些特征，进而导致最终生成的视频动作分类模型对视频进行动作检测时的精度低，分类结果的准确率差。

发明内容

有鉴于此，本发明实施例的目的在于提供一种视频动作分类模型训练方法、装置及视频动作分类方法，能够提高视频动作分类模型的精度，提升分类结果的准确率。

第一方面，本发明实施例提供了一种视频动作分类模型训练方法，该方法包括：

获取多个带有标签的训练视频中的训练图像帧；

使用目标神经网络模型为所述训练图像帧提取特征向量；

对多个所述训练视频的训练图像帧的特征向量进行分布匹配，得到多个训练图像帧集合；

按照多个训练图像帧集合中训练图像帧训练难度由小到大的顺序，对多个训练图像帧集合排序；并

按排序依次使用每个训练图像帧集合对所述目标神经网络模型进行训练，获得视频动作分类模型。

结合第一方面，本发明实施例提供了第一方面的第一种可能的实施方式，其中：所述获取多个带有标签的训练视频中的训练图像帧，具体包括：

获取多个带有标签的训练视频；

按照预设采样频率，对所述训练视频进行采样；

将对每个训练视频采样得到的图像作为该训练视频中的训练图像帧。

结合第一方面，本发明实施例提供了第一方面的第二种可能的实施方式，其中：所述对多个所述训练视频的训练图像帧的特征向量进行分布匹配，具体包括：

分别对每个训练视频包括的训练图像帧的特征向量进行聚类，获得每个训练视频的第一聚类结果；对所有训练视频的第一聚类结果，进行二次聚类；

或者，对所有训练视频包括的训练图像帧的特征向量进行聚类。

结合第一方面，本发明实施例提供了第一方面的第三种可能的实施方式，其中：采用如下方式确定每个训练图像帧集合的训练难度：

从训练图像帧集合中确定基准特征向量；

确定该训练图像帧集合中其他特征向量与所述基准特征向量的距离；

将该训练图像帧集合中与所述基准特征向量之间距离最大的特征向量，与所述基准特征向量之间的距离作为对该训练图像帧集合训练难度的度量，且距离越大表征训练难度越大。

结合第一方面，本发明实施例提供了第一方面的第四种可能的实施方式，其中：采用如下方式确定每个训练图像帧集合的训练难度：

针对每个训练图像帧集合，确定使用所述目标神经网络模型为该训练图像帧集合中各个训练图像帧进行分类的正确率；

根据每个训练图像帧集合对应的正确率，确定该训练图像帧集合的训练难度，且正确率越高，训练难度越小。

结合第一方面，本发明实施例提供了第一方面的第五种可能的实施方式，其中：针对每个训练图像帧集合，确定使用所述目标神经网络模型为该集合各个训练图像帧进行分类的正确率，包括：

针对每个训练图像帧集合中的每个训练图像帧，确定使用所述目标神经网络模型为该训练图像帧第一次分类正确对应的轮数；

将预先设置的轮数对应的权值，确定该训练图像帧的权值；其中，轮数越早，对应的权值越大；

针对每个训练图像帧集合，根据该集合各个训练图像帧对应的权值确定该训练图像帧集合对应的分类正确率。

结合第一方面，本发明实施例提供了第一方面的第六种可能的实施方式，其中：所述目标神经网络模型包括：目标神经网络以及分类器；

所述使用每个训练图像帧集合对所述目标神经网络模型进行训练，具体包括：

将每个训练图像帧集合中属于同一训练视频的训练图像帧输入至所述目标神经网络，获取属于同一训练视频的每一张训练图像帧的分类结果；

执行下述比对操作，直至每个训练图像帧集合中属于同一训练视频的所有训练图像帧的分类结果完全一致，且该分类结果与所述训练视频对应的标签一致；

所述比对操作包括：

将属于同一训练视频的所有训练图像帧的当前分类结果分别与该训练视频的标签进行比对；

当属于同一训练视频的所有训练图像帧的分类结果并不完全一致，和 /或，当属于该训练视频的训练图像帧的分类结果与所述训练视频对应的标签不一致时，调整所述分类器以及所述目标神经网络模型的参数；

使用进行了参数调整的目标神经网络模型和所述分类器，获取该属于同一训练视频的所有训练图像帧的新的分类结果，并再次执行所述比对操作。

结合第一方面，本发明实施例提供了第一方面的第七种可能的实施方式，其中：

所述使用目标神经网络模型为所述训练图像帧提取特征向量之前，还包括：

将所述训练视频中的所述训练图像帧输入待训练的目标神经网络模型，对所述待训练的目标神经网络模型进行训练，得到所述目标神经网络模型。

第二方面，本发明实施例还提供一种视频动作分类方法，该方法包括：

获取待分类视频；

将所述待分类视频输入至通过上述第一方面任意一项的视频动作分类模型训练方法得到的视频动作分类模型中，得到所述待分类视频的分类结果；

所述视频动作分类模型包括：目标神经网络以及目标分类器。

第三方面，本发明实施例还提供一种视频动作分类模型训练装置，该装置包括：

获取模块，用于获取多个带有标签的训练视频中的训练图像帧；

提取模块，用于使用目标神经网络模型为所述训练图像帧提取特征向量；

分布匹配模块，用于对多个所述训练视频的训练图像帧的特征向量进行分布匹配，得到多个训练图像帧集合；

排序模块，用于按照多个训练图像帧集合中训练图像帧训练难度由小到大的顺序，对多个训练图像帧集合排序；

训练模块，用于按排序依次使用每个训练图像帧集合对所述目标神经网络模型进行训练，获得视频动作分类模型。

本申请实施例在使用训练视频对视频动作分类模型进行训练的之前，先按照训练难度对训练视频中的训练图像帧进行排序，在对视频动作分类模型进行训练的时候，先使用训练难度较小的训练图像帧进行训练，然后使用训练难度较大的训练图像帧进行训练，从而能够在学习到训练难度较小的训练视频帧特征的基础上，学习训练难度较大的训练图像帧与其他训练难度较小的训练图像帧之间的差异性特征，采用这种视频动作分类模型训练方法得到的视频动作分类模型，能够为训练视频进行更准确的分类。为使本发明的上述目的、特征和优点能更明显易懂，下文特举较佳实施例，并配合所附附图，作详细说明如下。

附图说明

为了更清楚地说明本发明实施例的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，应当理解，以下附图仅示出了本发明的某些实施例，因此不应被看作是对范围的限定，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他相关的附图。

图1示出了本发明实施例一所提供的一种视频动作分类模型训练方法的流程图；

图2示出了本申请实施例二提供的一种对多个训练视频的训练图像帧的特征向量进行分布匹配的具体方法的流程图；

图3示出了本申请实施例四提供的一种确定每个训练图像帧集合的训练难度的具体方法的流程图；

图4示出了本申请实施例五提供的另外一种确定每个训练图像帧集合的训练难度的方法的流程图；

图5示出了本申请实施例六提供的一种针对每个训练图像帧集合，确定使用目标神经网络模型为该集合各个训练图像帧进行分类的正确率的方法的流程图；

图6示出了本申请实施例七还提供的一种使用每个训练图像帧集合对目标神经网络模型进行训练的方法的流程图；

图7示出了本申请实施例七还提供的一种比对操作的方法的流程图；

图8示出了本申请实施例八提供的视频动作分类模型训练装置的结构示意图；

图9示出了本申请实施例九提供的一种视频动作分类方法的流程图；

图10示出了本申请实施例十提供的一种计算机设备的结构示意图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。通常在此处附图中描述和示出的本发明实施例的组件可以以各种不同的配置来布置和设计。因此，以下对在附图中提供的本发明的实施例的详细描述并非旨在限制要求保护的本发明的范围，而是仅仅表示本发明的选定实施例。基于本发明的实施例，本领域技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例，都属于本发明保护的范围。

目前在使用训练视频对视频动作分类模型进行训练的时候，是直接将训练视频输入至神经网络和分类器，对神经网络和分类器进行训练的，这种训练方式导致了如果将训练难度比较大的训练视频先输入至目标神经网络模型，神经网络很难学习到这些训练难度比较大的训练视频中的特异特征，导致最终得到的视频动作分类模型对这类视频分类结果不准确，基于此，本申请提供的视频动作分类模型训练方法、装置及视频动作分类方法，可以提高视频动作分类模型的精度，提升分类结果的准确率。

为便于对本实施例进行理解，首先对本发明实施例所公开的一种视频动作分类模型训练方法进行详细介绍，使用该方法得到的视频动作分类模型，能够有效完成未剪辑视频中所发生的事件的分类，可以有效用于网络视频自动化分类场景，还可以为视频推荐系统提供合理的标签支持，方便对海量视频的有效推荐。

参见图1所示，本申请实施例一提供的视频动作分类模型训练方法包括：

S101：获取多个带有标签的训练视频中的训练图像帧。

在具体实现的时候，训练视频通常是一段比较长的视频，其一般包括至少一个场景；当训练视频中包括多个场景时，一般会将某个场景作为主要场景，并基于该主要场景对训练视频进行标签的标注。

例如在一段游泳比赛的视频中，除了游泳比赛这个场景外，还可能会涉及到观众席场景以及运动员跟拍场景，但游泳比赛会在整个视频中占据较大的比重，因此将游泳比赛作为主要场景，该视频的标签为游泳比赛。

使用整个的训练视频对分类模型进行训练，通常都会存在由于输入的数据量较大而造成模型收敛速度降低，训练过程需要耗费的时间长，资源多等问题。因此，为了加快模型收敛，减少模型训练过程中需要耗费的时间和资源，需要从整个的训练视频中获得训练图像帧；训练图像帧为整个训练视频所包括的所有图像的部分。一般地，可以采用按照预设的采样频率，分别对多个训练视频进行采样，将对每个训练视频采样得到的图像作为该训练视频中的训练图像帧，然后基于得到的每个训练视频的训练图像帧对视频动作分类模型进行训练。

S102：使用目标神经网络模型为训练图像帧提取特征向量。

在具体实现的时候，目标神经网络模型可以采用卷积目标神经网络模型(Convolutional Neural Network，CNN)对训练视频中的多张训练图像帧进行特征提取，获取与每张训练图像帧对应的特征向量。

此处，为了加快视频动作分类模型训练过程中的收敛，所使用的目标网络模型可以是将训练视频中的训练图像帧输入待训练的目标神经网络模型，对待训练的目标神经网络模型进行训练而得到的。

此时，所得到的目标神经网络在对训练视频进行分类时，就已经有了一定训练的精度，但并不能达到精度使用需求。因为其训练过程使得其并不能学习到训练难度较大的训练图像帧与其他训练难度较小的训练图像帧之间的差异性特征，此时就要对目标神经网络进行再训练，提高其精度。

S103：对多个训练视频的训练图像帧的特征向量进行分布匹配，得到多个训练图像帧集合。

在具体实现的时候，为每个训练图像帧提取的特征向量实际上可以看做映射到高维空间中的点，点与点之间的距离越小，则说明对应的特征向量的相似度越高，也即，特征向量表征的训练图像帧越相似。对于训练难度类似的训练图像帧，相似度通常也是类似的。因此可以通过这一原理，对多个视频的训练图像帧的特征向量进行分布匹配，将所有训练视频所包括的训练图像帧按照相互之间的相似度，划分到多个训练图像帧集合中。若两张训练图像帧位于同一个训练图像帧集合中，则说明两张训练图像帧的相似度在一定范围之内，训练难度也接近。

具体地，参见图2所示，本申请实施例二提供一种对多个训练视频的训练图像帧的特征向量进行分布匹配的具体方法，包括：

S201：分别对每个训练视频包括的训练图像帧的特征向量进行聚类，获得每个训练视频的第一聚类结果；

S202：对所有训练视频的第一聚类结果，进行二次聚类。

本申请实施例三还提供临一中对多个训练视频的训练图像帧的特征向量进行分步匹配的方法，包括：对所有训练视频包括的训练图像帧的特征向量进行聚类。

在具体实现的时候，在上述实施例二和实施例三中，可以分别将为训练图像帧提取的特征向量看作是映射到高维空间中的点，根据点与点之间的距离，分别对这些点进行聚类。将距离在预设阈值以内的点划分到同一个簇中。

具体地，在上述实施例二中，在对训练视频帧的特征向量进行聚类时，可以首先对每个训练视频包括的训练图像帧的特征向量进行聚类，获得每个训练视频的第一聚类结果，然后再将所有视频的第一聚类结果进行二次聚类，在二次聚类结果中，将所有训练视频的所包括的特征向量分别划归到不同的簇中。

此处，由于每个训练视频中会包括多个场景，且并非是所有训练视频中包括的场景是一样的。因此采用此种先对每个训练视频包括的训练图像帧的特征向量进行聚类，能够首先将各个训练视频中的不同场景所包括的训练图像帧分别划分开来，其次在对所有训练视频的第一结果进行二次聚类的时候，由于在第一次聚类的时候，已经清晰的将每个视频的不同场景划分开来，那么在二次聚类的时候，是基于已经清晰划分的场景，因而同样能够清晰的将不同场景划分开来。

例如在训练视频A中，包括的场景有游泳比赛，游泳比赛观众席，游泳运动员特写；在训练视频B中，包括的场景有马术比赛，马术比赛观众席，马术运动员特写，在训练视频C中，包括的场景有游泳比赛、游泳比赛观众席、游泳比赛记分牌；在对上述三个训练视频包括的训练图像帧的特征向量进行聚类的时候，能够分别将上述三个训练视频进行清晰的分类，从而得到的簇包括：游泳比赛、游泳比赛观众席、游泳运动员特写、游泳比赛记分牌、马术比赛、马术比赛观众席以及马术运动员特写几个簇。

其相对于实施例三，运算量会多一些。

而在上述实施例三中，由于是对所有训练视频包括的训练图像帧的特征向量进行聚类，因此，运算量较之实施例二少一些；但是由于某些训练视频的不同场景会存在距离较为接近的情况，此种情况下，可能存在聚类结果无法将各个训练视频中的不同场景清晰划分的情况，造成最终训练生成的视频动作分类模型无法对这些较为接近的场景进行分类正确，在一定程度上影响视频动作分类模型精度。

例如在训练视频A中，包括的场景有游泳比赛，游泳比赛观众席，游泳运动员特写；在训练视频B中，包括的场景有马术比赛，马术比赛观众席，马术运动员特写，在训练视频C中，包括的场景有游泳比赛、游泳比赛观众席、游泳比赛记分牌；在对上述三个训练视频包括的训练图像帧的特征向量进行聚类的时候，由于游泳比赛观众席和马术比赛观众席会存在一定的相似性，为这些场景所对应的训练图像帧提取的特征向量在以点的形式投射到高维空间中后，会造成这两个场景的点的距离相对而言是比较接近的，因此，会造成最终将这两个场景的训练图像帧被划分到同一个簇中，最终所形成的簇包括：游泳比赛、观众席、游泳运动员特写、游泳比赛记分牌、马术比赛以及马术运动员特写几个簇，可以看到较之实施例二中的聚类，采用实施例三提供的分布匹配方法，得到多个训练图像帧集合的粒度实际上是比较大的；粒度较大的时候，对于属于同一个训练图像帧集合中训练图像帧的分类结果的精确度也会随之下降。

S104：按照多个训练图像帧集合中训练图像帧训练难度由小到大的顺序，对多个训练图像帧集合排序。

在具体实现的时候，对于属于同一个训练图像帧集合中的训练图像帧，由于其数据分布本身是比较接近的，因此神经网络对于属于同一个训练图像帧集合中的训练图像帧的训练难度通常都是类似的；而对于不同的训练图像帧集合中的训练图像帧的训练难度通常都有大小区别。因此为了能够在充分学习到训练难度较小的训练图像帧的特征基础上，学习训练难度较大的训练图像帧的特征，需要按照多个训练图像帧集合中训练图像帧的训练难度由大到小的顺序，对多个训练图像帧集合排序。

具体地，参见图3所示，本申请实施例四提供一种确定每个训练图像帧集合的训练难度的具体方法，包括：

S301：从训练图像帧集合中确定基准特征向量；

此处，基准特征向量可以取训练图像帧集合中所包括的所有训练图像帧的特征向量映射到高维空间中，位于与中心位置最近的点对应的特征向量。另外，还可以采用其他方式确定基准特征向量，如随机从训练图像帧集合中抽取任意一个训练图像帧对应的特征向量，或者将聚类结果中离中心位置最远的特征向量作为基准特征向量。

S302：确定该训练图像帧集合中其他特征向量与基准特征向量的距离。

在具体实现的时候，训练图像帧集合中其他特征向量与基准特征向量的距离可以是欧式距离、曼哈顿距离、切比雪夫距离、闵可夫斯基距离、标准化欧式距离、马氏距离、夹角余弦、汉明距离、杰卡德距离、相关距离以及信息熵中任意一种。

S303：将该训练图像帧集合中与基准特征向量之间距离最大的特征向量，与基准特征向量之间的距离作为对该训练图像帧集合训练难度的度量，且距离越大表征训练难度越大。

具体地，当每一个训练图像帧集合中所包括的所有训练图像帧的特征向量映射为高维空间中的点后，这些点的聚合度越大，则说明训练图像帧的相似度越大，则他们所包括的相同或者相似特征也就越多，差异性特征也就越小。因此，训练图像帧集合中与基准特征向量之间距离实际上可以用于衡量这些点的聚合度；距离越大，则聚合度越小，训练难度也越大；距离越小，则聚合度越大，训练难度也越小。因此，将每一个训练图像帧集合中与该训练图像帧集合中的基准特征向量之间距离最大的特征向量，与基准特征向量之间的距离作为对该训练图像帧集合训练难度的度量。

另外，参见图4所示，本申请实施例五还提供另外一种确定每个训练图像帧集合的训练难度的方法，包括：

S401：针对每个训练图像帧集合，确定使用目标神经网络模型为该训练图像帧集合中各个训练图像帧进行分类的正确率。

S402：根据每个训练图像帧集合对应的正确率，确定该训练图像帧集合的训练难度，且正确率越高，训练难度越小。

在具体实现的时候，若目标神经网络模型为某个训练图像帧集合进行分类的正确率高，则说明其很好的学习到了该训练图像帧集合中的训练图像帧的普遍特征，以及各训练图像帧的差异特征，说明该训练图像帧集合中的训练图像帧的训练难度较小。

若目标神经网络模型为某个训练图像帧集合进行分类的正确率低，则说明其并未学习到该训练图像帧集合中的训练图像帧的普遍特征，和/或并未学习到各训练图像帧的差异特征，说明该训练图像帧集合中的训练图像帧的训练难度较大。因此，能够根据每个训练图像帧集合对应的正确率，确定各个训练图像帧集合的训练难度，且正确率越高的训练图像帧集合，对应的训练难度越小。

参见图5所示，本申请实施例六提供一种针对每个训练图像帧集合，确定使用目标神经网络模型为该集合各个训练图像帧进行分类的正确率的方法，包括：

S501：针对每个训练图像帧集合中的每个训练图像帧，确定使用目标神经网络模型为该训练图像帧第一次分类正确对应的轮数；

S502：将预先设置的轮数对应的权值，确定该训练图像帧的权值；其中，轮数越早，对应的权值越大；

S503：针对每个训练图像帧集合，根据该集合各个训练图像帧对应的权值确定该训练图像帧集合对应的分类正确率。

在具体实现的时候，在使用训练图像帧对目标神经网络模型训练的过程中，对于每张训练图像帧，训练难度越小，目标神经网络模型越快学习到该训练图像帧的特征，越能够更早的实现对该训练图像帧的正确分类；反之，训练难度越大，目标神经网络模型越慢学习到该训练图像帧的特征，越晚实现对该训练图像帧的正确分类。因此，能够根据目标神经网络模型对每个训练图像帧集合中的训练图像帧分类正确的早晚，来确定每个训练图像帧集合中训练图像帧的训练难度。

在根据目标神经网络模型对每个训练图像帧集合中的训练图像帧分类正确的早晚，来确定每个训练图像帧集合中训练图像帧的训练难度的时候，可以通过按照目标神经网络模型对每个训练图像帧集合中的训练图像帧分类正确的早晚对该训练图像帧加权的方式实现。这里，采用目标神经网络模型为该训练图像帧第一次分类正确对应的轮数来标识目标神经网络为该训练图像帧正确分类的早晚。目标神经网络模型为该训练图像帧第一次分类正确对应的轮数越晚，则说明目标神经网络模型花费更多的实现学习到该训练图像帧的特征，该训练图像帧对应的训练难度越大；目标神经网络模型为该训练图像帧第一次分类正确对应的轮数越早，则说明目标神经网络模型花费更少的时间学习到该训练图像帧的特征，该训练图像帧对应的训练难度越小。与每个轮数对应有一个预先设置的权值，轮数越早，则对应的权值越大。预设轮数的最大数量，当完成对目标神经网络的预设数量轮数的训练后，基于此时目标神经网络对各个集合中各个训练图像帧对应的权值，确定该训练图像帧集合对应的分类正确率。

此处，当完成对目标神经网络的预设数量轮数训练后，被分类正确的训练图像帧都对应有一个权值；可以采用将每一个训练图像帧集合中，所有分类正确的训练图像帧对应的权值相加的方式，计算该训练图像帧集合对应的分类正确率。在得到所有训练图像帧集合对应的分类正确率后，将分类正确率最大的训练图像帧集合中的训练图像帧训练难度最小，分类正确率最小的训练图像帧集合中的训练图像帧训练难度最大，基于该原理实现按照多个训练图像帧集合中训练图像帧训练难度由小到大的顺序，对多个训练图像帧集合排序。

S105：按排序依次使用每个训练图像帧集合对目标神经网络模型进行训练，获得视频动作分类模型。

在具体实现的时候，目标神经网络模型包括：目标神经网络以及目标分类器。

对目标神经网络模型的训练过程，也即使用目标神经网络模型对训练图像帧集合中目标图像帧进行分类之后，根据分类结果的正确性，调整目标神经网络和目标分类器的参数，使得目标神经网络模型对目标图像帧进行分类的分类结果的正确率越来越高的过程。

具体地，参见图6所示，本申请实施例七还提供一种使用每个训练图像帧集合对目标神经网络模型进行训练的方法，包括：

S601：将每个训练图像帧集合中属于同一训练视频的训练图像帧输入至目标神经网络，获取属于同一训练视频的每一张训练图像帧的分类结果。

S602：执行比对操作，直至每个训练图像帧集合中属于同一训练视频的所有训练图像帧的分类结果完全一致，且该分类结果与训练视频对应的标签一致；

在具体实现的时候，在将每个训练图像帧集合中属于同一训练视频的训练图像帧输入至目标神经网络后，由于在对多个训练视频的训练图像帧的特征向量进行分布匹配，得到多个训练图像帧集合的时候，在理论上是所有训练视频中属于同一场景的训练视频帧划分至一个训练图像帧集合中，因此，某个训练图像帧集合而言，其实际上应当包括了多个训练视频中某个场景对应的训练图像帧。而视频中的图像帧是会随着时间有一定的变化，因此将每个训练图像帧集合中属于同一训练视频的训练图像帧输入至目标神经网络，不仅使得目标神经网络能够学习到每一张训练图像帧的特征，还能够学习到训练图像帧之间的内在联系。

在获取属于同一训练视频的每一张训练图像帧的分类结果后，将每一张训练图像帧的分类结果与训练视频的标签进行比对，若每一张训练图像帧的分类结果与训练视频的标签进行比对结果都一样，那么目标神经网络模型就已经学习到该训练视频中属于该训练图像帧集合中每一张训练图像帧的特征。

若有部分训练图像帧的分类结果与训练视频的标签进行比对结果不一样，则说明当前目标神经网络模型并未学习到该训练视频中属于该训练图像帧集合中每一张训练图像帧的特征，需要对目标神经网络模型的参数进行调整，基于调整后的参数，继续对目标神经网络模型继续进行训练。

参见图7所示，在本实施例七中，比对操作包括：

S701：比对属于同一训练视频的所有训练图像帧的当前分类结果分别与该训练视频的标签是否完全一致；如果是，则跳转至S702；如果否，则跳转至S703；

S702：完成对目标神经网络模型的本轮训练；

S703：调整目标分类器以及目标神经网络模型的参数；

S704：使用进行了参数调整的目标神经网络模型和分类器，获取该属于同一训练视频的所有训练图像帧的新的分类结果，并再次执行S701。

具体地，要保证目标神经网络模型的精度越来越高，就是要使得目标神经网络模型对所有训练图像帧的分类是正确的，因此，在属于同一训练视频的所有训练图像帧的当前分类结果分别与该训练视频的标签并非完全一致的时候，调整目标神经网络和目标分类器的参数，使得调整了参数后的目标神经网络模型对训练图像帧的分类结果的正确率，要高于参数调整之前目标神经网络模型对训练图像帧的分类结果的正确率。

本申请实施例在使用训练视频对视频动作分类模型进行训练的之前，先按照训练难度对训练视频中的训练图像帧进行排序，在对视频动作分类模型进行训练的时候，先使用训练难度较小的训练图像帧进行训练，然后使用训练难度较大的训练图像帧进行训练，从而能够在学习到训练难度较小的训练视频帧特征的基础上，学习训练难度较大的训练图像帧与其他训练难度较小的训练图像帧之间的差异性特征，采用这种视频动作分类模型训练方法得到的视频动作分类模型，能够为训练视频进行更准确的分类。

基于同一发明构思，本发明实施例中还提供了与视频动作分类模型训练方法对应的视频动作分类模型训练装置，由于本发明实施例中的装置解决问题的原理与本发明实施例上述视频动作分类模型训练方法相似，因此装置的实施可以参见方法的实施，重复之处不再赘述。

参见图8所示，本申请实施例八提供的视频动作分类模型训练装置包括：

获取模块81，用于获取多个带有标签的训练视频中的训练图像帧；

提取模块82，用于使用目标神经网络模型为训练图像帧提取特征向量；

分布匹配模块83，用于对多个训练视频的训练图像帧的特征向量进行分布匹配，得到多个训练图像帧集合；

排序模块84，用于按照多个训练图像帧集合中训练图像帧训练难度由小到大的顺序，对多个训练图像帧集合排序；

训练模块85，用于按排序依次使用每个训练图像帧集合对目标神经网络模型进行训练，获得视频动作分类模型。

可选地，获取模块81，具体用于：获取多个带有标签的训练视频；

按照预设采样频率，对训练视频进行采样；

可选地，分布匹配模块83，具体用于：分别对每个训练视频包括的训练图像帧的特征向量进行聚类，获得每个训练视频的第一聚类结果；对所有训练视频的第一聚类结果，进行二次聚类；

可选地，排序模块84具体用于根据下述步骤确定每个训练图像帧集合的训练难度：

从训练图像帧集合中确定基准特征向量；

确定该训练图像帧集合中其他特征向量与基准特征向量的距离；

将该训练图像帧集合中与基准特征向量之间距离最大的特征向量，与基准特征向量之间的距离作为对该训练图像帧集合训练难度的度量，且距离越大表征训练难度越大。

针对每个训练图像帧集合，确定使用目标神经网络模型为该训练图像帧集合中各个训练图像帧进行分类的正确率；

可选地，排序模块84具体用于根据下述步骤针对每个训练图像帧集合，确定使用目标神经网络模型为该集合各个训练图像帧进行分类的正确率：

针对每个训练图像帧集合中的每个训练图像帧，确定使用目标神经网络模型为该训练图像帧第一次分类正确对应的轮数；

可选地，目标神经网络模型包括：目标神经网络以及分类器；

训练模块85，具体用于使用每个训练图像帧集合对目标神经网络模型进行训练，具体包括：

将每个训练图像帧集合中属于同一训练视频的训练图像帧输入至目标神经网络，获取属于同一训练视频的每一张训练图像帧的分类结果；

执行下述比对操作，直至每个训练图像帧集合中属于同一训练视频的所有训练图像帧的分类结果完全一致，且该分类结果与训练视频对应的标签一致；

比对操作包括：

当属于同一训练视频的所有训练图像帧的分类结果并不完全一致，和 /或，当属于该训练视频的训练图像帧的分类结果与训练视频对应的标签不一致时，调整分类器以及目标神经网络模型的参数；

使用进行了参数调整的目标神经网络模型和分类器，获取该属于同一训练视频的所有训练图像帧的新的分类结果，并再次执行比对操作。

可选地，还包括：目标神经网络模型训练模块86，用于使用目标神经网络模型为训练图像帧提取特征向量之前，将训练视频中的训练图像帧输入待训练的目标神经网络模型，对待训练的目标神经网络模型进行训练，得到目标神经网络模型。

参见图9所示，本申请实施例九还提供一种视频动作分类方法，其特征在于，该方法包括：

S901：获取待分类视频；

S902将待分类视频输入至通过本申请任一实施例提供的视频动作分类模型训练方法得到的视频动作分类模型中，得到待分类视频的分类结果；

视频动作分类模型包括：目标神经网络以及目标分类器。

本申请实施例十还提供一种视频动作分类装置，其特征在于，该装置包括：

待分类视频获取模块，用于获取待分类视频；

分类模块，用于将待分类视频输入至通过本申请任一实施例提供的视频动作分类模型训练方法得到的视频动作分类模型中，得到待分类视频的分类结果；

视频动作分类模型包括：目标神经网络以及目标分类器。

对应于图1中的视频动作分类模型训练方法，本发明实施例十还提供了一种计算机设备，如图10所示，该设备包括存储器1000、处理器2000 及存储在该存储器1000上并可在该处理器2000上运行的计算机程序，其中，上述处理器2000执行上述计算机程序时实现上述视频动作分类模型训练方法的步骤。

具体地，上述存储器1000和处理器2000能够为通用的存储器和处理器，这里不做具体限定，当处理器2000运行存储器1000存储的计算机程序时，能够执行上述视频动作分类模型训练方法，从而解决现有神经网络无法学习训练难度较大的图像中区别于训练难度较小的图像中的差异性特征造成的视频动作分类模型的精度低，分类准确率差的问题，进而达到提高视频动作分类模型的精度，提升分类结果的准确率的效果。

对应于图1中的视频动作分类模型训练方法，本发明实施例还提供了一种计算机可读存储介质，该计算机可读存储介质上存储有计算机程序，该计算机程序被处理器运行时执行上述视频动作分类模型训练方法的步骤。

具体地，该存储介质能够为通用的存储介质，如移动磁盘、硬盘等，该存储介质上的计算机程序被运行时，能够执行上述视频动作分类模型训练方法，从而解决现有神经网络无法学习训练难度较大的图像中区别于训练难度较小的图像中的差异性特征造成的视频动作分类模型的精度低，分类准确率差的问题，进而达到提高视频动作分类模型的精度，提升分类结果的准确率的效果。

本发明实施例所提供的视频动作分类模型训练方法、装置及视频动作分类方法的计算机程序产品，包括存储了程序代码的计算机可读存储介质，程序代码包括的指令可用于执行前面方法实施例中的方法，具体实现可参见方法实施例，在此不再赘述。

所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的系统和装置的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

以上，仅为本发明的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，可轻易想到变化或替换，都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应以权利要求的保护范围为准。

Claims

1.一种视频动作分类模型训练方法，其特征在于，该方法包括：

获取多个带有标签的训练视频中的训练图像帧；

使用目标神经网络模型为所述训练图像帧提取特征向量；

2.根据权利要求1所述的方法，其特征在于，所述获取多个带有标签的训练视频中的训练图像帧，具体包括：

获取多个带有标签的训练视频；

按照预设采样频率，对所述训练视频进行采样；

3.根据权利要求1所述的方法，其特征在于，所述对多个所述训练视频的训练图像帧的特征向量进行分布匹配，具体包括：

4.根据权利要求1所述的方法，其特征在于，采用如下方式确定每个训练图像帧集合的训练难度：

从训练图像帧集合中确定基准特征向量；

5.根据权利要求1所述的方法，其特征在于，采用如下方式确定每个训练图像帧集合的训练难度：

6.根据权利要求5所述的方法，其特征在于，针对每个训练图像帧集合，确定使用所述目标神经网络模型为该训练图像帧集合中各个训练图像帧进行分类的正确率，包括：

7.根据权利要求1所述的方法，其特征在于，所述目标神经网络模型包括：目标神经网络以及分类器；

所述比对操作包括：

当属于同一训练视频的所有训练图像帧的分类结果并不完全一致，和/或，当属于该训练视频的训练图像帧的分类结果与所述训练视频对应的标签不一致时，调整所述分类器以及所述目标神经网络模型的参数；

8.根据权利要求1-5任意一项所述的方法，其特征在于，所述使用目标神经网络模型为所述训练图像帧提取特征向量之前，还包括：

9.一种视频动作分类方法，其特征在于，该方法包括：

获取待分类视频；

将所述待分类视频输入至通过权利要求1-8任意一项的视频动作分类模型训练方法得到的视频动作分类模型中，得到所述待分类视频的分类结果；

10.一种视频动作分类模型训练装置，其特征在于，该装置包括：