CN111598035B

CN111598035B - 一种视频处理方法及系统

Info

Publication number: CN111598035B
Application number: CN202010441631.2A
Authority: CN
Inventors: 王峰; 闵海波
Original assignee: Beijing Aibingo Technology Co ltd
Current assignee: Beijing Aibingo Technology Co ltd
Priority date: 2020-05-22
Filing date: 2020-05-22
Publication date: 2023-05-23
Anticipated expiration: 2040-05-22
Also published as: CN111598035A

Abstract

本发明提供了一种视频处理方法及系统，该方法为：对待处理视频进行预处理，得到多个待处理视频片段；针对每一待处理视频片段，将待处理视频片段输入预设的类别预测模型进行动作类别预测，得到待处理视频片段对应的动作类别预测信息。本方案中，利用经过空间变换规则和时间变换规则处理得到的第二样本数据训练第二神经网络模型得到预训练模型，将预训练模型的参数作为第一神经网络模型的初始化参数，并根据第一样本数据训练第一神经网络模型得到类别预测模型，通过类别预测模型确定待处理视频片段的动作类别预测信息，不需要人工标注训练数据，提高神经网络模型的训练效率、降低训练成本和提高类别预测模型的预测准确率。

Description

一种视频处理方法及系统

技术领域

本发明涉及计算机视觉技术领域，具体涉及一种视频处理方法及系统。

背景技术

随着科学技术的发展，深度学习逐渐应用于各个领域。在计算机视觉领域，通过深度学习的方式训练神经网络模型，并利用训练好的神经网络模型对视频进行处理。

目前应用深度学习的方式为：人工标注训练数据，并利用人工标注好的训练数据对神经网络模型进行训练。但是由于深度学习需要大量的训练数据，人工标注大量的训练数据需要耗费较多的时间和人力，导致训练神经网络模型的效率较低和成本较高。

发明内容

有鉴于此，本发明实施例提供一种视频处理方法及系统，以解决目前应用深度学习的方式存在的训练神经网络模型的效率较低和成本较高等问题。

为实现上述目的，本发明实施例提供如下技术方案：

本发明实施例第一方面公开一种视频处理方法，所述方法包括：

对待处理视频进行预处理，得到多个待处理视频片段；

针对每一所述待处理视频片段，将所述待处理视频片段输入预设的类别预测模型进行动作类别预测，得到所述待处理视频片段对应的动作类别预测信息，其中，所述类别预测模型由基于第一样本数据训练第一神经网络模型得到，所述第一神经网络模型的初始化参数为预设的预训练模型的参数，所述预训练模型由基于第二样本数据、预设的空间变换规则和预设的时间变换规则训练第二神经网络模型得到。

优选的，所述基于第二样本数据、预设的空间变换规则和预设的时间变换规则训练第二神经网络模型得到预训练模型的过程，包括：

对第二样本数据中的第二样本视频进行预处理，得到多个第二样本视频片段，每个所述第二样本视频片段包括多帧第二样本图像；

针对每一所述第二样本视频片段，利用空间变换规则和时间变换规则，对所述第二样本视频片段的所述第二样本图像进行随机时空变换得到第二样本变换视频片段，所述空间变换规则包括x种空间变换方式，所述时间变换规则包括y种时间变换方式，x和y为正整数；

利用所有所述第二样本变换视频片段，训练预先构建的第二神经网络模型直至所述第二神经网络模型收敛，得到预训练模型，所述第二神经网络模型的最后一层为分类个数为x*y的分类器。

优选的，所述基于第一样本数据训练第一神经网络模型得到类别预测模型的过程，包括：

对第一样本数据中的第一样本视频进行预处理，得到多个第一样本视频片段，所述第一样本数据中存在n个动作类别的第一样本视频，n为正整数；

将所述预训练模型的参数作为预先构建的第一神经网络模型的初始化参数，所述第一神经网络模型的最后一层为分类个数为n的分类器；

利用根据所有所述第一样本视频片段所确定的训练集，训练所述第一神经网络模型直至所述第一神经网络模型收敛，得到类别预测模型。

优选的，所述得到类别预测模型之后，还包括：

利用根据所有所述第一样本视频片段所确定的测试集，测试所述类别预测模型的动作类别预测的准确率。

优选的，所述对待处理视频进行预处理，得到多个待处理视频片段，包括：

根据预设的时间长度，将所述待处理视频划分为1个及1个以上的待处理视频片段。

本发明实施例第二方面公开一种视频处理系统，所述系统包括：

预处理单元，用于对待处理视频进行预处理，得到多个待处理视频片段；

处理单元，用于针对每一所述待处理视频片段，将所述待处理视频片段输入预设的类别预测模型进行动作类别预测，得到所述待处理视频片段对应的动作类别预测信息，其中，所述类别预测模型由基于第一样本数据训练第一神经网络模型得到，所述第一神经网络模型的初始化参数为预设的预训练模型的参数，所述预训练模型由基于第二样本数据、预设的空间变换规则和预设的时间变换规则训练第二神经网络模型得到。

优选的，用于训练第二神经网络模型得到预训练模型的所述处理单元，包括：

第一预处理模块，用于对第二样本数据中的第二样本视频进行预处理，得到多个第二样本视频片段，每个所述第二样本视频片段包括多帧第二样本图像；

变换模块，用于针对每一所述第二样本视频片段，利用空间变换规则和时间变换规则，对所述第二样本视频片段的所述第二样本图像进行随机时空变换得到第二样本变换视频片段，所述空间变换规则包括x种空间变换方式，所述时间变换规则包括y种时间变换方式，x和y为正整数；

第一训练模块，用于利用所有所述第二样本变换视频片段，训练预先构建的第二神经网络模型直至所述第二神经网络模型收敛，得到预训练模型，所述第二神经网络模型的最后一层为分类个数为x*y的分类器。

优选的，用于训练第一神经网络模型得到类别预测模型的所述处理单元，包括：

第二预处理模块，用于对第一样本数据中的第一样本视频进行预处理，得到多个第一样本视频片段，所述第一样本数据中存在n个动作类别的第一样本视频，n为正整数；

设置模块，用于将所述预训练模型的参数作为预先构建的第一神经网络模型的初始化参数，所述第一神经网络模型的最后一层为分类个数为n的分类器；

第二训练模块，用于利用根据所有所述第一样本视频片段所确定的训练集，训练所述第一神经网络模型直至所述第一神经网络模型收敛，得到类别预测模型。

优选的，用于训练第一神经网络模型得到类别预测模型的所述处理单元，还包括：

测试模块，用于利用根据所有所述第一样本视频片段所确定的测试集，测试所述类别预测模型的动作类别预测的准确率。

优选的，所述预处理单元具体用于：根据预设的时间长度，将所述待处理视频划分为1个及1个以上的待处理视频片段。

基于上述本发明实施例提供的一种视频处理方法及系统，该方法为：对待处理视频进行预处理，得到多个待处理视频片段；针对每一待处理视频片段，将待处理视频片段输入预设的类别预测模型进行动作类别预测，得到待处理视频片段对应的动作类别预测信息，其中，类别预测模型由基于第一样本数据训练第一神经网络模型得到，第一神经网络模型的初始化参数为预设的预训练模型的参数，预训练模型由基于第二样本数据、预设的空间变换规则和预设的时间变换规则训练第二神经网络模型得到。本方案中，利用经过空间变换规则和时间变换规则处理得到的第二样本数据训练第二神经网络模型得到预训练模型，将预训练模型的参数作为第一神经网络模型的初始化参数，并根据第一样本数据训练第一神经网络模型得到类别预测模型，通过类别预测模型确定待处理视频片段的动作类别预测信息，不需要人工标注训练数据，提高神经网络模型的训练效率、降低训练成本和提高类别预测模型的预测准确率。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据提供的附图获得其他的附图。

图1为本发明实施例提供的一种视频处理方法的流程图；

图2为本发明实施例提供的获取预训练模型的流程图；

图3为本发明实施例提供的获取类别预测模型的流程图；

图4为本发明实施例提供的一种视频处理系统的结构框图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

在本申请中，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

由背景技术可知，目前应用深度学习的时候，需要人工对训练数据进行标注，但是由于深度学习需要大量的训练数据，人工标注大量的训练数据需要耗费较多的时间和人力，导致训练神经网络模型的效率较低和成本较高。

因此，本发明实施例提供一种视频处理方法及系统，利用经过空间变换规则和时间变换规则处理得到的第二样本数据训练第二神经网络模型得到预训练模型，将预训练模型的参数作为第一神经网络模型的初始化参数，并根据第一样本数据训练第一神经网络模型得到类别预测模型，通过类别预测模型确定待处理视频片段的动作类别预测信息，不需要人工标注训练数据，以提高神经网络模型的训练效率、降低训练成本和提高类别预测模型的预测准确率。

参见图1，示出了本发明实施例提供的一种视频处理方法的流程图，该视频处理方法包括以下步骤：

步骤S101：对待处理视频进行预处理，得到多个待处理视频片段。

在具体实现步骤S101的过程中，根据预设的时间长度，将待处理视频划分为1个及1个以上的待处理视频片段，也就是说，划分得到的每个待处理视频片段的长度都为该时间长度。

可以理解的是，待处理视频并不一定能全部均分为多个长度都为该时间长度的待处理视频片段，当待处理视频不能全部均分为同一时间长度的待处理视频片段时，对于最后划分得到的1个待处理视频片段的长度可小于该时间长度(可直接使用或不使用长度小于该时间长度的待处理视频片段，也可对待处理视频片段进行处理使之长度等于时间长度，在此不做具体限定)。

比如：假设预设的时间长度为4秒且待处理视频的总长度为20秒，则将待处理视频划分为5个时间长度为4秒的待处理视频片段。

又比如：假设预设的时间长度为4秒且待处理视频的总长度为23秒，则将待处理视频划分为5个时间长度为4秒的待处理视频片段和1个时间长度为3秒的待处理视频片段。

针对每一个划分得到的待处理视频片段，根据预设的采样频率和预设的图像尺寸，将待处理视频片段划分为多帧待处理图像。也就是说，根据预设的采样频率，将每个待处理视频片段都划分为多帧尺寸为预设的图像尺寸(随机截取该图像尺寸)的待处理图像。也就说，每个待处理视频片段都包括多帧待处理图像。

比如：假设一待处理视频片段的时间长度为4秒，预设的采样频率为4Hz，预设的图像尺寸为长宽都为224像素，将该待处理视频片段划分为16帧长宽都为224像素的待处理图像。

也就是说，对待处理视频进行预处理包括将待处理视频划分为多个待处理视频片段，以及将每个待处理视频片段划分为多帧待处理图像。

步骤S102：针对每一待处理视频片段，将待处理视频片段输入预设的类别预测模型进行动作类别预测，得到待处理视频片段对应的动作类别预测信息。

需要说明的是，类别预测模型由基于第一样本数据训练第一神经网络模型得到，第一神经网络模型的初始化参数为预设的预训练模型的参数，预训练模型由基于第二样本数据、预设的空间变换规则和预设的时间变换规则训练第二神经网络模型得到。

也就是说，预先设置空间变换规则和时间变换规则，利用空间变换规则和时间变换规则处理第二样本数据，并利用处理后的第二样本数据训练第二神经网络模型得到预训练模型。

将预训练模型的参数作为第一神经网络模型的初始化参数，并利用第一样本数据训练该第一神经网络模型得到类别预测模型。

在具体实现步骤S102的过程中，对于每一待处理视频片段，将该待处理视频片段输入类别预测模型进行动作类别预测，得到该待处理视频片段对应的动作类别预测信息。通过以上方式，利用类别预测模型预测得到每一待处理视频片段的动作类别预测信息。

需要说明的是，待处理视频片段的动作类别是指：人脸面部动作(比如大笑和咀嚼等)、人脸面部操作和对象操作(比如吃和喝等)、身体动作(比如拍手、跳和翻跟头等)和人体动作(比如拥抱和握手等)等动作类别。

可以理解的是，上述所涉及的动作类别仅仅是用于举例说明，也可根据实际情况定义动作类别并训练相应的类别识别模型，在本发明实施例中对应动作类别就不一一举例赘述。

在本发明实施例中，预先设置空间变换规则和时间变换规则，利用空间变换规则和时间变换规则处理第二样本数据，并通过处理后的第二样本数据训练第二神经网络模型得到预训练模型。将预训练模型的参数作为第一神经网络模型的初始化参数，根据第一样本数据训练第一神经网络模型得到类别预测模型，通过类别预测模型确定待处理视频片段的动作类别预测信息，不需要人工标注训练数据，提高神经网络模型的训练效率、降低训练成本和提高类别预测模型的预测准确率。

上述本发明实施例图1步骤S102中涉及的获取预训练模型的过程，参见图2，示出了本发明实施例提供的获取预训练模型的流程图，包括以下步骤：

步骤S201：对第二样本数据中的第二样本视频进行预处理，得到多个第二样本视频片段。

可以理解的是，每个第二样本视频片段包括多帧第二样本图像。

在具体实现步骤S201的过程中，根据预设的时间长度，将第二样本数据中的第二样本视频(每一个第二样本视频)划分为1个及1个以上的第二样本视频片段，并根据预设的采样频率和预设的图像尺寸将每个第二样本视频片段划分为多帧第二样本图像。

具体如何对第二样本视频进行预处理的过程，可参见上述本发明实施例图1步骤S101中的内容，在此不再进行赘述。

步骤S202：针对每一第二样本视频片段，利用空间变换规则和时间变换规则，对第二样本视频片段的第二样本图像进行随机时空变换得到第二样本变换视频片段。

需要说明的是，空间变换规则包括x种空间变换方式，时间变换规则包括y种时间变换方式。根据空间变换规则所包括的x种空间变换方式和时间变换规则所包括的y种时间变换方式，可组合得到x*y种时空变换(由任意一种空间变换方式和任意一种时间变换方式组合得到)的方式，x和y为正整数。

为更好解释说明空间变换规则、时间变换规则和时空变换的方式，通过以下示例进行举例说明，需要说明的是，以下示例也仅用于举例说明，对于具体的空间变换规则和时间变换规则根据实际情况设定。

假设空间变换规则包括4种空间变换方式，分别为：将第二样本视频片段中的第二样本图像旋转0度、将第二样本视频片段中的第二样本图像旋转90度、将第二样本视频片段中的第二样本图像旋转180度和将第二样本视频片段中的第二样本图像旋转270度。

假设时间变换规则包括2种时间变换方式，分别为反转第二样本视频片段中的第二样本图像，或，不反转第二样本视频片段中的第二样本图像。

反转第二样本视频片段中的第二样本图像是指：将第二样本视频片段中的第一帧第二样本图像变成最后一帧第二样本图像，将第二帧第二样本图像变成倒数第二帧第二样本图像，将第三帧第二样本图像变成倒数第三帧第二样本图像，以此类推将第二样本视频片段中的第二样本图像全部反转。

结合上述4种空间变换方式和2种时间变换方式，可组合得到8种时空变换的方式，分别为A1至A8所示出的时空变换方式。

A1、将第二样本视频片段中的第二样本图像旋转0度，不反转第二样本视频片段中的第二样本图像。

A2、将第二样本视频片段中的第二样本图像旋转0度，反转第二样本视频片段中的第二样本图像。

A3、将第二样本视频片段中的第二样本图像旋转90度，不反转第二样本视频片段中的第二样本图像。

A4、将第二样本视频片段中的第二样本图像旋转90度，反转第二样本视频片段中的第二样本图像。

A5、将第二样本视频片段中的第二样本图像旋转180度，不反转第二样本视频片段中的第二样本图像。

A6、将第二样本视频片段中的第二样本图像旋转180度，反转第二样本视频片段中的第二样本图像。

A7、将第二样本视频片段中的第二样本图像旋转270度，不反转第二样本视频片段中的第二样本图像。

A8、将第二样本视频片段中的第二样本图像旋转270度，反转第二样本视频片段中的第二样本图像。

由前述内容可知，根据x种空间变换方式和y种时间变换方式可组合得到x*y种时空变换的方式，在具体实现步骤S202的过程中，对于每一第二样本视频片段，从x*y种时空变换的方式中随机选择一种时空变换的方式，对该第二样本视频片段的第二样本图像进行随机时空变换，得到第二样本变换视频片段。

可以理解的是，由于在训练第二神经网络模型的过程中，需要B个(B为正整数)第二样本变换视频片段，因此，需要对B个第二样本视频片段的第二样本图像进行随机时空变换，也就是说，需要进行B次随机时空变换(每次对一个第二样本视频片段的第二样本图像进行随机时空变换)，得到B个第二样本变换视频片段。

需要说明的是，针对每一第二样本视频片段，对该第二样本视频片段的第二样本图像进行随机时空变换时，需要记录对该第二样本视频片段所采用的时空变换的方式(作为训练第二神经网络模型的标签，标签即为真实值)。

步骤S203：利用所有第二样本变换视频片段，训练预先构建的第二神经网络模型直至第二神经网络模型收敛，得到预训练模型。

需要说明的是，预先选择神经网络模型(例如选择三维卷积神经网络模型中的I3D或3D残差网络)，在所选择的神经网络模型的最后一层连接一个全连接层作为分类器(该分类器的分类个数为x*y)，即可得到第二神经网络模型。

可以理解的是，第二神经网络模型的最后一层为分类个数为x*y(时空变换的方式的个数)的分类器，比如：假设存在8种时空变换的方式，则第二神经网络模型的最后一层的分类器的分类个数为8个。

在具体实现步骤S203的过程中，将所有第二样本变换视频片段(预先记录生成每一第二样本变换视频片段所采用的时空变换的方式)分批次输入第二神经网络模型中，进行反向传播训练并迭代N次(比如采用随机梯度下降算法迭代N＝10000000000次)得到预训练模型。

通过上述方式，对第二神经网络模型进行无监督学习的训练，得到对应的预训练模型。

在本发明实施例中，利用经过空间变换规则和时间变换规则处理得到的第二样本数据训练第二神经网络模型得到预训练模型，将预训练模型的参数作为第一神经网络模型的初始化参数，并根据第一样本数据训练第一神经网络模型得到类别预测模型，提高类别预测模型的预测准确率。

上述本发明实施例图1步骤S102中涉及的获取类别预测模型的流程图，参见图3，示出了本发明实施例提供的获取类别预测模型的流程图，包括以下步骤：

步骤S301：对第一样本数据中的第一样本视频进行预处理，得到多个第一样本视频片段。

可以理解的是，每个第一样本视频片段包括多帧第一样本图像。

在具体实现步骤S301的过程中，根据预设的时间长度，将第一样本数据中的第一样本视频(每一个第一样本视频)划分为1个及1个以上的第一样本视频片段，并根据预设的采样频率和预设的图像尺寸将每个第一样本视频片段划分为多帧第一样本图像。

具体如何对第一样本视频进行预处理的过程，可参见上述本发明实施例图1步骤S101中的内容，在此不再进行赘述。

需要说明的是，第一样本数据中存在n个动作类别的第一样本视频，n为正整数。

比如：假设第一样本数据为UCF101数据集，第一样本数据(UCF101数据集)中存在101个动作类别的第一样本视频。

又比如：假设第一样本数据为HMDB51数据集，第一样本数据(HMDB51数据集)中存在51个动作类别的第一样本视频。

步骤S302：将预训练模型的参数作为预先构建的第一神经网络模型的初始化参数。

需要说明的是，预先选择神经网络模型(比如三维卷积神经网络模型)，在所选择的神经网络模型的最后一层连接一个全连接层作为分类器(该分类器的分类个数为n)，即可得到第一神经网络模型。

也就是说，第一神经网络模型的最后一层为分类个数为n的分类器。

比如：假设第一样本数据为UCF101数据集(存在101个动作类别的视频)，第一神经网络模型最后一层的分类器的分类个数为101。

又比如：假设第一样本数据为HMDB51数据集(存在51个动作类别的视频)，第一神经网络模型最后一层的分类器的分类个数为51。

根据上述内容可知，可根据实际应用场景设置第一样本数据的内容，并选择对应的第一神经网络模型最后一层的分类器，上述关于第一样本数据的示例仅用于举例说明，在此不做具体限定。

在具体实现步骤S302的过程中，构建第一神经网络模型之后，将上述本发明实施例图2中所获取的预训练模型的参数作为该第一神经网络模型的初始化参数。

步骤S303：利用根据所有第一样本视频片段所确定的训练集，训练第一神经网络模型直至第一神经网络模型收敛，得到类别预测模型。

需要说明的是，根据所有第一样本视频片段，确定训练集和测试集，在具体实现中，按照预设的划分比例，将所有第一样本视频片段划分为训练集和测试集。

比如：按照5:1的划分比例，将所有第一样本视频片段划分为训练集(占所有第一样本视频片段的6分之5)和测试集(占所有第一样本视频片段的6分之1)。

可以理解的是，预先获取所有第一样本视频片段的标签(真实值)，在具体实现步骤S303的过程中，将训练集中的第一样本视频片段分批次输入第一神经网络模型中，结合训练集中的第一样本视频片段的标签，对第一神经网络进行反向传播训练并迭代M次(比如迭代M＝1000000次)得到类别预测模型。

优选的，训练得到类别预测模型后，利用根据所有第一样本视频片段所确定的测试集，结合测试集中的第一样本视频片段的标签，测试类别预测模型的动作类别预测的准确率。

在本发明实施例中，预先构建第一神经网络模型，将预先训练得到的预训练模型的参数作为第一神经网络模型的初始化参数，利用根据所有第一样本视频片段所确定的训练集，训练第一神经网络模型直至第一神经网络模型收敛，得到类别预测模型，提高类别预测模型的动作类别预测的准确率。

与上述本发明实施例提供的一种视频处理方法相对应，参见图4，本发明实施例还提供了一种视频处理系统的结构框图，该视频处理系统包括：预处理单元401和处理单元402；

预处理单元401，用于对待处理视频进行预处理，得到多个待处理视频片段。

在具体实现中，预处理单元401具体用于：根据预设的时间长度，将待处理视频划分为1个及1个以上的待处理视频片段。

处理单元402，用于针对每一待处理视频片段，将待处理视频片段输入预设的类别预测模型进行动作类别预测，得到待处理视频片段对应的动作类别预测信息，其中，类别预测模型由基于第一样本数据训练第一神经网络模型得到，第一神经网络模型的初始化参数为预设的预训练模型的参数，预训练模型由基于第二样本数据、预设的空间变换规则和预设的时间变换规则训练第二神经网络模型得到。

优选的，结合图4示出的内容，训练第二神经网络模型得到预训练模型的处理单元402，包括：第一预处理模块、变换模块和第一训练模块，各个模块的执行原理如下：

第一预处理模块，用于对第二样本数据中的第二样本视频进行预处理，得到多个第二样本视频片段，每个第二样本视频片段包括多帧第二样本图像。

变换模块，用于针对每一第二样本视频片段，利用空间变换规则和时间变换规则，对第二样本视频片段的第二样本图像进行随机时空变换得到第二样本变换视频片段，空间变换规则包括x种空间变换方式，时间变换规则包括y种时间变换方式，x和y为正整数。

第一训练模块，用于利用所有第二样本变换视频片段，训练预先构建的第二神经网络模型直至第二神经网络模型收敛，得到预训练模型，第二神经网络模型的最后一层为分类个数为x*y的分类器。

优选的，结合图4示出的内容，用于训练第一神经网络模型得到类别预测模型的处理单元402，包括：第二预处理模块、设置模块和第二训练模块，各个模块的执行原理如下：

第二预处理模块，用于对第一样本数据中的第一样本视频进行预处理，得到多个第一样本视频片段，第一样本数据中存在n个动作类别的第一样本视频，n为正整数。

设置模块，用于将预训练模型的参数作为预先构建的第一神经网络模型的初始化参数，第一神经网络模型的最后一层为分类个数为n的分类器。

第二训练模块，用于利用根据所有第一样本视频片段所确定的训练集，训练第一神经网络模型直至第一神经网络模型收敛，得到类别预测模型。

优选的，结合图4示出的内容，用于训练第一神经网络模型得到类别预测模型的处理单元402，还包括：测试模块，用于利用根据所有第一样本视频片段所确定的测试集，测试类别预测模型的动作类别预测的准确率。

综上所述，本发明实施例提供一种视频处理方法及系统，利用经过空间变换规则和时间变换规则处理得到的第二样本数据训练第二神经网络模型得到预训练模型，将预训练模型的参数作为第一神经网络模型的初始化参数，并根据第一样本数据训练第一神经网络模型得到类别预测模型，通过类别预测模型确定待处理视频片段的动作类别预测信息，不需要人工标注训练数据，提高神经网络模型的训练效率、降低训练成本和提高类别预测模型的预测准确率。

本说明书中的各个实施例均采用递进的方式描述，各个实施例之间相同相似的部分互相参见即可，每个实施例重点说明的都是与其他实施例的不同之处。尤其，对于系统或系统实施例而言，由于其基本相似于方法实施例，所以描述得比较简单，相关之处参见方法实施例的部分说明即可。以上所描述的系统及系统实施例仅仅是示意性的，其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性劳动的情况下，即可以理解并实施。

专业人员还可以进一步意识到，结合本文中所公开的实施例描述的各示例的单元及算法步骤，能够以电子硬件、计算机软件或者二者的结合来实现，为了清楚地说明硬件和软件的可互换性，在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本发明的范围。

对所公开的实施例的上述说明，使本领域专业技术人员能够实现或使用本发明。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的，本文中所定义的一般原理可以在不脱离本发明的精神或范围的情况下，在其它实施例中实现。因此，本发明将不会被限制于本文所示的这些实施例，而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

Claims

1.一种视频处理方法，其特征在于，所述方法包括：

对待处理视频进行预处理，得到多个待处理视频片段；

针对每一所述待处理视频片段，将所述待处理视频片段输入预设的类别预测模型进行动作类别预测，得到所述待处理视频片段对应的动作类别预测信息，其中，所述类别预测模型由基于第一样本数据训练第一神经网络模型得到，所述第一神经网络模型的初始化参数为预设的预训练模型的参数，所述预训练模型由基于第二样本数据、预设的空间变换规则和预设的时间变换规则训练第二神经网络模型得到；

所述基于第二样本数据、预设的空间变换规则和预设的时间变换规则训练第二神经网络模型得到预训练模型的过程，包括：

2.根据权利要求1所述的方法，其特征在于，所述基于第一样本数据训练第一神经网络模型得到类别预测模型的过程，包括：

3.根据权利要求2所述的方法，其特征在于，所述得到类别预测模型之后，还包括：

4.根据权利要求1所述的方法，其特征在于，所述对待处理视频进行预处理，得到多个待处理视频片段，包括：

5.一种视频处理系统，其特征在于，所述系统包括：

处理单元，用于针对每一所述待处理视频片段，将所述待处理视频片段输入预设的类别预测模型进行动作类别预测，得到所述待处理视频片段对应的动作类别预测信息，其中，所述类别预测模型由基于第一样本数据训练第一神经网络模型得到，所述第一神经网络模型的初始化参数为预设的预训练模型的参数，所述预训练模型由基于第二样本数据、预设的空间变换规则和预设的时间变换规则训练第二神经网络模型得到；

用于训练第二神经网络模型得到预训练模型的所述处理单元，包括：

6.根据权利要求5所述的系统，其特征在于，用于训练第一神经网络模型得到类别预测模型的所述处理单元，包括：

7.根据权利要求6所述的系统，其特征在于，用于训练第一神经网络模型得到类别预测模型的所述处理单元，还包括：

8.根据权利要求5所述的系统，其特征在于，所述预处理单元具体用于：根据预设的时间长度，将所述待处理视频划分为1个及1个以上的待处理视频片段。