CN114282047A

CN114282047A - 小样本动作识别模型训练方法、装置、电子设备及存储介质

Info

Publication number: CN114282047A
Application number: CN202111087467.0A
Authority: CN
Inventors: 王菡子; 王光格; 祁仲昂; 单瀛
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2021-09-16
Filing date: 2021-09-16
Publication date: 2022-04-05
Also published as: US20230353828A1; WO2023040506A1

Abstract

本发明提供了一种小样本动作识别模型训练方法、装置、电子设备以及存储介质，方法包括：对第二训练样本集合进行处理，得到第一视频帧序列；对查询视频进行处理，得到第二视频帧序列；对第一视频帧序列进行处理，得到第一时序关系描述子；对第二视频帧序列进行处理，得到第二时序关系描述子；根据第一时序关系描述子和第二时序关系描述子，对小样本动作识别模型的模型参数进行调整，以实现通过小样本动作识别模型对视频信息中的动作进行识别，由此，经过训练的小样本动作识别模型可以实现鲁棒并精确地对视频中的目标对象的动作进行准确地识别，可以增强模型的泛化性，同时小样本动作识别模型的训练过程减少了训练标记成本。

Description

小样本动作识别模型训练方法、装置、电子设备及存储介质

技术领域

本发明涉及视频中图像处理技术，尤其涉及小样本动作识别模型训练方法、装置、电子设备及存储介质。

背景技术

基于深度学习所进行的各类型识别，一直以来都是各应用场景下解决大量数据分的重要工具。例如，在图像、自然语言处理等应用场景中，对大量数据所实现的大规模分类和识别，以此来快速准确的获得相关的分类预测结果，加速所在应用场景的功能实现。但是传统的处理技术中，需要对大量数据所实现的大规模分类和识别，以此来快速准确的获得相关的动作识别结果，但是实际使用中，针对视频中人物的动作信息，往往难以收集足够的标记样本以供传统机器学习从数据中提取运动模式特征，从而容易出现模型过拟合现象，还容易引入新的噪声，影响动作识别模型的数据处理效果。

发明内容

有鉴于此，本发明实施例提供一种小样本动作识别模型训练方法、装置、电子设备及存储介质，能够根据第一时序关系描述子和第二时序关系描述子，对所述小样本动作识别模型的模型参数进行调整，实现通过小样本动作识别模型对视频信息中的动作进行识别，增强模型的泛化性，不借助额外辅助手段方式学习鲁棒的动作特征，提高小样本动作识别模型的训练精度。

本发明实施例的技术方案是这样实现的：

本发明实施例提供了一种小样本动作识别模型训练方法，包括：

获取第一训练样本集合，其中所述第一训练样本集合包括通过历史数据所获取的不同类型的视频样本；

在所述第一训练样本集合进行随机抽取处理，得到第二训练样本集合和查询视频，其中，所述第二训练样本集合中的视频数量与视频类型数量均为随机数，所述查询视频的数量为1；

通过小样本动作识别模型中的嵌入层网络，对所述第二训练样本集合进行处理，得到第一视频帧序列；

通过所述小样本动作识别模型中的嵌入层网络，对所述查询视频进行处理，得到第二视频帧序列；

通过所述小样本动作识别模型中的时序关系网络，对所述第一视频帧序列进行处理，得到第一时序关系描述子；

通过所述小样本动作识别模型中的时序关系网络，对所述第二视频帧序列进行处理，得到第二时序关系描述子；

根据所述第一时序关系描述子和所述第二时序关系描述子，对所述小样本动作识别模型的模型参数进行调整，以实现通过所述小样本动作识别模型对视频信息中的动作进行识别。

本发明实施例还提供了一种小样本动作识别模型训练装置，包括：

信息传输模块，用于获取第一训练样本集合，其中所述第一训练样本集合包括通过历史数据所获取的不同类型的视频样本；

信息处理模块，用于在所述第一训练样本集合进行随机抽取处理，得到第二训练样本集合和查询视频，其中，所述第二训练样本集合中的视频数量与视频类型数量均为随机数，所述查询视频的数量为1；

所述信息处理模块，用于通过小样本动作识别模型中的嵌入层网络，对所述第二训练样本集合进行处理，得到第一视频帧序列；

所述信息处理模块，用于通过所述小样本动作识别模型中的嵌入层网络，对所述查询视频进行处理，得到第二视频帧序列；

所述信息处理模块，用于通过所述小样本动作识别模型中的时序关系网络，对所述第一视频帧序列进行处理，得到第一时序关系描述子；

所述信息处理模块，用于通过所述小样本动作识别模型中的时序关系网络，对所述第二视频帧序列进行处理，得到第二时序关系描述子；

所述信息处理模块，用于根据所述第一时序关系描述子和所述第二时序关系描述子，对所述小样本动作识别模型的模型参数进行调整，以实现通过所述小样本动作识别模型对视频信息中的动作进行识别。

上述方案中，

所述信息处理模块，用于所述信息传输模块，用于确定小样本动作识别模型的使用环境标识；

所述信息处理模块，用于根据所述小样本动作识别模型的使用环境标识，确定与所述的使用环境相匹配的历史数据；

所述信息处理模块，用于在与所述的使用环境相匹配的历史数据中筛选不同类型的视频样本作为第一训练样本集合。

上述方案中，

所述信息处理模块，用于在所述第一训练样本集合中随机抽取N个类型的视频信息；

所述信息处理模块，用于在每一个类型的视频信息中随机抽取K个视频信息；

所述信息处理模块，用于将所述N个类型中的所有视频信息进行组合，得到第二训练样本集合；

所述信息处理模块，用于从所述N个类型中未被抽取的视频信息中随机抽取一个视频信息作为查询视频。

上述方案中，

所述信息处理模块，用于通过小样本动作识别模型中的嵌入层网络，分别在所述第二训练样本集合中提取不同的第一帧级别特征向量；

所述信息处理模块，用于确定所述不同的第一帧级别特征向量中的每一个第一帧级别特征向量所分别对应的通道数量；

所述信息处理模块，用于基于所述通道数量，确定对应的第一帧级别特征向量集合，以及与所述第一帧级别特征向量集合相匹配的相似度矩阵；

所述信息处理模块，用于根据所述第一帧级别特征向量集合和所述相似度矩阵，通过融合处理确定相应的第二帧级别特征向量集合；

所述信息处理模块，用于通过对所述第二帧级别特征向量集合的线性转换处理，确定所述帧级别的特征向量。

上述方案中，

所述信息处理模块，用于通过小样本动作识别模型中的嵌入层网络，在所述查询视频中提取第三帧级别特征向量，并组成第三帧级别特征向量集合；

所述信息处理模块，用于确定所述第三帧级别特征向量所分别对应的通道数量；

所述信息处理模块，用于基于所述通道数量，确定对应的第三帧级别特征向量集合，并通过对所述第三帧级别特征向量集合的线性转换处理，确定所述查询视频对应的帧级别的特征向量。

上述方案中，

所述信息处理模块，用于通过所述小样本动作识别模型中嵌入层网络的卷积层和最大值池化层分别对所述第二训练样本集合中的不同视频帧，得到得到所述第二训练样本集合中的不同视频帧的降采样结果；

所述信息处理模块，用于通过所述嵌入层网络的全连接层，对得到所述第二训练样本集合中的不同视频帧的降采样结果进行归一化处理；

所述信息处理模块，用于通过视嵌入层网络对所述不同图像帧的降采样的归一化结果，进行深度分解处理，确定不同的第一帧级别特征向量。

上述方案中，

所述信息处理模块，用于确定所述第一视频帧序列对应的视频帧数参数、视频通道参数、视频帧的高度参数和视频帧的宽度参数；

所述信息处理模块，用于根据所述第一视频帧序列对应的视频帧数参数、视频通道参数、视频帧的高度参数和视频帧的宽度参数，对所述第一视频帧序列中的每一帧视频进行时空运动增强处理，以实现增强所述第一视频帧序列中的每一帧视频的运动特征。

上述方案中；

所述信息处理模块，用于确定所述第二视频帧序列对应的视频帧数参数、视频通道参数、视频帧的高度参数和视频帧的宽度参数；

所述信息处理模块，用于根据所述第二视频帧序列对应的视频帧数参数、视频通道参数、视频帧的高度参数和视频帧的宽度参数，对所述第二视频帧序列中的每一帧视频进行时空运动增强处理，以实现增强所第二视频帧序列中的每一帧视频的运动特征。

上述方案中，

所述信息处理模块，用于确定所述第一视频帧序列的帧索引参数以及所述第一视频帧序列的子序列数量；

所述信息处理模块，用于通过所述小样本动作识别模型中的时序关系网络，利用所述帧索引参数，确定不同子序列所分别对应的时序关系描述子；

所述信息处理模块，用于对所述不同子序列所分别对应的时序关系描述子进行组合，得到第一时序关系描述子。

上述方案中，

所述信息处理模块，用于确定所述第二视频帧序列的帧索引参数以及所述第二视频帧序列的子序列数量；

所述信息处理模块，用于通过所述小样本动作识别模型中的时序关系网络，利用所述第二视频帧序列的帧索引参数，确定第二时序关系描述子。

上述方案中，

所述信息处理模块，用于对所述第一时序关系描述子和所述第二时序关系描述子进行比较，确定所述第一时序关系描述子和所述第二时序关系描述子的相似度；

所述信息处理模块，用于根据所述第一时序关系描述子和所述第二时序关系描述子的相似度，确定所述第一时序关系描述子中的不同类型的时序关系描述子的权重参数；

所述信息处理模块，用于根据所述时序关系描述子的权重参数，确定不同类型的视频样本的样本原型；

所述信息处理模块，用于计算所述查询视频与每一个类型的视频样本的样本原型的度量分数；

所述信息处理模块，用于当所述视频样本的样本原型的度量分数达到最大值时，确定所述查询视频对应的小样本动作类型，并确定所述小样本动作识别模型的模型参数，以实现通过所述小样本动作识别模型对视频信息中的动作进行识别。

上述方案中，

所述信息处理模块，用于确定待识别视频中的待识别视频帧；

所述信息处理模块，用于通过所述小样本动作识别模型对所述待识别视频帧进行动作识别，得到动作识别结果；

所述信息处理模块，用于确定与所述待识别视频相对应的版权视频；

所述信息处理模块，用于基于所述动作识别结果，确定所述待识别视频和所述版权视频对应的帧间相似度参数集合；

所述信息处理模块，用于获取所述帧间相似度参数集合中达到相似度阈值的图像帧数量；

所述信息处理模块，用于基于达到相似度阈值的图像帧数量，确定所述待识别视频与版权视频的相似度，其中，所述小样本动作识别模型通过权利要求1-11任意一项训练得到。

上述方案中，

所述信息处理模块，用于当确定所述待识别视频与版权视频的相似时，获取所述待识别视频的版权信息；

所述信息处理模块，用于通过所述待识别视频的版权信息和所述版权视频的版权信息，确定所述待识别视频的合法性；

所述信息处理模块，用于当所述待识别视频的版权信息和所述版权视频的版权信息不一致时，发出警示信息。

上述方案中，

所述信息处理模块，用于当确定所述待识别视频与版权视频的不相似时，将所述待识别视频添加至视频源；

所述信息处理模块，用于对所述视频源中的所有待推荐视频的召回顺序进行排序；

所述信息处理模块，用于基于所述待推荐视频的召回顺序的排序结果向目标用户进行视频推荐，其中，所述待推荐视频携带有小样本动作识别结果。

本发明实施例还提供了一种电子设备，所述电子设备包括：

存储器，用于存储可执行指令；

处理器，用于运行所述存储器存储的可执行指令时，实现前述的小样本动作识别模型训练方法。

本发明实施例还提供了一种计算机可读存储介质，存储有可执行指令所述可执行指令被处理器执行时实现前述的小样本动作识别模型训练方法。

本发明实施例具有以下有益效果：

本发明通过获取第一训练样本集合，其中所述第一训练样本集合包括通过历史数据所获取的不同类型的视频样本；在所述第一训练样本集合进行随机抽取处理，得到第二训练样本集合和查询视频，其中，所述第二训练样本集合中的视频数量与视频类型数量均为随机数，所述查询视频的数量为1；通过小样本动作识别模型中的嵌入层网络，对所述第二训练样本集合进行处理，得到第一视频帧序列；通过所述小样本动作识别模型中的嵌入层网络，对所述查询视频进行处理，得到第二视频帧序列；通过所述小样本动作识别模型中的时序关系网络，对所述第一视频帧序列进行处理，得到第一时序关系描述子；通过所述小样本动作识别模型中的时序关系网络，对所述第二视频帧序列进行处理，得到第二时序关系描述子；根据所述第一时序关系描述子和所述第二时序关系描述子，对所述小样本动作识别模型的模型参数进行调整，以实现通过所述小样本动作识别模型对视频信息中的动作进行识别。由此，通过小样本动作识别模型对视频信息中的动作进行识别，增强模型的泛化性，不借助额外辅助手段方式学习鲁棒的动作特征，提高小样本动作识别模型的训练精度，无需借助额外辅助手段方式学习鲁棒的动作特征，同时小样本动作识别模型的训练过程减少了训练标记成本。

附图说明

图1是本发明实施例提供的小样本动作识别模型训练方法的使用环境示意图；

图2为本发明实施例提供的电子设备的组成结构示意图；

图3为本发明实施例提供的小样本动作识别模型训练方法一个可选的流程示意图；

图4为本发明实施例中待识别视频帧和辅助视频帧抽取一个可选的示意图；

图5为本发明实施例提供的小样本动作识别模型训练方法一个可选的流程示意图；

图6为本发明实施例中视频相似判断一个可选的过程示意图；

图7为本发明实施例提供的小样本动作识别模型训练方法的使用场景示意图；

图8为本发明实施例中视频目标识别方法的使用过程示意图；

图9为本发明实施例中视频目标识别方法的使用过程示意图。

具体实施方式

为了使本发明的目的、技术方案和优点更加清楚，下面将结合附图对本发明作进一步地详细描述，所描述的实施例不应视为对本发明的限制，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例，都属于本发明保护的范围。

在以下的描述中，涉及到“一些实施例”，其描述了所有可能实施例的子集，但是可以理解,“一些实施例”可以是所有可能实施例的相同子集或不同子集，并且可以在不冲突的情况下相互结合。

对本发明实施例进行进一步详细说明之前，对本发明实施例中涉及的名词和术语进行说明，本发明实施例中涉及的名词和术语适用于如下的解释。

1)响应于，用于表示所执行的操作所依赖的条件或者状态，当满足所依赖的条件或状态时，所执行的一个或多个操作可以是实时的，也可以具有设定的延迟；在没有特别说明的情况下，所执行的多个操作不存在执行先后顺序的限制。

2)待识别视频，互联网中可获取的各种形式的视频信息，如客户端或者智能设备中呈现的视频文件、多媒体信息等。

3)客户端，终端中实现特定功能的载体，例如移动客户端(APP)是移动终端中特定功能的载体，例如执行线上直播(视频推流)的功能或者是在线视频的播放功能。

4)人工神经网络，简称神经网络(Neural Network，NN)，在机器学习和认知科学领域，是一种模仿生物神经网络结构和功能的数学模型或计算模型，用于对函数进行估计或近似。

5)下采样处理，对于一个样值序列间隔几个样值取样一次，这样得到新序列就是原序列的下采样，例如：对于一幅图像I尺寸为M*N，对其进行s倍下采样，即得到(M/s)*(N/s)尺寸的得分辨率图像，其中s应该是M和N的公约数。

6)元学习，Meta-learning，也称学会学习(Learning to learn)，是指学习如何学习的过程。传统的机器学习问题是从头开始学习一个用于预测的数学模型，这与人类学习、积累历史经验(也称为元知识)指导新的学习任务的过程相差甚远。元学习则是学习不同的机器学习任务的学习训练过程，以及学习如何更快更好地训练一个模型。

7)小样本学习，Few-shot learning。主要解决在少量标记样本情况下如何快速高效学习预测模型。Few-shot learning是Meta-Learning在监督学习领域的应用。

8)N-way K-shot，小样本学习在分类领域的常用训练设置。在训练阶段，从训练集中抽取N个类型，每个类型K个样本，一共N*K个样本构成一个元任务，作为模型的支撑集(support set)，再从N个类剩余的数据中抽取一批样本作为模型的预测对象(query set)。这样的任务被称为N-way K-shot问题。

9)Task，元学习的模型训练与测试单元。由支撑集(support set)和查询集(queryset)组成。举例来说，根据5-way 5-shot的实验设定，从数据集中随机选取5个类型，每个类型再随机选取5个样本组成support set，相同类型再抽取一定样本(例如15个样本)组成query set，最终组成一个task。

10)客户端，终端中实现特定功能的载体，例如移动客户端(APP)是移动终端中特定功能的载体，例如执行支付消费功能或者是短视频的上传与播放的功能。

11)模型参数，是使用通用变量来建立函数和变量之间关系的一个数量。在人工神经网络中，模型参数通常是实数矩阵。

图1为本发明实施例提供的小样本动作识别模型训练方法的使用场景示意图，参见图1，终端(包括终端10-1和终端10-2)上设置有能够执行不同功能相应客户端其中，所属客户端为终端(包括终端10-1和终端10-2)通过网络300从相应的服务器200中利用不同的业务进程获取不同的视频信息进行浏览，终端通过网络300连接服务器200，网络300可以是广域网或者局域网，又或者是二者的组合，使用无线链路实现数据传输，其中，终端(包括终端10-1和终端10-2)通过网络300从相应的服务器200中所获取的视频类型并不相同，例如：终端(包括终端10-1和终端10-2)既可以通过网络300从相应的服务器200中获取视频(即视频中携带视频信息或相应的视频链接)，也可以通过网络300从相应的服务器200中获取仅包括文字或图像的相应视频进行浏览。服务器200中可以保存有不同类型的视频。其中，本申请中不再对不同类型的视频的编译环境进行区分。对于数量众多的用户上传视频(包括但不限于短视频和长视频)，需要判断哪些视频是相似的，并进一步地对相似视频的版权信息进行合规识别，在这一过程中可以通过小样本动作识别模型判断向用户的客户端推送的视频信息应该是版权合规的视频信息，也可以通过小样本动作识别模型识别视频中的动作形成动作预告弹幕或者进度条信息中的动作预告。

以短视频为例，本发明所提供的视频推荐模型可以应用于短视频播放，在短视频播放中通常会对不同数据来源的不同短视频进行处理，最终在用户界面UI(UserInterface)上呈现出与相应的用户相对应的待推荐视频，如果推荐的视频是版权不合规的盗播视频将直接影响了用户体验。视频播放的后台数据库每天都会收到大量不同来源的视频数据，所得到与向目标用户进行视频推荐的不同视频还可以供其他应用程序调用(例如短视频推荐进程的推荐结果迁移至长视频推荐进程或者新闻推荐进程)，当然，与相应的目标用户相匹配的视频推荐模型也可以迁移至不同的视频推荐进程(例如网页视频推荐进程、小程序视频推荐进程或者长视频客户端的视频推荐进程)。

其中，本申请实施例所提供的小样本动作识别模型训练方法是基于人工智能实现的，人工智能(Artificial Intelligence，AI)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能，感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。换句话说，人工智能是计算机科学的一个综合技术，它企图了解智能的实质，并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法，使机器具有感知、推理与决策的功能。

人工智能技术是一门综合学科，涉及领域广泛，既有硬件层面的技术也有软件层面的技术。人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互系统、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。

在本申请实施例中，主要涉及的人工智能软件技术包括上述语音处理技术和机器学习等方向。例如，可以涉及语音技术(Speech Technology)中的语音识别技术(AutomaticSpeech Recognition，ASR)，其中包括语音信号预处理(Speech signal preprocessing)、语音信号频域分析(Speech signal frequency analyzing)、语音信号特征提取(Speechsignal feature extraction)、语音信号特征匹配/识别(Speech signal featurematching/recognition)、语音的训练(Speech training)等。

例如可以涉及机器学习(Machine learning，ML)，机器学习是一门多领域交叉学科，涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为，以获取新的知识或技能，重新组织已有的知识结构使之不断改善自身的性能。机器学习是人工智能的核心，是使计算机具有智能的根本途径，其应用遍及人工智能的各个领域。机器学习通常包括深度学习(Deep Learning)等技术，深度学习包括人工神经网络(artificial neural network)，例如卷积神经网络(ConvolutionalNeural Network，CNN)、循环神经网络(Recurrent Neural Network，RNN)、深度神经网络(Deep neural network，DNN)等。

下面对本发明实施例的电子设备的结构做详细说明，电子设备可以各种形式来实施，如带有视频处理功能的专用终端例如网关，也可以为带有视频处理功能的服务器，例如前述图1中的服务器200。图2为本发明实施例提供的电子设备的组成结构示意图，可以理解，图2仅仅示出了服务器的示例性结构而非全部结构，根据需要可以实施图2示出的部分结构或全部结构。

本发明实施例提供的电子设备包括：至少一个处理器201、存储器202、用户接口203和至少一个网络接口204。电子设备20中的各个组件通过总线系统205耦合在一起。可以理解，总线系统205用于实现这些组件之间的连接通信。总线系统205除包括数据总线之外，还包括电源总线、控制总线和状态信号总线。但是为了清楚说明起见，在图2中将各种总线都标为总线系统205。

其中，用户接口203可以包括显示器、键盘、鼠标、轨迹球、点击轮、按键、按钮、触感板或者触摸屏等。

可以理解，存储器202可以是易失性存储器或非易失性存储器，也可包括易失性和非易失性存储器两者。本发明实施例中的存储器202能够存储数据以支持终端(如10-1)的操作。这些数据的示例包括：用于在终端(如10-1)上操作的任何计算机程序，如操作系统和应用程序。其中，操作系统包含各种系统程序，例如框架层、核心库层、驱动层等，用于实现各种基础业务以及处理基于硬件的任务。应用程序可以包含各种应用程序。

在一些实施例中，本发明实施例提供的小样本动作识别模型训练装置可以采用软硬件结合的方式实现，作为示例，本发明实施例提供的小样本动作识别模型训练装置可以是采用硬件译码处理器形式的处理器，其被编程以执行本发明实施例提供的小样本动作识别模型训练方法。例如，硬件译码处理器形式的处理器可以采用一个或多个应用专用集成电路(ASIC，Application Specific Integrated Circuit)、DSP、可编程逻辑器件(PLD，Programmable Logic Device)、复杂可编程逻辑器件(CPLD，Complex Programmable LogicDevice)、现场可编程门阵列(FPGA，Field-Programmable Gate Array)或其他电子元件。

作为本发明实施例提供的小样本动作识别模型训练装置采用软硬件结合实施的示例，本发明实施例所提供的小样本动作识别模型训练装置可以直接体现为由处理器201执行的软件模块组合，软件模块可以位于存储介质中，存储介质位于存储器202，处理器201读取存储器202中软件模块包括的可执行指令，结合必要的硬件(例如，包括处理器201以及连接到总线205的其他组件)完成本发明实施例提供的小样本动作识别模型训练方法。

作为示例，处理器201可以是一种集成电路芯片，具有信号的处理能力，例如通用处理器、数字信号处理器(DSP，Digital Signal Processor)，或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等，其中，通用处理器可以是微处理器或者任何常规的处理器等。

作为本发明实施例提供的小样本动作识别模型训练装置采用硬件实施的示例，本发明实施例所提供的装置可以直接采用硬件译码处理器形式的处理器201来执行完成，例如，被一个或多个应用专用集成电路(ASIC，Application Specific IntegratedCircuit)、DSP、可编程逻辑器件(PLD，Programmable Logic Device)、复杂可编程逻辑器件(CPLD，Complex Programmable Logic Device)、现场可编程门阵列(FPGA，Field-Programmable Gate Array)或其他电子元件执行实现本发明实施例提供的小样本动作识别模型训练方法。

本发明实施例中的存储器202用于存储各种类型的数据以支持电子设备20的操作。这些数据的示例包括：用于在电子设备20上操作的任何可执行指令，如可执行指令，实现本发明实施例的从小样本动作识别模型训练方法的程序可以包含在可执行指令中。

在另一些实施例中，本发明实施例提供的小样本动作识别模型训练装置可以采用软件方式实现，图2示出了存储在存储器202中的小样本动作识别模型训练装置2020，其可以是程序和插件等形式的软件，并包括一系列的模块，作为存储器202中存储的程序的示例，可以包括小样本动作识别模型训练装置2020，小样本动作识别模型训练装置2020中包括以下的软件模块：信息传输模块2081，信息处理模块2082。当小样本动作识别模型训练装置2020中的软件模块被处理器201读取到RAM中并执行时，将实现本发明实施例提供的小样本动作识别模型训练方法，下面对小样本动作识别模型训练装置2020中各个软件模块的功能进行介绍：

信息传输模块2081，用于获取第一训练样本集合，其中所述第一训练样本集合包括通过历史数据所获取的不同类型的视频样本；

信息处理模块2082，用于在所述第一训练样本集合进行随机抽取处理，得到第二训练样本集合和查询视频，其中，所述第二训练样本集合中的视频数量与视频类型数量均为随机数，所述查询视频的数量为1；

所述信息处理模块2082，用于通过小样本动作识别模型中的嵌入层网络，对所述第二训练样本集合进行处理，得到第一视频帧序列；

所述信息处理模块2082，用于通过所述小样本动作识别模型中的嵌入层网络，对所述查询视频进行处理，得到第二视频帧序列；

所述信息处理模块2082，用于通过所述小样本动作识别模型中的时序关系网络，对所述第一视频帧序列进行处理，得到第一时序关系描述子；

所述信息处理模块2082，用于通过所述小样本动作识别模型中的时序关系网络，对所述第二视频帧序列进行处理，得到第二时序关系描述子；

所述信息处理模块2082，用于根据所述第一时序关系描述子和所述第二时序关系描述子，对所述小样本动作识别模型的模型参数进行调整，以实现通过所述小样本动作识别模型对视频信息中的动作进行识别。

根据图2所示的电子设备，在本申请的一个方面中，本申请还提供了一种计算机程序产品或计算机程序，该计算机程序产品或计算机程序包括计算机指令，该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令，处理器执行该计算机指令，使得该计算机设备执行上述小样本动作识别模型训练方法的各种可选实现方式中所提供的方法。

结合图2示出的电子设备20说明本发明实施例提供的小样本动作识别模型训练方法，在介绍之前，首先对相关技术的缺陷进行说明，相关技术在实现基于帧级别小样本动作识别时，引入深度信息进行多模态特征融合学习，并且将学习到的特征在增加的存储介质中进行额外存储，同时还利用游戏引擎中的虚拟人物构造虚拟动作数据集，但是实际使用中，针对视频中人物的动作信息，往往难以收集足够的标记样本以供传统机器学习从数据中提取运动模式特征，从而容易出现模型过拟合现象，数据形变等数据增强操作还容易引入新的噪声，影响动作识别模型的数据处理效果，同时虚拟动作数据集的收集，提升了训练标记成本，不利于小样本动作识别模型的推广使用。

为了解决上述缺陷，参见图3，图3为本发明实施例提供的小样本动作识别模型训练方法一个可选的流程示意图，可以理解地，图3所示的步骤可以由运行小样本动作识别模型训练装置的各种服务器执行，例如可以是如带有视频处理功能的专用终端、服务器或者服务器集群。本发明实施例提供的小样本动作识别模型训练方法可以用于非实时性的小样本动作识别模型训练，例如(包括电视剧、电影、短视频等各种视频类型)的内容分析、目标人物的小本动作识别。下面针对图3示出的步骤进行说明。

步骤301：小样本动作识别模型训练装置获取第一训练样本集合。

其中，所述第一训练样本集合包括通过历史数据所获取的不同类型的视频样本。具体来说，获取第一训练样本集合时，可以首先确定小样本动作识别模型的使用环境标识；根据所述小样本动作识别模型的使用环境标识，确定与所述的使用环境相匹配的历史数据；在与所述的使用环境相匹配的历史数据中筛选不同类型的视频样本作为第一训练样本集合。由于第一训练样本集合中的视频来源具有不确定性(可以是互联网中的视频资源，也可以是电子设备所保存的本地视频文件)，通过获取与使用环境相匹配的历史数据，可以实现对小样本动作的获取，其中，图4为本发明实施例中小样本动作视频帧抽取一个可选的示意图。其中，随着视频的播放过程，视频在播放过程中随着时间轴推移而改变的所显示的画面区域，如图4所示，所显示的画面区域中有不同的视频目标，通过对视频目标的识别可以确定视频目标在所述待识别视频的不同视频帧中的所在区域，由于图4所示的3个不同的短视频中分别出现了动作1“打羽毛球”、动作2“打乒乓球”以及动作3“打篮球”，通过本申请所提供的小样本动作识别模型训练方法所训练的小样本动作识别模型可以分别对4个不同的短视频中所出现的动作1“打羽毛球”、动作2“打乒乓球”以及动作3“打篮球”进行识别。

进而，还可以通过视频目标中动作的识别结果，确定待识别视频是否合规，或者是否符合版权信息要求，避免用户上传的视频被盗播，也可以阻止侵权视频的推荐与播放。

步骤302：小样本动作识别模型训练装置在所述第一训练样本集合进行随机抽取处理，得到第二训练样本集合和查询视频。

其中，所述第二训练样本集合中的视频数量与视频类型数量均为随机数，所述查询视频的数量为1，具体来说，可以在所述第一训练样本集合中随机抽取N个类型的视频信息；在每一个类型的视频信息中随机抽取K个视频信息；将所述N个类型中的所有视频信息进行组合，得到第二训练样本集合；从所述N个类型中未被抽取的视频信息中随机抽取一个视频信息作为查询视频。·

在本发明的一些实施例中，可以采用N-way K-shot的训练方式对小样本动作识别模型进行训练，从训练类里面随机挑选出N个类，每个类随机挑选出K个视频，总共NK个视频构成第二样本集合。再从N个类当中剩余的视频中挑选出1个视频作为查询视频。对每个视频进行松散采样，将视频序列分为T个片段，在每个片段中随机挑选出一帧作为该段的摘要，因此，每个视频样本由T帧帧序列表示。这些帧序列被输入到嵌入层网络中进行帧特征提取处理和运动增强处理，后续实施例中将继续对帧特征提取处理和运动增强处理进行说明。

步骤303：小样本动作识别模型训练装置通过小样本动作识别模型中的嵌入层网络，对所述第二训练样本集合进行处理，得到第一视频帧序列。

在本发明的一些实施例中，对所述第二训练样本集合进行处理，得到第一视频帧序列可以通过以下方式实现：

通过小样本动作识别模型中的嵌入层网络，分别在所述第二训练样本集合中提取不同的第一帧级别特征向量；确定所述不同的第一帧级别特征向量中的每一个第一帧级别特征向量所分别对应的通道数量；基于所述通道数量，确定对应的第一帧级别特征向量集合，以及与所述第一帧级别特征向量集合相匹配的相似度矩阵；根据所述第一帧级别特征向量集合和所述相似度矩阵，通过融合处理确定相应的第二帧级别特征向量集合；通过对所述第二帧级别特征向量集合的线性转换处理，确定所述帧级别的特征向量。其中，给定第二样本集合中的一组视频帧是，可以利用一个特征提取网络在这n帧(包括不同类型的小样本动作的视频帧集合)上提取一系列帧级别的特征F{F₁，F₂.....F_n},其中f_i∈F代表了在第i帧上提取的帧级别特征。由于在F中的每一个特征都有d个通道，可以将F中的每个特征都按通道分开，可以得到n*d个通道级别的特征

进一步地，在帧级别融合阶段，本发明计算了F^c的一个相似度矩阵s^F来表示F^c中每个特征之间的表观相似度。然后，对于F^c中的第i个特征F_i ^c，本发明根据s^F来将F^c中所有的特征都融合到F_i ^c中，来生成其对应的增强后的特征F_i ^e。这里，可以将生成的增强后的特征表示为

特别的，F^e中的第i个增强后的特征F^e _i是由公式1计算的：

其中θ(·)表示一个由全连接层实现的线性转换函数。

表示F_i ^c和F_j ^c之间的表观相似度，其计算方式如公式2：

其中a_i,j是F_i ^c和F_j ^c之间的点乘结果，如公式3所示：

φ(·)和

是两个和θ(·)拥有同样功能的线性转换函数。经过帧级别的特征融合之后，在第i个特征F_i ^e∈F^e中存在的信息被传播到F^e中的其他特征中，因此每个在F^e中的特征可以获得来自其他帧的帧级别的特征中存在的丰富的信息。

步骤304：小样本动作识别模型训练装置通过所述小样本动作识别模型中的嵌入层网络，对所述查询视频进行处理，得到第二视频帧序列。

在本发明的一些实施例中，可以通过小样本动作识别模型中的嵌入层网络，在所述查询视频中提取第三帧级别特征向量，并组成第三帧级别特征向量集合；确定所述第三帧级别特征向量所分别对应的通道数量；基于所述通道数量，确定对应的第三帧级别特征向量集合，并通过对所述第三帧级别特征向量集合的线性转换处理，确定所述查询视频对应的帧级别的特征向量。当然，对于短视频处理环境来说，也可以直接使用特征提取器ResNet，将视频帧序列提取为帧级别特征，例如短视频的视频帧图像特征可以使用基于深度残差resnet50的预训练卷积神经网络进行特征抽取，把短视频的视频帧图像信息提取为2048维特征向量。Resnet在图片特征提取中有利于短视频的视频帧图像信息的表示。短视频的视频帧图像信息在用户观看前有这很大的眼球吸引力，合理贴切的短视频的视频帧图像可以很好地提升视频的的播放点击率。

在本发明的一些实施例中，还可以使用netvlad(Vector of locally aggregateddescriptors，局部聚合向量)进行特征抽取，把视频帧图像生成128维的特征向量。在视频观看中，视频帧信息反映出视频的具体内容和视频质量，对用户观看时长是有直接关联，其中，在视频服务器配置小样本动作识别模型时，可以根据不同的使用需求灵活配置帧级别特征向量的获取方式。

步骤305：小样本动作识别模型训练装置通过所述小样本动作识别模型中的时序关系网络，对所述第一视频帧序列进行处理，得到第一时序关系描述子。

在对第一视频帧序列进行处理，得到第一时序关系描述子之前，为了增强样本的运动特征，还可以对所获取的帧级别特征向量进行时空运动增强处理，

需要说明的是，在进行时空运动增强处理时，小样本动作识别模型的嵌入层网络包括残差模块ResNet和时空运动增强(STME)模块，小样本动作识别模型的嵌入层网络的目的是将输入视频映射到一个新的特征空间，以便于时序关系网络继续进行处理。

其中，可以确定所述第一视频帧序列对应的视频帧数参数、视频通道参数、视频帧的高度参数和视频帧的宽度参数；根据所述第一视频帧序列对应的视频帧数参数、视频通道参数、视频帧的高度参数和视频帧的宽度参数，对所述第一视频帧序列中的每一帧视频进行时空运动增强处理，以实现增强所述第一视频帧序列中的每一帧视频的运动特征。具体来说，由于运动信息可以通过两个连续帧的内容位移来测量得到，时空运动增强处理时利用来自所有时空内容位移位置的信息，来增强样本特征各个区域位置的运动信息。例如，给定一个输入特征S∈R^T×C×H×W，其中T指视频帧数，C指通道数，H和W分别指视频帧的高度和宽度。首先，分别使用不同的可学习卷积将输入特征映射到不同的空间，同时减少特征通道数以进行高效计算，经映射后的特征内容位移可以表述为公式4：

d(t)＝conv₂(S_t+1)-conv₃(S_t)，1≤t≤T-1 公式4

其中，d(t)∈R^T×C/k×H×W，k是减少比，k在处理视频时，优选被设置为8。特别地，d(t)代表t时刻的内容位移信息，conv₂和conv₃分别为两个1*1*1时空卷积。设置t＝T最后时刻的内容位移信息为0，即d(T)＝0，然后将所有的位移信息沿时序维度拼接得到最终的运动矩阵D＝[d(1),.....d(T)]。

运动矩阵中各个位置的时序自注意力可由以公式5计算得到：

其中，a_p,ji代表D中每个位置p在第j帧和第i帧上的相关性，然后在conv₁(S)上应用注意力机制，它是S在conv₁(S)特征空间中的变换特征图，conv₁为一个1*1*1时空卷积。最后，将注意力层的输出乘以标量参数λ，然后加上原始输入特征图保留背景信息，因此，时空运动增强处理过程可以表示为公式6：

其中S_p,i和S_p,j分别代表S中位置p在第i帧和第j帧上的信息，V_p,j代表位置p增强后在第j帧的信息，时空运动增强模块的最终输出为V，V∈R^T×C×H×W.

同理，参考公式6的处理过程，还可以确定所述第二视频帧序列对应的视频帧数参数、视频通道参数、视频帧的高度参数和视频帧的宽度参数；根据所述第二视频帧序列对应的视频帧数参数、视频通道参数、视频帧的高度参数和视频帧的宽度参数，对所述第二视频帧序列中的每一帧视频进行时空运动增强处理，以实现增强所第二视频帧序列中的每一帧视频的运动特征。至此，经时空运动增强处理后，V中的每一帧特征都实现了运动增强，在实现运动增强处理后，需要继续执行步骤305以计算时序关系描述子。

并且可以进一步得通过时序关系描述子来确定相应的子序列，具体来说，可以首先先确定需要生成n帧间的时间关系描述子，之后从视频帧序列中获取多组n帧子序列；继续从多组子序列中随机抽出l组子序列，并将l组子序列映射为向量进行相加处理，最终得到n帧间时间关系描述子，参考公式7，对于视频序列V，它的长度为T，可以通过公式7定义其n帧间的时间关系描述子为：

其中(Vⁿ)_l＝{v_a,v_b......}_l，是从V中采样的第l组子序列，它是由n个按时间排序的帧特征组成，a和b是帧索引。可以用gφ(n)函数从子序列中学习到相应时序关系，其中gφ(n)函数由一个全连接层实现，它将多帧关系映射为一个向量。为增强学习到的时序关系，可以将l组时序关系累加，得到最终的Rn。特别地，时序关系至少需要从两帧中捕获，因此n最小可取2。

为了充分地提取视频样本中的动态性，可以在多个时间尺度上捕获时序关系。对于长度为T的视频序列，可以从中生成多组帧间时间关系描述子。其最终的样本级特征X由所有描述子构成，即X＝{R₂,R₃......R_n}_l，n小于等于T。通过这种方式，可以以多时间尺度方式捕获视频中的动作信息，并将这些捕获到的动态信息编码为特征，以一种更鲁棒的方式表示动作特征

步骤306：小样本动作识别模型训练装置通过所述小样本动作识别模型中的时序关系网络，对所述第二视频帧序列进行处理，得到第二时序关系描述子。

在本发明的一些实施例中，可以确定所述第二视频帧序列的帧索引参数以及所述第二视频帧序列的子序列数量；通过所述小样本动作识别模型中的时序关系网络，利用所述第二视频帧序列的帧索引参数，确定第二时序关系描述子。

步骤307：小样本动作识别模型训练装置根据所述第一时序关系描述子和所述第二时序关系描述子，对所述小样本动作识别模型的模型参数进行调整，以实现通过所述小样本动作识别模型对视频信息中的动作进行识别。

在本发明的一些实施例中，对所述小样本动作识别模型的模型参数进行调整，以实现通过所述小样本动作识别模型对视频信息中的动作进行识别，可以通过以下方式实现：

对所述第一时序关系描述子和所述第二时序关系描述子进行比较，确定所述第一时序关系描述子和所述第二时序关系描述子的相似度；根据所述第一时序关系描述子和所述第二时序关系描述子的相似度，确定所述第一时序关系描述子中的不同类型的时序关系描述子的权重参数；根据所述时序关系描述子的权重参数，确定不同类型的视频样本的样本原型；计算所述查询视频与每一个类型的视频样本的样本原型的度量分数；当所述视频样本的样本原型的度量分数达到最大值时，确定所述查询视频对应的小样本动作类型，并确定所述小样本动作识别模型的模型参数，以实现通过所述小样本动作识别模型对视频信息中的动作进行识别。具体来说，由于即使在同一类视频中，动作形变也客观存在，特别是在类型所提供的的样本很少的情况下，类内的巨大差异容易导致类间判别错误。为了减少这种情况的发生，可以认为同一类型中不同样本的描述子重要性是不一样的，因此，可以赋予同一类型中判别力更强的样本描述子更大的权重，以此得到最终的类型原型。

考虑到在元学习策略下，每个新类的学习是任务相关的，可以对每一个任务都生成相应的注意力原型。每个样本描述子的判别力由其与查询视频描述子的相似性来衡量，由cosine相似性函数g计算得到，根据每个样本描述子的判别力，可以得到校正后的加权原型。具体地，第二样本集合有{x_i1,x_i2,....x_ik}，i代表被选择的类型，k代表类型样本数，每个样本的每个描述子权重的计算参考公式8：

其中

代表类i的第j个样本的n帧间的时间关系描述子。然后，可以计算出该描述子的权重值

对于每类i，它的原型是由一系列加权描述子构成，每个加权描述子可以通过公式9表示为：

因此，加权描述子的集合构成了最终类型原型。将查询视频与第二样本集合里的每一个类型原型进行比较，该过程可以通过公式10表示：

最后，查询视频与类型原型的各组特征描述子相似性之和就是该类型原型的度量分数，获得最高度量分数的类型即为预测类型。当所述视频样本的样本原型的度量分数达到最大值时，确定所述查询视频对应的小样本动作类型，并确定所述小样本动作识别模型的模型参数，以完成对小样本动作识别模型的训练，实现通过所述小样本动作识别模型对视频信息中的动作进行识别。

继续结合图2示出的电子设备20说明本发明实施例提供的小样本动作识别模型训练方法，参见图5，图5为本发明实施例提供的小样本动作识别模型训练方法一个可选的流程示意图，可以理解地，图5所示的步骤可以由运行视频处理功能的各种服务器执行，例如可以是如带有视频处理功能的专用终端、服务器或者服务器集群，其中，经过训练的视频处理可以部署在服务器中，对上传的视频的相似性进行识别，以确定是否对视频的版权信息进行合规识别，当然，在部署小样本动作识别模型之前还需要对小样本动作识别模型进行训练，具体包括以下步骤：

步骤501：获取第一训练样本集合，其中所述第一训练样本集合为通过历史数据所获取的带有噪声的视频处理样本。

步骤502：对所述第一训练样本集合进行去噪处理，以形成相应的第二训练样本集合。

步骤503：通过小样本动作识别模型对所述第二训练样本集合进行处理，以确定所述小样本动作识别模型的初始参数。

步骤504：响应于所述小样本动作识别模型的初始参数，通过所述小样本动作识别模型对所述第二训练样本集合进行处理，确定所述小样本动作识别模型的更新参数。

其中，可以将所述第二训练样本集合中不同训练样本，代入由所述小样本动作识别模型所对应的损失函数；确定所述损失函数满足相应的收敛条件时对应所述小样本动作识别模型的更新参数。

步骤505：根据所述小样本动作识别模型的更新参数，通过所述第二训练样本集合对所述小样本动作识别模型的网络参数进行迭代更新。

其中，在小样本动作识别模型训练时，小样本动作识别模型通过交叉熵等损失函数向正确趋势逼近，损失函数直至达到相应的收敛条件。

在本发明的一些实施例中，小样本动作识别模型中的嵌入层网络还可以使用ResNet-101或者ResNeXt-101，其中，ResNeXt-101模型，利用Instagram上的用户标记图片作为预训练数据集，可以省去了人工标记数据的巨额成本，而且使用中只需微调，模型的性能即超越ImageNet任务的SOTA水平，有利于本申请的小样本动作识别模型的在用户的移动终端中的大规模使用。

步骤506：部署经过训练的小样本动作识别模型。

由此，可以通过所部署的经过训练的视频处理模型(可以部署在视频客户端运营商的服务器或者云服务器中)执行相应的小样本动作识别模型训练方法，实现对用户所上传的视频的识别。

其中，继续参考图6，图6为本发明实施例中视频相似判断一个可选的过程示意图，具体包括：

步骤601：确定与所述待识别视频相对应的版权视频。

步骤602：通过所述小样本动作识别模型对所述待识别视频帧进行动作识别，得到动作识别结果。

步骤603：确定与所述待识别视频相对应的版权视频，并基于所述动作识别结果，确定所述待识别视频和所述版权视频对应的帧间相似度参数集合。

步骤604：基于达到相似度阈值的图像帧数量，确定所述待识别视频与版权视频的相似度。

步骤605：基于待识别视频与版权视频的相似度以及所设定的相似度阈值，判断是否相似，如果是执行步骤606，否则，执行步骤607。

步骤606：通过相似判定确定视频相似。

其中，当确定所述待识别视频与版权视频的相似时，获取所述待识别视频的版权信息；通过所述待识别视频的版权信息和所述版权视频的版权信息，确定所述待识别视频的合法性；所述待识别视频的版权信息和所述版权视频的版权信息不一致时，发出警示信息。由此实现通过视频目标在所述待识别视频的不同视频帧中的所在区域，来判断版权视频是否被盗播。

步骤607：通过相似判定确定视频不同。

其中，当确定所述待识别视频与版权视频的不相似时，将所述待识别视频添加至视频源；对所述视频源中的所有待推荐视频的召回顺序进行排序；基于所述待推荐视频的召回顺序的排序结果向目标用户进行视频推荐。此实现通过视频目标在所述待识别视频的不同视频帧中的所在区域，确定相应的版权视频，并向用户推荐，丰富用户的视频观看选择。

在本发明的一些实施例中，还可以确定与所述待识别视频相对应的识别信息；基于所述视频目标在所述待识别视频的不同视频帧中的所在区域，确定所述待识别视频和所述识别信息的匹配程度；当所述待识别视频和所述识别信息的匹配程度低于报警阈值时，确定所述待识别视频合规，以实现对所述视频目标在所述待识别视频的不同视频帧中的所在区域的合规性进行自动识别，由此可以减少视频审核过程中的人工参与，提升视频合规识别的速率，减少识别的成本，同时减少用户的等待时间。

由于视频服务器的视频数量不断增加，因此，可以将视频的版权信息保存在区块链网络或者云服务器中，实现对视频相似性的判断。其中，本发明实施例可结合云技术或区块链网络技术实现，云技术(Cloud technology)是指在广域网或局域网内将硬件、软件及网络等系列资源统一起来，实现数据的计算、储存、处理和共享的一种托管技术，也可理解为基于云计算商业模式应用的网络技术、信息技术、整合技术、管理平台技术及应用技术等的总称。技术网络系统的后台服务需要大量的计算、存储资源，如视频网站、图片类网站和更多的门户网站，因此云技术需要以云计算作为支撑。

需要说明的是，云计算是一种计算模式，它将计算任务分布在大量计算机构成的资源池上，使各种应用系统能够根据需要获取计算力、存储空间和信息服务。提供资源的网络被称为“云”。“云”中的资源在使用者看来是可以无限扩展的，并且可以随时获取，按需使用，随时扩展，按使用付费。作为云计算的基础能力提供商，会建立云计算资源池平台，简称云平台，一般称为基础设施即服务(IaaS，Infrastructure as a Service)，在资源池中部署多种类型的虚拟资源，供外部客户选择使用。云计算资源池中主要包括：计算设备(可为虚拟化机器，包含操作系统)、存储设备和网络设备。

下面以对长视频的动作预告弹幕和进度条信息中的动作预告实施环境为例，对本申请提供的小样本动作识别模型训练方法进行说明，图7为本发明实施例提供的小样本动作识别模型训练方法的使用场景示意图，参见图7，终端(包括终端10-1和终端10-2)上设置有能够显示相应长视频的软件的客户端，例如长视频播放的客户端或插件，用户通过相应的客户端可以获得带有弹幕信息和进度条信息的长视频并进行展示；终端通过网络300连接短视频服务器200，网络300可以是广域网或者局域网，又或者是二者的组合，使用无线链路实现数据传输。当然，用户也可以通过终端上传视频以供网络中的其他用户观看，这一过程中运营商的视频服务器需要对所提供视频进行识别，以通过小样本动作识别模型识别视频中的动作形成动作预告弹幕或者进度条信息中的动作预告。

其中，参考图8，图8为本发明实施例中视频目标识别方法的使用过程示意图，具体包括以下步骤：

步骤801：确定待识别的3段长视频的视频帧，并抽取第一训练样本集合。

其中，第一训练样本集合至少包括：第一视频中的动作1“打羽毛球”、第二视频中的动作2“打乒乓球”以及第三视频中的动作3“打篮球”的视频帧。

步骤802：通过小样本动作识别模型中的嵌入层网络提取视频帧序列。

步骤803：利用小样本动作识别模型中的嵌入层网络，对视频帧序列时空运动增强处理，以实现增强所述第一视频帧序列中的每一帧视频的运动特征。

步骤804：通过小样本动作识别模型中的时序关系网络，对不同视频帧序列进行处理，得到相应的时序关系描述子。

步骤805：根据不同时序关系描述子，对小样本动作识别模型的模型参数进行调整。

步骤806：通过小样本动作识别模型对视频信息中的动作进行识别，得到不同视频中小样本动作的识别结果。

步骤807：通过小样本动作识别模型识别视频中的动作形成动作预告弹幕或者进度条信息中的动作预告。

如图9所示，通过小样本动作识别模型识别视频中的动作形成动作预告弹幕或者进度条信息中的动作预告可以在视频播放界面显示。

在本发明的一些实施例中，本申请所提供的小样本动作识别模型训练方法能够鲁棒并精确地将视频中的的小样本动作识别出来。可以实验在公开数据集MiniKinetics，UCF101和HMDB51上进行测试，实验结果参考表1和表2。与其他目前state-of-the-art的方法对比，本申请提供的小样本动作识别模型训练方法在这三个公开数据集上都获得了最高的识别精确度。

表1

表2

有益技术效果：本发明通过获取第一训练样本集合，其中所述第一训练样本集合包括通过历史数据所获取的不同类型的视频样本；在所述第一训练样本集合进行随机抽取处理，得到第二训练样本集合和查询视频，其中，所述第二训练样本集合中的视频数量与视频类型数量均为随机数，所述查询视频的数量为1；通过小样本动作识别模型中的嵌入层网络，对所述第二训练样本集合进行处理，得到第一视频帧序列；通过所述小样本动作识别模型中的嵌入层网络，对所述查询视频进行处理，得到第二视频帧序列；通过所述小样本动作识别模型中的时序关系网络，对所述第一视频帧序列进行处理，得到第一时序关系描述子；通过所述小样本动作识别模型中的时序关系网络，对所述第二视频帧序列进行处理，得到第二时序关系描述子；根据所述第一时序关系描述子和所述第二时序关系描述子，对所述小样本动作识别模型的模型参数进行调整，以实现通过所述小样本动作识别模型对视频信息中的动作进行识别。由此，通过小样本动作识别模型对视频信息中的动作进行识别，增强模型的泛化性，不借助额外辅助手段方式学习鲁棒的动作特征，提高小样本动作识别模型的训练精度，实现鲁棒并精确地对视频中的小样本动作进行识别，减少视频小样本动作识别中的失真。

以上所述，仅为本发明的实施例而已，并非用于限定本发明的保护范围，凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等，均应包含在本发明的保护范围之内。

Claims

1.一种小样本动作识别模型训练方法，其特征在于，所述方法包括：

2.根据权利要求1所述的方法，其特征在于，所述获取第一训练样本集合，包括：

确定小样本动作识别模型的使用环境标识；

根据所述小样本动作识别模型的使用环境标识，确定与所述的使用环境相匹配的历史数据；

在与所述的使用环境相匹配的历史数据中筛选不同类型的视频样本作为第一训练样本集合。

3.根据权利要求1所述的方法，其特征在于，所述在所述第一训练样本集合进行随机抽取处理，得到第二训练样本集合和查询视频，包括：

在所述第一训练样本集合中随机抽取N个类型的视频信息；

在每一个类型的视频信息中随机抽取K个视频信息；

将所述N个类型中的所有视频信息进行组合，得到第二训练样本集合；

从所述N个类型中未被抽取的视频信息中随机抽取一个视频信息作为查询视频。

4.根据权利要求1所述的方法，其特征在于，所述通过小样本动作识别模型中的嵌入层网络，对所述第二训练样本集合进行处理，得到第一视频帧序列，包括：

通过小样本动作识别模型中的嵌入层网络，分别在所述第二训练样本集合中提取不同的第一帧级别特征向量；

确定所述不同的第一帧级别特征向量中的每一个第一帧级别特征向量所分别对应的通道数量；

基于所述通道数量，确定对应的第一帧级别特征向量集合，以及与所述第一帧级别特征向量集合相匹配的相似度矩阵；

根据所述第一帧级别特征向量集合和所述相似度矩阵，通过融合处理确定相应的第二帧级别特征向量集合；

通过对所述第二帧级别特征向量集合的线性转换处理，确定所述帧级别的特征向量。

5.根据权利要求1所述的方法，其特征在于，所述通过所述小样本动作识别模型中的嵌入层网络，对所述查询视频进行处理，得到第二视频帧序列，包括：

通过小样本动作识别模型中的嵌入层网络，在所述查询视频中提取第三帧级别特征向量，并组成第三帧级别特征向量集合；

确定所述第三帧级别特征向量所分别对应的通道数量；

基于所述通道数量，确定对应的第三帧级别特征向量集合，并通过对所述第三帧级别特征向量集合的线性转换处理，确定所述查询视频对应的帧级别的特征向量。

6.根据权利要求4所述的方法，其特征在于，所述方法还包括：

通过所述小样本动作识别模型中嵌入层网络的卷积层和最大值池化层分别对所述第二训练样本集合中的不同视频帧，得到得到所述第二训练样本集合中的不同视频帧的降采样结果；

通过所述嵌入层网络的全连接层，对得到所述第二训练样本集合中的不同视频帧的降采样结果进行归一化处理；

通过视嵌入层网络对所述不同图像帧的降采样的归一化结果，进行深度分解处理，确定不同的第一帧级别特征向量。

7.根据权利要求1所述的方法，其特征在于，所述方法还包括：

确定所述第一视频帧序列对应的视频帧数参数、视频通道参数、视频帧的高度参数和视频帧的宽度参数；

根据所述第一视频帧序列对应的视频帧数参数、视频通道参数、视频帧的高度参数和视频帧的宽度参数，对所述第一视频帧序列中的每一帧视频进行时空运动增强处理，以实现增强所述第一视频帧序列中的每一帧视频的运动特征。

8.根据权利要求1所述的方法，其特征在于，所述方法还包括：

确定所述第二视频帧序列对应的视频帧数参数、视频通道参数、视频帧的高度参数和视频帧的宽度参数；

根据所述第二视频帧序列对应的视频帧数参数、视频通道参数、视频帧的高度参数和视频帧的宽度参数，对所述第二视频帧序列中的每一帧视频进行时空运动增强处理，以实现增强所第二视频帧序列中的每一帧视频的运动特征。

9.根据权利要求1所述的方法，其特征在于，所述通过所述小样本动作识别模型中的时序关系网络，对所述第一视频帧序列进行处理，得到第一时序关系描述子，包括：

确定所述第一视频帧序列的帧索引参数以及所述第一视频帧序列的子序列数量；

通过所述小样本动作识别模型中的时序关系网络，利用所述帧索引参数，确定不同子序列所分别对应的时序关系描述子；

对所述不同子序列所分别对应的时序关系描述子进行组合，得到第一时序关系描述子。

10.根据权利要求1所述的方法，其特征在于，所述通过所述小样本动作识别模型中的时序关系网络，对所述第二视频帧序列进行处理，得到第二时序关系描述子，包括：

确定所述第二视频帧序列的帧索引参数以及所述第二视频帧序列的子序列数量；

通过所述小样本动作识别模型中的时序关系网络，利用所述第二视频帧序列的帧索引参数，确定第二时序关系描述子。

11.根据权利要求1所述的方法，其特征在于，所述根据所述第一时序关系描述子和所述第二时序关系描述子，对所述小样本动作识别模型的模型参数进行调整，以实现通过所述小样本动作识别模型对视频信息中的动作进行识别，包括：

对所述第一时序关系描述子和所述第二时序关系描述子进行比较，确定所述第一时序关系描述子和所述第二时序关系描述子的相似度；

根据所述第一时序关系描述子和所述第二时序关系描述子的相似度，确定所述第一时序关系描述子中的不同类型的时序关系描述子的权重参数；

根据所述时序关系描述子的权重参数，确定不同类型的视频样本的样本原型；

计算所述查询视频与每一个类型的视频样本的样本原型的度量分数；

当所述视频样本的样本原型的度量分数达到最大值时，确定所述查询视频对应的小样本动作类型，并确定所述小样本动作识别模型的模型参数，以实现通过所述小样本动作识别模型对视频信息中的动作进行识别。

12.根据权利要求1所述的方法，其特征在于，所述方法还包括：

确定待识别视频中的待识别视频帧；

通过所述小样本动作识别模型对所述待识别视频帧进行动作识别，得到动作识别结果；

确定与所述待识别视频相对应的版权视频；

基于所述动作识别结果，确定所述待识别视频和所述版权视频对应的帧间相似度参数集合；

获取所述帧间相似度参数集合中达到相似度阈值的图像帧数量；

基于达到相似度阈值的图像帧数量，确定所述待识别视频与版权视频的相似度，其中，所述小样本动作识别模型通过权利要求1-11任意一项训练得到。

13.根据权利要求12所述的方法，其特征在于，所述方法还包括：

当确定所述待识别视频与版权视频的相似时，获取所述待识别视频的版权信息；

通过所述待识别视频的版权信息和所述版权视频的版权信息，确定所述待识别视频的合法性；

当所述待识别视频的版权信息和所述版权视频的版权信息不一致时，发出警示信息。

14.根据权利要求13所述的方法，其特征在于，所述方法还包括：

当确定所述待识别视频与版权视频的不相似时，将所述待识别视频添加至视频源；

对所述视频源中的所有待推荐视频的召回顺序进行排序；

基于所述待推荐视频的召回顺序的排序结果向目标用户进行视频推荐，其中，所述待推荐视频携带有小样本动作识别结果。

15.一种小样本动作识别模型训练装置，其特征在于，所述装置包括：

16.一种电子设备，其特征在于，所述电子设备包括：

存储器，用于存储可执行指令；

处理器，用于运行所述存储器存储的可执行指令时，实现权利要求1至14任一项所述的小样本动作识别模型训练方法。

17.一种计算机可读存储介质，存储有可执行指令，其特征在于，所述可执行指令被处理器执行时实现权利要求1至14任一项所述的小样本动作识别模型训练方法。