CN113536922A

CN113536922A - 一种加权融合多种图像任务的视频行为识别方法

Info

Publication number: CN113536922A
Application number: CN202110656251.5A
Authority: CN
Inventors: 高广宇; 刘驰; 李金洋
Original assignee: Beijing Institute of Technology BIT
Current assignee: Beijing Institute of Technology BIT
Priority date: 2021-06-11
Filing date: 2021-06-11
Publication date: 2021-10-22

Abstract

本发明涉及一种加权融合多种图像任务的视频行为识别方法，包括以下具体步骤：步骤1.构建初始化的教师网络；步骤2.下载选定若干和视频行为识别正相关的视觉图像任务常用数据集的预训练模型和参数，作为初始化的教师网络；步骤3.建立多教师视频行为识别知识库；步骤4.在重新分配权重的多教师网络的指导下，对学生网络进行基于对比学习的自监督训练；步骤5.在测试数据集上对模型视频行为识别进行性能测试。本发明所述方法的优越效果在于：使用与作为目标任务的视频行为识别任务正相关的图像任务作为教师任务，采用对比自监督学习的训练方式，解决了在高质量视频标记样本不足的情况下的视频行为识别问题。有效地提升了视频行为识别的准确率。

Description

一种加权融合多种图像任务的视频行为识别方法

技术领域

本发明涉及属于视频行为分析技术领域，具体涉及一种加权融合多种图像任务的视频行为识别方法的设计。

背景技术

行为识别是近年来一个颇具吸引力和挑战性的研究方向，即给定一段裁剪好的视频，通过计算机视觉技术判断这段视频中人类的行为类别。近年来深度卷积神经网络的发展以及大规模标记数据集的出现，显著提高了行为识别的准确性。行为识别技术在智能安防、人机交互、视频理解、医疗健康等众多领域扮演着越来越重要的角色。

目前已有的基于监督学习的深度卷积神经网络(Deep CNN)模型算法取得了相对理想的效果。然而这种基于监督学习的方法为了获得良好的模型，训练时需要大量的视频标记，网络结构也更加复杂。但在实际生产生活中，计算机视觉领域视频的手工标记消耗大量人力物力资源，因此往往缺乏标注良好的大的数据集，造成深度网络的模型深度和复杂性不相匹配，这些已有模型的缺陷会体现得更加明显，即过拟合现象严重，泛化性迁移能力更加不足。已有模型往往只能在给定训练数据集产生比较良好的效果，在切换新的数据场景时，需要将模型进行扩展，实时更新数据或添加新的行为类别，以训练好的模型往往需要从头重新训练部署，耗费大量时间和人力，难以大规模投入使用。

与之相对的图像识别任务不管是实验用数据集还是实际场景的应用经过多年研究和实用，数据标注和模型等相对完备，且最先进的模型上在诸多图像任务中都取得了较好结果。考虑到这些良好的图像模型中存在大量与人类认知相关的视觉知识，如果能够建立这些相对成熟、标注数据更易于获取且模型训练更高效的图像任务模型和视频行为识别任务之间的某种连接，实现这些先验知识的传递，必然能够更有效地实现视频行为识别。但是，较为先进的图像任务方法通常采用2D深度卷积网络模型，而视频行为识别任务考虑时序信息往往采用3D网络模型架构。两类任务和各自模型之间的特征空间不同，难以直接利用图像数据的先验信息帮助视频网络模型初始化或者训练。

此外，计算机视觉相关图像任务有很多种，如人脸识别，目标检测，姿态预测，场景识别等，并不是所有的图像任务都能对视频行为识别这一目标任务起到正向的作用。相反地，如果引入了跟视频行为识别特征分布完全相反或互斥的图像任务，反而可能会让视频行为识别模型的准确率更低。因此，在考虑利用视频行为识别相关的图像任务的先验知识初始化或训练目标任务的视频行为识别的同时，如何科学地选择正相关的图像任务，且实现更有效地加权融合利用图像任务先验知识是本发明专利申请亟待关注的问题。

在现有公开的专利文献中，专利申请号CN202010708067.6公开了一种基于无监督视频表示学习的视频行为识别方法，包括下述步骤：(1)获取训练样本集和测试样本集；(2)构建生成对抗网络模型；(3)对生成对抗网络模型进行迭代训练；(4)构建视频行为识别模型；(5)对视频行为识别模型进行迭代训练；(6)获取视频行为识别结果。在构建视频行为识别模型结构时，首先构建生成对抗网络模型的结构，再将训练后的生成对抗网络的编码器及其网络参数作为视频行为识别模型结构的组成部分，解决了现有技术只利用了图像空域信息的问题和没有捕捉视频帧中的长程信息的问题，提高了基于无监督视频表示学习方法的视频行为识别准确率。

又例如，发明专利申请号CN201910357466.X公开了一种基于局部特征聚合描述符和时序关系网络的视频行为识别方法，所述方法包括如下步骤：(1)视频采样获得多尺度有序视频帧序列；(2)使用卷积神经网络提取图片特征；(3)将得到的特征映射输入到VLAD层，将特征融合；(4)使用分类层得到当前输入视频中的动作行为属于数据集中各个类别的概率值；(5)融合多个尺度的时序关系；(6)在UCF101和something-something数据集上进行网络的训练与测试。

再例如，发明专利申请号CN202011603129.3公开了一种基于空间增强模块的视频行为识别方法及系统，该方法包括下述步骤：将待测视频解码为帧序列，将解码所得帧序列以图像的形式存储；采取稀疏采样的采样策略，将视频分成多个视频片段，从每个视频片段中抽取一帧，组合而成堆叠的帧序列；计算行为识别数据集中所有的训练视频帧的三个通道的均值，将所采样的帧图像减去所计算出来的均值；用残差神经网络3DResnet18为骨干网络，空间增强模块构建行为识别分类网络；设置训练参数，将训练集输入行为识别分类网络进行训练，保存训练后网络参数；在模型部署阶段，融合空间增强模块的线性运算符；待测视频输入到行为识别分类网络，输出最终的分类结果。

以上发明专利申请均未充分考虑到计算机视觉领域不同视觉任务之间存在关联性，以及相关任务的先验知识能够进行迁移利用的特点，据此有针对性地提出一种加权融合多种图像任务的视频行为识别方法。

发明内容

本发明充分考虑到计算机视觉领域不同视觉任务之间存在关联性，相关任务的先验知识能够进行迁移利用的特点，提出了一种加权融合多种图像任务的视频行为识别方法，所述视频行为识别方法解决了现有视频行为识别任务中对大规模高质量视频训练样本标记带来的耗时费力问题。

本发明所述视频行为识别方法，包括以下具体步骤：

步骤1.构建初始化的教师网络：

构建常用视觉任务相似度树，初步筛选视频行为识别相关的图像任务作为教师网络，根据常用视觉任务相似度树，选定若干和视频行为识别正相关的视觉图像任务(视频行为识别正相关的视觉图像任务包括场景识别、图像分类和基于图像的行为识别)；

步骤2.下载选定若干和视频行为识别正相关的视觉图像任务常用数据集的预训练模型和参数，作为初始化的教师网络；

步骤3.建立多教师视频行为识别知识库:

考虑相关任务与目标任务之间的相关程度，设计量化计算各相关任务作为教师任务过程中的权重，对初始化之后的教师任务进行加权融合过程中的权重计算，将各教师任务的先验知识加权融合，建立多教师的场景、物品、图像行为识别的视频行为识别知识库；

步骤4.在重新分配权重的多教师网络的指导下，对学生网络进行基于对比学习的自监督训练：

选用无标记视频数据，在多教师网络指导下对学生网络(即目标任务或视频行为识别)进行基于对比学习的自监督训练，使得网络模型获得提取面向相关任务的视频特征提取能力；

步骤5.对作为学生网络的视频行为识别模型进行模型微调，在测试数据集上对模型视频行为识别进行性能测试，以获得最终能够用于实际视频行为识别场景的网络模型。

进一步地，步骤1中，所述构建常用视觉任务相似度树包括以下步骤：

步骤1.1.初步筛选视频行为识别相关的图像任务作为教师网络；

步骤1.2.基于视觉任务相似度树，选定若干和视频行为识别最相关的若干图像任务，图像任务包括图像分类任务、场景识别任务和基于图像的行为识别任务，并引入图像识别领域的数据集ImageNet和场景识别领域的数据集Places365，以及图像行为识别数据集BU101和Stanford40；

步骤1.3.获取所述的相关图像任务的经典网络模型结构和蕴含先验知识的已训练模型，作为初始化的教师网络分支。

进一步地，在步骤3中，对初始化之后的教师任务进行加权融合过程中的权重计算所选取教师任务建立先验知识库的具体方法包括：

对初始化之后的教师任务进行加权融合过程中的权重计算，按照以下三种方法进行计算：

第一种为离线方法，离线方法为基于各相关任务单独测试准确率的方式，也就是说和行为识别任务越相关的图像任务，其贡献越大，加权融合的权重更大，即每次单独选择某一个图像任务作为教师任务，分别在所述的网络框架上训练，随后对训练获得的视频行为识别模型在指定数据集上进行测试，最后，分别得到使用每个相关图像任务作为教师任务的视频行为识别的TOP1准确率，将这些准确率经过softmax归一化后的输出作为各个对应教师任务的加权融合权；

第二种方法为在线对每个训练样本输出不同损失权重的方法，本发明所述的目标网络是在同一视频中，教师网络输出的特征和学生网络输出的特征一致视为相似度高，本发明使用正样本对点积相似度通过softmax归一化后，作为对应的对比损失权重，即正样本对的相似度越高，权重越大；

第三种方法为和第二种方法类似，也是在线方法，对于不同的训练样本也给出了不同的损失权重，第三种方法通过正样本对在所有样本对中的相似度排序的序列位置经过softmax归一化来确定损失权重。

进一步地，步骤4中，所述基于对比的加权融合训练的具体方法为：

步骤4.1.构造正负样本对，本发明定义从同一个视频中选取的两个或多个特征，构成正样本对，从不同视频选取的两个或多个特征形成多个负样本对，在本发明中的网络分为两个分支，教师网络分支和学生网络分支，输入教师网络的视频记为v_教师，输入学生的网络的视频记为v_学生；

步骤4.2.提取特征：

将v_教师和v_学生分别通过步骤(3)中的教师模型和学生模型，得到提取后的特征，其中α代表v_学生经过学生网络后产生的输出，g代表v_教师经过教师网络的输出；

步骤4.3.构造对比损失训练：

对于正样本对，行为类别相同，无论经过教师网络还是学生网络，两者的最终输出分布仍然是相似的；负样本对的行为类别不同，分别经过教师网络后，两者的输出分布是不相似的，教师网络还是学生网络通过训练来使得正样本对的特征距离变小，从而更加相似；负样本对的特征距离变大，变得不同，进而使得分类器区分不同类别之间的特征，对于一个有(K+1)个视频的批次，选择来自同一个视频的一组样本作为正样本对，当前视频和其他视频构成的负样本对有K组，本发明使用基于InfoNCE的对比损失，网络的优化目的是最小化，相似度采用两个向量的点乘构造，如下式(1)所示：

其中，α代表v_学生经过学生网络后产生的输出，g代表v_教师经过教师网络的输出，τ是温度超参数，来缩放向量的相似程度，这个过程不需要标签数据；

步骤4.4.完全自监督训练或自监督结合监督训练：

本发明提供两种运行方式，完全无标签基于自监督的方式和存在标签的有标签的监督方式，对于存在自监督标签的任务，在运行过程中，学生网络的输出除了和教师网络产生自监督损失，还和标签产生有监督的交叉熵损失,两者的损失交叉熵损失和对比损失按照相应的比例叠加在一起，构成最终的损失函数,合并后的整体损失计算如下式(2)：

L_联合＝L_{交叉熵损失}+0.1L_对比损失……(2),

本发明的学生网络的参数θ_α采用反向传播的方式更新，而教师网络的参数θ_g采用固定住的方式，避免对过去的知识产生遗忘。

进一步地，在步骤5中，所述模型视频行为识别测试的具体方法为：

步骤5.1.根据学习到的行为识别视频表征，用softmax分类层，在目标任务数据集上利用少量有标签数据进行微调；

步骤5.2.测试阶段，只保留学生网络和softmax分类层及其对应参数在目标任务数据集上进行测试。

本发明所述视频行为识别方法具有以下的有益效果：

1.本发明所述视频行为识别方法使用与作为目标任务的视频行为识别任务正相关的图像任务作为教师任务，采用对比自监督学习的训练方式，解决了在高质量视频标记样本不足的情况下的视频行为识别问题。由于本发明的视频数据集没有标签，因此需要充分发掘视频帧中自带的特征信息，产生一些伪标签或者自我约束，即为自监督学习。构造伪标签的方式有多种，本发明选取的对比学习是一种表现良好的自监督构造途径，体现了视频的一致性原则。面对成对出现的数据，让分类器模型学习拥有分辨两者的不同的能力比分别描摹两个图像要更容易。本文对比损失函数直接有效达到减小正样本之间的距离，扩大负样本之间的距离的作用。

2.本发明所述视频行为识别方法使用多教师-学生网络结构，选定与视频行为识别相关的常用图像任务包括图像分类、场景分类和基于图像的行为识别作为教师任务，并通过三种方式计算教师和学生任务的相关性程度作为融合权重，从宏观上理解，对于一个动作视频，如洗，可能是洗手，也可能是洗车，此时洗这个动作对象的标签显得格外重要，或者对于“喝水”类别，此时手中往往会有一个水杯，如果没有水杯就难以识别“喝”，这种动作类型是细粒度的，和周围环境物体进行了交互。人类识别动作时不仅仅会参考周围的物品，动作的交互对象往往成为动作种类的关键信息，。因此人们可以充分借鉴相关图像数据集的任务，如图片分类，协助目标网络学习。除此之外，在运动场上，进行的动作更有可能是某种运动，在树林中，行为的类型更可能是骑马而不是游泳。自然条件下获得的视频的背景信息同样蕴含着丰富的先验信息。但本申请将这种宏观上的能够进一步加快自监督网络模型的训练收敛速度，减少对未标记数据的依赖，同时解决异构数据、异构网络的迁移问题，对于没有标注数据的新任务，避免了“冷启动问题”。

3.本发明所述视频行为识别方法在评估中，除了单独使用自监督方法外，我们建议通过将本自监督网络与受监督的行动网络相结合，这将近一步增强本网络的泛化能力，有效地提升了视频行为识别的准确率。虽然我们可以认为one-hot标签为交叉熵损失提供了分类的准确信息，但是教师网络产生的非01的软标签分布依然可以提供一些类别之间的先验信息。现实生活中类别之间的关系并非离散的非零即一关系。如猫和狗虽然不是同一个类别，但是两者很相似，但是猫和马的相似度却低一些，这种类别之间的信息无法从零一标签中充分获取。而教师网络的输出会保留一部分类别之间的关系，降低了神经网络的搜索空间。因此总损失中保存一部分教师任务中的先验知识构成的对比损失，可以起到泛化模型的作用。

附图说明

图1为本发明所述加权融合多种图像任务的视频行为识别方法基本流程示意图。

图2为本发明实施例提供的方法二在线训练损失示意图。

具体实施方式

现结合说明书附图1详细介绍本发明所述视频行为识别方法的具体实施方式，本发明所述视频行为识别方法主要步骤分别为：采集及预处理视频、选取教师任务建立先验知识库、教师任务权重重置、基于对比的加权融合训练、模型视频行为识别测试。

实施例

步骤1，采集人体活动视频数据集，根据视频中人体行为类别进行分割，并赋予类别标签，对视频数据进行抽帧归一化处理，划分为训练集和测试集，具体方法为：

步骤1.1.视频数据的采集包括通过自建视频数据集或者使用已有的公共数据集：首先从官网上下载相关数据集文件，具体数据集为：HMDB51是带有51个动作标签的视频行为识别数据集，共有6849个视频，每个动作至少包含51个视频，动作主要包括：面部动作如微笑、咀嚼、交谈，面部和物品交互如吸烟、吃、喝；身体动作如拍手、爬、跳、跑，与物品交互的动作如梳头、运球、打高尔夫，人与人之间的交互动作如拥抱、亲吻；每类动作由25个人做动作，每人做4-7组，共13320个视频，主要包括五大类，分别是人与物体之间的交互、单人动作、人与人交互、表演乐器、球类运动；Kinetics400数据集包括了400种的人体动作类别，每一种类别都至少有400个视频片段，每个视频片段都取自不同的Youtube视频，持续十秒，数据集的动作类别包括人和物体的交互，比如弹奏乐器，人与人的交互，比如握，类似地能够使用其他视频数据集，安装ffmpeg工具，所有采集到的视频进行关键帧的提取，对于同一个视频提取出的H×W静态图片赋予相同的类别标签，放在视频对应目录下，其中H代表视频帧的高度，W代表视频帧的宽，所有数据都经过了数据增强处理，包括随机裁剪，水平翻转，随机移动，缩放，颜色抖动，进而有效地扩充数据，提高模型的泛化能力；

步骤1.2按照标记文件将数据集分为视频训练集和视频测试集，其中训练数据在完全自监督训练中不提供标签，在自监督结合监督训练模式下提供标签；

步骤2.结合任务相似度树初步筛选教师网络任务,得到最相关任务，下载最相关任务常用数据集的预训练参数，初始化教师网络：

2.1.考察体现计算机视觉相关的任务空间结构的相似度树，两个任务越接近，它们在转移到其他任务中的作用就越相似，而图像识别，场景识别在同一个分支上，被认为是这个两个任务最为接近，本发明的教师网络除了选取基于静止图像的动作识别相关数据集(BU101,Stanford40)，根据任务的相似性，还引入了图像识别领域的数据集ImageNet和场景识别领域的数据集Places365，这两个数据集数据标注良好，获取容易，已经有训练好的参数网络架构，从中能够获得对目标任务有利的先验知识来优化学生网；

步骤2.2.下载相关任务数据集的参数文件，对教师网络模型进行初始化，分别选取四个网络在Resnet18上的参数文件，初始化教师网络模型；

步骤3.利用知识迁移的蒸馏方法，将教师网络中基于图像网络的知识加权融合，建立多教师的场景、物品识别与行为识别的视频行为识别知识库：

步骤3.1.第一种离线方法，将教师网络模型在目标视频数据集上进行行为识别测试，利用知识迁移的蒸馏方法，将教师网络中基于图像网络的知识加权融合，建立多教师的场景、物品识别与行为识别的视频行为识别先验知识库，和行为识别越相关的任务，贡献越大，对每个教师网络按测试得到的Top1准确率归一化作为其初始化权重，利用先验知识，使行为识别目标任务正确率相对于对每个教师任务平均初始化权重有了2.83％的提升，同时，多个任务的联合训练有助于模型的泛化，防止过拟合的出现，假设有N个教师指导任务，每个编码器的对比损失为它们的加权平均值，即：

具体来说，经过softmax层后，Imagenet分支赋予0.067,，Places分支赋予3.0*10^-6，BU101分支赋予0.51，Stanford分支赋予0.43的权重；

步骤3.2.第二种在线方法为每个训练样本输出不同的损失权重，本发明的网络目标是同一视频中，教师特征和学生特征之间的特征一致性，本发明使用正样本对点积相似度作为对应的对比损失的权重，即正样本对的相似度越高，权重越大；

步骤3.3.第三种在线方法和第二种方法一样，对于不同的训练样本也给出了不同的损失权重。第三种方法通过正样本对在所有样本对中的相似度排序来确定损失权重；

以上三种方法的比较结果如下表1，能够看到不同教师任务对目标任务的准确率并不相同；

表1任务相关性的重新测定

由表1看出，并不是数据集越大，提供的先验知识越强，三种方法中，最好的方案是利用先验知识进行初始化，这表明本发明提出的任务权重是必不可少的，top1准确率提高了2.83％；对于在线的第二种方法和在线的第三种方法，表明利用特征相似度的值比利用特征相似性排序更适合，可视化的第二种方法的在线训练过程,如图2所示，其中,横坐标代表模型训练时的迭代次数，以千为单位；纵坐标代表在不同数据集上的教师任务赋予的损失权重。能够看出结果与离线的第一种方法相似(BU>Stanford>ImageNet>Place)，尽管第二种方法的准确率没有第一种方法高，但是第一种方法的训练代价是很大的，第一种方法和第二种方法在具体选择时，需要在准确率和效率之间取一个平衡点；

步骤4.在重新分配权重的多教师网络的指导下对学生网络进行基于对比的自监督训练，获得提取视频的表征信息的能力：

步骤4.1.构造正负样本对：

本发明定义从同一个视频中选取的两个或多个特征，构成正样本对，从不同视频选取的两个或多个特征形成多个负样本对，本发明中的网络分为教师网络分支和学生网络分支，输入教师网络的视频记为v_教师,输入学生的网络的视频记为v_学生，当教师网络使用resnet18网络训练，教师网络的输入需要和resnet18的参数设置对应，图像大小设置为224*224；学生网络采用TSN-Resnet18的骨干网络，从视频中平均分成3段，每段中随机抽取图像，并将大小设置为224*224，训练时同时代入训练模型的实例个数根据GPU的能力设置为2的指数幂，如16，32，64等；

步骤4.2.提取特征：

将v_教师和v_学生分别通过步骤3中的教师模型和学生模型，得到提取后的特征，其中，α代表v_学生经过学生网络后产生的输出，g代表v_教师经过教师网络的输出；

步骤4.3.构造对比损失训练:

对于正样本对，行为类别相同,无论经过教师网络还是学生网络，两者的最终输出分布仍然应该是相似的；负样本对的行为类别不同，分别经过教师网络后，两者的输出分布为不相似，教师网络还是学生网络通过训练来使得正样本对的特征距离变小，从而更加相似；负样本对的特征距离变大，变得更加不同，进而使得分类器能够区分不同类别之间的特征；

对于一个有(K+1)个视频的批次，选择来自同一个视频的一组样本作为正样本对，当前视频和其它视频构成的负样本对有K组，本发明使用基于InfoNCE的对比损失，相似度用两个向量的点乘构造，如下式(1)所示：

其中，α代表v_学生经过学生网络后产生的输出，g代表v_教师经过教师网络的输出，τ是温度超参数，来缩放向量的相似程度，这个过程不需要标签数据，在kinetics上进行训练；

4.3.完全自监督训练或自监督结合监督训练：

本发明设计了两种训练方式，完全无标签的自监督方式和有标签的监督方式，对于存在自监督标签的任务，学生网络的输出除了和教师网络产生自监督损失，还和标签产生有监督的交叉熵损失，两者的损失交叉熵损失和对比损失能够按照一定的比例叠加在一起，构成最终的损失函数，其合并后的整体损失计算如下式(2)所示：

L_联合＝L_{交叉熵损失}+0.1L_对比损失......(2),

本发明的学生网络的参数θ_α采用反向传播的方式更新，而教师网络的参数θ_g采用固定住的方式，避免对过去的知识产生遗忘,具体来说，初始学习率设置为0.1，并采用SGD随机梯度优化，并采用0.9的动量更新，以及0.0005的衰减策略,本发明的训练阶段共进行200轮，在100轮和150轮时学习率下降为原来的0.1，训练结束后将学生网络模型的参数配置文件保存；

步骤5.微调模型并在测试集上进行性能测试：

步骤5.1.根据学习到的行为识别视频表征，在目标任务数据集如UCF101和HMDB51上利用少量有标签数据进行微调；

步骤5.2.测试阶段，只保留学生网络及其对应参数在目标任务数据集上进行测试，本发明提到的方法对比其他自监督方法准确率有一定的提高，当代理任务为Kinetics400，测试数据集为UCF101时，平均准确率达到了69.1％，并且能够结合自监督损失得到更好的分类效果，在UCF101数据集和HMDB51上分别达到了96.1％和73.3％的准确率。

本发明模型和其它自监督模型对比结果如表2所示：

表2

由上表2看出，在自监督模式的模型中，本专利提出的网络模型被用作一个预训练网络，用于监督在流行数据集如UCF和HMDB上的视频行为识别下游任务。如在自监督训练的代理数据集都使用UCF/HMDB,测试数据集使用UCF101的情况下，本发明的自监督方法在选择BU101和Stanford40数据集作为教师，加权融合下比原来的模型如DPC提升了25个百分点。此外，本发明选择用和目标任务更相关的BU101和Stanford数据集协助，进行加权融合训练时，比仅仅用Kinetics的效果提升14.3个百分点。Kinetics的数据集的数据量远远大于BU101+Stanford40的数据量，然而选择更符合目标任务要求的数据集会得到更好的结果。这充分说明选择教师网络数据和目标任务相似的重要性。本发明在自监督任务中的性能超过了原来的很多方法，取得了良好的预训练初始化的效果。

本发明模型和和其他监督模型对比结果如表3所示：

表3

由上表3看出：和经典的基于深度学习方法Two Stream或C3D，以及最新方法如DynamoNet相比，本发明用更少的帧输入达到了更佳的结果。当使用resnet101作为骨干网络时，本发明分别在UCF101和HMDB51上达到了96.1％和73.3％的准确率。因此本发明除了在自监督模式下效果突出，在监督模式下依然可以发挥重要的作用，提高了网络的识别能力。

本发明不受上述实施例的限制，上述实施例和说明书中描述的只是说明本发明的原理，在不脱离本发明构思和范围的前提下，本发明还会有各种变化和改进，这些变化和改进都落入要求保护的本发明范围内。本发明要求保护范围由所附的权利要求书界定。

Claims

1.一种加权融合多种图像任务的视频行为识别方法，包括以下具体步骤：

步骤1.构建初始化的教师网络：

构建常用视觉任务相似度树，初步筛选视频行为识别相关的图像任务作为教师网络，根据常用视觉任务相似度树，选定视频行为识别正相关的视觉图像任务，视频行为识别正相关的视觉图像任务包括场景识别、图像分类和基于图像的行为识别；

步骤3.建立多教师视频行为识别知识库:

2.按照权利要求1所述加权融合多种图像任务的视频行为识别方法，其特征在于，步骤1所述构建常用视觉任务相似度树包括以下步骤：

步骤1.2.基于视觉任务相似度树，选定若干和视频行为识别最相关的若干图像任务，图像任务包括图像分类任务、场景识别任务和基于图像的行为识别任务，并引入图像识别领域的数据集ImageNet和场景识别领域的数据集Places365，以及图像行为识别数据集BU101和Stanford40；步骤1.3.获取所述的相关图像任务的经典网络模型结构和蕴含先验知识的已训练模型，作为初始化的教师网络分支。

3.按照权利要求1所述加权融合多种图像任务的视频行为识别方法，其特征在于，步骤3中，所述对初始化之后的教师任务进行加权融合过程中的权重计算，将各教师任务建立先验知识库的具体方法包括：

第一种为离线方法为基于各相关任务单独测试准确率的方式，也就是说和行为识别任务越相关的图像任务，其贡献越大，加权融合的权重更大，即每次单独选择某一个图像任务作为教师任务，分别在所述的网络框架上训练，随后对训练获得的视频行为识别模型在指定数据集上进行测试，最后，分别得到使用每个相关图像任务作为教师任务的视频行为识别的TOP1准确率，将这些准确率经过softmax归一化后的输出作为各个对应教师任务的加权融合权；

第二种为在线对每个训练样本输出不同损失权重的方法，本发明所述的目标网络是在同一视频中，教师网络输出的特征和学生网络输出的特征一致视为相似度高，本发明使用正样本对点积相似度通过softmax归一化后，作为对应的对比损失权重，即正样本对的相似度越高，权重越大；

第三种方法和第二种方法类似，也是在线方法，对于不同的训练样本也给出了不同的损失权重，第三种方法通过正样本对在所有样本对中的相似度排序的序列位置经过softmax归一化来确定损失权重。

4.按照权利要求1所述加权融合多种图像任务的视频行为识别方法，其特征在于，步骤4所述对学生网络进行基于对比的加权融合训练的具体方法为：

步骤4.2.提取特征：

步骤4.3.构造对比损失训练：

步骤4.4.完全自监督训练或自监督结合监督训练：

L_联合＝L_{交叉熵损失}+0.1L_对比损失……(2),

5.按照权利要求1所述加权融合多种图像任务的视频行为识别方法，其特征在于，步骤5所述在测试数据集上对模型视频行为识别进行性能测试，包括以下步骤：