CN116798123A

CN116798123A - 一种个性化联邦学习下的视频行为识别方法

Info

Publication number: CN116798123A
Application number: CN202310766410.6A
Authority: CN
Inventors: 徐杰; 张昱航; 郑豪; 李怡瑶; 李子轩; 谢麟冰
Original assignee: University of Electronic Science and Technology of China
Current assignee: University of Electronic Science and Technology of China
Priority date: 2023-06-26
Filing date: 2023-06-26
Publication date: 2023-09-22

Abstract

本发明公开了一种个性化联邦学习下的视频行为识别方法，先构建非独立同分布的视频行为识别数据集，模拟联邦学习场景；然后搭建了基于时空特征的视频行为识别模型，主要包含局部模块和全局模块，局部模块在视频分段上实现时空特征的提取；全局模块利用特征级的差分信息提取动作节奏特征，在整个视频上实现时空信息的深度提取和融合；之后在联邦学习条件下展开训练，每个用户基于本地数据集并行完成训练，将局部模块参数作为本地私有参数，将全局模块参数回传给服务器，服务器将每个用户回传的参数进行聚合得到共享参数，并将共享参数传给用户，用户依靠本地私有参数与共享参数实现视频行为分类。

Description

一种个性化联邦学习下的视频行为识别方法

技术领域

本发明属于视频行为识别技术领域，更为具体地讲，涉及一种个性化联邦学习下的视频行为识别方法。

背景技术

作为人工智能的重要研究方向，针对视频数据的视频行为识别依托深度学习算法得到了快速发展。视频数据包含空间和时间两种特征，常见研究方法依靠复杂光流和三维卷积实现时空特征提取。基于复杂光流的方法通过双流结构分别提取空间与时间特征，一个流利用RGB帧提取空间特征，另一个流利用光流提取时间特征，综合两个流的类别分数得到视频行为识别结果。但光流信息的提取依靠单独的模型或工具，需要较为复杂的预处理，并且需要更大的模型来实现特征提取，不利于研究和应用。同时双流网络往往基于视频数据的一个片段进行特征提取，只能获取到局部特征，无法充分利用视频数据。基于三维卷积的方法将卷积核扩张三维，直接基于视频数据联合提取时空特征，但卷积核维度的扩展同样大大增加了参数量。

综合考虑模型的准确率与效率问题，我们采用差分技术实现时间信息的提取，提出了一种新的差分信息提取方法和一种动作节奏特征提取方法，利用简单且高效的差分技术，分别在局部与全局范围内实现时间与空间特征的提取。

其次，考虑到用户隐私和数据安全问题，用户本地的视频数据不便于上传至服务器进行模型训练，结合联邦学习算法可以实现模型的本地训练和中心聚合。但现有的联邦学习方法往往基于自然语言处理或图像识别数据集进行研究，与视频行为识别模型和数据集的匹配度较低，我们结合视频行为识别模型的特性，提出了一种适用于视频模型的个性化联邦学习方案。

发明内容

本发明的目的在于克服现有技术的不足，提供一种个性化联邦学习下的视频行为识别方法，在考虑用户隐私和数据安全问题的同时，提升了联邦学习条件下的本地识别效果。

为实现上述发明目的，本发明一种个性化联邦学习下的视频行为识别方法，其特征在于，包括以下步骤：

(1)、制作联邦学习视频数据集；

下载一个包含N个行为类别的公开视频数据集；

设置参与联邦学习训练的总用户数为C，采用狄利克雷方法将公开视频数据集分为C个子数据集，使得每个用户分得一个子数据集，且每个子数据集又均包含有N个类别的数据，子数据集之间服从非独立同分布；

(2)、构建基于时空特征的视频行为识别模型；

基于时空特征的视频行为识别模型包括输入模块、局部特征提取模块和串联的多个全局特征提取模块，以及池化层和分类器；

其中，输入模块对输入数据分段，再在每段中随机采样连续k帧图像，然后将n段采样图像输入到局部特征提取模块，其中，k为奇数；

局部特征提取模块包含两个网络分支，第一个分支对每一段的k帧数据先进行以中间为基准的帧级的差分计算，再经过通道维度的平滑操作，然后依次进行平均池化和通过池化层后输入至卷积层，通过卷积操作后进行上采样，得到采样输出，采样输出再通过卷积层的卷积操作后再次进行上采样，得到补充时间特征；第二个分支直接将每一段中的中间帧通过卷积层的卷积操作得到卷积输出，卷积输出与第一个分支中的采样输出相加后再通过卷积层进行卷积操作，得到局部空间特征；最后将补充时间特征与局部空间特征相加后通过池化层，得到局部特征；

在每个全局特征提取模块中，输入的局部特征先进行通道维度的压缩，再经过特征级的差分计算得到前向特征差分与后向特征差分；

前向特征差分作为3个分支的输入，其中，第一个分支通过卷积层1、池化层、上采样层之后输入至卷积层3；第二个分支通过卷积层2后输入至卷积层3；第三个分支直接输入至卷积层3；在卷积层3中，将3个分支的输出相加后再次进行卷积操作后通过激活层激活，得到初始前向差分信息；

后向特征差分与前向特征差分处理流程相同，因此同理可以得到初始后向差分信息；

在注意力机制模块中，双向的初始差分信息相加后与输入的局部特征逐个相乘，再通过注意力机制加权运算后再次与输入的局部特征相加，然后将相加后的结构通过卷积层进行卷积操作，从而得到全局模块的输出；

最后，全局特征通过池化层和分类器，输出预测结果；

(3)、训练基于时空特征的视频行为识别模型；

(3.1)、设每轮参与联邦学习的用户数量为S，即每轮有S/C的数据并行训练；在每轮训练开始，在总用户数C中随机采样S个用户，然后将这S个用户对应的子数据集作为训练数据；

(3.2)、通过S个用户并行训练S个识别模型；

在每一个识别模型训练过程中，先通过输入模块将每个子数据集中的视频数据平均分为n段，每段中又随机采样连续的k帧图像，然后将n段采样图像输入到局部特征提取模块中；

在局部特征提取模块中，提取每段视频的局部特征F_i，i＝1,2,…,n；

在串联的全局部特征提取模块中，每段视频的局部特征F_i输入至串联的多个全局部特征提取模块，通过进行重复的特征提取得到最终的全局特征；

最后将全局时空特征通过池化层并输入分类器，预测出每段视频行为类别；

利用识别模型预测的视频行为类别与对应的真实视频行为类别计算交叉损失值，然后判断当前迭代次数是否达到预设值或交叉损失值是否小于预设阈值，若满足上述条件，则停止迭代训练，得到训练完成的视频行为识别模型；否则，将交叉损失值进行反向传播，并通过梯度下降算法更新视频行为识别模型的权重参数，然后进行下一轮训练；

(4)、用户本地实现视频行为识别分类；

个性化联邦学习完成后，每个用户都在本地保存一个视频行为识别模型，在实现视频行为识别分类任务时，用户在本地实时采集视频数据，输入到本地的视频行为识别模型中，从而实现视频行为的本地预测。

本发明的发明目的是这样实现的：

本发明一种个性化联邦学习下的视频行为识别方法，先构建非独立同分布的视频行为识别数据集，模拟联邦学习场景；然后搭建了基于时空特征的视频行为识别模型，主要包含局部模块和全局模块，局部模块在视频分段上实现时空特征的提取；全局模块利用特征级的差分信息提取动作节奏特征，在整个视频上实现时空信息的深度提取和融合；之后在联邦学习条件下展开训练，每个用户基于本地数据集并行完成训练，将局部模块参数作为本地私有参数，将全局模块参数回传给服务器，服务器将每个用户回传的参数进行聚合得到共享参数，并将共享参数传给用户，用户依靠本地私有参数与共享参数实现视频行为分类。

同时，本发明一种个性化联邦学习下的视频行为识别方法还具有以下有益效果：

(1)、针对视频分段的局部时空特征，提出了一种新的差分信息提取方案，以单帧RGB为中心提取差分特征，提升了局部特征提取效果；

(2)、针对完整视频的全局时间特征，提出了一种利用差分技术提取动作节奏特征的方法，提升了全局特征提取效果；

(3)、针对联邦学习条件下的视频行为识别，提出了适用于视频模型的个性化联邦学习方案，基于视频行为识别模型结构进行划分，提出了一种新的个性化联邦学习训练方案，提升了模型训练效果。

附图说明

图1是本发明一种个性化联邦学习下的视频行为识别方法流程图；

图2是基于时空特征的视频行为识别模型原理；

图3是各个分段数据的处理流程图。

具体实施方式

下面结合附图对本发明的具体实施方式进行描述，以便本领域的技术人员更好地理解本发明。需要特别提醒注意的是，在以下的描述中，当已知功能和设计的详细描述也许会淡化本发明的主要内容时，这些描述在这里将被忽略。

实施例

图1是本发明一种个性化联邦学习下的视频行为识别方法流程图。

在本实施例中，如图1所示，本发明一种个性化联邦学习下的视频行为识别方法，包括以下步骤：

S1、制作联邦学习视频数据集；

下载公开视频数据集UCF-101，该数据集包含101类视频行为数据；

设置参与联邦学习训练的总用户数为20，采用狄利克雷方法将公开视频数据集分为20个子数据集，使得每个用户分得1个子数据集，且每个子数据集又均包含有101个类别的数据，但每个类别的数据数量在不同子数据集中不同且差距很大，子数据集之间服从非独立同分布，以此来模拟联邦学习场景下的用户数据分布情况；

S2、构建基于时空特征的视频行为识别模型；

如图2所示，基于时空特征的视频行为识别模型包括输入模块、局部特征提取模块和串联的三个全局特征提取模块，以及池化层和分类器；

其中，输入模块对输入数据分段，再在每段中随机采样连续5帧图像，然后将8段采样图像输入到局部特征提取模块；

局部特征提取模块包含两个网络分支，第一个分支对每一段的5帧数据先进行以中间为基准的帧级差分计算，再经过通道维度的平滑操作，然后依次进行平均池化和通过池化层后输入至卷积层，通过卷积操作后进行上采样，得到采样输出，采样输出再通过卷积层的卷积操作后再次进行上采样，得到补充时间特征；第二个分支直接将每一段中的中间帧通过卷积层的卷积操作得到卷积输出，卷积输出与第一个分支中的采样输出相加后再通过卷积层进行卷积操作，得到局部空间特征；最后将补充时间特征与局部空间特征相加后通过池化层，得到局部特征；

前向特征差分作为3个分支的输入，其中，第一个分支通过卷积层、池化层、上采样层之后再输入至一层卷积层；第二个分支先通过一层卷积层后再输入至一层卷积层；第三个分支直接输入至卷积层；在卷积层中将3个分支的输出相加后再次进行卷积操作后通过激活层激活，得到初始前向差分信息；

在注意力机制模块中，双向的初始差分信息相加后与输入的局部特征逐个相乘，再通过注意力机制加权运算后再次与输入的局部特征相加，然后将相加后的结构通过卷积层进行卷积操作，从而得到全局特征；

最后，全局特征通过池化层和分类器，输出预测结果；

S3、训练基于时空特征的视频行为识别模型；

S3.1、设每轮参与联邦学习的用户数量为4，即每轮有1/5的数据并行训练；在每轮训练开始，在总用户数20中随机采样4个用户，然后将这4个用户对应的子数据集作为训练数据；

S3.2、通过4个用户并行训练4个视频行为识别模型；

在每一个识别模型训练过程中，如图3所示，先通过输入模块将每个子数据集中的视频数据平均分为8段，每段中又随机采样连续的5帧图像，然后将8段采样图像输入到局部特征提取模块中；在本实施例中，记每段的5个采样帧为I_t-2,I_t-1,I_t,I_t+1,I_t+2，中间帧为I_t，t代表帧的采样位置；

在局部特征提取模块中，第一个分支将每段的I_t-2,I_t-1、I_t+1,I_t+2这4帧数据分别与中间帧为I_t进行差分计算，得到以I_t为中心的4帧帧级差分，再经过通道维度的平滑操作，然后依次进行平均池化和通过池化层后输入至卷积层，通过卷积操作后进行上采样，得到采样输出，采样输出再通过卷积层的卷积操作后再次进行上采样，得到补充时间特征；第二个分支直接将每一段中的中间帧I_t通过卷积层的卷积操作得到卷积输出，卷积输出与第一个分支中的采样输出相加后再通过卷积层进行卷积操作，得到局部空间特征；最后将补充时间特征与局部空间特征相加后通过池化层，从而提取到每段视频的局部特征F_i，i＝1,2,…,n；

在全局特征提取阶段，局部特征F_i输入到第一个全局特征提取模块，通过通道维度的压缩后，将所有分段的局部特征按时间顺序拼接，得到局部特征向量F＝[F₁,F₂,…,F_i,…,F_n]；局部特征向量再经过特征级的差分计算得到前向特征差分Diff_前向与后向特征差分Diff_后向；

其中，前向特征差分Diff_前向与后向特征差分Diff_后向的计算过程为：

先计算前向特征F_前向与后向特征F_后向：

在本实施例中，F_前向和F_后向均是以F为基准前、后各平移一个段，平移后超出的部分去掉，空白的部分填充0，得到F_前向＝[F₂,F₃,…,F_n,0]，F_后向＝[0,F₁,…,F_n-2,F_n-1]；然后将F_前向和F_后向分别和F做差分计算，就得到了双向的特征差分：

Diff_前向＝[F₂-F₁,F₃-F₂,…,F_n-F_n-1,-F_N]

Diff_后向＝[-F₁,F₁-F₂,…,F_n-2-F_n-1,F_n-1-F_n]

前向特征差分Diff_前向与后向特征差分Diff_后向的后续处理流程完全相同，下面我们以前向特征差分Diff_前向为例进行说明，具体如下：

前向特征差分Diff_前向作为3个分支的输入，其中，第一个分支通过卷积层1、池化层、上采样层之后输入至卷积层3；第二个分支通过卷积层2后输入至卷积层3；第三个分支直接输入至卷积层3；在卷积层3中，将3个分支的输出相加后再次进行卷积操作后通过激活层激活，得到初始前向差分信息F_D前向；

同理可以得到初始后向差分信息F_D后向；

在注意力机制模块中，双向的初始差分信息相加后全局差分特征F_D，F_D再与局部特征向量F逐个相乘，并通过注意力机制加权运算后再次与局部特征向量F相加，然后将相加后的结构通过卷积层进行卷积操作，从而得到全局特征；

将前一个全局特征提取模块提取的全局特征作为下一个全局特征提取模块的输入，然后反复进行全局特征提取，最终得到全局特征提取阶段的全局特征F_全局；

最后将全局特征F_全局通过池化层并输入分类器，预测出每段视频行为类别；

利用识别模型预测的视频行为类别与对应的真实视频行为类别计算交叉损失值，然后判断当前迭代次数是否达到预设值或交叉损失值是否小于预设阈值，若满足上述条件，则停止迭代训练，得到训练完成的识别模型；否则，将交叉损失值进行反向传播，并通过梯度下降算法更新识别模型的权重参数，然后进行下一轮训练；

S4、用户本地实现视频行为识别分类；

实验及结果分析

我们首先对视频行为识别模型中的多个可选参数和方案进行了实验验证，对比多个指标下的模型性能，并给出了在UCF-101数据集上的识别准确率。再进一步基于非独立同分布的UCF-101数据集上，验证了个性化联邦学习的有效性，并测试了多个联邦学习超参数下的实验效果。

实验设置

我们所有的模型都建立在ResNet-50架构上。基于Ubuntu 22.04.1LTS操作系统，CPU型号为Intel(R)Xeon(R)CPU E5-2680 v4@2.40GHz。实验使用GPU进行模型的训练和测试，显卡型号为NVIDIA GeForce RTX 3090Ti，显卡内存为24G。我们的模型是在Pytorch框架下搭建的，实验环境为Python 3.7.15+Pytorch 1.10+CUDA 11.3。

关于训练参数，对于大小为256×320的RGB数据，我们在导入数据集时随机裁剪为224×224，数据集的类别数量为101。实验中默认的分段数量为8，也就是将每个视频数据分为8段，在每段中采样连续5张RGB图片。模型中每段视频的局部信息主要基于1张RGB图片帧，但由于需要计算RGB差分，所以每段中取用的RGB图片数量为5，每个视频数据共取用5×8＝40帧RGB图片。

对于学习率的设定和调整，我们在对比实验中设置学习率衰减步长为[40,60,70]，衰减倍数为0.1，也就是在40、60、70轮的时候将学习率调整为当前的0.1倍，同时设置dropout为0.5。

差分RGB提取方式

在基于局部信息的空间模块中，基于三种差分RGB信息提取方案，本节开展了对比实验来测试各个方案的性能效果。

表1不同差分特征提取方式下的识别效果；

表1

表1中I_t,t∈{1,2,3,4,5}代表t时刻的RGB帧，I₃是随机采样得到的，用于空间特征提取，其他4帧为I₃时刻前后各2帧，Diff_i-j代表帧I_i与帧I_j的差分信息。为了证明差分RGB的有效性，首先测试了不使用差分信息的模型效果，通过Concat函数直接将采样帧的前后各2帧叠加起来进行信息提取。实验结果显示使用差分信息的局部模块可以取得更好的实验效果。

对于具体的差分信息获取方式，直接将相邻帧差分替换为与采样帧的差分，准确率反而有所降低，考虑到RGB帧时间距离越远，差距越大，差分信息也会包含更多的噪声，本文在获得差分帧之后首先通过通道维度的平均池化层，使差分帧在通道维度更加平滑，适当压缩不同时刻的差分特征之间的差距，又对各帧单独进行了平均池化与通道池化操作，将池化后的特征叠加，取得了更好的实验结果，在UCF-101数据集上，最终达到了85.851％的准确率。

平移步幅

在全局特征模块中，测试了不同平移步幅方案下的实验结果。

表2中给出了在全局模块进行局部特征差分时，设置不同平移步幅下取得的准确率Top1和Top5。从实验结果中可以看出，采用步幅为1-1-2的模型可以取得更高的准确率Top1，相比原始方案1-1-1提升了0.487％的准确率，而步幅为1-2-2的模型在准确率Top5上相较原始方案获得了0.027％的提升，验证了全局阶段差分特征在UCF-101数据集上的有效性。而当步幅设置为1-2-3时，识别准确率明显降低，说明时间跨度较大的差分信息不再有效，反而会影响识别效果。

序号	步幅	准确率Top1	准确率Top5
				1	1-1-1	85.444％	97.132％
2	2-2-2	85.038％	96.943％
				3	1-1-2	85.931％	97.051％
4	1-2-1	85.092％	96.997％
				5	1-2-2	85.363％	97.159％
6	1-2-3	84.686％	96.510％

表2

学习率

针对不同模型和数据集，学习率训练策略也有所不同，会影响到参数更新能否达到最优点，模型能否达到最高准确率。我们的模型在UCF-101数据集上展开训练，基于不同的初始学习率和学习率衰减步长，我们进行了大量的实验测评。

首先针对不同初始学习率的设置开展了实验，初始学习率的选取参考领域内常用的初始学习率，衰减步长统一设置为[30,45,55]，衰减倍率为10，共训练60轮次。

序号	初始学习率	准确率Top1	轮次/Epoch
				1	0.01	84.172％	57
2	0.02	80.628％	41
				3	0.001	86.120％	40
4	0.002	85.931％	46

表3

表3中给出了初始学习率设置为0.01、0.02、0.001、0.002时，本文模型的准确率Top1和对应的训练轮次。从实验结果中可以看出，当初始学习率设置为0.001时，模型达到了最佳的训练效果，识别准确率在第40轮训练测试中达到86.12％。因此，我们将初始学习率设置为0.001。

接下来，我们基于不同的衰减步长进行了测试，根据之前的实验结果，设置初始学习率为0.001，训练总轮次为80轮，在此基础上增加了20轮次，用于更好的分析多轮次训练的实验效果。实验结果如表4所示。

序号	衰减步长	准确率Top1	轮次/Epoch
				1	20,25,30	85.741％	28
2	20,40,55	85.741％	40
				3	30,45,55	86.120％	40
4	40,60,70	86.959％	60

表4

从表4中的实验结果可以看出，当衰减步长设为[40,60,70]时，模型取得了最好的训练效果，在第60轮训练后的测试结果中准确率TOP1达到了86.959％。

最佳参数下的模型测试结果

最终，基于以上实验测试所得的最佳模型方案与超参数，我们给出基于UCF-101数据集的最佳识别准确率，考虑到其它模型的输入数据规模，在表5的实验中设置数据分段数N＝16。

表5

表5给出了我们的模型与其他动作识别模型的准确率对比。其中，TSN和C3D模型只在ImageNet或Sports-1M这类简单数据集上进行了预训练，同样在简单预训练的条件下，我们的模型取得了最高的准确率87％。StNet、TSM、STM和TDN模型进一步在大规模数据集Kinetics-400上进行了预训练，由于该数据集的样本数量远大于UCF-101，可以通过训练学习到更为复杂的数据表征，因此最终准确率也获得了显著地提升。同样在ImageNet+Kinetics预训练模型条件下，我们的模型仍然取得了最高的识别准确率97.6％。

个性化联邦学习效果

实验中设置用户总数为20，每个联邦学习通信轮次中用户采样数设为4，用户本地训练轮次设为1。数据集分组方式为Dir(1)。在上述参数设置下，对本文提出的基于个性化联邦学习的视频行为识别优化模型进行了实验验证，对比在联邦学习常规训练和个性化联邦学习两种条件下的实验结果。

表6给出了在常规联邦学习和个性化联邦学习下，我们的模型在20个用户本地数据集上达到的最高准确率Top1与Top5。从平均准确率可以看出，我们提出的个性化联邦学习方案在两个指标上都获得了更好的效果，在Top1提升了1.55％，在Top5上提升了0.079％，验证了面向视频行为识别的个性化联邦学习方法的有效性。

表6

尽管上面对本发明说明性的具体实施方式进行了描述，以便于本技术领域的技术人员理解本发明，但应该清楚，本发明不限于具体实施方式的范围，对本技术领域的普通技术人员来讲，只要各种变化在所附的权利要求限定和确定的本发明的精神和范围内，这些变化是显而易见的，一切利用本发明构思的发明创造均在保护之列。

Claims

1.一种个性化联邦学习下的视频行为识别方法，其特征在于，包括以下步骤：

(1)、制作联邦学习视频数据集；

下载一个包含N个行为类别的公开视频数据集；

(2)、构建基于时空特征的视频行为识别模型；

最后，全局特征通过池化层和分类器，输出预测结果；

(3)、训练基于时空特征的视频行为识别模型；

(3.2)、通过S个用户并行训练S个识别模型；

(4)、用户本地实现视频行为识别分类；