CN116798123A - 一种个性化联邦学习下的视频行为识别方法 - Google Patents
一种个性化联邦学习下的视频行为识别方法 Download PDFInfo
- Publication number
- CN116798123A CN116798123A CN202310766410.6A CN202310766410A CN116798123A CN 116798123 A CN116798123 A CN 116798123A CN 202310766410 A CN202310766410 A CN 202310766410A CN 116798123 A CN116798123 A CN 116798123A
- Authority
- CN
- China
- Prior art keywords
- video
- local
- training
- video behavior
- behavior recognition
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 230000006399 behavior Effects 0.000 title claims abstract description 68
- 238000000034 method Methods 0.000 title claims abstract description 30
- 238000012549 training Methods 0.000 claims abstract description 51
- 238000000605 extraction Methods 0.000 claims abstract description 47
- 238000009826 distribution Methods 0.000 claims abstract description 6
- 238000011176 pooling Methods 0.000 claims description 28
- 238000005070 sampling Methods 0.000 claims description 28
- 238000004364 calculation method Methods 0.000 claims description 10
- 230000007246 mechanism Effects 0.000 claims description 8
- 230000002457 bidirectional effect Effects 0.000 claims description 5
- 238000012545 processing Methods 0.000 claims description 5
- 230000004913 activation Effects 0.000 claims description 4
- 230000000295 complement effect Effects 0.000 claims description 4
- 238000009499 grossing Methods 0.000 claims description 4
- 230000008569 process Effects 0.000 claims description 4
- 238000004519 manufacturing process Methods 0.000 claims description 3
- 230000000644 propagated effect Effects 0.000 claims description 3
- 230000003542 behavioural effect Effects 0.000 claims description 2
- 239000000284 extract Substances 0.000 abstract description 5
- 230000009471 action Effects 0.000 abstract description 4
- 230000033764 rhythmic process Effects 0.000 abstract description 4
- 230000011218 segmentation Effects 0.000 abstract description 3
- 230000004927 fusion Effects 0.000 abstract description 2
- 230000000694 effects Effects 0.000 description 15
- NVNSXBXKNMWKEJ-UHFFFAOYSA-N 5-[[5-(2-nitrophenyl)furan-2-yl]methylidene]-1,3-diphenyl-2-sulfanylidene-1,3-diazinane-4,6-dione Chemical compound [O-][N+](=O)C1=CC=CC=C1C(O1)=CC=C1C=C1C(=O)N(C=2C=CC=CC=2)C(=S)N(C=2C=CC=CC=2)C1=O NVNSXBXKNMWKEJ-UHFFFAOYSA-N 0.000 description 8
- 101150041570 TOP1 gene Proteins 0.000 description 8
- 238000002474 experimental method Methods 0.000 description 8
- 238000012360 testing method Methods 0.000 description 6
- 239000013598 vector Substances 0.000 description 5
- 230000003287 optical effect Effects 0.000 description 4
- 238000005516 engineering process Methods 0.000 description 3
- 230000006872 improvement Effects 0.000 description 3
- 238000011160 research Methods 0.000 description 3
- 238000004458 analytical method Methods 0.000 description 2
- 230000006870 function Effects 0.000 description 2
- 238000013519 translation Methods 0.000 description 2
- 238000012795 verification Methods 0.000 description 2
- HPTJABJPZMULFH-UHFFFAOYSA-N 12-[(Cyclohexylcarbamoyl)amino]dodecanoic acid Chemical compound OC(=O)CCCCCCCCCCCNC(=O)NC1CCCCC1 HPTJABJPZMULFH-UHFFFAOYSA-N 0.000 description 1
- 102100024607 DNA topoisomerase 1 Human genes 0.000 description 1
- 101000830681 Homo sapiens DNA topoisomerase 1 Proteins 0.000 description 1
- 230000003213 activating effect Effects 0.000 description 1
- 230000002776 aggregation Effects 0.000 description 1
- 238000004220 aggregation Methods 0.000 description 1
- 238000013473 artificial intelligence Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000012512 characterization method Methods 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 230000000052 comparative effect Effects 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 230000004069 differentiation Effects 0.000 description 1
- 238000011156 evaluation Methods 0.000 description 1
- 238000003058 natural language processing Methods 0.000 description 1
- 238000005457 optimization Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/20—Movements or behaviour, e.g. gesture recognition
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/0464—Convolutional networks [CNN, ConvNet]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/098—Distributed learning, e.g. federated learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/40—Extraction of image or video features
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/40—Extraction of image or video features
- G06V10/56—Extraction of image or video features relating to colour
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/40—Extraction of image or video features
- G06V10/62—Extraction of image or video features relating to a temporal dimension, e.g. time-based feature extraction; Pattern tracking
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/764—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
- G06V10/765—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects using rules for classification or partitioning the feature space
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/77—Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
- G06V10/7715—Feature extraction, e.g. by transforming the feature space, e.g. multi-dimensional scaling [MDS]; Mappings, e.g. subspace methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/82—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/40—Scenes; Scene-specific elements in video content
- G06V20/44—Event detection
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/40—Scenes; Scene-specific elements in video content
- G06V20/49—Segmenting video sequences, i.e. computational techniques such as parsing or cutting the sequence, low-level clustering or determining units such as shots or scenes
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Multimedia (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Evolutionary Computation (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Computing Systems (AREA)
- Software Systems (AREA)
- Artificial Intelligence (AREA)
- Medical Informatics (AREA)
- Databases & Information Systems (AREA)
- Biomedical Technology (AREA)
- Life Sciences & Earth Sciences (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Molecular Biology (AREA)
- General Engineering & Computer Science (AREA)
- Mathematical Physics (AREA)
- Human Computer Interaction (AREA)
- Social Psychology (AREA)
- Psychiatry (AREA)
- Image Analysis (AREA)
Abstract
本发明公开了一种个性化联邦学习下的视频行为识别方法,先构建非独立同分布的视频行为识别数据集,模拟联邦学习场景;然后搭建了基于时空特征的视频行为识别模型,主要包含局部模块和全局模块,局部模块在视频分段上实现时空特征的提取;全局模块利用特征级的差分信息提取动作节奏特征,在整个视频上实现时空信息的深度提取和融合;之后在联邦学习条件下展开训练,每个用户基于本地数据集并行完成训练,将局部模块参数作为本地私有参数,将全局模块参数回传给服务器,服务器将每个用户回传的参数进行聚合得到共享参数,并将共享参数传给用户,用户依靠本地私有参数与共享参数实现视频行为分类。
Description
技术领域
本发明属于视频行为识别技术领域,更为具体地讲,涉及一种个性化联邦学习下的视频行为识别方法。
背景技术
作为人工智能的重要研究方向,针对视频数据的视频行为识别依托深度学习算法得到了快速发展。视频数据包含空间和时间两种特征,常见研究方法依靠复杂光流和三维卷积实现时空特征提取。基于复杂光流的方法通过双流结构分别提取空间与时间特征,一个流利用RGB帧提取空间特征,另一个流利用光流提取时间特征,综合两个流的类别分数得到视频行为识别结果。但光流信息的提取依靠单独的模型或工具,需要较为复杂的预处理,并且需要更大的模型来实现特征提取,不利于研究和应用。同时双流网络往往基于视频数据的一个片段进行特征提取,只能获取到局部特征,无法充分利用视频数据。基于三维卷积的方法将卷积核扩张三维,直接基于视频数据联合提取时空特征,但卷积核维度的扩展同样大大增加了参数量。
综合考虑模型的准确率与效率问题,我们采用差分技术实现时间信息的提取,提出了一种新的差分信息提取方法和一种动作节奏特征提取方法,利用简单且高效的差分技术,分别在局部与全局范围内实现时间与空间特征的提取。
其次,考虑到用户隐私和数据安全问题,用户本地的视频数据不便于上传至服务器进行模型训练,结合联邦学习算法可以实现模型的本地训练和中心聚合。但现有的联邦学习方法往往基于自然语言处理或图像识别数据集进行研究,与视频行为识别模型和数据集的匹配度较低,我们结合视频行为识别模型的特性,提出了一种适用于视频模型的个性化联邦学习方案。
发明内容
本发明的目的在于克服现有技术的不足,提供一种个性化联邦学习下的视频行为识别方法,在考虑用户隐私和数据安全问题的同时,提升了联邦学习条件下的本地识别效果。
为实现上述发明目的,本发明一种个性化联邦学习下的视频行为识别方法,其特征在于,包括以下步骤:
(1)、制作联邦学习视频数据集;
下载一个包含N个行为类别的公开视频数据集;
设置参与联邦学习训练的总用户数为C,采用狄利克雷方法将公开视频数据集分为C个子数据集,使得每个用户分得一个子数据集,且每个子数据集又均包含有N个类别的数据,子数据集之间服从非独立同分布;
(2)、构建基于时空特征的视频行为识别模型;
基于时空特征的视频行为识别模型包括输入模块、局部特征提取模块和串联的多个全局特征提取模块,以及池化层和分类器;
其中,输入模块对输入数据分段,再在每段中随机采样连续k帧图像,然后将n段采样图像输入到局部特征提取模块,其中,k为奇数;
局部特征提取模块包含两个网络分支,第一个分支对每一段的k帧数据先进行以中间为基准的帧级的差分计算,再经过通道维度的平滑操作,然后依次进行平均池化和通过池化层后输入至卷积层,通过卷积操作后进行上采样,得到采样输出,采样输出再通过卷积层的卷积操作后再次进行上采样,得到补充时间特征;第二个分支直接将每一段中的中间帧通过卷积层的卷积操作得到卷积输出,卷积输出与第一个分支中的采样输出相加后再通过卷积层进行卷积操作,得到局部空间特征;最后将补充时间特征与局部空间特征相加后通过池化层,得到局部特征;
在每个全局特征提取模块中,输入的局部特征先进行通道维度的压缩,再经过特征级的差分计算得到前向特征差分与后向特征差分;
前向特征差分作为3个分支的输入,其中,第一个分支通过卷积层1、池化层、上采样层之后输入至卷积层3;第二个分支通过卷积层2后输入至卷积层3;第三个分支直接输入至卷积层3;在卷积层3中,将3个分支的输出相加后再次进行卷积操作后通过激活层激活,得到初始前向差分信息;
后向特征差分与前向特征差分处理流程相同,因此同理可以得到初始后向差分信息;
在注意力机制模块中,双向的初始差分信息相加后与输入的局部特征逐个相乘,再通过注意力机制加权运算后再次与输入的局部特征相加,然后将相加后的结构通过卷积层进行卷积操作,从而得到全局模块的输出;
最后,全局特征通过池化层和分类器,输出预测结果;
(3)、训练基于时空特征的视频行为识别模型;
(3.1)、设每轮参与联邦学习的用户数量为S,即每轮有S/C的数据并行训练;在每轮训练开始,在总用户数C中随机采样S个用户,然后将这S个用户对应的子数据集作为训练数据;
(3.2)、通过S个用户并行训练S个识别模型;
在每一个识别模型训练过程中,先通过输入模块将每个子数据集中的视频数据平均分为n段,每段中又随机采样连续的k帧图像,然后将n段采样图像输入到局部特征提取模块中;
在局部特征提取模块中,提取每段视频的局部特征Fi,i=1,2,…,n;
在串联的全局部特征提取模块中,每段视频的局部特征Fi输入至串联的多个全局部特征提取模块,通过进行重复的特征提取得到最终的全局特征;
最后将全局时空特征通过池化层并输入分类器,预测出每段视频行为类别;
利用识别模型预测的视频行为类别与对应的真实视频行为类别计算交叉损失值,然后判断当前迭代次数是否达到预设值或交叉损失值是否小于预设阈值,若满足上述条件,则停止迭代训练,得到训练完成的视频行为识别模型;否则,将交叉损失值进行反向传播,并通过梯度下降算法更新视频行为识别模型的权重参数,然后进行下一轮训练;
(4)、用户本地实现视频行为识别分类;
个性化联邦学习完成后,每个用户都在本地保存一个视频行为识别模型,在实现视频行为识别分类任务时,用户在本地实时采集视频数据,输入到本地的视频行为识别模型中,从而实现视频行为的本地预测。
本发明的发明目的是这样实现的:
本发明一种个性化联邦学习下的视频行为识别方法,先构建非独立同分布的视频行为识别数据集,模拟联邦学习场景;然后搭建了基于时空特征的视频行为识别模型,主要包含局部模块和全局模块,局部模块在视频分段上实现时空特征的提取;全局模块利用特征级的差分信息提取动作节奏特征,在整个视频上实现时空信息的深度提取和融合;之后在联邦学习条件下展开训练,每个用户基于本地数据集并行完成训练,将局部模块参数作为本地私有参数,将全局模块参数回传给服务器,服务器将每个用户回传的参数进行聚合得到共享参数,并将共享参数传给用户,用户依靠本地私有参数与共享参数实现视频行为分类。
同时,本发明一种个性化联邦学习下的视频行为识别方法还具有以下有益效果:
(1)、针对视频分段的局部时空特征,提出了一种新的差分信息提取方案,以单帧RGB为中心提取差分特征,提升了局部特征提取效果;
(2)、针对完整视频的全局时间特征,提出了一种利用差分技术提取动作节奏特征的方法,提升了全局特征提取效果;
(3)、针对联邦学习条件下的视频行为识别,提出了适用于视频模型的个性化联邦学习方案,基于视频行为识别模型结构进行划分,提出了一种新的个性化联邦学习训练方案,提升了模型训练效果。
附图说明
图1是本发明一种个性化联邦学习下的视频行为识别方法流程图;
图2是基于时空特征的视频行为识别模型原理;
图3是各个分段数据的处理流程图。
具体实施方式
下面结合附图对本发明的具体实施方式进行描述,以便本领域的技术人员更好地理解本发明。需要特别提醒注意的是,在以下的描述中,当已知功能和设计的详细描述也许会淡化本发明的主要内容时,这些描述在这里将被忽略。
实施例
图1是本发明一种个性化联邦学习下的视频行为识别方法流程图。
在本实施例中,如图1所示,本发明一种个性化联邦学习下的视频行为识别方法,包括以下步骤:
S1、制作联邦学习视频数据集;
下载公开视频数据集UCF-101,该数据集包含101类视频行为数据;
设置参与联邦学习训练的总用户数为20,采用狄利克雷方法将公开视频数据集分为20个子数据集,使得每个用户分得1个子数据集,且每个子数据集又均包含有101个类别的数据,但每个类别的数据数量在不同子数据集中不同且差距很大,子数据集之间服从非独立同分布,以此来模拟联邦学习场景下的用户数据分布情况;
S2、构建基于时空特征的视频行为识别模型;
如图2所示,基于时空特征的视频行为识别模型包括输入模块、局部特征提取模块和串联的三个全局特征提取模块,以及池化层和分类器;
其中,输入模块对输入数据分段,再在每段中随机采样连续5帧图像,然后将8段采样图像输入到局部特征提取模块;
局部特征提取模块包含两个网络分支,第一个分支对每一段的5帧数据先进行以中间为基准的帧级差分计算,再经过通道维度的平滑操作,然后依次进行平均池化和通过池化层后输入至卷积层,通过卷积操作后进行上采样,得到采样输出,采样输出再通过卷积层的卷积操作后再次进行上采样,得到补充时间特征;第二个分支直接将每一段中的中间帧通过卷积层的卷积操作得到卷积输出,卷积输出与第一个分支中的采样输出相加后再通过卷积层进行卷积操作,得到局部空间特征;最后将补充时间特征与局部空间特征相加后通过池化层,得到局部特征;
在每个全局特征提取模块中,输入的局部特征先进行通道维度的压缩,再经过特征级的差分计算得到前向特征差分与后向特征差分;
前向特征差分作为3个分支的输入,其中,第一个分支通过卷积层、池化层、上采样层之后再输入至一层卷积层;第二个分支先通过一层卷积层后再输入至一层卷积层;第三个分支直接输入至卷积层;在卷积层中将3个分支的输出相加后再次进行卷积操作后通过激活层激活,得到初始前向差分信息;
后向特征差分与前向特征差分处理流程相同,因此同理可以得到初始后向差分信息;
在注意力机制模块中,双向的初始差分信息相加后与输入的局部特征逐个相乘,再通过注意力机制加权运算后再次与输入的局部特征相加,然后将相加后的结构通过卷积层进行卷积操作,从而得到全局特征;
最后,全局特征通过池化层和分类器,输出预测结果;
S3、训练基于时空特征的视频行为识别模型;
S3.1、设每轮参与联邦学习的用户数量为4,即每轮有1/5的数据并行训练;在每轮训练开始,在总用户数20中随机采样4个用户,然后将这4个用户对应的子数据集作为训练数据;
S3.2、通过4个用户并行训练4个视频行为识别模型;
在每一个识别模型训练过程中,如图3所示,先通过输入模块将每个子数据集中的视频数据平均分为8段,每段中又随机采样连续的5帧图像,然后将8段采样图像输入到局部特征提取模块中;在本实施例中,记每段的5个采样帧为It-2,It-1,It,It+1,It+2,中间帧为It,t代表帧的采样位置;
在局部特征提取模块中,第一个分支将每段的It-2,It-1、It+1,It+2这4帧数据分别与中间帧为It进行差分计算,得到以It为中心的4帧帧级差分,再经过通道维度的平滑操作,然后依次进行平均池化和通过池化层后输入至卷积层,通过卷积操作后进行上采样,得到采样输出,采样输出再通过卷积层的卷积操作后再次进行上采样,得到补充时间特征;第二个分支直接将每一段中的中间帧It通过卷积层的卷积操作得到卷积输出,卷积输出与第一个分支中的采样输出相加后再通过卷积层进行卷积操作,得到局部空间特征;最后将补充时间特征与局部空间特征相加后通过池化层,从而提取到每段视频的局部特征Fi,i=1,2,…,n;
在全局特征提取阶段,局部特征Fi输入到第一个全局特征提取模块,通过通道维度的压缩后,将所有分段的局部特征按时间顺序拼接,得到局部特征向量F=[F1,F2,…,Fi,…,Fn];局部特征向量再经过特征级的差分计算得到前向特征差分Diff前向与后向特征差分Diff后向;
其中,前向特征差分Diff前向与后向特征差分Diff后向的计算过程为:
先计算前向特征F前向与后向特征F后向:
在本实施例中,F前向和F后向均是以F为基准前、后各平移一个段,平移后超出的部分去掉,空白的部分填充0,得到F前向=[F2,F3,…,Fn,0],F后向=[0,F1,…,Fn-2,Fn-1];然后将F前向和F后向分别和F做差分计算,就得到了双向的特征差分:
Diff前向=[F2-F1,F3-F2,…,Fn-Fn-1,-FN]
Diff后向=[-F1,F1-F2,…,Fn-2-Fn-1,Fn-1-Fn]
前向特征差分Diff前向与后向特征差分Diff后向的后续处理流程完全相同,下面我们以前向特征差分Diff前向为例进行说明,具体如下:
前向特征差分Diff前向作为3个分支的输入,其中,第一个分支通过卷积层1、池化层、上采样层之后输入至卷积层3;第二个分支通过卷积层2后输入至卷积层3;第三个分支直接输入至卷积层3;在卷积层3中,将3个分支的输出相加后再次进行卷积操作后通过激活层激活,得到初始前向差分信息FD前向;
同理可以得到初始后向差分信息FD后向;
在注意力机制模块中,双向的初始差分信息相加后全局差分特征FD,FD再与局部特征向量F逐个相乘,并通过注意力机制加权运算后再次与局部特征向量F相加,然后将相加后的结构通过卷积层进行卷积操作,从而得到全局特征;
将前一个全局特征提取模块提取的全局特征作为下一个全局特征提取模块的输入,然后反复进行全局特征提取,最终得到全局特征提取阶段的全局特征F全局;
最后将全局特征F全局通过池化层并输入分类器,预测出每段视频行为类别;
利用识别模型预测的视频行为类别与对应的真实视频行为类别计算交叉损失值,然后判断当前迭代次数是否达到预设值或交叉损失值是否小于预设阈值,若满足上述条件,则停止迭代训练,得到训练完成的识别模型;否则,将交叉损失值进行反向传播,并通过梯度下降算法更新识别模型的权重参数,然后进行下一轮训练;
S4、用户本地实现视频行为识别分类;
个性化联邦学习完成后,每个用户都在本地保存一个视频行为识别模型,在实现视频行为识别分类任务时,用户在本地实时采集视频数据,输入到本地的视频行为识别模型中,从而实现视频行为的本地预测。
实验及结果分析
我们首先对视频行为识别模型中的多个可选参数和方案进行了实验验证,对比多个指标下的模型性能,并给出了在UCF-101数据集上的识别准确率。再进一步基于非独立同分布的UCF-101数据集上,验证了个性化联邦学习的有效性,并测试了多个联邦学习超参数下的实验效果。
实验设置
我们所有的模型都建立在ResNet-50架构上。基于Ubuntu 22.04.1LTS操作系统,CPU型号为Intel(R)Xeon(R)CPU E5-2680 v4@2.40GHz。实验使用GPU进行模型的训练和测试,显卡型号为NVIDIA GeForce RTX 3090Ti,显卡内存为24G。我们的模型是在Pytorch框架下搭建的,实验环境为Python 3.7.15+Pytorch 1.10+CUDA 11.3。
关于训练参数,对于大小为256×320的RGB数据,我们在导入数据集时随机裁剪为224×224,数据集的类别数量为101。实验中默认的分段数量为8,也就是将每个视频数据分为8段,在每段中采样连续5张RGB图片。模型中每段视频的局部信息主要基于1张RGB图片帧,但由于需要计算RGB差分,所以每段中取用的RGB图片数量为5,每个视频数据共取用5×8=40帧RGB图片。
对于学习率的设定和调整,我们在对比实验中设置学习率衰减步长为[40,60,70],衰减倍数为0.1,也就是在40、60、70轮的时候将学习率调整为当前的0.1倍,同时设置dropout为0.5。
差分RGB提取方式
在基于局部信息的空间模块中,基于三种差分RGB信息提取方案,本节开展了对比实验来测试各个方案的性能效果。
表1不同差分特征提取方式下的识别效果;
表1
表1中It,t∈{1,2,3,4,5}代表t时刻的RGB帧,I3是随机采样得到的,用于空间特征提取,其他4帧为I3时刻前后各2帧,Diffi-j代表帧Ii与帧Ij的差分信息。为了证明差分RGB的有效性,首先测试了不使用差分信息的模型效果,通过Concat函数直接将采样帧的前后各2帧叠加起来进行信息提取。实验结果显示使用差分信息的局部模块可以取得更好的实验效果。
对于具体的差分信息获取方式,直接将相邻帧差分替换为与采样帧的差分,准确率反而有所降低,考虑到RGB帧时间距离越远,差距越大,差分信息也会包含更多的噪声,本文在获得差分帧之后首先通过通道维度的平均池化层,使差分帧在通道维度更加平滑,适当压缩不同时刻的差分特征之间的差距,又对各帧单独进行了平均池化与通道池化操作,将池化后的特征叠加,取得了更好的实验结果,在UCF-101数据集上,最终达到了85.851%的准确率。
平移步幅
在全局特征模块中,测试了不同平移步幅方案下的实验结果。
表2中给出了在全局模块进行局部特征差分时,设置不同平移步幅下取得的准确率Top1和Top5。从实验结果中可以看出,采用步幅为1-1-2的模型可以取得更高的准确率Top1,相比原始方案1-1-1提升了0.487%的准确率,而步幅为1-2-2的模型在准确率Top5上相较原始方案获得了0.027%的提升,验证了全局阶段差分特征在UCF-101数据集上的有效性。而当步幅设置为1-2-3时,识别准确率明显降低,说明时间跨度较大的差分信息不再有效,反而会影响识别效果。
序号 | 步幅 | 准确率Top1 | 准确率Top5 |
1 | 1-1-1 | 85.444% | 97.132% |
2 | 2-2-2 | 85.038% | 96.943% |
3 | 1-1-2 | 85.931% | 97.051% |
4 | 1-2-1 | 85.092% | 96.997% |
5 | 1-2-2 | 85.363% | 97.159% |
6 | 1-2-3 | 84.686% | 96.510% |
表2
学习率
针对不同模型和数据集,学习率训练策略也有所不同,会影响到参数更新能否达到最优点,模型能否达到最高准确率。我们的模型在UCF-101数据集上展开训练,基于不同的初始学习率和学习率衰减步长,我们进行了大量的实验测评。
首先针对不同初始学习率的设置开展了实验,初始学习率的选取参考领域内常用的初始学习率,衰减步长统一设置为[30,45,55],衰减倍率为10,共训练60轮次。
序号 | 初始学习率 | 准确率Top1 | 轮次/Epoch |
1 | 0.01 | 84.172% | 57 |
2 | 0.02 | 80.628% | 41 |
3 | 0.001 | 86.120% | 40 |
4 | 0.002 | 85.931% | 46 |
表3
表3中给出了初始学习率设置为0.01、0.02、0.001、0.002时,本文模型的准确率Top1和对应的训练轮次。从实验结果中可以看出,当初始学习率设置为0.001时,模型达到了最佳的训练效果,识别准确率在第40轮训练测试中达到86.12%。因此,我们将初始学习率设置为0.001。
接下来,我们基于不同的衰减步长进行了测试,根据之前的实验结果,设置初始学习率为0.001,训练总轮次为80轮,在此基础上增加了20轮次,用于更好的分析多轮次训练的实验效果。实验结果如表4所示。
序号 | 衰减步长 | 准确率Top1 | 轮次/Epoch |
1 | 20,25,30 | 85.741% | 28 |
2 | 20,40,55 | 85.741% | 40 |
3 | 30,45,55 | 86.120% | 40 |
4 | 40,60,70 | 86.959% | 60 |
表4
从表4中的实验结果可以看出,当衰减步长设为[40,60,70]时,模型取得了最好的训练效果,在第60轮训练后的测试结果中准确率TOP1达到了86.959%。
最佳参数下的模型测试结果
最终,基于以上实验测试所得的最佳模型方案与超参数,我们给出基于UCF-101数据集的最佳识别准确率,考虑到其它模型的输入数据规模,在表5的实验中设置数据分段数N=16。
表5
表5给出了我们的模型与其他动作识别模型的准确率对比。其中,TSN和C3D模型只在ImageNet或Sports-1M这类简单数据集上进行了预训练,同样在简单预训练的条件下,我们的模型取得了最高的准确率87%。StNet、TSM、STM和TDN模型进一步在大规模数据集Kinetics-400上进行了预训练,由于该数据集的样本数量远大于UCF-101,可以通过训练学习到更为复杂的数据表征,因此最终准确率也获得了显著地提升。同样在ImageNet+Kinetics预训练模型条件下,我们的模型仍然取得了最高的识别准确率97.6%。
个性化联邦学习效果
实验中设置用户总数为20,每个联邦学习通信轮次中用户采样数设为4,用户本地训练轮次设为1。数据集分组方式为Dir(1)。在上述参数设置下,对本文提出的基于个性化联邦学习的视频行为识别优化模型进行了实验验证,对比在联邦学习常规训练和个性化联邦学习两种条件下的实验结果。
表6给出了在常规联邦学习和个性化联邦学习下,我们的模型在20个用户本地数据集上达到的最高准确率Top1与Top5。从平均准确率可以看出,我们提出的个性化联邦学习方案在两个指标上都获得了更好的效果,在Top1提升了1.55%,在Top5上提升了0.079%,验证了面向视频行为识别的个性化联邦学习方法的有效性。
表6
尽管上面对本发明说明性的具体实施方式进行了描述,以便于本技术领域的技术人员理解本发明,但应该清楚,本发明不限于具体实施方式的范围,对本技术领域的普通技术人员来讲,只要各种变化在所附的权利要求限定和确定的本发明的精神和范围内,这些变化是显而易见的,一切利用本发明构思的发明创造均在保护之列。
Claims (1)
1.一种个性化联邦学习下的视频行为识别方法,其特征在于,包括以下步骤:
(1)、制作联邦学习视频数据集;
下载一个包含N个行为类别的公开视频数据集;
设置参与联邦学习训练的总用户数为C,采用狄利克雷方法将公开视频数据集分为C个子数据集,使得每个用户分得一个子数据集,且每个子数据集又均包含有N个类别的数据,子数据集之间服从非独立同分布;
(2)、构建基于时空特征的视频行为识别模型;
基于时空特征的视频行为识别模型包括输入模块、局部特征提取模块和串联的多个全局特征提取模块,以及池化层和分类器;
其中,输入模块对输入数据分段,再在每段中随机采样连续k帧图像,然后将n段采样图像输入到局部特征提取模块,其中,k为奇数;
局部特征提取模块包含两个网络分支,第一个分支对每一段的k帧数据先进行以中间为基准的帧级的差分计算,再经过通道维度的平滑操作,然后依次进行平均池化和通过池化层后输入至卷积层,通过卷积操作后进行上采样,得到采样输出,采样输出再通过卷积层的卷积操作后再次进行上采样,得到补充时间特征;第二个分支直接将每一段中的中间帧通过卷积层的卷积操作得到卷积输出,卷积输出与第一个分支中的采样输出相加后再通过卷积层进行卷积操作,得到局部空间特征;最后将补充时间特征与局部空间特征相加后通过池化层,得到局部特征;
在每个全局特征提取模块中,输入的局部特征先进行通道维度的压缩,再经过特征级的差分计算得到前向特征差分与后向特征差分;
前向特征差分作为3个分支的输入,其中,第一个分支通过卷积层1、池化层、上采样层之后输入至卷积层3;第二个分支通过卷积层2后输入至卷积层3;第三个分支直接输入至卷积层3;在卷积层3中,将3个分支的输出相加后再次进行卷积操作后通过激活层激活,得到初始前向差分信息;
后向特征差分与前向特征差分处理流程相同,因此同理可以得到初始后向差分信息;
在注意力机制模块中,双向的初始差分信息相加后与输入的局部特征逐个相乘,再通过注意力机制加权运算后再次与输入的局部特征相加,然后将相加后的结构通过卷积层进行卷积操作,从而得到全局模块的输出;
最后,全局特征通过池化层和分类器,输出预测结果;
(3)、训练基于时空特征的视频行为识别模型;
(3.1)、设每轮参与联邦学习的用户数量为S,即每轮有S/C的数据并行训练;在每轮训练开始,在总用户数C中随机采样S个用户,然后将这S个用户对应的子数据集作为训练数据;
(3.2)、通过S个用户并行训练S个识别模型;
在每一个识别模型训练过程中,先通过输入模块将每个子数据集中的视频数据平均分为n段,每段中又随机采样连续的k帧图像,然后将n段采样图像输入到局部特征提取模块中;
在局部特征提取模块中,提取每段视频的局部特征Fi,i=1,2,…,n;
在串联的全局部特征提取模块中,每段视频的局部特征Fi输入至串联的多个全局部特征提取模块,通过进行重复的特征提取得到最终的全局特征;
最后将全局时空特征通过池化层并输入分类器,预测出每段视频行为类别;
利用识别模型预测的视频行为类别与对应的真实视频行为类别计算交叉损失值,然后判断当前迭代次数是否达到预设值或交叉损失值是否小于预设阈值,若满足上述条件,则停止迭代训练,得到训练完成的视频行为识别模型;否则,将交叉损失值进行反向传播,并通过梯度下降算法更新视频行为识别模型的权重参数,然后进行下一轮训练;
(4)、用户本地实现视频行为识别分类;
个性化联邦学习完成后,每个用户都在本地保存一个视频行为识别模型,在实现视频行为识别分类任务时,用户在本地实时采集视频数据,输入到本地的视频行为识别模型中,从而实现视频行为的本地预测。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310766410.6A CN116798123A (zh) | 2023-06-26 | 2023-06-26 | 一种个性化联邦学习下的视频行为识别方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310766410.6A CN116798123A (zh) | 2023-06-26 | 2023-06-26 | 一种个性化联邦学习下的视频行为识别方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN116798123A true CN116798123A (zh) | 2023-09-22 |
Family
ID=88034389
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310766410.6A Pending CN116798123A (zh) | 2023-06-26 | 2023-06-26 | 一种个性化联邦学习下的视频行为识别方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116798123A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117350373A (zh) * | 2023-11-30 | 2024-01-05 | 艾迪恩(山东)科技有限公司 | 一种基于局部自注意力机制的个性化联邦聚合算法 |
-
2023
- 2023-06-26 CN CN202310766410.6A patent/CN116798123A/zh active Pending
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117350373A (zh) * | 2023-11-30 | 2024-01-05 | 艾迪恩(山东)科技有限公司 | 一种基于局部自注意力机制的个性化联邦聚合算法 |
CN117350373B (zh) * | 2023-11-30 | 2024-03-01 | 艾迪恩(山东)科技有限公司 | 一种基于局部自注意力机制的个性化联邦聚合算法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN108510012B (zh) | 一种基于多尺度特征图的目标快速检测方法 | |
CN107506712B (zh) | 一种基于3d深度卷积网络的人类行为识别的方法 | |
CN110555458B (zh) | 基于注意力机制生成对抗网络的多波段图像特征级融合方法 | |
CN111860386B (zh) | 一种基于ConvLSTM卷积神经网络的视频语义分割方法 | |
CN111046821B (zh) | 一种视频行为识别方法、系统及电子设备 | |
Peng et al. | Research on image feature extraction and retrieval algorithms based on convolutional neural network | |
CN111898709A (zh) | 一种图像分类方法及设备 | |
CN110378208B (zh) | 一种基于深度残差网络的行为识别方法 | |
CN113920581B (zh) | 一种时空卷积注意力网络用于视频中动作识别的方法 | |
CN109948721A (zh) | 一种基于视频描述的视频场景分类方法 | |
Ming et al. | 3D-TDC: A 3D temporal dilation convolution framework for video action recognition | |
CN109801232A (zh) | 一种基于深度学习的单幅图像去雾方法 | |
CN113554599B (zh) | 一种基于人类视觉效应的视频质量评价方法 | |
CN115222998B (zh) | 一种图像分类方法 | |
CN116798123A (zh) | 一种个性化联邦学习下的视频行为识别方法 | |
Yang et al. | The Korean sign language dataset for action recognition | |
CN110097033A (zh) | 一种基于特征扩充的单样本人脸识别方法 | |
CN113642621A (zh) | 基于生成对抗网络的零样本图像分类方法 | |
CN115966010A (zh) | 一种基于注意力和多尺度特征融合的表情识别方法 | |
CN116703857A (zh) | 一种基于时空域感知的视频动作质量评价方法 | |
CN111368734A (zh) | 一种基于正常表情辅助的微表情识别方法 | |
CN113850182A (zh) | 基于DAMR_3DNet的动作识别方法 | |
CN111382684B (zh) | 基于对抗学习的角度鲁棒的个性化人脸表情识别方法 | |
CN116740362A (zh) | 一种基于注意力的轻量化非对称场景语义分割方法及系统 | |
Chen et al. | Intelligent teaching evaluation system integrating facial expression and behavior recognition in teaching video |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |