CN114332723B - 基于语义指导的视频行为检测方法 - Google Patents
基于语义指导的视频行为检测方法 Download PDFInfo
- Publication number
- CN114332723B CN114332723B CN202111669113.7A CN202111669113A CN114332723B CN 114332723 B CN114332723 B CN 114332723B CN 202111669113 A CN202111669113 A CN 202111669113A CN 114332723 B CN114332723 B CN 114332723B
- Authority
- CN
- China
- Prior art keywords
- video
- prediction
- cross entropy
- model
- entropy loss
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000001514 detection method Methods 0.000 title claims abstract description 10
- 238000005070 sampling Methods 0.000 claims abstract description 18
- 238000000034 method Methods 0.000 claims description 18
- 238000012549 training Methods 0.000 claims description 10
- 235000021152 breakfast Nutrition 0.000 claims description 4
- 230000009466 transformation Effects 0.000 abstract description 2
- 230000007704 transition Effects 0.000 abstract 1
- 230000006399 behavior Effects 0.000 description 10
- 238000010586 diagram Methods 0.000 description 4
- 238000013528 artificial neural network Methods 0.000 description 3
- 230000000694 effects Effects 0.000 description 3
- 230000002123 temporal effect Effects 0.000 description 3
- 238000013461 design Methods 0.000 description 2
- 230000011218 segmentation Effects 0.000 description 2
- 238000013473 artificial intelligence Methods 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 238000013145 classification model Methods 0.000 description 1
- 125000004122 cyclic group Chemical group 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 230000009977 dual effect Effects 0.000 description 1
- 230000004927 fusion Effects 0.000 description 1
- 238000002372 labelling Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000012545 processing Methods 0.000 description 1
- 238000011160 research Methods 0.000 description 1
Classifications
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02T—CLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
- Y02T10/00—Road transport of goods or passengers
- Y02T10/10—Internal combustion engine [ICE] based vehicles
- Y02T10/40—Engine management systems
Landscapes
- Image Analysis (AREA)
Abstract
本发明公开了基于语义指导的视频行为检测方法,通过特征的下采样来扩大时间感受野,并将线性插值用于上采样环节,从而得到视频时序上的粗略语义信息,用于指导时间卷积模型的输出;同时对模型的主干网络使用参数共享结构,将网络分为了三部分:生成粗略预测、细化和最终预测,以实现网络层数与参数量的最佳搭配;针对模型的时间建模能力,本发明提供了一种不需人工标注的视频速度预测的自监督辅助任务,可通过随机采样率的变换来模拟视频的播放速度,以辅助主干网络生成质量更高的预测。本发明主要针对以人为主体的视频,具有参数量低、精度高,方便对长视频进行操作等特点;对于无人的视频,本发明根据转场对视频进行分割。
Description
技术领域
本发明属于人工智能、计算机视觉、视频理解领域,基于时间卷积网络实现长视频中行为的定位与分类。用于日常视频中的信息与事件的发掘。
背景技术
近年来随着互联网的发展与摄影设备的骤增,视频数据的数量呈现着爆炸式的增长。在视频领域中,视频分为:剪辑过的短视频与未剪辑的长视频。剪辑过的短视频由于经过人工处理,使得它只具有单独的语义,其数据结构简单导致对短视频操作的难度十分低,这使得基于短视频的视频分类等任务的研究已经比较成熟。但针对未剪辑的长视频的研究,由于其具有信息冗长、数据分布杂乱、数据过于复杂等特点,这使得对长视频的操作变得十分困难。而我们日常生活中更为常见的便是这种未经剪辑的长视频数据,所以要保持对这些长视频的日常管理和操作就变得十分困难,这需要耗费极高的人工成本。本文提出的基于语义指导的视频行为检测方法,通过时间卷积神经网络对未剪辑的长视频进行时间建模,并根据前后文信息为视频的每一帧分配类别,从而实现对视频的帧级预测,这样就可以得到行为的起始终止时间戳,从而帮助视频操作人员更加快速准确的定位,以方便进行后续操作。
时间卷积网络作为处理序列结构的神经网络的一种,相较于循环神经网络等拥有更为灵活的感受野,更稳定的梯度,并且占用更少的内存,同时它能够对输入并行处理,这极大的加快了模型的计算速度。目前现有方法多基于时间卷积模型,但这些方法都面临着精度低且存在过度分割现象。时间卷积模型的时间建模能力的强弱与“过度分割”将极大影响所提出模型的实际使用效果,所以如何提升时间建模能力和有效避免过度分割问题的出现,成为了目前急需解决的问题。同时,在深度学习中,适当增加参数量与网络层数会提升预测效果,但过度地增加会导致模型过拟合,所以如何权衡层数与参数量之间的关系同样也是一个需要解决的问题。
发明内容
针对上述问题,本发明提供了一种基于语义指导的视频行为检测方法,该方法充分考虑到由于时间卷积结构所导致的过度分割现象的出现,提出了“语义指导”模块用于捕获长距离时序范围中的语义信息,它通过特征的下采样来扩大时间感受野,并将线性插值用于上采样环节,从而得到时序上的粗略语义信息;同时使用参数共享结构对模型的主干网络做了相应改进,将网络分为了三部分:生成粗略预测、细化和最终预测,其中细化阶段使用了参数共享,以实现网络层数与参数量的最佳搭配;并且进一步的,针对模型的时间建模能力会直接影响最终预测结果的问题,本发明提供了一种不需人工标注的视频速度预测的自监督辅助任务,可通过随机采样率的变换来模拟视频的播放速度,以辅助主干网络生成质量更高的预测。基于语义指导的视频行为检测方法,所述方法包括以下步骤:
S1、通过训练好的I3D模型对视频提取I3D特征;
S2、将S1中得到的视频I3D特征分别输入到第一个语义指导模块SG1和主干网络的“生成粗略预测”阶段中,并将它们的输出进行加和,得到第一阶段最终的输出;
S3、将S2中所得加和后的输出作为第二个语义指导模块SG2和“细化”阶段R1的输入,并将它们的输出进行加和,作为第三个语义指导模块SG3和“细化”阶段R2的输入;同样地,将SG3与R2的输出加和,作为R3的输入,并得到“细化”阶段最终的输出;
S4、将S3中所得到的“细化”阶段的输出输入到“最终预测”阶段中,得到最终的预测结果。
附图说明
图1本发明的整体网络结构示意图。
图2本发明中“语义指导”模块的详细结构图。
图3本发明中基于参数共享的时间卷积网络的详细结构图。
图4本发明中“视频速度预测”辅助任务的采样策略图。
具体实施方式
为实现上述目的,下面通过附图和具体实施方式,对本发明的技术方案做进一步的详细描述。
为了完成视频行为检测任务,需要对视频中的每一帧分配一个预测的标签。时间卷积模型(TCN)作为主流的模型,它将用预训练好的I3D模型提取的低级视频序列特征V=(v1,v2,...,vT)作为输入,其中vi为单帧特征,V∈RT*C,T为视频长度,C为提取的低级视频特征的通道数。时间卷积模型将每一帧的行为类别预测L=(l1,...,lT)作为输出,其中Li为网络预测的第i帧的类别。目前的时间卷积模型大致分为两种:普通时间卷积模型(SS-TCN)和双重空洞时间卷积模型(DDL-TCN)。相较于DDL-TCN,SS-TCN的参数量更少,它由首尾的两层1*1卷积和中间的10层空洞卷积组成,而DDL-TCN则是由首尾的两层1*1卷积和中间的11层双重空洞卷积组成。如图3所示,本发明的主干网络采用多级架构的思想,由五个时间卷积模型组合而成,它被分为三个不同的阶段:生成粗略预测,细化和最终预测。其中,“生成粗略预测”阶段和“最终预测”阶段均为一个SS-TCN模型,而中间的“细化”阶段则由三个参数共享的DDL-TCN模型组成,这里仅共享三个DDL-TCN模型的双重空洞卷积部分。
虽然所提出的参数共享的时间卷积模型会有不错的效果,但由于时间卷积模型不使用max-pool,迫使模型每层都对固定长度的特征做卷积操作,这会导致特征缺乏足够的语义信息,从而出现过度分割的问题。为了解决这个问题,本发明提出了“语义指导”模块,通过对特征的下采样来捕获时间上的语义信息,该模块通过对特征尺度的上采样和下采样来实现低层特征与高层特征的融合。其中,特征尺度较小的高层特征包含更多的语义信息,而特征尺度较大的低层特征则包含较为丰富的纹理信息。“语义指导”模块将前一阶段的输出或视频I3D特征作为输入,并输出具有语义信息的特征来与时间卷积的输出融合,并指导下一阶段的预测。图2展示了“语义指导”模块的细节,其中“下采样”阶段采用VGG16网络的前16层来捕获时间语义信息,并且在“上采样”阶段,设计了对称的结构将特征恢复至原始尺寸,其中为了降低参数量,上采样使用线性插值的方法,跳层连接结构有效地将低层细节特征与高层语义特征融合。
同时,为了提升时间卷积模型的时间建模能力,本发明设计了“视频速度预测”的自监督辅助任务。在不需要任何额外人工标注的情况下,将模型每阶段的输出进行不同速率的采样,并将其输入到VGG16分类模型中来预测采样率。图4展示了采样策略,共设置了四个采样速率。该辅助任务步骤如下:
S1、对模型每阶段的输出设置随机采样率,并根据采样率p进行采样,得到采样过后的特征序列;
S2、将S1中得到的采样过后的特征序列输入到VGG16的分类网络中,并做出预测,得到预测的采样率q;
S3、对S2中预测得到的q与实际的采样率p计算交叉熵损失,得到损失L;
S4、通过得到的损失L进行反向传播,从而优化主干网络的参数。
本发明中,速度预测辅助任务与视频行为检测的主任务进行联合训练。
最后,图1展示了本发明的整体网络设计结构图。基于语义指导的视频行为检测方法具体的训练过程如下:
S1、在Kinetics-600数据集上对I3D模型进行训练;
S2、使用在S1中训练好的I3D模型对Breakfast长视频数据集中的视频提取2048维的特征;
S3、将S2中提取的视频特征集作为任务的训练集,并分别输入到第一个语义指导模块SG1和主干网络的“生成粗略预测”阶段中,并将它们的输出进行加和,得到第一阶段最终的输出O1。计算O1与Breakfast数据集中的人工注释标签GT所产生的交叉熵损失L1。同时生成随机速率P,对O1进行速率P的采样,并通过VGG16网络对该速率进行预测,产生交叉熵损失L1p;
S4、将S3中得到的O1作为第二个语义指导模块SG2和“细化”阶段R1的输入,将SG2和R1的输出进行加和,得到输出O2。计算O2与GT所产生的交叉熵损失L2。并如S3中一样,将O2作为“视频速度预测”辅助任务的输入,产生交叉熵损失L2p;
S5、将S4中得到的O2作为第二个语义指导模块SG3和“细化”阶段R2的输入,将SG3和R2的输出进行加和,得到输出O3。计算O3与GT所产生的交叉熵损失L3。并将O3作为“视频速度预测”辅助任务的输入,产生交叉熵损失L3p;
S6、将S5中得到的O3作为“细化”阶段R3的输入,并得到“细化”阶段的输出O4。计算O4与GT所产生的交叉熵损失L4。并将O4作为“视频速度预测”辅助任务的输入,产生交叉熵损失L4p;
S7、将S6中所得到O4作为“最终预测”阶段的输入,并得到模型最终的输出O。计算O与GT所产生的交叉熵损失L5。并将O作为“视频速度预测”辅助任务的输入,产生交叉熵损失L5p;
S8、计算模型总体的损失L=ΣLi+ΣLip,并进行反向传播,优化模型参数,直至损失收敛,训练结束。
上述介绍了本发明在训练时的具体步骤。在投入使用时,模型去掉“视频速度预测”的辅助任务,只保留主干网络模型即可。
以上介绍仅用于为本领域技术人员理解本发明提供帮助。对于本领域技术人员,可以在本发明的基础上做若干修改和润饰,这些修改和润饰也当视为本发明的保护范围。
Claims (2)
1.基于语义指导的视频行为检测方法,其特征在于,所述方法包括以下步骤:
S1、在Kinetics-600数据集上对I3D模型进行训练;
S2、使用在S1中训练好的I3D模型对Breakfast长视频数据集中的视频提取2048维的特征;
S3、将S2中提取的视频特征集作为任务的训练集,并分别输入到第一个语义指导模块SG1和主干网络的“生成粗略预测”阶段中,并将它们的输出进行加和,得到第一阶段最终的输出O1;计算O1与Breakfast数据集中的人工注释标签GT所产生的交叉熵损失L1;同时生成随机速率P,对O1进行速率P的采样,并通过VGG16网络对该速率进行预测,产生交叉熵损失L1p;
S4、将S3中得到的O1作为第二个语义指导模块SG2和“细化”阶段R1的输入,将SG2和R1的输出进行加和,得到输出O2;计算O2与GT所产生的交叉熵损失L2;同S3,将O2作为“视频速度预测”辅助任务的输入,产生交叉熵损失L2p;
S5、将S4中得到的O2作为第二个语义指导模块SG3和“细化”阶段R2的输入,将SG3和R2的输出进行加和,得到输出O3;计算O3与GT所产生的交叉熵损失L3;并将O3作为“视频速度预测”辅助任务的输入,产生交叉熵损失L3p;
S6、将S5中得到的O3作为“细化”阶段R3的输入,并得到“细化”阶段的输出O4;计算O4与GT所产生的交叉熵损失L4;并将O4作为“视频速度预测”辅助任务的输入,产生交叉熵损失L4p;
S7、将S6中所得到O4作为“最终预测”阶段的输入,并得到模型最终的输出O;计算O与GT所产生的交叉熵损失L5;并将O作为“视频速度预测”辅助任务的输入,产生交叉熵损失L5p;
S8、计算模型总体的损失L=ΣLi+ΣLip,并进行反向传播,优化模型参数,直至损失收敛,训练结束;Li为L1-L5;Lip为L1p-L5p。
2.如权利要求1所述的基于语义指导的视频行为检测方法,其特征在于,所述视频速度预测步骤具体为:
S1、对模型每阶段的输出设置随机采样率,并根据采样率p进行采样,得到采样过后的特征序列;
S2、将S1中得到的采样过后的特征序列输入到VGG16的分类网络中,并做出预测,得到预测的采样率q;
S3、对S2中预测得到的q与实际的采样率p计算交叉熵损失,得到损失L;
S4、通过得到的损失L进行反向传播,从而优化主干网络的参数。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111669113.7A CN114332723B (zh) | 2021-12-31 | 2021-12-31 | 基于语义指导的视频行为检测方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111669113.7A CN114332723B (zh) | 2021-12-31 | 2021-12-31 | 基于语义指导的视频行为检测方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN114332723A CN114332723A (zh) | 2022-04-12 |
CN114332723B true CN114332723B (zh) | 2024-03-22 |
Family
ID=81021234
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202111669113.7A Active CN114332723B (zh) | 2021-12-31 | 2021-12-31 | 基于语义指导的视频行为检测方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114332723B (zh) |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110210485A (zh) * | 2019-05-13 | 2019-09-06 | 常熟理工学院 | 基于注意力机制指导特征融合的图像语义分割方法 |
CN110490884A (zh) * | 2019-08-23 | 2019-11-22 | 北京工业大学 | 一种基于对抗的轻量级网络语义分割方法 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US11188799B2 (en) * | 2018-11-12 | 2021-11-30 | Sony Corporation | Semantic segmentation with soft cross-entropy loss |
-
2021
- 2021-12-31 CN CN202111669113.7A patent/CN114332723B/zh active Active
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110210485A (zh) * | 2019-05-13 | 2019-09-06 | 常熟理工学院 | 基于注意力机制指导特征融合的图像语义分割方法 |
CN110490884A (zh) * | 2019-08-23 | 2019-11-22 | 北京工业大学 | 一种基于对抗的轻量级网络语义分割方法 |
Non-Patent Citations (1)
Title |
---|
全卷积神经网络下的多光谱遥感影像分割;姚建华;吴加敏;杨勇;施祖贤;;中国图象图形学报;20200116(第01期);全文 * |
Also Published As
Publication number | Publication date |
---|---|
CN114332723A (zh) | 2022-04-12 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Nguyen et al. | A multimodal convolutional neuro-fuzzy network for emotion understanding of movie clips | |
CN107545889A (zh) | 适用于模式识别的模型的优化方法、装置及终端设备 | |
CN111310672A (zh) | 基于时序多模型融合建模的视频情感识别方法、装置及介质 | |
Atmaja et al. | Multitask learning and multistage fusion for dimensional audiovisual emotion recognition | |
CN111783540B (zh) | 一种视频中人体行为识别方法和系统 | |
CN111460979A (zh) | 一种基于多层时空框架的关键镜头视频摘要方法 | |
CN116049397B (zh) | 基于多模态融合的敏感信息发现并自动分类分级方法 | |
CN116720004A (zh) | 推荐理由生成方法、装置、设备及存储介质 | |
CN109787821B (zh) | 一种大规模移动客户流量消费智能预测方法 | |
CN114565770A (zh) | 基于边缘辅助计算和掩模注意力的图像分割方法及系统 | |
CN115731498B (zh) | 一种联合强化学习和对比学习的视频摘要生成方法 | |
CN113516133A (zh) | 一种多模态图像分类方法及系统 | |
Huang et al. | Emotion detection for conversations based on reinforcement learning framework | |
CN114491289A (zh) | 一种双向门控卷积网络的社交内容抑郁检测方法 | |
Shu et al. | Semi-supervised adversarial learning for attribute-aware photo aesthetic assessment | |
Sood et al. | Neunets: An automated synthesis engine for neural network design | |
CN112199550B (zh) | 一种基于情感胶囊网络的短视频点击率预测方法 | |
CN113887501A (zh) | 行为识别方法、装置、存储介质及电子设备 | |
CN110942463B (zh) | 一种基于生成对抗网络的视频目标分割方法 | |
CN114332723B (zh) | 基于语义指导的视频行为检测方法 | |
CN112784831A (zh) | 融合多层特征增强注意力机制的文字识别方法 | |
CN117131979A (zh) | 基于有向超图及注意力机制的交通流速度预测方法及系统 | |
CN115146844A (zh) | 一种基于多任务学习的多模式交通短时客流协同预测方法 | |
CN115019342A (zh) | 一种基于类关系推理的濒危动物目标检测方法 | |
CN113313030B (zh) | 基于运动趋势特征的人体行为识别方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |