CN110390308A - 一种基于时空对抗生成网络的视频行为识别方法 - Google Patents
一种基于时空对抗生成网络的视频行为识别方法 Download PDFInfo
- Publication number
- CN110390308A CN110390308A CN201910682423.9A CN201910682423A CN110390308A CN 110390308 A CN110390308 A CN 110390308A CN 201910682423 A CN201910682423 A CN 201910682423A CN 110390308 A CN110390308 A CN 110390308A
- Authority
- CN
- China
- Prior art keywords
- video
- space
- time
- model
- feature
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 27
- 230000002123 temporal effect Effects 0.000 claims abstract description 7
- 238000012706 support-vector machine Methods 0.000 claims abstract description 5
- 230000003287 optical effect Effects 0.000 claims description 3
- 230000006399 behavior Effects 0.000 abstract description 17
- 230000000694 effects Effects 0.000 abstract description 6
- 239000000284 extract Substances 0.000 abstract description 6
- 238000000605 extraction Methods 0.000 abstract description 4
- 238000012512 characterization method Methods 0.000 abstract description 2
- 230000000295 complement effect Effects 0.000 abstract description 2
- 230000004927 fusion Effects 0.000 abstract 1
- 238000012549 training Methods 0.000 description 9
- 238000013135 deep learning Methods 0.000 description 3
- 230000004438 eyesight Effects 0.000 description 3
- 238000004458 analytical method Methods 0.000 description 2
- 238000004364 calculation method Methods 0.000 description 2
- 238000013461 design Methods 0.000 description 2
- 230000008447 perception Effects 0.000 description 2
- 238000013528 artificial neural network Methods 0.000 description 1
- 230000003542 behavioural effect Effects 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000000903 blocking effect Effects 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 230000007812 deficiency Effects 0.000 description 1
- 238000001514 detection method Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000004880 explosion Methods 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 238000003475 lamination Methods 0.000 description 1
- 239000000463 material Substances 0.000 description 1
- 238000012544 monitoring process Methods 0.000 description 1
- 238000005457 optimization Methods 0.000 description 1
- 238000003909 pattern recognition Methods 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 238000004088 simulation Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
- G06F18/2411—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on the proximity to a decision surface, e.g. support vector machines
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/40—Scenes; Scene-specific elements in video content
- G06V20/41—Higher-level, semantic clustering, classification or understanding of video scenes, e.g. detection, labelling or Markovian modelling of sport events or news items
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/40—Scenes; Scene-specific elements in video content
- G06V20/46—Extracting features or characteristics from the video content, e.g. video fingerprints, representative shots or key frames
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- General Physics & Mathematics (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Biology (AREA)
- Evolutionary Computation (AREA)
- Bioinformatics & Computational Biology (AREA)
- General Engineering & Computer Science (AREA)
- Artificial Intelligence (AREA)
- Life Sciences & Earth Sciences (AREA)
- Multimedia (AREA)
- Computational Linguistics (AREA)
- Software Systems (AREA)
- Image Analysis (AREA)
Abstract
本发明涉及一种基于时空对抗生成网络的视频行为识别方法,包括:基于空域对抗生成网络提取输入的包含人类行为的视频的空间特征,基于时域对抗生成网络提取输入的包含人类行为的视频的时间特征,将空间对抗生成网络和时间对抗生成网络提取的两个维度特征进行拼接,得到时空融合特征,通过SVM支持向量机对融合后的特征向量进行分类,从而识别出视频行为。本发明基于时空生成对抗网络,充分考虑其学习特性、视频特点和人类动作特征,有效地结合人类行为特征提取视频中所包含的主要时空特征信息进行融合,基于时空特征信息之间的互补性获得更有表征能力的时空特征,从而对输入视频做出准确的行为识别。
Description
技术领域
本发明涉及计算机视觉和模式识别领域,特别是指一种基于时空对抗生成网络的视频行为识别方法。
背景技术
近年来,随着现实生活中图像视频数据爆炸性地增长,完全依靠人工处理海量视觉信息数据成为几乎不可能完成的任务,而依靠计算机去模拟人类视觉完成目标跟踪、目标检测和行为识别等任务的计算机视觉成为学术界的研究热点。其中,视频行为识别在人机交互、智能监控视频系统、视频检索等智能安防、智慧生活等场景中有极大的应用需求,但由于遮挡、角度变化、场景分析等实际难题,准确地识别视频中的人物行为并做出相应的分析仍是一个具有挑战性的问题。
随着深度学习方法的发展和计算能力的大幅度提高,深度学习技术在视频行为识别相关领域也取得了一些突破,但依旧处于起步阶段。深度学习最显著的优点在于可以通过自主训练学习视频特征。因此,基于深度学习的知识来构建深度神经网络框架并对视频中人物的行为类别进行识别,具有重要的理论意义和应用价值。
发明内容
本发明的主要目的在于克服现有技术中的缺陷,提出一种基于时空对抗生成网络的视频行为识别方法。该方法利用生成对抗网络的强学习能力,有效扩充学习样本,从而具有较高的视频行为识别能力。
本发明采用如下技术方案:
一种基于时空对抗生成网络的视频行为识别方法,其特征在于,包括:
1)从视频序列中提取关键帧和光流图;
2)将关键帧送入生成空域对抗网络GAN1的生成器模型G1和判别器模型D1进行训练,直至模型收敛;将光流图送入时域生成对抗网络GAN2的生成器模型G2和判别器模型D2进行训练,直至模型收敛;
3)再次将关键帧和光流图分别送入训练好的判别器模型D1和判别器模型D2,并将输出展平成一维向量,得到视频序列的空域特征和时域特征;
4)对得到的空域特征和时域特征进行拼接,送入支持向量机SVM进行训练和分类,得到视频行为识别结果。
优选的,通过帧间差分法提取视频序列的关键帧。
优选的,通过密集光流法提取视频序列的光流图。
由上述对本发明的描述可知,与现有技术相比,本发明具有如下有益效果:
本发明构建了一种基于时空对抗生成网络的视频行为识别方法,通过时空生成对抗网络有效地结合行为特征分别从空域和时域提取视频中所包含的空域特征信息和时域特征信息并进行融合,基于时空特征信息之间的互补性获得更有表征能力的特征,送入SVM支持向量机对输入视频做出准确的行为识别。
附图说明
图1是本发明的流程示意图。
以下结合附图和具体实施例对本发明作进一步详述。
具体实施方式
以下通过具体实施方式对本发明作进一步的描述。
本发明为了解决现有技术的行为识别方法大多仍是需要对数据集进行标记和现有数据库尺度的不足,提供一种基于时空对抗生成网络的视频行为识别方法,如图1所示,本发明方法包括特征提取过程和识别过程,具体步骤如下:
特征提取过程:
1)从视频序列中提取关键帧和光流图。该关键帧作为空域生成对抗网络的输入,该光流图作为时域生成对抗网络的输入。
具体的,本发明通过帧间差分法提取所述视频序列的关键帧。帧间差分法指的是利用前后两帧图像相减之后获得的差值图像平均像素强度来度量变化大小,通过划定一个窗口大小,在一个窗口内变化最大的前后两帧图像,提取后一帧作为关键帧。
通过密集光流法提取视频序列的光流图。
2)将关键帧送入空域生成对抗网络GAN1的生成器模型G1和判别器模型D1进行训练,直至模型收敛,得到基于关键帧的训练完成的判别器D1。将光流图送入时域生成对抗网络GAN2的生成器模型G2和判别器模型D2进行训练,直至模型收敛,得到基于光流图的训练完成的判别器D2。
生成对抗网络中,通过生成器生成尽量真实的图片,判别器尽量做到能够正确识别输入的图像是否真实,生成器和判别器相互对抗,从而对生成对抗网络模型的参数进行优化。
生成器模型由六层反卷积层组成,判别器模型由六层卷积层组成,判别器模型的倒数三层图像特征分别经过4×4最大池化、2×2最大池化和原样输出后进行拼接,再做展平操作形成一维特征向量作为多特征层。通过判断输入图像是否真实输出感知损失Perceptual Loss,返回训练判别器;利用输入“真”图像关键帧和生成器生成的“假”图像各自得到的多特征层之间的特征相似度输出特征匹配损失Feature Matching Loss,返回训练生成器。通过反复训练与调整参数,得到训练完成的已收敛的判别器。
其中感知损失Perceptual Loss的计算方法如下:
其中,z表示输入的随机高斯噪声,p(z)表示输入噪声z的分布,G(z)表示输入噪声z的生成器G输出的生成图像,D()表示判别器D判断输入图像是否真实的概率,表示从已知的噪声分布p(z)中取得的样本。
特征匹配损失Feature Matching Loss的计算方法如下:
其中,pdata(x)表示真实图像数据分布,表示直接从训练数据x中取得的真实样本,f(x)表示判别器D多特征层的输出特征。
3)再次将关键帧和光流图分别送入训练好的判别器模型D1和判别器模型D2,并将输出展平成一维向量,得到视频序列的空域特征和时域特征。
输入n张图片,判别器的输出将展平为n×14336的特征向量。输入关键帧给特征提取过程中训练完成的判别器D1,得到n×14336维的空域特征;输入光流图给特征提取过程中训练完成的判别器D2,得到n×14336维的时域特征。
识别过程:
1)对得到的空域特征和时域特征进行拼接,送入支持向量机SVM进行训练和分类,得到输入视频的行为识别结果。
上述仅为本发明的具体实施方式,但本发明的设计构思并不局限于此,凡利用此构思对本发明进行非实质性的改动,均应属于侵犯本发明保护范围的行为。
Claims (3)
1.一种基于时空对抗生成网络的视频行为识别方法,其特征在于,包括:
1)从视频序列中提取关键帧和光流图;
2)将关键帧送入空域生成对抗网络GAN1的生成器模型G1和判别器模型D1进行训练,直至模型收敛;将光流图送入时域生成对抗网络GAN2的生成器模型G2和判别器模型D2进行训练,直至模型收敛;
3)再次将关键帧和光流图分别送入训练好的判别器模型D1和判别器模型D2,分别提取并将输出展平成一维向量,得到视频序列的空域间特征和时域间特征;
4)对得到的空域特征和时域特征进行拼接,送入支持向量机SVM进行训练和分类,得到视频行为识别结果。
2.如权利要求1所述的一种基于时空对抗生成网络的视频行为识别方法,其特征在于,通过帧间差分法提取所述视频序列的关键帧。
3.如权利要求1所述的一种基于时空对抗生成网络的视频行为识别方法,其特征在于,通过密集光流方法提取视频序列的光流图。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910682423.9A CN110390308B (zh) | 2019-07-26 | 2019-07-26 | 一种基于时空对抗生成网络的视频行为识别方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910682423.9A CN110390308B (zh) | 2019-07-26 | 2019-07-26 | 一种基于时空对抗生成网络的视频行为识别方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN110390308A true CN110390308A (zh) | 2019-10-29 |
CN110390308B CN110390308B (zh) | 2022-09-30 |
Family
ID=68287681
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910682423.9A Active CN110390308B (zh) | 2019-07-26 | 2019-07-26 | 一种基于时空对抗生成网络的视频行为识别方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110390308B (zh) |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110909707A (zh) * | 2019-12-02 | 2020-03-24 | 天津大海云科技有限公司 | 一种基于生成式对抗网络的视频巡查系统及方法 |
CN111079594A (zh) * | 2019-12-04 | 2020-04-28 | 成都考拉悠然科技有限公司 | 一种基于双流协同网络的视频动作分类识别方法 |
CN111401368A (zh) * | 2020-03-24 | 2020-07-10 | 武汉大学 | 一种基于深度学习的新闻视频标题提取方法 |
CN111611997A (zh) * | 2020-04-30 | 2020-09-01 | 青岛联合创智科技有限公司 | 一种基于人体动作迁移的卡通定制形象运动视频生成方法 |
CN114708530A (zh) * | 2022-03-18 | 2022-07-05 | 电子科技大学 | 神经网络模型的预训练数据处理、装置、存储介质、识别方法 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20140241626A1 (en) * | 2013-02-28 | 2014-08-28 | Korea University Research And Business Foundation | Method and apparatus for analyzing video based on spatiotemporal patterns |
CN107330362A (zh) * | 2017-05-25 | 2017-11-07 | 北京大学 | 一种基于时空注意力的视频分类方法 |
CN109636721A (zh) * | 2018-11-29 | 2019-04-16 | 武汉大学 | 基于对抗学习和注意力机制的视频超分辨率方法 |
CN109872346A (zh) * | 2019-03-11 | 2019-06-11 | 南京邮电大学 | 一种支持循环神经网络对抗学习的目标跟踪方法 |
-
2019
- 2019-07-26 CN CN201910682423.9A patent/CN110390308B/zh active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20140241626A1 (en) * | 2013-02-28 | 2014-08-28 | Korea University Research And Business Foundation | Method and apparatus for analyzing video based on spatiotemporal patterns |
CN107330362A (zh) * | 2017-05-25 | 2017-11-07 | 北京大学 | 一种基于时空注意力的视频分类方法 |
CN109636721A (zh) * | 2018-11-29 | 2019-04-16 | 武汉大学 | 基于对抗学习和注意力机制的视频超分辨率方法 |
CN109872346A (zh) * | 2019-03-11 | 2019-06-11 | 南京邮电大学 | 一种支持循环神经网络对抗学习的目标跟踪方法 |
Non-Patent Citations (1)
Title |
---|
袁帅等: "应用残差生成对抗网络的路况视频帧预测模型", 《西安交通大学学报》 * |
Cited By (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110909707A (zh) * | 2019-12-02 | 2020-03-24 | 天津大海云科技有限公司 | 一种基于生成式对抗网络的视频巡查系统及方法 |
CN111079594A (zh) * | 2019-12-04 | 2020-04-28 | 成都考拉悠然科技有限公司 | 一种基于双流协同网络的视频动作分类识别方法 |
CN111079594B (zh) * | 2019-12-04 | 2023-06-06 | 成都考拉悠然科技有限公司 | 一种基于双流协同网络的视频动作分类识别方法 |
CN111401368A (zh) * | 2020-03-24 | 2020-07-10 | 武汉大学 | 一种基于深度学习的新闻视频标题提取方法 |
CN111611997A (zh) * | 2020-04-30 | 2020-09-01 | 青岛联合创智科技有限公司 | 一种基于人体动作迁移的卡通定制形象运动视频生成方法 |
CN111611997B (zh) * | 2020-04-30 | 2023-04-18 | 青岛联合创智科技有限公司 | 一种基于人体动作迁移的卡通定制形象运动视频生成方法 |
CN114708530A (zh) * | 2022-03-18 | 2022-07-05 | 电子科技大学 | 神经网络模型的预训练数据处理、装置、存储介质、识别方法 |
CN114708530B (zh) * | 2022-03-18 | 2023-04-18 | 电子科技大学 | 神经网络模型的预训练数据处理、装置、存储介质、识别方法 |
Also Published As
Publication number | Publication date |
---|---|
CN110390308B (zh) | 2022-09-30 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110390308A (zh) | 一种基于时空对抗生成网络的视频行为识别方法 | |
CN108537743B (zh) | 一种基于生成对抗网络的面部图像增强方法 | |
Sabir et al. | Recurrent convolutional strategies for face manipulation detection in videos | |
Liu et al. | Contrastive context-aware learning for 3d high-fidelity mask face presentation attack detection | |
CN106503687B (zh) | 融合人脸多角度特征的监控视频人物身份识别系统及其方法 | |
Zhou et al. | Salient region detection via integrating diffusion-based compactness and local contrast | |
CN107463920A (zh) | 一种消除局部遮挡物影响的人脸识别方法 | |
KR20230021043A (ko) | 객체 인식 방법 및 장치, 및 인식기 학습 방법 및 장치 | |
CN108921051A (zh) | 基于循环神经网络注意力模型的行人属性识别网络及技术 | |
Zheng et al. | Attention-based spatial-temporal multi-scale network for face anti-spoofing | |
CN104268593A (zh) | 一种小样本情况下多稀疏表示的人脸识别方法 | |
CN109815874A (zh) | 一种人员身份识别方法、装置、设备及可读存储介质 | |
CN105095870A (zh) | 基于迁移学习的行人重识别方法 | |
CN105138954A (zh) | 一种图像自动筛选查询识别系统 | |
CN106303233A (zh) | 一种基于表情融合的视频隐私保护方法 | |
CN111178208A (zh) | 基于深度学习的行人检测方法、装置及介质 | |
CN108960078A (zh) | 一种基于单目视觉、从动作识别身份的方法 | |
CN110866454B (zh) | 人脸活体检测方法及系统、计算机可读取的存储介质 | |
CN113537027B (zh) | 基于面部划分的人脸深度伪造检测方法及系统 | |
CN113591763B (zh) | 人脸脸型的分类识别方法、装置、存储介质及计算机设备 | |
CN104751111A (zh) | 识别视频中人体行为的方法和系统 | |
CN109766934A (zh) | 一种基于深度Gabor网络的图像目标识别方法 | |
Xu et al. | Group activity recognition by using effective multiple modality relation representation with temporal-spatial attention | |
Zhi-chao et al. | Key pose recognition toward sports scene using deeply-learned model | |
Te et al. | Exploring hypergraph representation on face anti-spoofing beyond 2d attacks |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant | ||
EE01 | Entry into force of recordation of patent licensing contract | ||
EE01 | Entry into force of recordation of patent licensing contract |
Application publication date: 20191029 Assignee: Quanzhou Huada Sifang Technology Co.,Ltd. Assignor: HUAQIAO University Contract record no.: X2024990000184 Denomination of invention: A Video Behavior Recognition Method Based on Spatiotemporal Adversarial Generative Networks Granted publication date: 20220930 License type: Common License Record date: 20240424 |