CN109886190A - 一种基于深度学习的人脸表情和姿态双模态融合表情识别方法 - Google Patents
一种基于深度学习的人脸表情和姿态双模态融合表情识别方法 Download PDFInfo
- Publication number
- CN109886190A CN109886190A CN201910126798.7A CN201910126798A CN109886190A CN 109886190 A CN109886190 A CN 109886190A CN 201910126798 A CN201910126798 A CN 201910126798A CN 109886190 A CN109886190 A CN 109886190A
- Authority
- CN
- China
- Prior art keywords
- expression
- image
- posture
- human face
- bimodal
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Landscapes
- Image Analysis (AREA)
- Image Processing (AREA)
Abstract
本发明属于图像识别技术领域,具体涉及一种基于深度学习的人脸表情和姿态双模态融合表情识别方法。包括以下步骤:建立自然环境下的图像数据库,并对获取的图像进行预处理和增强处理;提出SE‑GoogleNet网络对处理后的数据图像进行特征提取;选用基于动作分类的GoogleNet模型的Caffemodel的卷积部分直接进行知识迁移训练;将两个经过预训练之后的卷积神经网络分别输入SPP层进行特征融合,最后送入LSTM中实现双模态表情识别最终分类。本发明设计了基于面部、肢体的双通道特征融合的LSTM模型,使用金字塔池化,进而解决了特征融合时的尺寸匹配问题;并且结合迁移学习,使该模型能在数据库较少的情况下实现对双模态表情的识别,提高了该模型对各种自然环境的适应能力,应用前景广泛。
Description
技术领域
本发明属于图像识别技术领域,具体涉及一种基于深度学习的人脸表情和姿态双模态融合表情识别方法。
背景技术
情感有三种基础的表现形式:表情、声音和语言。由于表情独有的非接触性,普适性和真实性,在实际生活中最能体现人类真实情感。因此,通过对表情的识别能够有效实现智能人机交互与对自身情绪波动的预知。表情分为面部表情和姿态表情两类。早期的面部表情识别研究困难大,进展缓慢。随着近几年深度学习在计算机视觉领域获得的杰出成就。深度学习结构以及理论便被迅速引入,使得表情识别技术又有了显著的发展。
发明内容
本发明的目的在于提供一种基于深度学习的人脸表情和姿态双模态融合表情识别方法,其能够识别自然环境与光照条件下的表情。
一种基于深度学习的人脸表情和姿态双模态融合表情识别方法,具体包括如下步骤:
步骤1、建立自然环境下的图像数据库;
步骤2、对获取的图像进行预处理和增强处理;
步骤3、将预处理后的图像进行增强处理后送入SE-GoogleNet网络中进行特征提取;
步骤4、选用基于动作分类的GoogleNet模型的Caffemodel的卷积部分直接进行知识迁移训练;
步骤5、将两个经过预训练之后的卷积神经网络分别输入SPP层,然后进行特征融合,最后送入LSTM完成最终的分类。
所述一种基于深度学习的人脸表情和姿态双模态融合表情识别方法,步骤1具体包括如下步骤:
步骤1.1、搜集现有的自然表情数据库;
步骤1.2、利用关键字从网站上爬取表情动态图片;
步骤1.3、从自然表情数据库中的图片序列中选取表情明显的图片和从网站上爬取的表情动态图片组成新的数据库。
所述一种基于深度学习的人脸表情和姿态双模态融合表情识别方法,步骤2具体包括如下步骤:
步骤2.1、将建立的自然表情数据库中的视频或动态图片利用ffmpeg进行分帧处理;
步骤2.2、利用人脸检测算法对人脸区域进行提取;对整幅图像生成光流图和差分图等带时序信息的图像;
步骤2.3、对图像进行0-10度的随机旋转,水平翻转,随机裁剪,对比度变化等图像增强操作。
所述一种基于深度学习的人脸表情和姿态双模态融合表情识别方法,步骤3中SE-GoogleNet是GoogleNet的改进,两者在Inception模块上不同,SE-GoogleNet使用SEnet中Block单元的部分结构,增加了同层特征通道间的联系。
所述一种基于深度学习的人脸表情和姿态双模态融合表情识别方法,步骤3使用SE-GoogleNet的数据特征提取过程基于SE-Inception模块,通过增加同层特征图的尺度变化理论上构建表情特征,实现对静态表情识别的分类任务。
所述一种基于深度学习的人脸表情和姿态双模态融合表情识别方法,步骤4具体包括如下步骤:
步骤4.1、网络首先通过卷积层对表情图像空间特征进行提取和非线性组合;
步骤4.2、通过Reshape层将特征变形为与N,B,S以及上层网络输出个数相关的数据结构送入LSTM层,其中N为网络一次接受的图片序列数,B代表进行一次梯度更新的图片间隔数,S指第一个LSTM层含有神经元的个数;
步骤4.3、LSTM层通过神经元随时间的梯度更新结构和门结构生成基于空间特征的时域特征。
所述一种基于深度学习的人脸表情和姿态双模态融合表情识别方法,步骤5具体包括如下步骤:
步骤5.1、将人脸和肢体轮廓送入不同的卷积神经网络结构对其进行图像维度特征提取;
步骤5.2、将卷积图通过SPP层完成特征尺寸的固定;
步骤5.3、将两个网络的特征层进行直接连接;
步骤5.4、输入LSTM完成表情分类。
本发明的有益效果在于:
本发明首先使用带有SE模块的GoogleNet结构通过光流输入的形式对静态表情图像进行识别,然后将静态表情识别结构与长短记忆网络结合提出基于迁移学习的视频序列表情识别结构。从而扩展了自然环境下同时带有姿态和人脸的表情库;在进行表情识别时考虑了姿态表情,实现了姿态和人脸表情的双通道融合识别;提高了该模型对各种自然环境的适应能力,对实际应用起到了促进作用。
附图说明
图1为SE-GoogleNet网络结构图像;
图2为Inception模块图像;
图3为SE-inception模块图像;
图4为pooling inception模块图像;
图5为数据预处理流程图;
图6为双通道网络模型结构图;
图7为基于深度学习的人脸表情和姿态双模态融合表情识别方法流程图。
具体实施方式
下面结合附图对本发明作进一步描述。
如附图7所示,为基于深度学习的人脸表情和姿态双模态融合表情识别方法流程图,具体包括如下步骤:
1、建立人脸-姿态双模态表情数据库;
RAF-DB数据集:该数据集利用与表情有关的关键词在Filckr图片社交网络上下载了三万多张图像,邀请315位接受了表情相关知识训练的志愿者对这些图像进行的标注。实验使用了数据集中给定的12271张图片作为训练集,3068张图片作为测试集。
FER2013数据集:该数据集的主要来源是通过谷歌图片的关键字搜索下载,因此更加接近自然条件下的人脸表情。同时样本的差异性很大,35887张图片里包含了不同的人种、年龄、光照和姿势等。本发明根据比赛的数据集划分进行试验,将28709张图片作为训练集,3589张作为验证集,3589张作为测试集。
AFEW数据集:视频序列方面本发明选用AFEW数据集对视频序列表情进行七分类,AFEW以AVI格式视频给出,并通过Ffmpeg对其进行视频分帧,删除掉各图像序列前后的不相关帧,以保证数据库的准确性。
为尽可能扩充数据集,本发明还通过对tumblr,google,giphy等网站以关键词形式进行数据爬取。因考虑到视频片段获取的困难性和多数电影片段角色近景较少需要较大的图像处理工程,本发明采用对表情GIF分帧的形式实现图像序列的获取。同时,本发明在数据库建立阶段重点对自然,高兴外五类表情进行重点采集,使样本量达到尽量均衡。
2、数据预处理与数据增强
数据预处理:
生成带标签的图像绝对路径文档,其以行为单位,格式为图像路径,空格符,表情类别编号,使Caffe框架通过该文档对数据和标签进行读取。
根据训练集,测试集图片个数对网络训练参数如批量大小,迭代次数,学习率衰减间隔等配置参数进行设置。
每次网络训练对训练集进行过依次遍历后,将训练列表随机打乱,从而为训练带来随机扰动,减少训练不充足,过拟合等不良结果。对图像数据进行增强处理也是处于这方面考虑。
最后,将图像减去均值,使其像素值分布尽量在零值附近均匀分布,提升训练速度。
数据增强:
利用基于Caffe框架的Python接口对输入Data层进行了改写,实现了小角度旋转、随机裁剪、对比度变化等功能。在各增强处理的参数确定中,通过生成一定范围内的随机数来为数据输入添加随机扰动,使得每次输入的图片都不完全相同。
3、基于SE-GoogleNet的数据特征提取;
SE-GoogleNet是GoogleNet的改进,两者结构在Inception模块上有所不同。SE-GoogleNet的Inception模块中增加了SEnet中Block单元的部分结构,增加了同层特征通道间的联系,并使用Pooling Inception Block模块代替了Max Pooling。如此既达到了下采样的目的,又完成了一次特征提取工作,比使用一个Inception和一个maxpooling要更高效。
由于SE-GoogleNet网络模型规模较大,因此对每个卷积操作都使用BN层和scale进行归一化,防止梯度弥散,加快训练速度。
使用SE-GoogleNet的数据特征提取过程主要基于SE-Inception模块,通过增加同层特征图的尺度变化理论上构建表情特征,实现对静态表情识别的分类任务。如图3所示,每一层的输出维度信息表示在方框周围,C代表的是特征图的个数,R的值为C/16。W和H分别为特征图的宽和高。在该模块中,Squeeze操作使用了global average pooling,Bottleneck结构由2个全连接层组成,目的是建立通道之间的相关性,使输出的权值与输入特征的数目统一。实验中,首先将特征维度降低到输入的1/16,经过ReLu函数激活后再通过1个全连接层,使其回到原来的维度。
4、迁移学习与多特征融合:双通道输入的表情识别网络模型(Two-Stream LSTMConvolutionNetwork,TSLCN);
如图6所示,假设N为网络一次接受的图片序列数,B代表进行一次梯度更新的图片间隔数,S指第一个LSTM层含有神经元的个数。网络首先通过卷积层对表情图像空间特征进行提取和非线性组合,然后通过Reshape层将特征变形为与N,B,S以及上层网络输出个数相关的数据结构送入LSTM层,LSTM层通过神经元随时间的梯度更新结构和门结构生成基于空间特征时域特征,最后将其送入Softmax和损失函数进行表情分类。
为实现双模态的表情识别,本发明将人脸和肢体送入不同的卷积神经网络结构对其进行图像维度特征提取,再通过多维数组直接连接的方式进行组合。
在人脸的卷积结构上采用微调后的Googlenet单帧模型,在身体姿态方面考虑到数据库姿态信息过少难以实现有效单帧建模,则选用基于动作分类的Googlenet模型Caffemodel的卷积部分直接进行知识迁移,该模型选用多个深度卷积结构实现了自然背景下的动作的分类。再以金字塔池化层(SPP)代替传统池化,对卷积图统一尺度变换。然后将变换后特征送入长短记忆网络中去进行时空域信息整合与提取,LSTM的门结构也能有效实现特征维数的降低,最后经Softmax层实现对面部,姿态的综合表情分类。
Claims (7)
1.一种基于深度学习的人脸表情和姿态双模态融合表情识别方法,其特征在于,具体包括如下步骤:
步骤1、建立自然环境下的图像数据库;
步骤2、对获取的图像进行预处理和增强处理;
步骤3、将预处理后的图像进行增强处理后送入SE-GoogleNet网络中进行特征提取;
步骤4、选用基于动作分类的GoogleNet模型的Caffemodel的卷积部分直接进行知识迁移训练;
步骤5、将两个经过预训练之后的卷积神经网络分别输入SPP层,然后进行特征融合,最后送入LSTM完成最终的分类。
2.根据权利要求1所述一种基于深度学习的人脸表情和姿态双模态融合表情识别方法,其特征在于,所述步骤1具体包括如下步骤:
步骤1.1、搜集现有的自然表情数据库;
步骤1.2、利用关键字从网站上爬取表情动态图片;
步骤1.3、从自然表情数据库中的图片序列中选取表情明显的图片和从网站上爬取的表情动态图片组成新的数据库。
3.根据权利要求1所述一种基于深度学习的人脸表情和姿态双模态融合表情识别方法,其特征在于,所述步骤2具体包括如下步骤:
步骤2.1、将建立的自然表情数据库中的视频和动态图片利用ffmpeg进行分帧处理;
步骤2.2、利用人脸检测算法对人脸区域进行提取;对整幅图像生成带时序信息的图像即光流图和差分图;
步骤2.3、对图像进行0-10度的随机旋转,水平翻转,随机裁剪,对比度变化图像增强操作。
4.所根据权利要求1所述一种基于深度学习的人脸表情和姿态双模态融合表情识别方法,其特征在于,步骤3中所述SE-GoogleNet是GoogleNet的改进,两者在Inception模块上不同,SE-GoogleNet使用SEnet中Block单元的部分结构,增加了同层特征通道间的联系。
5.根据权利要求1或权利要求4所述一种基于深度学习的人脸表情和姿态双模态融合表情识别方法,其特征在于,步骤3所述使用SE-GoogleNet网络的数据特征提取过程基于SE-Inception模块,通过增加同层特征图的尺度变化理论上构建表情特征,实现对静态表情识别的分类任务。
6.根据权利要求1所述一种基于深度学习的人脸表情和姿态双模态融合表情识别方法,其特征在于,所述步骤4具体包括如下步骤:
步骤4.1、网络首先通过卷积层对表情图像空间特征进行提取和非线性组合;
步骤4.2、通过Reshape层将特征变形为与N,B,S以及上层网络输出个数相关的数据结构送入LSTM层,其中N为网络一次接受的图片序列数,B代表进行一次梯度更新的图片间隔数,S指第一个LSTM层含有神经元的个数;
步骤4.3、LSTM层通过神经元随时间的梯度更新结构和门结构生成基于空间特征的时域特征。
7.根据权利要求1所述一种基于深度学习的人脸表情和姿态双模态融合表情识别方法,其特征在于,所述步骤5具体包括如下步骤:
步骤5.1、将人脸和肢体轮廓送入不同的卷积神经网络结构对其进行图像维度特征提取;
步骤5.2、将卷积图通过SPP层完成特征尺寸的固定;
步骤5.3、将两个网络的特征层进行直接连接;
步骤5.4、输入LSTM完成表情分类。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910126798.7A CN109886190A (zh) | 2019-02-20 | 2019-02-20 | 一种基于深度学习的人脸表情和姿态双模态融合表情识别方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910126798.7A CN109886190A (zh) | 2019-02-20 | 2019-02-20 | 一种基于深度学习的人脸表情和姿态双模态融合表情识别方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN109886190A true CN109886190A (zh) | 2019-06-14 |
Family
ID=66928639
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910126798.7A Pending CN109886190A (zh) | 2019-02-20 | 2019-02-20 | 一种基于深度学习的人脸表情和姿态双模态融合表情识别方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN109886190A (zh) |
Cited By (18)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110347246A (zh) * | 2019-06-19 | 2019-10-18 | 深圳前海达闼云端智能科技有限公司 | 人机交互方法、装置、存储介质及电子设备 |
CN110363290A (zh) * | 2019-07-19 | 2019-10-22 | 广东工业大学 | 一种基于混合神经网络模型的图像识别方法、装置及设备 |
CN111191564A (zh) * | 2019-12-26 | 2020-05-22 | 三盟科技股份有限公司 | 基于多角度神经网络的多姿态人脸情绪识别方法及系统 |
CN111209855A (zh) * | 2020-01-06 | 2020-05-29 | 电子科技大学 | 一种基于轮廓强化的双通道密集卷积神经网络的人脸图像鉴伪方法 |
CN111401116A (zh) * | 2019-08-13 | 2020-07-10 | 南京邮电大学 | 基于增强卷积和空时lstm网络的双模态情感识别方法 |
CN111444818A (zh) * | 2020-03-24 | 2020-07-24 | 哈尔滨工程大学 | 一种基于cnn的市场摊区违规摊位检测方法 |
CN111666852A (zh) * | 2020-05-28 | 2020-09-15 | 天津大学 | 一种基于卷积神经网络的微表情双流网络识别方法 |
CN111695450A (zh) * | 2020-05-26 | 2020-09-22 | 东南大学 | 一种基于IMobileNet的人脸快速识别方法 |
CN111738210A (zh) * | 2020-07-20 | 2020-10-02 | 平安国际智慧城市科技股份有限公司 | 基于音视频的学生心理状态分析方法、装置、终端及介质 |
CN112036288A (zh) * | 2020-08-27 | 2020-12-04 | 华中师范大学 | 基于跨连接多特征融合卷积神经网络的面部表情识别方法 |
CN112101314A (zh) * | 2020-11-17 | 2020-12-18 | 北京健康有益科技有限公司 | 一种基于移动终端的人体姿态识别方法和装置 |
CN112488003A (zh) * | 2020-12-03 | 2021-03-12 | 深圳市捷顺科技实业股份有限公司 | 一种人脸检测方法、模型创建方法、装置、设备及介质 |
CN112541529A (zh) * | 2020-12-04 | 2021-03-23 | 北京科技大学 | 表情与姿态融合的双模态教学评价方法、设备及存储介质 |
CN112766220A (zh) * | 2021-02-01 | 2021-05-07 | 西南大学 | 双通道微表情识别方法、系统、存储介质、计算机设备 |
CN114170540A (zh) * | 2020-08-21 | 2022-03-11 | 四川大学 | 一种融合表情和姿态的个体情绪识别方法 |
CN115273186A (zh) * | 2022-07-18 | 2022-11-01 | 中国人民警察大学 | 基于图像特征融合的深度伪造人脸视频检测方法及系统 |
US11854248B2 (en) | 2020-03-19 | 2023-12-26 | Boe Technology Group Co., Ltd. | Image classification method, apparatus and training method, apparatus thereof, device and medium |
CN117473304A (zh) * | 2023-12-28 | 2024-01-30 | 天津大学 | 多模态图像标注方法、装置、电子设备及存储介质 |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105373777A (zh) * | 2015-10-30 | 2016-03-02 | 中国科学院自动化研究所 | 一种用于人脸识别的方法及装置 |
CN108985134A (zh) * | 2017-06-01 | 2018-12-11 | 重庆中科云丛科技有限公司 | 基于双目摄像机的人脸活体检测及刷脸交易方法及系统 |
-
2019
- 2019-02-20 CN CN201910126798.7A patent/CN109886190A/zh active Pending
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105373777A (zh) * | 2015-10-30 | 2016-03-02 | 中国科学院自动化研究所 | 一种用于人脸识别的方法及装置 |
CN108985134A (zh) * | 2017-06-01 | 2018-12-11 | 重庆中科云丛科技有限公司 | 基于双目摄像机的人脸活体检测及刷脸交易方法及系统 |
Non-Patent Citations (3)
Title |
---|
冯文祥等: "深度回归网络下的人脸对齐方法", 《计算机工程与设计》 * |
孙丽莹: "基于深度学习的多特征融合表情识别", 《万方数据》 * |
徐中辉等: "基于卷积神经网络的图像着色", 《电子技术应用》 * |
Cited By (23)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110347246A (zh) * | 2019-06-19 | 2019-10-18 | 深圳前海达闼云端智能科技有限公司 | 人机交互方法、装置、存储介质及电子设备 |
CN110347246B (zh) * | 2019-06-19 | 2023-07-18 | 达闼机器人股份有限公司 | 人机交互方法、装置、存储介质及电子设备 |
CN110363290A (zh) * | 2019-07-19 | 2019-10-22 | 广东工业大学 | 一种基于混合神经网络模型的图像识别方法、装置及设备 |
CN111401116A (zh) * | 2019-08-13 | 2020-07-10 | 南京邮电大学 | 基于增强卷积和空时lstm网络的双模态情感识别方法 |
CN111401116B (zh) * | 2019-08-13 | 2022-08-26 | 南京邮电大学 | 基于增强卷积和空时lstm网络的双模态情感识别方法 |
CN111191564A (zh) * | 2019-12-26 | 2020-05-22 | 三盟科技股份有限公司 | 基于多角度神经网络的多姿态人脸情绪识别方法及系统 |
CN111209855A (zh) * | 2020-01-06 | 2020-05-29 | 电子科技大学 | 一种基于轮廓强化的双通道密集卷积神经网络的人脸图像鉴伪方法 |
US11854248B2 (en) | 2020-03-19 | 2023-12-26 | Boe Technology Group Co., Ltd. | Image classification method, apparatus and training method, apparatus thereof, device and medium |
CN111444818A (zh) * | 2020-03-24 | 2020-07-24 | 哈尔滨工程大学 | 一种基于cnn的市场摊区违规摊位检测方法 |
CN111695450A (zh) * | 2020-05-26 | 2020-09-22 | 东南大学 | 一种基于IMobileNet的人脸快速识别方法 |
CN111666852A (zh) * | 2020-05-28 | 2020-09-15 | 天津大学 | 一种基于卷积神经网络的微表情双流网络识别方法 |
CN111738210A (zh) * | 2020-07-20 | 2020-10-02 | 平安国际智慧城市科技股份有限公司 | 基于音视频的学生心理状态分析方法、装置、终端及介质 |
CN114170540A (zh) * | 2020-08-21 | 2022-03-11 | 四川大学 | 一种融合表情和姿态的个体情绪识别方法 |
CN114170540B (zh) * | 2020-08-21 | 2023-06-13 | 四川大学 | 一种融合表情和姿态的个体情绪识别方法 |
CN112036288A (zh) * | 2020-08-27 | 2020-12-04 | 华中师范大学 | 基于跨连接多特征融合卷积神经网络的面部表情识别方法 |
CN112101314B (zh) * | 2020-11-17 | 2021-03-09 | 北京健康有益科技有限公司 | 一种基于移动终端的人体姿态识别方法和装置 |
CN112101314A (zh) * | 2020-11-17 | 2020-12-18 | 北京健康有益科技有限公司 | 一种基于移动终端的人体姿态识别方法和装置 |
CN112488003A (zh) * | 2020-12-03 | 2021-03-12 | 深圳市捷顺科技实业股份有限公司 | 一种人脸检测方法、模型创建方法、装置、设备及介质 |
CN112541529A (zh) * | 2020-12-04 | 2021-03-23 | 北京科技大学 | 表情与姿态融合的双模态教学评价方法、设备及存储介质 |
CN112766220A (zh) * | 2021-02-01 | 2021-05-07 | 西南大学 | 双通道微表情识别方法、系统、存储介质、计算机设备 |
CN112766220B (zh) * | 2021-02-01 | 2023-02-24 | 西南大学 | 双通道微表情识别方法、系统、存储介质、计算机设备 |
CN115273186A (zh) * | 2022-07-18 | 2022-11-01 | 中国人民警察大学 | 基于图像特征融合的深度伪造人脸视频检测方法及系统 |
CN117473304A (zh) * | 2023-12-28 | 2024-01-30 | 天津大学 | 多模态图像标注方法、装置、电子设备及存储介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109886190A (zh) | 一种基于深度学习的人脸表情和姿态双模态融合表情识别方法 | |
Fan et al. | Multi-region ensemble convolutional neural network for facial expression recognition | |
Chen et al. | Relation attention for temporal action localization | |
Wang et al. | Temporal segment networks: Towards good practices for deep action recognition | |
CN110377686A (zh) | 一种基于深度神经网络模型的地址信息特征抽取方法 | |
CN108537136A (zh) | 基于姿态归一化图像生成的行人重识别方法 | |
Verma et al. | Unsupervised domain adaptation for person re-identification via individual-preserving and environmental-switching cyclic generation | |
Ocquaye et al. | Dual exclusive attentive transfer for unsupervised deep convolutional domain adaptation in speech emotion recognition | |
CN111143617A (zh) | 一种图片或视频文本描述自动生成方法及系统 | |
Fu et al. | Learning semantic-aware spatial-temporal attention for interpretable action recognition | |
CN108921032A (zh) | 一种新的基于深度学习模型的视频语义提取方法 | |
Long et al. | Learning to localize actions from moments | |
Dai et al. | Tan: Temporal aggregation network for dense multi-label action recognition | |
CN110263855A (zh) | 一种利用共基胶囊投影进行图像分类的方法 | |
Sebyakin et al. | Spatio-temporal deepfake detection with deep neural networks | |
CN110472622A (zh) | 视频处理方法及相关装置,图像处理方法及相关装置 | |
Reddy et al. | Deep cross feature adaptive network for facial emotion classification | |
CN116258990A (zh) | 一种基于跨模态亲和力的小样本参考视频目标分割方法 | |
Zhang et al. | A survey on multimodal-guided visual content synthesis | |
CN114661951A (zh) | 一种视频处理方法、装置、计算机设备以及存储介质 | |
CN111382684A (zh) | 基于对抗学习的角度鲁棒的个性化人脸表情识别方法 | |
CN113408381A (zh) | 基于自注意残差卷积神经网络的微表情分类方法 | |
Leonardi et al. | Image memorability using diverse visual features and soft attention | |
Du et al. | Inter-domain fusion and intra-domain style normalization network for unsupervised domain adaptive person re-identification | |
CN114202801A (zh) | 基于注意力引导空域图卷积简单循环单元的手势识别方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
WD01 | Invention patent application deemed withdrawn after publication |
Application publication date: 20190614 |
|
WD01 | Invention patent application deemed withdrawn after publication |