CN112990119A - 一种视频多目标人脸表情识别方法和系统 - Google Patents
一种视频多目标人脸表情识别方法和系统 Download PDFInfo
- Publication number
- CN112990119A CN112990119A CN202110446571.8A CN202110446571A CN112990119A CN 112990119 A CN112990119 A CN 112990119A CN 202110446571 A CN202110446571 A CN 202110446571A CN 112990119 A CN112990119 A CN 112990119A
- Authority
- CN
- China
- Prior art keywords
- target
- video
- tracking
- frame
- face
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/10—Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
- G06V40/16—Human faces, e.g. facial parts, sketches or expressions
- G06V40/174—Facial expression recognition
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/20—Analysis of motion
- G06T7/246—Analysis of motion using feature-based methods, e.g. the tracking of corners or segments
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/40—Scenes; Scene-specific elements in video content
- G06V20/46—Extracting features or characteristics from the video content, e.g. video fingerprints, representative shots or key frames
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/40—Scenes; Scene-specific elements in video content
- G06V20/49—Segmenting video sequences, i.e. computational techniques such as parsing or cutting the sequence, low-level clustering or determining units such as shots or scenes
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Multimedia (AREA)
- Health & Medical Sciences (AREA)
- General Health & Medical Sciences (AREA)
- Oral & Maxillofacial Surgery (AREA)
- Human Computer Interaction (AREA)
- Computing Systems (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Image Analysis (AREA)
Abstract
本发明属于人工智能领域,具体涉及一种视频多目标人脸表情识别方法和系统,该方法包括如下步骤:S1、抽取视频流中图像帧并提取人脸区域;S2、对视频流中的目标进行人脸跟踪;S3、对跟踪目标进行表情识别;S4、结合历史表情识别结果进行分析。本发明提供的方法,通过融合目标跟踪技术实现视频中多目标表情识别、利用前后帧结果加权提升动态表情识别结果的正确性和鲁棒性,防止视频表情识别结果产生的单帧抖动,同时本发明的视频表情识别系统具有表情分析结果及原始视频存储功能,能够帮助做出合理分析和建议,例如在校教育场景,智能驾驶辅助场景等。
Description
技术领域
本发明属于人工智能领域,具体涉及一种视频多目标人脸表情识别方法和系统。
背景技术
人脸表情是最直接、最有效的情感识别模式。在过去的几十年里,人脸表情识别技术得到了越来越多的关注,其应用包括:增强现实(AR)、人机交互、驾驶员疲劳检测、虚拟现实等相关领域。其中表情类别主要包括:生气,害怕,厌恶,开心,悲伤,惊讶以及平静。
目前主流的基于图像的表情识别方法流程为先从图像中找出人脸关键区域,然后提取人脸关键区域的有效特征,最后利用模型对特征进行分类以实现具体表情分类。现阶段,随着深度学习的飞速发展,人脸关键区域提取、关键区域特征提取以及特征分类均可以使用模型进行实现。而针对视频表情识别的方法为将视频解析成帧序列,然后利用图像表情识别方法对每一帧分别进行表情识别然后将单帧识别结果拼接成动态识别结果,或者对帧序列依次进行人脸区域检测和人脸区域特征提取,最后利用时序相关深度学习模型对时序帧进行特征融合及分类得到表情识别结果。
针对上述两种视频表情识别方法,存在以下问题:对于第一种方法,有较快的运行效率,但是由于是对视频中单帧分别进行识别,所以存在表情识别结果不连贯的问题;对于第二种方法,通过综合多帧进行表情识别,有不错的表情连贯性,但是对于计算机资源有非常大的要求,不适用于工业应用。同时,上述两种方案均不能适用于视频中多目标表情动态识别。
发明内容
为了解决现有技术中存在的上述技术问题,本发明提供了一种视频多目标表情识别方法和系统,以解决现有视频表情识别方法中表情识别结果不连贯,模型训练复杂且不能解决视频中多目标表情识别的问题,其具体技术方案如下:
一种视频多目标表情识别方法,包括如下步骤:
进一步的,所述步骤S1具体为:
利用深度学习目标检测算法对视频流中的图像帧进行人脸检测,对应当前帧的检
测结果为,其中表示视频流中当前时刻t的人脸检测结果
集合,当前帧共包含个人脸目标,表示当前时刻帧中的第i个人脸
位置,值得格式为,其中是由
框左上角坐标点的横纵坐标和右下角坐标点的横纵坐标。
进一步的,所述步骤S2具体包括:
步骤S2.1、假定t-1时刻预测的目标跟踪区域为,跟
踪序列为,式中m为t-1时刻帧中进行跟踪的人脸目标数量,为对应第i个人脸的跟踪区域且格式与步骤S1中人脸区域中任
意元素格式相同,为对应的跟踪标识号;
步骤S2.3、新建一个跟踪序号集合,然后根据步骤S2.1两个元素p和d
匹配计算方式,如果目标跟踪区域中未能找到与人脸区域中任何元素匹配的元
素,从目标跟踪区域集合中删除该追踪元素且从跟踪序号集合中删除相对应的跟
踪序号;对人脸区域中未能找到与目标跟踪区域中任何元素匹配的元素,则将该
元素存入目标跟踪区域中,并新增一个跟踪序号与之对应存入跟踪序号集合中;
对目标跟踪区域集合中能与人脸区域匹配的元素进行保留,跟踪序号保持不变,
因此目标跟踪区域在t时刻元素更新为,然后使用卡尔曼滤波预测元素对应t
时刻的时间帧的跟踪元素集合,而跟踪序号。
进一步的,所述步骤S2.2具体为:
计算边框重叠率IOU,当IOU重叠率大于设定阈值,则计算像素内容相似度,否则表
明元素p和d不匹配;所述边框重叠率IOU的计算方式为:假定目标跟踪区域中任一元
素和人脸区域中任一元素,令,,,,则有:
其中,IOU即为区域边框元素p和d的重叠率;是坐标系X方向的重叠距离,当
两坐标在X坐标轴方向无重叠时取0;是坐标系Y方向的重叠距离,当两坐标在Y坐标
轴方向无重叠时取0;是元素d的区域面积;是元素p的区域面积;overlap是两个矩形框的重叠面积;
计算像素内容相似度,如果最终内容相似度大于设定阈值,则表明p和d两个元素匹配,否则表明该两个元素不匹配,所述图像区域像素内容相似度计算方式如下:
计算特征向量FT和FD的余弦距离L,计算方式如下;
进一步的,所述步骤S3具体为:
针对步骤S2更新的目标跟踪区域元素的位置集合,该时
刻对应的跟踪序号集合为,假定从t时刻的时间帧中截取出所有元素对应的像素区域为,然后通过卷积神经网络模型对中的
元素依次进行表情识别,得到对应识别结果集合,其中卷积神经
网络模型为预先训练好的VGG-16网络模型,最后将和存入数据库中用于后续帧的
最终识别结果调用。
进一步的,所述卷积神经网络模型为预先训练好的VGG-16网络模型。
进一步的,所述步骤S4具体为:
已知步骤S3计算出的当前帧识别结果和相对应的跟踪序列号,以及从步骤
S3中提及的数据库中提取的当前帧的前k个历史帧识别结果和相
对应的前k个历史帧的跟踪序列,针对当前帧的最终识别结果由和加权而成,计算方式如下:
遍历集合中的元素,对于集合中任一元素,将表情识别结果集合
中元素存入容器集合中的对应子容器中,然后遍历中的元素,如果存在与
元素相等的元素,将集合中该序列元素对应的识别结果存入中,再循环遍历
剩余的集合,以及从中找到相应的识别结果存入
中;
遍历所述生成的容器集合,对于该集合中任意元素存储着当前帧以及历
史帧中跟踪序号为的表情识别结果,假定容器中存储着m个表情识别结果,则对应当前帧跟踪序列号的最终结果,即从中找出出现次数
最多的表情作为结果,最后,生成最终表情集合,实现了视频场景
中多目标表情识别的最终结果。
一种视频多目标表情识别系统,包括:
视频信号采集模块,用于采集用户视频数据;
视频信号预处理模块,用于将采集到的视频数据进行预处理,对视频数据进行抽帧处理;
视频表情识别模块,用于通过设计的网络模型和流程,预测用户面部的情感类型;
数据存储模块,用于利用 MySQL 数据库,存储用户的视频数据和情感标签数据。
进一步的,所述视频信号采集模块采用高清晰广角摄像头用于获取到更多的和清晰的人脸目标。
进一步的,所述预处理,包括:视频抽帧、人脸检测,首先摄像头获取视频数据有固定的帧率,根据等时间间隔进行抽帧处理,针对人脸检测将采用深度学习模型对视频帧中的人脸目标进行截取。
本发明的优点如下:
本发明提出了一种基于目标追踪的方法来保证目标在视频流中的连续性的方式,实现了多目标场景下的视频表情识别。
通过利用多帧识别结果对当前表情识别结果进行加权,提高了视频表情识别的鲁棒性,防止视频表情识别结果产生的单帧抖动,同时通过加权方式进行表情识别对比通过多模型融合特征识别将极大提高识别效率,可以运用到工业中。
本发明的视频表情识别系统具有表情分析结果及原始视频存储功能,能够帮助做出合理分析和建议,例如在校教育场景,智能驾驶辅助场景等。
附图说明
图1 为本发明系统的结构示意图;
图2为本发明方法的流程图;
图3为VGG-16网络结构图。
具体实施方式
为了使本发明的目的、技术方案和技术效果更加清楚明白,以下结合说明书 附图,对本发明作进一步详细说明。
参照图1所示,一种视频多目标表情识别系统,包括:
视频信号采集模块,用于采集用户视频数据,一般采用高清广角摄像头,以获取到更多的人脸数据;
视频信号预处理模块,用于将采集到的视频数据进行预处理:包含视频抽帧和人脸目标检测。由于连续视频帧存在大量重复冗余,因此对视频数据抽帧处理,减少后续情感识别处理数据量,可较大提高系统运行效率,具体为:针对一个帧率为30fps的视频,将采用1秒抽5帧;目标检测方法将采用神经网络模型SSD( Single Shot MultiBox Detector)对视频中人脸目标进行提取。
视频表情识别模块,用于通过设计的网络模型和流程,预测用户面部的情感类型;
数据存储模块,用于利用 MySQL 数据库,存储用户的视频数据和情感标签数据。
参照图2-3所示,本发明的一种视频多目标表情识别方法包括如下几个步骤:
步骤S1、抽取视频流中图像帧并提取人脸区域。
所述视频流可通过实时摄像头中获取,也可是用户已有视频数据库中的视频数据。然后将视频进行等间隔抽帧处理,考虑到相邻几帧图像内容重复性过多且表情变化不大,所以本发明优选的,针对所有不同帧率的视频都将进行1秒抽10帧进行处理,提升计算效率降低计算资源的消耗。然后对抽取的单帧图像进行人脸检测。随着深度学习的发展,目前人脸检测的方法通常采用深度学习的模型进行处理,例如用于人脸目标检测的SSD结构和MTCNN人脸检测算法;
假定,对当前抽取出的图像帧的检测结果为,其中式中表
示视频流中当前时刻t的人脸检测结果集合,当前帧共包含n个人脸目标,表示当前时刻帧中的第i个人脸位置,值得格式为,其中是由框左上角坐标点的横
纵坐标和右下角坐标点的横纵坐标;
步骤S2、对视频流中的目标进行人脸跟踪;
在步骤S1中提取人脸区域后,假定当前抽帧时刻为t,上一个处理帧为t-1时刻且
从历史数据库中得到t-1时刻的目标跟踪区域为以及跟踪序
列为,式中m为t-1时刻帧中进行跟踪的人脸目标数量,为对应第i个人脸的跟踪区域且格式与步骤S1中人脸区域中任
意元素格式相同,为对应的跟踪标识号。然后遍历计算序列中所有元素与人脸区域中所有元素的相似度,计算流程如下:
计算边框重叠率(IOU,Intersection over Union),如果IOU重叠率大于设定阈值,则计算像素内容相似度,否则表明该两个元素不匹配;
计算像素内容相似度,如果最终内容相似度大于设定阈值,则表明该两个元素匹配,否则不匹配;
其中,IOU即为区域边框元素p和d的重叠率;是坐标系X方向的重叠距离,当
两坐标在X坐标轴方向无重叠时取0;是坐标系Y方向的重叠距离,当两坐标在Y坐标
轴方向无重叠时取0;是元素d的区域面积;是元素p的区域面积;overlap是两个矩形框的重叠面积。
所述元素p和d对应图像区域内容的相似度计算方式如下:
计算特征向量FT和FD的余弦距离L,计算方式如下;
针对中未能找到与中任何元素匹配的元素,从集合中删除该追踪元
素且从集合中删除相对应的跟踪序号;对中未能找到与中任何元素匹配的元素,
则将该元素存入中,并新增一个跟踪序号与之对应存入中;对集合中能与匹配的元素进行保留,跟踪序号保持不变,因此在时刻元素更新为,在t
时刻元素更新为,然后使用卡尔曼滤波预测元素对应t时刻的时间帧的跟踪元素集
合,而跟踪序号;
步骤S3、对跟踪目标进行表情识别;
针对步骤S2更新的t时刻跟踪人脸元素的位置集合,该
时刻对应的跟踪序号集合为,假定从t时刻的时间帧中截取出所
有元素对应的像素区域为,然后通过卷积神经网络模型对中
的元素依次进行表情识别,得到对应识别结果集合,同时将识别
结果集合和跟踪序号集合存放到数据库中用于后续帧的最终识别结果处理,其中
卷积神经网络模型为预先训练好的VGG-16网络模型。表情种类为7种:开心,平静,愤怒,惊
讶,伤心,嫌弃,害怕。VGG-16网络模型如图3所示,该VGG-16网络模型由convelution(卷积)
+ReLU函数模块、max pooling(最大池化)模块、fully connected(全连接)+ReLU函数模块
和softmax函数模块连接而成。
步骤S4、结合历史表情识别结果进行分析:
已知步骤S3计算出的当前帧识别结果和相对应的跟踪序列号,以及当前帧
的前k个历史跟踪帧的识别结果和相对应的前k个历史跟踪帧的序
列,当前帧的最终识别结果由和加权
而成,本发明方案中k取值为5,且当前成最终表情识别计算方式如下:
遍历集合中的元素,对于集合中任一元素,将表情识别结果集合
中元素存入容器集合中的对应子容器中,然后遍历中的元素,如果存在与
元素相等的元素,将集合中该序列元素对应的识别结果存入中,再循环遍历
剩余的集合,以及从中找到相应的识别结果存入
中
遍历生成的容器集合,对于该集合中任意元素存储着当前帧以及历史帧
中跟踪序号为的表情识别结果,假定容器中存储着m个表情识别结果,则对应当前帧跟踪序列号的最终结果,即从中找出出现次数
最多的表情作为结果,最后,生成最终表情集合。
综上所述,本发明提供的方法,通过融合目标跟踪技术实现视频中多目标表情识别、利用前后帧结果加权提升动态表情识别结果的准确性和鲁棒性。
以上所述,仅为本发明的优选实施案例,并非对本发明做任何形式上的限制。 虽然前文对本发明的实施过程进行了详细说明,对于熟悉本领域的人员来说,其依然可以对前述各实例记载的技术方案进行修改,或者对其中部分技术特征进行同等替换。凡在本发明精神和原则之内所做修改、同等替换等,均应包含在本发明的保护范围之内。
Claims (10)
3.如权利要求2所述的一种视频多目标表情识别方法,其特征在于,所述步骤S2具体包括:
步骤S2.1、假定t-1时刻预测的目标跟踪区域为,跟踪序
列为,式中m为t-1时刻帧中进行跟踪的人脸目标数量,为对应第i个人脸的跟踪区域且格式与步骤S1中人脸区域中任
意元素格式相同,为对应的跟踪标识号;
4.如权利要求3所述的一种视频多目标表情识别方法,其特征在于,所述步骤S2.2具体为:
其中,IOU即为区域边框元素p和d的重叠率;是坐标系X方向的重叠距离,当两坐标
在X坐标轴方向无重叠时取0;是坐标系Y方向的重叠距离,当两坐标在Y坐标轴方向
无重叠时取0;是元素d的区域面积;是元素p的区域面积;overlap是两
个矩形框的重叠面积;
计算像素内容相似度,如果最终内容相似度大于设定阈值,则表明p和d两个元素匹配,否则表明该两个元素不匹配,所述图像区域像素内容相似度计算方式如下:
计算特征向量FT和FD的余弦距离L,计算方式如下;
6.如权利要求5所述的一种视频多目标表情识别方法,其特征在于,所述卷积神经网络模型为预先训练好的VGG-16网络模型。
7.如权利要求5所述的一种视频多目标表情识别方法,其特征在于,所述步骤S4具体为:
已知步骤S3计算出的当前帧识别结果和相对应的跟踪序列号,以及从步骤S3中
提及的数据库中提取的当前帧的前k个历史帧识别结果和相对应
的前k个历史帧的跟踪序列,针对当前帧的最终识别结果由
和加权而成,计算方式如下:
遍历集合中的元素,对于集合中任一元素,将表情识别结果集合中元
素存入容器集合中的对应子容器中,然后遍历中的元素,如果存在与元素相等的元素,将集合中该序列元素对应的识别结果存入中,再循环遍历剩余
的集合,以及从中找到相应的识别结果存入
中;
8.一种视频多目标表情识别系统,其特征在于,包括:
视频信号采集模块,用于采集用户视频数据;
视频信号预处理模块,用于将采集到的视频数据进行预处理,对视频数据进行抽帧处理;
视频表情识别模块,用于通过设计的网络模型和流程,预测用户面部的情感类型;
数据存储模块,用于利用 MySQL 数据库,存储用户的视频数据和情感标签数据。
9.如权利要求8所述的一种视频多目标表情识别系统,其特征在于,所述视频信号采集模块采用高清晰广角摄像头用于获取到更多的和清晰的人脸目标。
10.如权利要求8所述的一种视频多目标表情识别系统,其特征在于,所述预处理,包括:视频抽帧、人脸检测,首先摄像头获取视频数据有固定的帧率,根据等时间间隔进行抽帧处理,针对人脸检测将采用深度学习模型对视频帧中的人脸目标进行截取。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110446571.8A CN112990119B (zh) | 2021-04-25 | 2021-04-25 | 一种视频多目标人脸表情识别方法和系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110446571.8A CN112990119B (zh) | 2021-04-25 | 2021-04-25 | 一种视频多目标人脸表情识别方法和系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN112990119A true CN112990119A (zh) | 2021-06-18 |
CN112990119B CN112990119B (zh) | 2021-09-10 |
Family
ID=76340090
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110446571.8A Active CN112990119B (zh) | 2021-04-25 | 2021-04-25 | 一种视频多目标人脸表情识别方法和系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112990119B (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116186330A (zh) * | 2023-04-23 | 2023-05-30 | 之江实验室 | 一种基于多模态学习的视频去重方法及装置 |
Citations (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US9600711B2 (en) * | 2012-08-29 | 2017-03-21 | Conduent Business Services, Llc | Method and system for automatically recognizing facial expressions via algorithmic periocular localization |
CN106845385A (zh) * | 2017-01-17 | 2017-06-13 | 腾讯科技(上海)有限公司 | 视频目标跟踪的方法和装置 |
CN106919903A (zh) * | 2017-01-19 | 2017-07-04 | 中国科学院软件研究所 | 一种鲁棒的基于深度学习的连续情绪跟踪方法 |
CN109766767A (zh) * | 2018-12-18 | 2019-05-17 | 深圳壹账通智能科技有限公司 | 行为数据推送方法、装置、计算机设备和存储介质 |
CN110298245A (zh) * | 2019-05-22 | 2019-10-01 | 平安科技(深圳)有限公司 | 兴趣收集方法、装置、计算机设备及存储介质 |
CN110688874A (zh) * | 2018-07-04 | 2020-01-14 | 杭州海康威视数字技术股份有限公司 | 人脸表情识别方法及其装置、可读存储介质和电子设备 |
CN111353366A (zh) * | 2019-08-19 | 2020-06-30 | 深圳市鸿合创新信息技术有限责任公司 | 一种情绪检测方法及装置、电子设备 |
CN111652070A (zh) * | 2020-05-07 | 2020-09-11 | 南京航空航天大学 | 一种基于监控视频的人脸序列协同识别方法 |
CN111783620A (zh) * | 2020-06-29 | 2020-10-16 | 北京百度网讯科技有限公司 | 表情识别方法、装置、设备及存储介质 |
CN112149610A (zh) * | 2020-10-09 | 2020-12-29 | 支付宝(杭州)信息技术有限公司 | 一种目标对象的识别的方法和系统 |
-
2021
- 2021-04-25 CN CN202110446571.8A patent/CN112990119B/zh active Active
Patent Citations (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US9600711B2 (en) * | 2012-08-29 | 2017-03-21 | Conduent Business Services, Llc | Method and system for automatically recognizing facial expressions via algorithmic periocular localization |
CN106845385A (zh) * | 2017-01-17 | 2017-06-13 | 腾讯科技(上海)有限公司 | 视频目标跟踪的方法和装置 |
CN106919903A (zh) * | 2017-01-19 | 2017-07-04 | 中国科学院软件研究所 | 一种鲁棒的基于深度学习的连续情绪跟踪方法 |
CN110688874A (zh) * | 2018-07-04 | 2020-01-14 | 杭州海康威视数字技术股份有限公司 | 人脸表情识别方法及其装置、可读存储介质和电子设备 |
CN109766767A (zh) * | 2018-12-18 | 2019-05-17 | 深圳壹账通智能科技有限公司 | 行为数据推送方法、装置、计算机设备和存储介质 |
CN110298245A (zh) * | 2019-05-22 | 2019-10-01 | 平安科技(深圳)有限公司 | 兴趣收集方法、装置、计算机设备及存储介质 |
CN111353366A (zh) * | 2019-08-19 | 2020-06-30 | 深圳市鸿合创新信息技术有限责任公司 | 一种情绪检测方法及装置、电子设备 |
CN111652070A (zh) * | 2020-05-07 | 2020-09-11 | 南京航空航天大学 | 一种基于监控视频的人脸序列协同识别方法 |
CN111783620A (zh) * | 2020-06-29 | 2020-10-16 | 北京百度网讯科技有限公司 | 表情识别方法、装置、设备及存储介质 |
CN112149610A (zh) * | 2020-10-09 | 2020-12-29 | 支付宝(杭州)信息技术有限公司 | 一种目标对象的识别的方法和系统 |
Non-Patent Citations (4)
Title |
---|
TAIHAO LI等: "Recognize Facial Expression Using Active Appearance Model And Neural Network", 《2017 INTERNATIONAL CONFERENCE ON CYBER-ENABLED DISTRIBUTED COMPUTING AND KNOWLEDGE DISCOVERY》 * |
何晓云等: "基于注意力机制的视频人脸表情识别", 《信息技术》 * |
王晓华等: "基于层级注意力模型的视频序列表情识别", 《计算机辅助设计与图形学学报》 * |
袁新颜: "基于长短期记忆网络与特征融合的微表情识别算法", 《光学技术》 * |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116186330A (zh) * | 2023-04-23 | 2023-05-30 | 之江实验室 | 一种基于多模态学习的视频去重方法及装置 |
Also Published As
Publication number | Publication date |
---|---|
CN112990119B (zh) | 2021-09-10 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Oza et al. | Unsupervised domain adaptation of object detectors: A survey | |
Xu et al. | Segment as points for efficient online multi-object tracking and segmentation | |
Zou et al. | Object detection in 20 years: A survey | |
Fan et al. | Video anomaly detection and localization via gaussian mixture fully convolutional variational autoencoder | |
Zhang et al. | Object fusion tracking based on visible and infrared images: A comprehensive review | |
Li et al. | Spatial-temporal cascade autoencoder for video anomaly detection in crowded scenes | |
Feng et al. | Learning deep event models for crowd anomaly detection | |
Jin et al. | Multi-person articulated tracking with spatial and temporal embeddings | |
Chen et al. | Crowd counting with crowd attention convolutional neural network | |
Li | A deep spatiotemporal perspective for understanding crowd behavior | |
Teng et al. | Robust object tracking based on temporal and spatial deep networks | |
Tanberk et al. | A hybrid deep model using deep learning and dense optical flow approaches for human activity recognition | |
Yin et al. | Region search based on hybrid convolutional neural network in optical remote sensing images | |
Yu et al. | Remotenet: Efficient relevant motion event detection for large-scale home surveillance videos | |
Ji et al. | Graph model-based salient object detection using objectness and multiple saliency cues | |
Xie et al. | Context-aware pedestrian detection especially for small-sized instances with Deconvolution Integrated Faster RCNN (DIF R-CNN) | |
Zhai et al. | Da 2 net: a dual attention-aware network for robust crowd counting | |
CN111931571B (zh) | 基于在线增强检测的视频文字目标追踪方法与电子设备 | |
Xu et al. | Zoomnas: searching for whole-body human pose estimation in the wild | |
Yi et al. | Human action recognition based on action relevance weighted encoding | |
CN112990119B (zh) | 一种视频多目标人脸表情识别方法和系统 | |
Ma et al. | Robust face alignment by dual-attentional spatial-aware capsule networks | |
Zhang et al. | Robust object detection in aerial imagery based on multi-scale detector and soft densely connected | |
Li et al. | Adaptive weighted CNN features integration for correlation filter tracking | |
Wang et al. | Non-local attention association scheme for online multi-object tracking |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |