CN112990119A - 一种视频多目标人脸表情识别方法和系统 - Google Patents

一种视频多目标人脸表情识别方法和系统 Download PDF

Info

Publication number
CN112990119A
CN112990119A CN202110446571.8A CN202110446571A CN112990119A CN 112990119 A CN112990119 A CN 112990119A CN 202110446571 A CN202110446571 A CN 202110446571A CN 112990119 A CN112990119 A CN 112990119A
Authority
CN
China
Prior art keywords
target
video
tracking
frame
face
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202110446571.8A
Other languages
English (en)
Other versions
CN112990119B (zh
Inventor
李太豪
刘昱龙
郑书凯
马诗洁
廖龙飞
谢冰
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Zhejiang Lab
Original Assignee
Zhejiang Lab
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Zhejiang Lab filed Critical Zhejiang Lab
Priority to CN202110446571.8A priority Critical patent/CN112990119B/zh
Publication of CN112990119A publication Critical patent/CN112990119A/zh
Application granted granted Critical
Publication of CN112990119B publication Critical patent/CN112990119B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/16Human faces, e.g. facial parts, sketches or expressions
    • G06V40/174Facial expression recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/20Analysis of motion
    • G06T7/246Analysis of motion using feature-based methods, e.g. the tracking of corners or segments
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • G06V20/46Extracting features or characteristics from the video content, e.g. video fingerprints, representative shots or key frames
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • G06V20/49Segmenting video sequences, i.e. computational techniques such as parsing or cutting the sequence, low-level clustering or determining units such as shots or scenes

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Oral & Maxillofacial Surgery (AREA)
  • Human Computer Interaction (AREA)
  • Computing Systems (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Image Analysis (AREA)

Abstract

本发明属于人工智能领域,具体涉及一种视频多目标人脸表情识别方法和系统,该方法包括如下步骤:S1、抽取视频流中图像帧并提取人脸区域;S2、对视频流中的目标进行人脸跟踪;S3、对跟踪目标进行表情识别;S4、结合历史表情识别结果进行分析。本发明提供的方法,通过融合目标跟踪技术实现视频中多目标表情识别、利用前后帧结果加权提升动态表情识别结果的正确性和鲁棒性,防止视频表情识别结果产生的单帧抖动,同时本发明的视频表情识别系统具有表情分析结果及原始视频存储功能,能够帮助做出合理分析和建议,例如在校教育场景,智能驾驶辅助场景等。

Description

一种视频多目标人脸表情识别方法和系统
技术领域
本发明属于人工智能领域,具体涉及一种视频多目标人脸表情识别方法和系统。
背景技术
人脸表情是最直接、最有效的情感识别模式。在过去的几十年里,人脸表情识别技术得到了越来越多的关注,其应用包括:增强现实(AR)、人机交互、驾驶员疲劳检测、虚拟现实等相关领域。其中表情类别主要包括:生气,害怕,厌恶,开心,悲伤,惊讶以及平静。
目前主流的基于图像的表情识别方法流程为先从图像中找出人脸关键区域,然后提取人脸关键区域的有效特征,最后利用模型对特征进行分类以实现具体表情分类。现阶段,随着深度学习的飞速发展,人脸关键区域提取、关键区域特征提取以及特征分类均可以使用模型进行实现。而针对视频表情识别的方法为将视频解析成帧序列,然后利用图像表情识别方法对每一帧分别进行表情识别然后将单帧识别结果拼接成动态识别结果,或者对帧序列依次进行人脸区域检测和人脸区域特征提取,最后利用时序相关深度学习模型对时序帧进行特征融合及分类得到表情识别结果。
针对上述两种视频表情识别方法,存在以下问题:对于第一种方法,有较快的运行效率,但是由于是对视频中单帧分别进行识别,所以存在表情识别结果不连贯的问题;对于第二种方法,通过综合多帧进行表情识别,有不错的表情连贯性,但是对于计算机资源有非常大的要求,不适用于工业应用。同时,上述两种方案均不能适用于视频中多目标表情动态识别。
发明内容
为了解决现有技术中存在的上述技术问题,本发明提供了一种视频多目标表情识别方法和系统,以解决现有视频表情识别方法中表情识别结果不连贯,模型训练复杂且不能解决视频中多目标表情识别的问题,其具体技术方案如下:
一种视频多目标表情识别方法,包括如下步骤:
S1、获取视频流中任一时刻t的图像帧并提取该图像帧中的所有人脸区域
Figure DEST_PATH_IMAGE001
S2、将步骤S1中人脸区域
Figure 39379DEST_PATH_IMAGE001
输入目标跟踪算法,更新当前帧人脸跟踪区域
Figure DEST_PATH_IMAGE002
和 对应的跟踪序号
Figure DEST_PATH_IMAGE003
S3、将步骤S2中跟踪区域
Figure 628624DEST_PATH_IMAGE002
输入图像表情识别算法,获取当前帧表情识别结果
Figure DEST_PATH_IMAGE004
并与步骤S2中跟踪序号
Figure DEST_PATH_IMAGE005
对齐,最后将
Figure DEST_PATH_IMAGE006
Figure DEST_PATH_IMAGE007
结果存入数据库;
S4、利用步骤S3中识别结果
Figure 532995DEST_PATH_IMAGE006
和跟踪序列号
Figure DEST_PATH_IMAGE008
,并结合步骤S3中数据库中历史 帧的识别结果
Figure DEST_PATH_IMAGE009
以及对应的历史序列号
Figure DEST_PATH_IMAGE010
进行加权判断视频流中t时刻的最终表情识别结果
Figure DEST_PATH_IMAGE011
进一步的,所述步骤S1具体为:
利用深度学习目标检测算法对视频流中的图像帧进行人脸检测,对应当前帧的检 测结果为
Figure DEST_PATH_IMAGE012
,其中
Figure 787258DEST_PATH_IMAGE001
表示视频流中当前时刻t的人脸检测结果 集合,当前帧共包含
Figure DEST_PATH_IMAGE013
个人脸目标,
Figure DEST_PATH_IMAGE014
表示当前时刻帧中的第i个人脸 位置,
Figure DEST_PATH_IMAGE015
值得格式为
Figure DEST_PATH_IMAGE016
,其中
Figure DEST_PATH_IMAGE017
是由 框左上角坐标点的横纵坐标和
Figure DEST_PATH_IMAGE018
右下角坐标点的横纵坐标。
进一步的,所述步骤S2具体包括:
步骤S2.1、假定t-1时刻预测的目标跟踪区域为
Figure DEST_PATH_IMAGE019
,跟 踪序列为
Figure DEST_PATH_IMAGE020
,式中mt-1时刻帧中进行跟踪的人脸目标数量,
Figure DEST_PATH_IMAGE021
为对应第i个人脸的跟踪区域且格式与步骤S1中人脸区域
Figure 110618DEST_PATH_IMAGE001
中任 意元素
Figure 651190DEST_PATH_IMAGE015
格式相同,
Figure DEST_PATH_IMAGE022
Figure DEST_PATH_IMAGE023
对应的跟踪标识号;
步骤S2.2、然后遍历计算序列
Figure DEST_PATH_IMAGE024
中所有元素与人脸区域
Figure DEST_PATH_IMAGE025
中所有元素的相似 度;
步骤S2.3、新建一个跟踪序号集合
Figure DEST_PATH_IMAGE026
,然后根据步骤S2.1两个元素pd 匹配计算方式,如果目标跟踪区域
Figure 777278DEST_PATH_IMAGE024
中未能找到与人脸区域
Figure DEST_PATH_IMAGE027
中任何元素匹配的元 素,从目标跟踪区域
Figure 179440DEST_PATH_IMAGE024
集合中删除该追踪元素且从跟踪序号集合
Figure DEST_PATH_IMAGE028
中删除相对应的跟 踪序号;对人脸区域
Figure 51581DEST_PATH_IMAGE001
中未能找到与目标跟踪区域
Figure 28633DEST_PATH_IMAGE024
中任何元素匹配的元素,则将该 元素存入目标跟踪区域
Figure 251804DEST_PATH_IMAGE024
中,并新增一个跟踪序号与之对应存入跟踪序号集合
Figure 723237DEST_PATH_IMAGE028
中; 对目标跟踪区域
Figure 715464DEST_PATH_IMAGE024
集合中能与人脸区域
Figure 879729DEST_PATH_IMAGE001
匹配的元素进行保留,跟踪序号保持不变, 因此目标跟踪区域
Figure 839463DEST_PATH_IMAGE024
t时刻元素更新为
Figure DEST_PATH_IMAGE029
,然后使用卡尔曼滤波预测
Figure 317849DEST_PATH_IMAGE029
元素对应t 时刻的时间帧的跟踪元素集合
Figure DEST_PATH_IMAGE030
,而跟踪序号
Figure DEST_PATH_IMAGE031
进一步的,所述步骤S2.2具体为:
计算边框重叠率IOU,当IOU重叠率大于设定阈值,则计算像素内容相似度,否则表 明元素pd不匹配;所述边框重叠率IOU的计算方式为:假定目标跟踪区域
Figure 899003DEST_PATH_IMAGE024
中任一元 素
Figure DEST_PATH_IMAGE032
和人脸区域
Figure 421120DEST_PATH_IMAGE001
中任一元素
Figure DEST_PATH_IMAGE033
,令
Figure DEST_PATH_IMAGE034
Figure DEST_PATH_IMAGE035
Figure DEST_PATH_IMAGE036
Figure DEST_PATH_IMAGE037
,则有:
Figure DEST_PATH_IMAGE038
其中,IOU即为区域边框元素pd的重叠率;
Figure DEST_PATH_IMAGE039
是坐标系X方向的重叠距离,当 两坐标在X坐标轴方向无重叠时取0;
Figure DEST_PATH_IMAGE040
是坐标系Y方向的重叠距离,当两坐标在Y坐标 轴方向无重叠时取0;
Figure DEST_PATH_IMAGE041
是元素d的区域面积;
Figure DEST_PATH_IMAGE042
是元素p的区域面积;overlap是两个矩形框的重叠面积;
设定一个阈值
Figure DEST_PATH_IMAGE043
,如果IOU大于
Figure DEST_PATH_IMAGE044
,则认为所述pd的重叠度满足目标移动的 位置变化条件;
计算像素内容相似度,如果最终内容相似度大于设定阈值,则表明pd两个元素匹配,否则表明该两个元素不匹配,所述图像区域像素内容相似度计算方式如下:
针对元素pd,从原始图像帧中截取对应区域的图像内容
Figure DEST_PATH_IMAGE045
Figure DEST_PATH_IMAGE046
将所述
Figure 60961DEST_PATH_IMAGE045
Figure 608617DEST_PATH_IMAGE046
输入卷积神经网络模型得到特征维度相同的特征向量FTFD
计算特征向量FTFD的余弦距离L,计算方式如下;
Figure DEST_PATH_IMAGE047
同样,设定阈值
Figure DEST_PATH_IMAGE048
,如果L大于设定的阈值
Figure 44278DEST_PATH_IMAGE048
,则表明元素pd对应的图像内容 一致,则pd构成一对匹配的序列对(pd),否则pd不匹配。
进一步的,所述步骤S3具体为:
针对步骤S2更新的目标跟踪区域元素的位置集合
Figure DEST_PATH_IMAGE049
,该时 刻对应的跟踪序号集合为
Figure DEST_PATH_IMAGE050
,假定从t时刻的时间帧中截取出所有
Figure DEST_PATH_IMAGE051
元素对应的像素区域为
Figure DEST_PATH_IMAGE052
,然后通过卷积神经网络模型对
Figure DEST_PATH_IMAGE053
中的 元素依次进行表情识别,得到对应识别结果集合
Figure DEST_PATH_IMAGE054
,其中卷积神经 网络模型为预先训练好的VGG-16网络模型,最后将
Figure DEST_PATH_IMAGE055
Figure DEST_PATH_IMAGE056
存入数据库中用于后续帧的 最终识别结果调用。
进一步的,所述卷积神经网络模型为预先训练好的VGG-16网络模型。
进一步的,所述步骤S4具体为:
已知步骤S3计算出的当前帧识别结果
Figure 596351DEST_PATH_IMAGE056
和相对应的跟踪序列号
Figure 281410DEST_PATH_IMAGE055
,以及从步骤 S3中提及的数据库中提取的当前帧的前k个历史帧识别结果
Figure DEST_PATH_IMAGE057
和相 对应的前k个历史帧的跟踪序列
Figure DEST_PATH_IMAGE058
,针对当前帧的最终识别结果
Figure 85287DEST_PATH_IMAGE011
Figure DEST_PATH_IMAGE059
Figure DEST_PATH_IMAGE060
加权而成,计算方式如下:
先新建一个包含与
Figure 359142DEST_PATH_IMAGE055
集合长度相同的空容器集合
Figure DEST_PATH_IMAGE061
遍历集合
Figure 504953DEST_PATH_IMAGE055
中的元素,对于集合
Figure 411729DEST_PATH_IMAGE055
中任一元素
Figure DEST_PATH_IMAGE062
,将表情识别结果集合
Figure DEST_PATH_IMAGE063
中元素
Figure DEST_PATH_IMAGE064
存入容器集合
Figure DEST_PATH_IMAGE065
中的对应
Figure DEST_PATH_IMAGE066
子容器中,然后遍历
Figure DEST_PATH_IMAGE067
中的元素,如果存在与 元素
Figure 143930DEST_PATH_IMAGE062
相等的元素,将集合
Figure DEST_PATH_IMAGE068
中该序列元素对应的识别结果存入
Figure 819762DEST_PATH_IMAGE066
中,再循环遍历 剩余的集合
Figure DEST_PATH_IMAGE069
,以及从
Figure DEST_PATH_IMAGE070
中找到相应的识别结果存入
Figure 137740DEST_PATH_IMAGE066
中;
遍历所述生成的容器集合
Figure 531813DEST_PATH_IMAGE065
,对于该集合中任意元素
Figure 490541DEST_PATH_IMAGE066
存储着当前帧以及历 史帧中跟踪序号为
Figure 20880DEST_PATH_IMAGE062
的表情识别结果,假定容器
Figure 774072DEST_PATH_IMAGE066
中存储着m个表情识别结果
Figure DEST_PATH_IMAGE071
,则对应当前帧跟踪序列号
Figure 639129DEST_PATH_IMAGE062
的最终结果
Figure DEST_PATH_IMAGE072
,即从
Figure DEST_PATH_IMAGE073
中找出出现次数 最多的表情作为结果,最后,生成最终表情集合
Figure DEST_PATH_IMAGE074
,实现了视频场景 中多目标表情识别的最终结果。
一种视频多目标表情识别系统,包括:
视频信号采集模块,用于采集用户视频数据;
视频信号预处理模块,用于将采集到的视频数据进行预处理,对视频数据进行抽帧处理;
视频表情识别模块,用于通过设计的网络模型和流程,预测用户面部的情感类型;
数据存储模块,用于利用 MySQL 数据库,存储用户的视频数据和情感标签数据。
进一步的,所述视频信号采集模块采用高清晰广角摄像头用于获取到更多的和清晰的人脸目标。
进一步的,所述预处理,包括:视频抽帧、人脸检测,首先摄像头获取视频数据有固定的帧率,根据等时间间隔进行抽帧处理,针对人脸检测将采用深度学习模型对视频帧中的人脸目标进行截取。
本发明的优点如下:
本发明提出了一种基于目标追踪的方法来保证目标在视频流中的连续性的方式,实现了多目标场景下的视频表情识别。
通过利用多帧识别结果对当前表情识别结果进行加权,提高了视频表情识别的鲁棒性,防止视频表情识别结果产生的单帧抖动,同时通过加权方式进行表情识别对比通过多模型融合特征识别将极大提高识别效率,可以运用到工业中。
本发明的视频表情识别系统具有表情分析结果及原始视频存储功能,能够帮助做出合理分析和建议,例如在校教育场景,智能驾驶辅助场景等。
附图说明
图1 为本发明系统的结构示意图;
图2为本发明方法的流程图;
图3为VGG-16网络结构图。
具体实施方式
为了使本发明的目的、技术方案和技术效果更加清楚明白,以下结合说明书 附图,对本发明作进一步详细说明。
参照图1所示,一种视频多目标表情识别系统,包括:
视频信号采集模块,用于采集用户视频数据,一般采用高清广角摄像头,以获取到更多的人脸数据;
视频信号预处理模块,用于将采集到的视频数据进行预处理:包含视频抽帧和人脸目标检测。由于连续视频帧存在大量重复冗余,因此对视频数据抽帧处理,减少后续情感识别处理数据量,可较大提高系统运行效率,具体为:针对一个帧率为30fps的视频,将采用1秒抽5帧;目标检测方法将采用神经网络模型SSD( Single Shot MultiBox Detector)对视频中人脸目标进行提取。
视频表情识别模块,用于通过设计的网络模型和流程,预测用户面部的情感类型;
数据存储模块,用于利用 MySQL 数据库,存储用户的视频数据和情感标签数据。
参照图2-3所示,本发明的一种视频多目标表情识别方法包括如下几个步骤:
步骤S1、抽取视频流中图像帧并提取人脸区域。
所述视频流可通过实时摄像头中获取,也可是用户已有视频数据库中的视频数据。然后将视频进行等间隔抽帧处理,考虑到相邻几帧图像内容重复性过多且表情变化不大,所以本发明优选的,针对所有不同帧率的视频都将进行1秒抽10帧进行处理,提升计算效率降低计算资源的消耗。然后对抽取的单帧图像进行人脸检测。随着深度学习的发展,目前人脸检测的方法通常采用深度学习的模型进行处理,例如用于人脸目标检测的SSD结构和MTCNN人脸检测算法;
假定,对当前抽取出的图像帧的检测结果为
Figure DEST_PATH_IMAGE075
,其中式中
Figure 57341DEST_PATH_IMAGE001
表 示视频流中当前时刻t的人脸检测结果集合,当前帧共包含n个人脸目标,
Figure DEST_PATH_IMAGE076
表示当前时刻帧中的第i个人脸位置,
Figure 442186DEST_PATH_IMAGE015
值得格式为
Figure DEST_PATH_IMAGE077
,其中
Figure DEST_PATH_IMAGE078
是由框左上角坐标点的横 纵坐标和
Figure 553230DEST_PATH_IMAGE018
右下角坐标点的横纵坐标;
步骤S2、对视频流中的目标进行人脸跟踪;
在步骤S1中提取人脸区域后,假定当前抽帧时刻为t,上一个处理帧为t-1时刻且 从历史数据库中得到t-1时刻的目标跟踪区域为
Figure DEST_PATH_IMAGE079
以及跟踪序 列为
Figure DEST_PATH_IMAGE080
,式中mt-1时刻帧中进行跟踪的人脸目标数量,
Figure DEST_PATH_IMAGE081
为对应第i个人脸的跟踪区域且格式与步骤S1中人脸区域
Figure 859578DEST_PATH_IMAGE001
中任 意元素
Figure 143797DEST_PATH_IMAGE015
格式相同,
Figure DEST_PATH_IMAGE082
Figure DEST_PATH_IMAGE083
对应的跟踪标识号。然后遍历计算序列
Figure DEST_PATH_IMAGE084
中所有元素与人脸区域
Figure 851990DEST_PATH_IMAGE001
中所有元素的相似度,计算流程如下:
计算边框重叠率(IOU,Intersection over Union),如果IOU重叠率大于设定阈值,则计算像素内容相似度,否则表明该两个元素不匹配;
计算像素内容相似度,如果最终内容相似度大于设定阈值,则表明该两个元素匹配,否则不匹配;
通常,计算边框重叠率中两个目标框的IOU计算方式为:假定目标跟踪区域
Figure 196253DEST_PATH_IMAGE084
中任一元素
Figure DEST_PATH_IMAGE085
和人脸区域
Figure 521055DEST_PATH_IMAGE001
中任一元素
Figure 625277DEST_PATH_IMAGE033
,令
Figure 984714DEST_PATH_IMAGE034
Figure DEST_PATH_IMAGE086
Figure DEST_PATH_IMAGE087
Figure 968720DEST_PATH_IMAGE037
,则有:
Figure DEST_PATH_IMAGE088
其中,IOU即为区域边框元素pd的重叠率;
Figure 780818DEST_PATH_IMAGE039
是坐标系X方向的重叠距离,当 两坐标在X坐标轴方向无重叠时取0;
Figure 672420DEST_PATH_IMAGE040
是坐标系Y方向的重叠距离,当两坐标在Y坐标 轴方向无重叠时取0;
Figure 417522DEST_PATH_IMAGE041
是元素d的区域面积;
Figure DEST_PATH_IMAGE089
是元素p的区域面积;overlap是两个矩形框的重叠面积。
进一步,设定一个阈值
Figure DEST_PATH_IMAGE090
,如果IOU大于
Figure 57582DEST_PATH_IMAGE044
,表明pd的重叠度高,优选的,经 过实验分析阈值
Figure 877682DEST_PATH_IMAGE090
取0.6会使系统保持稳定。
所述元素pd对应图像区域内容的相似度计算方式如下:
针对元素pd,从原始图像帧中截取对应区域的图像内容
Figure 323707DEST_PATH_IMAGE045
Figure 657736DEST_PATH_IMAGE046
Figure 531014DEST_PATH_IMAGE045
Figure DEST_PATH_IMAGE091
输入同一卷积神经网络模型得到对应的特征向量FTFD
计算特征向量FTFD的余弦距离L,计算方式如下;
Figure DEST_PATH_IMAGE092
如果L大于设定的阈值
Figure DEST_PATH_IMAGE093
,则表明元素pd对应的图像内容一致,则pd构成一 对匹配的序列对(pd),否则pd不匹配,优选的,经过实验分析内容相似度阈值
Figure 770235DEST_PATH_IMAGE093
取0.8。
针对
Figure 488792DEST_PATH_IMAGE024
中未能找到与
Figure 208486DEST_PATH_IMAGE001
中任何元素匹配的元素,从
Figure 987086DEST_PATH_IMAGE024
集合中删除该追踪元 素且从集合中删除相对应的跟踪序号;对
Figure 41499DEST_PATH_IMAGE001
中未能找到与
Figure 563747DEST_PATH_IMAGE024
中任何元素匹配的元素, 则将该元素存入
Figure 137948DEST_PATH_IMAGE024
中,并新增一个跟踪序号与之对应存入
Figure DEST_PATH_IMAGE094
中;对
Figure 556291DEST_PATH_IMAGE084
集合中能与
Figure 832420DEST_PATH_IMAGE001
匹配的元素进行保留,跟踪序号保持不变,因此
Figure 158360DEST_PATH_IMAGE084
在时刻元素更新为
Figure 587067DEST_PATH_IMAGE029
Figure 707470DEST_PATH_IMAGE094
t 时刻元素更新为
Figure DEST_PATH_IMAGE095
,然后使用卡尔曼滤波预测
Figure 205316DEST_PATH_IMAGE029
元素对应t时刻的时间帧的跟踪元素集 合
Figure DEST_PATH_IMAGE096
,而跟踪序号
Figure 803787DEST_PATH_IMAGE031
步骤S3、对跟踪目标进行表情识别;
针对步骤S2更新的t时刻跟踪人脸元素的位置集合
Figure DEST_PATH_IMAGE097
,该 时刻对应的跟踪序号集合为
Figure 555843DEST_PATH_IMAGE050
,假定从t时刻的时间帧中截取出所 有
Figure 361994DEST_PATH_IMAGE051
元素对应的像素区域为
Figure 363448DEST_PATH_IMAGE052
,然后通过卷积神经网络模型对
Figure 31189DEST_PATH_IMAGE053
中 的元素依次进行表情识别,得到对应识别结果集合
Figure 168910DEST_PATH_IMAGE054
,同时将识别 结果集合
Figure 896694DEST_PATH_IMAGE056
和跟踪序号集合
Figure 385444DEST_PATH_IMAGE055
存放到数据库中用于后续帧的最终识别结果处理,其中 卷积神经网络模型为预先训练好的VGG-16网络模型。表情种类为7种:开心,平静,愤怒,惊 讶,伤心,嫌弃,害怕。VGG-16网络模型如图3所示,该VGG-16网络模型由convelution(卷积) +ReLU函数模块、max pooling(最大池化)模块、fully connected(全连接)+ReLU函数模块 和softmax函数模块连接而成。
步骤S4、结合历史表情识别结果进行分析:
已知步骤S3计算出的当前帧识别结果
Figure 840565DEST_PATH_IMAGE056
和相对应的跟踪序列号
Figure 98371DEST_PATH_IMAGE055
,以及当前帧 的前k个历史跟踪帧的识别结果
Figure DEST_PATH_IMAGE098
和相对应的前k个历史跟踪帧的序 列
Figure DEST_PATH_IMAGE099
,当前帧的最终识别结果
Figure DEST_PATH_IMAGE100
Figure 918429DEST_PATH_IMAGE059
Figure DEST_PATH_IMAGE101
加权 而成,本发明方案中k取值为5,且当前成最终表情识别计算方式如下:
先新建一个包含与
Figure 97737DEST_PATH_IMAGE055
集合长度相同的空容器集合
Figure DEST_PATH_IMAGE102
遍历集合
Figure 841702DEST_PATH_IMAGE055
中的元素,对于集合
Figure 197423DEST_PATH_IMAGE055
中任一元素
Figure 735852DEST_PATH_IMAGE062
,将表情识别结果集合
Figure DEST_PATH_IMAGE103
中元素
Figure 668036DEST_PATH_IMAGE064
存入容器集合
Figure 730539DEST_PATH_IMAGE065
中的对应
Figure 697358DEST_PATH_IMAGE066
子容器中,然后遍历
Figure 672267DEST_PATH_IMAGE067
中的元素,如果存在与 元素
Figure 622905DEST_PATH_IMAGE062
相等的元素,将集合
Figure 974252DEST_PATH_IMAGE068
中该序列元素对应的识别结果存入
Figure 310425DEST_PATH_IMAGE066
中,再循环遍历 剩余的集合
Figure DEST_PATH_IMAGE104
,以及从
Figure DEST_PATH_IMAGE105
中找到相应的识别结果存入
Figure 190656DEST_PATH_IMAGE066
遍历生成的容器集合
Figure 97432DEST_PATH_IMAGE065
,对于该集合中任意元素
Figure 236158DEST_PATH_IMAGE066
存储着当前帧以及历史帧 中跟踪序号为
Figure 443149DEST_PATH_IMAGE062
的表情识别结果,假定容器
Figure 759860DEST_PATH_IMAGE066
中存储着m个表情识别结果
Figure 419512DEST_PATH_IMAGE071
,则对应当前帧跟踪序列号
Figure 378241DEST_PATH_IMAGE062
的最终结果
Figure DEST_PATH_IMAGE106
,即从
Figure DEST_PATH_IMAGE107
中找出出现次数 最多的表情作为结果,最后,生成最终表情集合
Figure DEST_PATH_IMAGE108
综上所述,本发明提供的方法,通过融合目标跟踪技术实现视频中多目标表情识别、利用前后帧结果加权提升动态表情识别结果的准确性和鲁棒性。
以上所述,仅为本发明的优选实施案例,并非对本发明做任何形式上的限制。 虽然前文对本发明的实施过程进行了详细说明,对于熟悉本领域的人员来说,其依然可以对前述各实例记载的技术方案进行修改,或者对其中部分技术特征进行同等替换。凡在本发明精神和原则之内所做修改、同等替换等,均应包含在本发明的保护范围之内。

Claims (10)

1.一种视频多目标表情识别方法,其特征在于,包括如下步骤:
S1、获取视频流中任一时刻t的图像帧并提取该图像帧中的所有人脸区域
Figure 577007DEST_PATH_IMAGE001
S2、将步骤S1中人脸区域
Figure 87623DEST_PATH_IMAGE001
输入目标跟踪算法,更新当前帧人脸跟踪区域
Figure 336202DEST_PATH_IMAGE002
和对应 的跟踪序号
Figure 75619DEST_PATH_IMAGE003
S3、将步骤S2中跟踪区域
Figure 358833DEST_PATH_IMAGE002
输入图像表情识别算法,获取当前帧表情识别结果
Figure 774771DEST_PATH_IMAGE004
并 与步骤S2中跟踪序号
Figure 510645DEST_PATH_IMAGE005
对齐,最后将
Figure 788174DEST_PATH_IMAGE006
Figure 50528DEST_PATH_IMAGE007
结果存入数据库;
S4、利用步骤S3中识别结果
Figure 512734DEST_PATH_IMAGE006
和跟踪序列号
Figure 611271DEST_PATH_IMAGE008
,并结合步骤S3中数据库中历史帧的 识别结果
Figure 817124DEST_PATH_IMAGE009
以及对应的历史序列号
Figure 933985DEST_PATH_IMAGE010
进行加权判断视频流中t时刻的最终表情识别结果
Figure 832671DEST_PATH_IMAGE011
2.如权利要求1所述的一种视频多目标表情识别方法,其特征在于,所述步骤S1具体为:
利用深度学习目标检测算法对视频流中的图像帧进行人脸检测,对应当前帧的检测结 果为
Figure 808717DEST_PATH_IMAGE012
,其中
Figure 448556DEST_PATH_IMAGE001
表示视频流中当前时刻t的人脸检测结果集 合,当前帧共包含
Figure 560868DEST_PATH_IMAGE013
个人脸目标,
Figure 755089DEST_PATH_IMAGE014
表示当前时刻帧中的第i个人脸位 置,
Figure 952853DEST_PATH_IMAGE015
值得格式为
Figure 375875DEST_PATH_IMAGE016
,其中
Figure 342694DEST_PATH_IMAGE017
是由框 左上角坐标点的横纵坐标和
Figure 707816DEST_PATH_IMAGE018
右下角坐标点的横纵坐标。
3.如权利要求2所述的一种视频多目标表情识别方法,其特征在于,所述步骤S2具体包括:
步骤S2.1、假定t-1时刻预测的目标跟踪区域为
Figure 392875DEST_PATH_IMAGE019
,跟踪序 列为
Figure 744222DEST_PATH_IMAGE020
,式中mt-1时刻帧中进行跟踪的人脸目标数量,
Figure 706493DEST_PATH_IMAGE021
为对应第i个人脸的跟踪区域且格式与步骤S1中人脸区域
Figure 117883DEST_PATH_IMAGE001
中任 意元素
Figure 149293DEST_PATH_IMAGE015
格式相同,
Figure 773172DEST_PATH_IMAGE022
Figure 589950DEST_PATH_IMAGE023
对应的跟踪标识号;
步骤S2.2、然后遍历计算序列
Figure 172241DEST_PATH_IMAGE024
中所有元素与人脸区域
Figure 690947DEST_PATH_IMAGE025
中所有元素的相似度;
步骤S2.3、新建一个跟踪序号集合
Figure 384096DEST_PATH_IMAGE026
,然后根据步骤S2.1两个元素pd匹配 计算方式,如果目标跟踪区域
Figure 521292DEST_PATH_IMAGE024
中未能找到与人脸区域
Figure 399118DEST_PATH_IMAGE027
中任何元素匹配的元素,从 目标跟踪区域
Figure 280486DEST_PATH_IMAGE024
集合中删除该追踪元素且从跟踪序号集合
Figure 652693DEST_PATH_IMAGE028
中删除相对应的跟踪序 号;对人脸区域
Figure 303117DEST_PATH_IMAGE001
中未能找到与目标跟踪区域
Figure 820686DEST_PATH_IMAGE024
中任何元素匹配的元素,则将该元素 存入目标跟踪区域
Figure 189351DEST_PATH_IMAGE024
中,并新增一个跟踪序号与之对应存入跟踪序号集合
Figure 834090DEST_PATH_IMAGE028
中;对目 标跟踪区域
Figure 870179DEST_PATH_IMAGE024
集合中能与人脸区域
Figure 558649DEST_PATH_IMAGE001
匹配的元素进行保留,跟踪序号保持不变,因此 目标跟踪区域
Figure 289976DEST_PATH_IMAGE024
t时刻元素更新为
Figure 394198DEST_PATH_IMAGE029
,然后使用卡尔曼滤波预测
Figure 753635DEST_PATH_IMAGE029
元素对应t时刻 的时间帧的跟踪元素集合
Figure 144165DEST_PATH_IMAGE030
,而跟踪序号
Figure 221843DEST_PATH_IMAGE031
4.如权利要求3所述的一种视频多目标表情识别方法,其特征在于,所述步骤S2.2具体为:
计算边框重叠率IOU,当IOU重叠率大于设定阈值,则计算像素内容相似度,否则表明元 素pd不匹配;所述边框重叠率IOU的计算方式为:假定目标跟踪区域
Figure 736613DEST_PATH_IMAGE024
中任一元素
Figure 216136DEST_PATH_IMAGE032
和人脸区域
Figure 777568DEST_PATH_IMAGE001
中任一元素
Figure 952328DEST_PATH_IMAGE033
,令
Figure 132774DEST_PATH_IMAGE034
Figure 591437DEST_PATH_IMAGE035
Figure 933556DEST_PATH_IMAGE036
Figure 126772DEST_PATH_IMAGE037
,则有:
Figure 845329DEST_PATH_IMAGE038
其中,IOU即为区域边框元素pd的重叠率;
Figure 424078DEST_PATH_IMAGE039
是坐标系X方向的重叠距离,当两坐标 在X坐标轴方向无重叠时取0;
Figure 202678DEST_PATH_IMAGE040
是坐标系Y方向的重叠距离,当两坐标在Y坐标轴方向 无重叠时取0;
Figure 352031DEST_PATH_IMAGE041
是元素d的区域面积;
Figure 733333DEST_PATH_IMAGE042
是元素p的区域面积;overlap是两 个矩形框的重叠面积;
设定一个阈值
Figure 41955DEST_PATH_IMAGE043
,如果IOU大于
Figure 863893DEST_PATH_IMAGE044
,则认为所述pd的重叠度满足目标移动的位置 变化条件;
计算像素内容相似度,如果最终内容相似度大于设定阈值,则表明pd两个元素匹配,否则表明该两个元素不匹配,所述图像区域像素内容相似度计算方式如下:
针对元素pd,从原始图像帧中截取对应区域的图像内容
Figure 359596DEST_PATH_IMAGE045
Figure 810169DEST_PATH_IMAGE046
将所述
Figure 973297DEST_PATH_IMAGE045
Figure 437908DEST_PATH_IMAGE046
输入卷积神经网络模型得到特征维度相同的特征向量FTFD
计算特征向量FTFD的余弦距离L,计算方式如下;
Figure 76700DEST_PATH_IMAGE047
同样,设定阈值
Figure 206330DEST_PATH_IMAGE048
,如果L大于设定的阈值
Figure 99330DEST_PATH_IMAGE048
,则表明元素pd对应的图像内容一 致,则pd构成一对匹配的序列对(pd),否则pd不匹配。
5.如权利要求3所述的一种视频多目标表情识别方法,其特征在于,所述步骤S3具体为:
针对步骤S2更新的目标跟踪区域元素的位置集合
Figure 656214DEST_PATH_IMAGE049
,该时刻对 应的跟踪序号集合为
Figure 657668DEST_PATH_IMAGE050
,假定从t时刻的时间帧中截取出所有
Figure 184464DEST_PATH_IMAGE051
元素对应的像素区域为
Figure 931971DEST_PATH_IMAGE052
,然后通过卷积神经网络模型对
Figure 659756DEST_PATH_IMAGE053
中的元素 依次进行表情识别,得到对应识别结果集合
Figure 148506DEST_PATH_IMAGE054
,其中卷积神经网络模 型为预先训练好的VGG-16网络模型,最后将
Figure 478993DEST_PATH_IMAGE055
Figure 471220DEST_PATH_IMAGE056
存入数据库中用于后续帧的最终识 别结果调用。
6.如权利要求5所述的一种视频多目标表情识别方法,其特征在于,所述卷积神经网络模型为预先训练好的VGG-16网络模型。
7.如权利要求5所述的一种视频多目标表情识别方法,其特征在于,所述步骤S4具体为:
已知步骤S3计算出的当前帧识别结果
Figure 242342DEST_PATH_IMAGE056
和相对应的跟踪序列号
Figure 687230DEST_PATH_IMAGE055
,以及从步骤S3中 提及的数据库中提取的当前帧的前k个历史帧识别结果
Figure 86987DEST_PATH_IMAGE057
和相对应 的前k个历史帧的跟踪序列
Figure 199300DEST_PATH_IMAGE058
,针对当前帧的最终识别结果
Figure 268887DEST_PATH_IMAGE011
Figure 342017DEST_PATH_IMAGE059
Figure 889673DEST_PATH_IMAGE060
加权而成,计算方式如下:
先新建一个包含与
Figure 981125DEST_PATH_IMAGE055
集合长度相同的空容器集合
Figure 221614DEST_PATH_IMAGE061
遍历集合
Figure 782039DEST_PATH_IMAGE055
中的元素,对于集合
Figure 133386DEST_PATH_IMAGE055
中任一元素
Figure 220291DEST_PATH_IMAGE062
,将表情识别结果集合
Figure 756314DEST_PATH_IMAGE063
中元 素
Figure 663091DEST_PATH_IMAGE064
存入容器集合
Figure 427915DEST_PATH_IMAGE065
中的对应
Figure 369327DEST_PATH_IMAGE066
子容器中,然后遍历
Figure 76251DEST_PATH_IMAGE067
中的元素,如果存在与元素
Figure 470324DEST_PATH_IMAGE062
相等的元素,将集合
Figure 35910DEST_PATH_IMAGE068
中该序列元素对应的识别结果存入
Figure 831827DEST_PATH_IMAGE066
中,再循环遍历剩余 的集合
Figure 850599DEST_PATH_IMAGE069
,以及从
Figure 856601DEST_PATH_IMAGE070
中找到相应的识别结果存入
Figure 87862DEST_PATH_IMAGE066
中;
遍历所述生成的容器集合
Figure 613653DEST_PATH_IMAGE065
,对于该集合中任意元素
Figure 803326DEST_PATH_IMAGE066
存储着当前帧以及历史帧中 跟踪序号为
Figure 296624DEST_PATH_IMAGE062
的表情识别结果,假定容器
Figure 331576DEST_PATH_IMAGE066
中存储着m个表情识别结果
Figure 711873DEST_PATH_IMAGE071
,则对应当前帧跟踪序列号
Figure 72447DEST_PATH_IMAGE062
的最终结果
Figure 928407DEST_PATH_IMAGE072
,即从
Figure 626105DEST_PATH_IMAGE073
中找出出现次数 最多的表情作为结果,最后,生成最终表情集合
Figure 251121DEST_PATH_IMAGE074
,实现了视频场景 中多目标表情识别的最终结果。
8.一种视频多目标表情识别系统,其特征在于,包括:
视频信号采集模块,用于采集用户视频数据;
视频信号预处理模块,用于将采集到的视频数据进行预处理,对视频数据进行抽帧处理;
视频表情识别模块,用于通过设计的网络模型和流程,预测用户面部的情感类型;
数据存储模块,用于利用 MySQL 数据库,存储用户的视频数据和情感标签数据。
9.如权利要求8所述的一种视频多目标表情识别系统,其特征在于,所述视频信号采集模块采用高清晰广角摄像头用于获取到更多的和清晰的人脸目标。
10.如权利要求8所述的一种视频多目标表情识别系统,其特征在于,所述预处理,包括:视频抽帧、人脸检测,首先摄像头获取视频数据有固定的帧率,根据等时间间隔进行抽帧处理,针对人脸检测将采用深度学习模型对视频帧中的人脸目标进行截取。
CN202110446571.8A 2021-04-25 2021-04-25 一种视频多目标人脸表情识别方法和系统 Active CN112990119B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110446571.8A CN112990119B (zh) 2021-04-25 2021-04-25 一种视频多目标人脸表情识别方法和系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110446571.8A CN112990119B (zh) 2021-04-25 2021-04-25 一种视频多目标人脸表情识别方法和系统

Publications (2)

Publication Number Publication Date
CN112990119A true CN112990119A (zh) 2021-06-18
CN112990119B CN112990119B (zh) 2021-09-10

Family

ID=76340090

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110446571.8A Active CN112990119B (zh) 2021-04-25 2021-04-25 一种视频多目标人脸表情识别方法和系统

Country Status (1)

Country Link
CN (1) CN112990119B (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116186330A (zh) * 2023-04-23 2023-05-30 之江实验室 一种基于多模态学习的视频去重方法及装置

Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9600711B2 (en) * 2012-08-29 2017-03-21 Conduent Business Services, Llc Method and system for automatically recognizing facial expressions via algorithmic periocular localization
CN106845385A (zh) * 2017-01-17 2017-06-13 腾讯科技(上海)有限公司 视频目标跟踪的方法和装置
CN106919903A (zh) * 2017-01-19 2017-07-04 中国科学院软件研究所 一种鲁棒的基于深度学习的连续情绪跟踪方法
CN109766767A (zh) * 2018-12-18 2019-05-17 深圳壹账通智能科技有限公司 行为数据推送方法、装置、计算机设备和存储介质
CN110298245A (zh) * 2019-05-22 2019-10-01 平安科技(深圳)有限公司 兴趣收集方法、装置、计算机设备及存储介质
CN110688874A (zh) * 2018-07-04 2020-01-14 杭州海康威视数字技术股份有限公司 人脸表情识别方法及其装置、可读存储介质和电子设备
CN111353366A (zh) * 2019-08-19 2020-06-30 深圳市鸿合创新信息技术有限责任公司 一种情绪检测方法及装置、电子设备
CN111652070A (zh) * 2020-05-07 2020-09-11 南京航空航天大学 一种基于监控视频的人脸序列协同识别方法
CN111783620A (zh) * 2020-06-29 2020-10-16 北京百度网讯科技有限公司 表情识别方法、装置、设备及存储介质
CN112149610A (zh) * 2020-10-09 2020-12-29 支付宝(杭州)信息技术有限公司 一种目标对象的识别的方法和系统

Patent Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9600711B2 (en) * 2012-08-29 2017-03-21 Conduent Business Services, Llc Method and system for automatically recognizing facial expressions via algorithmic periocular localization
CN106845385A (zh) * 2017-01-17 2017-06-13 腾讯科技(上海)有限公司 视频目标跟踪的方法和装置
CN106919903A (zh) * 2017-01-19 2017-07-04 中国科学院软件研究所 一种鲁棒的基于深度学习的连续情绪跟踪方法
CN110688874A (zh) * 2018-07-04 2020-01-14 杭州海康威视数字技术股份有限公司 人脸表情识别方法及其装置、可读存储介质和电子设备
CN109766767A (zh) * 2018-12-18 2019-05-17 深圳壹账通智能科技有限公司 行为数据推送方法、装置、计算机设备和存储介质
CN110298245A (zh) * 2019-05-22 2019-10-01 平安科技(深圳)有限公司 兴趣收集方法、装置、计算机设备及存储介质
CN111353366A (zh) * 2019-08-19 2020-06-30 深圳市鸿合创新信息技术有限责任公司 一种情绪检测方法及装置、电子设备
CN111652070A (zh) * 2020-05-07 2020-09-11 南京航空航天大学 一种基于监控视频的人脸序列协同识别方法
CN111783620A (zh) * 2020-06-29 2020-10-16 北京百度网讯科技有限公司 表情识别方法、装置、设备及存储介质
CN112149610A (zh) * 2020-10-09 2020-12-29 支付宝(杭州)信息技术有限公司 一种目标对象的识别的方法和系统

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
TAIHAO LI等: "Recognize Facial Expression Using Active Appearance Model And Neural Network", 《2017 INTERNATIONAL CONFERENCE ON CYBER-ENABLED DISTRIBUTED COMPUTING AND KNOWLEDGE DISCOVERY》 *
何晓云等: "基于注意力机制的视频人脸表情识别", 《信息技术》 *
王晓华等: "基于层级注意力模型的视频序列表情识别", 《计算机辅助设计与图形学学报》 *
袁新颜: "基于长短期记忆网络与特征融合的微表情识别算法", 《光学技术》 *

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116186330A (zh) * 2023-04-23 2023-05-30 之江实验室 一种基于多模态学习的视频去重方法及装置

Also Published As

Publication number Publication date
CN112990119B (zh) 2021-09-10

Similar Documents

Publication Publication Date Title
Oza et al. Unsupervised domain adaptation of object detectors: A survey
Xu et al. Segment as points for efficient online multi-object tracking and segmentation
Zou et al. Object detection in 20 years: A survey
Fan et al. Video anomaly detection and localization via gaussian mixture fully convolutional variational autoencoder
Zhang et al. Object fusion tracking based on visible and infrared images: A comprehensive review
Li et al. Spatial-temporal cascade autoencoder for video anomaly detection in crowded scenes
Feng et al. Learning deep event models for crowd anomaly detection
Jin et al. Multi-person articulated tracking with spatial and temporal embeddings
Chen et al. Crowd counting with crowd attention convolutional neural network
Li A deep spatiotemporal perspective for understanding crowd behavior
Teng et al. Robust object tracking based on temporal and spatial deep networks
Tanberk et al. A hybrid deep model using deep learning and dense optical flow approaches for human activity recognition
Yin et al. Region search based on hybrid convolutional neural network in optical remote sensing images
Yu et al. Remotenet: Efficient relevant motion event detection for large-scale home surveillance videos
Ji et al. Graph model-based salient object detection using objectness and multiple saliency cues
Xie et al. Context-aware pedestrian detection especially for small-sized instances with Deconvolution Integrated Faster RCNN (DIF R-CNN)
Zhai et al. Da 2 net: a dual attention-aware network for robust crowd counting
CN111931571B (zh) 基于在线增强检测的视频文字目标追踪方法与电子设备
Xu et al. Zoomnas: searching for whole-body human pose estimation in the wild
Yi et al. Human action recognition based on action relevance weighted encoding
CN112990119B (zh) 一种视频多目标人脸表情识别方法和系统
Ma et al. Robust face alignment by dual-attentional spatial-aware capsule networks
Zhang et al. Robust object detection in aerial imagery based on multi-scale detector and soft densely connected
Li et al. Adaptive weighted CNN features integration for correlation filter tracking
Wang et al. Non-local attention association scheme for online multi-object tracking

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant