CN114842539B - 基于注意力机制和一维卷积滑窗的微表情发现方法及系统 - Google Patents

基于注意力机制和一维卷积滑窗的微表情发现方法及系统 Download PDF

Info

Publication number
CN114842539B
CN114842539B CN202210599250.6A CN202210599250A CN114842539B CN 114842539 B CN114842539 B CN 114842539B CN 202210599250 A CN202210599250 A CN 202210599250A CN 114842539 B CN114842539 B CN 114842539B
Authority
CN
China
Prior art keywords
interval
feature
attention
local
global
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202210599250.6A
Other languages
English (en)
Other versions
CN114842539A (zh
Inventor
曹叶文
周冠群
蒋友军
袁树森
邢红波
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shandong University
Original Assignee
Shandong University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shandong University filed Critical Shandong University
Priority to CN202210599250.6A priority Critical patent/CN114842539B/zh
Publication of CN114842539A publication Critical patent/CN114842539A/zh
Application granted granted Critical
Publication of CN114842539B publication Critical patent/CN114842539B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/16Human faces, e.g. facial parts, sketches or expressions
    • G06V40/174Facial expression recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/044Recurrent networks, e.g. Hopfield networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/048Activation functions
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/80Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level
    • G06V10/806Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level of extracted features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • G06V20/46Extracting features or characteristics from the video content, e.g. video fingerprints, representative shots or key frames
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/16Human faces, e.g. facial parts, sketches or expressions
    • G06V40/161Detection; Localisation; Normalisation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/16Human faces, e.g. facial parts, sketches or expressions
    • G06V40/168Feature extraction; Face representation
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Multimedia (AREA)
  • Evolutionary Computation (AREA)
  • Computing Systems (AREA)
  • Artificial Intelligence (AREA)
  • Software Systems (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Oral & Maxillofacial Surgery (AREA)
  • Biomedical Technology (AREA)
  • Data Mining & Analysis (AREA)
  • Mathematical Physics (AREA)
  • Computational Linguistics (AREA)
  • Biophysics (AREA)
  • Molecular Biology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • Human Computer Interaction (AREA)
  • Databases & Information Systems (AREA)
  • Medical Informatics (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开一种基于注意力机制和一维卷积滑窗的微表情发现方法及系统,包括:获取视频流的连续帧图像,进行空间特征的提取,对空间特征进行全局特征和局部特征的提取;根据某一图像与其他图像的全局特征之间的相关度,以及局部特征之间的相关度,分别得到全局注意力权重和局部注意力权重,根据全局注意力权重和局部注意力权重分别得到全局注意力特征和局部注意力特征,将全局注意力特征和局部注意力特征融合得到注意力特征;采用一维卷积滑窗以设定步长和检测间隔在注意力特征中移动,以提取每个检测间隔内的特征,对每个检测间隔内的特征进行微表情识别,将检测间隔的微表情识别结果进行间隔分组,以更加准确的定位到真实的微表情位置。

Description

基于注意力机制和一维卷积滑窗的微表情发现方法及系统
技术领域
本发明涉及计算机视觉技术领域,特别是涉及一种基于注意力机制和一维卷积滑窗的微表情发现方法及系统。
背景技术
本部分的陈述仅仅是提供了与本发明相关的背景技术信息,不必然构成在先技术。
微表情发现是指从视频流中找出微表情间隔,并标记微表情的起始帧、顶点帧和结束帧;起始帧是指微表情开始出现的帧;顶点帧是指微表情运动幅度最大的帧;结束帧是指微表情消失的帧。
起初,几乎所有的方法都试图通过计算帧之间的特征差异,并通过阈值来发现视频中的微表情。例如,使用局部二进制模式的卡方距离来发现微表情或者使用光流的主方向幅度的最大差异值来发现微表情。然而,使用阈值的方法很难确定面部的微小运动。后来提出利用机器学习技术来区分微表情和正常的面部表情。然而传统的机器学习方法不够稳健,无法处理微表情的细微运动。
近年来,随着深度学习的快速发展,虽然克服了传统方法的局限性,但是,仅在微表情数据集的短视频上进行分析。在短视频中,很少有其他种类的头部动作。同时,光线变化等环境对图像的影响也可以忽略不计。因此,微表情是短视频中比较明显的动作,很容易被发现。
相比之下,在长视频中,参与者难免会有眨眼、吞咽、头部微弱旋转等大量头部动作,因此在长视频中发现微表情更难。有的方法尝试通过在预处理阶段设置滑动窗口将长视频拆分为短视频,然后对每一个短视频分别进行微表情识别,这样使算法更容易专注于提取微表情的特征。然而,这样仍是针对短视频进行的分析,设计了只针对单一短视频识别的二分类网络,无法从一个长视频的角度,分析帧与帧之间的关系,导致长视频中微表情定位不准确的问题。
发明内容
为了解决上述问题,本发明提出了一种基于注意力机制和一维卷积滑窗的微表情发现方法及系统,基于注意力机制提取全局注意力特征和局部注意力特征,利用微表情间隔内的相关性突出时间维度上的关键帧特征,使用一维卷积滑窗将注意力特征划分成多个检测间隔,对每个检测间隔内的特征进行微表情识别,最后将每个检测间隔的微表情识别结果进行进一步的合并分组,以更加准确的定位到真实的微表情位置。
为了实现上述目的,本发明采用如下技术方案:
第一方面,本发明提供一种基于注意力机制和一维卷积滑窗的微表情发现方法,包括:
获取视频流的连续帧图像,对连续帧图像进行预处理后,进行空间特征的提取,且对空间特征进行全局特征和局部特征的提取;
根据某一图像与其他图像的全局特征之间的相关度,以及局部特征之间的相关度,分别得到全局注意力权重和局部注意力权重,根据全局注意力权重和局部注意力权重分别得到全局注意力特征和局部注意力特征,将全局注意力特征和局部注意力特征融合得到注意力特征;
采用一维卷积滑窗以设定步长和检测间隔在注意力特征中移动,以提取每个检测间隔内的特征,对每个检测间隔内的特征进行微表情识别,将检测间隔的微表情识别结果进行间隔分组,以定位微表情位置。
作为可选择的实施方式,全局注意力权重Attg为:
Figure BDA0003669326730000031
其中,Fl是局部特征;Fg是全局特征,是向量长度;
将全局注意力权重与全局特征相乘得到全局注意力特征。
作为可选择的实施方式,局部注意力权重Attl为:
Figure BDA0003669326730000032
其中,Fg是全局特征;Fl是局部特征;d是向量长度;
将局部注意力权重与局部特征相乘得到局部注意力特征。
作为可选择的实施方式,将全局注意力特征和局部注意力特征相加后取平均得到注意力特征。
作为可选择的实施方式,对连续帧图像经预处理后得到图像序列,对图像序列利用VGG16网络提取空间特征,利用Bi-LSTM对空间特征提取全局特征,利用一维卷积对空间特征提取局部特征。
作为可选择的实施方式,一维卷积滑窗从注意力特征的一侧开始,覆盖注意力特征中kernel_size个元素,对应覆盖位置的元素相乘并相加,得到当前检测间隔内的特征,然后向另一侧移动stride个单位,再次执行相同的操作,最终得到特征向量。
作为可选择的实施方式,将检测间隔的微表情识别结果进行间隔分组的过程包括:
获取检测间隔的微表情识别结果大于第一阈值的检测间隔,并获取其在视频流中的实际位置,并将该位置数值设定为1,其余位置设定为0;
以第一个数值为1的位置作为初始间隔的起始帧位置,以第一个数值为0的点的前一位置作为初始间隔的结束帧位置,将起始帧位置和结束帧位置组成的间隔添加到初始间隔分组列表中;
判断初始间隔分组列表中当前间隔的结束帧位置与其后一间隔的起始帧位置之间的差值的绝对值是否小于或等于第二阈值的间隔,若是,则将当前间隔与其后一间隔合并,并添加到间隔分组列表中;否则,将当前间隔添加到间隔分组列表中;
获取间隔分组列表中间隔帧数满足微表情平均帧数的间隔,以此定位微表情位置。
作为可选择的实施方式,所述预处理包括,对连续帧图像进行像素值的归一化处理,对像素值归一化后的连续帧图像进行人脸检测、人脸对齐、图像裁剪和大小归一化处理。
第二方面,本发明提供一种基于注意力机制和一维卷积滑窗的微表情发现系统,包括:
特征提取模块,被配置为获取视频流的连续帧图像,对连续帧图像进行预处理后,进行空间特征的提取,且对空间特征进行全局特征和局部特征的提取;
注意力提取模块,被配置为根据某一图像与其他图像的全局特征之间的相关度,以及局部特征之间的相关度,分别得到全局注意力权重和局部注意力权重,根据全局注意力权重和局部注意力权重分别得到全局注意力特征和局部注意力特征,将全局注意力特征和局部注意力特征融合得到注意力特征;
微表情定位模块,被配置为采用一维卷积滑窗以设定步长和检测间隔在注意力特征中移动,以提取每个检测间隔内的特征,对每个检测间隔内的特征进行微表情识别,将检测间隔的微表情识别结果进行间隔分组,以定位微表情位置。
第三方面,本发明提供一种电子设备,包括存储器和处理器以及存储在存储器上并在处理器上运行的计算机指令,所述计算机指令被处理器运行时,完成第一方面所述的方法。
第四方面,本发明提供一种计算机可读存储介质,用于存储计算机指令,所述计算机指令被处理器执行时,完成第一方面所述的方法。
与现有技术相比,本发明的有益效果为:
本发明提出一种基于注意力机制和一维卷积滑窗的微表情发现方法及系统,是针对长视频的微表情发现算法,基于注意力机制提取全局注意力特征和局部注意力特征,利用微表情间隔内的相关性突出时间维度上的关键帧特征,保留有用的长距离信息,又获得了足够有意义的组合特征。从有限的数据中有效地提取微表情最具代表性的特征,提高定位的准确性。
本发明提出一种基于注意力机制和一维卷积滑窗的微表情发现方法及系统,使用一维卷积滑窗将注意力特征划分成多个检测间隔,不同于现有方法在预处理阶段划分短视频,本发明是将滑窗以一维卷积的形式嵌入到网络中进行检测间隔的划分,对每个检测间隔内的特征进行微表情识别,得到每个检测间隔属于微表情的概率。
本发明提出一种基于注意力机制和一维卷积滑窗的微表情发现方法及系统,将每个检测间隔的微表情识别结果进行进一步的合并分组,以更加准确的定位到真实的微表情位置。
本发明附加方面的优点将在下面的描述中部分给出,部分将从下面的描述中变得明显,或通过本发明的实践了解到。
附图说明
构成本发明的一部分的说明书附图用来提供对本发明的进一步理解,本发明的示意性实施例及其说明用于解释本发明,并不构成对本发明的不当限定。
图1为本发明实施例1提供的基于注意力机制和一维卷积滑窗的微表情发现方法流程图;
图2为本发明实施例1提供的基于注意力机制和一维卷积滑窗的微表情发现模型结构图;
图3为本发明实施例1提供的注意力模块图示意图;
图4为本发明实施例1提供的滑窗工作示意图;
图5为本发明实施例1提供的初始数组图;
图6为本发明实施例1提供的粗略分组图;
图7为本发明实施例1提供的精细分组图;
图8为本发明实施例1提供的筛选图。
具体实施方式
下面结合附图与实施例对本发明做进一步说明。
应该指出,以下详细说明都是示例性的,旨在对本发明提供进一步的说明。除非另有指明,本文使用的所有技术和科学术语具有与本发明所属技术领域的普通技术人员通常理解的相同含义。
需要注意的是,这里所使用的术语仅是为了描述具体实施方式,而非意图限制根据本发明的示例性实施方式。如在这里所使用的,除非上下文另外明确指出,否则单数形式也意图包括复数形式,此外,还应当理解的是,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
在不冲突的情况下,本发明中的实施例及实施例中的特征可以相互组合。
实施例1
本实施例提供一种基于注意力机制和一维卷积滑窗的微表情发现方法,包括:
获取视频流的连续帧图像,对连续帧图像进行预处理后,进行空间特征的提取,且对空间特征进行全局特征和局部特征的提取;
根据某一图像与其他图像的全局特征之间的相关度,以及局部特征之间的相关度,分别得到全局注意力权重和局部注意力权重,根据全局注意力权重和局部注意力权重分别得到全局注意力特征和局部注意力特征,将全局注意力特征和局部注意力特征融合得到注意力特征;
采用一维卷积滑窗以设定步长和检测间隔在注意力特征中移动,以提取每个检测间隔内的特征,对每个检测间隔内的特征进行微表情识别,将检测间隔的微表情识别结果进行间隔分组,以定位微表情位置。
如图1所示,在本实施例中,首先对视频流进行解析分帧后,得到连续帧图像,并对帧图像进行像素值的归一化处理,将帧图像的像素值归一化至0~1的范围内,归一化如公式(1)所示。
Figure BDA0003669326730000081
其中,g为变换前的帧图像,g′为归一化后的帧图像,gmax为变换前的帧图像中像素最大值,gmin为变换前的帧图像中像素最小值。
然后,对像素值归一化后的帧图像进行人脸检测、人脸对齐、图像裁剪以及帧图像大小归一化处理;具体包括:
(1)人脸检测;使用Dlib工具包中的人脸检测器检测每一帧的人脸,并裁剪获得人脸框,然后使用人脸标志点检测函数来获取视频第一帧中面部的68个面部标志点。
(2)人脸对齐;由于人的头部会有轻微的偏移,这会影响提取的图像特征。所以为了消除影响,使用仿射变换将每一帧与第一帧进行人脸对齐。
选取不受面部表情变化影响的13个人脸标志点作为人脸对齐的参考点,分布在脸颊两侧和鼻根处;对第i帧进行分析,由于光流可以反映物体的移动,则根据稠密光流法计算第i帧与第一帧的光流场,获得13个人脸标志点在当前帧上的位移量;通过与第一帧的标志点坐标值相加获得13个人脸标志点在第i帧Vi中新的坐标值,并组成坐标矩阵X,如公式(2)所示。
Figure BDA0003669326730000082
第一帧的13个人脸标志点坐标矩阵记为Y,如公式(3)所示。
Figure BDA0003669326730000091
使用最小二乘法计算仿射矩阵W,如公式(4)所示。
W=(XTX)-1XTY   (4)
将仿射矩阵W与第i帧相乘,做仿射变换,以使得第i帧与第一帧对齐;仿射变换如公式(5)所示。
V′i=W·Vi    (5)
其他帧同理,最终视频中的所有帧都与第一帧对齐。
(3)图像裁剪和图像大小归一化;人脸对齐后,人脸的周围仍有背景噪声,如头发、衣服和耳机等;因此对人脸进一步裁剪;最后,将所有帧图像大小都归一化为224×224的大小。
在本实施例中,对经上述预处理后得到的图像序列,采用基于注意力机制和一维卷积滑窗的微表情发现模型,定位微表情间隔的位置;如图2所示,微表情发现模型包括特征提取模块、注意力模块、滑窗模块。
在本实施例中,特征提取模块包括空间特征模块、全局特征模块和局部特征模块;
其中,空间特征模块利用VGG16网络前35层网络架构提取图像序列每一帧输出长度为4096的特征向量,得到空间特征Fsp∈RN×L,N为图像序列的帧数,L=4096;
全局特征模块为利用Bi-LSTM对空间特征Fsp提取全局特征Fg∈RN×200
局部特征模块为利用一维卷积对空间特征Fsp提取局部特征Fl∈RN×200
在本实施例中,注意力模块利用微表情间隔内的相关性突出时间维度上的关键帧特征,如图3所示,包括全局注意力模块和局部注意力模块;
在全局注意力模块中,根据每个图像位置的局部特征Fl得到全局特征Fg的全局注意力特征,这样既保留了Fg有用的长距离信息,又获得了足够有意义的组合特征;
首先计算全局注意力权重,根据某一图像与其他图像的全局特征之间的相关度计算全局注意力权重,如公式(6)所示;
Figure BDA0003669326730000101
其中,Attg∈RN×N的每一行含有不同图像的全局特征与当前行对应的图像的全局特征之间的相关依赖程度;Fl∈RN×200是局部特征,也是源矩阵;Fg∈RN×200是全局特征,也是目标矩阵;分母上的
Figure BDA0003669326730000102
是为了起到调节作用,防止输入softmax的值过大,导致偏导数趋近于0;d是向量长度,此处指代全局特征每一行的向量长度,d=200。
然后,将全局注意力权重与全局特征Fg相乘,得到全局注意力特征F′g
F′g=Attg·Fg  (7)
其中,F′g∈RN×200
在局部注意力模块中,根据全局特征Fg提取局部特征Fl的局部注意力特征,其会自动为更相关、信息更丰富的局部特征分配更大的权重;
首先计算局部注意力权重,根据某一图像与其他图像的局部特征之间的相关度计算局部注意力权重,如公式(8)所示;
Figure BDA0003669326730000103
其中,Attl∈RN×N的每一行含有不同图像的局部特征与当前行对应的图像的局部特征之间的相关依赖程度;Fg∈RN×200是全局特征,也是源矩阵;Fl∈RN×200是局部特征,也是目标矩阵;d是向量长度,此处指代局部特征每一行的向量长度,d=200。
然后,将局部注意力权重与局部特征Fl相乘,得到局部注意力特征F′l
F′l=Attl·Fl   (9)
其中,F′l∈RN×200
最后,将全局注意力特征和局部注意力特征进行融合,即将全局注意力特征和局部注意力特征相加取平均,得到最终的注意力特征F;
Figure BDA0003669326730000111
其中,F∈RN×200
在本实施例中,使用一维卷积核作为滑窗,卷积核大小为kernel_size,作为滑窗的大小,移动步长为stride,作为滑窗每次移动的距离,滑窗在网络中自动移动;
如图4所示,滑窗首先从注意力特征的最左边开始,覆盖注意力特征中kernel_size个元素,对应覆盖位置的元素相乘并相加得到输出特征结果,即当前检测间隔内的特征;然后向右移动stride个单位,再执行相同的操作,最终得到一个长度为N′的特征向量;
Figure BDA0003669326730000112
其中,N′为滑窗移动后获得的特征向量长度,N为长视频的帧数;
令stride=0.5×kernel_size,即滑窗每次移动会有0.5×kernel_size大小的区域重叠,这是为了减少因滑窗移动步长过大而导致错过微表情的误差。
滑窗最后经过sigmoid层后,得到每个检测间隔是微表情的概率值;
在本实施例中,采用损失函数进行网络训练,损失函数如公式(12)所示;
Figure BDA0003669326730000121
其中,M是视频个数,N′是每一个视频的标签向量的长度,
Figure BDA0003669326730000122
是第i个视频的第j个检测间隔的真实标签,数值为0或1,
Figure BDA0003669326730000123
是第i个视频的第j个检测间隔的预测标签,数值在0~1之间,可以认为是当前检测间隔是微表情的概率。
考虑到一个微表情可能出现在多个检测间隔上,故本实施例根据每个检测间隔的微表情识别结果进行进一步的合并分组,包括粗略分组、精细分组和筛选,以便更加准确的定位到最终的微表情位置;具体地:
(1)初始数组:首先设定一个长度为N、初始值均为0的数组A,然后获取长视频的预测标签
Figure BDA0003669326730000124
中所有数值大于第一阈值γ的检测间隔在原始长视频上的实际位置,γ取0.5;如:若长度为N′的预测标签
Figure BDA0003669326730000125
中第i个位置是0.8>0.5(位置索引从1开始),则其对应的检测间隔在长视频上的位置是[(i-1)×stride,(i-1)×stride+kernel_size];最后将数组A相应检测间隔位置内的所有数值都设定为1;以N=26,kernel_size=4,stride=2为例,如图5所示。
(2)粗略分组:对数组A中的每一个点进行分析,首先确定第一个数值为1的点,将其位置作为初始间隔的起始帧位置,然后确定第一个数值为0的点,将其前一个数值为1的点的位置作为初始间隔的结束帧位置,最后将该间隔的起始帧位置和结束帧位置组成的列表添加到初始间隔分组列表中;之后再从当前点开始对剩余点分析,并重复以上步骤,直到对数组A所有点分析完毕为止;此时将所有的初始间隔都按照顺序添加到初始间隔分组列表中,如图6所示。
(3)精细分组:判断初始间隔分组列表中每一组的结束帧位置与后一组的起始帧位置之间的差值的绝对值是否小于等于第二阈值β,β取2;若满足条件,则将前后两个间隔合并,然后将合并的间隔添加到间隔分组列表中;否则,只将当前组添加到间隔分组列表中;如图7所示。
(4)筛选:判断间隔分组列表中每个间隔的帧数,若大于微表情间隔的平均帧数,则将其视为宏表情,并丢弃;微表情的平均帧数是10帧,如图8所示。
实施例2
本实施例提供一种基于注意力机制和一维卷积滑窗的微表情发现系统,包括:
特征提取模块,被配置为获取视频流的连续帧图像,对连续帧图像进行预处理后,进行空间特征的提取,且对空间特征进行全局特征和局部特征的提取;
注意力提取模块,被配置为根据某一图像与其他图像的全局特征之间的相关度,以及局部特征之间的相关度,分别得到全局注意力权重和局部注意力权重,根据全局注意力权重和局部注意力权重分别得到全局注意力特征和局部注意力特征,将全局注意力特征和局部注意力特征融合得到注意力特征;
微表情定位模块,被配置为采用一维卷积滑窗以设定步长和检测间隔在注意力特征中移动,以提取每个检测间隔内的特征,对每个检测间隔内的特征进行微表情识别,将检测间隔的微表情识别结果进行间隔分组,以定位微表情位置。
此处需要说明的是,上述模块对应于实施例1中所述的步骤,上述模块与对应的步骤所实现的示例和应用场景相同,但不限于上述实施例1所公开的内容。需要说明的是,上述模块作为系统的一部分可以在诸如一组计算机可执行指令的计算机系统中执行。
在更多实施例中,还提供:
一种电子设备,包括存储器和处理器以及存储在存储器上并在处理器上运行的计算机指令,所述计算机指令被处理器运行时,完成实施例1中所述的方法。为了简洁,在此不再赘述。
应理解,本实施例中,处理器可以是中央处理单元CPU,处理器还可以是其他通用处理器、数字信号处理器DSP、专用集成电路ASIC,现成可编程门阵列FPGA或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。
存储器可以包括只读存储器和随机存取存储器,并向处理器提供指令和数据、存储器的一部分还可以包括非易失性随机存储器。例如,存储器还可以存储设备类型的信息。
一种计算机可读存储介质,用于存储计算机指令,所述计算机指令被处理器执行时,完成实施例1中所述的方法。
实施例1中的方法可以直接体现为硬件处理器执行完成,或者用处理器中的硬件及软件模块组合执行完成。软件模块可以位于随机存储器、闪存、只读存储器、可编程只读存储器或者电可擦写可编程存储器、寄存器等本领域成熟的存储介质中。该存储介质位于存储器,处理器读取存储器中的信息,结合其硬件完成上述方法的步骤。为避免重复,这里不再详细描述。
本领域普通技术人员可以意识到,结合本实施例描述的各示例的单元即算法步骤,能够以电子硬件或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本申请的范围。
上述虽然结合附图对本发明的具体实施方式进行了描述,但并非对本发明保护范围的限制,所属领域技术人员应该明白,在本发明的技术方案的基础上,本领域技术人员不需要付出创造性劳动即可做出的各种修改或变形仍在本发明的保护范围以内。

Claims (4)

1.基于注意力机制和一维卷积滑窗的微表情发现方法,其特征在于,包括:
获取视频流的连续帧图像,对连续帧图像进行预处理后,进行空间特征的提取,且对空间特征进行全局特征和局部特征的提取;所述预处理包括,对连续帧图像进行像素值的归一化处理,对像素值归一化后的连续帧图像进行人脸检测、人脸对齐、图像裁剪和大小归一化处理;
根据某一图像与其他图像的全局特征之间的相关度,以及局部特征之间的相关度,分别得到全局注意力权重和局部注意力权重,根据全局注意力权重和局部注意力权重分别得到全局注意力特征和局部注意力特征,将全局注意力特征和局部注意力特征融合得到注意力特征;
其中,全局注意力权重Attg为:
Figure FDA0004055688580000011
其中,Fl是局部特征;Fg是全局特征,d是向量长度;将全局注意力权重与全局特征相乘得到全局注意力特征;
局部注意力权重Attl为:
Figure FDA0004055688580000012
其中,Fg是全局特征;Fl是局部特征;d是向量长度;将局部注意力权重与局部特征相乘得到局部注意力特征;
将全局注意力特征和局部注意力特征相加后取平均得到注意力特征;
采用一维卷积滑窗以设定步长和检测间隔在注意力特征中移动,以提取每个检测间隔内的特征,对每个检测间隔内的特征进行微表情识别,将检测间隔的微表情识别结果进行间隔分组,以定位微表情位置,具体为:
对连续帧图像经预处理后得到图像序列,对图像序列利用VGG16网络提取空间特征,利用Bi-LSTM对空间特征提取全局特征,利用一维卷积对空间特征提取局部特征;一维卷积滑窗从注意力特征的一侧开始,覆盖注意力特征中kernel_size个元素,对应覆盖位置的元素相乘并相加,得到当前检测间隔内的特征,然后向另一侧移动stride个单位,再次执行相同的操作,最终得到特征向量;将检测间隔的微表情识别结果进行间隔分组的过程包括:
获取检测间隔的微表情识别结果大于第一阈值的检测间隔,并获取其在视频流中的实际位置,并将该位置数值设定为1,其余位置设定为0;
以第一个数值为1的位置作为初始间隔的起始帧位置,以第一个数值为0的点的前一位置作为初始间隔的结束帧位置,将起始帧位置和结束帧位置组成的间隔添加到初始间隔分组列表中;
判断初始间隔分组列表中当前间隔的结束帧位置与其后一间隔的起始帧位置之间的差值的绝对值是否小于或等于第二阈值的间隔,若是,则将当前间隔与其后一间隔合并,并添加到间隔分组列表中;否则,将当前间隔添加到间隔分组列表中;
获取间隔分组列表中间隔帧数满足微表情平均帧数的间隔,以此定位微表情位置。
2.基于注意力机制和一维卷积滑窗的微表情发现系统,其特征在于,包括:
特征提取模块,被配置为获取视频流的连续帧图像,对连续帧图像进行预处理后,进行空间特征的提取,且对空间特征进行全局特征和局部特征的提取;所述预处理包括,对连续帧图像进行像素值的归一化处理,对像素值归一化后的连续帧图像进行人脸检测、人脸对齐、图像裁剪和大小归一化处理;
注意力提取模块,被配置为根据某一图像与其他图像的全局特征之间的相关度,以及局部特征之间的相关度,分别得到全局注意力权重和局部注意力权重,根据全局注意力权重和局部注意力权重分别得到全局注意力特征和局部注意力特征,将全局注意力特征和局部注意力特征融合得到注意力特征;
其中,全局注意力权重Attg为:
Figure FDA0004055688580000031
其中,Fl是局部特征;Fg是全局特征,d是向量长度;将全局注意力权重与全局特征相乘得到全局注意力特征;
局部注意力权重Attl为:
Figure FDA0004055688580000032
其中,Fg是全局特征;Fl是局部特征;d是向量长度;将局部注意力权重与局部特征相乘得到局部注意力特征;
将全局注意力特征和局部注意力特征相加后取平均得到注意力特征;
微表情定位模块,被配置为采用一维卷积滑窗以设定步长和检测间隔在注意力特征中移动,以提取每个检测间隔内的特征,对每个检测间隔内的特征进行微表情识别,将检测间隔的微表情识别结果进行间隔分组,以定位微表情位置,具体为:
对连续帧图像经预处理后得到图像序列,对图像序列利用VGG16网络提取空间特征,利用Bi-LSTM对空间特征提取全局特征,利用一维卷积对空间特征提取局部特征;一维卷积滑窗从注意力特征的一侧开始,覆盖注意力特征中kernel_size个元素,对应覆盖位置的元素相乘并相加,得到当前检测间隔内的特征,然后向另一侧移动stride个单位,再次执行相同的操作,最终得到特征向量;将检测间隔的微表情识别结果进行间隔分组的过程包括:
获取检测间隔的微表情识别结果大于第一阈值的检测间隔,并获取其在视频流中的实际位置,并将该位置数值设定为1,其余位置设定为0;
以第一个数值为1的位置作为初始间隔的起始帧位置,以第一个数值为0的点的前一位置作为初始间隔的结束帧位置,将起始帧位置和结束帧位置组成的间隔添加到初始间隔分组列表中;
判断初始间隔分组列表中当前间隔的结束帧位置与其后一间隔的起始帧位置之间的差值的绝对值是否小于或等于第二阈值的间隔,若是,则将当前间隔与其后一间隔合并,并添加到间隔分组列表中;否则,将当前间隔添加到间隔分组列表中;
获取间隔分组列表中间隔帧数满足微表情平均帧数的间隔,以此定位微表情位置。
3.一种电子设备,其特征在于,包括存储器和处理器以及存储在存储器上并在处理器上运行的计算机指令,所述计算机指令被处理器运行时,完成权利要求1所述的方法。
4.一种计算机可读存储介质,其特征在于,用于存储计算机指令,所述计算机指令被处理器执行时,完成权利要求1所述的方法。
CN202210599250.6A 2022-05-30 2022-05-30 基于注意力机制和一维卷积滑窗的微表情发现方法及系统 Active CN114842539B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210599250.6A CN114842539B (zh) 2022-05-30 2022-05-30 基于注意力机制和一维卷积滑窗的微表情发现方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210599250.6A CN114842539B (zh) 2022-05-30 2022-05-30 基于注意力机制和一维卷积滑窗的微表情发现方法及系统

Publications (2)

Publication Number Publication Date
CN114842539A CN114842539A (zh) 2022-08-02
CN114842539B true CN114842539B (zh) 2023-04-07

Family

ID=82571719

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210599250.6A Active CN114842539B (zh) 2022-05-30 2022-05-30 基于注意力机制和一维卷积滑窗的微表情发现方法及系统

Country Status (1)

Country Link
CN (1) CN114842539B (zh)

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114202787A (zh) * 2021-11-26 2022-03-18 李俊 一种基于深度学习和二维注意力机制的多帧微表情情感识别方法

Family Cites Families (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9792671B2 (en) * 2015-12-22 2017-10-17 Intel Corporation Code filters for coded light depth acquisition in depth images
CN107358206B (zh) * 2017-07-13 2020-02-18 山东大学 一种基于感兴趣区域光流特征的微表情检测方法
CN108509893A (zh) * 2018-03-28 2018-09-07 深圳创维-Rgb电子有限公司 基于微表情识别的影视评分方法、存储介质及智能终端
CN109034126B (zh) * 2018-08-31 2021-09-28 上海理工大学 一种基于光流主方向的微表情识别方法
CN112001241B (zh) * 2020-07-16 2023-08-18 山东大学 基于通道注意力机制的微表情识别方法及系统
CN112883896B (zh) * 2021-03-10 2022-10-11 山东大学 一种基于bert网络的微表情检测方法
CN113420703B (zh) * 2021-07-03 2023-04-18 西北工业大学 基于多尺度特征提取和多注意力机制建模的动态面部表情识别方法
CN114360005B (zh) * 2021-12-14 2024-03-22 武汉烽火信息集成技术有限公司 一种基于AU区域和多层级Transformer融合模块的微表情分类方法
CN114639136B (zh) * 2022-01-22 2024-03-08 西北工业大学 一种基于浅层网络的长视频微表情检测方法

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114202787A (zh) * 2021-11-26 2022-03-18 李俊 一种基于深度学习和二维注意力机制的多帧微表情情感识别方法

Also Published As

Publication number Publication date
CN114842539A (zh) 2022-08-02

Similar Documents

Publication Publication Date Title
JP7130368B2 (ja) 情報処理装置および情報処理システム
TWI750498B (zh) 視訊流的處理方法和裝置
Song et al. Discriminative representation combinations for accurate face spoofing detection
CN111242088B (zh) 一种目标检测方法、装置、电子设备及存储介质
WO2019218824A1 (zh) 一种移动轨迹获取方法及其设备、存储介质、终端
JP5554984B2 (ja) パターン認識方法およびパターン認識装置
JP4739355B2 (ja) 統計的テンプレートマッチングによる高速な物体検出方法
JP6494253B2 (ja) 物体検出装置、物体検出方法、画像認識装置及びコンピュータプログラム
US20230274577A1 (en) Device and method with image matching
US8406470B2 (en) Object detection in depth images
JP6330385B2 (ja) 画像処理装置、画像処理方法およびプログラム
JP6544900B2 (ja) オブジェクト識別装置、オブジェクト識別方法及びプログラム
US9134399B2 (en) Attribute-based person tracking across multiple cameras
US20170161591A1 (en) System and method for deep-learning based object tracking
US11093737B2 (en) Gesture recognition method and apparatus, electronic device, and computer-readable storage medium
US20130251246A1 (en) Method and a device for training a pose classifier and an object classifier, a method and a device for object detection
EP2704056A2 (en) Image processing apparatus, image processing method
KR100988326B1 (ko) 사용자 맞춤형 표정 인식 방법 및 장치
Zhang et al. Fast moving pedestrian detection based on motion segmentation and new motion features
KR20130058286A (ko) 보행자 검출기의 보행자 검출 방법
CN108875500B (zh) 行人再识别方法、装置、系统及存储介质
JPWO2017061106A1 (ja) 情報処理装置、画像処理システム、画像処理方法及びプログラム
US20220366570A1 (en) Object tracking device and object tracking method
Zhang et al. Moving pedestrian detection based on motion segmentation
CN114842539B (zh) 基于注意力机制和一维卷积滑窗的微表情发现方法及系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant