CN116152887A - 一种基于ds证据理论的动态人脸表情识别方法 - Google Patents
一种基于ds证据理论的动态人脸表情识别方法 Download PDFInfo
- Publication number
- CN116152887A CN116152887A CN202211576932.1A CN202211576932A CN116152887A CN 116152887 A CN116152887 A CN 116152887A CN 202211576932 A CN202211576932 A CN 202211576932A CN 116152887 A CN116152887 A CN 116152887A
- Authority
- CN
- China
- Prior art keywords
- module
- vector
- layer
- branch
- convolution
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 230000008921 facial expression Effects 0.000 title claims abstract description 48
- 239000008186 active pharmaceutical agent Substances 0.000 title claims abstract description 31
- 238000000034 method Methods 0.000 title claims abstract description 30
- 230000004927 fusion Effects 0.000 claims abstract description 29
- 230000014509 gene expression Effects 0.000 claims abstract description 27
- 239000013598 vector Substances 0.000 claims description 112
- 230000004913 activation Effects 0.000 claims description 51
- 238000005192 partition Methods 0.000 claims description 16
- 208000027418 Wounds and injury Diseases 0.000 claims description 10
- 230000006378 damage Effects 0.000 claims description 10
- 208000014674 injury Diseases 0.000 claims description 10
- 230000007935 neutral effect Effects 0.000 claims description 9
- 206010063659 Aversion Diseases 0.000 claims description 7
- 238000004364 calculation method Methods 0.000 claims description 7
- 238000001514 detection method Methods 0.000 claims description 6
- 238000005520 cutting process Methods 0.000 claims description 5
- 238000010606 normalization Methods 0.000 claims description 4
- GNFTZDOKVXKIBK-UHFFFAOYSA-N 3-(2-methoxyethoxy)benzohydrazide Chemical compound COCCOC1=CC=CC(C(=O)NN)=C1 GNFTZDOKVXKIBK-UHFFFAOYSA-N 0.000 claims description 3
- ORILYTVJVMAKLC-UHFFFAOYSA-N Adamantane Natural products C1C(C2)CC3CC1CC2C3 ORILYTVJVMAKLC-UHFFFAOYSA-N 0.000 claims description 3
- FGUUSXIOTUKUDN-IBGZPJMESA-N C1(=CC=CC=C1)N1C2=C(NC([C@H](C1)NC=1OC(=NN=1)C1=CC=CC=C1)=O)C=CC=C2 Chemical compound C1(=CC=CC=C1)N1C2=C(NC([C@H](C1)NC=1OC(=NN=1)C1=CC=CC=C1)=O)C=CC=C2 FGUUSXIOTUKUDN-IBGZPJMESA-N 0.000 claims description 3
- 238000010276 construction Methods 0.000 claims description 3
- 238000011176 pooling Methods 0.000 claims description 3
- 238000007781 pre-processing Methods 0.000 claims description 3
- 238000012545 processing Methods 0.000 claims description 3
- 230000000694 effects Effects 0.000 abstract description 4
- 238000000605 extraction Methods 0.000 abstract description 4
- 230000007246 mechanism Effects 0.000 abstract description 3
- 230000006870 function Effects 0.000 description 57
- 238000013135 deep learning Methods 0.000 description 3
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000011160 research Methods 0.000 description 2
- 238000013459 approach Methods 0.000 description 1
- 238000013473 artificial intelligence Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000011840 criminal investigation Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 230000007812 deficiency Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 230000007774 longterm Effects 0.000 description 1
- 238000005070 sampling Methods 0.000 description 1
- 230000002123 temporal effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/10—Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
- G06V40/16—Human faces, e.g. facial parts, sketches or expressions
- G06V40/174—Facial expression recognition
- G06V40/176—Dynamic expression
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/10—Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
- G06V40/16—Human faces, e.g. facial parts, sketches or expressions
- G06V40/168—Feature extraction; Face representation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/40—Extraction of image or video features
- G06V10/44—Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components
- G06V10/443—Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components by matching or filtering
- G06V10/449—Biologically inspired filters, e.g. difference of Gaussians [DoG] or Gabor filters
- G06V10/451—Biologically inspired filters, e.g. difference of Gaussians [DoG] or Gabor filters with interaction between the filter responses, e.g. cortical complex cells
- G06V10/454—Integrating the filters into a hierarchical structure, e.g. convolutional neural networks [CNN]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T5/00—Image enhancement or restoration
- G06T5/20—Image enhancement or restoration using local operators
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/40—Extraction of image or video features
- G06V10/44—Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/764—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/77—Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
- G06V10/80—Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level
- G06V10/814—Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level using belief theory, e.g. Dempster-Shafer
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/82—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/40—Scenes; Scene-specific elements in video content
- G06V20/46—Extracting features or characteristics from the video content, e.g. video fingerprints, representative shots or key frames
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/10—Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
- G06V40/16—Human faces, e.g. facial parts, sketches or expressions
- G06V40/161—Detection; Localisation; Normalisation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/10—Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
- G06V40/16—Human faces, e.g. facial parts, sketches or expressions
- G06V40/174—Facial expression recognition
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/10—Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
- G06V40/16—Human faces, e.g. facial parts, sketches or expressions
- G06V40/174—Facial expression recognition
- G06V40/175—Static expression
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Multimedia (AREA)
- Health & Medical Sciences (AREA)
- General Health & Medical Sciences (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Computation (AREA)
- Artificial Intelligence (AREA)
- Computing Systems (AREA)
- Oral & Maxillofacial Surgery (AREA)
- Software Systems (AREA)
- Databases & Information Systems (AREA)
- Medical Informatics (AREA)
- Human Computer Interaction (AREA)
- Molecular Biology (AREA)
- Life Sciences & Earth Sciences (AREA)
- Biomedical Technology (AREA)
- Biodiversity & Conservation Biology (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- General Engineering & Computer Science (AREA)
- Mathematical Physics (AREA)
- Image Analysis (AREA)
Abstract
一种基于DS证据理论的动态人脸表情识别方法,通过多特征融合的方式提高了表情视频的特征提取效果,并通过DS证据理论、多分支卷积、注意力机制深度学习了不平衡的动态表情特征。相较其他方法,本方法科学有效的降低了样本不平衡对表情识别带来的影响,充分利用时空特征挖掘视频表情的潜在语义信息,以此进行表情分类提高可靠性和准确率,解决表情识别的需求。
Description
技术领域
本发明涉及人脸表情分类方法技术领域,具体涉及一种基于DS证据理论的动态人脸表情识别方法。
背景技术
人脸表情识别(FER)是从人工智能到心理学等广泛研究领域的重要研究课题。随着社会自动化程度的提高,FER在安全、医疗、刑事调查和教育领域的应用逐渐增加。传统方法使用手工制作的特征来实现表达式分类。然而,手工制作的特征只是人为设计的特征,其表现力较弱,缺乏准确表达语义信息的能力。这导致传统方法在FER任务上的性能较差。近年来,随着深度学习的蓬勃发展,各种深度学习FER方法被提出。然而,深度学习方法很难在表情数据集上实现相同的增强效果。这是因为人类在真实场景中以不同的频率表达表情,导致收集不同表情的难度不同。如RAF-DB和FER2013数据集上每个类别的表达式数量分布极不平衡,这被称为样本不平衡。这种现象将导致少数类的特征学习不足,并降低识别精度。
发明内容
本发明为了克服以上技术的不足,提供了一种使用DS证据理论作为指导的分类器以及包含注意力和多层感知机的特征提取模块,来提高表情识别精度的基于DS证据理论的动态人脸表情识别方法。
本发明克服其技术问题所采用的技术方案是:
一种基于DS证据理论的动态人脸表情识别方法,包括如下步骤:
a)对数据集中的视频数据V进行预处理,提取视频数据V最后N帧得到连续的视频帧,将视频帧进行人脸检测及人脸对齐剪裁操作得到人脸表情图像P;
b)构建DSER网络模型,该DSER网络模型由包含同身份的帧间共享模块Ms、空间域上的注意力模块Matt、时间域上的全连接单元VFC、时间域上的多层感知机单元VMLP、时空特征融合模块Mst及受DS证据理论指导的判别器Dds;
c)将人脸表情图像P分别输入到DSER网络模型的同身份的帧间共享模块Ms及空间域上的注意力模块Matt中,输出得到同身份的帧间共享特征Fs P及空间域上的注意力特征将同身份的帧间共享特征/>乘以空间域上的注意力特征/>得到空间域特征/>
g)计算损失函数l;
h)通过损失函数l利用Adam优化器迭代DSER网络模型,得到训练后的DSER网络模型;
i)将待检测的视频数据利用步骤a)处理后得到人脸表情图像,将人脸表情图像输入到训练后的DSER网络模型中,得到分类结果R。
进一步,步骤a)中使用python中的VideoCapture类提取视频数据V最后16帧,得到连续的视频帧,对连续的视频帧使用DPM算法进行人脸检测,提取每个视频帧的人脸图像,得到连续的16帧人脸图像,将连续的16帧人脸图像使用PELD算法进行人脸对齐并剪裁,得到对齐后的连续的16帧人脸表情图像P。
进一步,步骤c)包括如下步骤:
c-1)同身份的帧间共享模块Ms依次由第一卷积模块、第二卷积模块、第三卷积模块构成,空间域上的注意力模块Matt依次由第一全连接模块、第二全连接模块构成;
c-3)同身份的帧间共享模块Ms的第二卷积模块依次由下采样模块及残差模块构成,所述下采样模块由第一分支和第二分支构成,第一分支依次由卷积核为3*3,步长为2的第一卷积层、第一批标准化层、第一ReLu激活函数层、卷积核为3*3,步长为1的第二卷积层、第二批标准化层、第二ReLu激活函数层构成;第二分支依次由卷积核为1*1,步长为2的第三卷积层、第三批标准化层、第三ReLu激活函数层构成;残差模块依次由卷积核为3*3,步长为1的第四卷积层、第四批标准化层、第四ReLu激活函数层、卷积核为3*3,步长为1的第五卷积层、第五批标准化层、第五ReLu激活函数层构成,将特征输入到第二卷积模块的下采样模块的第一分支中,输出得到特征/>将特征/>输入到第二卷积模块的下采样模块的第二分支中,输出得到特征/>将特征/>和特征/>相加操作得到特征/>将特征/>输入到第二卷积模块的残差模块中,输出得到特征/>
c-4)同身份的帧间共享模块Ms的第三卷积模块依次由下采样模块及残差模块构成,所述下采样模块由第一分支和第二分支构成,第一分支依次由卷积核为3*3,步长为2的第一卷积层、第一批标准化层、第一ReLu激活函数层、卷积核为3*3,步长为1的第二卷积层、第二批标准化层、第二ReLu激活函数层构成;第二分支依次由卷积核为1*1,步长为2的第三卷积层、第三批标准化层、第三ReLu激活函数层构成;残差模块依次由卷积核为3*3,步长为1的第四卷积层、第四批标准化层、第四ReLu激活函数层、卷积核为3*3,步长为1的第五卷积层、第五批标准化层、第五ReLu激活函数层构成,将特征输入到第三卷积模块的下采样模块的第一分支中,输出得到特征/>将特征/>输入到第三卷积模块的下采样模块的第二分支中,输出得到特征/>将特征/>和特征/>相加操作得到特征/>将特征/>输入到第三卷积模块的残差模块中,输出得到特征/>/>
进一步,步骤d)包括如下步骤:
d-1)时间域上的全连接单元VFC依次由patch分区模块、Flatten函数、全连接层FC、ReLU激活函数层构成,将人脸表情图像P输入到patch分区模块中进行patch分区,输出得到patch分区向量将patch分区向量/>输入到Flatten函数中,输出得到一维向量将一维向量/>依次输入到全连接层FC和ReLU激活函数层中,输出得到时间域上的全连接向量/>
d-2)时间域上的多层感知机单元VMLP依次由批标准化层、全连接层FC及ReLU激活函数层构成,将时间域上的全连接向量输入到时间域上的多层感知机单元VMLP中,输出得到时间域向量/>进一步,步骤e)包括如下步骤:
优选的,λ=0.54。
进一步,步骤f)包括如下步骤:
f-1)受DS证据理论指导的判别器Dds依次由多分支卷积模块、不确定性组合模块、多分支融合模块、判定模块构成;
f-2)多分支卷积模块由第一分支、第二分支、第三分支构成,第一分支、第二分支、第三分支均依次由卷积核为3*3,步长为1的第一卷积层、第一批标准化层、第一ReLu激活函数层、卷积核为3*3,步长为2的第二卷积层、第二批标准化层、第二ReLu激活函数层、平均池化层、Flatten函数、线性层构成,将时空特征分别输入到多分支卷积模块由第一分支、第二分支、第三分支中,分别输出得到第一分支向量/>第二分支向量/>第三分支向量
f-3)将第一分支向量第二分支向量/>第三分支向量/>输入到不确定性组合模块中,对第一分支向量/>取以e为底的指数得到第一证据向量 为第一分支向量中第i个证据向量,k={1,2,...,K},对第二分支向量/>取以e为底的指数得到第二证据向量/> 为第二分支向量中第i个证据向量,对第三分支向量/>取以e为底的指数得到第三证据向量 为第三分支向量中第i个证据向量,k={1,2,...,K},K为样本类别数,K=7,k的值与标签序列[1:惊讶,2:害怕,3.厌恶,4.高兴,5:伤心,6:生气,7:中性]中的数字一一对应,通过公式/>计算得到第一证据向量e1的第k类狄利克雷参数/>通过公式/>计算得到第二证据向量e2的第k类狄利克雷参数/>通过公式计算得到第三证据向量e3的第k类狄利克雷参数/>通过公式/>计算得到第一证据向量e1的狄利克雷强度S1,通过公式/>计算得到第二证据向量e2的狄利克雷强度S2,通过公式/>计算得到第三证据向量e3的狄利克雷强度S3,通过公式/>计算得到第一不确定性u1,通过公式/>计算得到第二不确定性u2,通过公式计算得到第三不确定性u3,通过公式/>计算得到第一置信度b1,通过公式计算得到第二置信度b2,通过公式/>计算得到第三置信度b3,通过公式C12=b1b2计算得到第一冲突因子C12,通过公式C23=b2b3计算得到第二冲突因子C23,通过公式/>计算得到第二前缀权重w2,通过公式/>计算得到第三前缀权重w3,第一前缀权重w1=1,将第一分支向量/>乘以第一前缀权重w1得到第一权重向量V1 P,将第二分支向量/>乘以第二前缀权重w2得到第二权重向量V2 P,将第三分支向量/>乘以第三前缀权重w3得到第三权重向量V3 P;
f-5)判定模块由Softmax函数及max函数构成,将融合向量输入到Softmax函数中进行归一化,将归一化后的融合向量/>输入到max函数中,得到最大值的下标Ek,k={1,2,...,K},k的值与标签序列[1:惊讶,2:害怕,3.厌恶,4.高兴,5:伤心,6:生气,7:中性]中的数字一一对应,将最大值的下标Ek与标签序列[1:惊讶,2:害怕,3.厌恶,4.高兴,5:伤心,6:生气,7:中性]进行对比,找到对应的表情标签作为判别结果R。
本发明的有益效果是:通过多特征融合的方式提高了表情视频的特征提取效果,并通过DS证据理论、多分支卷积、注意力机制深度学习了不平衡的动态表情特征。相较其他方法,本方法科学有效的降低了样本不平衡对表情识别带来的影响,充分利用时空特征挖掘视频表情的潜在语义信息,以此进行表情分类提高可靠性和准确率,解决表情识别的需求。
附图说明
图1为本发明的方法流程图;
图2为本发明的受DS证据理论指导的判别器结构图。
具体实施方式
下面结合附图1、附图2对本发明做进一步说明。
如附图1所示,一种基于DS证据理论的动态人脸表情识别方法,包括如下步骤:
a)对数据集中的视频数据V进行预处理,提取视频数据V最后N帧得到连续的视频帧,将视频帧进行人脸检测及人脸对齐剪裁操作得到人脸表情图像P。
b)构建DSER网络模型,该DSER网络模型由包含同身份的帧间共享模块Ms、空间域上的注意力模块Matt、时间域上的全连接单元VFC、时间域上的多层感知机单元VMLP、时空特征融合模块Mst及受DS证据理论指导的判别器Dds。
c)将人脸表情图像P分别输入到DSER网络模型的同身份的帧间共享模块Ms及空间域上的注意力模块Matt中,输出得到同身份的帧间共享特征Fs P及空间域上的注意力特征将同身份的帧间共享特征Fs P乘以空间域上的注意力特征/>得到空间域特征/>
g)计算损失函数l。
h)通过损失函数l利用Adam优化器迭代DSER网络模型,得到训练后的DSER网络模型。
i)将待检测的视频数据利用步骤a)处理后得到人脸表情图像,将人脸表情图像输入到训练后的DSER网络模型中,得到分类结果R。
使用一种帧间共享网络提取连续视频帧的共享空间特征,通过添加共享模块以补偿少数类特征学习的不足。同时为降低计算成本,使用简单的FC层捕获长期时间信息,通过引入多层感知机逐步发现时间特征的核心语义。在此基础上通过融合模块将空间特征与时间特征融合形成时空特征。最后,使用根据DS证据理论计算证据和不确定性,并通过DS证据理论对证据和不确定性进行组合,从而在保持良好性能的同时确保效率。该方法通过多特征融合的方式提高了表情视频的特征提取效果,并通过DS证据理论、多分支卷积、注意力机制深度学习了不平衡的动态表情特征。相较其他方法,本方法科学有效的降低了样本不平衡对表情识别带来的影响,充分利用时空特征挖掘视频表情的潜在语义信息,以此进行表情分类提高可靠性和准确率,解决表情识别的需求。
实施例1:
步骤a)中使用python中的VideoCapture类提取视频数据V最后16帧,得到连续的视频帧,对连续的视频帧使用DPM算法进行人脸检测,提取每个视频帧的人脸图像,得到连续的16帧人脸图像,将连续的16帧人脸图像使用PELD算法进行人脸对齐并剪裁,得到对齐后的连续的16帧人脸表情图像P。
实施例2:
步骤c)包括如下步骤:
c-1)同身份的帧间共享模块Ms依次由第一卷积模块、第二卷积模块、第三卷积模块构成,空间域上的注意力模块Matt依次由第一全连接模块、第二全连接模块构成。
c-2)同身份的帧间共享模块Ms的第一卷积模块依次由卷积核为3*3,步长为1的卷积层、批标准化层(Batch Normalization)、ReLu激活函数层构成,将人脸表情图像P输入到第一卷积模块中,输出得到特征
c-3)同身份的帧间共享模块Ms的第二卷积模块依次由下采样模块及残差模块构成,所述下采样模块由第一分支和第二分支构成,第一分支依次由卷积核为3*3,步长为2的第一卷积层、第一批标准化层、第一ReLu激活函数层、卷积核为3*3,步长为1的第二卷积层、第二批标准化层、第二ReLu激活函数层构成;第二分支依次由卷积核为1*1,步长为2的第三卷积层、第三批标准化层、第三ReLu激活函数层构成;残差模块依次由卷积核为3*3,步长为1的第四卷积层、第四批标准化层、第四ReLu激活函数层、卷积核为3*3,步长为1的第五卷积层、第五批标准化层、第五ReLu激活函数层构成,将特征输入到第二卷积模块的下采样模块的第一分支中,输出得到特征/>将特征/>输入到第二卷积模块的下采样模块的第二分支中,输出得到特征/>将特征/>和特征/>相加操作得到特征/>将特征/>输入到第二卷积模块的残差模块中,输出得到特征/>
c-4)同身份的帧间共享模块Ms的第三卷积模块依次由下采样模块及残差模块构成,所述下采样模块由第一分支和第二分支构成,第一分支依次由卷积核为3*3,步长为2的第一卷积层、第一批标准化层、第一ReLu激活函数层、卷积核为3*3,步长为1的第二卷积层、第二批标准化层、第二ReLu激活函数层构成;第二分支依次由卷积核为1*1,步长为2的第三卷积层、第三批标准化层、第三ReLu激活函数层构成;残差模块依次由卷积核为3*3,步长为1的第四卷积层、第四批标准化层、第四ReLu激活函数层、卷积核为3*3,步长为1的第五卷积层、第五批标准化层、第五ReLu激活函数层构成,将特征输入到第三卷积模块的下采样模块的第一分支中,输出得到特征/>将特征/>输入到第三卷积模块的下采样模块的第二分支中,输出得到特征/>将特征/>和特征/>相加操作得到特征/>将特征/>输入到第三卷积模块的残差模块中,输出得到特征/>
实施例3:
步骤d)包括如下步骤:
d-1)时间域上的全连接单元VFC依次由patch分区模块、Flatten函数、全连接层FC、ReLU激活函数层构成,将人脸表情图像P输入到patch分区模块中沿着通道维度分成两组(每组中有24个通道),进行patch分区,输出得到patch分区向量将patch分区向量输入到Flatten函数中,输出得到一维向量/>将一维向量/>依次输入到全连接层FC和ReLU激活函数层中,输出得到时间域上的全连接向量/>
实施例4:
步骤e)包括如下步骤:
实施例5:
λ=0.54。
实施例6:
步骤f)包括如下步骤:
f-1)如附图2所示,受DS证据理论指导的判别器Dds依次由多分支卷积模块、不确定性组合模块、多分支融合模块、判定模块构成。
f-2)多分支卷积模块由第一分支、第二分支、第三分支构成,第一分支、第二分支、第三分支均依次由卷积核为3*3,步长为1的第一卷积层、第一批标准化层、第一ReLu激活函数层、卷积核为3*3,步长为2的第二卷积层、第二批标准化层、第二ReLu激活函数层、平均池化层、Flatten函数、线性层构成,将时空特征分别输入到多分支卷积模块由第一分支、第二分支、第三分支中,分别输出得到第一分支向量/>第二分支向量/>第三分支向量
f-3)将第一分支向量第二分支向量/>第三分支向量/>输入到不确定性组合模块中,对第一分支向量/>取以e为底的指数得到第一证据向量 为第一分支向量中第i个证据向量,k={1,2,...,K},对第二分支向量/>取以e为底的指数得到第二证据向量/> 为第二分支向量中第i个证据向量,对第三分支向量/>取以e为底的指数得到第三证据向量 为第三分支向量中第i个证据向量,k={1,2,...,K},K为样本类别数,K=7,k的值与标签序列[1:惊讶,2:害怕,3.厌恶,4.高兴,5:伤心,6:生气,7:中性]中的数字一一对应,即k=1表示惊讶,k=2表示害怕,k=3表示厌恶,k=4表示高兴,k=5表示伤心,k=6表示生气,k=7表示中性,通过公式/>计算得到第一证据向量e1的第k类狄利克雷参数/>通过公式/>计算得到第二证据向量e2的第k类狄利克雷参数/>通过公式/>计算得到第三证据向量e3的第k类狄利克雷参数/>通过公式计算得到第一证据向量e1的狄利克雷强度S1,通过公式/>计算得到第二证据向量e2的狄利克雷强度S2,通过公式/>计算得到第三证据向量e3的狄利克雷强度S3,通过公式/>计算得到第一不确定性u1,通过公式/>计算得到第二不确定性u2,通过公式/>计算得到第三不确定性u3,通过公式/>计算得到第一置信度b1,通过公式/>计算得到第二置信度b2,通过公式/>计算得到第三置信度b3,通过公式C12=b1b2计算得到第一冲突因子C12,通过公式C23=b2b3计算得到第二冲突因子C23,通过公式/>计算得到第二前缀权重w2,通过公式/>计算得到第三前缀权重w3,第一前缀权重w1=1,将第一分支向量/>乘以第一前缀权重w1得到第一权重向量V1 P,将第二分支向量/>乘以第二前缀权重w2得到第二权重向量V2 P,将第三分支向量乘以第三前缀权重w3得到第三权重向量V3 P。/>
f-4)将第一权重向量V1 P、第二权重向量V2 P、第三权重向量V3 P输入到多分支融合模块中,通过公式计算得到融合向量/>f-5)判定模块由Softmax函数及max函数构成,将融合向量/>输入到Softmax函数中进行归一化,将归一化后的融合向量/>输入到max函数中,得到最大值的下标Ek,k={1,2,...,K},k的值与标签序列[1:惊讶,2:害怕,3.厌恶,4.高兴,5:伤心,6:生气,7:中性]中的数字一一对应,将最大值的下标Ek与标签序列[1:惊讶,2:害怕,3.厌恶,4.高兴,5:伤心,6:生气,7:中性]进行对比,找到对应的表情标签作为判别结果R。
实施例7:
最后应说明的是:以上所述仅为本发明的优选实施例而已,并不用于限制本发明,尽管参照前述实施例对本发明进行了详细的说明,对于本领域的技术人员来说,其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
Claims (8)
1.一种基于DS证据理论的动态人脸表情识别方法,其特征在于,包括如下步骤:
a)对数据集中的视频数据V进行预处理,提取视频数据V最后N帧得到连续的视频帧,将视频帧进行人脸检测及人脸对齐剪裁操作得到人脸表情图像P;
b)构建DSER网络模型,该DSER网络模型由包含同身份的帧间共享模块Ms、空间域上的注意力模块Matt、时间域上的全连接单元VFC、时间域上的多层感知机单元VMLP、时空特征融合模块Mst及受DS证据理论指导的判别器Dds;
c)将人脸表情图像P分别输入到DSER网络模型的同身份的帧间共享模块Ms及空间域上的注意力模块Matt中,输出得到同身份的帧间共享特征Fs P及空间域上的注意力特征将同身份的帧间共享特征Fs P乘以空间域上的注意力特征/>得到空间域特征/>
g)计算损失函数l;
h)通过损失函数l利用Adam优化器迭代DSER网络模型,得到训练后的DSER网络模型;
i)将待检测的视频数据利用步骤a)处理后得到人脸表情图像,将人脸表情图像输入到训练后的DSER网络模型中,得到分类结果R。
2.根据权利要求1所述的基于DS证据理论的动态人脸表情识别方法,其特征在于:步骤a)中使用python中的VideoCapture类提取视频数据V最后16帧,得到连续的视频帧,对连续的视频帧使用DPM算法进行人脸检测,提取每个视频帧的人脸图像,得到连续的16帧人脸图像,将连续的16帧人脸图像使用PELD算法进行人脸对齐并剪裁,得到对齐后的连续的16帧人脸表情图像P。
3.根据权利要求1所述的基于DS证据理论的动态人脸表情识别方法,其特征在于,步骤c)包括如下步骤:
c-1)同身份的帧间共享模块Ms依次由第一卷积模块、第二卷积模块、第三卷积模块构成,空间域上的注意力模块Matt依次由第一全连接模块、第二全连接模块构成;
c-3)同身份的帧间共享模块Ms的第二卷积模块依次由下采样模块及残差模块构成,所述下采样模块由第一分支和第二分支构成,第一分支依次由卷积核为3*3,步长为2的第一卷积层、第一批标准化层、第一ReLu激活函数层、卷积核为3*3,步长为1的第二卷积层、第二批标准化层、第二ReLu激活函数层构成;第二分支依次由卷积核为1*1,步长为2的第三卷积层、第三批标准化层、第三ReLu激活函数层构成;残差模块依次由卷积核为3*3,步长为1的第四卷积层、第四批标准化层、第四ReLu激活函数层、卷积核为3*3,步长为1的第五卷积层、第五批标准化层、第五ReLu激活函数层构成,将特征输入到第二卷积模块的下采样模块的第一分支中,输出得到特征/>将特征/>输入到第二卷积模块的下采样模块的第二分支中,输出得到特征/>将特征/>和特征/>相加操作得到特征/>将特征/>输入到第二卷积模块的残差模块中,输出得到特征/>
c-4)同身份的帧间共享模块Ms的第三卷积模块依次由下采样模块及残差模块构成,所述下采样模块由第一分支和第二分支构成,第一分支依次由卷积核为3*3,步长为2的第一卷积层、第一批标准化层、第一ReLu激活函数层、卷积核为3*3,步长为1的第二卷积层、第二批标准化层、第二ReLu激活函数层构成;第二分支依次由卷积核为1*1,步长为2的第三卷积层、第三批标准化层、第三ReLu激活函数层构成;残差模块依次由卷积核为3*3,步长为1的第四卷积层、第四批标准化层、第四ReLu激活函数层、卷积核为3*3,步长为1的第五卷积层、第五批标准化层、第五ReLu激活函数层构成,将特征输入到第三卷积模块的下采样模块的第一分支中,输出得到特征/>将特征/>输入到第三卷积模块的下采样模块的第二分支中,输出得到特征/>将特征/>和特征/>相加操作得到特征/>将特征/>输入到第三卷积模块的残差模块中,输出得到特征/>
4.根据权利要求1所述的基于DS证据理论的动态人脸表情识别方法,其特征在于,步骤d)包括如下步骤:
d-1)时间域上的全连接单元VFC依次由patch分区模块、Flatten函数、全连接层FC、ReLU激活函数层构成,将人脸表情图像P输入到patch分区模块中进行patch分区,输出得到patch分区向量将patch分区向量/>输入到Flatten函数中,输出得到一维向量将一维向量/>依次输入到全连接层FC和ReLU激活函数层中,输出得到时间域上的全连接向量/>/>
6.根据权利要求5所述的基于DS证据理论的动态人脸表情识别方法,其特征在于:λ=0.54。
7.根据权利要求1所述的基于DS证据理论的动态人脸表情识别方法,其特征在于,步骤f)包括如下步骤:
f-1)受DS证据理论指导的判别器Dds依次由多分支卷积模块、不确定性组合模块、多分支融合模块、判定模块构成;
f-2)多分支卷积模块由第一分支、第二分支、第三分支构成,第一分支、第二分支、第三分支均依次由卷积核为3*3,步长为1的第一卷积层、第一批标准化层、第一ReLu激活函数层、卷积核为3*3,步长为2的第二卷积层、第二批标准化层、第二ReLu激活函数层、平均池化层、Flatten函数、线性层构成,将时空特征分别输入到多分支卷积模块由第一分支、第二分支、第三分支中,分别输出得到第一分支向量/>第二分支向量/>第三分支向量
f-3)将第一分支向量第二分支向量/>第三分支向量/>输入到不确定性组合模块中,对第一分支向量/>取以e为底的指数得到第一证据向量/> 为第一分支向量中第i个证据向量,k={1,2,...,K},对第二分支向量/>取以e为底的指数得到第二证据向量/> 为第二分支向量中第i个证据向量,对第三分支向量/>取以e为底的指数得到第三证据向量/> 为第三分支向量中第i个证据向量,k={1,2,...,K},K为样本类别数,K=7,k的值与标签序列[1:惊讶,2:害怕,3.厌恶,4.高兴,5:伤心,6:生气,7:中性]中的数字一一对应,通过公式/>计算得到第一证据向量e1的第k类狄利克雷参数/>通过公式/>计算得到第二证据向量e2的第k类狄利克雷参数/>通过公式/>计算得到第三证据向量e3的第k类狄利克雷参数/>通过公式/>计算得到第一证据向量e1的狄利克雷强度S1,通过公式/>计算得到第二证据向量e2的狄利克雷强度S2,通过公式/>计算得到第三证据向量e3的狄利克雷强度S3,通过公式/>计算得到第一不确定性u1,通过公式/>计算得到第二不确定性u2,通过公式/>计算得到第三不确定性u3,通过公式计算得到第一置信度b1,通过公式/>计算得到第二置信度b2,通过公式计算得到第三置信度b3,通过公式C12=b1b2计算得到第一冲突因子C12,通过公式C23=b2b3计算得到第二冲突因子C23,通过公式/>计算得到第二前缀权重w2,通过公式/>计算得到第三前缀权重w3,第一前缀权重w1=1,将第一分支向量/>乘以第一前缀权重w1得到第一权重向量V1 P,将第二分支向量/>乘以第二前缀权重w2得到第二权重向量/>将第三分支向量/>乘以第三前缀权重w3得到第三权重向量/>
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211576932.1A CN116152887B (zh) | 2022-12-08 | 2022-12-08 | 一种基于ds证据理论的动态人脸表情识别方法 |
US18/381,195 US11967180B1 (en) | 2022-12-08 | 2023-10-18 | Dynamic facial expression recognition (FER) method based on Dempster-Shafer (DS) theory |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211576932.1A CN116152887B (zh) | 2022-12-08 | 2022-12-08 | 一种基于ds证据理论的动态人脸表情识别方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN116152887A true CN116152887A (zh) | 2023-05-23 |
CN116152887B CN116152887B (zh) | 2023-09-26 |
Family
ID=86338047
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202211576932.1A Active CN116152887B (zh) | 2022-12-08 | 2022-12-08 | 一种基于ds证据理论的动态人脸表情识别方法 |
Country Status (2)
Country | Link |
---|---|
US (1) | US11967180B1 (zh) |
CN (1) | CN116152887B (zh) |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113468929A (zh) * | 2020-03-31 | 2021-10-01 | 华为技术有限公司 | 运动状态识别方法、装置、电子设备和存储介质 |
CN114463827A (zh) * | 2022-04-12 | 2022-05-10 | 之江实验室 | 一种基于ds证据理论的多模态实时情绪识别方法及系统 |
CN115311720A (zh) * | 2022-08-11 | 2022-11-08 | 山东省人工智能研究院 | 一种基于Transformer的deepfake生成方法 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
DE112020001642T5 (de) * | 2019-03-29 | 2022-03-10 | Intel Corporation | Autonomes Fahrzeugsystem |
-
2022
- 2022-12-08 CN CN202211576932.1A patent/CN116152887B/zh active Active
-
2023
- 2023-10-18 US US18/381,195 patent/US11967180B1/en active Active
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113468929A (zh) * | 2020-03-31 | 2021-10-01 | 华为技术有限公司 | 运动状态识别方法、装置、电子设备和存储介质 |
CN114463827A (zh) * | 2022-04-12 | 2022-05-10 | 之江实验室 | 一种基于ds证据理论的多模态实时情绪识别方法及系统 |
CN115311720A (zh) * | 2022-08-11 | 2022-11-08 | 山东省人工智能研究院 | 一种基于Transformer的deepfake生成方法 |
Non-Patent Citations (3)
Title |
---|
FARUQE, MO等: "Face Recognition Using PCA and SVM", 《PROCESSINGS OF THE 3RD INTERNATIONAL CONFERENCE ON ANTI-COUNTERFEITING》, pages 1 - 5 * |
METTU SRINIVAS等: "Facial Expression Recognition Using Fusion of Deep Learning and Multiple Features", 《MACHINE LEARNING ALGORITHMS AND APPLICATIONS》, pages 1 - 22 * |
夏海英等: "基于主动形状模型差分纹理和局部方向模式特征融合的人脸表情识别", 《计算机应用》, pages 783 - 786 * |
Also Published As
Publication number | Publication date |
---|---|
US11967180B1 (en) | 2024-04-23 |
CN116152887B (zh) | 2023-09-26 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111460968B (zh) | 基于视频的无人机识别与跟踪方法及装置 | |
CN110598543B (zh) | 基于属性挖掘和推理的模型训练方法及行人再识别方法 | |
CN109145717A (zh) | 一种在线学习的人脸识别方法 | |
CN111539351B (zh) | 一种多任务级联的人脸选帧比对方法 | |
CN104751186A (zh) | 一种基于bp网络和小波变换的虹膜图像质量分类方法 | |
CN114023354A (zh) | 基于聚焦损失函数的指导型声学事件检测模型训练方法 | |
CN111126307A (zh) | 联合稀疏表示神经网络的小样本人脸识别方法 | |
Hu et al. | Semi-supervised learning based on GAN with mean and variance feature matching | |
CN111539445A (zh) | 一种半监督特征融合的对象分类方法及系统 | |
CN109886251A (zh) | 一种基于姿势引导对抗学习的端到端的行人再识别方法 | |
CN103942545A (zh) | 一种基于双向压缩数据空间维度缩减的人脸识别方法和装置 | |
CN111582195B (zh) | 一种汉语唇语单音节识别分类器构建方法 | |
Tian et al. | A fault diagnosis method for few-shot industrial processes based on semantic segmentation and hybrid domain transfer learning | |
CN111785262B (zh) | 一种基于残差网络及融合特征的说话人年龄性别分类方法 | |
CN116152887B (zh) | 一种基于ds证据理论的动态人脸表情识别方法 | |
CN116434759A (zh) | 一种基于srs-cl网络的说话人识别方法 | |
CN116704609A (zh) | 基于时序注意力的在线手卫生评估方法及系统 | |
CN113869212B (zh) | 多模态活体检测方法、装置、计算机设备及存储介质 | |
CN116311026A (zh) | 基于多层级信息融合Transformer的教室场景身份识别方法 | |
CN115410035A (zh) | 基于监控视频的空中交通管制员不安全行为分类方法 | |
CN107016675A (zh) | 一种基于非局部时空特征学习的无监督视频分割方法 | |
CN116524563B (zh) | 一种基于transformer与不确定性的动态人脸表情识别方法 | |
CN116778557A (zh) | 一种双特征融合的跨域微表情识别方法 | |
Park et al. | Displacement Detection of Wooden Cultural Properties Using Unsupervised Learning | |
Mao | Cross domain fault diagnosis method based on MLP-mixer network |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |