CN116152887A - 一种基于ds证据理论的动态人脸表情识别方法 - Google Patents

一种基于ds证据理论的动态人脸表情识别方法 Download PDF

Info

Publication number
CN116152887A
CN116152887A CN202211576932.1A CN202211576932A CN116152887A CN 116152887 A CN116152887 A CN 116152887A CN 202211576932 A CN202211576932 A CN 202211576932A CN 116152887 A CN116152887 A CN 116152887A
Authority
CN
China
Prior art keywords
module
vector
layer
branch
convolution
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202211576932.1A
Other languages
English (en)
Other versions
CN116152887B (zh
Inventor
舒明雷
刘振宇
王英龙
刘瑞霞
周书旺
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Qilu University of Technology
Shandong Institute of Artificial Intelligence
Original Assignee
Qilu University of Technology
Shandong Institute of Artificial Intelligence
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Qilu University of Technology, Shandong Institute of Artificial Intelligence filed Critical Qilu University of Technology
Priority to CN202211576932.1A priority Critical patent/CN116152887B/zh
Publication of CN116152887A publication Critical patent/CN116152887A/zh
Application granted granted Critical
Publication of CN116152887B publication Critical patent/CN116152887B/zh
Priority to US18/381,195 priority patent/US11967180B1/en
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/16Human faces, e.g. facial parts, sketches or expressions
    • G06V40/174Facial expression recognition
    • G06V40/176Dynamic expression
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/16Human faces, e.g. facial parts, sketches or expressions
    • G06V40/168Feature extraction; Face representation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/44Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components
    • G06V10/443Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components by matching or filtering
    • G06V10/449Biologically inspired filters, e.g. difference of Gaussians [DoG] or Gabor filters
    • G06V10/451Biologically inspired filters, e.g. difference of Gaussians [DoG] or Gabor filters with interaction between the filter responses, e.g. cortical complex cells
    • G06V10/454Integrating the filters into a hierarchical structure, e.g. convolutional neural networks [CNN]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T5/00Image enhancement or restoration
    • G06T5/20Image enhancement or restoration using local operators
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/44Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/764Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/80Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level
    • G06V10/814Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level using belief theory, e.g. Dempster-Shafer
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • G06V20/46Extracting features or characteristics from the video content, e.g. video fingerprints, representative shots or key frames
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/16Human faces, e.g. facial parts, sketches or expressions
    • G06V40/161Detection; Localisation; Normalisation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/16Human faces, e.g. facial parts, sketches or expressions
    • G06V40/174Facial expression recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/16Human faces, e.g. facial parts, sketches or expressions
    • G06V40/174Facial expression recognition
    • G06V40/175Static expression

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • Computing Systems (AREA)
  • Oral & Maxillofacial Surgery (AREA)
  • Software Systems (AREA)
  • Databases & Information Systems (AREA)
  • Medical Informatics (AREA)
  • Human Computer Interaction (AREA)
  • Molecular Biology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biodiversity & Conservation Biology (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • General Engineering & Computer Science (AREA)
  • Mathematical Physics (AREA)
  • Image Analysis (AREA)

Abstract

一种基于DS证据理论的动态人脸表情识别方法,通过多特征融合的方式提高了表情视频的特征提取效果,并通过DS证据理论、多分支卷积、注意力机制深度学习了不平衡的动态表情特征。相较其他方法,本方法科学有效的降低了样本不平衡对表情识别带来的影响,充分利用时空特征挖掘视频表情的潜在语义信息,以此进行表情分类提高可靠性和准确率,解决表情识别的需求。

Description

一种基于DS证据理论的动态人脸表情识别方法
技术领域
本发明涉及人脸表情分类方法技术领域,具体涉及一种基于DS证据理论的动态人脸表情识别方法。
背景技术
人脸表情识别(FER)是从人工智能到心理学等广泛研究领域的重要研究课题。随着社会自动化程度的提高,FER在安全、医疗、刑事调查和教育领域的应用逐渐增加。传统方法使用手工制作的特征来实现表达式分类。然而,手工制作的特征只是人为设计的特征,其表现力较弱,缺乏准确表达语义信息的能力。这导致传统方法在FER任务上的性能较差。近年来,随着深度学习的蓬勃发展,各种深度学习FER方法被提出。然而,深度学习方法很难在表情数据集上实现相同的增强效果。这是因为人类在真实场景中以不同的频率表达表情,导致收集不同表情的难度不同。如RAF-DB和FER2013数据集上每个类别的表达式数量分布极不平衡,这被称为样本不平衡。这种现象将导致少数类的特征学习不足,并降低识别精度。
发明内容
本发明为了克服以上技术的不足,提供了一种使用DS证据理论作为指导的分类器以及包含注意力和多层感知机的特征提取模块,来提高表情识别精度的基于DS证据理论的动态人脸表情识别方法。
本发明克服其技术问题所采用的技术方案是:
一种基于DS证据理论的动态人脸表情识别方法,包括如下步骤:
a)对数据集中的视频数据V进行预处理,提取视频数据V最后N帧得到连续的视频帧,将视频帧进行人脸检测及人脸对齐剪裁操作得到人脸表情图像P;
b)构建DSER网络模型,该DSER网络模型由包含同身份的帧间共享模块Ms、空间域上的注意力模块Matt、时间域上的全连接单元VFC、时间域上的多层感知机单元VMLP、时空特征融合模块Mst及受DS证据理论指导的判别器Dds
c)将人脸表情图像P分别输入到DSER网络模型的同身份的帧间共享模块Ms及空间域上的注意力模块Matt中,输出得到同身份的帧间共享特征Fs P及空间域上的注意力特征
Figure BDA0003987175130000021
将同身份的帧间共享特征/>
Figure BDA0003987175130000022
乘以空间域上的注意力特征/>
Figure BDA0003987175130000023
得到空间域特征/>
Figure BDA0003987175130000024
d)将人脸表情图像P依次输入到DSER网络模型的时间域上的全连接单元VFC与时间域上的多层感知机单元VMLP中,输出得到时间域向量
Figure BDA0003987175130000025
e)将空间域特征
Figure BDA0003987175130000026
和时间域向量/>
Figure BDA0003987175130000027
输入到DSER网络模型的时空特征融合模块Mst中,输出得到时空特征/>
Figure BDA0003987175130000028
f)将时空特征
Figure BDA0003987175130000029
输入到DSER网络模型的受DS证据理论指导的判别器Dds中,输出得到分类结果R,完成DSER网络模型的构建;
g)计算损失函数l;
h)通过损失函数l利用Adam优化器迭代DSER网络模型,得到训练后的DSER网络模型;
i)将待检测的视频数据利用步骤a)处理后得到人脸表情图像,将人脸表情图像输入到训练后的DSER网络模型中,得到分类结果R。
进一步,步骤a)中使用python中的VideoCapture类提取视频数据V最后16帧,得到连续的视频帧,对连续的视频帧使用DPM算法进行人脸检测,提取每个视频帧的人脸图像,得到连续的16帧人脸图像,将连续的16帧人脸图像使用PELD算法进行人脸对齐并剪裁,得到对齐后的连续的16帧人脸表情图像P。
进一步,步骤c)包括如下步骤:
c-1)同身份的帧间共享模块Ms依次由第一卷积模块、第二卷积模块、第三卷积模块构成,空间域上的注意力模块Matt依次由第一全连接模块、第二全连接模块构成;
c-2)同身份的帧间共享模块Ms的第一卷积模块依次由卷积核为3*3,步长为1的卷积层、批标准化层、ReLu激活函数层构成,将人脸表情图像P输入到第一卷积模块中,输出得到特征
Figure BDA0003987175130000031
c-3)同身份的帧间共享模块Ms的第二卷积模块依次由下采样模块及残差模块构成,所述下采样模块由第一分支和第二分支构成,第一分支依次由卷积核为3*3,步长为2的第一卷积层、第一批标准化层、第一ReLu激活函数层、卷积核为3*3,步长为1的第二卷积层、第二批标准化层、第二ReLu激活函数层构成;第二分支依次由卷积核为1*1,步长为2的第三卷积层、第三批标准化层、第三ReLu激活函数层构成;残差模块依次由卷积核为3*3,步长为1的第四卷积层、第四批标准化层、第四ReLu激活函数层、卷积核为3*3,步长为1的第五卷积层、第五批标准化层、第五ReLu激活函数层构成,将特征
Figure BDA0003987175130000032
输入到第二卷积模块的下采样模块的第一分支中,输出得到特征/>
Figure BDA0003987175130000033
将特征/>
Figure BDA0003987175130000034
输入到第二卷积模块的下采样模块的第二分支中,输出得到特征/>
Figure BDA0003987175130000035
将特征/>
Figure BDA0003987175130000036
和特征/>
Figure BDA0003987175130000037
相加操作得到特征/>
Figure BDA0003987175130000038
将特征/>
Figure BDA0003987175130000039
输入到第二卷积模块的残差模块中,输出得到特征/>
Figure BDA00039871751300000310
c-4)同身份的帧间共享模块Ms的第三卷积模块依次由下采样模块及残差模块构成,所述下采样模块由第一分支和第二分支构成,第一分支依次由卷积核为3*3,步长为2的第一卷积层、第一批标准化层、第一ReLu激活函数层、卷积核为3*3,步长为1的第二卷积层、第二批标准化层、第二ReLu激活函数层构成;第二分支依次由卷积核为1*1,步长为2的第三卷积层、第三批标准化层、第三ReLu激活函数层构成;残差模块依次由卷积核为3*3,步长为1的第四卷积层、第四批标准化层、第四ReLu激活函数层、卷积核为3*3,步长为1的第五卷积层、第五批标准化层、第五ReLu激活函数层构成,将特征
Figure BDA00039871751300000311
输入到第三卷积模块的下采样模块的第一分支中,输出得到特征/>
Figure BDA00039871751300000312
将特征/>
Figure BDA00039871751300000313
输入到第三卷积模块的下采样模块的第二分支中,输出得到特征/>
Figure BDA00039871751300000314
将特征/>
Figure BDA00039871751300000315
和特征/>
Figure BDA00039871751300000316
相加操作得到特征/>
Figure BDA00039871751300000317
将特征/>
Figure BDA00039871751300000318
输入到第三卷积模块的残差模块中,输出得到特征/>
Figure BDA00039871751300000319
/>
c-5)通过公式
Figure BDA0003987175130000041
计算得到同身份的帧间共享特征Fs P,式中/>
Figure BDA0003987175130000042
为特征/>
Figure BDA0003987175130000043
中第i个视频帧向量;
c-6)空间域上的注意力模块Matt的第一全连接模块依次由批标准化层、Flatten函数、全连接层及ReLU激活函数层构成,将人脸表情图像P输入到第一全连接模块中,输出得到特征
Figure BDA0003987175130000044
c-7)空间域上的注意力模块Matt的第二全连接模块依次由全连接层、Sigmoid函数层构成,将特征
Figure BDA0003987175130000045
输入到第二全连接模块中,输出得到空间域上的注意力特征/>
Figure BDA0003987175130000046
c-8)将同身份的帧间共享特征Fs P乘以空间域上的注意力特征
Figure BDA0003987175130000047
得到空间域特征/>
Figure BDA0003987175130000048
进一步,步骤d)包括如下步骤:
d-1)时间域上的全连接单元VFC依次由patch分区模块、Flatten函数、全连接层FC、ReLU激活函数层构成,将人脸表情图像P输入到patch分区模块中进行patch分区,输出得到patch分区向量
Figure BDA0003987175130000049
将patch分区向量/>
Figure BDA00039871751300000410
输入到Flatten函数中,输出得到一维向量
Figure BDA00039871751300000411
将一维向量/>
Figure BDA00039871751300000412
依次输入到全连接层FC和ReLU激活函数层中,输出得到时间域上的全连接向量/>
Figure BDA00039871751300000413
d-2)时间域上的多层感知机单元VMLP依次由批标准化层、全连接层FC及ReLU激活函数层构成,将时间域上的全连接向量
Figure BDA00039871751300000414
输入到时间域上的多层感知机单元VMLP中,输出得到时间域向量/>
Figure BDA00039871751300000415
进一步,步骤e)包括如下步骤:
e-1)将空间域特征
Figure BDA00039871751300000416
和时间域向量/>
Figure BDA00039871751300000417
输入到DSER网络模型的时空特征融合模块Mst中,通过公式/>
Figure BDA00039871751300000418
计算得到得到时空特征/>
Figure BDA0003987175130000051
式中λ为可调超参数。
优选的,λ=0.54。
进一步,步骤f)包括如下步骤:
f-1)受DS证据理论指导的判别器Dds依次由多分支卷积模块、不确定性组合模块、多分支融合模块、判定模块构成;
f-2)多分支卷积模块由第一分支、第二分支、第三分支构成,第一分支、第二分支、第三分支均依次由卷积核为3*3,步长为1的第一卷积层、第一批标准化层、第一ReLu激活函数层、卷积核为3*3,步长为2的第二卷积层、第二批标准化层、第二ReLu激活函数层、平均池化层、Flatten函数、线性层构成,将时空特征
Figure BDA0003987175130000052
分别输入到多分支卷积模块由第一分支、第二分支、第三分支中,分别输出得到第一分支向量/>
Figure BDA0003987175130000053
第二分支向量/>
Figure BDA0003987175130000054
第三分支向量
Figure BDA0003987175130000055
f-3)将第一分支向量
Figure BDA0003987175130000056
第二分支向量/>
Figure BDA0003987175130000057
第三分支向量/>
Figure BDA0003987175130000058
输入到不确定性组合模块中,对第一分支向量/>
Figure BDA0003987175130000059
取以e为底的指数得到第一证据向量
Figure BDA00039871751300000510
Figure BDA00039871751300000511
为第一分支向量中第i个证据向量,k={1,2,...,K},对第二分支向量/>
Figure BDA00039871751300000512
取以e为底的指数得到第二证据向量/>
Figure BDA00039871751300000513
Figure BDA00039871751300000514
为第二分支向量中第i个证据向量,对第三分支向量/>
Figure BDA00039871751300000515
取以e为底的指数得到第三证据向量
Figure BDA00039871751300000516
Figure BDA00039871751300000517
为第三分支向量中第i个证据向量,k={1,2,...,K},K为样本类别数,K=7,k的值与标签序列[1:惊讶,2:害怕,3.厌恶,4.高兴,5:伤心,6:生气,7:中性]中的数字一一对应,通过公式/>
Figure BDA00039871751300000518
计算得到第一证据向量e1的第k类狄利克雷参数/>
Figure BDA00039871751300000519
通过公式/>
Figure BDA00039871751300000520
计算得到第二证据向量e2的第k类狄利克雷参数/>
Figure BDA00039871751300000521
通过公式
Figure BDA00039871751300000522
计算得到第三证据向量e3的第k类狄利克雷参数/>
Figure BDA00039871751300000523
通过公式/>
Figure BDA00039871751300000524
计算得到第一证据向量e1的狄利克雷强度S1,通过公式/>
Figure BDA00039871751300000525
计算得到第二证据向量e2的狄利克雷强度S2,通过公式/>
Figure BDA0003987175130000061
计算得到第三证据向量e3的狄利克雷强度S3,通过公式/>
Figure BDA0003987175130000062
计算得到第一不确定性u1,通过公式/>
Figure BDA0003987175130000063
计算得到第二不确定性u2,通过公式
Figure BDA0003987175130000064
计算得到第三不确定性u3,通过公式/>
Figure BDA0003987175130000065
计算得到第一置信度b1,通过公式
Figure BDA0003987175130000066
计算得到第二置信度b2,通过公式/>
Figure BDA0003987175130000067
计算得到第三置信度b3,通过公式C12=b1b2计算得到第一冲突因子C12,通过公式C23=b2b3计算得到第二冲突因子C23,通过公式/>
Figure BDA0003987175130000068
计算得到第二前缀权重w2,通过公式/>
Figure BDA0003987175130000069
计算得到第三前缀权重w3,第一前缀权重w1=1,将第一分支向量/>
Figure BDA00039871751300000610
乘以第一前缀权重w1得到第一权重向量V1 P,将第二分支向量/>
Figure BDA00039871751300000611
乘以第二前缀权重w2得到第二权重向量V2 P,将第三分支向量/>
Figure BDA00039871751300000612
乘以第三前缀权重w3得到第三权重向量V3 P
f-4)将第一权重向量V1 P、第二权重向量V2 P、第三权重向量V3 P输入到多分支融合模块中,通过公式
Figure BDA00039871751300000613
计算得到融合向量/>
Figure BDA00039871751300000614
f-5)判定模块由Softmax函数及max函数构成,将融合向量
Figure BDA00039871751300000615
输入到Softmax函数中进行归一化,将归一化后的融合向量/>
Figure BDA00039871751300000616
输入到max函数中,得到最大值的下标Ek,k={1,2,...,K},k的值与标签序列[1:惊讶,2:害怕,3.厌恶,4.高兴,5:伤心,6:生气,7:中性]中的数字一一对应,将最大值的下标Ek与标签序列[1:惊讶,2:害怕,3.厌恶,4.高兴,5:伤心,6:生气,7:中性]进行对比,找到对应的表情标签作为判别结果R。
进一步的,步骤g)中通过公式
Figure BDA00039871751300000617
计算得到损失函数l,式中γ为调节因子,γ=0.04,lKL(Ek)为下标Ek的KL loss计算结果,/>
Figure BDA0003987175130000071
为融合向量/>
Figure BDA0003987175130000072
的BCE loss计算结果。
本发明的有益效果是:通过多特征融合的方式提高了表情视频的特征提取效果,并通过DS证据理论、多分支卷积、注意力机制深度学习了不平衡的动态表情特征。相较其他方法,本方法科学有效的降低了样本不平衡对表情识别带来的影响,充分利用时空特征挖掘视频表情的潜在语义信息,以此进行表情分类提高可靠性和准确率,解决表情识别的需求。
附图说明
图1为本发明的方法流程图;
图2为本发明的受DS证据理论指导的判别器结构图。
具体实施方式
下面结合附图1、附图2对本发明做进一步说明。
如附图1所示,一种基于DS证据理论的动态人脸表情识别方法,包括如下步骤:
a)对数据集中的视频数据V进行预处理,提取视频数据V最后N帧得到连续的视频帧,将视频帧进行人脸检测及人脸对齐剪裁操作得到人脸表情图像P。
b)构建DSER网络模型,该DSER网络模型由包含同身份的帧间共享模块Ms、空间域上的注意力模块Matt、时间域上的全连接单元VFC、时间域上的多层感知机单元VMLP、时空特征融合模块Mst及受DS证据理论指导的判别器Dds
c)将人脸表情图像P分别输入到DSER网络模型的同身份的帧间共享模块Ms及空间域上的注意力模块Matt中,输出得到同身份的帧间共享特征Fs P及空间域上的注意力特征
Figure BDA0003987175130000073
将同身份的帧间共享特征Fs P乘以空间域上的注意力特征/>
Figure BDA0003987175130000074
得到空间域特征/>
Figure BDA0003987175130000075
d)将人脸表情图像P依次输入到DSER网络模型的时间域上的全连接单元VFC与时间域上的多层感知机单元VMLP中,输出得到时间域向量
Figure BDA0003987175130000076
e)将空间域特征
Figure BDA0003987175130000077
和时间域向量/>
Figure BDA0003987175130000078
输入到DSER网络模型的时空特征融合模块Mst中,输出得到时空特征/>
Figure BDA0003987175130000081
f)将时空特征
Figure BDA0003987175130000082
输入到DSER网络模型的受DS证据理论指导的判别器Dds中,输出得到分类结果R,完成DSER网络模型的构建。
g)计算损失函数l。
h)通过损失函数l利用Adam优化器迭代DSER网络模型,得到训练后的DSER网络模型。
i)将待检测的视频数据利用步骤a)处理后得到人脸表情图像,将人脸表情图像输入到训练后的DSER网络模型中,得到分类结果R。
使用一种帧间共享网络提取连续视频帧的共享空间特征,通过添加共享模块以补偿少数类特征学习的不足。同时为降低计算成本,使用简单的FC层捕获长期时间信息,通过引入多层感知机逐步发现时间特征的核心语义。在此基础上通过融合模块将空间特征与时间特征融合形成时空特征。最后,使用根据DS证据理论计算证据和不确定性,并通过DS证据理论对证据和不确定性进行组合,从而在保持良好性能的同时确保效率。该方法通过多特征融合的方式提高了表情视频的特征提取效果,并通过DS证据理论、多分支卷积、注意力机制深度学习了不平衡的动态表情特征。相较其他方法,本方法科学有效的降低了样本不平衡对表情识别带来的影响,充分利用时空特征挖掘视频表情的潜在语义信息,以此进行表情分类提高可靠性和准确率,解决表情识别的需求。
实施例1:
步骤a)中使用python中的VideoCapture类提取视频数据V最后16帧,得到连续的视频帧,对连续的视频帧使用DPM算法进行人脸检测,提取每个视频帧的人脸图像,得到连续的16帧人脸图像,将连续的16帧人脸图像使用PELD算法进行人脸对齐并剪裁,得到对齐后的连续的16帧人脸表情图像P。
实施例2:
步骤c)包括如下步骤:
c-1)同身份的帧间共享模块Ms依次由第一卷积模块、第二卷积模块、第三卷积模块构成,空间域上的注意力模块Matt依次由第一全连接模块、第二全连接模块构成。
c-2)同身份的帧间共享模块Ms的第一卷积模块依次由卷积核为3*3,步长为1的卷积层、批标准化层(Batch Normalization)、ReLu激活函数层构成,将人脸表情图像P输入到第一卷积模块中,输出得到特征
Figure BDA0003987175130000091
c-3)同身份的帧间共享模块Ms的第二卷积模块依次由下采样模块及残差模块构成,所述下采样模块由第一分支和第二分支构成,第一分支依次由卷积核为3*3,步长为2的第一卷积层、第一批标准化层、第一ReLu激活函数层、卷积核为3*3,步长为1的第二卷积层、第二批标准化层、第二ReLu激活函数层构成;第二分支依次由卷积核为1*1,步长为2的第三卷积层、第三批标准化层、第三ReLu激活函数层构成;残差模块依次由卷积核为3*3,步长为1的第四卷积层、第四批标准化层、第四ReLu激活函数层、卷积核为3*3,步长为1的第五卷积层、第五批标准化层、第五ReLu激活函数层构成,将特征
Figure BDA0003987175130000092
输入到第二卷积模块的下采样模块的第一分支中,输出得到特征/>
Figure BDA0003987175130000093
将特征/>
Figure BDA0003987175130000094
输入到第二卷积模块的下采样模块的第二分支中,输出得到特征/>
Figure BDA0003987175130000095
将特征/>
Figure BDA0003987175130000096
和特征/>
Figure BDA0003987175130000097
相加操作得到特征/>
Figure BDA0003987175130000098
将特征/>
Figure BDA0003987175130000099
输入到第二卷积模块的残差模块中,输出得到特征/>
Figure BDA00039871751300000910
c-4)同身份的帧间共享模块Ms的第三卷积模块依次由下采样模块及残差模块构成,所述下采样模块由第一分支和第二分支构成,第一分支依次由卷积核为3*3,步长为2的第一卷积层、第一批标准化层、第一ReLu激活函数层、卷积核为3*3,步长为1的第二卷积层、第二批标准化层、第二ReLu激活函数层构成;第二分支依次由卷积核为1*1,步长为2的第三卷积层、第三批标准化层、第三ReLu激活函数层构成;残差模块依次由卷积核为3*3,步长为1的第四卷积层、第四批标准化层、第四ReLu激活函数层、卷积核为3*3,步长为1的第五卷积层、第五批标准化层、第五ReLu激活函数层构成,将特征
Figure BDA00039871751300000911
输入到第三卷积模块的下采样模块的第一分支中,输出得到特征/>
Figure BDA00039871751300000912
将特征/>
Figure BDA00039871751300000913
输入到第三卷积模块的下采样模块的第二分支中,输出得到特征/>
Figure BDA00039871751300000914
将特征/>
Figure BDA00039871751300000915
和特征/>
Figure BDA0003987175130000101
相加操作得到特征/>
Figure BDA0003987175130000102
将特征/>
Figure BDA0003987175130000103
输入到第三卷积模块的残差模块中,输出得到特征/>
Figure BDA0003987175130000104
c-5)通过公式
Figure BDA0003987175130000105
计算得到同身份的帧间共享特征Fs P,式中/>
Figure BDA0003987175130000106
为特征/>
Figure BDA0003987175130000107
中第i个视频帧向量。
c-6)空间域上的注意力模块Matt的第一全连接模块依次由批标准化层、Flatten函数、全连接层及ReLU激活函数层构成,将人脸表情图像P输入到第一全连接模块中,输出得到特征
Figure BDA0003987175130000108
c-7)空间域上的注意力模块Matt的第二全连接模块依次由全连接层、Sigmoid函数层构成,将特征
Figure BDA0003987175130000109
输入到第二全连接模块中,输出得到空间域上的注意力特征/>
Figure BDA00039871751300001010
c-8)将同身份的帧间共享特征Fs P乘以空间域上的注意力特征
Figure BDA00039871751300001011
得到空间域特征/>
Figure BDA00039871751300001012
实施例3:
步骤d)包括如下步骤:
d-1)时间域上的全连接单元VFC依次由patch分区模块、Flatten函数、全连接层FC、ReLU激活函数层构成,将人脸表情图像P输入到patch分区模块中沿着通道维度分成两组(每组中有24个通道),进行patch分区,输出得到patch分区向量
Figure BDA00039871751300001013
将patch分区向量
Figure BDA00039871751300001014
输入到Flatten函数中,输出得到一维向量/>
Figure BDA00039871751300001015
将一维向量/>
Figure BDA00039871751300001016
依次输入到全连接层FC和ReLU激活函数层中,输出得到时间域上的全连接向量/>
Figure BDA00039871751300001017
d-2)时间域上的多层感知机单元VMLP依次由批标准化层、全连接层FC及ReLU激活函数层构成,将时间域上的全连接向量
Figure BDA00039871751300001018
输入到时间域上的多层感知机单元VMLP中,输出得到时间域向量/>
Figure BDA00039871751300001019
实施例4:
步骤e)包括如下步骤:
e-1)将空间域特征
Figure BDA0003987175130000111
和时间域向量/>
Figure BDA0003987175130000112
输入到DSER网络模型的时空特征融合模块Mst中,通过公式/>
Figure BDA0003987175130000113
计算得到得到时空特征/>
Figure BDA0003987175130000114
式中λ为可调超参数。
实施例5:
λ=0.54。
实施例6:
步骤f)包括如下步骤:
f-1)如附图2所示,受DS证据理论指导的判别器Dds依次由多分支卷积模块、不确定性组合模块、多分支融合模块、判定模块构成。
f-2)多分支卷积模块由第一分支、第二分支、第三分支构成,第一分支、第二分支、第三分支均依次由卷积核为3*3,步长为1的第一卷积层、第一批标准化层、第一ReLu激活函数层、卷积核为3*3,步长为2的第二卷积层、第二批标准化层、第二ReLu激活函数层、平均池化层、Flatten函数、线性层构成,将时空特征
Figure BDA0003987175130000115
分别输入到多分支卷积模块由第一分支、第二分支、第三分支中,分别输出得到第一分支向量/>
Figure BDA0003987175130000116
第二分支向量/>
Figure BDA0003987175130000117
第三分支向量
Figure BDA0003987175130000118
f-3)将第一分支向量
Figure BDA0003987175130000119
第二分支向量/>
Figure BDA00039871751300001110
第三分支向量/>
Figure BDA00039871751300001111
输入到不确定性组合模块中,对第一分支向量/>
Figure BDA00039871751300001112
取以e为底的指数得到第一证据向量
Figure BDA00039871751300001113
Figure BDA00039871751300001114
为第一分支向量中第i个证据向量,k={1,2,...,K},对第二分支向量/>
Figure BDA00039871751300001115
取以e为底的指数得到第二证据向量/>
Figure BDA00039871751300001116
Figure BDA00039871751300001117
为第二分支向量中第i个证据向量,对第三分支向量/>
Figure BDA00039871751300001118
取以e为底的指数得到第三证据向量
Figure BDA00039871751300001119
Figure BDA00039871751300001120
为第三分支向量中第i个证据向量,k={1,2,...,K},K为样本类别数,K=7,k的值与标签序列[1:惊讶,2:害怕,3.厌恶,4.高兴,5:伤心,6:生气,7:中性]中的数字一一对应,即k=1表示惊讶,k=2表示害怕,k=3表示厌恶,k=4表示高兴,k=5表示伤心,k=6表示生气,k=7表示中性,通过公式/>
Figure BDA0003987175130000121
计算得到第一证据向量e1的第k类狄利克雷参数/>
Figure BDA0003987175130000122
通过公式/>
Figure BDA0003987175130000123
计算得到第二证据向量e2的第k类狄利克雷参数/>
Figure BDA0003987175130000124
通过公式/>
Figure BDA0003987175130000125
计算得到第三证据向量e3的第k类狄利克雷参数/>
Figure BDA0003987175130000126
通过公式
Figure BDA0003987175130000127
计算得到第一证据向量e1的狄利克雷强度S1,通过公式/>
Figure BDA0003987175130000128
计算得到第二证据向量e2的狄利克雷强度S2,通过公式/>
Figure BDA0003987175130000129
计算得到第三证据向量e3的狄利克雷强度S3,通过公式/>
Figure BDA00039871751300001210
计算得到第一不确定性u1,通过公式/>
Figure BDA00039871751300001211
计算得到第二不确定性u2,通过公式/>
Figure BDA00039871751300001212
计算得到第三不确定性u3,通过公式/>
Figure BDA00039871751300001213
计算得到第一置信度b1,通过公式/>
Figure BDA00039871751300001214
计算得到第二置信度b2,通过公式/>
Figure BDA00039871751300001215
计算得到第三置信度b3,通过公式C12=b1b2计算得到第一冲突因子C12,通过公式C23=b2b3计算得到第二冲突因子C23,通过公式/>
Figure BDA00039871751300001216
计算得到第二前缀权重w2,通过公式/>
Figure BDA00039871751300001217
计算得到第三前缀权重w3,第一前缀权重w1=1,将第一分支向量/>
Figure BDA00039871751300001218
乘以第一前缀权重w1得到第一权重向量V1 P,将第二分支向量/>
Figure BDA00039871751300001219
乘以第二前缀权重w2得到第二权重向量V2 P,将第三分支向量
Figure BDA00039871751300001220
乘以第三前缀权重w3得到第三权重向量V3 P。/>
f-4)将第一权重向量V1 P、第二权重向量V2 P、第三权重向量V3 P输入到多分支融合模块中,通过公式
Figure BDA00039871751300001221
计算得到融合向量/>
Figure BDA00039871751300001222
f-5)判定模块由Softmax函数及max函数构成,将融合向量/>
Figure BDA00039871751300001223
输入到Softmax函数中进行归一化,将归一化后的融合向量/>
Figure BDA0003987175130000131
输入到max函数中,得到最大值的下标Ek,k={1,2,...,K},k的值与标签序列[1:惊讶,2:害怕,3.厌恶,4.高兴,5:伤心,6:生气,7:中性]中的数字一一对应,将最大值的下标Ek与标签序列[1:惊讶,2:害怕,3.厌恶,4.高兴,5:伤心,6:生气,7:中性]进行对比,找到对应的表情标签作为判别结果R。
实施例7:
步骤g)中通过公式
Figure BDA0003987175130000132
计算得到损失函数l,式中γ为调节因子,γ=0.04,lKL(Ek)为下标Ek的KL loss计算结果,/>
Figure BDA0003987175130000133
为融合向量/>
Figure BDA0003987175130000134
的BCEloss计算结果。
最后应说明的是:以上所述仅为本发明的优选实施例而已,并不用于限制本发明,尽管参照前述实施例对本发明进行了详细的说明,对于本领域的技术人员来说,其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (8)

1.一种基于DS证据理论的动态人脸表情识别方法,其特征在于,包括如下步骤:
a)对数据集中的视频数据V进行预处理,提取视频数据V最后N帧得到连续的视频帧,将视频帧进行人脸检测及人脸对齐剪裁操作得到人脸表情图像P;
b)构建DSER网络模型,该DSER网络模型由包含同身份的帧间共享模块Ms、空间域上的注意力模块Matt、时间域上的全连接单元VFC、时间域上的多层感知机单元VMLP、时空特征融合模块Mst及受DS证据理论指导的判别器Dds
c)将人脸表情图像P分别输入到DSER网络模型的同身份的帧间共享模块Ms及空间域上的注意力模块Matt中,输出得到同身份的帧间共享特征Fs P及空间域上的注意力特征
Figure FDA0003987175120000011
将同身份的帧间共享特征Fs P乘以空间域上的注意力特征/>
Figure FDA0003987175120000012
得到空间域特征/>
Figure FDA0003987175120000013
d)将人脸表情图像P依次输入到DSER网络模型的时间域上的全连接单元VFC与时间域上的多层感知机单元VMLP中,输出得到时间域向量
Figure FDA0003987175120000014
e)将空间域特征
Figure FDA0003987175120000015
和时间域向量/>
Figure FDA0003987175120000016
输入到DSER网络模型的时空特征融合模块Mst中,输出得到时空特征/>
Figure FDA0003987175120000017
f)将时空特征
Figure FDA0003987175120000018
输入到DSER网络模型的受DS证据理论指导的判别器Dds中,输出得到分类结果R,完成DSER网络模型的构建;
g)计算损失函数l;
h)通过损失函数l利用Adam优化器迭代DSER网络模型,得到训练后的DSER网络模型;
i)将待检测的视频数据利用步骤a)处理后得到人脸表情图像,将人脸表情图像输入到训练后的DSER网络模型中,得到分类结果R。
2.根据权利要求1所述的基于DS证据理论的动态人脸表情识别方法,其特征在于:步骤a)中使用python中的VideoCapture类提取视频数据V最后16帧,得到连续的视频帧,对连续的视频帧使用DPM算法进行人脸检测,提取每个视频帧的人脸图像,得到连续的16帧人脸图像,将连续的16帧人脸图像使用PELD算法进行人脸对齐并剪裁,得到对齐后的连续的16帧人脸表情图像P。
3.根据权利要求1所述的基于DS证据理论的动态人脸表情识别方法,其特征在于,步骤c)包括如下步骤:
c-1)同身份的帧间共享模块Ms依次由第一卷积模块、第二卷积模块、第三卷积模块构成,空间域上的注意力模块Matt依次由第一全连接模块、第二全连接模块构成;
c-2)同身份的帧间共享模块Ms的第一卷积模块依次由卷积核为3*3,步长为1的卷积层、批标准化层、ReLu激活函数层构成,将人脸表情图像P输入到第一卷积模块中,输出得到特征
Figure FDA0003987175120000021
c-3)同身份的帧间共享模块Ms的第二卷积模块依次由下采样模块及残差模块构成,所述下采样模块由第一分支和第二分支构成,第一分支依次由卷积核为3*3,步长为2的第一卷积层、第一批标准化层、第一ReLu激活函数层、卷积核为3*3,步长为1的第二卷积层、第二批标准化层、第二ReLu激活函数层构成;第二分支依次由卷积核为1*1,步长为2的第三卷积层、第三批标准化层、第三ReLu激活函数层构成;残差模块依次由卷积核为3*3,步长为1的第四卷积层、第四批标准化层、第四ReLu激活函数层、卷积核为3*3,步长为1的第五卷积层、第五批标准化层、第五ReLu激活函数层构成,将特征
Figure FDA0003987175120000022
输入到第二卷积模块的下采样模块的第一分支中,输出得到特征/>
Figure FDA0003987175120000023
将特征/>
Figure FDA0003987175120000024
输入到第二卷积模块的下采样模块的第二分支中,输出得到特征/>
Figure FDA0003987175120000025
将特征/>
Figure FDA0003987175120000026
和特征/>
Figure FDA0003987175120000027
相加操作得到特征/>
Figure FDA0003987175120000028
将特征/>
Figure FDA0003987175120000029
输入到第二卷积模块的残差模块中,输出得到特征/>
Figure FDA00039871751200000210
c-4)同身份的帧间共享模块Ms的第三卷积模块依次由下采样模块及残差模块构成,所述下采样模块由第一分支和第二分支构成,第一分支依次由卷积核为3*3,步长为2的第一卷积层、第一批标准化层、第一ReLu激活函数层、卷积核为3*3,步长为1的第二卷积层、第二批标准化层、第二ReLu激活函数层构成;第二分支依次由卷积核为1*1,步长为2的第三卷积层、第三批标准化层、第三ReLu激活函数层构成;残差模块依次由卷积核为3*3,步长为1的第四卷积层、第四批标准化层、第四ReLu激活函数层、卷积核为3*3,步长为1的第五卷积层、第五批标准化层、第五ReLu激活函数层构成,将特征
Figure FDA0003987175120000031
输入到第三卷积模块的下采样模块的第一分支中,输出得到特征/>
Figure FDA0003987175120000032
将特征/>
Figure FDA0003987175120000033
输入到第三卷积模块的下采样模块的第二分支中,输出得到特征/>
Figure FDA0003987175120000034
将特征/>
Figure FDA0003987175120000035
和特征/>
Figure FDA0003987175120000036
相加操作得到特征/>
Figure FDA0003987175120000037
将特征/>
Figure FDA0003987175120000038
输入到第三卷积模块的残差模块中,输出得到特征/>
Figure FDA0003987175120000039
c-5)通过公式
Figure FDA00039871751200000310
计算得到同身份的帧间共享特征Fs P,式中/>
Figure FDA00039871751200000311
为特征
Figure FDA00039871751200000312
中第i个视频帧向量;
c-6)空间域上的注意力模块Matt的第一全连接模块依次由批标准化层、Flatten函数、全连接层及ReLU激活函数层构成,将人脸表情图像P输入到第一全连接模块中,输出得到特征
Figure FDA00039871751200000313
c-7)空间域上的注意力模块Matt的第二全连接模块依次由全连接层、Sigmoid函数层构成,将特征
Figure FDA00039871751200000314
输入到第二全连接模块中,输出得到空间域上的注意力特征/>
Figure FDA00039871751200000315
c-8)将同身份的帧间共享特征Fs P乘以空间域上的注意力特征
Figure FDA00039871751200000316
得到空间域特征
Figure FDA00039871751200000317
4.根据权利要求1所述的基于DS证据理论的动态人脸表情识别方法,其特征在于,步骤d)包括如下步骤:
d-1)时间域上的全连接单元VFC依次由patch分区模块、Flatten函数、全连接层FC、ReLU激活函数层构成,将人脸表情图像P输入到patch分区模块中进行patch分区,输出得到patch分区向量
Figure FDA00039871751200000318
将patch分区向量/>
Figure FDA00039871751200000319
输入到Flatten函数中,输出得到一维向量
Figure FDA00039871751200000320
将一维向量/>
Figure FDA00039871751200000321
依次输入到全连接层FC和ReLU激活函数层中,输出得到时间域上的全连接向量/>
Figure FDA0003987175120000041
/>
d-2)时间域上的多层感知机单元VMLP依次由批标准化层、全连接层FC及ReLU激活函数层构成,将时间域上的全连接向量
Figure FDA0003987175120000042
输入到时间域上的多层感知机单元VMLP中,输出得到时间域向量/>
Figure FDA0003987175120000043
5.根据权利要求1所述的基于DS证据理论的动态人脸表情识别方法,其特征在于,步骤e)包括如下步骤:
e-1)将空间域特征
Figure FDA0003987175120000044
和时间域向量/>
Figure FDA0003987175120000045
输入到DSER网络模型的时空特征融合模块Mst中,通过公式/>
Figure FDA0003987175120000046
计算得到得到时空特征/>
Figure FDA0003987175120000047
式中λ为可调超参数。
6.根据权利要求5所述的基于DS证据理论的动态人脸表情识别方法,其特征在于:λ=0.54。
7.根据权利要求1所述的基于DS证据理论的动态人脸表情识别方法,其特征在于,步骤f)包括如下步骤:
f-1)受DS证据理论指导的判别器Dds依次由多分支卷积模块、不确定性组合模块、多分支融合模块、判定模块构成;
f-2)多分支卷积模块由第一分支、第二分支、第三分支构成,第一分支、第二分支、第三分支均依次由卷积核为3*3,步长为1的第一卷积层、第一批标准化层、第一ReLu激活函数层、卷积核为3*3,步长为2的第二卷积层、第二批标准化层、第二ReLu激活函数层、平均池化层、Flatten函数、线性层构成,将时空特征
Figure FDA0003987175120000048
分别输入到多分支卷积模块由第一分支、第二分支、第三分支中,分别输出得到第一分支向量/>
Figure FDA0003987175120000049
第二分支向量/>
Figure FDA00039871751200000410
第三分支向量
Figure FDA00039871751200000411
f-3)将第一分支向量
Figure FDA00039871751200000412
第二分支向量/>
Figure FDA00039871751200000413
第三分支向量/>
Figure FDA00039871751200000414
输入到不确定性组合模块中,对第一分支向量/>
Figure FDA00039871751200000415
取以e为底的指数得到第一证据向量/>
Figure FDA00039871751200000416
Figure FDA00039871751200000417
为第一分支向量中第i个证据向量,k={1,2,...,K},对第二分支向量/>
Figure FDA00039871751200000418
取以e为底的指数得到第二证据向量/>
Figure FDA0003987175120000051
Figure FDA0003987175120000052
为第二分支向量中第i个证据向量,对第三分支向量/>
Figure FDA0003987175120000053
取以e为底的指数得到第三证据向量/>
Figure FDA0003987175120000054
Figure FDA0003987175120000055
为第三分支向量中第i个证据向量,k={1,2,...,K},K为样本类别数,K=7,k的值与标签序列[1:惊讶,2:害怕,3.厌恶,4.高兴,5:伤心,6:生气,7:中性]中的数字一一对应,通过公式/>
Figure FDA0003987175120000056
计算得到第一证据向量e1的第k类狄利克雷参数/>
Figure FDA0003987175120000057
通过公式/>
Figure FDA0003987175120000058
计算得到第二证据向量e2的第k类狄利克雷参数/>
Figure FDA0003987175120000059
通过公式/>
Figure FDA00039871751200000510
计算得到第三证据向量e3的第k类狄利克雷参数/>
Figure FDA00039871751200000511
通过公式/>
Figure FDA00039871751200000512
计算得到第一证据向量e1的狄利克雷强度S1,通过公式/>
Figure FDA00039871751200000513
计算得到第二证据向量e2的狄利克雷强度S2,通过公式/>
Figure FDA00039871751200000514
计算得到第三证据向量e3的狄利克雷强度S3,通过公式/>
Figure FDA00039871751200000515
计算得到第一不确定性u1,通过公式/>
Figure FDA00039871751200000516
计算得到第二不确定性u2,通过公式/>
Figure FDA00039871751200000517
计算得到第三不确定性u3,通过公式
Figure FDA00039871751200000518
计算得到第一置信度b1,通过公式/>
Figure FDA00039871751200000519
计算得到第二置信度b2,通过公式
Figure FDA00039871751200000520
计算得到第三置信度b3,通过公式C12=b1b2计算得到第一冲突因子C12,通过公式C23=b2b3计算得到第二冲突因子C23,通过公式/>
Figure FDA00039871751200000521
计算得到第二前缀权重w2,通过公式/>
Figure FDA00039871751200000522
计算得到第三前缀权重w3,第一前缀权重w1=1,将第一分支向量/>
Figure FDA00039871751200000523
乘以第一前缀权重w1得到第一权重向量V1 P,将第二分支向量/>
Figure FDA00039871751200000524
乘以第二前缀权重w2得到第二权重向量/>
Figure FDA00039871751200000525
将第三分支向量/>
Figure FDA00039871751200000526
乘以第三前缀权重w3得到第三权重向量/>
Figure FDA00039871751200000527
f-4)将第一权重向量V1 P、第二权重向量
Figure FDA0003987175120000061
第三权重向量/>
Figure FDA0003987175120000062
输入到多分支融合模块中,通过公式/>
Figure FDA0003987175120000063
计算得到融合向量/>
Figure FDA0003987175120000064
f-5)判定模块由Softmax函数及max函数构成,将融合向量
Figure FDA0003987175120000065
输入到Softmax函数中进行归一化,将归一化后的融合向量/>
Figure FDA0003987175120000066
输入到max函数中,得到最大值的下标Ek,k={1,2,...,K},k的值与标签序列[1:惊讶,2:害怕,3.厌恶,4.高兴,5:伤心,6:生气,7:中性]中的数字一一对应,将最大值的下标Ek与标签序列[1:惊讶,2:害怕,3.厌恶,4.高兴,5:伤心,6:生气,7:中性]进行对比,找到对应的表情标签作为判别结果R。
8.根据权利要求5所述的基于DS证据理论的动态人脸表情识别方法,其特征在于:步骤g)中通过公式
Figure FDA0003987175120000067
计算得到损失函数l,式中γ为调节因子,γ=0.04,lKL(Ek)为下标Ek的KL loss计算结果,/>
Figure FDA0003987175120000068
为融合向量/>
Figure FDA0003987175120000069
的BCE loss计算结果。/>
CN202211576932.1A 2022-12-08 2022-12-08 一种基于ds证据理论的动态人脸表情识别方法 Active CN116152887B (zh)

Priority Applications (2)

Application Number Priority Date Filing Date Title
CN202211576932.1A CN116152887B (zh) 2022-12-08 2022-12-08 一种基于ds证据理论的动态人脸表情识别方法
US18/381,195 US11967180B1 (en) 2022-12-08 2023-10-18 Dynamic facial expression recognition (FER) method based on Dempster-Shafer (DS) theory

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202211576932.1A CN116152887B (zh) 2022-12-08 2022-12-08 一种基于ds证据理论的动态人脸表情识别方法

Publications (2)

Publication Number Publication Date
CN116152887A true CN116152887A (zh) 2023-05-23
CN116152887B CN116152887B (zh) 2023-09-26

Family

ID=86338047

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202211576932.1A Active CN116152887B (zh) 2022-12-08 2022-12-08 一种基于ds证据理论的动态人脸表情识别方法

Country Status (2)

Country Link
US (1) US11967180B1 (zh)
CN (1) CN116152887B (zh)

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113468929A (zh) * 2020-03-31 2021-10-01 华为技术有限公司 运动状态识别方法、装置、电子设备和存储介质
CN114463827A (zh) * 2022-04-12 2022-05-10 之江实验室 一种基于ds证据理论的多模态实时情绪识别方法及系统
CN115311720A (zh) * 2022-08-11 2022-11-08 山东省人工智能研究院 一种基于Transformer的deepfake生成方法

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
DE112020001642T5 (de) * 2019-03-29 2022-03-10 Intel Corporation Autonomes Fahrzeugsystem

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113468929A (zh) * 2020-03-31 2021-10-01 华为技术有限公司 运动状态识别方法、装置、电子设备和存储介质
CN114463827A (zh) * 2022-04-12 2022-05-10 之江实验室 一种基于ds证据理论的多模态实时情绪识别方法及系统
CN115311720A (zh) * 2022-08-11 2022-11-08 山东省人工智能研究院 一种基于Transformer的deepfake生成方法

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
FARUQE, MO等: "Face Recognition Using PCA and SVM", 《PROCESSINGS OF THE 3RD INTERNATIONAL CONFERENCE ON ANTI-COUNTERFEITING》, pages 1 - 5 *
METTU SRINIVAS等: "Facial Expression Recognition Using Fusion of Deep Learning and Multiple Features", 《MACHINE LEARNING ALGORITHMS AND APPLICATIONS》, pages 1 - 22 *
夏海英等: "基于主动形状模型差分纹理和局部方向模式特征融合的人脸表情识别", 《计算机应用》, pages 783 - 786 *

Also Published As

Publication number Publication date
US11967180B1 (en) 2024-04-23
CN116152887B (zh) 2023-09-26

Similar Documents

Publication Publication Date Title
CN111460968B (zh) 基于视频的无人机识别与跟踪方法及装置
CN110598543B (zh) 基于属性挖掘和推理的模型训练方法及行人再识别方法
CN109145717A (zh) 一种在线学习的人脸识别方法
CN111539351B (zh) 一种多任务级联的人脸选帧比对方法
CN104751186A (zh) 一种基于bp网络和小波变换的虹膜图像质量分类方法
CN114023354A (zh) 基于聚焦损失函数的指导型声学事件检测模型训练方法
CN111126307A (zh) 联合稀疏表示神经网络的小样本人脸识别方法
Hu et al. Semi-supervised learning based on GAN with mean and variance feature matching
CN111539445A (zh) 一种半监督特征融合的对象分类方法及系统
CN109886251A (zh) 一种基于姿势引导对抗学习的端到端的行人再识别方法
CN103942545A (zh) 一种基于双向压缩数据空间维度缩减的人脸识别方法和装置
CN111582195B (zh) 一种汉语唇语单音节识别分类器构建方法
Tian et al. A fault diagnosis method for few-shot industrial processes based on semantic segmentation and hybrid domain transfer learning
CN111785262B (zh) 一种基于残差网络及融合特征的说话人年龄性别分类方法
CN116152887B (zh) 一种基于ds证据理论的动态人脸表情识别方法
CN116434759A (zh) 一种基于srs-cl网络的说话人识别方法
CN116704609A (zh) 基于时序注意力的在线手卫生评估方法及系统
CN113869212B (zh) 多模态活体检测方法、装置、计算机设备及存储介质
CN116311026A (zh) 基于多层级信息融合Transformer的教室场景身份识别方法
CN115410035A (zh) 基于监控视频的空中交通管制员不安全行为分类方法
CN107016675A (zh) 一种基于非局部时空特征学习的无监督视频分割方法
CN116524563B (zh) 一种基于transformer与不确定性的动态人脸表情识别方法
CN116778557A (zh) 一种双特征融合的跨域微表情识别方法
Park et al. Displacement Detection of Wooden Cultural Properties Using Unsupervised Learning
Mao Cross domain fault diagnosis method based on MLP-mixer network

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant