CN111931630A - 一种基于人脸特征点数据增强的动态表情识别方法 - Google Patents

一种基于人脸特征点数据增强的动态表情识别方法 Download PDF

Info

Publication number
CN111931630A
CN111931630A CN202010776415.3A CN202010776415A CN111931630A CN 111931630 A CN111931630 A CN 111931630A CN 202010776415 A CN202010776415 A CN 202010776415A CN 111931630 A CN111931630 A CN 111931630A
Authority
CN
China
Prior art keywords
face
feature point
layer
model
data
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202010776415.3A
Other languages
English (en)
Other versions
CN111931630B (zh
Inventor
钟福金
黎敏
尹妙慧
王灵芝
周睿丽
赵建骅
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Dragon Totem Technology Hefei Co ltd
Xi'an Yunwosi Network Technology Co ltd
Original Assignee
Chongqing University of Post and Telecommunications
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Chongqing University of Post and Telecommunications filed Critical Chongqing University of Post and Telecommunications
Priority to CN202010776415.3A priority Critical patent/CN111931630B/zh
Publication of CN111931630A publication Critical patent/CN111931630A/zh
Application granted granted Critical
Publication of CN111931630B publication Critical patent/CN111931630B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/16Human faces, e.g. facial parts, sketches or expressions
    • G06V40/174Facial expression recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2415Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on parametric or probabilistic models, e.g. based on likelihood ratio or false acceptance rate versus a false rejection rate
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/047Probabilistic or stochastic networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/048Activation functions
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/16Human faces, e.g. facial parts, sketches or expressions
    • G06V40/168Feature extraction; Face representation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/16Human faces, e.g. facial parts, sketches or expressions
    • G06V40/172Classification, e.g. identification

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Data Mining & Analysis (AREA)
  • General Health & Medical Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • General Engineering & Computer Science (AREA)
  • Evolutionary Computation (AREA)
  • Biomedical Technology (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Computational Linguistics (AREA)
  • Biophysics (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Oral & Maxillofacial Surgery (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Human Computer Interaction (AREA)
  • Multimedia (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Evolutionary Biology (AREA)
  • Probability & Statistics with Applications (AREA)
  • Image Analysis (AREA)

Abstract

本发明属于人脸动态表情识别领域,尤其涉及了一种基于人脸特征点数据增强的动态表情识别方法,该方法包括:获取原始人脸数据集,对原始人脸数据集进行预处理,得到人脸数据训练集;所述人脸数据训练集包括原始人脸数据集、原始轨迹图和新的轨迹图;将训练集输入到构建好的3CNN模型中进行模型训练;实时获取人脸数据,将获取的人脸数据输入到训练好的3CNN模型中,得到该人脸动态表情识别结果;本发明通过对人脸特征数据进行增强处理,使得在训练卷积神经网络模型时有足够的数据对模型进行训练,最终得到的结果更精确。

Description

一种基于人脸特征点数据增强的动态表情识别方法
技术领域
本发明属于人脸动态表情识别领域,尤其涉及一种基于人脸特征点数据增强的动态表情识别方法。
背景技术
面部表情识别(Facial Expression Recognition),以下简称FER。
面部表情的研究始于19世纪。1872年,达尔文在他著名的论著《人类和动物的表情(The Expression of the Emotions in Animals andMan,1872)》中阐述了人的面部表情和动物的面部表情之间的联系和区别。1971年,Ekman和Friesen对现代人脸表情识别做了开创性的工作,他们研究了人类的6种基本表情(即高兴、悲伤、惊讶、恐惧、愤怒、厌恶),确定识别对象的类别,并系统地建立了由上千幅不同表情组成的人脸表情图像数据库,细致的描述了每一种表情所对应的面部变化,包括眉毛、眼睛、嘴唇等等是如何变化的。1978年,Suwa等人对一段人脸视频动画进行了人脸表情识别的最初尝试,提出了在图像序列中进行面部表情自动分析。20世纪90年代开始,由K.Mase和A.Pentland使用光流来判断肌肉运动的主要方向,使用提出的光流法进行面部表情识别之后,自动面部表情识别进入了新的时期。
在发展过程中,FER从传统的静态图像识别扩展到动态序列识别。特征提取也由传统的方法扩展到深度学习方法。识别准确度也因此越来越高。但也越发突显出一个问题,数据不足。针对静态图像识别,单一帧的数据增强方法已经很完善,但针对动态序列,由于其在时空上连续的特性,如果直接在序列中加入某一帧图片,会使其前后不连续,所以增强动态序列的表情数据也逐渐走入大家视野。
发明内容
为解决以上现有技术的问题,本发明提出了一种基于人脸特征点数据增强的动态表情识别方法,该方法包括:实时获取人脸数据,将获取的人脸数据输入到训练好的3CNN模型中,得到该人脸动态表情识别结果;所述训练好的3CNN模型的获取包括:获取原始人脸数据集,对原始人脸数据集进行预处理,得到人脸数据训练集;将人脸数据训练集输入到构建好的3CNN模型中进行模型训练,得到训练好的3CNN模型;
所述得到人脸数据训练集的过程包括:
S1:对获取的原始人脸数据集进行人脸对齐以及面部特征点标记处理;
S2:选择面部特征变化大的特征点;
S3:根据选择的特征点构建轨迹矩阵;将各个轨迹矩阵进行组合,得到原始轨迹图;
S4:采用随机因子对轨迹矩阵进行微调处理,得到新的轨迹矩阵;将新的轨迹矩阵进行组合,得到新的轨迹图,将原始人脸数据集、原始轨迹图和新的轨迹图作为人脸数据训练集。
优选的,对获取的原始人脸数据集进行人脸对齐以及面部特征点标记处理过程包括:
S11:采用Viola-Jones人脸检测算法对原始人脸数据集进行人脸检测;对检测后的人脸数据进行去背景以及去除非面部区域处理,得到人脸边界框;
S12:根据人脸边界框对原始人脸数据集中的动态序列的每一帧图像进行裁剪,得到面部区域;
S13:对得到的面部区域进行几何归一化处理,得到新的面部区域;
S14:对新的面部区域的特征点进行标记,得到具有特征点的图像;将各个特征点的位置坐标进行保存。
优选的,选择面部特征变化大的特征点的过程包括:
S21:将特征点图像的各个特征点划分为眉毛、眼睛、鼻子以及嘴四组;
S22:分别计算相同组内的各个特征点变化量;
S23:选择各个组中特征变化量大的特征点。
进一步的,计算相同组内的各个特征点变化量的公式为:
Figure BDA0002618587610000031
优选的,构建轨迹矩阵与原始轨迹图的过程包括:
S31:对获取的特征点进行编号处理,用(x,y)表示图像中特征点的位置坐标,即特征点A1的坐标为A1(x1,y1)A1(x2,y2)…A1(xm,ym),其中(x,y)的下标表示图像的帧,m表示峰值帧在动态序列的第m帧;
S32:根据每个特征点的坐标计算每个特征点的偏移量;
S33:根据各个特征点的偏移量计算轨迹矩阵的斜率k;
S34:根据斜率k求出轨迹矩阵;
S35:将求出的轨迹矩阵进行组合,得到原始轨迹图。
优选的,对轨迹矩阵进行微调处理的过程包括:
S41:定义随机因子为(a,b),其中a,b均为随机生成的且满足均值为0、方差为1的标准正态分布的小数;
S42:采用随机因子对各个特征点的坐标进行微调;
S43:根据微调后的特征点坐标重新计算新的斜率,根据新斜率求出新的轨迹矩阵;
S44:将求出的新轨迹矩阵进行组合,得到新的轨迹图。
优选的,3CNN模型包括:3个训练不同数据的卷积神经网络层以及1个分类层。
进一步的,第一卷积神经网络层和第二卷积神经网络层用于提取静态图像的面部表情特征;第三卷积神经网络层用于提取特征点随表情变化的变化特征;分类层用于将三个神经网络提取的特征进行合并以及表情分类处理。
优选的,进行模型训练的过程包括:
步骤1:将训练集中的初始帧经灰度归一化处理后输入到3CNN模型的第一卷积神经网络层中;初始帧图像依次经过卷积层、卷积层、池化层、卷积层、池化层、卷积层以及池化层,得到特征信息;将提取的特征信息转化为一维向量;
步骤2:将训练集中的峰值帧经灰度归一化处理后输入到3CNN模型的第二卷积神经网络层中;峰值帧图像依次经过卷积层、卷积层、池化层、卷积层、池化层、卷积层以及池化层,得到特征信息;将提取的特征信息转化为一维向量;
步骤3:将训练集中的轨迹图输入到3CNN模型的第三卷积神经网络层中;输入的轨迹图经过编码层,使数据范围调整到[0,1]之间,将调整后的轨迹图依次经过卷积层、卷积层、池化层、卷积层、池化层、卷积层以及池化层,得到特征信息;将提取的特征信息转化为一维向量;
步骤4:将步骤1、步骤2以及步骤3输出的一维向量进行合并处理,将合并后的数据输入到分类层中,预测表情;
步骤5:将预测的表情与实际标签进行对比,通过误差反向传播算法不断训练3CNN模型,完成模型的训练。
本发明通过对原始的人脸数据进行增强处理,增加了样本数量,使得在训练卷积神经网络模型时有足够的数据对模型进训练,保证了最终得到的识别结果更精确;本发明通过对卷积神经网络模型进行优化处理,即采用多个卷积神经网络模型对数据分别进行静态特征提取和动态特征提取,再将提取的特征进行合并,使卷积神经网络模型在进行模型训练时,训练的结果更精确。
附图说明
图1为本发明的动态表情识别方法整体系统的流程图;
图2为本发明的3CNN网络模型示意图;
图3为本发明的特征点微调前后的对比图;
图4为本发明的CNN的网络结构及数据流大小。
具体实施方式
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将结合附图,对本发明实施例中的技术方案进行清楚、完整地描述,所描述的实施例仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在不付出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
将人脸表情分成7个类别,分别为:0-生气、1-厌恶、2-害怕、3-高兴、4-伤心、5-惊讶、6-中性。由于数字编码之间存在天然的大小关系,会迫使模型学习这种不必要的约束,造成模型训练误差。为消除此种误差,本文中的标签采用onehot编码;选取初始表情到峰值表情之间7帧表情程度逐渐增强的图像,将该7帧图像构成一个动态表情类别中的一个样本;将经过多个相同表情类别选取的样本组成一个表情类别的训练数据,并给定标签;将训练数据中的人脸尺寸归一化到48*48像素大小。
一种基于人脸特征点数据增强的动态表情识别方法,如图1所示,该方法包括:实时获取人脸数据,将获取的人脸数据输入到训练好的3CNN模型中,得到该人脸动态表情识别结果;所述训练好的3CNN模型的获取包括:获取原始人脸数据集,对原始人脸数据集进行预处理,得到人脸数据训练集;所述人脸数据训练集包括原始人脸数据集、原始轨迹图和新的轨迹图;将人脸数据训练集输入到构建好的3CNN模型中进行模型训练,得到训练好的3CNN模型;其中,3CNN表示三个联合的卷积神经网络。
所述进行模型训练时,将原始人脸数据集中的表情数据和其对应的一个轨迹图输入到模型中进行模型的单次训练。多个轨迹图与一个表情数据对应,组成了多次模型训练。
对原始人脸数据集进行预处理,增加了训练样本,提高了人脸动态表情识别的精度。
对原始人脸数据集进行预处理的过程包括:
S1:对获取的原始人脸数据集进行人脸对齐以及面部特征点标记处理;
S11:人脸对齐;采用OpenCV中基于Viola-Jones人脸检测算法进行人脸检测。通过使用OpenCV加载Haar分类器,读入动态序列解码后的7帧图像,调用Haar函数对人脸进行检测,得到人脸边界框。所述得到人脸边界框包括:对检测后的人脸数据进行去背景以及去除非面部区域处理。
S12:根据人脸边界框对原始人脸数据集中的动态序列的每一帧图像进行裁剪,得到面部区域;将剪裁后的图像重新缩放为48*48。
S13:对得到的面部区域进行几何归一化处理,得到新的面部区域。
所述几何归一化处理包括:选取人脸关键部位,如眼睛、鼻子、嘴巴等,使用仿射映射将人脸的面部特征进行统一标准。
S14:基于步骤S13的处理结果,读取数据源中的每一帧图像,使用python中的dlib库官方训练好的模型进行特征点标记,得到标记有特征点的图像,并将各个特征点的位置坐标保存。
优选的,人脸的特征点数量为68个。
S2:选择面部特征变化大的特征点。
S21:将特征点图像的各个特征点划分为眉毛、眼睛、鼻子以及嘴四组,组号分别为1,2,3,4;并计算各部位特征点比例。
优选的,由于面部外围轮廓在表情变化时变化不明显,因此将其17个特征点排除在外。在剩下的51个特征点中,眼睛、眉毛、鼻子、嘴唇上各有12、10、9、20个特征点,比例近似为1:1:1:2。
S22:分别计算相同组内的各个特征点变化量。
计算相同组内的各个特征点变化量的公式为:
Figure BDA0002618587610000061
其中,Dpq表示第p组的第q个特征点的各帧与第一帧的位置差异之和,pq表示第p组的第q个特征点,i表示第i帧图像,j表示第j帧图像,
Figure BDA0002618587610000062
表示第p组的第q个特征点在第j帧图像中的位置横坐标,
Figure BDA0002618587610000063
表示第p组的第q个特征点在第j帧图像中的位置纵坐标。
S23:选择各个组中特征变化量大的特征点;所述选择各组中的特征点的比例为眉毛:眼睛:鼻子:嘴=1:1:1:2。
优选的,根据步骤S21各部位特征点比例对人脸特征点进行选取,选取的人脸特征点的个数为30,即选取的特征点包括前6个眉毛特征点、前6个眼睛特征点、前6个鼻子特征点以及前12个嘴巴特征点。
S3:根据选择的特征点构建轨迹矩阵;将各个轨迹矩阵进行组合,得到原始轨迹图。
S31:对获取的特征点进行编号处理,所述特征点在图像中的位置坐标用(x,y)表示,即特征点A1的坐标就是A1(x1,y1)A1(x2,y2)…A1(x7,y7),其中(x,y)的下标表示图像的帧。
进行编号处理的过程为:按照特征点在人脸的部位将30个变化较大的特征点进行编号,所述编号为:A1,A2…A30;其中A1~A6表示眉毛、A7~A12表示眼睛、A13~A18表示鼻子、A19~A30表示嘴巴。优选的,对上述每组特征点的编号都按照其在面部从左到右的扫描顺序进行编号。
S32:根据每个特征点的坐标计算相应特征点的偏移量;其中偏移量为特征点在两帧图像中的坐标变化量;计算公式为:
Figure BDA0002618587610000071
其中,i表示第i帧图像,j表示第j帧图像,o表示第o个特征点,
Figure BDA0002618587610000072
表示特征点o的横坐标变化量,
Figure BDA0002618587610000073
表示特征点o的纵坐标变化量。上述表达式中求出的是特征点Ao的第i帧图像和第j帧图像的偏移量
Figure BDA0002618587610000074
S33:根据各个特征点的偏移量计算轨迹矩阵的斜率k。
所述斜率表示两点之间连线的倾斜程度;因此斜率中隐含特征点的变化特征;计算公式为:
Figure BDA0002618587610000075
其中,
Figure BDA0002618587610000076
表示两点之间的斜率。
对于斜率不存在和斜率无穷大的两种情况,将0作为斜率不存在时的k值,将∞作为斜率无穷大时的k值。特别说明:在第三个卷积网络的编码层阶段-∞会转化为0,+∞会转化为1。
S34:根据斜率k求出轨迹矩阵。
轨迹矩阵的大小为7×7,并且主对角线上的值都为0;轨迹矩阵记录了特征点每两帧图像之间(包括同一帧图像之间)的斜率。轨迹矩阵样式如下:
Figure BDA0002618587610000081
其中,o表示的是第o个特征点,轨迹矩阵符号定义为M。
S35:将求出的轨迹矩阵进行组合,得到原始轨迹图。
由于人脸数据集中包含30个特征点,所以得到30个轨迹矩阵,将这30个轨迹矩阵按照一定的顺序组合成一个矩阵。
组合方式包括:将代表眉毛的所有轨迹矩阵作为新矩阵的第一行元素,其中30个特征点轨迹矩阵中包含6个眉毛特征点轨迹矩阵;将代表眼睛的所有轨迹矩阵作为新矩阵的第二行元素,其中30个特征点轨迹矩阵中包含6个眼睛特征点轨迹矩阵;将代表鼻子的所有轨迹矩阵作为新矩阵的第三行元素,其中30个特征点轨迹矩阵中包含6个鼻子特征点轨迹矩阵;将剩余的12个嘴特征点轨迹矩阵平均分为两部分,其中一部分作为新矩阵的第四行元素,另一部分作为新矩阵的第五行元素;所述新矩阵的每一行元素的排列顺序均为该组特征按从左到右扫描的顺序进行排列。
组合的结果为:
Figure BDA0002618587610000091
其中,M1~M6表示眉毛特征点轨迹矩阵,M7~M12表示眼睛特征点轨迹矩阵,M13~M18表示鼻子特征点轨迹矩阵,M19~M30表示嘴特征点轨迹矩阵,组合后的轨迹矩阵大小为[35,42],命名为轨迹图,符号定义为G。
所述轨迹矩阵中的每一条数据记录的是特征点每两帧的变化,即轨迹矩阵记录了特征点伴随表情变化而变化的信息,因此轨迹图可以近似代表人脸表情变化。
S4:采用随机因子对轨迹矩阵进行微调处理,得到新的轨迹矩阵,将新的轨迹矩阵进行组合,得到新的轨迹图,将原始人脸数据集、原始轨迹图和新的轨迹图作为人脸数据训练集。
S41:定义的随机因子为(a,b),其中a,b均为随机生成的且满足均值为0、方差为1的标准正态分布的小数。
S42:采用随机因子对各个特征点的坐标进行微调;微调特征点坐标的计算公式为:
Figure BDA0002618587610000092
其中,i表示第i帧图像,o表示的是第o个特征点,
Figure BDA0002618587610000093
表示对横坐标进行微调的值,
Figure BDA0002618587610000094
表示对纵坐标进行微调的值。上述表达式中求出的是特征点Ao在第i帧图像中经过微调后的坐标,其中初始帧和峰值帧特征点的位置不做修改。修改后特征点的坐标为:
Ao(x1,y1)A2(x2+a2,y2+b2)…Ao(x6+a6,y6+b6)Ao(x7,y7)
S43:根据微调后的特征点坐标重新计算新的斜率,根据新斜率求出新的轨迹矩阵。
如图3所示,通过对出现的特征点进行微调处理,微调后特征点的变化轨迹与微调前的变化轨迹相比有一定的变化,但是变化在合理的范围之内;所述合理范围包括:微调后的特征点变化轨迹满足面部表情动作合理性。
S44:重复步骤S41、步骤S42以及步骤S43;由于随机因子是随机的,通过随机因子微调特征点坐标可以得到大量的轨迹图。所述轨迹图的符号用Gt表示,t表示第t个轨迹图。
通过采用步骤S4的方法对数据进行处理,可以大幅度增加所有表情样本的特征变化轨迹数据,相当于一组表情样本对应了多组变化轨迹,为后续深度神经网络模型的训练解决了数据不足的问题。如图2所示,所述神经网络模型包括:3个训练不同数据的卷积神经网络模型以及1个分类层。3个卷积神经网络模型单次训练的数据是一组表情数据和其对应的一个轨迹图。其中,第一个卷积神经网络模型提取初始帧所包含的表情静态特征;第二卷积神经网络模型提取峰值帧所包含的表情静态特征;第三卷积神经网络模型提取表情的动态特征;合并静态特征和动态特征,使模型能更加精确的识别人脸动态表情;从而达到更好的训练效果。
如图4所示,第一卷积神经网络的结构依次为核为1*1的卷积层1,步长为1;核为5*5的卷积层2,步长为1,并在卷积前填充2层0像素;核为3*3的池化层1,步长为2;核为3*3的卷积层3,步长为1,并在卷积前填充1层0像素;核为3*3的池化层2,步长为2;核为5*5的卷积层4,步长为1,并在卷积前填充2层0像素;核为3*3的池化层3,步长为2。在所有层中核的个数均为32;池化层均采取最大池化策略。输入数据是大小为48*48的某一类型表情的初始帧,提取初始帧的表面信息;输出数据是大小为[800,1]的一维向量。
第二卷积神经网络结构与第一神经网络结构相同。输入数据是大小为48*48的某一类型表情的峰值帧,提取峰值帧的表面信息;输出数据是大小为[800,1]的一维向量。
优选的,初始帧与峰值帧在作为网络输入数据之前,其灰度值先归一化为[0,1]。
第三卷积神经网络结构依次为:使用Sigmoid函数的编码层,该编码层的作用是将数据范围调整到[0,1]之间;32个核为1*1的卷积层1,步长为1;32个核为5*5的卷积层2,步长为1,并在卷积前填充2层0像素;32个核为3*3的池化层1,步长为2;32个核为3*3的卷积层3,步长为1,并在数据进行卷积前填充1层0像素;32个核为3*3的池化层2,步长为2;64个核为5*5的卷积层4,步长为1,并在数据进行卷积前填充2层0像素;64个核为3*3的池化层3,步长为2。池化层均采取最大池化策略。输入数据为轨迹图,用以提取特征点的变化特征;输出数据是大小为[768,1]的一维向量。
分类层包括4个全连接层,所述4个连接层包括2368个神经元的第一全连接层、1024个神经元的第二全连接层、512个神经元的第三全连接层以及7个神经元的softmax层。
进行卷积神经网络模型训练的过程包括:
将输入神经网络进行模型训练的人脸数据训练集分为三个部分:初始帧、峰值帧和轨迹图。初始帧和峰值帧分别代表一个动态表情的开始和结束;轨迹图刻画的是动态表情的中间过程。固定了动态表情的开始和结束,采用不同的轨迹图来表示中间的动态过程,代表了一个表情的多种实现方式,即一个人从面无表情到微笑,中间转变的过程中多种多样,面部表情变化也有多种多样。
步骤1:将训练集中的初始帧经灰度归一化为[0,1]后输入到3CNN模型的第一卷积神经网络层中;初始帧图像依次经过卷积层、卷积层、池化层、卷积层、池化层、卷积层以及池化层,得到特征信息;池化层均采取最大池化策略。输入的初始帧图像大小为48*48,提取初始帧的表面信息;输出大小为[800,1]的一维向量。
步骤2:将训练集中的峰值帧经灰度归一化为[0,1]后输入到3CNN模型的第二卷积神经网络层中;峰值帧图像依次经过卷积层、卷积层、池化层、卷积层、池化层、卷积层以及池化层,得到特征信息;将提取的特征信息转化为一维向量。输入的峰值帧图像大小为48*48,提取峰值帧的表面信息;输出大小为[800,1]的一维向量。
步骤3:将训练集中的轨迹图输入到3CNN模型的第三卷积神经网络层中;输入的轨迹图经过编码层,将数据范围调整到[0,1]之间,将调整后的数据依次经过卷积层、卷积层、池化层、卷积层、池化层、卷积层以及池化层,得到特征信息;将提取的特征信息转化为一维向量。池化层均采取最大池化策略。输入数据为轨迹图,用以提取特征点的变化特征;输出大小为[768,1]一维向量。
步骤4:将步骤1、步骤2以及步骤3输出的一维向量合并成一个新的一维向量,符号定义为Z,大小为[2368,1],合并后的向量可表示出特征点的变化特征和表情外观特征与表情种类之间的关系。
步骤5:将合并后的新的一维向量输入到分类层中,得到7种动态表情的概率,对得到的概率进行sampling操作,找出概率最大值,并设为1,其他均为0,输出为7种可能性结果,该结果为最终预测的表情。所述输出的结果包括:[predict]=[1,0,0,0,0,0,0]或[0,1,0,0,0,0,0]或[0,0,1,0,0,0,0]或[0,0,0,1,0,0,0]或[0,0,0,0,1,0,0]或[0,0,0,0,0,1,0]或[0,0,0,0,0,0,1]。
步骤6:将预测的表情类别与实际标签进行对比,通过误差反向传播算法不断训练卷积神经网络模型;完成模型训练。
以上所举实施例,对本发明的目的、技术方案和优点进行了进一步的详细说明,所应理解的是,以上所举实施例仅为本发明的优选实施方式而已,并不用以限制本发明,凡在本发明的精神和原则之内对本发明所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (9)

1.一种基于人脸特征点数据增强的动态表情识别方法,其特征在于,包括:实时获取人脸数据,将获取的人脸数据输入到训练好的3CNN模型中,得到该人脸动态表情识别结果;所述训练好的3CNN模型的获取包括:获取原始人脸数据集,对原始人脸数据集进行预处理,得到人脸数据训练集;将人脸数据训练集输入到构建好的3CNN模型中进行模型训练,得到训练好的3CNN模型;
所述得到人脸数据训练集的过程包括:
S1:对获取的原始人脸数据集进行人脸对齐以及面部特征点标记处理;
S2:选择面部特征变化大的特征点;
S3:根据选择的特征点构建轨迹矩阵;将各个轨迹矩阵进行组合,得到原始轨迹图;
S4:采用随机因子对轨迹矩阵进行微调处理,得到新的轨迹矩阵;将新的轨迹矩阵进行组合,得到新的轨迹图,将原始人脸数据集、原始轨迹图和新的轨迹图作为人脸数据训练集;
其中,3CNN表示三个联合的卷积神经网络。
2.根据权利要求1所述的一种基于人脸特征点数据增强的动态表情识别方法,其特征在于,所述对获取的原始人脸数据集进行人脸对齐以及面部特征点标记处理过程包括:
S11:采用Viola-Jones人脸检测算法对原始人脸数据集进行人脸检测;对检测后的人脸数据进行去背景以及去除非面部区域处理,得到人脸边界框;
S12:根据人脸边界框对原始人脸数据集中的动态序列的每一帧图像进行裁剪,得到面部区域;
S13:对得到的面部区域进行几何归一化处理,得到新的面部区域;
S14:对新的面部区域的特征点进行标记,得到具有特征点的图像;将各个特征点的位置坐标进行保存。
3.根据权利要求1所述的一种基于人脸特征点数据增强的动态表情识别方法,其特征在于,所述选择面部特征变化大的特征点的过程包括:
S21:将特征点图像的各个特征点划分为眉毛、眼睛、鼻子以及嘴四组;
S22:分别计算相同组内的各个特征点变化量;
S23:选择各个组中特征变化量大的特征点。
4.根据权利要求3所述的一种基于人脸特征点数据增强的动态表情识别方法,其特征在于,所述计算相同组内的各个特征点变化量的公式为:
Figure FDA0002618587600000021
其中,Dpq表示第p组的第q个特征点的各帧与第一帧的位置差异之和,pq表示第p组的第q个特征点,i表示第i帧图像,j表示第j帧图像,
Figure FDA0002618587600000022
表示第p组的第q个特征点在第j帧图像中的位置横坐标,
Figure FDA0002618587600000023
表示第p组的第q个特征点在第j帧图像中的位置纵坐标,m表示峰值帧在动态序列的第m帧。
5.根据权利要求1所述的一种基于人脸特征点数据增强的动态表情识别方法,其特征在于,构建轨迹矩阵与原始轨迹图的过程包括:
S31:对获取的特征点进行编号处理,用(x,y)表示图像中特征点的位置坐标,即特征点A1的坐标为A1(x1,y1)A1(x2,y2)…A1(xm,ym),其中(x,y)的下标表示图像的帧,m表示峰值帧在动态序列的第m帧;
S32:根据每个特征点的坐标计算每个特征点的偏移量;
S33:根据各个特征点的偏移量计算轨迹矩阵的斜率k;
S34:根据斜率k求出轨迹矩阵;
S35:将求出的轨迹矩阵进行组合,得到原始轨迹图。
6.根据权利要求1所述的一种基于人脸特征点数据增强的动态表情识别方法,其特征在于,所述对轨迹矩阵进行微调处理的过程包括:
S41:定义随机因子为(a,b),其中a,b均为随机生成的且满足均值为0、方差为1的标准正态分布的小数;
S42:采用随机因子对各个特征点的坐标进行微调;
S43:根据微调后的特征点坐标重新计算新的斜率,根据新斜率求出新的轨迹矩阵;
S44:将求出的新轨迹矩阵进行组合,得到新的轨迹图。
7.根据权利要求1所述的一种基于人脸特征点数据增强的动态表情识别方法,其特征在于,所述3CNN模型包括:3个训练不同数据的卷积神经网络层以及1个分类层。
8.根据权利要求7所述的一种基于人脸特征点数据增强的动态表情识别方法,其特征在于,第一卷积神经网络层和第二卷积神经网络层用于提取静态图像的面部表情特征;第三卷积神经网络层用于提取特征点随表情变化的变化特征;分类层用于将三个神经网络提取的特征进行合并以及表情分类处理。
9.根据权利要求1所述的一种基于人脸特征点数据增强的动态表情识别方法,其特征在于,进行模型训练的过程包括:
步骤1:将训练集中的初始帧经灰度归一化处理后输入到3CNN模型的第一卷积神经网络层中;初始帧图像依次经过卷积层、卷积层、池化层、卷积层、池化层、卷积层以及池化层,得到特征信息;将提取的特征信息转化为一维向量;
步骤2:将训练集中的峰值帧经灰度归一化处理后输入到3CNN模型的第二卷积神经网络层中;峰值帧图像依次经过卷积层、卷积层、池化层、卷积层、池化层、卷积层以及池化层,得到特征信息;将提取的特征信息转化为一维向量;
步骤3:将训练集中的轨迹图输入到3CNN模型的第三卷积神经网络层中;输入的轨迹图经过编码层,使数据范围调整到[0,1]之间,将调整后的数据依次经过卷积层、卷积层、池化层、卷积层、池化层、卷积层以及池化层,得到特征信息;将提取的特征信息转化为一维向量;
步骤4:将步骤1、步骤2以及步骤3输出的一维向量进行合并处理,将合并后的数据输入到分类层中,预测表情;
步骤5:将预测的表情与实际标签进行对比,通过误差反向传播算法不断训练3CNN模型,完成模型的训练。
CN202010776415.3A 2020-08-05 2020-08-05 一种基于人脸特征点数据增强的动态表情识别方法 Active CN111931630B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010776415.3A CN111931630B (zh) 2020-08-05 2020-08-05 一种基于人脸特征点数据增强的动态表情识别方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010776415.3A CN111931630B (zh) 2020-08-05 2020-08-05 一种基于人脸特征点数据增强的动态表情识别方法

Publications (2)

Publication Number Publication Date
CN111931630A true CN111931630A (zh) 2020-11-13
CN111931630B CN111931630B (zh) 2022-09-09

Family

ID=73306732

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010776415.3A Active CN111931630B (zh) 2020-08-05 2020-08-05 一种基于人脸特征点数据增强的动态表情识别方法

Country Status (1)

Country Link
CN (1) CN111931630B (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112766145A (zh) * 2021-01-15 2021-05-07 深圳信息职业技术学院 人工神经网络的人脸动态表情识别方法及装置
CN114882553A (zh) * 2022-04-21 2022-08-09 厦门大学 一种基于深度学习的微表情识别方法及系统
CN117788720A (zh) * 2024-02-26 2024-03-29 山东齐鲁壹点传媒有限公司 一种生成用户人脸模型的方法、存储介质及终端

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1687957A (zh) * 2005-06-02 2005-10-26 上海交通大学 结合局部搜索和活动外观模型的人脸特征点定位方法
CN106934375A (zh) * 2017-03-15 2017-07-07 中南林业科技大学 基于特征点运动轨迹描述的人脸表情识别方法
WO2017135157A1 (en) * 2016-02-03 2017-08-10 Mitsubishi Electric Corporation Method and system for reconstructing scene as three-dimensional (3d) model
CN109462748A (zh) * 2018-12-21 2019-03-12 福州大学 一种基于单应性矩阵的立体视频颜色校正算法
CN109859278A (zh) * 2019-01-24 2019-06-07 惠州市德赛西威汽车电子股份有限公司 车载相机系统相机外参的标定方法及标定系统
US20190318152A1 (en) * 2018-04-12 2019-10-17 Omron Corporation Image analysis apparatus, method, and program
CN110399821A (zh) * 2019-07-17 2019-11-01 上海师范大学 基于人脸表情识别的顾客满意度获取方法
CN111161395A (zh) * 2019-11-19 2020-05-15 深圳市三维人工智能科技有限公司 一种人脸表情的跟踪方法、装置及电子设备

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1687957A (zh) * 2005-06-02 2005-10-26 上海交通大学 结合局部搜索和活动外观模型的人脸特征点定位方法
WO2017135157A1 (en) * 2016-02-03 2017-08-10 Mitsubishi Electric Corporation Method and system for reconstructing scene as three-dimensional (3d) model
CN106934375A (zh) * 2017-03-15 2017-07-07 中南林业科技大学 基于特征点运动轨迹描述的人脸表情识别方法
US20190318152A1 (en) * 2018-04-12 2019-10-17 Omron Corporation Image analysis apparatus, method, and program
CN109462748A (zh) * 2018-12-21 2019-03-12 福州大学 一种基于单应性矩阵的立体视频颜色校正算法
CN109859278A (zh) * 2019-01-24 2019-06-07 惠州市德赛西威汽车电子股份有限公司 车载相机系统相机外参的标定方法及标定系统
CN110399821A (zh) * 2019-07-17 2019-11-01 上海师范大学 基于人脸表情识别的顾客满意度获取方法
CN111161395A (zh) * 2019-11-19 2020-05-15 深圳市三维人工智能科技有限公司 一种人脸表情的跟踪方法、装置及电子设备

Non-Patent Citations (12)

* Cited by examiner, † Cited by third party
Title
ANDREW B. J. TEOH 等: "An Integrated Dual Factor Authenticator Based on the Face Data and Tokenised Random Number", 《BIOMETRIC AUTHENTICATION》 *
GAO QINQING 等: "Image enhancement technique based on improved PSO algorithm", 《INDUSTRIAL ELECTRONICS AND APPLICATIONS》 *
MI, JIAN-XUN 等: "Bilateral structure based matrix regression classification for face recognition", 《NEUROCOMPUTING》 *
刘皓: "基于特征脸和神经网络的人脸表情识别方法", 《聊城大学学报(自然科学版)》 *
吴昊 等: "融合DCLBP和HOAG特征的人脸表情识别方法", 《电子测量与仪器学报》 *
周晓云: "基于多尺度卷积神经网络的出行目的地预测技术研究", 《中国优秀博硕士学位论文全文数据库(硕士)信息科技辑》 *
张琳琳: "基于卷积神经网络的人脸表情识别研究", 《中国优秀博硕士学位论文全文数据库(硕士)信息科技辑》 *
朱伟: "人脸及其特征点的定位与应用", 《中国优秀博硕士学位论文全文数据库(硕士)信息科技辑》 *
李荣岗: "人脸表情特征提取与识别算法研究", 《中国优秀博硕士学位论文全文数据库(硕士)信息科技辑》 *
王军南: "人脸特征点检测方法研究", 《中国优秀博硕士学位论文全文数据库(硕士)信息科技辑》 *
郭克友 等: "基于DCNN的人脸特征点检测及面部朝向计算", 《计算机工程与应用》 *
钟福金: "局部方向模式在人脸识别中的改进方案", 《宜宾学院学报》 *

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112766145A (zh) * 2021-01-15 2021-05-07 深圳信息职业技术学院 人工神经网络的人脸动态表情识别方法及装置
CN112766145B (zh) * 2021-01-15 2021-11-26 深圳信息职业技术学院 人工神经网络的人脸动态表情识别方法及装置
CN114882553A (zh) * 2022-04-21 2022-08-09 厦门大学 一种基于深度学习的微表情识别方法及系统
CN117788720A (zh) * 2024-02-26 2024-03-29 山东齐鲁壹点传媒有限公司 一种生成用户人脸模型的方法、存储介质及终端
CN117788720B (zh) * 2024-02-26 2024-05-17 山东齐鲁壹点传媒有限公司 一种生成用户人脸模型的方法、存储介质及终端

Also Published As

Publication number Publication date
CN111931630B (zh) 2022-09-09

Similar Documents

Publication Publication Date Title
CN111931630B (zh) 一种基于人脸特征点数据增强的动态表情识别方法
CN113496217B (zh) 视频图像序列中人脸微表情识别方法
WO2022111236A1 (zh) 一种结合注意力机制的面部表情识别方法及系统
CN110399821B (zh) 基于人脸表情识别的顾客满意度获取方法
CN111898736B (zh) 基于属性感知的高效行人重识别方法
Sun et al. Convolution neural networks with two pathways for image style recognition
CN112784763B (zh) 基于局部与整体特征自适应融合的表情识别方法及系统
CN113343707B (zh) 一种基于鲁棒性表征学习的场景文本识别方法
CN112329760B (zh) 基于空间变换网络端到端印刷体蒙古文识别翻译的方法
CN109543603B (zh) 一种基于宏表情知识迁移的微表情识别方法
CN112464865A (zh) 一种基于像素和几何混合特征的人脸表情识别方法
CN114549850B (zh) 一种解决模态缺失问题的多模态图像美学质量评价方法
CN110659665A (zh) 一种异维特征的模型构建方法及图像识别方法、装置
CN114842343B (zh) 一种基于ViT的航空图像识别方法
CN113609326B (zh) 基于外部知识和目标间关系的图像描述生成方法
CN117576783A (zh) 基于手部关键点与双层双向lstm网络的动态手势识别方法
CN115830666A (zh) 一种基于时空特征解耦的视频表情识别方法及应用
CN112883931A (zh) 基于长短期记忆网络的实时真假运动判断方法
Lu et al. FCN based preprocessing for exemplar-based face sketch synthesis
CN117876842A (zh) 一种基于生成对抗网络的工业产品异常检测方法及系统
CN117173767A (zh) 一种基于识别人脸表情精准预测人类情绪的方法、系统和装置
CN116682180A (zh) 基于人体骨骼序列时空信息的动作识别方法
CN114998960B (zh) 一种基于正负样本对比学习的表情识别方法
CN110188706B (zh) 基于生成对抗网络的视频中人物表情的神经网络训练方法及检测方法
CN117994856B (zh) 一种用于vr电子玩具的姿态识别方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
TR01 Transfer of patent right
TR01 Transfer of patent right

Effective date of registration: 20230724

Address after: 710000 Building A264, Building 8, Xixian Youth Entrepreneurship Park, Shanglin Road, Fengdong New City, Xi'an City, Shaanxi Province

Patentee after: Xi'an Yunwosi Network Technology Co.,Ltd.

Address before: 230000 floor 1, building 2, phase I, e-commerce Park, Jinggang Road, Shushan Economic Development Zone, Hefei City, Anhui Province

Patentee before: Dragon totem Technology (Hefei) Co.,Ltd.

Effective date of registration: 20230724

Address after: 230000 floor 1, building 2, phase I, e-commerce Park, Jinggang Road, Shushan Economic Development Zone, Hefei City, Anhui Province

Patentee after: Dragon totem Technology (Hefei) Co.,Ltd.

Address before: 400065 Chongwen Road, Nanshan Street, Nanan District, Chongqing

Patentee before: CHONGQING University OF POSTS AND TELECOMMUNICATIONS