CN108319900A - 一种基本表情分类方法 - Google Patents

一种基本表情分类方法 Download PDF

Info

Publication number
CN108319900A
CN108319900A CN201810038407.1A CN201810038407A CN108319900A CN 108319900 A CN108319900 A CN 108319900A CN 201810038407 A CN201810038407 A CN 201810038407A CN 108319900 A CN108319900 A CN 108319900A
Authority
CN
China
Prior art keywords
nested
expression
network
lstm
term memory
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201810038407.1A
Other languages
English (en)
Inventor
刘青山
郁振波
刘光灿
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nanjing University of Information Science and Technology
Original Assignee
Nanjing University of Information Science and Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nanjing University of Information Science and Technology filed Critical Nanjing University of Information Science and Technology
Priority to CN201810038407.1A priority Critical patent/CN108319900A/zh
Publication of CN108319900A publication Critical patent/CN108319900A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/16Human faces, e.g. facial parts, sketches or expressions
    • G06V40/174Facial expression recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/16Human faces, e.g. facial parts, sketches or expressions
    • G06V40/161Detection; Localisation; Normalisation
    • G06V40/165Detection; Localisation; Normalisation using facial parts and geometric relationships
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/16Human faces, e.g. facial parts, sketches or expressions
    • G06V40/168Feature extraction; Face representation
    • G06V40/171Local features and components; Facial parts ; Occluding parts, e.g. glasses; Geometrical relationships

Landscapes

  • Engineering & Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Oral & Maxillofacial Surgery (AREA)
  • General Physics & Mathematics (AREA)
  • General Health & Medical Sciences (AREA)
  • Human Computer Interaction (AREA)
  • Data Mining & Analysis (AREA)
  • Multimedia (AREA)
  • Evolutionary Computation (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Artificial Intelligence (AREA)
  • General Engineering & Computer Science (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Computing Systems (AREA)
  • Software Systems (AREA)
  • Mathematical Physics (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Molecular Biology (AREA)
  • Evolutionary Biology (AREA)
  • Computational Linguistics (AREA)
  • Biophysics (AREA)
  • Biomedical Technology (AREA)
  • Geometry (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开了一种基本表情分类方法,包括以下步骤:基于多目标级联卷积神经网络(Multi‑task Cascaded Convolutional Networks,MTCNN)的人脸检测;数据预处理;改进的三维卷积网络(3‑dimensional Convolutional Networks,C3D);多维度空间金字塔池化(Multi‑dimensional Spatial Pyramid Pooling Normalization,MSPP‑norm)融合卷积特征;嵌套长短期记忆网络(Nested stacked LSTM)。本发明提出了一种基于表情识别的时空嵌套长短期记忆网络(Spatial‑Temporal Convolutional features with Nested‑LSTM,STC‑NLSTM)模型,将序列图像送入到带有多维空间金字塔池化的三维卷积神经网络来提取深度特征,将所有卷积层中提取的深度特征融合后送到Nested stacked LSTM中得到分类结果,从而形成一个端到端训练的网络结构。在目前公开的三个著名表情库上,本发明方法均取得了目前最好的结果。

Description

一种基本表情分类方法
技术领域
本发明属于图像信息处理技术领域,涉及一种基本表情分类方法。
背景技术
人脸表情识别是计算机视觉领域地一个经典的问题,其旨在识别六类基础的表情包括:厌恶、生气、恐惧、高兴、悲伤和惊讶。在不同的方法中,卷积神经网络(ConvolutionalNeural Networks,CNNs)和递归神经网络(Recurrent Neural Networks,RNNs)均在表情识别中展现出了非常好的效果。传统的表情识别仅仅考虑了图片空间的联系,即对图片进行单独的训练以及识别,并没有考虑到图片序列之间时间上的联系。目前主流的方法同时考虑的时间和空间上的联系,比如说CNN+RNN或者3DCNN。本发明提出的方法不仅考虑了时间和空间上的联系,并将卷积过程中尺度的变化考虑进去,设计出了一个全新的网络,该网络在经典数据库上的识别效果均达到了目前国内外最好的结果。
发明内容
本发明所要解决的技术问题在于克服现有技术不足,提供一种基本表情分类方法,针对目前时序主流方法CNN+LSTM中,CNN无法提取有效的时序特征的缺点,同时在传统方法仅考虑时间和空间的关系的基础上,考虑了每层卷积层之间的尺度的联系,本发明提出了一种基于表情识别的时空卷积特征的嵌套长短期记忆网络 (Spatial-TemporalConvolutional features with Nest-LSTM,STC-NLSTM)模型。
本发明的表情分类方法,包括以下步骤:
步骤1)、将一组视频序列通过人脸检测算法生成裁剪后的人脸,并利用水平翻转和旋转来扩大训练数据,防止网络在训练的过程中过拟合。
步骤2)、将裁剪后的表情序列送入到带有多维空间金字塔的3D卷积网络进行训练,以此来提取多尺度深度特征;
步骤3)、将训练过程中3D卷积网络每层的卷积特征送到Nested-LSTM中进行分类,形成端到端的网络训练结构;
有益效果
⑴在同样的实验条件下,本发明方法的分类准确率在CK+数据库上比 3DCNN-DAP、STM-ExpLet、DTAGN和PPDN方法的准确率要高;在Oulu-CASIA数据库上比HOG 3D、AdaLBP、Atlases、STM-ExpLet、DTAGN和PPDN方法的准确率要高,在MMI数据库上,比HOG 3D、3DSIFT、ITBN、CSPL、STM-ExpLet、3DCNN、 3DCNN-DAP、DTAGN和PPDN的方法的准确率要高。
⑵通过3DCNN能够有效提取表情间的时空特征,同时利用每层卷积层之间的尺度联系,将每层卷积特征送到Nested-LSTM中去,从而形成一个端到端的训练的网络,最终从根本上提高表情分类的准确率。
附图说明
图1为本发明表情分类方法的基本流程图;
图2为本发明表情识别的3D卷积网络特征提取结构示意图;
图3为本发明方法表情数据预处理操作结果图;
图4为本发明所用三种数据库的表情序列抽样图;
图5为本发明提出的Nested-LSTM;
图6为本发明提取出不同尺度下的特征可视化的结果;
图7为本发明展示了生气和厌恶两种表情序列变化的示意图;
图8为本发明在CK+数据库上的对比图;
图9为本发明在Oulu-CASIA数据库上的对比图;
图10为本发明在MMI数据库上的对比图;
具体实施方式
下面结合附图对本发明的技术方案进行详细的说明,下面通过参考附图描述的实施方式是示例性的,仅用于解释本发明,而不能解释为对本发明的限制。
本发明方法的基本流程如图1所示,具体包括以下步骤:
步骤1)、将一组视频序列通过目前最先进的人脸检测与配准算法MTCNN,对人脸进行配准,提取出两只眼睛的坐标,然后根据两只眼睛的坐标,保持两只眼睛之间距离不变,裁剪出相应的人脸,因为为了尽可能减少人脸周围对表情识别来说无效信息,比如头发、下把、人脸轮廓。本发明裁剪出来的人脸呈现矩形,如图4所示。然后通过 0填充,将其填充成正方形,再对其进行尺度变化,从而不会导致图片发生形变。在此基础上,本发明通过对图片进行旋转、翻转来扩大训练样本,如图3所示;
步骤2)、如图2所示,本发明提取出卷积特征中每一层卷积层的卷积特征。不同卷积层提取出的不同尺度下的卷积特征如图6所示。
步骤3)、如图5所示,将提取的不同尺度下的卷积特征送入Nested-LSTM中,通过MSPP-norm,即三种尺度的池化相结合,分别为2、4、8,将不同尺度下的特征转成相同长度的列向量,从而送到Nested-LSTM中。
其中,提取的Nested-LSTM由C-LSTM和T-LSTM组成,T-LSTM用于提取相同序列不同图片的时序信息,C-LSTM用于提取网络中得到不同尺度之间特征的联系。
为了进一步展示出本发明的意义以及优越性能,我们测试了两组基本实验,一组是只利用了最后一组卷积,也就是正常在网络训练过程中利用的最后一层,另外一组我们单纯使用了三维卷积网络。具体实验结果如下表所示。
表1 CK+数据库分类准确率对比
方法 分类准确率
3DCNN-DAP 92.4
STM-ExpLet 94.2
DTAGN 97.3
PPDN 99.3
STC 98.9
STC-LSTM 99.3
STC-NLSTM 99.8
表2 Oulu-CASIA数据库分类准确率对比
方法 分类准确率
STM-ExpLet 74.59
DTAGN 81.46
PPDN 84.59
STC 84.72
STC-LSTM 88.98
STC-NLSTM 93.45
表3 MMI数据库分类准确率对比
方法 分类准确率
STM-ExpLet 75.12
DTAGN 70.24
SCPL 73.53
STC 88.84
STC-LSTM 91.39
STC-NLSTM 95.53
从表1、表2和表3可以看出,本发明方法的分类准确率明显高于其他分类方法,和这些方法相比,本发明方法无论是从分类性能还是从分类精确度上来看,都具有明显的优势。

Claims (2)

1.一种表情分类方法,其特征在于,包括以下步骤:
步骤1)将一组视频序列通过目前最先进的人脸检测算法生成裁剪后的人脸,并利用水平翻转和旋转不同的角度来扩大训练数据;
所述旋转对CK+(扩展的cohn-kanade表情数据库)数据库将其旋转15°、10°、5°、-5°、-10°、-15°;对Oulu数据库将其旋转7.5°、5°、2.5°、-2.5°、-7.5°;对MMI数据将其旋转10°、7.5°、5°、2.5°、-2.5°、-5°、-7.5°、-10°。(其中MMI和Oulu-CASIA是奥卢大学的赵国英教授提出的表情识别经典的数据库)在此之后再进行翻折,即将将原始数据库CK+、Oulu和MMI分别扩大14、14和16倍;
步骤2)将裁剪后的表情序列送入到带有多维空间金字塔的3D卷积网络进行训练,以此来提取多尺度深度特征;直接送到步骤3)中进行训练;
步骤3)将训练过程中3D卷积网络每层的卷积特征送到嵌套双层LSTM(Long ShortTerm Memory,长短期记忆算法)中进行分类,形成端到端的网络训练结构。
2.如权利要求1所述的方法,其特征在于:步骤3)所述Nested-LSTM(Nested LongShort Term Memory,嵌套的长短期记忆算法)网络均采用多对一的训练方式。
CN201810038407.1A 2018-01-16 2018-01-16 一种基本表情分类方法 Pending CN108319900A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201810038407.1A CN108319900A (zh) 2018-01-16 2018-01-16 一种基本表情分类方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810038407.1A CN108319900A (zh) 2018-01-16 2018-01-16 一种基本表情分类方法

Publications (1)

Publication Number Publication Date
CN108319900A true CN108319900A (zh) 2018-07-24

Family

ID=62893383

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810038407.1A Pending CN108319900A (zh) 2018-01-16 2018-01-16 一种基本表情分类方法

Country Status (1)

Country Link
CN (1) CN108319900A (zh)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109389045A (zh) * 2018-09-10 2019-02-26 广州杰赛科技股份有限公司 基于混合时空卷积模型的微表情识别方法与装置
CN109410185A (zh) * 2018-10-10 2019-03-01 腾讯科技(深圳)有限公司 一种图像分割方法、装置和存储介质
CN109409222A (zh) * 2018-09-20 2019-03-01 中国地质大学(武汉) 一种基于移动端的多视角人脸表情识别方法
CN110210336A (zh) * 2019-05-16 2019-09-06 赣南师范大学 一种低分辨率单样本人脸识别方法
CN111126364A (zh) * 2020-03-30 2020-05-08 北京建筑大学 一种基于分组卷积神经网络的表情识别方法

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8873813B2 (en) * 2012-09-17 2014-10-28 Z Advanced Computing, Inc. Application of Z-webs and Z-factors to analytics, search engine, learning, recognition, natural language, and other utilities
US20160275341A1 (en) * 2015-03-18 2016-09-22 Adobe Systems Incorporated Facial Expression Capture for Character Animation
CN106570474A (zh) * 2016-10-27 2017-04-19 南京邮电大学 一种基于3d卷积神经网络的微表情识别方法
CN107451552A (zh) * 2017-07-25 2017-12-08 北京联合大学 一种基于3d‑cnn和卷积lstm的手势识别方法
CN107463919A (zh) * 2017-08-18 2017-12-12 深圳市唯特视科技有限公司 一种基于深度3d卷积神经网络进行面部表情识别的方法

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8873813B2 (en) * 2012-09-17 2014-10-28 Z Advanced Computing, Inc. Application of Z-webs and Z-factors to analytics, search engine, learning, recognition, natural language, and other utilities
US20160275341A1 (en) * 2015-03-18 2016-09-22 Adobe Systems Incorporated Facial Expression Capture for Character Animation
CN106570474A (zh) * 2016-10-27 2017-04-19 南京邮电大学 一种基于3d卷积神经网络的微表情识别方法
CN107451552A (zh) * 2017-07-25 2017-12-08 北京联合大学 一种基于3d‑cnn和卷积lstm的手势识别方法
CN107463919A (zh) * 2017-08-18 2017-12-12 深圳市唯特视科技有限公司 一种基于深度3d卷积神经网络进行面部表情识别的方法

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109389045A (zh) * 2018-09-10 2019-02-26 广州杰赛科技股份有限公司 基于混合时空卷积模型的微表情识别方法与装置
CN109389045B (zh) * 2018-09-10 2021-03-02 广州杰赛科技股份有限公司 基于混合时空卷积模型的微表情识别方法与装置
CN109409222A (zh) * 2018-09-20 2019-03-01 中国地质大学(武汉) 一种基于移动端的多视角人脸表情识别方法
CN109410185A (zh) * 2018-10-10 2019-03-01 腾讯科技(深圳)有限公司 一种图像分割方法、装置和存储介质
CN110210336A (zh) * 2019-05-16 2019-09-06 赣南师范大学 一种低分辨率单样本人脸识别方法
CN111126364A (zh) * 2020-03-30 2020-05-08 北京建筑大学 一种基于分组卷积神经网络的表情识别方法

Similar Documents

Publication Publication Date Title
CN108319900A (zh) 一种基本表情分类方法
Chen et al. Fsrnet: End-to-end learning face super-resolution with facial priors
WO2020063527A1 (zh) 基于多特征检索和形变的人体发型生成方法
WO2020119661A1 (zh) 一种目标检测方法、装置以及行人检测方法、系统
WO2020108362A1 (zh) 人体姿态检测方法、装置、设备及存储介质
Du et al. Skeleton based action recognition with convolutional neural network
CN106648103B (zh) 一种vr头戴设备的手势跟踪方法和vr头戴设备
CN108038420B (zh) 一种基于深度视频的人体行为识别方法
Cao et al. 3D aided duet GANs for multi-view face image synthesis
CN107609638B (zh) 一种基于线性编码器和插值采样优化卷积神经网络的方法
CN109583340B (zh) 一种基于深度学习的视频目标检测方法
CN103336957B (zh) 一种基于时空特征的网络同源视频检测方法
CN113065546B (zh) 一种基于注意力机制和霍夫投票的目标位姿估计方法及系统
CN109063753A (zh) 一种基于卷积神经网络的三维点云模型分类方法
CN109191369A (zh) 2d图片集转3d模型的方法、存储介质和装置
CN107871098B (zh) 人脸特征点的获取方法和装置
CN108241849A (zh) 基于视频的人体交互动作识别方法
CN109543548A (zh) 一种人脸识别方法、装置及存储介质
CN105868706A (zh) 一种基于稀疏自编码的三维模型识别方法
CN108681700A (zh) 一种复杂行为识别方法
Lin et al. Large-scale isolated gesture recognition using a refined fused model based on masked res-c3d network and skeleton lstm
CN115797350A (zh) 桥梁病害检测方法、装置、计算机设备和存储介质
JP2023523745A (ja) コンピュータビジョンに基づく文字列認識方法、装置、機器及び媒体
CN115424209A (zh) 一种基于空间金字塔注意力网络的人群计数方法
CN114612709A (zh) 图像金字塔特征指导的多尺度目标检测方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
WD01 Invention patent application deemed withdrawn after publication
WD01 Invention patent application deemed withdrawn after publication

Application publication date: 20180724