CN112580617B - 自然场景下的表情识别方法和装置 - Google Patents
自然场景下的表情识别方法和装置 Download PDFInfo
- Publication number
- CN112580617B CN112580617B CN202110222926.5A CN202110222926A CN112580617B CN 112580617 B CN112580617 B CN 112580617B CN 202110222926 A CN202110222926 A CN 202110222926A CN 112580617 B CN112580617 B CN 112580617B
- Authority
- CN
- China
- Prior art keywords
- video
- facial
- module
- expression
- sequence
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 230000014509 gene expression Effects 0.000 title claims abstract description 83
- 238000000034 method Methods 0.000 title claims abstract description 79
- 238000007781 pre-processing Methods 0.000 claims abstract description 90
- 230000001815 facial effect Effects 0.000 claims abstract description 86
- 230000008921 facial expression Effects 0.000 claims abstract description 73
- 238000013528 artificial neural network Methods 0.000 claims abstract description 58
- 239000013598 vector Substances 0.000 claims abstract description 49
- 238000002372 labelling Methods 0.000 claims abstract description 46
- 230000004927 fusion Effects 0.000 claims abstract description 42
- 238000005286 illumination Methods 0.000 claims abstract description 34
- 230000037303 wrinkles Effects 0.000 claims abstract description 26
- 238000012549 training Methods 0.000 claims abstract description 17
- 230000011218 segmentation Effects 0.000 claims abstract description 14
- 238000012706 support-vector machine Methods 0.000 claims abstract description 8
- 238000000605 extraction Methods 0.000 claims description 70
- 230000006870 function Effects 0.000 claims description 50
- 238000012545 processing Methods 0.000 claims description 32
- 238000011176 pooling Methods 0.000 claims description 28
- 230000008030 elimination Effects 0.000 claims description 22
- 238000003379 elimination reaction Methods 0.000 claims description 22
- 239000011159 matrix material Substances 0.000 claims description 18
- 238000001514 detection method Methods 0.000 claims description 16
- 238000013434 data augmentation Methods 0.000 claims description 15
- 230000009466 transformation Effects 0.000 claims description 13
- 230000003321 amplification Effects 0.000 claims description 9
- 238000003199 nucleic acid amplification method Methods 0.000 claims description 9
- 230000004913 activation Effects 0.000 claims description 8
- 230000002779 inactivation Effects 0.000 claims description 8
- 230000002285 radioactive effect Effects 0.000 claims description 3
- 210000003128 head Anatomy 0.000 description 24
- 238000005516 engineering process Methods 0.000 description 19
- 230000008451 emotion Effects 0.000 description 12
- 238000010801 machine learning Methods 0.000 description 8
- 230000008569 process Effects 0.000 description 8
- 238000013473 artificial intelligence Methods 0.000 description 7
- 230000002996 emotional effect Effects 0.000 description 7
- 230000003993 interaction Effects 0.000 description 7
- 238000013135 deep learning Methods 0.000 description 6
- 238000013527 convolutional neural network Methods 0.000 description 5
- 238000011160 research Methods 0.000 description 5
- 230000008901 benefit Effects 0.000 description 4
- 230000000694 effects Effects 0.000 description 4
- 230000003068 static effect Effects 0.000 description 4
- 230000009471 action Effects 0.000 description 3
- 238000004364 calculation method Methods 0.000 description 3
- 238000010586 diagram Methods 0.000 description 3
- 230000008909 emotion recognition Effects 0.000 description 3
- 238000004804 winding Methods 0.000 description 3
- 238000004458 analytical method Methods 0.000 description 2
- 238000004422 calculation algorithm Methods 0.000 description 2
- 230000009849 deactivation Effects 0.000 description 2
- 238000010606 normalization Methods 0.000 description 2
- 241000282412 Homo Species 0.000 description 1
- 230000002159 abnormal effect Effects 0.000 description 1
- 230000009118 appropriate response Effects 0.000 description 1
- 230000003416 augmentation Effects 0.000 description 1
- 230000003190 augmentative effect Effects 0.000 description 1
- 238000013475 authorization Methods 0.000 description 1
- 230000006399 behavior Effects 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 238000013145 classification model Methods 0.000 description 1
- 230000001149 cognitive effect Effects 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 238000002790 cross-validation Methods 0.000 description 1
- 238000000354 decomposition reaction Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 238000006073 displacement reaction Methods 0.000 description 1
- 238000010195 expression analysis Methods 0.000 description 1
- 239000000284 extract Substances 0.000 description 1
- 210000001097 facial muscle Anatomy 0.000 description 1
- 238000009499 grossing Methods 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 230000004807 localization Effects 0.000 description 1
- 238000005259 measurement Methods 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000012544 monitoring process Methods 0.000 description 1
- 238000003058 natural language processing Methods 0.000 description 1
- 230000001537 neural effect Effects 0.000 description 1
- 238000005192 partition Methods 0.000 description 1
- 238000003909 pattern recognition Methods 0.000 description 1
- 230000008447 perception Effects 0.000 description 1
- 230000002093 peripheral effect Effects 0.000 description 1
- 238000011112 process operation Methods 0.000 description 1
- 230000009467 reduction Effects 0.000 description 1
- 238000010561 standard procedure Methods 0.000 description 1
- 230000001360 synchronised effect Effects 0.000 description 1
- 230000008685 targeting Effects 0.000 description 1
- 238000012360 testing method Methods 0.000 description 1
- 238000013519 translation Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/10—Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
- G06V40/16—Human faces, e.g. facial parts, sketches or expressions
- G06V40/174—Facial expression recognition
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/213—Feature extraction, e.g. by transforming the feature space; Summarisation; Mappings, e.g. subspace methods
- G06F18/2135—Feature extraction, e.g. by transforming the feature space; Summarisation; Mappings, e.g. subspace methods based on approximation criteria, e.g. principal component analysis
- G06F18/21355—Feature extraction, e.g. by transforming the feature space; Summarisation; Mappings, e.g. subspace methods based on approximation criteria, e.g. principal component analysis nonlinear criteria, e.g. embedding a manifold in a Euclidean space
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
- G06F18/2411—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on the proximity to a decision surface, e.g. support vector machines
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/25—Fusion techniques
- G06F18/253—Fusion techniques of extracted features
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T5/00—Image enhancement or restoration
- G06T5/40—Image enhancement or restoration using histogram techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T5/00—Image enhancement or restoration
- G06T5/50—Image enhancement or restoration using two or more images, e.g. averaging or subtraction
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T5/00—Image enhancement or restoration
- G06T5/90—Dynamic range modification of images or parts thereof
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T5/00—Image enhancement or restoration
- G06T5/90—Dynamic range modification of images or parts thereof
- G06T5/92—Dynamic range modification of images or parts thereof based on global image properties
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/40—Extraction of image or video features
- G06V10/50—Extraction of image or video features by performing operations within image blocks; by using histograms, e.g. histogram of oriented gradients [HoG]; by summing image-intensity values; Projection analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/40—Extraction of image or video features
- G06V10/50—Extraction of image or video features by performing operations within image blocks; by using histograms, e.g. histogram of oriented gradients [HoG]; by summing image-intensity values; Projection analysis
- G06V10/507—Summing image-intensity values; Histogram projection analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/82—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/40—Scenes; Scene-specific elements in video content
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/40—Scenes; Scene-specific elements in video content
- G06V20/41—Higher-level, semantic clustering, classification or understanding of video scenes, e.g. detection, labelling or Markovian modelling of sport events or news items
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/40—Scenes; Scene-specific elements in video content
- G06V20/46—Extracting features or characteristics from the video content, e.g. video fingerprints, representative shots or key frames
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/40—Scenes; Scene-specific elements in video content
- G06V20/49—Segmenting video sequences, i.e. computational techniques such as parsing or cutting the sequence, low-level clustering or determining units such as shots or scenes
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/10—Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
- G06V40/16—Human faces, e.g. facial parts, sketches or expressions
- G06V40/161—Detection; Localisation; Normalisation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/10—Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
- G06V40/16—Human faces, e.g. facial parts, sketches or expressions
- G06V40/161—Detection; Localisation; Normalisation
- G06V40/165—Detection; Localisation; Normalisation using facial parts and geometric relationships
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/10—Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
- G06V40/16—Human faces, e.g. facial parts, sketches or expressions
- G06V40/168—Feature extraction; Face representation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/10—Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
- G06V40/16—Human faces, e.g. facial parts, sketches or expressions
- G06V40/168—Feature extraction; Face representation
- G06V40/171—Local features and components; Facial parts ; Occluding parts, e.g. glasses; Geometrical relationships
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/10—Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
- G06V40/16—Human faces, e.g. facial parts, sketches or expressions
- G06V40/174—Facial expression recognition
- G06V40/175—Static expression
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/048—Activation functions
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/10—Image acquisition modality
- G06T2207/10016—Video; Image sequence
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20081—Training; Learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20084—Artificial neural networks [ANN]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/30—Subject of image; Context of image processing
- G06T2207/30196—Human being; Person
- G06T2207/30201—Face
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/40—Extraction of image or video features
- G06V10/60—Extraction of image or video features relating to illumination properties, e.g. using a reflectance or lighting model
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/77—Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
- G06V10/7715—Feature extraction, e.g. by transforming the feature space, e.g. multi-dimensional scaling [MDS]; Mappings, e.g. subspace methods
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Multimedia (AREA)
- Health & Medical Sciences (AREA)
- Evolutionary Computation (AREA)
- General Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Oral & Maxillofacial Surgery (AREA)
- General Engineering & Computer Science (AREA)
- Life Sciences & Earth Sciences (AREA)
- Evolutionary Biology (AREA)
- Bioinformatics & Computational Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Human Computer Interaction (AREA)
- Software Systems (AREA)
- Computing Systems (AREA)
- Computational Linguistics (AREA)
- Mathematical Physics (AREA)
- Molecular Biology (AREA)
- Biophysics (AREA)
- Biomedical Technology (AREA)
- Geometry (AREA)
- Databases & Information Systems (AREA)
- Medical Informatics (AREA)
- Image Analysis (AREA)
Abstract
本申请涉及自然场景下的表情识别方法和装置,具体方法包括:数据切分:将输入视频按指定帧率转化为视频帧序列,并进行人脸表情标注,得到视频帧标注序列;视频帧标注序列预处理:对视频帧标注序列进行消除光照、剔除非人脸的区域和消除头部姿态对人脸表情的影响,得到表情视频帧序列,对表情视频帧序列进行扩增,得到视频预处理帧序列;从视频预处理帧序列中提取表征面部外观和形状特征的定向梯度直方图特征、提取面部褶皱程度的二阶特征和使用深度神经网络提取像素级深度神经网络特征;再进行向量融合,得到用于训练的面部特征融合向量;将所述面部特征融合向量输入支持向量机做表情分类。
Description
技术领域
本申请涉及视频图像处理领域,尤其涉及自然场景下的表情识别方法和装置。
背景技术
人工智能(Artificial Intelligence ,AI)是计算机科学的一个分支,是一门利用计算机或计算机控制的机器模拟、延伸和扩展人的智能,感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。
人工智能技术是一门综合学科,涉及领域广泛,既有硬件层面的技术也有软件层面的技术。人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互系统、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。
计算机视觉技术(Computer Vision ,CV)是指用摄影机和电脑代替人眼对目标进行识别、跟踪和测量等机器视觉,并进一步做图形处理,使电脑处理成为更适合人眼观察或传送给仪器检测的图像。作为一个科学学科,计算机视觉研究相关的理论和技术,试图建立能够从图像或者多维数据中获取信息的人工智能系统。计算机视觉技术通常包括图像处理、图像识别、图像语义理解、图像检索、OCR、视频处理、视频语义理解、视频内容/行为识别、三维物体重建、3D技术、虚拟现实、增强现实、同步定位与地图构建等技术,还包括常见的人脸识别、指纹识别等生物特征识别技术。
机器学习是人工智能及模式识别领域的共同研究热点,其理论和方法已被广泛应用于解决工程应用和科学领域的复杂问题。
深度学习(Deep Learning ,DL)是机器学习(Machine Learning ,ML)领域中一个新的研究方向,它被引入机器学习使其更接近于最初的目标——人工智能。深度学习是学习样本数据的内在规律和表示层次,这些学习过程中获得的信息对诸如文字,图像和声音等数据的解释有很大的帮助。它的最终目标是让机器能够像人一样具有分析学习能力,能够识别文字、图像和声音等数据。深度学习是一个复杂的机器学习算法,在语音和图像识别方面取得的效果,远远超过先前相关技术。
情感计算是一个高度综合化的研究和技术领域。通过计算科学与心理科学、认知科学的结合,研究人与人交互、人与计算机交互过程中的情感特点,设计具有情感反馈的人与计算机的交互环境,将有可能实现人与计算机的情感交互。情感计算研究将不断加深对人的情感状态和机制的理解,并提高人与计算机界面的和谐性,即提高计算机感知情境,理解人的情感和意图,做出适当反应的能力。
情感是人-人交互与人-机交互系统的重要组成。可以通过不同的形式传递情感信息,如面部表情、言语语调、外周生理信号、脑电信号,甚至是文本内容。面部表情是人类表达情感状态和意图的最有力、最自然的通道,因为相对于其它通道的数据,面部表情数据更容易采集和标注;人的情感和意图信息,超过55%通过面部表情传递;表情识别在聊天机器人、智能医疗、疲劳监测、测谎分析等多个领域有着广泛的应用需求。
自2013年以来,由于芯片处理能力(如GPU单元)的大幅提升和机器学习技术的快速发展,表情识别逐渐由传统机器学习方法向深度学习方法跨越,算法和算力能力的提升,使得表情识别系统的性能不断取得突破。但在自然场景中,光照问题、头部姿态变化和面部遮挡等干扰是不可避免的,因此存在识别准确率不高的问题。
另一方面,根据特征表示方式的不同,人脸表情识别系统可分为静态图像人脸表情识别和动态序列人脸表情识别两种。在静态方法中,系统只提取当前单张图像的空间特征信息进行编码,而动态方法考虑了多张图像中相邻帧之间的时间关系。实验室环境下的表情识别更多的关注于静态表情分析,自然场景下主要关注于视频流中的表情线索,如何融合时序上下文信息提升自然场景下表情识别的性能是急需解决的关键问题。
授权公告号CN 108491764 B提供了一种视频人脸情绪识别方法、介质及设备,所述方法,包括:获取指定时间段内的视频;根据所述视频中的内容情景信息和人脸表情信息,识别所述视频中至少一个待检测人脸图像的情绪。通过获取指定时间段内的视频,再根据视频中的内容情景信息和人脸表情信息,识别视频中至少一个待检测人脸图像的情绪,相比于现有技术中只考虑人脸表情识别情绪,本发明同时考虑了视频场景的内容情景和人脸表情识别情绪,能够提高情绪识别的鲁棒性与准确性。
申请公布号CN 109145837 A公开了一种人脸情感识别方法、装置、终端设备和存储介质,方法包括:获取视频流中的当前数据帧,从当前数据帧中捕捉人脸,并提取人脸的特征信息;根据提取的人脸的特征信息,将特征信息通过预先训练好的表情分类模型以识别人脸的表情分类;将表情分类的结果发送给关联机器人,以使得关联机器人通过语音的形式反馈出人脸表情的分类成果。本发明通过精确定位特征点的具体方位,然后识别出面部的不同表情分类结果。
鉴于此,克服上述现有技术所存在的缺陷是本技术领域亟待解决的问题。
发明内容
为了解决上述技术问题或者至少部分地解决上述技术问题,本申请提供了一种自然场景下的表情识别方法,包括:
S1:数据切分:将输入视频按指定帧率转化为视频帧序列,并进行人脸表情标注,得到视频帧标注序列;
S2:视频帧标注序列预处理:对视频帧标注序列进行消除光照、剔除非人脸的区域和消除头部姿态对人脸表情的影响,得到表情视频帧序列,对表情视频帧序列进行扩增,得到视频预处理帧序列;所述消除光照的具体方法为:采用亮度保留动态直方图均衡化方法消除视频帧标注序列中的光照影响,得到视频帧除光序列;
S3:视频预处理帧序列特征提取:从视频预处理帧序列中提取表征面部外观和形状特征的定向梯度直方图特征、提取面部褶皱程度的二阶特征和使用深度神经网络提取像素级深度神经网络特征;
S4:将定向梯度直方图特征、面部褶皱程度的二阶特征和像素级深度神经网络特征进行对齐处理,再进行向量融合,得到用于训练的面部特征融合向量;
S5:将所述面部特征融合向量输入支持向量机做表情分类。
优选地,所述剔除非人脸的区域的方法为:利用人脸检测器对视频帧除光序列进行人脸检测和定位,得到人脸关键点标定,再利用放射变换显示人脸关键点标定到统一的预定义模板上,得到人脸视频帧序列。
优选地,所述消除头部姿态对人脸表情的影响的方法为:利用空间变换网络消除人脸视频帧序列中头部姿态对人脸表情的影响,得到表情视频帧序列。
优选地,所述对表情视频帧序列进行扩增采用数据増广或者生成式对抗网络,得到视频预处理帧序列。
优选地,所述提取表征面部外观和形状特征的定向梯度直方图特征的具体方法为:利用定向梯度直方图融合视频预处理帧序列中的时域信息,分别提取水平轴和时间轴面部表情特征、垂直轴和时间轴面部表情特征、水平轴和垂直轴面部表情特征,并进行定向梯度直方图处理和特征向量合并,组成三平面定向梯度直方图特征。
优选地,所述提取面部褶皱程度的二阶特征的具体方法为:利用协方差矩阵池化提取视频预处理帧序列中描述面部褶皱程度的二阶统计特征,并利用对称正定流形网络进一步处理得到相应的面部二阶特征。
优选地,所述提取像素级深度神经网络特征的具体方法为:使用深度神经网络对视频预处理帧序列数据进行处理,不输出标准的分类结果,而是提取在激活函数之前的特征向量作为面部像素级深度神经网络特征。
本发明还提供了一种自然场景下的表情识别装置,包括:视频切分模块、视频帧标注序列预处理模块、视频预处理帧序列特征提取模块、特征融合模块和表情分类模块;所述视频切分模块与所述视频帧标注序列预处理模块连接,所述视频帧标注序列预处理模块与所述视频预处理帧序列特征提取模块连接,所述视频预处理帧序列特征提取模块与所述特征融合模块连接,所述特征融合模块与所述表情分类模块连接;
所述视频切分模块的功能为:将输入视频按指定帧率转化为视频帧序列,并进行人脸表情标注,得到视频帧标注序列;
所述视频帧标注序列预处理模块的功能为:对视频帧标注序列进行消除光照、剔除非人脸的区域和消除头部姿态对人脸表情的影响,得到表情视频帧序列,对表情视频帧序列进行扩增,得到视频预处理帧序列;
所述视频预处理帧序列特征提取模块的功能为:从视频预处理帧序列中提取表征面部外观和形状特征的定向梯度直方图特征、提取面部褶皱程度的二阶特征和使用深度神经网络提取像素级深度神经网络特征;
所述特征融合模块的功能为:将定向梯度直方图特征、面部褶皱程度的二阶特征和像素级深度神经网络特征进行对齐处理,再进行向量融合,得到用于训练的面部特征融合向量;
所述表情分类模块的功能为:将所述面部特征融合向量输入支持向量机做表情分类。
优选地,所述视频帧标注序列预处理模块包括:消除光照模块、人脸检测与定位模块、消除头部姿态影响模块和数据增广模块;所述消除光照模块与所述人脸检测与定位模块连接,所述人脸检测与定位模块与所述消除头部姿态影响模块连接,所述消除头部姿态影响模块与所述数据增广模块连接;
所述消除光照模块的功能为:采用亮度保留动态直方图均衡化方法消除视频帧标注序列中的光照影响;
所述人脸检测与定位模块的功能为:剔除非人脸的区域的影响;
所述消除头部姿态影响模块的功能为:利用空间变换网络消除人脸视频帧序列中头部姿态对人脸表情的影响;
所述数据增广模块的功能为:数据増广或者生成式对抗网络对数据进行增广。
优选地,所述视频预处理帧序列特征提取模块包括:定向梯度直方图特征提取模块、面部二阶特征提取模块和深度神经网络特征提取模块;所述视频帧标注序列预处理模块的输出分为3路分别与所述定向梯度直方图特征提取模块、面部二阶特征提取模块和深度神经网络特征提取模块连接,所述定向梯度直方图特征提取模块、面部二阶特征提取模块和深度神经网络特征提取模块分别与所述特征融合模块连接;
定向梯度直方图特征提取模块的功能为:利用定向梯度直方图融合视频预处理帧序列中的时域信息,分别提取水平轴和时间轴面部表情特征、垂直轴和时间轴面部表情特征、水平轴和垂直轴面部表情特征,并进行定向梯度直方图处理和特征向量合并,组成三平面定向梯度直方图特征;
面部二阶特征提取模块的功能为:利用协方差矩阵池化提取视频预处理帧序列中描述面部褶皱程度的二阶统计特征,并利用对称正定流形网络进一步处理得到相应的面部二阶特征;
深度神经网络特征提取模块的功能为:使用深度神经网络对视频预处理帧序列数据进行处理,不输出标准的分类结果,而是提取在激活函数之前的特征向量作为面部像素级深度神经网络特征;
所述深度神经网络特征提取模块的具体结构包括:第一卷积单元、第二卷积单元、随机失活层、第一全连接层和第二全连接层;所述第一卷积单元与所述第二卷积单元连接,所述第二卷积单元与所述随机失活层连接,所述随机失活层与所述第一全连接层连接,所述第一全连接层与所述第二全连接层连接;所述第二全连接层不加入线性整流函数;第一卷积单元包括:第一卷积层一、第一整流线性单元一、第一卷积层二、第一池化层和第一整流线性单元二;所述第一卷积层一与所述第一整流线性单元一连接,所述第一整流线性单元一与所述第一卷积层二连接,所述第一卷积层二与所述第一池化层连接,所述第一池化层与所述第一整流线性单元二连接;
所述第二卷积单元包括,第二卷积层一、第二整流线性单元一、第二卷积层二、第二池化层和第二整流线性单元二;所述第二卷积层一与所述第二整流线性单元一连接,所述第二整流线性单元一与所述第二卷积层二连接,所述第二卷积层二与所述第二池化层连接,所述第二池化层与所述第二整流线性单元二连接。
本申请实施例提供的上述技术方案与现有技术相比具有如下优点:
本申请提供了自然场景下的表情识别方法和装置,该申请有效滤除自然场景下与表情无关的信息的框架,首先该框架可以使用图像预处理技术对视频帧进行预处理从而有效滤除掉与表情无关的特征,优点在于图像预处理中考虑采用暗光增强和消除镜面反射等技术方法对输入的视频帧图像进行前期处理,有效解决自然场景中光照等无关因素的影响;其次,从情感连续性的角度,利用视频上下文内容中的时域信息对人脸表情进行跟踪从而在视频帧中提取出更能表达人物情感的表情特征。在一定程度上解决了表情识别在自然场景中受到较大干扰性的问题,以及表情视频帧之间特征提取不足的问题;再次,将所提取出的不同表情特征进行特征融合,优点在于从多个特征维度对输入视频帧中的人脸表情进行考量,从而得到能有效代表表情特征的总特征向量;最后,将总特征向量输入到表情分类器中得到最终的表情识别结果。
附图说明
此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本发明的实施例,并与说明书一起用于解释本发明的原理。
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,对于本领域普通技术人员而言,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1为本申请实施例提供的自然场景下的表情识别方法流程图;
图2是根据一示例性实施例示出的空间变换网络结构示意图;
图3是根据一示例性实施例示出的自然场景下的表情识别装置结构框图;
图4是根据一示例性实施例示出的深度神经网络特征提取模块结构框图。
其中1—视频切分模块,2—视频帧标注序列预处理模块,21—消除光照模块,22—人脸检测与定位模块,23—消除头部姿态影响模块,24—数据增广模块,3—视频预处理帧序列特征提取模块,31—定向梯度直方图特征提取模块,32—面部二阶特征提取模块,33—深度神经网络特征提取模块,331—第一卷积单元,3311—第一卷积层一,3312—第一整流线性单元一,3313—第一卷积层二,3314—第一池化层,3315—第一整流线性单元二,332—第二卷积单元,3321—第二卷积层一,3322—第二整流线性单元一,3323—第二卷积层二,3324—第二池化层,3325—第二整流线性单元二,333—随机失活层,334—第一全连接层,335—第二全连接层,4—特征融合模块,5—表情分类模块。
具体实施方式
为使本申请实施例的目的、技术方案和优点更加清楚,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本申请的一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例,都属于本申请保护的范围。
实施例1:
图1为本申请实施例提供的自然场景下的表情识别方法,包括:
S1:数据切分:将输入视频按指定帧率转化为视频帧序列,并进行人脸表情标注,得到视频帧标注序列。
S2:视频帧标注序列预处理:对视频帧标注序列进行消除光照、剔除非人脸的区域和消除头部姿态对人脸表情的影响,得到表情视频帧序列,对表情视频帧序列进行扩增,得到视频预处理帧序列;所述消除光照的具体方法为:采用亮度保留动态直方图均衡化方法消除视频帧标注序列中的光照影响,得到视频帧除光序列。
在一些实施例中,所述剔除非人脸的区域的方法为:利用人脸检测器对视频帧除光序列进行人脸检测和定位,得到人脸关键点标定,再利用放射变换显示人脸关键点标定到统一的预定义模板上,得到人脸视频帧序列。
在一些实施例中,所述消除头部姿态对人脸表情的影响的方法为:利用空间变换网络消除人脸视频帧序列中头部姿态对人脸表情的影响,得到表情视频帧序列;
所述对表情视频帧序列进行扩增采用数据増广或者生成式对抗网络,得到视频预处理帧序列。
S3:视频预处理帧序列特征提取:从视频预处理帧序列中提取表征面部外观和形状特征的定向梯度直方图特征、提取面部褶皱程度的二阶特征和使用深度神经网络提取面部像素级深度神经网络特征。
在一些实施例中,所述提取表征面部外观和形状特征的定向梯度直方图特征的具体方法为:利用定向梯度直方图融合视频预处理帧序列中的时域信息,分别提取水平轴和时间轴面部表情特征、垂直轴和时间轴面部表情特征、水平轴和垂直轴面部表情特征,并进行定向梯度直方图处理和特征向量合并,组成三平面定向梯度直方图特征。
在一些实施例中,所述提取面部褶皱程度的二阶特征的具体方法为:利用协方差矩阵池化提取视频预处理帧序列中描述面部褶皱程度的二阶统计特征,并利用对称正定流形网络进一步处理得到相应的面部二阶特征。
在一些实施例中,所述提取面部像素级深度神经网络特征的具体方法为:使用深度神经网络对视频预处理帧序列数据进行处理,不输出标准的分类结果,而是提取在激活函数之前的特征向量作为面部像素级深度神经网络特征。
S4:将定向梯度直方图特征、面部褶皱程度的二阶特征和像素级深度神经网络特征进行对齐处理,再进行向量融合,得到用于训练的面部特征融合向量。
S5:将所述面部特征融合向量输入支持向量机做表情分类。
如图3所示,自然场景下的表情识别装置,包括:视频切分模块1、视频帧标注序列预处理模块2、视频预处理帧序列特征提取模块3、特征融合模块4和表情分类模块5;所述视频切分模块1与所述视频帧标注序列预处理模块2连接,所述视频帧标注序列预处理模块2与所述视频预处理帧序列特征提取模块3连接,所述视频预处理帧序列特征提取模块3与所述特征融合模块4连接,所述特征融合模块4与所述表情分类模块5连接。
在一些实施例中,所述视频切分模块1的功能为:将输入视频按指定帧率转化为视频帧序列,并进行人脸表情标注,得到视频帧标注序列。
在一些实施例中,所述视频帧标注序列预处理模块2的功能为:对视频帧标注序列进行消除光照、剔除非人脸的区域和消除头部姿态对人脸表情的影响,得到表情视频帧序列,对表情视频帧序列进行扩增,得到视频预处理帧序列。
在一些实施例中,所述视频预处理帧序列特征提取模块3的功能为:从视频预处理帧序列中提取表征面部外观和形状特征的定向梯度直方图特征、提取面部褶皱程度的二阶特征和使用深度神经网络提取面部像素级深度神经网络特征。
在一些实施例中,所述特征融合模块4的功能为:将定向梯度直方图特征、面部褶皱程度的二阶特征和像素级深度神经网络特征进行对齐处理,再进行向量融合,得到用于训练的面部特征融合向量。
在一些实施例中,所述表情分类模块5的功能为:将所述面部特征融合向量输入支持向量机做表情分类。
在一些实施例中,所述视频帧标注序列预处理2模块包括:消除光照模块21、人脸检测与定位模块22、消除头部姿态影响模块23和数据增广模块24;所述消除光照模块21与所述人脸检测与定位模块22连接,所述人脸检测与定位模块22与所述消除头部姿态影响模块23连接,所述消除头部姿态影响模块23与所述数据增广模块24连接。
在一些实施例中,所述消除光照模块21的功能为:采用亮度保留动态直方图均衡化方法消除视频帧标注序列中的光照影响。
在一些实施例中,所述人脸检测与定位模块22的功能为:剔除非人脸的区域的影响。
在一些实施例中,所述消除头部姿态影响模块23的功能为:利用空间变换网络消除人脸视频帧序列中头部姿态对人脸表情的影响。
在一些实施例中,所述数据增广模块24的功能为:数据増广或者生成式对抗网络对数据进行增广。
在一些实施例中,所述视频预处理帧序列特征提取模块3包括:定向梯度直方图特征提取模块31、面部二阶特征提取模块32和深度神经网络特征提取模块33;所述视频帧标注序列预处理模块2的输出分为3路分别与所述定向梯度直方图特征提取模块31、面部二阶特征提取模块32和深度神经网络特征提取模块33连接,所述定向梯度直方图特征提取模块31、面部二阶特征提取模块32和深度神经网络特征提取模块33分别与所述特征融合模块4连接。
在一些实施例中,定向梯度直方图特征提取模块31的功能为:利用定向梯度直方图融合视频预处理帧序列中的时域信息,分别提取水平轴和时间轴面部表情特征、垂直轴和时间轴面部表情特征、水平轴和垂直轴面部表情特征,并进行定向梯度直方图处理和特征向量合并,组成三平面定向梯度直方图特征。
在一些实施例中,面部二阶特征提取模块32的功能为:利用协方差矩阵池化提取视频预处理帧序列中描述面部褶皱程度的二阶统计特征,并利用对称正定流形网络进一步处理得到相应的面部二阶特征。
在一些实施例中,深度神经网络特征提取模块33的功能为:使用深度神经网络对视频预处理帧序列数据进行处理,不输出标准的分类结果,而是提取在激活函数之前的特征向量作为面部像素级深度神经网络特征。
如图4所示,所述深度神经网络特征提取模块33的具体结构包括:第一卷积单元331、第二卷积单元332、随机失活层333、第一全连接层334和第二全连接层335;所述第一卷积单元331与所述第二卷积单元332连接,所述第二卷积单元332与所述随机失活层333连接,所述随机失活层333与所述第一全连接层334连接,所述第一全连接层334与所述第二全连接层335连接;所述第二全连接层335不加入线性整流函数;第一卷积单元331包括:第一卷积层一3311、第一整流线性单元一3312、第一卷积层二3313、第一池化层3314和第一整流线性单元二3315;所述第一卷积层一3311与所述第一整流线性单元一3312连接,所述第一整流线性单元一3312与所述第一卷积层二3313连接,所述第一卷积层二3313与所述第一池化层3314连接,所述第一池化层3314与所述第一整流线性单元二3315连接。
在一些实施例中,所述第二卷积单元332包括,第二卷积层一3321、第二整流线性单元一3322、第二卷积层二3323、第二池化层3324和第二整流线性单元二3325;所述第二卷积层一3321与所述第二整流线性单元一3322连接,所述第二整流线性单元一3322与所述第二卷积层二3323连接,所述第二卷积层二3323与所述第二池化层3324连接,所述第二池化层3324与所述第二整流线性单元二3325连接。
实施例2:
本申请实施例2提供的自然场景下的表情识别方法:
S1:数据切分:获取到用于训练阶段的MP4、MKV、AVI等各种格式视频文件,将其分解成视频帧,并以图像序列或程序数据流的形式保存,方便后续进一步进行面部表情识别其他流程。在得到视频帧之后,要对每个视频帧中的人脸表情进行标注,以便后续进行训练。
具体的,用于训练的视频数据可以是实时视频流、网络视频或本地视频等类型,在不考虑实时性的情况下,上述三类视频均可用于训练部分,但因涉及到标注问题,一般只使用后两种类型的视频进行训练。
在一些实施例中,可以按指定帧率从目标视频中提取视频帧。
在一些实施例中,在一些实施例中可以通过相关脚本文件或视频处理软件直接从视频文件中提取对应帧率的视频帧。
在一些实施例中,可以采用现有公开的已经标注过的图片格式或视频格式的人脸表情数据帧数据集进行后续流程操作。
具体的,图片格式的连续数据帧数据集除了隐含的上下文信息之外基本等同于传统的静态图片人脸表情数据集,每一帧或连续范围帧都需注明人脸表情的所属的具体分类。对于视频格式的人脸表情数据帧数据,要以帧为单位指定视频中具体时刻片段中人脸表情的所属分类。
在一些实施例中,基于前述方案,在得到标注好的视频帧后,开始进行数据的预处理操作。对自然场景中问题进行处理,包括光照、头部姿态、面部遮挡等问题。
S2:视频帧标注序列预处理:对视频帧标注序列进行消除光照、剔除非人脸的区域和消除头部姿态对人脸表情的影响,得到表情视频帧序列,对表情视频帧序列进行扩增,得到视频预处理帧序列;所述消除光照的具体方法为:采用亮度保留动态直方图均衡化方法消除视频帧标注序列中的光照影响,得到视频帧除光序列。
首先使用一维高斯滤波器对图像的直方图进行处理。高斯滤波器由下式定义:
其中,z是相对于内核中心的坐标,而σ是标准偏差。
然后从平滑的直方图检测局部最大值的位置,利用它划分不同子直方图。令m0,m1,…,mi,…,mn为(n + 1)个灰度级,对应于检测到的局部最大值。如果平滑前的原始直方图在[Imin,Imax]范围内,则第一个子直方图在[Imin,m0]范围内,第二个子直方图在[m0,m1]范围内,第i个子直方图在[m(i-2),m(i-1)]范围内,依此类推,直到最后一个子直方图在[mn,Imax]范围内。紧接着,按下面的公式计算第i个子直方图的输出结果:
其中,其中是输入图像中的子直方图i中包含的最高强度值,是输入图像中的子直方图i中包含的最低强度值,M是该部分中包含的总像素;L代表灰度级范围。输入图像中的子直方图i使用的动态范围由给出,而输出图像中的子直方图i使用的动态范围为。
其中,其中nk是亮度为k的像素数,M是该部分中包含的总像素数。
在一些实施例中,对于光照效果过强得情况,使用卷积神经网络对带有镜面反射的视频帧进行处理,其损失函数表示为:
在一些实施例中预处理中对光照影响的处理可以用对光照不敏感的相应特征提取方式替代,比如将局部二值模式(LBP)及其改进版或Haar等作为特征进行提取,但可能会将视频帧中一些重要的信息遗漏,在此不展开说明。
在一些实施例中所述剔除非人脸的区域的方法为:利用人脸检测器对视频帧除光序列进行人脸检测和定位,在得到人脸边界框后,输入图像裁剪至面部区域。在人脸检测之后,可以利用人脸关键点标定进一步提高面部表情识别的效果。根据关键点坐标,人脸可以利用放射变换显示到统一的预定义模板上。这一步可以减少旋转和面部变形带来的变化。
在一些实施例中,最常用的人脸标定方法是IntraFace,使用级联人脸关键点定位,即 SDM,可以准确预测 49 个面部关键点。
在一些实施例中,在自然场景下,可以组合使用多个人脸检测器实现互补,可以更好地进行人脸对齐。
在一些实施例中,考虑到自然场景下的视频帧中的人脸可能需要进行缩小、平移、旋转等空间操作,所以希望在训练阶段生成的模型具有空间不变性,当输入数据发生某种转换后,模型依然能够给出同样正确的结果。
在一些实施例中,所述消除头部姿态对人脸表情的影响的方法为:利用空间变换网络消除人脸视频帧序列中头部姿态对人脸表情的影响,得到表情视频帧序列。
在一些实施例中,如图2所示,STN的输入为U,输出为V,立方体表示输入的中间层feature map可能是多通道的,STN主要分为下述三个步骤:
可选的,V中的长宽可以自定义长度,并不一定与U保持一致。
步骤3-Sampler:由于在第二步计算出了V中每个坐标点对应到U的坐标点,在这一步可以直接根据V的坐标点取得U中相对应的坐标点的像素值来进行填充,而不需要经过矩阵运算。需要注意的是,填充并不是直接填充,首先计算出来的坐标可能是小数,要处理一下,其次填充的时候往往要考虑周围的其它像素值。填充根据的公式如下:
在一些实施例中,经过上述1-3步骤,即可得到一个由输入图U生产的输出图V。
可选的,这一步骤也可以在卷积神经网络内部进行插入,所以网络的输入也可以是卷积神经网络中间层的feature map。
扩增方面包括在线扩增和离线扩增两种方式。在训练阶段可以使用在线或离线扩增方式,在使用阶段只能使用在线扩增方式。
所述对表情视频帧序列进行扩增采用数据増广或者生成式对抗网络,得到视频预处理帧序列。
基于前述方案,从几何角度对视频帧进行随机裁剪,然后进行水平翻转,位移等;从像素变换角度进行改变图像色差、颜色抖动、扭曲图像特征、增加图像噪声等操作。这样可以获得比原始数据集大近10倍的数据集,让数据集尽可能的多样化,使得训练的模型具有更强的泛化能力。
可选的,离线扩增的方法包括随机扰动和变换,可以对图片进行旋转、移位、偏斜、缩放、噪声、对比度和颜色抖动等等。同时也可以对这些操作进行组合,从而使得训练的模型对偏离和旋转等非正常状态下的人脸更具有鲁棒性。
可选的,除了采用数据増广的图像扩增方式,也可以利用生成对抗网络(Generative Adversarial Networks,GAN) 来生成更多的训练数据。
基于前述方案,首先将视频裁剪成视频帧,然后采用图像处理等相关技术一定程度上解决了在自然环境下的视频帧中光照和头部姿态等干扰性问题,紧接着利用数据扩增技术将原数据帧的数量增多使得视频帧中人脸表情的样本种类更加丰富,使得在训练阶段生成的模型具有更强的鲁棒性。
S3:视频预处理帧序列特征提取:从视频预处理帧序列中提取表征面部外观和形状特征的定向梯度直方图特征、提取面部褶皱程度的二阶特征和使用深度神经网络提取面部像素级深度神经网络特征;
在本申请的一个具体示例中,基于前述方案,由于局部物体的外观和形状通常可以通过局部强度梯度或边缘方向的分步来很好地表征,由于面部表情识由面部肌肉运动引起的,所以采用定向梯度直方图(Histogram of Oriented Gradient, HOG)有效地捕捉和表示这些变形,但只限于处理静态图像,对于视频帧类型的数据要融合上下文信息。
在一些实施例中,所述提取表征面部外观和形状特征的定向梯度直方图特征的具体方法为:利用定向梯度直方图融合视频预处理帧序列中的时域信息,分别提取水平轴和时间轴面部表情特征、垂直轴和时间轴面部表情特征、水平轴和垂直轴面部表情特征,并进行定向梯度直方图处理和特征向量合并,组成三平面定向梯度直方图特征;
在一些实施例中,以水平轴和垂直轴组成的平面为例,对于一张128*128像素大小的视频帧图片,将其分割为8*8像素大小的像素块,为每个像素块单元创建一个柱状图,首先将每个单元中所有像素的渐变方向分组为特定数量的方向(角度)箱,然后将每个角度箱中渐变的渐变幅度相加。柱状图中的箱数是一个自由参数,通常设置为9个角箱。然后遍历每个像素块单元中的每个像素点,按其梯度的强度和方向将其放入角箱中,最后得到代表该像素块单元的HOG描述符的特征向量。对于一张128*128像素大小的视频帧图像,可以得到16*16=256组HOG向量,并将其拼接成一个特征向量代表该图片的HOG描述符。
在一些实施例中,传统的卷积神经网络使用卷积层、最大或平均池化和全连接层只捕获一阶统计量,一些二阶统计量是比一阶统计量更好的区域描述符。虽然在ReLU激活函数中引入了非线性操作,但仅能在很小的像素级别进行操作,所以考虑捕获视频帧数据中的二阶信息。
在一些实施例中,所述提取面部褶皱程度的二阶特征的具体方法为:利用协方差矩阵池化提取视频预处理帧序列中描述面部褶皱程度的二阶统计特征,并利用对称正定流形网络进一步处理得到相应的面部二阶特征。
在一些实施例中,给定一组视频帧数据,将其送入卷积神经网络后,对从全连接层输出的一组特征向量计算其协方差矩阵,计算公式如下:
这样得到的协方差矩阵只有在当前特征向量线性独立分量数大于等于d时才是对称正定的,否则需要对结果矩阵的对角线添加矩阵的迹来正则化它们,公式如下:
这样获得的协方差矩阵通常位于单位圆矩阵的黎曼流形上。直接展平和应用会直接导致几何信息的丢失。标准方法应用对数运算来展平黎曼流形结构,以便能够应用欧氏空间的标准损失函数。这样获得的协方差矩阵通常很大,需要在不损失几何结构的情况下降低它们的维数。对数运算展开公式如下:
在一些实施例中,所述提取面部像素级深度神经网络特征的具体方法为:使用深度神经网络对视频预处理帧序列数据进行处理,不输出标准的分类结果,而是提取在激活函数之前的特征向量作为面部像素级深度神经网络特征;
S4:将定向梯度直方图特征、面部褶皱程度的二阶特征和像素级深度神经网络特征进行对齐处理,再进行向量融合,得到用于训练的面部特征融合向量;在融合前进行一定的归一化处理。
S5:将所述面部特征融合向量输入支持向量机做表情分类。以用不同情感类别中的一种来标记每个特征向量。使用多重交叉验证,使用网格搜索来训练一个单对多线性SVM进行分类。
在一些实施例中,人脸情感类别可以分为离散和维度两种。离散情感包括anger,disgust,fear,happiness,sadness,surprise。
在测试时,我们以同样的方式计算编码特征,并使用SVM类预测作为我们的提交。
需要说明的是,在本文中,诸如“第一”和“第二”等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
以上所述仅是本发明的具体实施方式,使本领域技术人员能够理解或实现本发明。对这些实施例的多种修改对本领域的技术人员来说将是显而易见的,本文中所定义的一般原理可以在不脱离本发明的精神或范围的情况下,在其它实施例中实现。因此,本发明将不会被限制于本文所示的这些实施例,而是要符合与本文所申请的原理和新颖特点相一致的最宽的范围。
Claims (9)
1.自然场景下的表情识别方法,其特征在于,包括:
S1:数据切分:将输入视频按指定帧率转化为视频帧序列,并进行人脸表情标注,得到视频帧标注序列;
S2:视频帧标注序列预处理:对视频帧标注序列进行消除光照、剔除非人脸的区域和消除头部姿态对人脸表情的影响,得到表情视频帧序列,对表情视频帧序列进行扩增,得到视频预处理帧序列;所述消除光照的具体方法为:采用亮度保留动态直方图均衡化方法消除视频帧标注序列中的光照影响,得到视频帧除光序列;
S3:视频预处理帧序列特征提取:从视频预处理帧序列中提取表征面部外观和形状特征的定向梯度直方图特征、提取面部褶皱程度的二阶特征和使用深度神经网络提取像素级深度神经网络特征;
S4:将定向梯度直方图特征、面部褶皱程度的二阶特征和像素级深度神经网络特征进行对齐处理,再进行向量融合,得到用于训练的面部特征融合向量;
S5:将所述面部特征融合向量输入支持向量机做表情分类;
所述提取表征面部外观和形状特征的定向梯度直方图特征的具体方法为:利用定向梯度直方图融合视频预处理帧序列中的时域信息,分别提取水平轴和时间轴面部表情特征、垂直轴和时间轴面部表情特征、水平轴和垂直轴面部表情特征,并进行定向梯度直方图处理和特征向量合并,组成三平面定向梯度直方图特征。
2.根据权利要求1所述的自然场景下的表情识别方法,其特征在于,所述剔除非人脸的区域的方法为:利用人脸检测器对视频帧除光序列进行人脸检测和定位,得到人脸关键点标定,再利用放射变换显示人脸关键点标定到统一的预定义模板上,得到人脸视频帧序列。
3.根据权利要求2所述的自然场景下的表情识别方法,其特征在于,所述消除头部姿态对人脸表情的影响的方法为:利用空间变换网络消除人脸视频帧序列中头部姿态对人脸表情的影响,得到表情视频帧序列。
4.根据权利要求3所述的自然场景下的表情识别方法,其特征在于,所述对表情视频帧序列进行扩增采用数据増广或者生成式对抗网络,得到视频预处理帧序列。
5.根据权利要求1所述的自然场景下的表情识别方法,其特征在于,所述提取面部褶皱程度的二阶特征的具体方法为:利用协方差矩阵池化提取视频预处理帧序列中描述面部褶皱程度的二阶统计特征,并利用对称正定流形网络进一步处理得到相应的面部二阶特征。
6.根据权利要求1所述的自然场景下的表情识别方法,其特征在于,所述提取像素级深度神经网络特征的具体方法为:使用深度神经网络对视频预处理帧序列数据进行处理,不输出标准的分类结果,而是提取在激活函数之前的特征向量作为面部像素级深度神经网络特征。
7.自然场景下的表情识别装置,其特征在于,包括:视频切分模块、视频帧标注序列预处理模块、视频预处理帧序列特征提取模块、特征融合模块和表情分类模块;所述视频切分模块与所述视频帧标注序列预处理模块连接,所述视频帧标注序列预处理模块与所述视频预处理帧序列特征提取模块连接,所述视频预处理帧序列特征提取模块与所述特征融合模块连接,所述特征融合模块与所述表情分类模块连接;
所述视频切分模块的功能为:将输入视频按指定帧率转化为视频帧序列,并进行人脸表情标注,得到视频帧标注序列;
所述视频帧标注序列预处理模块的功能为:对视频帧标注序列进行消除光照、剔除非人脸的区域和消除头部姿态对人脸表情的影响,得到表情视频帧序列,对表情视频帧序列进行扩增,得到视频预处理帧序列;
所述视频预处理帧序列特征提取模块的功能为:从视频预处理帧序列中提取表征面部外观和形状特征的定向梯度直方图特征、提取面部褶皱程度的二阶特征和使用深度神经网络提取像素级深度神经网络特征;
所述特征融合模块的功能为:将定向梯度直方图特征、面部褶皱程度的二阶特征和像素级深度神经网络特征进行对齐处理,再进行向量融合,得到用于训练的面部特征融合向量;
所述表情分类模块的功能为:将所述面部特征融合向量输入支持向量机做表情分类;
所述提取表征面部外观和形状特征的定向梯度直方图特征的具体方法为:利用定向梯度直方图融合视频预处理帧序列中的时域信息,分别提取水平轴和时间轴面部表情特征、垂直轴和时间轴面部表情特征、水平轴和垂直轴面部表情特征,并进行定向梯度直方图处理和特征向量合并,组成三平面定向梯度直方图特征。
8.根据权利要求7所述的自然场景下的表情识别装置,其特征在于,所述视频帧标注序列预处理模块包括:消除光照模块、人脸检测与定位模块、消除头部姿态影响模块和数据增广模块;所述消除光照模块与所述人脸检测与定位模块连接,所述人脸检测与定位模块与所述消除头部姿态影响模块连接,所述消除头部姿态影响模块与所述数据增广模块连接;
所述消除光照模块的功能为:采用亮度保留动态直方图均衡化方法消除视频帧标注序列中的光照影响;
所述人脸检测与定位模块的功能为:剔除非人脸的区域的影响;
所述消除头部姿态影响模块的功能为:利用空间变换网络消除人脸视频帧序列中头部姿态对人脸表情的影响;
所述数据增广模块的功能为:数据増广或者生成式对抗网络对数据进行增广。
9.根据权利要求7所述的自然场景下的表情识别装置,其特征在于,所述视频预处理帧序列特征提取模块包括:定向梯度直方图特征提取模块、面部二阶特征提取模块和深度神经网络特征提取模块;所述视频帧标注序列预处理模块的输出分为3路分别与所述定向梯度直方图特征提取模块、面部二阶特征提取模块和深度神经网络特征提取模块连接,所述定向梯度直方图特征提取模块、面部二阶特征提取模块和深度神经网络特征提取模块分别与所述特征融合模块连接;
定向梯度直方图特征提取模块的功能为:利用定向梯度直方图融合视频预处理帧序列中的时域信息,分别提取水平轴和时间轴面部表情特征、垂直轴和时间轴面部表情特征、水平轴和垂直轴面部表情特征,并进行定向梯度直方图处理和特征向量合并,组成三平面定向梯度直方图特征;
面部二阶特征提取模块的功能为:利用协方差矩阵池化提取视频预处理帧序列中描述面部褶皱程度的二阶统计特征,并利用对称正定流形网络进一步处理得到相应的面部二阶特征;
深度神经网络特征提取模块的功能为:使用深度神经网络对视频预处理帧序列数据进行处理,不输出标准的分类结果,而是提取在激活函数之前的特征向量作为面部像素级深度神经网络特征;
所述深度神经网络特征提取模块的具体结构包括:第一卷积单元、第二卷积单元、随机失活层、第一全连接层和第二全连接层;所述第一卷积单元与所述第二卷积单元连接,所述第二卷积单元与所述随机失活层连接,所述随机失活层与所述第一全连接层连接,所述第一全连接层与所述第二全连接层连接;所述第二全连接层不加入线性整流函数;第一卷积单元包括:第一卷积层一、第一整流线性单元一、第一卷积层二、第一池化层和第一整流线性单元二;所述第一卷积层一与所述第一整流线性单元一连接,所述第一整流线性单元一与所述第一卷积层二连接,所述第一卷积层二与所述第一池化层连接,所述第一池化层与所述第一整流线性单元二连接;
所述第二卷积单元包括,第二卷积层一、第二整流线性单元一、第二卷积层二、第二池化层和第二整流线性单元二;所述第二卷积层一与所述第二整流线性单元一连接,所述第二整流线性单元一与所述第二卷积层二连接,所述第二卷积层二与所述第二池化层连接,所述第二池化层与所述第二整流线性单元二连接。
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110222926.5A CN112580617B (zh) | 2021-03-01 | 2021-03-01 | 自然场景下的表情识别方法和装置 |
US17/470,135 US11216652B1 (en) | 2021-03-01 | 2021-09-09 | Expression recognition method under natural scene |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110222926.5A CN112580617B (zh) | 2021-03-01 | 2021-03-01 | 自然场景下的表情识别方法和装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN112580617A CN112580617A (zh) | 2021-03-30 |
CN112580617B true CN112580617B (zh) | 2021-06-18 |
Family
ID=75114061
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110222926.5A Active CN112580617B (zh) | 2021-03-01 | 2021-03-01 | 自然场景下的表情识别方法和装置 |
Country Status (2)
Country | Link |
---|---|
US (1) | US11216652B1 (zh) |
CN (1) | CN112580617B (zh) |
Families Citing this family (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113627349B (zh) * | 2021-08-12 | 2023-12-05 | 南京信息工程大学 | 一种基于自注意力变换网络的动态人脸表情识别方法 |
CN114155478B (zh) * | 2022-02-09 | 2022-05-10 | 苏州浪潮智能科技有限公司 | 一种情感识别方法、装置、系统及计算机可读存储介质 |
CN114708530B (zh) * | 2022-03-18 | 2023-04-18 | 电子科技大学 | 神经网络模型的预训练数据处理、装置、存储介质、识别方法 |
CN114898439B (zh) * | 2022-06-01 | 2024-03-19 | 桂林电子科技大学 | 一种基于分段策略和多头卷积注意力的视频人脸识别方法 |
CN114915575B (zh) * | 2022-06-02 | 2023-04-07 | 电子科技大学 | 一种基于人工智能的网络流量检测装置 |
CN115641543B (zh) * | 2022-12-26 | 2023-03-14 | 北京科技大学 | 一种多模态抑郁情绪识别方法及装置 |
CN115984943B (zh) * | 2023-01-16 | 2024-05-14 | 支付宝(杭州)信息技术有限公司 | 面部表情捕捉及模型训练方法、装置、设备、介质及产品 |
CN116563915B (zh) * | 2023-04-28 | 2024-07-26 | 深圳大器时代科技有限公司 | 一种基于深度学习算法的人脸状态识别方法及装置 |
CN117218224B (zh) * | 2023-08-21 | 2024-09-03 | 华院计算技术(上海)股份有限公司 | 人脸情绪图像生成方法及装置、可读存储介质、终端 |
CN117204856B (zh) * | 2023-10-07 | 2024-09-24 | 清华大学 | 基于脑电数据的驾驶员情绪状态检测方法和装置 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109635727A (zh) * | 2018-12-11 | 2019-04-16 | 昆山优尼电能运动科技有限公司 | 一种人脸表情识别方法及装置 |
CN110210429A (zh) * | 2019-06-06 | 2019-09-06 | 山东大学 | 一种基于光流、图像、运动对抗生成网络提高焦虑、抑郁、愤怒表情识别正确率的方法 |
CN111401105A (zh) * | 2019-01-02 | 2020-07-10 | 中国移动通信有限公司研究院 | 一种视频表情识别方法、装置及设备 |
Family Cites Families (17)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
GB2395264A (en) * | 2002-11-29 | 2004-05-19 | Sony Uk Ltd | Face detection in images |
JP5361530B2 (ja) * | 2009-05-20 | 2013-12-04 | キヤノン株式会社 | 画像認識装置、撮像装置及び画像認識方法 |
US9600711B2 (en) * | 2012-08-29 | 2017-03-21 | Conduent Business Services, Llc | Method and system for automatically recognizing facial expressions via algorithmic periocular localization |
US9666088B2 (en) * | 2013-08-07 | 2017-05-30 | Xerox Corporation | Video-based teacher assistance |
US10650508B2 (en) * | 2014-12-03 | 2020-05-12 | Kla-Tencor Corporation | Automatic defect classification without sampling and feature selection |
CN105974940B (zh) * | 2016-04-29 | 2019-03-19 | 优利科技有限公司 | 适用于飞行器的目标跟踪方法 |
CN106874921B (zh) * | 2015-12-11 | 2020-12-04 | 清华大学 | 图像分类方法和装置 |
CN105847968B (zh) * | 2016-03-21 | 2018-12-21 | 京东方科技集团股份有限公司 | 基于深度学习的解像方法和系统 |
CN109475294B (zh) * | 2016-05-06 | 2022-08-19 | 斯坦福大学托管董事会 | 用于治疗精神障碍的移动和可穿戴视频捕捉和反馈平台 |
CN106127103B (zh) * | 2016-06-12 | 2019-06-25 | 广州广电运通金融电子股份有限公司 | 一种离线身份认证的方法和装置 |
CN107273845B (zh) * | 2017-06-12 | 2020-10-02 | 大连海事大学 | 一种基于置信区域和多特征加权融合的人脸表情识别方法 |
US10789456B2 (en) * | 2017-12-28 | 2020-09-29 | Adobe Inc. | Facial expression recognition utilizing unsupervised learning |
CN108491764B (zh) | 2018-03-05 | 2020-03-17 | 竹间智能科技(上海)有限公司 | 一种视频人脸情绪识别方法、介质及设备 |
CN109145837A (zh) | 2018-08-28 | 2019-01-04 | 厦门理工学院 | 人脸情感识别方法、装置、终端设备和存储介质 |
EP3899789A4 (en) * | 2018-12-20 | 2022-10-05 | Tracxone Ltd. | SYSTEM AND METHOD FOR CLASSIFIER LEARNING AND RECOVERY FROM A CLASSIFIER DATABASE FOR LARGE-SCALE PRODUCT IDENTIFICATION |
CN110598587B (zh) * | 2019-08-27 | 2022-05-13 | 汇纳科技股份有限公司 | 结合弱监督的表情识别网络训练方法、系统、介质及终端 |
CN111310798B (zh) * | 2020-01-19 | 2023-05-16 | 浙江大学 | 基于几何特征和纹理特征的脸部运动迟缓的检测模型的构建方法 |
-
2021
- 2021-03-01 CN CN202110222926.5A patent/CN112580617B/zh active Active
- 2021-09-09 US US17/470,135 patent/US11216652B1/en active Active
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109635727A (zh) * | 2018-12-11 | 2019-04-16 | 昆山优尼电能运动科技有限公司 | 一种人脸表情识别方法及装置 |
CN111401105A (zh) * | 2019-01-02 | 2020-07-10 | 中国移动通信有限公司研究院 | 一种视频表情识别方法、装置及设备 |
CN110210429A (zh) * | 2019-06-06 | 2019-09-06 | 山东大学 | 一种基于光流、图像、运动对抗生成网络提高焦虑、抑郁、愤怒表情识别正确率的方法 |
Also Published As
Publication number | Publication date |
---|---|
US11216652B1 (en) | 2022-01-04 |
CN112580617A (zh) | 2021-03-30 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN112580617B (zh) | 自然场景下的表情识别方法和装置 | |
Goh et al. | Micro-expression recognition: an updated review of current trends, challenges and solutions | |
Zhang et al. | Short and long range relation based spatio-temporal transformer for micro-expression recognition | |
CN111444881A (zh) | 伪造人脸视频检测方法和装置 | |
Littlewort et al. | Towards social robots: Automatic evaluation of human-robot interaction by facial expression classification | |
González-Hernández et al. | Recognition of learning-centered emotions using a convolutional neural network | |
Raut | Facial emotion recognition using machine learning | |
Emeršič et al. | Pixel-wise ear detection with convolutional encoder-decoder networks | |
CN115862120B (zh) | 可分离变分自编码器解耦的面部动作单元识别方法及设备 | |
HN et al. | Human Facial Expression Recognition from static images using shape and appearance feature | |
Saeed | A framework for recognition of facial expression using HOG features | |
Song et al. | Visual-context boosting for eye detection | |
Patil et al. | Face expression recognition using SVM and KNN classifier with HOG features | |
El Madmoune et al. | Robust face recognition using convolutional neural networks combined with Krawtchouk moments. | |
Sooch et al. | Emotion Classification and Facial Key point detection using AI | |
Noor et al. | Facial expression recognition using hand-crafted features and supervised feature encoding | |
Nagaral et al. | Hybrid approach for facial expression recognition using HJDLBP and LBP histogram in video sequences | |
Starostenko et al. | Real-time facial expression recognition using local appearance-based descriptors | |
Shojaeilangari et al. | Multiscale analysis of local phase and local orientation for dynamic facial expression recognition | |
Jin et al. | Micro-expression recognition based on multi-scale 3D residual convolutional neural network | |
Yang et al. | The performance analysis of facial expression recognition system using local regions and features | |
Gizatdinova et al. | Facial expression classification based on local spatiotemporal edge and texture descriptors | |
Jaquetti et al. | VGG FACE fine-tuning for classification of facial expression images of emotion | |
Shit et al. | Real-time emotion recognition using end-to-end attention-based fusion network | |
Gupta et al. | Face expression recognition master using convolutional neural network |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |