CN114170540B - 一种融合表情和姿态的个体情绪识别方法 - Google Patents
一种融合表情和姿态的个体情绪识别方法 Download PDFInfo
- Publication number
- CN114170540B CN114170540B CN202010847665.1A CN202010847665A CN114170540B CN 114170540 B CN114170540 B CN 114170540B CN 202010847665 A CN202010847665 A CN 202010847665A CN 114170540 B CN114170540 B CN 114170540B
- Authority
- CN
- China
- Prior art keywords
- sequence
- individual
- gesture
- expression
- emotion
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Evolutionary Computation (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Health & Medical Sciences (AREA)
- Software Systems (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Biophysics (AREA)
- Biomedical Technology (AREA)
- Mathematical Physics (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Biology (AREA)
- Image Analysis (AREA)
Abstract
本发明提供了一种融合表情和姿态的个体情绪识别方法,主要涉及利用多模态个体情绪识别网络对个体序列情绪进行分类。该方法包括:构建多模态个体情绪识别网络(其中包括处理表情序列和姿态序列的两个通道),并利用该网络并行提取视频序列中的表情特征和姿态特征,最后融合这两种特征,得到个体序列情绪分类。本发明充分发挥深度学习的自我学习能力,避免了人工提取特征的局限性,使得本发明方法的适应能力更强。利用多流深度学习网络的结构特征,并行训练及预测,最后融合多个子网络的分类结果,提高了准确率及工作效率。
Description
技术领域
本发明涉及视频分析领域中的个体序列情绪识别问题,尤其是涉及一种融合表情和姿态的多流神经网络对个体序列情绪分类的视频分析方法。
背景技术
情绪识别旨在使计算机拥有能够感知和分析人类的情绪和意图的能力,从而在娱乐、医疗、教育、公共安全等领域发挥作用。情绪的表达方式不是孤立存在的,其中,面部表情和身体姿态的组合视觉渠道被认为是判断人类行为线索的重要渠道。面部表情可以最直观地反映出人们的情绪状态和心理活动,是表达情绪的重要方式,然而真实环境中的无关因素会对面部情绪的识别产生很大影响;身体姿态的活动性比面部复杂,表达的情绪不如面部表情直观,但是在情感表达中同样具有诊断性。
视频大量存在于现实生活之中,如无人机视频监控,网络共享视频,3D视频等。通过对视频中人们的情绪分析有助于动态的了解视频中的人们的情感及情绪的变化,有着广阔的应用前景。例如在机场、地铁、公园等人流量大的场所进行情绪监测可以帮助识别潜在威胁,及时处理突发事件。
传统的基于表情和姿态个体情绪识别方法主要是人工构建和提取特征,特征维数过大,计算复杂,处理海量真实场景的视频数据十分困难。深度学习(Deep Learning)是一个近几年备受关注的研究领域,在机器学习中起着重要的作用。深度学习通过建立、模拟人脑的分层结构来实现对外部输入的数据进行从低级到高级的特征提取,从而能够解释外部数据。深度学习强调网络结构的深度,通常有多个隐藏层,以用来突出特征学习的重要性。与人工规则构造特征的浅层结构相比,深度学习利用大量的数据来学习特征,更能够描述数据特有的丰富的特征信息。我们还可以通过学习一种深层非线性网络,实现复杂模型的逼近,表征输入数据分布式表示。
发明内容
本发明的目的是提供一种视频序列中个体情绪识别的方法,将深度学习与视频个体情绪相结合,充分发挥深度学习自我学习的优势,有效融合面部表情和身体姿态表达的情绪信息,可以解决目前浅层学习的参数难以调整,需要人工选取特征,公共空间个体情绪识别准确率不高的问题。
为了方便说明,首先引入如下概念:
个体序列情绪分类:对于视频序列中个体的情绪进行分析,将每个个体划分到正确的情绪类别之中。根据实际需求不同,可定义不同的个体情绪类别。
卷积神经网络(CNN):受视觉神经机制的启发而设计的,是为识别二维形状而设计的一种多层感知器,这种网络结构对平移、比例缩放、倾斜或者其他形式的变形具有高度不变性。
多任务卷积神经网络(MTCNN):主要采用三个级联的网络,采用候选框加分类器的思想,进行快速高效的人脸检测。
深度可分离卷积神经网络(Xception):为了更加有效地利用模型参数,深度学习领域发展出了深度可分离卷积(Depthwise Separable Convolution),将传统的卷积操作分成了两步;网络中残差连接模块还能加快收敛过程。
深度三维卷积神经网络(C3D):利用沿时间轴共享权值的3D卷积核代替传统的2D卷积核,简单高效地学习时空特征,并且可以同时对外观和运动进行建模。
多模态个体序列情绪识别网络:通过多个并行的子神经网络提取个体序列表情和姿态的特征,然后将多个子神经网络进行加权融合形成多流神经网络。
数据集:公共空间个体情绪数据集SCU-FABE。
本发明具体采用如下技术方案:
提出了一种融合表情和姿态的个体情绪识别方法,该方法的主要特征在于:
a.将视频序列处理成表情序列和姿态序列以提取不同特征;
b.采用针对性的神经网络分别提取表情和姿态的特征;
c.采用加权的方法融合b中的表情和姿态特征以预测个体情绪;
该方法主要包括以下步骤:
A.将视频数据集分为训练集和测试集,并贴上定义好的几个情绪类别标签;对视频序列进行预处理,其中通过人脸检测等视频分析技术获取人脸序列,完整个体序列为姿态序列;
B.采用2通道(表情通道,姿态通道)多模态个体序列情绪识别网络分别提取表情和姿态的特征,其中表情通道处理分辨率为48×48的人脸序列,姿态通道处理分辨率为510×786的身体序列;加权融合表情和姿态特征进行个体的视频序列情绪分类;
C.将训练集的表情序列和姿态序列分别输入多模态个体序列情绪识别网络的两个通道,完成整个网络的训练,最后融合,保存生成的网络与网络参数模型,以用于预测;
D.利用多模态个体序列情绪识别网络和步骤C中生成的网络参数模型,将待识别的视频的表情序列和姿态序列分别输入,融合两通道的分类结果来预测该视频的个体情绪类别。
优选地,在步骤A中的情绪类别标签包括消极、中性、积极。
优选地,在步骤A中数据预处理包括:采用多任务卷积神经网络(MTCNN)对每一个个体序列进行面部检测得到表情序列;对表情序列和姿态序列进行尺寸处理,其中表情序列图片分辨率为48×48,姿态序列图片分辨率为510×786。
优选地,在步骤B中采用深度可分离卷积神经网络(Mini Xception)为表情通道的基础网络,采用深度三维卷积神经网络(C3D)作为姿态通道的基础网络,对两通道网络采用7:3的权重融合得到多模态个体序列情绪识别网络。
优选地,在步骤C中训练时采用10%自动对比度和逆时针旋转5度的方法进行训练数据的扩充。
优选地,在步骤D中预测时对视频序列的表情序列和姿态序列分别分类处理,然后对两个通道的分类结果采用7:3的权重融合得到最终的个体情绪类别预测结果。
本发明的有益效果是:
(1)充分发挥深度学习的自我学习优势,机器自动学习良好的特征。当输入视频时能够快速准确地提取特征,并行抽取多种特征,加权融合分类,避免了人工提取特征的局限性,适应能力更强。
(2)利用多模态个体序列情绪识别网络的结构特征,对网络进行训练,预测,最后对结果进行融合,可以大大的减少训练所需时间,增加工作效率。
(3)结合多流深度学习网络,有效融合多种特征(表情,姿态等),使分类结果更加准确、可靠。
(4)将深度学习与视频个体情绪分类相结合,解决传统方法在公共空间情绪识别中准确率不高,泛化能力差等问题,提高研究价值。
附图说明
图1为本发明的融合表情和姿态的个体情绪识别方法的流程图;
图2为多模态个体序列情绪识别网络的组成图;
图3为本发明方法在测试集上表情通道、姿态通道、两通道按7:3的权重融合的分类结果混淆矩阵。
具体实施方式
下面通过实例对本发明作进一步的详细说明,有必要指出的是,以下的实施例只用于对本发明做进一步的说明,不能理解为对本发明保护范围的限制,所属领域技术熟悉人员根据上述发明内容,对本发明做出一些非本质的改进和调整进行具体实施,应仍属于本发明的保护范围。
图1中,融合表情和姿态的个体情绪识别方法,具体包括以下步骤:
(1)将视频序列数据集分为消极,中性,积极三个不同的个体情绪类别,将分好等级的数据集按5:5的比例分为训练集、测试集,并制作数据标签。
(2)分别将上述步骤(1)中各数据集的视频序列进行人脸检测处理获取人脸序列,完整个体序列为姿态序列,并进行尺寸统一处理。
(3)利用不同的网络通道处理人脸序列和姿态序列,本方法具体使用表情通道处理分辨率为48×48的人脸序列,姿态通道处理分辨率为510×786的姿态序列,最后采用7:3的权重融合两个通道得到本方法的多模态个体序列情绪识别网络。
(4)训练:其中采用Mini Xception作为表情通道的基础网络,C3D作为姿态通道的基础网络,对两通道网络加权融合得到多模态个体序列情绪识别网络,然后从上述步骤(2)处理过的训练集中取1/10的数据对多模态个体序列情绪识别网络微调,验证输入数据是否有效,如果无效则重新生成输入数据。接着利用步骤(2)中训练集对多模态个体序列情绪识别网络进行训练。最后得到训练完成的网络的参数模型,用于预测网络。
(5)多模态个体情绪识别网络加载步骤(4)中得到的网络参数模型。
(6)将上述步骤(2)的测试集视频的人脸序列和姿态序列分别输入预测网络的两个通道。
(7)将两个通道得到的结果采用7:3的权重融合得到预测结果。
Claims (4)
1.一种融合表情和姿态的个体情绪识别方法,其特征在于:
a.将视频序列处理成表情序列和姿态序列以提取不同特征;
b.采用针对性的神经网络分别提取表情和姿态的特征;
c.采用加权的方法融合b中的表情和姿态特征以预测个体情绪;
该方法主要包括以下步骤:
A.将视频数据集分为训练集和测试集,并贴上定义好的几个情绪类别标签;对视频序列进行预处理,其中通过人脸检测技术获取人脸序列,完整个体序列为姿态序列;
B.采用2通道多模态个体序列情绪识别网络分别提取表情和姿态的特征,其中表情通道处理分辨率为48×48的人脸序列,姿态通道处理分辨率为510×786的身体序列;加权融合表情和姿态特征进行个体的视频序列情绪分类;
C.将训练集的表情序列和姿态序列分别输入多模态个体序列情绪识别网络的两个通道,
完成整个网络的训练,最后融合,保存生成的网络与网络参数模型,以用于预测;
D.利用多模态个体序列情绪识别网络和步骤C中生成的网络参数模型,将待识别的视频的表情序列和姿态序列分别输入,融合两通道的分类结果来预测该视频的个体情绪类别。
2.如权利要求1所述的融合表情和姿态的个体情绪识别方法,其特征在于步骤A中的数据预处理采用多任务卷积神经网络(MTCNN)进行面部检测得到表情序列,调整为48×48像素;完整个体序列作为姿态序列,调整为510×786像素。
3.如权利要求1所述的融合表情和姿态的个体情绪识别方法,其特征在于在步骤B中采用深度可分离卷积神经网络(Mini Xception)为表情通道的基础网络,采用深度三维卷积神经网络(C3D)作为姿态通道的基础网络,对两通道网络采用7:3的权重融合得到多模态个体序列情绪识别网络。
4.如权利要求1所述的融合表情和姿态的个体情绪识别方法,其特征在于在步骤D中预测时对视频序列的表情序列和姿态序列分别分类处理,然后对两个通道的分类结果采用7:3的权重融合得到最终的个体情绪类别预测结果。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010847665.1A CN114170540B (zh) | 2020-08-21 | 2020-08-21 | 一种融合表情和姿态的个体情绪识别方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010847665.1A CN114170540B (zh) | 2020-08-21 | 2020-08-21 | 一种融合表情和姿态的个体情绪识别方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN114170540A CN114170540A (zh) | 2022-03-11 |
CN114170540B true CN114170540B (zh) | 2023-06-13 |
Family
ID=80475388
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010847665.1A Active CN114170540B (zh) | 2020-08-21 | 2020-08-21 | 一种融合表情和姿态的个体情绪识别方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114170540B (zh) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115312195A (zh) * | 2022-10-10 | 2022-11-08 | 安徽交欣科技股份有限公司 | 一种基于情绪数据计算个体心理异常的健康评估方法 |
Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101777116A (zh) * | 2009-12-23 | 2010-07-14 | 中国科学院自动化研究所 | 一种基于动作跟踪的脸部表情分析方法 |
CN105608447A (zh) * | 2016-02-17 | 2016-05-25 | 陕西师范大学 | 对人体面部微笑表情深度卷积神经网络的检测方法 |
CN108596039A (zh) * | 2018-03-29 | 2018-09-28 | 南京邮电大学 | 一种基于3d卷积神经网络的双模态情感识别方法及系统 |
CN109117750A (zh) * | 2018-07-24 | 2019-01-01 | 深圳先进技术研究院 | 一种基于深度学习的情绪识别方法、系统及电子设备 |
CN109886190A (zh) * | 2019-02-20 | 2019-06-14 | 哈尔滨工程大学 | 一种基于深度学习的人脸表情和姿态双模态融合表情识别方法 |
WO2020021651A1 (ja) * | 2018-07-25 | 2020-01-30 | マクセル株式会社 | 自動映像演出装置、自動映像演出方法、及び、それに用いる映像記録媒体 |
CN111523461A (zh) * | 2020-04-22 | 2020-08-11 | 南京工程学院 | 基于增强cnn和跨层lstm的表情识别系统与方法 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20160358085A1 (en) * | 2015-06-05 | 2016-12-08 | Sensaura Inc. | System and method for multimodal human state recognition |
-
2020
- 2020-08-21 CN CN202010847665.1A patent/CN114170540B/zh active Active
Patent Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101777116A (zh) * | 2009-12-23 | 2010-07-14 | 中国科学院自动化研究所 | 一种基于动作跟踪的脸部表情分析方法 |
CN105608447A (zh) * | 2016-02-17 | 2016-05-25 | 陕西师范大学 | 对人体面部微笑表情深度卷积神经网络的检测方法 |
CN108596039A (zh) * | 2018-03-29 | 2018-09-28 | 南京邮电大学 | 一种基于3d卷积神经网络的双模态情感识别方法及系统 |
CN109117750A (zh) * | 2018-07-24 | 2019-01-01 | 深圳先进技术研究院 | 一种基于深度学习的情绪识别方法、系统及电子设备 |
WO2020021651A1 (ja) * | 2018-07-25 | 2020-01-30 | マクセル株式会社 | 自動映像演出装置、自動映像演出方法、及び、それに用いる映像記録媒体 |
CN109886190A (zh) * | 2019-02-20 | 2019-06-14 | 哈尔滨工程大学 | 一种基于深度学习的人脸表情和姿态双模态融合表情识别方法 |
CN111523461A (zh) * | 2020-04-22 | 2020-08-11 | 南京工程学院 | 基于增强cnn和跨层lstm的表情识别系统与方法 |
Non-Patent Citations (4)
Title |
---|
Raffaele Gravina 等.Emotion-relevant Activity Recognition based on Smart Cushion using Multi-sensor Fusion.《ELSEVIER》.2019,第48卷1-10. * |
刘力源 等.基于特征融合的注意力双线性池细粒度表情识别.《计算机工程与应用》.2020,第56卷(第23期),161-166. * |
刘力源 等.基于特征融合的注意力双线性池细粒度表情识别.《鲁东大学学报(自然科学版)》.2020,第36卷(第2期),130-136. * |
文虹茜 等.基于表情及姿态融合的情绪识别.《四川大学学报(自然科学版)》.2021,第58卷(第4期),1-6. * |
Also Published As
Publication number | Publication date |
---|---|
CN114170540A (zh) | 2022-03-11 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Siqueira et al. | Efficient facial feature learning with wide ensemble-based convolutional neural networks | |
Zhou et al. | Global and local-contrast guides content-aware fusion for RGB-D saliency prediction | |
CN105590099B (zh) | 一种基于改进卷积神经网络的多人行为识别方法 | |
CN109558832A (zh) | 一种人体姿态检测方法、装置、设备及存储介质 | |
CN109874053A (zh) | 基于视频内容理解和用户动态兴趣的短视频推荐方法 | |
CN110147699B (zh) | 一种图像识别方法、装置以及相关设备 | |
CN106909938B (zh) | 基于深度学习网络的视角无关性行为识别方法 | |
Areeb et al. | Helping hearing-impaired in emergency situations: A deep learning-based approach | |
CN113673510B (zh) | 一种结合特征点和锚框共同预测和回归的目标检测方法 | |
CN108596256B (zh) | 一种基于rgb-d物体识别分类器构造方法 | |
CN103034851B (zh) | 自学习的基于肤色模型的手部跟踪装置及方法 | |
Ezzouhri et al. | Robust deep learning-based driver distraction detection and classification | |
CN113221663A (zh) | 一种实时手语智能识别方法、装置及系统 | |
Borges et al. | Classifying confusion: autodetection of communicative misunderstandings using facial action units | |
CN111401116B (zh) | 基于增强卷积和空时lstm网络的双模态情感识别方法 | |
Mohamed et al. | Intelligent Hand Gesture Recognition System Empowered With CNN | |
CN114170540B (zh) | 一种融合表情和姿态的个体情绪识别方法 | |
Al-Obodi et al. | A Saudi Sign Language recognition system based on convolutional neural networks | |
Abbass et al. | Violence detection enhancement by involving convolutional block attention modules into various deep learning architectures: comprehensive case study for ubi-fights dataset | |
Zamora-Mora et al. | Real-time hand detection using convolutional neural networks for costa rican sign language recognition | |
Saleh et al. | D-talk: sign language recognition system for people with disability using machine learning and image processing | |
Hou | Deep Learning-Based Human Emotion Detection Framework Using Facial Expressions | |
CN116152747A (zh) | 一种基于外观辨识和动作建模的人类行为意图识别方法 | |
CN113887373B (zh) | 基于城市智慧体育的并行融合网络的姿态识别方法和系统 | |
Ramanathan et al. | Combining pose-invariant kinematic features and object context features for rgb-d action recognition |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |