CN112766173B

CN112766173B - 一种基于ai深度学习的多模态情感分析方法及其系统

Info

Publication number: CN112766173B
Application number: CN202110083560.8A
Authority: CN
Inventors: 刘德建; 范剑敏; 吴林旭; 林剑锋; 林琛
Original assignee: Fujian Tianquan Educational Technology Ltd
Current assignee: Fujian Tianquan Educational Technology Ltd
Priority date: 2021-01-21
Filing date: 2021-01-21
Publication date: 2023-08-04
Anticipated expiration: 2041-01-21
Also published as: CN112766173A

Abstract

本发明提供了一种基于AI深度学习的多模态情感分析方法，所述方法为：步骤S1、对不同类型的用户进行情感模型的建立；步骤S2、通过相机/摄像头捕捉学生上课反应以及手势动作，学生带上传感器，通过传感器采集生理数据；步骤S3、将获取的图片数据和生理数据输入到计算机，通过多模态情感分析学生的情感变化，来得到学生情感变化要表达的意图，来确定学生注意力是否转移；步骤S4、收到反馈报告，得出学生学习兴趣的情况；本发明能根据学生兴趣情况对教学方案做出调整，个性化作业布置和辅导，满足学生的需求。

Description

一种基于AI深度学习的多模态情感分析方法及其系统

技术领域

本发明涉及计算机通讯技术领域，特别是一种基于AI深度学习的多模态情感分析方法及其系统。

背景技术

从心理学的角度看，兴趣是人对客观事物的一种积极的认识倾向，是一种复杂的个性品质，它推动人去探求新的知识，发展新的能力。在学生学习过程中，兴趣是十分重要的。

微表情反映了人试图压抑与隐藏的真实情感，是一种有效的非言语线索。在临床领域，临床心理学家或许可以仔细观察患者，发现其微表情，了解患者对特定事或人的真正态度和想法，从而对症治疗，缩短治疗时间；在司法领域，法官或许可以藉由人脸上的微表情，判断人是否在撒谎：在安全领域，安全人员或许可以藉由微表情判断对方是否有攻击的意图，从而防患于未然。

现今，人脸识别在个人使用、商业和政府应用中都具有巨大潜力。这项技术还在不断进步和发展中，其应用越来越普及。现有的人物情感分析采用：1、面部图像识别技术/人脸识别技术；2、美国麻省理工学院计算机科学与人工智能实验室打造了用无线信号监测情绪的EQ-Radio；3、SoftBank Robotics NAO类人机器人；现有技术的缺点：在情感识别中，人的情感在表达时由生理、心理、表情和音调等多个模态信息共同组成，使用单模态进行情感识别时，由于情感表示信息不足容易导致一些情绪的识别率较差等。

发明内容

为克服上述问题，本发明的目的是提供一种基于AI深度学习的多模态情感分析方法，通过语音情感、视觉情感、肢体情感、生理指标情感进行情感分析，能更加准确地获得学生的学习兴趣。

本发明采用以下方案实现：一种基于AI深度学习的多模态情感分析方法，所述方法包括如下步骤：

步骤S1、对不同类型的用户进行情感模型的建立；

步骤S2、通过相机/摄像头捕捉学生上课反应以及手势动作，学生带上传感器，通过传感器采集生理数据；

步骤S3、将获取的图片数据和生理数据输入到计算机，通过多模态情感分析学生的情感变化，来得到学生情感变化要表达的意图，来确定学生注意力是否转移；

步骤S4、收到反馈报告，得出学生学习兴趣的情况。

进一步的，所述步骤S1进一步具体为：对不同类型的用户进行情感模型的建立，该不同类型的用户包括：用户操作方式、表情特点、态度喜好、认知风格、或者用户知识背景；通过收集人的生理特征和行为特征，以数学形式对情感进行定义，建立情感的数学分析模型，实现情感的合并运算和合成运算，根据情感的不同变化特征对情感进行分类，形成不同的情感模型，情感模型包括语音情感、视觉情感、肢体情感、生理指标情感。

进一步的，所述步骤S2进一步具体为：通过相机/摄像头捕捉学生上课反应以及手势动作，手势动作识别包括三个部分和三个过程；三个部分分别是：采集部分、分类部分和识别部分；三个过程分别是：分割过程、跟踪过程和识别过程；采集部分就是用相机/摄像头捕捉学生上课反应；分类部分：即在多目标的手势识别中，摄像头分布在用户前方；在单目标的情况下，摄像头所在的平面应该和用户的手部运动所在的平面水平；识别部分包括了语法对应单位和相应的跟踪机制，通过分类得到的手部形状来一一对应确定的语义和控制命令；分割过程包括了对得到的实时视频图像进行逐帧的手部分割，首先得到需要关注的区域，其次在对得到的区域进行细致分割，直到得到所需要的手指和手掌的形状；跟踪过程包括对手部的不断定位和跟踪，并估计下一帧手的位置；识别过程通过对之前的识别部分确定手势的意义，并做出相应的反应；将手势动作的识别得到的特征形成肢体情感。

进一步的，所述通过传感器采集生理数据即通过传感器采集人的生理信号，生理信号包括脑电信号、眼动信号、肌电信号、皮肤电信号、心电信号和呼吸信号,并且在采集之后进一步对信号进行预处理,然后分析哪种生理信号模式和特定情感状态最密切，最终识别出包含在信号中的情感；传感器包括了在头皮处将人的大脑产生的微弱的生物电信号收集、放大并记录的脑电帽/感应头环；通过电容灯光射向皮肤，透过皮肤组织反射回的光被光敏传感器接受并转换成电信号，再经过电信号转换成数字信号，再根据血液的吸光率得出心率的光学心率传感器；当人的机体受到外界刺激或者情绪状态发生变化时，人的神经系统的活动会引起皮肤内血管的舒张和收缩以及汗腺分泌变化，从而导致电阻发生改变的皮电反应传感器；通过多通道传感器获取到交互者当前情感状态下不同模态的情感信号，进行数据融合与决策，来判别出对应的情感类别属性。

进一步的，所述通过多模态情感分析学生的情感变化，其中多模态情感中的语音情感由计算机自动识别输入语言的情感状态，由语音信号预处理+声学情感特征提取组成；由于不同的语言声调表情的信号在其时间构造、振幅构造、基频构造和共振峰构造特征方面也有着不同的构造特点和分布规律；则要把各种具体模式的语言声调表情在时间构造、振幅构造、基频构造和共振峰构造方面的特点和分布规律进行测算和分析，并以此为基础或者模板，能识别出所有语言声调中所隐含的情感内容；

所述语音信号预处理，需要实现语音信号的采集，采用麦克风进行语音采集，预处理即包括预滤波、采样和量化、分帧、加窗、预加重、端点检测；

所述声学情感特征提取，分为语言学和非语言学特征，基于语言学的情感特征包含于语义信息中，语义信息为词汇、语法、语境和句法，非语言学特征就是基于声学的情感特征，其中声学情感特征提取有基频、共振峰、Mel频率倒数系数、非个性化特征、特征统计的方式。

进一步的，所述通过多模态情感分析学生的情感变化，其中多模态情感中的视觉情感是利用计算机对人脸的表情信息进行特征提取分析，按照人的认知和思维方式加以归类和理解，对人脸信息中分析理解人的情绪和情感，也就是人脸表情识别系统框架，该人脸表情识别系统框架分为了人脸检测定位获取、人脸表情特征提取、人脸表情特征分类；

所述人脸检测定位获取有三种，即基于人脸几何特征的方法、基于人脸肤色模型的方法和基于人脸统计理论的方法；其中基于人脸几何特征的方法又包括三种，一是基于先验知识的方法，该方法利用人类的灰度差异和对称性来制定相应准则检测人脸是否存在；二是基于特征不变的方法，该方法主要是检测眼睛、鼻子、嘴巴不变的特定特征来判断人脸的存在；三是基于模板的方法，该方法给定一个人脸模板，并确定其模板的值，通过对照的方法，如果模板匹配则检测出人脸，否则检测错误；基于人脸肤色模型的方法，一般通过建立相应的模型来描述，检测时首先根据被测图像像素与肤色模型的相似程度，结合空间相关性将人脸区域从背景中分割出来；然后对分割出的区域进行几何特征分析，确定与人脸特征的相关值，从而排除非人脸的似肤色区域，达到检测人脸的目的；基于人脸统计理论的方法，从整个人脸的角度出发，利用统计的原理，从众多图像中提出人脸共有的一些规律来进行人脸检测；因人脸图像的复杂性，描述人脸特征具有一定困难，主要的方法有子空间、支持向量机、隐马尔可夫模型、神经网络和迭代算法Adaboost；

所述人脸表情特征提取核心目标是提取人脸图像中可分性好的表情信息，同时达到数据降维的目的；该人脸表情特征包括原始特征、形变特征和运动特征。

所述人脸表情特征分类核心目标是对得到的表情特征向量进行分类，得到表情所属的类别，如AU组合或基本表情类别，包括表情识别和表情概述。主要的分类表情特征方法有：线性分类器、神经网络分类器、支持向量机、隐马尔可夫模型等分类识别方法。线性分类器：假设不同类别的模式空间线性可分，引起可分的主要原因是不同表情之间的差异。神经网络分类器：人工神经网络(Artificial Neural Network,ANN)是一种模拟人脑神经元细胞的网络结构，它是由大量简单的基本元件—神经元，相互连接成的自适应非线性动态系统。将人脸特征的坐标位置和其相应的灰度值作为神经网络的输入，ANN可以提供很难想象的复杂的类间分界面。神经网络分类器主要有:多层感知器、BP网、RBF网，缺点：需要大量的训练样本和训练时间，不能满足实时处理要求。支持向量机(SVM)分类算法：泛化能力很强、解决小样本、非线性及高维模式识别问题方面表、新的研究热点。基本思想：对于非线性可分样本，首先通过非线性变换将输入空间变换到一个高维空间，然后在这个新空间中求取最优线性分界面。这种非线性变换通过定义适当的内积函数实现，常用的三种内积函数为:多项式内积函数、径向基内积函数、Sigmoid内积函数。隐马尔可夫模型(Hidden MarkovModels,HMM)：特点：统计模型、健壮的数学结构，适用于动态过程时间序列建模，具有强大的模式分类能力，理论上可处理任意长度的时序，应用范围非常广泛。优点：运用HMM方法能够比较精确的描绘表情的变化本质和动态性能。

本发明提供了一种基于AI深度学习的多模态情感分析系统，所述系统包括模型建立模块、数据采集模块、多模态情感分析模块、以及兴趣反馈模块；

所述模型建立模块，用于对不同类型的用户进行情感模型的建立；

所述数据采集模块，通过相机/摄像头捕捉学生上课反应以及手势动作，学生带上传感器，通过传感器采集生理数据；

所述多模态情感分析模块，将获取的图片数据和生理数据输入到计算机，通过多模态情感分析学生的情感变化，来得到学生情感变化要表达的意图，来确定学生注意力是否转移；

所述兴趣反馈模块，收到反馈报告，得出学生学习兴趣的情况。

进一步的，所述模型建立模块的实现方式进一步具体为：对不同类型的用户进行情感模型的建立，该不同类型的用户包括：用户操作方式、表情特点、态度喜好、认知风格、或者用户知识背景；通过收集人的生理特征和行为特征，以数学形式对情感进行定义，建立情感的数学分析模型，实现情感的合并运算和合成运算，根据情感的不同变化特征对情感进行分类，形成不同的情感模型，情感模型包括语音情感、视觉情感、肢体情感、生理指标情感。

进一步的，所述数据采集模块的实现方式进一步具体为：通过相机/摄像头捕捉学生上课反应以及手势动作，手势动作识别包括三个部分和三个过程；三个部分分别是：采集部分、分类部分和识别部分；三个过程分别是：分割过程、跟踪过程和识别过程；采集部分就是用相机/摄像头捕捉学生上课反应；分类部分：即在多目标的手势识别中，摄像头分布在用户前方；在单目标的情况下，摄像头所在的平面应该和用户的手部运动所在的平面水平；识别部分包括了语法对应单位和相应的跟踪机制，通过分类得到的手部形状来一一对应确定的语义和控制命令；分割过程包括了对得到的实时视频图像进行逐帧的手部分割，首先得到需要关注的区域，其次在对得到的区域进行细致分割，直到得到所需要的手指和手掌的形状；跟踪过程包括对手部的不断定位和跟踪，并估计下一帧手的位置；识别过程通过对之前的识别部分确定手势的意义，并做出相应的反应；将手势动作的识别得到的特征形成肢体情感。

进一步的，所述通过多模态情感分析学生的情感变化，其中多模态情感中的视觉情感是利用计算机对人脸的表情信息进行特征提取分析，按照人的认知和思维方式加以归类和理解，对人脸信息中分析理解人的情绪和情感，也就是人脸表情识别系统框架，该人脸表情识别系统框架分为了人脸检测定位获取、人脸表情特征提取、人脸表情特征分类。

所述人脸表情特征分类核心目标是对得到的表情特征向量进行分类，得到表情所属的类别，如AU组合或基本表情类别，包括表情识别和表情概述。主要的分类表情特征方法有：线性分类器、神经网络分类器、支持向量机、隐马尔可夫模型等分类识别方法。线性分类器：假设不同类别的模式空间线性可分，引起可分的主要原因是不同表情之间的差异。神经网络分类器：人工神经网络(Artificial Neural Network,ANN)是一种模拟人脑神经元细胞的网络结构，它是由大量简单的基本元件—神经元，相互连接成的自适应非线性动态系统。将人脸特征的坐标位置和其相应的灰度值作为神经网络的输入，ANN可以提供很难想象的复杂的类间分界面。

神经网络分类器主要有:多层感知器、BP网、RBF网，缺点：需要大量的训练样本和训练时间，不能满足实时处理要求。支持向量机(SVM)分类算法：泛化能力很强、解决小样本、非线性及高维模式识别问题方面表、新的研究热点。基本思想：对于非线性可分样本，首先通过非线性变换将输入空间变换到一个高维空间，然后在这个新空间中求取最优线性分界面。这种非线性变换通过定义适当的内积函数实现，常用的三种内积函数为:多项式内积函数、径向基内积函数、Sigmoid内积函数。隐马尔可夫模型(Hidden Markov Models,HMM)：特点：统计模型、健壮的数学结构，适用于动态过程时间序列建模，具有强大的模式分类能力，理论上可处理任意长度的时序，应用范围非常广泛。优点：运用HMM方法能够比较精确的描绘表情的变化本质和动态性能。

本发明的有益效果在于：本发明运用多模态情感分析加上传感器实时监控，也就是通过对不同类型的用户建模(如操作方式、表情特点、态度喜好、认知风格、知识背景等)，以识别用户的情感状态，利用有效的线索选择合适的用户模型，并以适合当前用户的方式呈现信息。在对当前的操作做出及时反馈的同时，还要对情感变化背后的意图形成新的预期，并激活情感模型相应的数据库，及时主动地提供用户需要的新信息，从而确定学生注意力是否转移，得出学生学习兴趣何时最高、何时最低，能更加准确地获得学生的学习兴趣。且将学生学习效果数据进行分类，在此基础上制定相关的教学内容。同时根据学生个人能力和教学要求，实时推荐附加内容，调整教学速度，帮助老师提供高度个性化的内容来激发学生的学习兴趣。

附图说明

图1是本发明的方法流程示意图。

图2是本发明的一实施例的方法流程示意图。

图3是本发明的语言信号进行情感分析的流程示意图。

图4是本发明的人脸表情识别的具体框架图。

图5是本发明的手势识别的基本框架。

图6是本发明的多模态情感信息融合算法流程示意图。

图7是本发明的系统原理框图。

具体实施方式

下面结合附图对本发明做进一步说明。

请参阅图1所示，本发明的一种基于AI深度学习的多模态情感分析方法，所述方法包括如下步骤：

步骤S1、对不同类型的用户进行情感模型的建立；

步骤S4、收到反馈报告，得出学生学习兴趣的情况。

下面结合一具体实施例对本发明做进一步说明：

请参阅图2所示，一种基于AI深度学习的多模态情感分析方法，其实现包括如下步骤：

A)通过对不同类型的用户建模(如用户操作方式、表情特点、态度喜好、认知风格、知识背景等)；

B)相机/摄像头捕捉学生上课反应以及手势动作，学生带上传感器，采集数据；

C)获取的数据输入数计算机，通过多模态情感计算算法自动计算分析对情感变化背后的意图形成新的预期，并激活情感模型相应的数据库，来确定学生注意力是否转移；

D)老师将会收到一份反馈报告，得出学生学习兴趣何时最高、何时最低；

E)老师能够对自己的教学方案做出调整，个性化作业布置，精准辅导，满足更多学生的需求。

本发明是这样实现的，基于AI深度学习的多模态情感计算，包括：

首先是通过对不同类型的用户建模(如用户操作方式、表情特点、态度喜好、认知风格、知识背景等)，也就是情感模型的建立，它是基于维度论的方法，通过收集人的生理特征和行为特征(如面部表情、语音等)，以数学形式对情感进行精确定义，建立情感的数学分析模型，实现情感的合并运算和合成运算，根据情感的不同变化特征对情感进行分类。情感模型包含了语音情感、视觉情感(人脸表情识别系统)、肢体情感(手势识别)、生理指标(生理模式识别)。

1、语音情感是指由计算机自动识别输入语言的情感状态，由语音信号预处理+声学情感特征提取组成。因为不同的语言声调表情的信号在其时间构造、振幅构造、基频构造和共振峰构造等特征方面也有着不同的构造特点和分布规律。只要把各种具体模式的语言声调表情在时间构造、振幅构造、基频构造和共振峰构造等方面的特点和分布规律进行测算和分析，并以此为基础或者模板，就可以识别出所有语言声调中所隐含的情感内容。

1.1、语音信号预处理，需要实现语音信号的采集，一般用麦克风进行语音采集。主要流程是采样--量化--预加重--加窗--端点检测。

1.2、声学情感特征提取，分为语言学和非语言学特征，基于语言学的情感特征一般包含于语义信息中，如词汇、语法、语境和句法等，非语言学特征就是基于声学的情感特征，其中声学情感特征提取有基频、共振峰、Mel频率倒数系数、非个性化特征、特征统计等方法；主要流程如图3所示。

世界上有一些公开常用的语音情感数据库，比如CASIA汉语情感语料库、Belfast英语情感数据库、ACCorpus系列汉语情感数据库等。

2、视觉情感是是利用计算机对人脸的表情信息进行特征提取分析，按照人的认知和思维方式加以归类和理解，结合现有情感信息方面的先验知识对人脸信息中分析理解人的情绪和情感，也就是人脸表情识别系统框架，它分为了人脸检测定位获取、人脸表情特征提取、人脸表情特征分类，具体框架图如图4所示；

2.1、人脸检测方法有三种，即基于人脸几何特征的方法、基于人脸肤色模型的方法和基于人脸统计理论的方法。基于人脸几何特征的方法，一是基于先验知识的方法，该方法利用人类的灰度差异和对称性来制定相应准则检测人脸是否存在；二是基于特征不变的方法，该方法主要是检测如眼睛、鼻子、嘴巴等不变的特定特征来判断人脸的存在。三是基于模板的方法，该方法给定一个人脸模板，并确定其模板的值，通过对照的方法，如果模板匹配则检测出人脸，否则检测错误。基于人脸肤色模型的方法，一般通过建立相应的模型来描述，检测时首先根据被测图像像素与肤色模型的相似程度，结合空间相关性将可能的人脸区域从背景中分割出来；然后对分割出的区域进行几何特征分析，确定与人脸特征的相关值，从而排除非人脸的似肤色区域，达到检测人脸的目的。基于人脸统计理论的方法，从整个人脸的角度出发，利用统计的原理，从众多图像中提出人脸共有的一些规律来进行人脸检测。因人脸图像的复杂性，描述人脸特征具有一定困难，主要的方法有子空间、支持向量机、隐马尔可夫模型、神经网络和Adaboost。

2.2、人脸表情特征提取核心目标是提取人脸图像中可分性好的表情信息，同时达到数据降维的目的。包括原始特征、形变特征和运动特征。主要的提取表情特征方法有：基于形变的表情特征提取和基于运动的表情特征提取。

一是基于形变的表情特征提取，该方法主要包括基于子空间、几何特征、模型、Gabor小波变换等方法。A、基于子空间的方法包括主成分分析PCA、线性判别分析LDA。其特点是用一个正交维数空间来说明数据变化的主要方向。通过减少在表情识别中处理数据的时间进而提高表情识别的速率甚至识别率。B、基于几何特征的方法主要考虑了人脸表情跟人脸运动有较大的关联，通过对显著特征包括眼睛、眉毛、嘴巴的位置变化进行定位测量提取表情特征。在本身质量较差或复杂环境中，以及不能精确定位到表情信息区域时，特征提取效果不佳。C、基于模型的方法可以在一定条件下提取人脸几何形变特征和纹理特征信息，但需要人工干预，处理信息量较大，计算复杂。D、基于Gabor小波变换的方法在模式识别领域有着广泛应用，它通过一组具有不同时频特性的滤波器，可多方向、多尺度地提取原始图像在每个通道下的局部特征，具有良好的空间位置以及方向选择性。

二是基于运动的表情特征提取，该方法将表情看成一个运动场，通过面部运动的变化信息来分析、识别面部表情，主要核心是将运动变化作为识别特征。目前，主要有光流法、特征点跟踪法。A、光流是一种表达方式，通过点的速度在视觉传感器的成像来表现，其针对的是空间物体表面的某一点。光流法就是通过将器官变化以及变化趋势用表情特征点的光流表示出来，以此表示表情的变化。B、特征点跟踪法是将人脸中各个部分的特征点随人脸变化而变化的位置改变作为一个要提取的特征向量。在提取时，主要集中在表情变化幅度较大的区域，其他部分忽略，这样减少计算量，解决了在表情识别过程中处理数据量大的问题。

2.3、人脸表情特征分类核心目标是对得到的表情特征向量进行分类，得到表情所属的类别，如人脸运动单元AU组合或基本表情类别，包括表情识别和表情概述。主要的分类表情特征方法有：线性分类器、神经网络分类器、支持向量机、隐马尔可夫模型等分类识别方法。

线性分类器：假设不同类别的模式空间线性可分，引起可分的主要原因是不同表情之间的差异。

神经网络分类器：人工神经网络(Artificial Neural Network,ANN)是一种模拟人脑神经元细胞的网络结构，它是由大量简单的基本元件—神经元，相互连接成的自适应非线性动态系统。将人脸特征的坐标位置和其相应的灰度值作为神经网络的输入，ANN可以提供很难想象的复杂的类间分界面。

神经网络分类器主要有:多层感知器、BP网、RBF网

缺点：需要大量的训练样本和训练时间，不能满足实时处理要求。

支持向量机(SVM)分类算法：泛化能力很强、解决小样本、非线性及高维模式识别问题方面表、新的研究热点。基本思想：对于非线性可分样本，首先通过非线性变换将输入空间变换到一个高维空间，然后在这个新空间中求取最优线性分界面。这种非线性变换通过定义适当的内积函数实现，常用的三种内积函数为:多项式内积函数、径向基内积函数、Sigmoid内积函数。

隐马尔可夫模型(Hidden Markov Models,HMM)：特点：统计模型、健壮的数学结构，适用于动态过程时间序列建模，具有强大的模式分类能力，理论上可处理任意长度的时序，应用范围非常广泛。

优点：运用HMM方法能够比较精确的描绘表情的变化本质和动态性能。

世界上有一些公开的表情数据库，可以拿来直接使用，比如：JAFFE人脸表情数据库、由吴丹等建立的大规模中国人脸表情视频数据岸、The Extended Cohn-KanadeDataset(CK+)、Bimodal Face and Body GestureDatabase(FABO)、USTC-NVIE Database[(natural visible and infrared facial expression database)]

3、肢体语言(手势识别)，一个完整的手势识别系统包括三个部分和三个过程。三个部分分别是：采集部分、分类部分和识别部分；三个过程分别是：分割过程、跟踪过程和识别过程。采集部分就是用相机/摄像头捕捉学生上课反应，在多目的手势识别中，摄像头以一定的关系分布在用户前方。在单目的情况下，摄像头所在的平面应该和用户的手部运动所在的平面基本水平。识别部分包括了语法对应单位和相应的跟踪机制，通过分类得到的手部形状通过这里一一对应确定的语义和控制命令。分割过程包括了对得到的实时视频图像进行逐帧的手部分割，首先得到需要关注的区域，其次在对得到的区域进行细致分割，直到得到所需要的手指和手掌的形状。跟踪过程包括对手部的不断定位和跟踪，并估计下一帧手的位置。识别过程通过对之前的知识确定手势的意义，并做出相应的反应。手势识别的基本框架如图5所示；

4、生理模式识别，也就是通过传感器采集人的生理信号，主要包括有脑电信号、眼动信号、肌电信号、皮肤电信号、心电信号和呼吸信号类等,并且在采集之后进一步对信号进行预处理,然后分析哪种生理信号模式和特定情感状态最密切，最终识别出包含在信号中最有可能的情感。传感器包括了在头皮处将人的大脑产生的微弱的生物电信号收集、放大并记录的脑电帽/感应头环；通过电容灯光射向皮肤，透过皮肤组织反射回的光被光敏传感器接受并转换成电信号，再经过电信号转换成数字信号，再根据血液的吸光率算出心率的光学心率传感器；当机体受到外界刺激或者情绪状态发生变化时，其神经系统的活动会引起皮肤内血管的舒张和收缩以及汗腺分泌等变化，从而导致电阻发生改变的皮电反应传感器等等。

通过多通道传感器获取到交互者当前情感状态下不同模态的情感信号，接下来就是进行数据融合与决策，按一定规则判别出对应的情感类别属性。多模态情感信息融合分为特征级融合与决策融合两种方式。

如图6所示，特征级融合包括两部分：先将每个模态下的情感特征数据分别提取处理，然后将全部模态的特征数据级联为一个特征向量用于情感识别，对于全部模态的情感特征数据仅设计一个情感分类器，该分类其的输出即待测试样本的情感类型预测结果，主要方法有特征串联、特征并联和基于神经网络的方法等。特征串联即每一个传感器接收前一级传感器传来的结果，然后将处理后的信息往后传，直至结果达到某个给定的可信度或最后一级融合。特征并联是将所有传感器把各自的信息数据传输给融合中心，融合中心按一定规则将各传感器信息进行融合，做出最终决策。神经网络可根据当前系统所接收的样本相似性，确定分类标准。

决策级融合是在融合之前，每个局部传感器相应的处理部件已独立完成了决策或分类任务，其实质是按一定的准则和每个传感器的可信度进行协调，做出全局最优决策，决策层融合所采用的方法有贝叶斯推理、Dempster-Shafer证据理论和模糊推理等。贝叶斯推理是融合静态环境中多传感器底层数据的一种常用方法，其信息描述为概率分布；Dempster-Shafer证据理论是基于证据理论的一种推理方法，其中证据分为支持证据、拒绝证据和中性证据；模糊推理是综合利用多种传感器信息来获得有关目标的知识，可以避免单一传感器的局限性，减少不确定性误差的影响。

最终在经过多模态情感信息融合分析和计算，生成一份反馈报告给予老师，该报告里面包含了结论--基于面部分析和根据采集来的人体生理信号分析确定学生注意力是否转移、数据--人脸识别的表情数据和人体生理信号数据，得出学生学习兴趣何时最高、何时最低，然后老师能够对自己的教学方案做出调整，满足更多学生的需求。

如图7所示，本发明提供了一种基于AI深度学习的多模态情感分析系统，所述系统包括模型建立模块、数据采集模块、多模态情感分析模块、以及兴趣反馈模块；

其中，所述模型建立模块的实现方式进一步具体为：对不同类型的用户进行情感模型的建立，该不同类型的用户包括：用户操作方式、表情特点、态度喜好、认知风格、或者用户知识背景；通过收集人的生理特征和行为特征，以数学形式对情感进行定义，建立情感的数学分析模型，实现情感的合并运算和合成运算，根据情感的不同变化特征对情感进行分类，形成不同的情感模型，情感模型包括语音情感、视觉情感、肢体情感、生理指标情感。

所述数据采集模块的实现方式进一步具体为：通过相机/摄像头捕捉学生上课反应以及手势动作，手势动作识别包括三个部分和三个过程；三个部分分别是：采集部分、分类部分和识别部分；三个过程分别是：分割过程、跟踪过程和识别过程；采集部分就是用相机/摄像头捕捉学生上课反应；分类部分：即在多目标的手势识别中，摄像头分布在用户前方；在单目标的情况下，摄像头所在的平面应该和用户的手部运动所在的平面水平；识别部分包括了语法对应单位和相应的跟踪机制，通过分类得到的手部形状来一一对应确定的语义和控制命令；分割过程包括了对得到的实时视频图像进行逐帧的手部分割，首先得到需要关注的区域，其次在对得到的区域进行细致分割，直到得到所需要的手指和手掌的形状；跟踪过程包括对手部的不断定位和跟踪，并估计下一帧手的位置；识别过程通过对之前的识别部分确定手势的意义，并做出相应的反应；将手势动作的识别得到的特征形成肢体情感。

所述通过传感器采集生理数据即通过传感器采集人的生理信号，生理信号包括脑电信号、眼动信号、肌电信号、皮肤电信号、心电信号和呼吸信号,并且在采集之后进一步对信号进行预处理,然后分析哪种生理信号模式和特定情感状态最密切，最终识别出包含在信号中的情感；传感器包括了在头皮处将人的大脑产生的微弱的生物电信号收集、放大并记录的脑电帽/感应头环；通过电容灯光射向皮肤，透过皮肤组织反射回的光被光敏传感器接受并转换成电信号，再经过电信号转换成数字信号，再根据血液的吸光率得出心率的光学心率传感器；当人的机体受到外界刺激或者情绪状态发生变化时，人的神经系统的活动会引起皮肤内血管的舒张和收缩以及汗腺分泌变化，从而导致电阻发生改变的皮电反应传感器；通过多通道传感器获取到交互者当前情感状态下不同模态的情感信号，进行数据融合与决策，来判别出对应的情感类别属性。多模态情感信息融合分为特征级融合与决策级融合两种方式。

特征级融合包括两部分：先将每个模态下的情感特征数据分别提取处理，然后将全部模态的特征数据级联为一个特征向量用于情感识别，对于全部模态的情感特征数据仅设计一个情感分类器，该分类其的输出即待测试样本的情感类型预测结果，主要方法有特征串联、特征并联和基于神经网络的方法等。特征串联即每一个传感器接收前一级传感器传来的结果，然后将处理后的信息往后传，直至结果达到某个给定的可信度或最后一级融合。特征并联是将所有传感器把各自的信息数据传输给融合中心，融合中心按一定规则将各传感器信息进行融合，做出最终决策。神经网络可根据当前系统所接收的样本相似性，确定分类标准。

所述通过多模态情感分析学生的情感变化，其中多模态情感中的语音情感由计算机自动识别输入语言的情感状态，由语音信号预处理+声学情感特征提取组成；由于不同的语言声调表情的信号在其时间构造、振幅构造、基频构造和共振峰构造特征方面也有着不同的构造特点和分布规律；则要把各种具体模式的语言声调表情在时间构造、振幅构造、基频构造和共振峰构造方面的特点和分布规律进行测算和分析，并以此为基础或者模板，能识别出所有语言声调中所隐含的情感内容；

所述通过多模态情感分析学生的情感变化，其中多模态情感中的视觉情感是利用计算机对人脸的表情信息进行特征提取分析，按照人的认知和思维方式加以归类和理解，对人脸信息中分析理解人的情绪和情感，也就是人脸表情识别系统框架，该人脸表情识别系统框架分为了人脸检测定位获取、人脸表情特征提取、人脸表情特征分类。

所述人脸表情特征提取核心目标是提取人脸图像中可分性好的表情信息，同时达到数据降维的目的；该人脸表情特征包括原始特征、形变特征和运动特征。主要的提取表情特征方法有：基于形变的表情特征提取和基于运动的表情特征提取。

2.3、人脸表情特征分类核心目标是对得到的表情特征向量进行分类，得到表情所属的类别，如AU组合或基本表情类别，包括表情识别和表情概述。主要的分类表情特征方法有：线性分类器、神经网络分类器、支持向量机、隐马尔可夫模型等分类识别方法。

神经网络分类器主要有:多层感知器、BP网、RBF网

本发明的应用场景如下：

如：以前念书上学的时候，大家是否有过“假装听懂”的课堂经历？老师问：是否都懂了，明明没听懂知识点，却在大家异口同声的“听明白了”的潮流中，怯怯地说自己也懂了。教师不知道学生真懂还是假懂，那些课业有困难的学生很容易遭到忽视。孩子们的眼睛是专注于老师的吗？他们是在思考还是发呆？他们是微笑还是皱着眉头？或者他们只是觉得困惑？还是无聊？

这就需要机器学习定制学生课堂学习内容。首先要通过对不同类型的用户建模(如操作方式、表情特点、态度喜好、认知风格、知识背景等)，也就是情感模型的建立。然后布置相机/摄像头设备，学生带上传感器，再由老师开始上课。运用人脸表情识别系统，就是用相机/摄像头捕捉学生上课反应及手势动作，用麦克风采集学生语音信息，基于人脸表情加上语音识别加上肢体识别分析，然后学生腕部手表设备通过传感器采集人的生理信号，主要包括有脑电信号、眼动信号、肌电信号、皮肤电信号、心电信号和呼吸信号类等,并且在采集之后进一步对信号进行预处理,然后分析哪种生理信号模式和特定情感状态最密切，最终识别出包含在信号中最有可能的情感。最终运用计算机里面的多模态情感计算算法自动分析情感，来确定学生注意力是否转移，可以得知学生的课程兴奋程度，何时最高、何时最低，并生成一份报告。测量之后，老师将会收到一份反馈报告，基于多模态情感计算，确定学生注意力是否转移，得出学生学习兴趣何时最高、何时最低。这样老师能够将学生学习效果数据进行分类，在此基础上制定相关的教学内容。同时根据学生个人能力和教学要求，实时推荐附加内容，调整教学速度对自己的教学方案做出调整，满足更多学生的需求。

以上所述仅为本发明的较佳实施例，凡依本发明申请专利范围所做的均等变化与修饰，皆应属本发明的涵盖范围。

Claims

1.一种基于AI深度学习的多模态情感分析方法，其特征在于：所述方法包括如下步骤：

步骤S1、对不同类型的用户进行情感模型的建立；

步骤S4、收到反馈报告，得出学生学习兴趣的情况；

所述步骤S1具体为：对不同类型的用户进行情感模型的建立，所述不同类型包括：用户操作方式、表情特点、态度喜好、认知风格或者用户知识背景；通过收集人的生理特征和行为特征，以数学形式对情感进行定义，建立情感的数学分析模型，实现情感的合并运算和合成运算，根据情感的不同变化特征对情感进行分类，形成不同的情感模型，情感模型包括语音情感、视觉情感、肢体情感、生理指标情感；

所述通过传感器采集生理数据即通过传感器采集人的生理信号，最终识别出包含在信号中的情感；传感器包括了在头皮处将人的大脑产生的微弱的生物电信号收集、放大并记录的脑电帽或感应头环；通过电容灯光射向皮肤，透过皮肤组织反射回的光被光敏传感器接受并转换成电信号，再经过电信号转换成数字信号，再根据血液的吸光率得出心率的光学心率传感器；当人的机体受到外界刺激或者情绪状态发生变化时，人的神经系统的活动会引起皮肤内血管的舒张和收缩以及汗腺分泌变化，从而导致电阻发生改变的皮电反应传感器；通过多通道传感器获取到交互者当前情感状态下不同模态的情感信号，进行数据融合与决策，来判别出对应的情感类别属性；

所述通过多模态情感分析学生的情感变化，其中多模态情感中的语音情感由计算机自动识别输入语言的情感状态，由语音信号预处理和声学情感特征提取组成；要把各种具体模式的语言声调表情在时间构造、振幅构造、基频构造和共振峰构造方面的特点和分布规律进行测算和分析，并以此为基础或者模板，能识别出所有语言声调中所隐含的情感内容；

所述声学情感特征提取，分为语言学和非语言学特征，基于语言学的情感特征包含于语义信息中，语义信息为词汇、语法、语境和句法，非语言学特征就是基于声学的情感特征，其中声学情感特征提取有基频、共振峰、Mel频率倒数系数、非个性化特征、特征统计的方式；

所述通过多模态情感分析学生的情感变化，其中多模态情感中的视觉情感是利用计算机对人脸的表情信息进行特征提取分析，按照人的认知和思维方式加以归类和理解，对人脸信息中分析理解人的情绪和情感，也就是人脸表情识别系统框架，该人脸表情识别系统框架分为人脸检测定位获取、人脸表情特征提取、人脸表情特征分类；

所述人脸检测定位获取有三种，即基于人脸几何特征的方法、基于人脸肤色模型的方法和基于人脸统计理论的方法；其中基于人脸几何特征的方法又包括三种，一是基于先验知识的方法，该方法利用人类的灰度差异和对称性来制定相应准则检测人脸是否存在；二是基于特征不变的方法，该方法是检测眼睛、鼻子、嘴巴不变的特定特征来判断人脸的存在；三是基于模板的方法，该方法给定一个人脸模板，并确定其模板的值，通过对照的方法，如果模板匹配则检测出人脸，否则检测错误；基于人脸肤色模型的方法，通过建立相应的模型来描述，检测时首先根据被测图像像素与肤色模型的相似程度，结合空间相关性将人脸区域从背景中分割出来；然后对分割出的区域进行几何特征分析，确定与人脸特征的相关值，从而排除非人脸的似肤色区域，达到检测人脸的目的；基于人脸统计理论的方法，从整个人脸的角度出发，利用统计的原理，从众多图像中提出人脸共有的特征来进行人脸检测；描述人脸特征方法有子空间、支持向量机、隐马尔可夫模型、神经网络和迭代算法Adaboost；

所述人脸表情特征提取核心目标是提取人脸图像中可分性好的表情信息，同时达到数据降维的目的；

所述人脸表情特征分类核心目标是对得到的表情特征向量进行分类，得到表情所属的类别，该类别包括人脸运动单元AU组合或基本表情类别，基本表情类别包括表情识别和表情概述；分类表人脸表情特征方法有：线性分类器、神经网络分类器、支持向量机、隐马尔可夫模型分类识别方法；

肢体情感，一个完整的手势识别系统包括三个部分和三个过程，三个部分分别是：采集部分、分类部分和识别部分；三个过程分别是：分割过程、跟踪过程和识别过程；采集部分就是用相机/摄像头捕捉学生上课反应，在多目的手势识别中，摄像头以一定的关系分布在用户前方；在单目的情况下，摄像头所在的平面应该和用户的手部运动所在的平面基本水平；识别部分包括了语法对应单位和相应的跟踪机制，通过分类得到的手部形状通过这里一一对应确定的语义和控制命令；分割过程包括了对得到的实时视频图像进行逐帧的手部分割，首先得到需要关注的区域，其次在对得到的区域进行细致分割，直到得到所需要的手指和手掌的形状；跟踪过程包括对手部的不断定位和跟踪，并估计下一帧手的位置；识别过程通过对之前的知识确定手势的意义，并做出相应的反应；

生理指标情感，是通过传感器采集人的生理信号最终识别出包含在信号中的情感，生理信号包括有脑电信号、眼动信号、肌电信号、皮肤电信号、心电信号和呼吸信号类, 并且在采集之后进一步对信号进行预处理, 然后分析哪种生理信号模式和特定情感状态最密切。

2.一种基于AI深度学习的多模态情感分析系统，其特征在于：所述系统包括模型建立模块、数据采集模块、多模态情感分析模块、以及兴趣反馈模块；

所述兴趣反馈模块，收到反馈报告，得出学生学习兴趣的情况；

所述模型建立模块的实现方式具体为：对不同类型的用户进行情感模型的建立，所述不同类型包括：用户操作方式、表情特点、态度喜好、认知风格或者用户知识背景；通过收集人的生理特征和行为特征，以数学形式对情感进行定义，建立情感的数学分析模型，实现情感的合并运算和合成运算，根据情感的不同变化特征对情感进行分类，形成不同的情感模型，情感模型包括语音情感、视觉情感、肢体情感、生理指标情感；