CN112767782A

CN112767782A - 一种用于实时检测教师情绪的智能教鞭系统

Info

Publication number: CN112767782A
Application number: CN202110069926.6A
Authority: CN
Inventors: 马力; 孙乾
Original assignee: Wuhan University of Technology WUT
Current assignee: Wuhan University of Technology WUT
Priority date: 2021-01-19
Filing date: 2021-01-19
Publication date: 2021-05-07
Anticipated expiration: 2041-01-19
Also published as: CN112767782B

Abstract

本发明涉及一种用于实时检测教师情绪的智能教鞭系统，包括：包括传感器组、硬件处理系统和外围提示电路；传感器组用于采集教师的行为动态数据，包括分别与硬件处理系统连接的音频传感器、MEMS传感器和摄像头；硬件处理系统用于将接收的传感器组的数据信号分别通过音频提取处理算法、运动轨迹提取算法、表情识别算法处理，向外围提示电路输出提示指令；硬件处理系统包括音频处理模块、运动轨迹处理模块、表情识别处理模块和控制模块；外围提示电路用于在接收提示指令后发出震动和/或闪烁信号。本发明运用在教学工作中，可很好的实时检测教师情绪，在其情绪可能会对教学产生不好的影响时对其做出提醒。

Description

一种用于实时检测教师情绪的智能教鞭系统

技术领域

本发明涉及教学用品和人工智能技术领域，具体地指一种用于实时检测教师情绪的智能教鞭系统。

背景技术

在教育信息化的潮流中，有一些出现在教学一线的问题逐渐浮出水面。其中较为明显的问题之一就是教师关于多媒体教学设备的使用问题。一套多媒体教学系统难以避免的让教师的活动范围限制在了电脑的周围，这不仅不利于教师利用好多媒体设备，而且对课堂教学质量也产生了一些不好的影响。而另一个问题是教师们的教学质量与他们的情绪是有联系的。2019年华中师范大学的研究团队对教师的情绪对课堂教学效果的影响的研究表明，当教师的情绪表现为积极、稳定时，此时的课堂氛围好，能够实现较好的课堂教学效果；而当教师的情绪维持在消极、悲观时，此时课堂氛围紧张，课堂教学效果较差。

在当前市场上，投影仪幻灯片遥控笔的控制技术已十分成熟，但在对于使用者的动作情绪的获取与处理方面并无涉及，而适当的情绪提示对于教师上课质量的提升有着可观的影响。

发明内容

针对上述现有技术的不足之处，本发明提出一种用于实时检测教师情绪的智能教鞭系统，实时分析教师当前情绪状态，并在其情绪可能会对教学产生不好的影响时对其做出提醒，帮助一线教师们为学生们提供更好的教学质量。

为实现上述目的，本发明所设计的一种用于实时检测教师情绪的智能教鞭系统，其特殊之处在于，包括传感器组、硬件处理系统、外围提示电路、无线模块以及Linux服务器和云端存储；

所述传感器组用于采集教师的行为动态数据，包括分别与硬件处理系统连接的音频传感器、MEMS传感器和摄像头；

所述硬件处理系统用于将接收的传感器组的数据信号分别通过音频提取处理算法、运动轨迹提取算法、情绪识别算法处理，向外围提示电路输出提示指令；所述硬件处理系统包括音频处理模块、运动轨迹处理模块、情绪识别处理模块和控制模块；

所述外围提示电路用于在接收提示指令后发出震动或闪烁信号；

所述的无线模块用于智能教鞭与Linux服务器进行数据传输；

所述的Linux服务器用于协助处理图片信息，准确识别表情信息，存储以及上传数据至云端。

进一步地，所述音频处理模块用于将音频传感器传输的音频信号经过音频提取处理算法输出为音频状态，处理过程包括：

11)读取音频传感器传输信号并转换为电压值存入存储区；

12)对存储区的数据求算数平均同时对算结果做累加平均；

13)将处理后的电压值进行FFT变换；

14)通过声音信号的频率以及幅值大小来判断使用者的情绪：声音频率或幅值大于累加平均值的20％，判断为情绪异常并将频率超过的部分以及幅值超过的部分除以累加平均值得到归一化值后输出。

更进一步地，所述系统还包括用于处理图像数据的DSP模块。

更进一步地，所述运动轨迹处理模块用于将MEMS传感器传输的信号经过运动轨迹提取算法输出为运动状态，处理过程包括：

21)将MEMS传感器输出的三轴角速度数据通过姿态矩阵算出重力加速度；

22)将MEMS传感器输出的三轴加速度数据滤除重力加速度分量后，计算出x，y，z三轴方向上的瞬时速度；

23)根据速度求出MEMS传感器在x，y，z三轴方向的位移；

24)通过连线每个时刻的空间位置坐标点得到MEMS传感器在三维空间的运动轨迹；将实际运动轨迹与预存储的模拟轨迹进行拟合，若拟合度达到预设值则输出拟合值。

更进一步地，所述表情识别处理模块用于将摄像头传输的图像信号经过表情识别算法输出为情绪状态值，处理过程包括：

31)将接收图像信号制作图像金字塔为输入网络准备；

32)将图像金字塔输入P-Net网络，获取含人脸的候选窗口，并通过非极大值抑制算法合并高度重合的候选框，去除冗余框；

33)将P-Net网络输出得到的人脸图像输入R-Net网络对人脸检测框回归校准，通过NMS算法去除冗余框；

34)将R-Net网络输出得到的人脸图像输入O-Net网络，一方面对人脸检测框坐标进行进一步的细化，另一方面输出人脸五个关键点坐标。

35)将人脸五个关键点处图像特征值进行分类并计算与模型中情绪标签进行拟合，将拟合程度加和，获取归一化处理结果。

更进一步地，所述控制模块对音频处理模块、运动轨迹处理模块、表情识别处理模块的输出结果进行分析，输出情绪值O，当情绪值O 超出预设值时向外围提示电路发出控制指令。

更进一步地，所述情绪值O的计算方法为：

O＝0.2*A+0.2*B+0.5*C

其中，A为音频处理模块输出的音频状态值，B为运动轨迹处理模块输出的运动状态值，C为表情识别处理模块输出的情绪状态值。

更进一步地，所述硬件处理系统通过控制器将摄像头采集的图像信号由CPU传输至DSP经过表情识别算法输出为情绪状态值。

更进一步地，所述步骤22)中瞬时速度的计算方法为：

所述步骤23)中位移的计算方法为：

式中，Δt为运动传感器的采样时间间隔，a为运动传感器输出的加速度值，n表示取样编号。

更进一步地，所述摄像头为全局快门摄像头，采用带通滤光片对超出光谱范围的光线进行抑制。

通过本发明所构思的以上技术方案与现有技术相比，能够取得下列有益效果：

1、本发明实时收集教师上课时的行为动态数据进而分析教师当前情绪状态，并在其情绪可能会对教学产生不好的影响时对其做出提醒。

2、本发明在人脸识别方面随着卷积神经网络结构的逐步优化，人脸识别的功耗逐渐降低其准确性获得提升。人脸识别技术功耗的下降使得其应用范围更宽广，其准确性的提升也极大地增强了技术的可用性。

3、本发明在动作采集方面通过卡尔曼滤波器对传感器输出进行滤波减小系统中随机噪声造成的误差，对动作采集算法的梯度下降过程进行简化以降低计算复杂度，使该方案可以在嵌入式平台上运行。

4、本发明具有实时、快速、识别度高、低功耗等特点，运用在教学工作中，能够帮助一线教师们为学生们提供更好的教学质量。

附图说明

图1为本发明的系统架构示意图。

图2为本发明的系统结构框图。

图3为本发明的信号流程框图。

图4为本发明的软件流程图。

图5为本发明中神经网络架构图以及特征图尺寸。

具体实施方式

以下结合附图和具体实施例对本发明作进一步的详细描述。

如图1和图2所示，本发明所提出的一种用于实时检测教师情绪的智能教鞭系统，包括传感器组、硬件处理系统、外围提示电路和Linux服务器。

传感器组用于采集教师的行为动态数据，包括分别与硬件处理系统连接的音频传感器、MEMS传感器和摄像头；摄像头为全局快门摄像头，采用带通滤光片对超出光谱范围的光线进行抑制。

硬件处理系统用于将接收的传感器组的数据信号分别通过音频提取处理算法、运动轨迹提取算法、表情识别算法处理，向外围提示电路输出提示指令；硬件处理系统包括音频处理模块、运动轨迹处理模块、表情识别处理模块和控制模块；

外围提示电路用于在接收提示指令后发出震动和闪烁信号。

摄像头模块安装在智能笔顶端，MEMS传感器置于智能笔的中下部，麦克风置于智能笔底部。信息的传输如图3所示，系统运行时分为两种情况：①智能笔静置时，MEMS传感器输出为0，系统进入省电模式，仅保持MEMS与STM32H7低功耗运行。②使用者拿起智能笔时，NEMS传感器输出不为零，触发系统中断，唤醒系统。此后， STM32H7激活麦克风与摄像头模块，并完成摄像头模块初始化。麦克风模块实时采集音频信号，STM32H7对音频信号进行解调，从音频的强度、频率进行量化评分。此外还会对语音进行部分识别，当识别为特殊词汇或量化评分超过阈值时，调用循环存储的MEMS输出数据，进行动作拟合量化评分(动作拟合算法如图3所示)。若评分为危险动作，STM32H7处理器激活广角摄像头采集图像信息，并通过Chrom ART Accelerator^TM由CPU传输至DSP进行人脸关键信息提取、表情识别(神经网络如图5所示)，并返回情绪量化结果。最后经过STM32H7 多维度加权计算，输出使用者情绪状态，上传后端服务器，同时根据情绪状态据触发相应的灯光提示和马达震荡。

如图4所示，软件系统采用多级触发方式工作，即仅当前一级传感器数据达到阈值，才会触发主控芯片对后级传感器数据处理。这种触发模式在确保识别准确度较高的情况下，整体系统功耗较小。传感器系统由音频传感器、MEMS传感器和摄像头模块组合而成，并与STM32H7硬件处理平台连接。硬件处理平台实时采集音频传感器和 MEMS传感器输出数据，并将音频数据进行处理。当输出语音特征大多数符合‘过激’语音特征，会触发激活运动轨迹处理程序。调取最近30s内MEMS传感器发送并储存在内存中的数据，并进行动作拟合。当拟合结果特征符合‘过激’动作特征，触发摄像头模块进行图片采集，CPU获取图片信息，调度DSP协同进行图像处理。表情识别处理程序将传统识别方法与深度学习模型结合，通过卷积神经网络提取特征值并进行分类、识别。当检测到情绪失控时，会通过灯光和震动马达发出提示，同时也会通过Linux服务器上传到云端，在LCD显示器中显示报警信号。

音频处理程序用于将音频传感器传输的音频信号经过音频提取处理算法输出为音频状态。音频传感器将声音信号转换为离散的电信号，电信号的幅值反应了声音的大小，信号的频率反映了语速的快慢，而且不同的群体在不同情绪状态下的语音特征值是不完全重合的，所以通过检测单位时间语音特征值来反应教师的情绪。音频处理模块有 5步处理过程：信号采集、信号处理、信号储存、信号比较和输出结果。采集到的电信号通过低通滤波器滤除高频率成分的噪音，由硬件处理平台的AD转换为数字信号，获取声音大小特征值。硬件平台对数字信号进行快速傅里叶(FFT)变换，获取声音的频率特征值：

(X₁(n)为奇数序列，X₂(n)为奇数序列)。

式中，k为转换后序列编号，n为序列编号，N为序列长度，W 为旋转因子。

处理过程包括：

11)通过主控芯片读取8位高速模数转换器输出的数字量a，并转换为电压值存入深度为64的存储区；

12)对存储区的数据求算数平均同时对算结果做累加平均；

13)将处理后的电压值进行FFT变换；

14)通过声音信号的频率以及幅值大小来判断使用者的情绪。在多次实验中发现，声音频率或幅值大于累加平均值的20％，即输出为大于1.2时，可判断为情绪异常并将频率超过的部分以及幅值超过的部分除以他们的累加平均值得到归一化值后输出。

运动轨迹处理程序用于将MEMS传感器传输的信号经过运动轨迹提取算法输出为运动状态，运动轨迹提取算法所需的历史数据，由硬件平台实时读取MEMS传感器输出数据，并以循环链表的数据类型储存，即保证了数据的时效性也节省了存储空间。处理过程包括：

22)将MEMS传感器输出的三轴加速度数据滤除重力加速度分量后，计算出x，y，z三轴方向上的瞬时速度；瞬时速度的计算方法为：

23)根据速度求出MEMS传感器在x，y，z三轴方向的位移；位移的计算方法为：

24)通过连线每个时刻的空间位置坐标点得到MEMS传感器在三维空间的运动轨迹；将实际运动轨迹与预存储的模拟轨迹进行拟合，若拟合度达到80％，则输出拟合值。

硬件处理系统通过控制器将摄像头采集的图像信号由CPU传输至DSP经过人脸识别算法获取准确人脸图片，并由后端服务器辅助计算，输出情绪状态值。表情识别处理模块基于后端服务器上的DSP硬件模块加速计算实现，用于将传输过来的人脸图像经过表情识别算法输出为情绪状态值。多任务级联卷积网络(MTCNN)的人脸识别算法由三个网络构成，由粗到细进行人脸检测和人脸关键点定位并由服务器输出拟合结果，处理过程包括：

31)将图片调整到不同比例，制作图像金字塔(将图片缩放为不同大小并依次排序)，为输入网络准备；

32)将金字塔图像输入P-Net(Proposal Network)，获取含人脸的候选窗口(Proposal boundding boxes)，并通过非极大值抑制(NMS) 算法合并高度重合的候选框，去除冗余框；

33)将P-Net输出得到的人脸图像输入R-Net(Refinement Network)，对人脸检测框回归校准，通过NMS算法去除冗余框，此时的到的人脸检测框更加精准且冗余框更少。

34)将R-Net输出得到的人脸图像输入O-Net(Output Network)，一方面对人脸检测框坐标进行进一步的细化，另一方面输出人脸5个关键点(左眼、右眼、鼻子、左嘴角、右嘴角)坐标。

35)将关键点处图像特征值进行分类并计算与模型中‘怒’情绪的拟合程度，然后将多个拟合程度算术平均，获取归一化处理结果。若平均拟合程度大于76％，则判断为‘怒’的情绪。

如果最后判断为‘怒’的情绪，且会触发教鞭上的马达震动同时闪烁，并将人脸表情图像、情绪值以及声音信息上传至云端记录。

反馈模块对音频处理程序、运动轨迹处理程序、表情识别处理程序的输出结果进行分析，计算情绪值O，并定时上传情绪值O至服务器：

41)音频、图像、运动状态读取：实时读取声音量化结果A、运动轨迹拟合度程度B以及表情‘怒’的拟合程度C；

42)核间通信：通过Chrom-ART Accelerator^TM形式进行信息的传输；

43)加权输出结果：将量化结果加权，从多个维度联合判断使用者情绪。情绪值O的计算方法为：

O＝0.2*A+0.2*B+0.5*C

如图5所示，神经卷积网络采用经典的网络，该模型的构建主要参考谷歌的GoingDeeper设计如下网络结构，输入层后加入(1,1)卷积层增加非线性表示且模型层次较浅，参数较少(大量参数集中在全连接层)。

硬件处理系统基于STM32H7硬件平台底层架构，包含DSP模块，加速表情识别算法处理，模块间通过Chrom-ART Accelerator^TM (DMA2D)控制器传输数据，具体任务处理规划如下：

51)任务分配：以CPU作为控制核心，以DSP为从核作为计算核心；

52)CPU到DSP通信：采用Chrom-ART Accelerator^TM控制器加速图片数据由摄像头模块输出到DSP的传输，大大减轻了CPU的负载。

硬件平台为STM32H7VIT6处理器，运行IDE为KEIL 5.0版本IDE。

本发明的情绪实时识别系统，能达到准确度高、速度快的目的；多维度传感器综合加权评分大大降低了识别的难度与准确度；摄像头为全局快门摄像头，采用带通滤光片对其他光谱范围的光线进行抑制，具有帧率高、结构简单等优势；安置于智能笔中下端的MEMS传感器贴近手心，可以很好的拟合手势动作；基于深度模型的人脸识别能，能够简化快速的给出人脸检测框，算法过程简洁、明了，有效提升算法计算速度；STM32H7硬件平台通过Chrom ART Accelerator^TM控制器快速传输数据至DSP，能并行加速图像处理流程，满足情绪实时识别系统的实时性和处理速度。

本领域的技术人员容易理解，以上仅为本发明的较佳实施例而已，并不用于限制本发明，凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等，均应包含在本发明的保护范围之内。

Claims

1.一种用于实时检测教师情绪的智能教鞭系统，其特征在于，包括传感器组、硬件处理系统和外围提示电路；

所述硬件处理系统用于将接收的传感器组的数据信号分别通过音频提取处理算法、运动轨迹提取算法、表情识别算法处理，向外围提示电路输出提示指令；所述硬件处理系统包括音频处理模块、运动轨迹处理模块、表情识别处理模块和控制模块；

所述外围提示电路用于在接收提示指令后发出震动和/或闪烁信号。

2.根据权利要求1所述的一种用于实时检测教师情绪的智能教鞭系统，其特征在于：所述音频处理模块用于将音频传感器传输的音频信号经过音频提取处理算法输出为音频状态，处理过程包括：

11)读取音频传感器传输信号并转换为电压值存入存储区；

12)对存储区的数据求算数平均同时对算结果做累加平均；

13)将处理后的电压值进行FFT变换；

3.根据权利要求1所述的一种用于实时检测教师情绪的智能教鞭系统，其特征在于：所述系统还包括用于处理图像数据的DSP模块。

4.根据权利要求3所述的一种用于实时检测教师情绪的智能教鞭系统，其特征在于：所述运动轨迹处理模块用于将MEMS传感器传输的信号经过运动轨迹提取算法输出为运动状态，处理过程包括：

23)根据速度求出MEMS传感器在x，y，z三轴方向的位移；

5.根据权利要求1所述的一种用于实时检测教师情绪的智能教鞭系统，其特征在于：所述表情识别处理模块用于将摄像头传输的图像信号经过表情识别算法输出为情绪状态值，处理过程包括：

31)将接收图像信号制作图像金字塔为输入网络准备；

6.根据权利要求1所述的一种用于实时检测教师情绪的智能教鞭系统，其特征在于：所述控制模块对音频处理模块、运动轨迹处理模块、表情识别处理模块的输出结果进行分析，输出情绪值O，当情绪值O超出预设值时向外围提示电路发出控制指令。

7.根据权利要求6所述的一种用于实时检测教师情绪的智能教鞭系统，其特征在于：所述情绪值O的计算方法为：

O＝0.2*A+0.2*B+0.5*C

8.根据权利要求3所述的一种用于实时检测教师情绪的智能教鞭系统，其特征在于：所述硬件处理系统通过控制器将摄像头采集的图像信号由CPU传输至DSP经过表情识别算法输出为情绪状态值。

9.根据权利要求4所述的一种用于实时检测教师情绪的智能教鞭系统，其特征在于：所述步骤22)中瞬时速度的计算方法为：

所述步骤23)中位移的计算方法为：

式中，Δt为音频传感器的采样时间间隔，a为运动传感器输出的加速度值，n表示取样编号。

10.根据权利要求4所述的一种用于实时检测教师情绪的智能教鞭系统，其特征在于：所述摄像头为全局快门摄像头，采用带通滤光片对超出光谱范围的光线进行抑制。