CN113255666A

CN113255666A - 一种基于计算机视觉的个性化答疑系统与方法

Info

Publication number: CN113255666A
Application number: CN202110624598.1A
Authority: CN
Inventors: 梁超慧; 胡文莉; 杨向格; 尚季玲; 刘博�; 郜倩; 张茜
Original assignee: Zhengzhou Railway Vocational and Technical College
Current assignee: Zhengzhou Railway Vocational and Technical College
Priority date: 2021-06-04
Filing date: 2021-06-04
Publication date: 2021-08-13

Abstract

本发明提出了一种基于计算机视觉的个性化答疑系统与方法，系统包括：局部ROI划分模块，用于将学生图像中面部ROI划分为局部ROI得到划分图像，根据动作单元分类评价指标修正局部ROI划分时的损失函数；网络训练控制模块，用于获取动作单元分类评价指标；表情识别模块，用于将采集的学生图像及其划分图像输入学生网络，根据学生网络输出的动作单元类别得到对应的微表情识别结果；智能化答疑模块，用于获取微表情识别结果，通过表情匹配答疑策略，指导用户选择对应的答疑策略；本发明在保证划分局部ROI更加准确的同时，网络架构更加轻便，有利于部署于移动终端上。

Description

一种基于计算机视觉的个性化答疑系统与方法

技术领域

本发明涉及人工智能、智慧教育领域，具体涉及一种基于计算机视觉的个性化答疑系统与方法。

背景技术

答疑系统是教学系统最重要的组成部分，它能够在一定程度上及时解答学生的疑难问题，消除学生的学习障碍，加强师生的交流。随着计算机技术的不断发展，网络教学中出现了方便有效的智能化视频答疑系统。

在视频答疑场景下，存在可配置在终端的轻量级面部表情识别网络。现有技术中，应用在面部表情识别领域划分ROI的方法，大部分只是根据面部特征点划分ROI，并未对局部ROI划分的准确性问题进行过多的研究。现有的面部表情识别方法有卷积神经网络、光流法和纹理检测方法。卷积神经网络的方法存在计算量较大，难以实时判断的问题，且对于空域特征，由于深层特征的提取，网络的注意力并非与人为进行微表情判断时感兴趣信息一致；光流法和纹理检测方法存在准确率较低的问题；基于上述两种方法存在的问题，现有方法提出了光流信息和纹理信息结合卷积神经网络的方法，但准确性以及计算效率仍有待提高。

发明内容

为了解决上述问题，本发明的目的在于提供一种基于计算机视觉的个性化答疑系统，该系统包括：

局部ROI划分模块，用于将学生图像中面部ROI划分为局部ROI得到划分图像，根据动作单元分类评价指标修正局部ROI划分时的损失函数；

网络训练控制模块，用于将训练集中的学生图像及其对应的划分图像输入学生网络得到第一动作单元输出分布，分别选择一个局部ROI对划分图像遮挡后输入学生网络得到第二动作单元输出分布，计算第一动作单元输出分布和第二动作单元输出分布中对应动作单元的差值，获取差值大于零时的动作单元得到指示动作单元，将第二动作单元输出分布中指示动作单元的数值相加得到第一系数，根据被遮挡局部ROI是否包含指示动作单元得到第二系数，根据遮挡不同局部ROI时的第一系数与第二系数生成动作单元分类评价指标；

表情识别模块，用于将采集的学生图像及其划分图像输入学生网络，根据学生网络输出的动作单元类别得到对应的微表情识别结果；

智能化答疑模块，用于获取微表情识别结果，通过表情匹配答疑策略，指导用户选择对应的答疑策略。

优选地，局部ROI划分通过神经网络实现，将面部ROI图像输入神经网络得到划分为局部ROI的划分图像，神经网络的损失通过以下方式衡量：根据局部ROI内关键点与质心的距离得到单ROI损失，获取真实相邻局部ROI的交并比的均值得到多ROI损失，获取面部ROI面积与所有的局部ROI面积的比值得到全局损失，将各局部ROI对应单ROI损失的均值、多ROI损失、全局损失求和，并利用动作单元分类评价指标对损失求和结果进行修正得到神经网络的损失。

优选地，根据被遮挡局部ROI是否包含指示动作单元得到第二系数包括：每个指示动作单元对应一个指示参数，若被遮挡局部ROI包含指示动作单元，则指示参数取第一数值，否则取第二数值，将各指示动作单元对应的指示参数相加得到第二系数。

优选地，学生网络与教师网络构成知识蒸馏网络；对每个局部ROI分别构建教师网络，获取教师网络输出值的分布得到软标签，根据软标签进行学生网络的训练。

优选地，网络训练控制模块还用于根据动作单元分类评价指标控制学生网络从教师网络获取知识的学习程度。

本发明还提供一种基于计算机视觉的个性化答疑方法，该方法包括以下步骤：

将学生图像中面部ROI划分为局部ROI得到划分图像，根据动作单元分类评价指标修正局部ROI划分时的损失函数；

将训练集中的学生图像及其对应的划分图像输入学生网络得到第一动作单元输出分布，分别选择一个局部ROI对划分图像遮挡后输入学生网络得到第二动作单元输出分布，计算第一动作单元输出分布和第二动作单元输出分布中对应动作单元的差值，获取差值大于零时的动作单元得到指示动作单元，将第二动作单元输出分布中指示动作单元的数值相加得到第一系数，根据被遮挡局部ROI是否包含指示动作单元得到第二系数，根据遮挡不同局部ROI时的第一系数与第二系数生成动作单元分类评价指标；

将采集的学生图像及其划分图像输入学生网络，根据学生网络输出的动作单元类别得到对应的微表情识别结果；

获取微表情识别结果，通过表情匹配答疑策略，指导用户选择对应的答疑策略。

本发明的有益效果如下：

本发明根据动作单元分类评价指标修正划分局部ROI时的损失函数，确保了局部ROI划分的准确性，提高了动作单元检测精度；采用知识蒸馏网络用于轻量级微表情识别网络的实现，显著的减少网络的计算量，网络架构更加轻便，有利于部署于移动终端上。

附图说明

图1为系统框图。

具体实施方式

下面结合附图和具体实施例对本发明进一步详细说明。

实施例一：

本实施例提供一种基于计算机视觉的个性化答疑系统，系统框图如图1所示。

局部ROI划分模块，用于将学生图像中面部ROI划分为局部ROI得到划分图像，根据动作单元分类评价指标修正局部ROI划分时的损失函数。

基于现有的face landmark detection进行人脸关键点的检测，输出可粗分为inner points和contour points，即面部内部关键点和面部轮廓关键点，需要说明的是，关键点输出可对应至具体类别，如dlib库中第20个点和第25个点为左右眉毛中心点等。

基于上述面部轮廓关键点生成面部轮廓点集合，由于现有的人脸关键点检测中的轮廓关键点通常为下半部分轮廓，选择所获取的轮廓点中左右最高点，在dlib库中为第1个点和第17个点，连接两点后得到轮廓切分线，其他轮廓点基于该切分线作对称点，对称点和轮廓点共同构成轮廓凸包，对凸包作有限次膨胀操作，获取轮廓检测区域，在轮廓检测区域内通过Sobel算子进行准确轮廓点检测，为避免发丝、皱纹等因素的影响，需要对Sobel算子进行扩张再次检测，优选地，本实施例中Sobel算子采用3*3、5*5和7*7,得到准确的面部轮廓点集合，再此获取凸包，该凸包内部区域即为面部ROI。

局部ROI划分通过神经网络实现，将面部ROI图像输入神经网络得到将面部ROI划分为局部ROI的划分图像，神经网络的损失通过以下方式衡量：根据局部ROI内关键点与质心的距离得到单ROI损失，获取真实相邻局部ROI的交并比的均值得到多ROI损失，获取面部ROI面积与所有的局部ROI面积的比值得到全局损失，将各局部ROI对应单ROI损失的均值、多ROI损失、全局损失求和，并利用动作单元分类评价指标对损失求和结果进行修正得到神经网络的损失。

将面部ROI划分为局部ROI得到划分图像，通过神经网络实现。将局部ROI类别设置为m类，则需要m个分支进行各局部ROI划分，优选地，本实施例中m取值为7，单ROI损失函数为：

式中，m表示m个分支，k表示局部ROI类别，

表示属于第k个局部ROI的第n个关键点，

表示所输出的第k个局部ROI的质心，N_k表示第k个局部ROI所包含的关键点的个数，

表示不属于第k个局部ROI的第n个关键点，N-N_k表示不属于第k个局部ROI的关键点个数，N为所有关键点个数；多ROI损失函数L₂为真实相邻局部ROI的交并比的均值；全局损失函数L₃为面部ROI面积与所有局部ROI面积的比值。最终神经网络的损失函数表示为：

式中，

为动作单元分类评价指标，基于后续模块给出，ω₁、ω₂、ω₃为权值，应保证ω₁+ω₂+ω₃＝1，优选地，本实施例中ω₁、ω₂、ω₃分别取值为0.5,0.3，0.2。

上述网络的训练为弱监督方式，仅需人为标注各关键点所述ROI类别，采用局部ROI的目的在于，现有技术仅可将感兴趣关键点划分至对应区域，但难以将不感兴趣的关键点划分在区域外；本申请实现该功能的目的为，确保区域划分得到的单个局部ROI可完全包含该区域对应动作单元类别判断所需信息，且不包含其他非对应动作单元类别判断的信息，从而提高动作单元检测精度，避免其他区域信息的干扰。

网络训练控制模块，用于将训练集中的学生图像及其对应的划分图像输入学生网络得到第一动作单元输出分布，分别选择一个局部ROI对划分图像遮挡后输入学生网络得到第二动作单元输出分布，计算第一动作单元输出分布和第二动作单元输出分布中对应动作单元的差值，获取差值大于零时的动作单元得到指示动作单元，将第二动作单元输出分布中指示动作单元的数值相加得到第一系数，根据被遮挡局部ROI是否包含指示动作单元得到第二系数，根据遮挡不同局部ROI时的第一系数与第二系数生成动作单元分类评价指标。根据被遮挡局部ROI是否包含指示动作单元得到第二系数包括：每个指示动作单元对应一个指示参数，若被遮挡局部ROI包含指示动作单元，则指示参数取第一数值，否则取第二数值，将各指示动作单元对应的指示参数相加得到第二系数。网络训练控制模块还用于根据动作单元分类评价指标控制学生网络从教师网络获取知识的学习程度。

学生网络与教师网络构成知识蒸馏网络；对每个局部ROI分别构建教师网络，在本实施例中共有七个教师网络，教师网络分别对对应的局部ROI进行动作单元识别，FACS所定义的动作单元为44个，且具体定义了其作用区域、运动表现特征；因此对于教师网络，其输出神经元个数为44个，通过SoftMax激活函数将输出值转化为分布形式，该分布形式作为教师网络的软标签指导学生网络进行训练。

为确保教师网络的分类的准确性，在教师网络训练时，采用CAM算法进行特征可视化，CAM为公知技术，在此不赘述其实现方法，仅对其输出进行处理，其输出为Heatmap，热力值分布的区域为特征注意力区域。输入图像是连续多帧图像(包括起点、峰值点与结束，自起点至结束)，对连续多帧图像的热力图进行叠加，获取特征注意力区域；通过光流法对连续多帧图像进行处理并叠加，所获取的灰度图为运动信息，对灰度图进行阈值化处理，阈值化后进行腐蚀去噪及连通域分析，则获取到特征注意力区域对应的灰度区域，通过上述处理的目的在于，光流信息为低维特征，可解释性强，便于进行网络参数准确性分析，因此将特征注意力区域对应至灰度区域进行分析，对于灰度区域内的像素灰度值信息，基于时序赋予不同的灰度值，则可获取该区域内的运动描述点集合，具体地，以灰度区域质心为中心点，设置经验边长l₁，以中心点为中心，l₁*l₁范围内的点构成运动描述点集合，则运动描述矩阵为l₁*l₁*t，t为帧数，矩阵内元素为三维(x,y,g)，x,y表示图像坐标，g表示灰度值，同样地，将轮廓关键点集表示为轮廓矩阵，为l₂*l₂*t，l₂＝max(w,h)，其中w,h为轮廓外界矩形的宽高，矩阵内元素为三维(x,y,c)，其中c为轮廓的子类别，此时加入轮廓矩阵的目的在于确保教师网络的鲁棒性，可将训练集旋转、平移以模拟人员头部姿态变化进而扩张训练集；运动描述矩阵与轮廓矩阵分别送入不同的编码器进行特征提取后进行concat操作，输出运动分类结果，在本实施例中设置为9类，包括拉长、逆拉长、收窄、放宽、展平、鼓起、紧缩、放松和卷入；获取运动分类结果后与输出的动作单元类别的先验运动情况进行对比，确认特征注意力区域的准确性。

在本实施例中，获取教师网络中七个局部ROI的软标签进行学生网络的训练，学生网络的输入为采集到的学生图像和划分图像，则损失函数设置为：

L＝τ₁L₄+(1-τ₁)L₅

式中，L₄为蒸馏损失，具体地，L₄＝KL(P_student,P_teacher),其中，KL(,)表示KL散度的计算值，

其中m表示m个分支，本实施例m取值为7，n表示第n个局部ROI，

表示第n个局部ROI对应的第c个类别的概率；L₅为真实损失，即与真实类别的损失，采用交叉熵损失函数；τ₁为学习率，表示学生网络从教师网络获取知识的学习程度，学习率τ₁与动作单元分类评价指标

的关系为：

优选地，本实施例中学习率τ₁初始设置为0.2。由于上述真实类别标注为动作单元类别，而同一个微表情可能存在若干个动作单元类别，因此对于经SoftMax处理后的输出，基于经验阈值进行动作单元类别的提取，该经验阈值在本实施例中设置为0.4；基于先验构建映射表，根据所提取的动作单元类别组合映射到对应的微表情类别，则完成表情识别。

获取未进行区域划分的学生图像及其对应的划分图像输入学生网络得到第一动作单元输出分布，选择某个局部ROI，将该局部ROI对划分图像遮挡后与学生图像一起输入学生网络得到第二动作单元输出分布，获取第一动作单元输出分布和第二动作单元输出分布中对应动作单元的差值

若某个动作单元对应差值大于0，表示学生网络认为被遮挡区域包含该动作单元，则获取差值大于零时的动作单元得到指示动作单元，获取第二动作单元输出分布中指示动作单元的数值a_c′；动作单元分类评价指标

可表示为：

式中，m表示m个分支，每个指示动作单元对应一个指示参数，y_c′表示基于先验所知被遮挡区域是否包含第c′个指示动作单元，包含则指示参数取第一数值

y_c′为0，不包含则指示参数取第二数值

y_c′为1；σ为权值项，建议设置为大于等于1的数值，本实施例设置为1；

为第一系数，

为第二系数。

该项用于评价被遮挡区域包含错误动作单元类别的情况；a_c′用于评价被遮挡区域对于正确动作单元的控制率，a_c′越接近0表示控制率越高；

越大，局部ROI划分时的损失函数就越大，表示动作单元分类越不准确，教师网络需要基于此评价调整ROI划分以降低该评价值。

上述方法需要教师网络和学生网络进行对抗，因此在训练过程中，需对教师网络和学生网络分别进行重训练，由于教师网络部署在服务器端，无需考虑其重训练的代价，学生网络在重训练时，可以定期更新的方式确定重训练时间，且学生网络的训练无需过多数据和网络参数参与，重训练代价较小，不影响其轻量级的特点。

系统还设置触发单元，具体地，触发单元的条件在后续模块中详述。设置触发单元的目的在于，节省计算资源及动态适应头部姿态变化和动作单元变化的情况，提高识别的效率。触发单元可以被网络控制训练模块、表情识别模块调用。

表情识别模块，用于将采集的学生图像及其划分图像输入学生网络，根据学生网络输出的动作单元类别得到对应的微表情识别结果。

表情识别模块包括视频信息采集处理单元，用于获取视频数据通过数据筛选模型处理得到包含微表情的视频流数据，将提取后的视频流数据送入训练好的学生网络进行处理，最终输出为微表情识别分类结果。

该数据筛选模型具体为：

a)首先进行头部姿态确定，同样基于人脸landmark，当对应坐标点的欧式距离之和超过设定阈值，判断头部姿态变动，此时为第一触发条件；

b)利用TCN网络进行数据筛选，其中TCN滑块长度基于相机刷新率设置，例如刷新率设置为v帧/秒，则需要

帧的滑块长度，此处先验为微表情存在时间最长为

秒，网络训练集采用多个存在微表情的视频流，损失函数为二值交叉熵，标注为两类，存在微表情与不存在微表情；当判断为存在微表情时，此时为第二触发条件，将此时滑块对应的视频流提取出来，基于光流信息确定起点帧、峰值点帧和结束帧，基于光流确定帧的方法为公知技术，在此不作赘述，将提取后的视频流数据送入训练好的学生网络进行处理，最终输出为微表情识别分类结果；

c)上述第一触发条件对应的操作为，重新进行landmark检测、ROI划分和表情识别；第二触发条件对应的操作为，重新进行ROI划分和表情识别。

所述表情匹配具体由实施者自行给定，在本实施例中，给出六种常见表情的对应答疑策略：1.惊讶或愉悦，说明此时学生对所讲知识好奇，保持现有的答疑策略；2.悲伤或愤怒，说明此时学生对所讲知识未掌握或未了解，采用更为详尽的答疑策略；3.厌恶或轻蔑，说明此时学生对所讲知识已掌握，采用更为简略的答疑策略并适当扩展思考。

以上实施例仅为本发明的较佳实施例而已，并不用以限制本发明，凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等，均应包含在本发明保护范围之内。

Claims

1.一种基于计算机视觉的个性化答疑系统，其特征在于，该系统包括：

2.根据权利要求1所述的系统，其特征在于，所述局部ROI划分通过神经网络实现，将面部ROI图像输入神经网络得到划分为局部ROI的划分图像，神经网络的损失通过以下方式衡量：根据局部ROI内关键点与质心的距离得到单ROI损失，获取真实相邻局部ROI的交并比的均值得到多ROI损失，获取面部ROI面积与所有的局部ROI面积的比值得到全局损失，将各局部ROI对应单ROI损失的均值、多ROI损失、全局损失求和，并利用动作单元分类评价指标对损失求和结果进行修正得到神经网络的损失。

3.根据权利要求1所述的系统，其特征在于，所述根据被遮挡局部ROI是否包含指示动作单元得到第二系数包括：每个指示动作单元对应一个指示参数，若被遮挡局部ROI是否包含指示动作单元，则指示参数取第一数值，否则取第二数值，将各指示动作单元对应的指示参数相加得到第二系数。

4.根据权利要求1所述的系统，其特征在于，所述学生网络与教师网络构成知识蒸馏网络；对每个局部ROI分别构建教师网络，获取教师网络输出值的分布得到软标签，根据软标签进行学生网络的训练。

5.根据权利要求1所述的系统，其特征在于，所述网络控制模块还用于根据动作单元分类评价指标控制学生网络从教师网络获取知识的学习程度。

6.一种基于计算机视觉的个性化答疑方法，其特征在于，该方法包括以下步骤：

7.根据权利要求6所述的方法，其特征在于，所述局部ROI划分通过神经网络实现，将面部ROI图像输入神经网络得到划分为局部ROI的划分图像，神经网络的损失通过以下方式衡量：根据局部ROI内关键点与质心的距离得到单ROI损失，获取真实相邻局部ROI的交并比的均值得到多ROI损失，获取面部ROI面积与所有的局部ROI面积的比值得到全局损失，将各局部ROI对应单ROI损失的均值、多ROI损失、全局损失求和，并利用动作单元分类评价指标对损失求和结果进行修正得到神经网络的损失。

8.根据权利要求6所述的方法，其特征在于，所述根据被遮挡局部ROI是否包含指示动作单元得到第二系数包括：每个指示动作单元对应一个指示参数，若被遮挡局部ROI是否包含指示动作单元，则指示参数取第一数值，否则取第二数值，将各指示动作单元对应的指示参数相加得到第二系数。

9.根据权利要求6所述的方法，其特征在于，所述学生网络与教师网络构成知识蒸馏网络；对每个局部ROI分别构建教师网络，获取教师网络输出值的分布得到软标签，根据软标签进行学生网络的训练。

10.根据权利要求6所述的方法，其特征在于，所述方法还包括：根据动作单元分类评价指标控制学生网络从教师网络获取知识的学习程度。