CN112396887B

CN112396887B - 基于声源定位和面部检测的pbl课堂记录方法和系统

Info

Publication number: CN112396887B
Application number: CN202011161783.3A
Authority: CN
Inventors: 许炜; 刘威; 向敏; 徐晶; 程文青
Original assignee: Huazhong University of Science and Technology
Current assignee: Huazhong University of Science and Technology
Priority date: 2020-10-26
Filing date: 2020-10-26
Publication date: 2022-01-11
Anticipated expiration: 2040-10-26
Also published as: CN112396887A

Abstract

本发明公开基于声源定位和面部检测的PBL课堂记录方法和系统，属于智能教学领域。包括：将PBL教学过程中采集到的音频数据和视频数据上传至处理服务器；通过定位算法对采集到的音频数据进行处理，估算出不同时刻的音频发言人和音频定位角；对采集到的视频数据抽取I帧和鱼眼图像展开后，采用神经网络检测图像中人脸，采用残差网络对人脸发言状态进行二分类，得到不同时刻的视频发言人和视频定位角；通过音视频角度校准，将音频定位角度和视频定位角度转换到同一坐标系；在音频定位角的误差范围内搜索是否存在视频定位角，对视频定位角赋予权值，由此对音频角度的权值进行再次调整，通过音频定位角和视频定位角的权值幅值相加，得到最终的发言人角度。

Description

基于声源定位和面部检测的PBL课堂记录方法和系统

技术领域

本发明属于智能教学技术领域，更具体地，涉及基于声源定位和面部检测的PBL课堂记录方法和系统。

背景技术

随着教学模式的改革和新时代对于人才培养要求的提升，PBL(Problem-basedLearning)教学法已经在国内外广泛应用并开展了相关研究工作。在传统教学模式中，教师站在正前方的讲台上授课，学生则是端正地坐在教室内听讲。如图1所示，与传统教室的教学场景不同，在PBL课堂中，由一名带教老师和6-7名学生采用环坐的方式进行讨论式教学，师生们共同环绕着一个矩形长桌坐下，教室内配备有显示白板和教学电脑。在PBL教学过程中，学生们会各自讲述自己的理解，或者通过PPT等多媒体的方式进行表达和分享，其他学生和带教老师会也会一同进行讨论和探究，课堂成员之间的交流互动非常频繁。

而传统的基于课程考试或结课论文的教学评价方式难以满足PBL教学活动中，教师对于学生进行课程评价的需求，PBL教学评价需要教师对整个教学活动中学生的参与行为有着完整的把握，工作量极为庞大。因此，如何在PBL课程结束后，能够快速准确地帮助老师记录和回顾课堂参与过程是一个重大的挑战。一方面有利于减轻教师的教学负担，另一方面也能从客观角度来分析学生的课堂行为，能够有效地提升教学质量，也能帮助学生全面发展。

在教学系统评价领域，国内外已经广泛地将视频技术与课堂教学观察相结合。然而在PBL教学领域的特殊性，需要对课堂中学生的发言音频和发言行为进行自动化的测量和记录。而通过视频/人工对课堂进行教学观察的方法，一方面对于教师而言依然存在巨大的工作量，无法满足自动化的需求；另一方面，在灵活讨论式的PBL课堂中学生的面部朝向会发生较大的变化，全面地记录所有人的面部发言与否较为困难，存在固有的缺陷和不足。

发明内容

针对现有技术的缺陷和改进需求，本发明提供了基于声源定位和面部检测的PBL课堂记录方法和系统，其目的在于同时对学生的课堂发言音频和发言行为进行自动化的测量和记录。

为实现上述目的，按照本发明的第一方面，提供了一种基于声源定位和面部检测的PBL课堂记录方法，该方法包括以下步骤：

S1.将PBL教学过程中采集到的音频数据和视频数据上传至处理服务器，所述音频数据为通过麦克风阵列采集到的课堂多音轨音频，所述视频数据为通过鱼眼摄像头采集到的课堂视频，所述麦克风阵列和鱼眼摄像头在PBL课堂桌面中轴线左右两侧对称部署，无遮挡地覆盖到所有的课堂成员，数据采集同步；

S2.通过定位算法对采集到的音频数据进行处理，估算出不同时刻音频定位角，通过音频定位角的范围计算出发言人的位置；

S3.对采集到的视频数据抽取I帧和鱼眼图像展开后，采用神经网络检测图像中人脸，采用残差网络对人脸发言状态进行二分类，得到不同时刻的视频发言人和视频定位角；

S4.通过音视频角度校准，将音频定位角度和视频定位角度转换到同一坐标系下；

S5.在音频定位角的误差范围内搜索是否存在视频定位角，对视频定位角赋予权值，由此对音频角度的权值进行再次调整，通过音频定位角和视频定位角的权值幅值相加，得到最终的发言人角度。

有益效果：麦克风阵列和鱼眼相机，能够在获取有效教学数据的同时，尽可能减少对课堂本身的侵入性，也不会影响上课人员之间的视线和交流，保障教学活动正常进行；由于在实际测量场景中，麦克风阵列和鱼眼摄像头的排放位置位于矩形课桌的中心两侧，而摆放时麦克风阵列定义的零度方向也可能存在一定的变化，然而要将两种定位数据进行综合处理时，势必要将二者的坐标系完成统一，将定位出的声源点平面角度和测量出的发言人脸的角度转换到同一个坐标系中，这样才能进行直接的比较和分析。

优选地，步骤S1中，上传之前，采用下限截止频率为20Hz、上限截止频率为4kHz的带通滤波器，去除掉原始课堂音频中的噪音。

有益效果：由于PBL课堂环境本身存在多种噪音干扰，如空调、桌椅、水杯或者其他一些非发言行为，都有可能造成声源点的错误判断，本发明将原始的课堂音频通过一个固定频率的带通滤波器，去除掉音频中的低频分量和高频分量，减少对非人声声源的误判。

优选地，步骤S2中，通过SRP-PHAT声源定位算法，根据麦克风阵列的物理尺寸、音频数据格式和单个麦克风的朝向和收音范围对声源定位算法配置进行调整，最终得到声源定位结果数据，定位数据包括：声源点编号id、声源点映射位置xyz坐标、声源点的能量强度。

有益效果：相对于现有技术，该声源点的测量方法在麦克风指向性、最大滑动窗口自动校准和分层搜索三个方面进行优化，在保证了SRP-PHAT高精度的同时，进一步减少了计算量，而且与麦克风阵列的形状无关。本发明采用的电容式麦克风，则是朝向正上方采集音频，因此通过调整搜索空间为麦克风朝向的整个上班空间，从而减少需要扫描的空间和要使用的麦克风对，进一步减少了计算量；本发明通过输入麦克风阵列的物理位置参数，基于TDOA不确定性模型，动态地调整窗口的大小，以获取发声点定位精度的最大化；本发明先通过使用低分辨率的网格进行全面搜索找出潜在声源可能存在的大致区域，然后对该区域采用更高分辨率的搜索网格进行二次搜索，从而寻找出声源点更加准确的方位。

优选地，采用K-Medoids对初步定位结果进行数据校准，去除定位数据中的异常值，并根据固定时间区间对定位数据进行声源点聚合并去除噪点，对声源追踪的数据二次人工聚合。

有益效果：减少临近多声源点的追踪混淆情况。

优选地，步骤S3中，对获取的超广角图像进行鱼眼展开，将图像还原为一个略有畸变的360°平视图像，再将其转换为2个180°视角的上下拼接图案，使得师生人脸分布位置正常。

有益效果：未展开的原始鱼眼图像中的师生面部都位于镜头拍摄的边缘部分，而且产生了严重的图像畸变，是难以进行处理的，经过鱼眼展开后将其转换为2个180°视角的上下拼接图案，师生人脸分布位置正常，可以进行下一步处理。

优选地，步骤S3中，使用MTCNN算法检测出I帧中的人脸所在位置，将其从图片中沿框线截取出，然后人工标记截取的图片是否为发言状态形成一个数据集作为分类网络ResNet-18的输入，所述ResNet-18用于判断人脸MTCNN截取的人脸发言状态为发言还是未发言。

有益效果：MTCNN算法在面部检测方面，无论是效果还是速度都有着不错的表现。出于对运行效果和模型大小的综合考量，本系统采用层数较深的神经网络ResNet-18作为分类网络。

优选地，步骤S5包括以下步骤：

S51.通过在发声区域内均匀划分测量点，对每一个测量点测出其误差波动范围E(x)，而对于整个连续的测量区域，通过一系列均匀的误差点插值拟合出此区域内的误差波动函数E(x)，由此得到发声区域A内任一点的误差范围，并赋予对应权值W_a，在某一时刻，若音频定位的角度为α，则其对应的误差值为E(α)，即波动范围在α±E(α)；

S52.对步骤S51中的误差范围进行搜索，如果不存在视频定位角度，则直接认定为最终定位角度，如果存在视频角度，对视频角度赋予权值W_v，因此对音频权值进行调整W_a＝1-W_v；对音频和视频角度进行判断，如果有指向白板区域的角度，处理流程则进入特殊情况处理，没有则正常进行S53；

S53.对于上一步产生结果，如果为定位角度不在白板区域内，则根据音频和视频的权值进行相加，即最终角度为γ＝αW_a+βW_v，若定位角度进入特殊情况处理流程，则根据视频定位人脸的位置进行判断，若发言人脸的位置处于站立高度，则判定为发言人，最终角度为γ＝αW_a+βW_v；若发言人脸低于站立高度，则判定为讨论者，最终角度γ＝αW_a+βW_v；如果在站立高度上下同时有2张发言人脸，判定为同时发言，将音频角度α同时与两个视频角度β₁，β₂相结合，得到两个最终角度γ₁＝αW_a+β₁W_v1、γ₂＝αW_a+β₂W_v2。

有益效果：仅仅依靠音频定位，在距离测量点较近的区域和可能出现双声源点的白板区域，存在较大的误差，甚至可能出现误判。因此，本系统在音频定位的基础上，对于测量区域进行网格化，对网格上的每一个点，根据其误差波动范围赋予权值，即每一个网格点都拥有2个属性，误差范围和权重。对音频定位和视频定位的结果进行标准化校正，并且根据测量位置的不同，在音频定位角度的基础上，根据音频定位的准确范围和PBL课堂的高误差区域，结合视频测量出的角度，进一步提升最终的测量结果。

为实现上述目的，按照本发明的第二方面，提供了一种基于声源定位和面部检测的PBL课堂记录系统，包括：计算机可读存储介质和处理器；

所述计算机可读存储介质用于存储可执行指令；

所述处理器用于读取所述计算机可读存储介质中存储的可执行指令，执行第一方面所述的基于声源定位和面部检测的PBL课堂记录方法。

总体而言，通过本发明所构思的以上技术方案，能够取得以下有益效果：

基于声场的测量方案在近距离和发言重叠等特殊场景中存在难以克服的缺陷，本发明采用了视音频结合的测量方式，通过录制PBL课堂视频对学生活动行为进行测量，由此对音频测量的结果进行校正，弥补了单一声场测量的不足，有效地对PBL课堂中学生的发言行为和方位进行有效识别，对PBL课堂中的发言行为进行完整的记录。在辅助教师回顾教学过程和提供学生课堂评价的参考依据等方面有着不错的效果。

附图说明

图1为现有技术中PBL课堂俯视图；

图2为本发明提供的一种基于声源定位和面部检测的PBL课堂记录方法流程图；

图3为本发明提供的基于视音频混合的PBL课堂测量记录系统的测量原理示意图；

图4为本发明提供的一种基于声源定位和面部检测的PBL课堂记录系统框架图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。此外，下面所描述的本发明各个实施方式中所涉及到的技术特征只要彼此之间未构成冲突就可以相互组合。

如图2所示，本发明提供了一种基于声源定位和面部检测的PBL课堂记录方法，该方法包括以下步骤：

步骤S1.将PBL教学过程中采集到的音频数据和视频数据上传至处理服务器，所述音频数据为通过麦克风阵列采集到的课堂多音轨音频，所述视频数据为通过鱼眼摄像头采集到的课堂视频，所述麦克风阵列和鱼眼摄像头在PBL课堂桌面中轴线左右两侧对称部署，无遮挡地覆盖到所有的课堂成员，数据采集同步。

树莓派驱动的麦克风阵列和鱼眼相机，能够在获取有效教学数据的同时，尽可能减少对课堂本身的侵入性，也不会影响上课人员之间的视线和交流，保障教学活动正常进行；由于在实际测量场景中，麦克风阵列和鱼眼摄像头的排放位置位于矩形课桌的中心两侧，而摆放时麦克风阵列定义的零度方向也可能存在一定的变化，然而要将两种定位数据进行综合处理时，势必要将二者的坐标系完成统一，将定位出的声源点平面角度和测量出的发言人脸的角度转换到同一个坐标系中，这样才能进行直接的比较和分析。本实施例采用六麦环形麦克风阵列。

由于PBL课堂环境本身存在多种噪音干扰，如空调、桌椅、水杯或者其他一些非发言行为，都有可能造成声源点的错误判断，本发明将原始的课堂音频通过一个固定频率的带通滤波器，去除掉音频中的低频分量和高频分量，减少对非人声声源的误判。优选地，步骤S1中，上传之前，采用下限截止频率为20Hz、上限截止频率为4kHz的带通滤波器，去除掉原始课堂音频中的噪音。

步骤S2.通过定位算法对采集到的音频数据进行处理，估算出不同时刻的音频定位角，通过音频定位角的范围计算出发言人的位置。

采用一种基于SRP-PHAT的声源定位算法进行课堂声源点的判别，对多个通道的音频数据分帧加窗、有效帧处理等预处理操作，然后通过傅里叶变换将有效帧转换到频域，接下来根据各个麦克风直接的频谱数据求出任意两麦克风之间的互功率谱，并通过滤波加权进行放大调整，对于每个空间点进行扫描结合互功率谱计算TDOA向量，得到最终的声源定位方位。

相对于现有技术，该声源点的测量方法在麦克风指向性、最大滑动窗口自动校准和分层搜索三个方面进行优化，在保证了SRP-PHAT高精度的同时，进一步减少了计算量，而且与麦克风阵列的形状无关。本发明采用的电容式麦克风，则是朝向正上方采集音频，因此通过调整搜索空间为麦克风朝向的整个上班空间，从而减少需要扫描的空间和要使用的麦克风对，进一步减少了计算量；本发明通过输入麦克风阵列的物理位置参数，基于TDOA不确定性模型，动态地调整窗口的大小，以获取发声点定位精度的最大化；本发明先通过使用低分辨率的网格进行全面搜索找出潜在声源可能存在的大致区域，然后对该区域采用更高分辨率的搜索网格进行二次搜索，从而寻找出声源点更加准确的方位。

优选地，采用K-Medoids对初步定位结果进行数据校准，去除定位数据中的异常值，并根据固定时间区间对定位数据进行声源点聚合并去除噪点，对声源追踪的数据二次人工聚合。得到定位结果后，通过K-中心点算法按单位时间对定位结果进行聚合，去除定位噪点，得到可使用的音频定位数据，减少临近多声源点的追踪混淆情况。

步骤S3.对采集到的视频数据抽取I帧和鱼眼图像展开后，采用神经网络检测图像中人脸，采用残差网络对人脸发言状态进行二分类，得到不同时刻的视频发言人和视频定位角。

未展开的原始鱼眼图像中的师生面部都位于镜头拍摄的边缘部分，而且产生了严重的图像畸变，是难以进行处理的，经过鱼眼展开后将其转换为2个180°视角的上下拼接图案，师生人脸分布位置正常，可以进行下一步处理。

MTCNN算法在面部检测方面，无论是效果还是速度都有着不错的表现。出于对运行效果和模型大小的综合考量，本发明采用的是层数较深的神经网络ResNet-18来作为分类网络。优选地，步骤S3中，使用MTCNN算法检测出I帧中的人脸所在位置，将其从图片中沿框线截取出，然后人工标记截取的图片是否为发言状态形成一个数据集，将数据集作为分类网络ResNet-18的输入，训练完成后可以用于判断人脸MTCNN截取的人脸发言状态为发言还是未发言。

MTCNN的检测流程主要分为三步，共有三个CNN网络采用级联的方式连接运行。首先，通过使用一个全卷积神经网络来获取图像中潜在的面部区域，并对候选框进行微调，让它尽可能框出图像中所以的人脸，输出一些可能含有人脸的候选框图片。接下来，将这些候选框输入下一个卷积神经网络中，对候选框进行二次判断，滤除掉不含有面部的候选框，并对剩下的候选框判定为正样本进行微调，然后输入到第三卷积神经网络中，将错检的面部候选框去除，剩下的即为检测出的人脸图片。

步骤S4.通过音视频角度校准，将音频定位角度和视频定位角度转换到同一坐标系下。

由于音频采集设备和视频采集设备无法在空间上完全重叠，因此系统中音频角度和视频角度之间本身存在一定的误差，而且音频定位的精度和距测量点的距离存在变化的误差值，在白板区域音频定位会出现发言人和附近同学混淆的情况，然而在视频定位中，由于学生的低头、大角度转头或无意识遮挡的情况，往往难以检测出所有的人脸，而且也存在无意识张口被误判的情况，因此本发明中首先将视频测量角度α和音频测量角度β在坐标系上完成角度对齐，将其转化到同一个坐标系中。

由于鱼眼摄像头和麦克风阵列的物理位置上存在的固有误差，如图3所示，在长为2acm、宽为2bcm的长方形桌面上，A点为麦克风正，B点为鱼眼摄像头，而AB两点中心之间相距2rcm，对于长方形上的每一个点，与A点的连线和x轴构成的夹角为α，与B点的连线和x轴构成的夹角为β，α和β的角度范围为0度～360度，B点与长方形左右定点的夹角分别为γ₁、γ₂，其中

将B点角度β转化为A点角度α时，对β的取值范围分情况进行处理，最终得到如下所示的转换公式，对于长方形上下边沿存在y值不同的交点，因此分情况对β的取值进行讨论，如下：

当β＜π时，

当β＞π时，

根据上述分析结果，完成会声源定位计算角度与图形识别角度的标准化，将二者坐标系在空间上对齐，归化为同一坐标系。由于反正切函数的值域为

而α∈[0，2π)，因此在进行反正切后，需要根据β所处的象限对α的值进行相应的调整，当计算出的α＜0时，此时α＝α+π，由此完成相应的变化计算。

步骤S5.在音频定位角的误差范围内搜索是否存在视频定位角，对视频定位角赋予权值，由此对音频角度的权值进行再次调整，通过音频定位角和视频定位角的权值幅值相加，得到最终的发言人角度。

优选地，步骤S5包括以下步骤：

仅仅依靠音频定位，在距离测量点较近的区域和可能出现双声源点的白板区域，存在较大的误差，甚至可能出现误判。因此，本系统在音频定位的基础上，对于测量区域进行网格化，对网格上的每一个点，根据其误差波动范围赋予权值，即每一个网格点都拥有2个属性，误差范围和权重。对音频定位和视频定位的结果进行标准化校正，并且根据测量位置的不同，在音频定位角度的基础上，根据音频定位的准确范围和PBL课堂的高误差区域，结合视频测量出的角度，进一步提升最终的测量结果。

本发明提供了一种基于声源定位和面部检测的PBL课堂记录系统，包括：计算机可读存储介质和处理器；

所述计算机可读存储介质用于存储可执行指令；

所述处理器用于读取所述计算机可读存储介质中存储的可执行指令，执行上述基于声源定位和面部检测的PBL课堂记录方法。

本系统主要分为六个不同的子模块：视频采集模块、音频采集模块、视频定位模块、音频定位模块、混合校正模块和结果呈现模块。这六个模块间的逻辑关系如图4所示。

本发明系统集成在麦克风阵列和鱼眼摄像头上，通过云服务器在后台完成处理计算，能很好的融入PBL教室环境，不会给学生带来不适感，并且具有很大的灵活性，同时克服了传统测量方法的局限性，且测量结果准确，部署较为简单，成本较低，具有极大的独创性和可行性。

本领域的技术人员容易理解，以上所述仅为本发明的较佳实施例而已，并不用以限制本发明，凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等，均应包含在本发明的保护范围之内。

Claims

1.一种基于声源定位和面部检测的PBL课堂记录方法，其特征在于，该方法由云服务器执行，包括以下步骤：

S1.接收一个麦克风阵列采集到的PBL教学过程中多音轨音频数据，一个鱼眼摄像头采集到的视频数据，所述麦克风阵列和鱼眼摄像头在PBL课堂桌面中轴线左右两侧对称部署，无遮挡地覆盖到所有的课堂成员，数据采集同步；

2.如权利要求1所述的方法，其特征在于，步骤S2中，通过SRP-PHAT声源定位算法，根据麦克风阵列的物理尺寸、音频数据格式和单个麦克风的朝向和收音范围对声源定位算法配置进行调整，最终得到声源定位结果数据，定位数据包括：声源点编号id、声源点映射位置xyz坐标、声源点的能量强度。

3.如权利要求2所述的方法，其特征在于，采用K-Medoids对初步定位结果进行数据校准，去除定位数据中的异常值，并根据固定时间区间对定位数据进行声源点聚合并去除噪点，对声源追踪的数据二次人工聚合。

4.如权利要求1至3任一项所述的方法，其特征在于，步骤S3中，对获取的超广角图像进行鱼眼展开，将图像还原为一个略有畸变的360°平视图像，再将其转换为2个180°视角的上下拼接图案，使得师生人脸分布位置正常。

5.如权利要求1至3任一项所述的方法，其特征在于，步骤S3中，使用MTCNN算法检测出I帧中的人脸所在位置，将其从图片中沿框线截取出，然后人工标记截取的图片是否为发言状态形成一个数据集作为分类网络ResNet-18的输入，所述ResNet-18用于判断MTCNN截取的人脸发言状态为发言还是未发言。

6.如权利要求1至3任一项所述的方法，其特征在于，步骤S5包括以下步骤：

S53.对于上一步产生结果，如果为定位角度不在白板区域内，则根据音频和视频的权值进行相加，即最终角度为γ＝αW_a+βW_v，若定位角度进入特殊情况处理流程，则根据视频定位人脸的位置进行判断，若发言人脸的位置处于站立高度，则判定为发言人，最终角度为γ＝αW_a+βW_v；若发言人脸低于站立高度，则判定为讨论者，最终角度γ＝αW_a+βW_v；如果在站立高度上下同时有2张发言人脸，判定为同时发言，将音频角度α同时与两个视频角度β₁,β₂相结合，得到两个最终角度γ₁＝αW_a+β₁W_v1、γ₂＝αW_a+β₂W_v2。

7.一种基于声源定位和面部检测的PBL课堂记录系统，其特征在于，包括：计算机可读存储介质和处理器；

所述计算机可读存储介质用于存储可执行指令；

所述处理器用于读取所述计算机可读存储介质中存储的可执行指令，执行权利要求1至6任一项所述的基于声源定位和面部检测的PBL课堂记录方法。