CN114998968A

CN114998968A - 一种基于音视频分析课堂交互行为的方法

Info

Publication number: CN114998968A
Application number: CN202210686072.0A
Authority: CN
Inventors: 黄宇婷; 王崇文
Original assignee: Beijing Institute of Technology BIT
Current assignee: Beijing Institute of Technology BIT
Priority date: 2022-06-16
Filing date: 2022-06-16
Publication date: 2022-09-02
Anticipated expiration: 2042-06-16
Also published as: CN114998968B

Abstract

本发明公开了一种基于音视频分析课堂交互行为的方法，包括如下步骤：通过教室中录音设备收录音频数据，利用说话人分割聚类算法处理得到课堂说话人变化序列，分析序列变化得到言语类课堂交互行为；通过教室中摄像头采集讲台上下视频数据，利用自搭建人脸检测网络FDN和人体站立姿态识别网络得到教师和学生位置信息，以音频说话人序列作为辅助分析得到非言语类课堂交互序行为。本发明解决了现有课堂交互行为分析方法无法充分利用课堂数据、反馈滞后等问题，利用深度学习技术实现自动化课堂交互行为分析，能够及时且客观反馈教学情况、有效促进教学活动的开展。

Description

一种基于音视频分析课堂交互行为的方法

技术领域

本发明涉及语音信号处理和计算机视觉技术领域，尤其涉及一种基于音视频分析课堂交互行为的方法。

背景技术

传统的课堂交互分析主要是通过人力方式展开，往往采取线下听课、网上问卷的形式来分析课堂。在处理所收集到的评价数据时，使用的工具为Office办公软件。传统方式往往无法对教学质量进行客观评价和详尽评估。同时对于课堂场景下产生的大量数据，也无法物尽其用，会导致评价数据过于单一、积累量小且分析维度欠缺。然而对课堂进行评价旨在提升教学质量，帮助高校教师发现教学存在的缺陷进而调整自我。人工智能的快速发展极大地加速了教育信息化进程。现有的利用信息技术手段去分析课堂交互行为的方法对于课堂数据的利用不够完整，所涵盖的课堂交互行为种类较少，无法对课堂交互进行全面且精准的刻画。

例如：中国专利(专利申请号CN201910702610.9)公开了一种基于声学信号的课堂交互网络分析方法，其技术方案通过采集课堂语音信号，将其转换成音频信号。对音频信号使用声纹识别和情绪识别技术，得到每段音频的说话人起始位置、性别以及情绪状态。同时使用社交网络分析手段对说话人进行建模构建，最终描述了课堂中交互个体的差异以及课堂的交互组成。该技术存在的缺点：1.其基于声纹特征对课堂交互行为进行分析，需要分析出说话人情绪、性别等特征，非常依赖于音频源的质量；2.分析维度欠缺，仅使用课堂音频数据对课堂交互行为进行分析，同时并未给出具体的课堂交互分类结果。

目前传统课堂交互行为分析方法不够精准且反馈滞后，已有利用信息技术的课堂交互行为分析方法分析维度不够全面、最终结果可视化效果不佳。

发明内容

1.要解决的技术问题

本发明的目的是为了解决现有技术中传统课堂交互行为分析方法不够精准且反馈滞后，已有利用信息技术的课堂交互行为分析方法分析维度不够全面、最终结果可视化效果不佳的问题，而提出的一种基于音视频分析课堂交互行为的方法。

2.技术方案

为了实现上述目的，本发明采用了如下技术方案：

一种基于音视频分析课堂交互行为的方法，包括如下步骤：

S1、通过录音设备采集课程中音频数据，通过摄像头采集到讲台上和讲台下两个视角的视频数据。

S2、将步骤S1中的音频数据输入到说话人分割聚类算法中，得到课堂场景中说话人序列；将步骤S1中的讲台上视频数据输入到人脸检测算法中，得到讲台上人脸个数；将步骤S1中的讲台下视频数据输入到人体站立姿态检测算法中，得到讲台下站立姿态检测结果。

S3、将步骤S2中的说话人序列进行角色区分，说话时间最长的标记为教师，其余为学生，根据角色变化分析得到言语类课堂交互行为；将步骤S2得到的讲台上人脸个数和讲台下人体站立姿态结果，结合说话人角色序列得到教师与学生位置关系，最终分析得到非言语类课堂交互行为。

优选地，所述说话人分割聚类算法包含三个模块：数据前处理模块、LA-TDNN模块、说话人聚类模块。

优选地，所述数据前处理模块用于对语音数据进行特征参数提取、语音活动检测以及与语音时序分段。

优选地，所述LA-TDNN模块以TDNN为基础进行相应的改良。在帧级特征提取部分增加了LSTM层，以弥补TDNN的时间延迟层只关注局部特征的缺点，在时域池化部分将传统的基于统计池化替换成了基于双重多头注意力机制的池化，通过注意力机制为不同帧提供不同的权重，能够更有效的捕捉说话人特征。

优选地，所述说话人聚类模块学习LA-TDNN输出的x-vector，建立PLDA模型，采用适当的无监督聚类方法，利用PLDA模型计算说话人特征之间的相似性，判断两者是否属于统一说话人，从而达到聚类的效果。

优选地，所述S2中人脸检测算法包含三个模块：特征提取模块、特征融合模块、回归与分类模块。

优选地，所述特征提取模块根据残差网络思想构建特征提取网络，负责从原始图像中提取有效特征，同时使得模型训练和收敛速度更快。

优选地，所述特征融合模块采用双向特征融合机制充分结合深层和浅层信息，在传统FPN模块之后根据PANet的思想增加了一个自底向上的融合过程，PANet使得自底向上的路径增强，FPN层自顶向下传达强语义特征，而PANet自底向上传达强定位特征。

优选地，所述回归与分类模块为了解决分类得分和回归准确率相关性比较低，在框回归子网络中增加一个IoU预测分支，将IoU预测值和分类得分共同作为最终的检测置信度，最终得到得到所包含的目标框位置和类别信息。

优选地，所述人体站立姿态检测算法包含两个模块：人体动作特征提取模块、分类模块；其中人体动作特征提取模块，利用OpenPose 提取人体站立姿态关键点，并将所有关键点信息整合起来；分类模块利用MLPClassifier构建二分类模型，将人体站立姿态关键点信息送入分类网络进行训练，最终得到人体站立姿态检测模型。

3.有益效果

相比于现有技术，本发明的优点在于：

(1)本发明中，摒弃了利用人力的方式，聚焦于高校课堂场景，结合理论和实践研究对现有的课堂交互行为分析框架提供了新的分析视角。同时提出了利用音视频和多种人工智能技术来分析课堂交互行为的算法，降低人力成本、有效提升课堂交互行为分析的质量。

(2)本发明中，提出了一种精确度更高的说话人分割聚类算法，该算法在公开数据集上说话人分离错误率仅有16.63％。

(3)本发明中，提出了一种检测速度更快且针对小目标的人脸检测算法，该算法在WiderFace困难目标验证集和测试集上AP表现分别为90.2％、89.7％。

附图说明

图1为本发明提出的基于音视频分析课堂交互行为的流程图；

图2为本发明提出的说话人分割聚类算法的网络结构图；

图3为本发明提出的FDN人脸检测算法的网络结构图；

图4本发明提出的说话人序列变化图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。

实施例1：

参照图1-4，一种基于音视频分析课堂交互行为的方法，包括如下步骤：

如图2所示，说话人分割聚类算法网络包含三个模块：数据前处理模块、LA-TDNN模块、说话人聚类模块。数据前处理包括对语音数据进行特征参数提取、语音活动检测以及与语音时序分段。LA-TDNN 为提出说话人特征，采取融合LSTM和双重多头自注意力机制的说话人特征提取网络架构。说话人聚类包括对说话人特征提取网络输出的说话人特征建立高斯PLDA模型和进行无监督聚类。

如图3所示，人脸检测算法包含三个模块：特征提取模块、特征融合模块、回归与分类模块。特征提取网络根据残差网络思想设计，任务是得到特征图。框分类网络在输出的特征图上使用卷积得到物体的分类，框回归网络使用卷积得到框回归值。为了解决分类得分和定位准确率相关性比较低，在框回归子网络中增加一个IoU预测分支，将IoU预测值和分类得分共同作为最终的检测置信度。

实施例2：

言语类课堂交互行为分析流程包括如下步骤：

步骤一、对得到的说话人序列数据进行预处理，说话时长少于 50ms的设定为干扰噪声，从结果数据中剔除；

步骤二、统计所有角色的活动语音时长，将时长最长的角色标记为老师。其余角色统一为学生；

步骤三、借助栈的思想，将说话人时序变化数据入栈，若已入栈序列匹配到不同言语类课堂交互，则将栈中数据依次弹出，并记录下课堂交互行为。

非言语类课堂交互行为分析过程中，首先对原始视频数据进行抽帧处理，设定每5分钟截取1张图片，然后依次将这些图片送入人脸检测网络中检测是否含有人脸。根据人脸的数据以及第3章得出的每段音频的说话人序列，判断此时讲台上人脸的角色信息，同时根据讲台下视角人体站姿检测，从而得出最终的课堂交互行为结果。

本发明中，摒弃了利用人力的方式，聚焦于高校课堂场景，结合理论和实践研究对现有的课堂交互行为分析框架提供了新的分析视角。同时提出了利用音视频和多种人工智能技术来分析课堂交互行为的算法，降低人力成本、有效提升课堂交互行为分析的质量。

本发明中，提出的一种精确度更高的说话人分割聚类算法，该算法在公开数据集上说话人分离错误率仅有16.63％，提出了一种检测速度更快且针对小目标的人脸检测算法，该算法在WiderFace困难目标验证集和测试集上AP表现分别为90.2％、89.7％。

以上所述，仅为本发明较佳的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，根据本发明的技术方案及其发明构思加以等同替换或改变，都应涵盖在本发明的保护范围之内。

Claims

1.一种基于音视频分析课堂交互行为的方法，其特征在于，包括如下步骤：

2.根据权利要求1所述的一种基于音视频分析课堂交互行为的方法，其特征在于，所述说话人分割聚类算法包含三个模块：数据前处理模块、LA-TDNN模块、说话人聚类模块。

3.根据权利要求2所述的一种基于音视频分析课堂交互行为的方法，其特征在于，所述数据前处理模块用于对语音数据进行特征参数提取、语音活动检测以及与语音时序分段。

4.根据权利要求2所述的一种基于音视频分析课堂交互行为的方法，其特征在于，所述LA-TDNN模块以TDNN为基础进行相应的改良。在帧级特征提取部分增加了LSTM层，以弥补TDNN的时间延迟层只关注局部特征的缺点，在时域池化部分将传统的基于统计池化替换成了基于双重多头注意力机制的池化，通过注意力机制为不同帧提供不同的权重，能够更有效的捕捉说话人特征。

5.根据权利要求2所述的一种基于音视频分析课堂交互行为的方法，其特征在于，所述说话人聚类模块学习LA-TDNN输出的x-vector，建立PLDA模型，采用适当的无监督聚类方法，利用PLDA模型计算说话人特征之间的相似性，判断两者是否属于统一说话人，从而达到聚类的效果。

6.根据权利要求1所述的一种基于音视频分析课堂交互行为的方法，其特征在于，所述S2中人脸检测算法包含三个模块：特征提取模块、特征融合模块、回归与分类模块。

7.根据权利要求6所述的一种基于音视频分析课堂交互行为的方法，其特征在于，所述特征提取模块根据残差网络思想构建特征提取网络，负责从原始图像中提取有效特征，同时使得模型训练和收敛速度更快。

8.根据权利要求6所述的一种基于音视频分析课堂交互行为的方法，其特征在于，所述特征融合模块采用双向特征融合机制充分结合深层和浅层信息，在传统FPN模块之后根据PANet的思想增加了一个自底向上的融合过程，PANet使得自底向上的路径增强，FPN层自顶向下传达强语义特征，而PANet自底向上传达强定位特征。

9.根据权利要求6所述的一种基于音视频分析课堂交互行为的方法，其特征在于，所述回归与分类模块为了解决分类得分和回归准确率相关性比较低，在框回归子网络中增加一个IoU预测分支，将IoU预测值和分类得分共同作为最终的检测置信度，最终得到得到所包含的目标框位置和类别信息。

10.根据权利要求1所述的一种基于音视频分析课堂交互行为的方法，其特征在于，所述人体站立姿态检测算法包含两个模块：人体动作特征提取模块、分类模块；其中人体动作特征提取模块，利用OpenPose提取人体站立姿态关键点，并将所有关键点信息整合起来；分类模块利用MLPClassifier构建二分类模型，将人体站立姿态关键点信息送入分类网络进行训练，最终得到人体站立姿态检测模型。