CN116862287A

CN116862287A - 一种多模态英语演讲能力评估方法

Info

Publication number: CN116862287A
Application number: CN202310706494.4A
Authority: CN
Inventors: 吴斌; 张婷婷; 郑春萍; 宋威
Original assignee: Beijing University of Posts and Telecommunications
Current assignee: Beijing University of Posts and Telecommunications
Priority date: 2023-06-14
Filing date: 2023-06-14
Publication date: 2023-10-10

Abstract

本发明提出一种多模态英语演讲能力评估方法，包括，获取英语课堂上学生的演讲视频，对演讲视频进行数据筛选、切分和预处理，得到演讲片段；对演讲片段进行人工标注，划分焦虑等级；从演讲片段中提取音频和文本数据，对视频、音频、文本三模态提取模态特征；构建英语演讲焦虑评估模型；英语演讲焦虑评估模型包括单模态表示层、多模态融合层、焦虑检测层；根据焦虑等级和模态特征对演讲焦虑评估模型进行训练；将待评估演讲视频输入训练完成的英语演讲焦虑评估模型，输出包含焦虑等级的焦虑检测结果。本发明提出的方法聚焦于演讲焦虑强度检测，并可以从真实课堂场景推广到其他演讲场景中。

Description

一种多模态英语演讲能力评估方法

技术领域

本发明属于智慧教育与人工智能辅助语言学习领域。

背景技术

公众演讲是大学生学业和职业生涯发展的一项基本技能，本发明聚焦于演讲者英语演讲能力评估的一个重要维度：公众演讲焦虑强度。据报道，有15％-30％的人面临演讲焦虑，这阻碍了他们的职业和学业发展。当演讲者遭受演讲焦虑时，他们通常会经历生理唤起(如，心跳加快)，消极的自我关注认知(如，“我担心我会显得无能”)，和/或行为伴随(如，颤抖，言语不流利，避免与听众目光接触)，以应对预期或实际的演讲。为了帮助人们减轻焦虑，一种精确的公共演讲焦虑检测方法对于后续的干预或治疗是必要的。同时，精确的焦虑检测方法也能进一步促进自动化英语演讲评分系统的发展。

目前少有带观众的真实教学课堂场景下的大规模细粒度公众演讲数据集，且现有的多模态演讲焦虑行为分析大多只关注于生理信号和非语言行为，缺少文本语言信息的支持。

多模态行为分析结合了多种模态例如语音、视频、姿态等，可以提供更丰富的信息表达。每个模态都可以提供不同的视角和特征，从而更全面地捕捉演讲者的行为和情感状态。不同模态之间存在互补性的特征，通过融合多个模态的信息可以增强特征的表达能力和鲁棒性。例如，语音可以提供情感色彩和声音特征，视频可以提供面部表情和身体语言特征，姿态可以提供动作和姿势特征。多模态行为分析可以同时考虑多个行为维度，如语言表达、情绪状态、姿态动作等，这有助于更全面地了解演讲者的行为特征和焦虑状态，实现更准确地焦虑检测和评估，从而提供个性化的指导和干预措施。

然而现有的多模态行为分析方法，多用于情感分析与情绪识别、抑郁症检测、参与度评估、幽默检测等任务，少有针对课堂公众演讲焦虑检测任务的深度学习模型，国内多模态演讲教学与评估的相关平台设计和实证研发相对匮乏。同时，大多数已有用于公众演讲能力评估的模型只使用非语言行为(如视频、音频)，忽视了文本语言信息对于焦虑检测任务的作用。

发明内容

本发明旨在至少在一定程度上解决相关技术中的技术问题之一。

为此，本发明的目的在于提出一种多模态英语演讲能力评估方法，用于实现演讲课堂中学生英语演讲能力的大规模自动化评估。

为达上述目的，本发明第一方面实施例提出了一种多模态英语演讲能力评估方法，包括：

获取英语课堂上学生的演讲视频，对演讲视频进行数据筛选、切分和预处理，得到演讲片段；

对所述演讲片段进行人工标注，划分焦虑等级；

从所述演讲片段中提取音频和文本数据，对视频、音频、文本三模态提取模态特征；

构建英语演讲焦虑评估模型；所述英语演讲焦虑评估模型包括单模态表示层、多模态融合层、焦虑检测层；根据所述焦虑等级和所述模态特征对所述演讲焦虑评估模型进行训练；

将待评估演讲视频输入训练完成的英语演讲焦虑评估模型，输出包含所述焦虑等级的焦虑检测结果。

另外，根据本发明上述实施例的一种多模态英语演讲能力评估方法还可以具有以下附加的技术特征：

进一步地，在本发明的一个实施例中，从所述演讲片段中提取音频和文本数据，对视频、音频、文本三模态提取模态特征，包括：

使用BERT-base-uncased预训练模型提取文本模态特征，使用Wav2vec2.0-base预训练模型提取音频模态特征，使用R2Plus1D预训练模型提取视觉模态特征。

进一步地，在本发明的一个实施例中，所述单模态表示层用于模态表示学习；其中，定义s,lt,a,v分别表示演讲稿、实时文本、音频和视频模态，则有语言向量序列音频向量序列/>视频向量序列/>实时文本向量序列N_s、N_a和N_lt表示序列的长度，d_s、d_a、d_v和d_lt表示序列的维数；

对模态s,lt,a使用平均函数将映射到/>m∈{s,lt,a}，表示为：

其中，N_m表示序列长度或U_m的行数，U_m,表示第i行的矩阵U_m；

将输入表示向量通过语言编码器和声学编码器投射到语言空间和声学空间，所述语言编码器和声学编码器分别表示为：

进一步地，在本发明的一个实施例中，所述多模态融合层用于将声学相关向量融合到下游焦虑预测的联合向量中，通过串联生成最终的输出向量，表示为：

其中，dh表示声学空间维度，代表拼接操作，最终的模型预测焦虑等级标签/>表示为/>使用一个全连接层作为P函数。

进一步地，在本发明的一个实施例中，所述英语演讲焦虑评估模型的损失函数表示为：

L＝L_task+α·L_sim+β·L_diff+γ·L_recon，

其中，L_task与特定的任务有关，α、β和γ是决定正则化项在总损失中所占比例的三个超参数；

其中，任务损失Task Loss表示为：

正则化损失Regularization Loss包括：

相似性损失Similarity Loss表示为：

差异性损失Difference Loss表示为：其中，表示Frobenius范数的平方，

重建损失Reconstruction Loss表示为：其中，/>表示L2范数的平方。

进一步地，在本发明的一个实施例中，

为达上述目的，本发明第二方面实施例提出了一种多模态英语演讲能力评估装置，包括以下模块：

预处理模块，用于获取英语课堂上学生的演讲视频，对演讲视频进行数据筛选、切分和预处理，得到演讲片段；

标注模块，用于对所述演讲片段进行人工标注，划分焦虑等级；

提取模块，用于从所述演讲片段中提取音频和文本数据，对视频、音频、文本三模态提取模态特征；

构建模块，用于构建英语演讲焦虑评估模型；所述英语演讲焦虑评估模型包括单模态表示层、多模态融合层、焦虑检测层；根据所述焦虑等级和所述模态特征对所述演讲焦虑评估模型进行训练；

评估模块，用于将待评估演讲视频输入训练完成的英语演讲焦虑评估模型，输出包含所述焦虑等级的焦虑检测结果。

进一步地，在本发明的一个实施例中，所述提取模块，还用于

为达上述目的，本发明第三方面实施例提出了一种计算机设备，其特征在于，包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序，所述处理器执行所述计算机程序时，实现如上所述的一种多模态英语演讲能力评估方法。

为达上述目的，本发明第四方面实施例提出了一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现如上所述的一种多模态英语演讲能力评估方法。

本发明实施例提出的多模态英语演讲能力评估方法应用到智慧教育领域，收集英语演讲课堂上学生的演讲视频录像，从视频中分别提取音频和文本信息，得到视觉、声觉、语言三模态数据，构建一个专注于课堂演讲的大规模多标签的数据集。利用该数据集，使用深度学习技术训练一个多模态英语演讲焦虑自动化评估模型(Public Speaking AnxietyDetection,PSAD)，进行单模态特征提取和跨模态融合。针对视觉、声觉和文本的多模态数据特征选择有效的模态融合策略，得到融合后的多模态表示，模型输出最终的演讲焦虑强度预测结果，从而实现演讲课堂中学生英语演讲能力的大规模自动化评估。

附图说明

本发明上述的和/或附加的方面和优点从下面结合附图对实施例的描述中将变得明显和容易理解，其中：

图1为本发明实施例所提供的一种多模态英语演讲能力评估方法的流程示意图。

图2为本发明实施例所提供的一种多模态英语演讲能力评估装置的流程示意图。

具体实施方式

下面详细描述本发明的实施例，所述实施例的示例在附图中示出，其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的，旨在用于解释本发明，而不能理解为对本发明的限制。

下面参考附图描述本发明实施例的多模态英语演讲能力评估方法。

如图1所示，该多模态英语演讲能力评估方法包括以下步骤：

S101：获取英语课堂上学生的演讲视频，对演讲视频进行数据筛选、切分和预处理，得到演讲片段；

本发明构建了一个来源于真实课堂的口语焦虑(Speaking Anxiety in Class,SAC)数据集。SAC是一个公开的多模态大规模数据集，来自实际的英语演讲课程，带有焦虑水平注释。第二语言课是练习口语和自然流露焦虑的合适场所。具体来说，SAC包括所有学生在一个学期内在两个英语授课的课堂上做三次演讲的视频。它包括2000多个片段，每个片段包含视觉、声学、语言三种模态的内容和一个焦虑强度等级的注释。

S102：对演讲片段进行人工标注，划分焦虑等级；

其中，具体包括，

数据收集：在一个学期内，我们从学校英语演讲班的两个班中挑选学生，使用摄像机录制每次演讲的视频和音频，每个学生至少做三次演讲，并收集他们的演讲稿作为语言信息。由于焦虑在演讲过程中可能并不总是存在，因此将整个视频作为一个单元的焦虑识别方法存在粒度过粗的问题。但是，如果分割过于精细，标注工作的难度和工作量也会增加。作为权衡，我们将视频以句子为单位分割成多个片段。如果分割的句子太短，那就把它合并到下一个句子中。

数据标注：三名标注者对视频片段进行焦虑等级标注(从1到4，分别表示平静、弱焦虑、焦虑和高度焦虑)。在标注过程中，综合考虑演讲者的身体和头部动作、面部表情、语言流畅性、停顿、口吃和颤抖的声音，以确定他们的PSA强度。

特征提取：使用BERT-base-uncased预训练模型提取文本模态特征，使用Wav2vec2.0-base预训练模型提取音频模态特征，使用R2Plus1D预训练模型提取视觉模态特征。

S103：从演讲片段中提取音频和文本数据，对视频、音频、文本三模态提取模态特征；

进一步地，在本发明的一个实施例中，使用BERT-base-uncased预训练模型提取文本模态特征，使用Wav2vec2.0-base预训练模型提取音频模态特征，使用R2Plus1D预训练模型提取视觉模态特征。

演讲稿本身并不能决定演讲者是否焦虑，但演讲稿和实际表现之间的差异决定了演讲者是否焦虑。例如，演讲稿是“He is a human”。然而，当演讲者在课堂上现场演讲时，实际表演的文本语言可能是“Uh,He is a he is a human being.”现实演讲中会有更多的重复和停顿。因此，本发明对比演讲稿和实时文本之间的差距，作为评判PSA的一个方面。

S104：构建英语演讲焦虑评估模型；英语演讲焦虑评估模型包括单模态表示层、多模态融合层、焦虑检测层；根据焦虑等级和模态特征对演讲焦虑评估模型进行训练；

进一步地，在本发明的一个实施例中，单模态表示层用于模态表示学习；其中，定义s,lt,a,v分别表示演讲稿、实时文本、音频和视频模态，则有语言向量序列音频向量序列/>视频向量序列/>实时文本向量序列/>N_s、N_a和N_lt表示序列的长度，d_s、d_a、d_v和d_lt表示序列的维数；

对模态s,lt,a使用平均函数将映射到/>m∈{s,lt,a}，表示为：

将输入表示向量通过语言编码器和声学编码器投射到语言空间和声学空间，语言编码器和声学编码器分别表示为：

进一步地，在本发明的一个实施例中，多模态融合层用于将声学相关向量融合到下游焦虑预测的联合向量中，通过串联生成最终的输出向量，表示为：

进一步地，在本发明的一个实施例中，英语演讲焦虑评估模型的损失函数表示为：

L＝L_task+α·L_sim+β·L_diff+γ·L_recon，

其中，任务损失Task Loss表示为：

正则化损失Regularization Loss包括：

相似性损失Similarity Loss表示为：

重建损失Reconstruction Loss表示为：其中，表示L2范数的平方。

S105：将待评估演讲视频输入训练完成的英语演讲焦虑评估模型，输出包含焦虑等级的焦虑检测结果。

相对于现有技术，本发明的优点有：

1)提高准确性：通过综合利用多模态数据(如音频、视频、传感器数据等)，本模型能够更准确地识别和评估焦虑情况，为焦虑检测任务提供更精确的结果。

2)增强实时性：采用高效的深度学习算法和实时数据处理技术，本模型能够实时监测和反馈焦虑水平，为用户提供即时的反馈和干预措施。

3)提供个性化支持：基于个体差异和上下文信息，本模型能够定制化地为不同用户提供个性化的焦虑管理建议和支持，满足用户的个性化需求。

4)降低成本和便捷性：相比传统的焦虑检测方法(如问卷调查、面对面评估等)，本模型基于非侵入性的多模态数据采集方式，能够在更广泛的环境中使用，降低了检测成本和操作难度，提高了检测的便捷性和可行性。

本专利申请的多模态焦虑检测模型相对于现有技术具有更高的准确性、实时性、个性化支持和成本效益，为公众演讲焦虑检测领域带来了显著的技术进步和应用潜力。

为了实现上述实施例，本发明还提出多模态英语演讲能力评估装置。

图2为本发明实施例提供的一种多模态英语演讲能力评估装置的结构示意图。

如图2所示，该多模态英语演讲能力评估装置包括：预处理模块100，标注模块200，提取模块300，构建模块400，评估模块500，其中，

标注模块，用于对演讲片段进行人工标注，划分焦虑等级；

提取模块，用于从演讲片段中提取音频和文本数据，对视频、音频、文本三模态提取模态特征；

构建模块，用于构建英语演讲焦虑评估模型；英语演讲焦虑评估模型包括单模态表示层、多模态融合层、焦虑检测层；根据焦虑等级和模态特征对演讲焦虑评估模型进行训练；

评估模块，用于将待评估演讲视频输入训练完成的英语演讲焦虑评估模型，输出包含焦虑等级的焦虑检测结果。

进一步地，在本发明的一个实施例中，提取模块，还用于：

为达上述目的，本发明第三方面实施例提出了一种计算机设备，其特征在于，包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序，所述处理器执行所述计算机程序时，实现如上所述的多模态英语演讲能力评估方法。

为达上述目的，本发明第四方面实施例提出了一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现如上所述的多模态英语演讲能力评估方法。

在本说明书的描述中，参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中，对上述术语的示意性表述不必须针对的是相同的实施例或示例。而且，描述的具体特征、结构、材料或者特点可以在任一个或多个实施例或示例中以合适的方式结合。此外，在不相互矛盾的情况下，本领域的技术人员可以将本说明书中描述的不同实施例或示例以及不同实施例或示例的特征进行结合和组合。

此外，术语“第一”、“第二”仅用于描述目的，而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此，限定有“第一”、“第二”的特征可以明示或者隐含地包括至少一个该特征。在本发明的描述中，“多个”的含义是至少两个，例如两个，三个等，除非另有明确具体的限定。

尽管上面已经示出和描述了本发明的实施例，可以理解的是,上述实施例是示例性的,不能理解为对本发明的限制,本领域的普通技术人员在本发明的范围内可以对上述实施例进行变化、修改、替换和变型。

Claims

1.一种多模态英语演讲能力评估方法，其特征在于，包括以下步骤：

对所述演讲片段进行人工标注，划分焦虑等级；

2.根据权利要求1所述的方法，其特征在于，从所述演讲片段中提取音频和文本数据，对视频、音频、文本三模态提取模态特征，包括：

3.根据权利要求1所述的方法，其特征在于，所述单模态表示层用于模态表示学习；其中，定义s,lt,a,v分别表示演讲稿、实时文本、音频和视频模态，则有语言向量序列音频向量序列/>视频向量序列/>实时文本向量序列N_s、N_a和N_lt表示序列的长度，d_s、d_a、d_v和d_lt表示序列的维数；

对模态s,lt,a使用平均函数将映射到/>m∈{s,lt,a}，表示为：

4.根据权利要求1所述的方法，其特征在于，所述多模态融合层用于将声学相关向量融合到下游焦虑预测的联合向量中，通过串联生成最终的输出向量，表示为：

其中，d_h表示声学空间维度，代表拼接操作，最终的模型预测焦虑等级标签/>表示为使用一个全连接层作为P函数。

5.根据权利要求1所述的方法，其特征在于，所述英语演讲焦虑评估模型的损失函数表示为：

L＝L_task+α·L_sim+β·L_diff+γ·L_recon，

其中，任务损失Task Loss表示为：

正则化损失Regularization Loss包括：

相似性损失Similarity Loss表示为：

差异性损失Difference Loss表示为：其中，/>表示Frobenius范数的平方，

6.一种多模态英语演讲能力评估装置，其特征在于，包括以下模块：

7.根据权利要求6所述的装置，其特征在于，所述提取模块，还用于

8.一种计算机设备，其特征在于，包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序，所述处理器执行所述计算机程序时，实现如权利要求1-5中任一所述的多模态英语演讲能力评估方法。

9.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现如权利要求1-5任意一项所述的多模态英语演讲能力评估方法。