CN116862287A - 一种多模态英语演讲能力评估方法 - Google Patents

一种多模态英语演讲能力评估方法 Download PDF

Info

Publication number
CN116862287A
CN116862287A CN202310706494.4A CN202310706494A CN116862287A CN 116862287 A CN116862287 A CN 116862287A CN 202310706494 A CN202310706494 A CN 202310706494A CN 116862287 A CN116862287 A CN 116862287A
Authority
CN
China
Prior art keywords
anxiety
speech
lecture
english
video
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202310706494.4A
Other languages
English (en)
Inventor
吴斌
张婷婷
郑春萍
宋威
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing University of Posts and Telecommunications
Original Assignee
Beijing University of Posts and Telecommunications
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing University of Posts and Telecommunications filed Critical Beijing University of Posts and Telecommunications
Priority to CN202310706494.4A priority Critical patent/CN116862287A/zh
Publication of CN116862287A publication Critical patent/CN116862287A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/06Resources, workflows, human or project management; Enterprise or organisation planning; Enterprise or organisation modelling
    • G06Q10/063Operations research, analysis or management
    • G06Q10/0639Performance analysis of employees; Performance analysis of enterprise or organisation operations
    • G06Q10/06398Performance of employee with respect to a job function
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/774Generating sets of training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • G06V20/41Higher-level, semantic clustering, classification or understanding of video scenes, e.g. detection, labelling or Markovian modelling of sport events or news items
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • G06V20/46Extracting features or characteristics from the video content, e.g. video fingerprints, representative shots or key frames
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • G06V20/49Segmenting video sequences, i.e. computational techniques such as parsing or cutting the sequence, low-level clustering or determining units such as shots or scenes
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/27Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
    • G10L25/30Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique using neural networks
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • G10L25/51Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
    • G10L25/63Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination for estimating an emotional state

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Business, Economics & Management (AREA)
  • Health & Medical Sciences (AREA)
  • Multimedia (AREA)
  • Human Resources & Organizations (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Software Systems (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Evolutionary Computation (AREA)
  • Computing Systems (AREA)
  • Signal Processing (AREA)
  • General Engineering & Computer Science (AREA)
  • Human Computer Interaction (AREA)
  • Strategic Management (AREA)
  • Acoustics & Sound (AREA)
  • Entrepreneurship & Innovation (AREA)
  • Economics (AREA)
  • Educational Administration (AREA)
  • Development Economics (AREA)
  • Quality & Reliability (AREA)
  • Databases & Information Systems (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Medical Informatics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Data Mining & Analysis (AREA)
  • Molecular Biology (AREA)
  • General Business, Economics & Management (AREA)
  • Mathematical Physics (AREA)
  • Tourism & Hospitality (AREA)
  • Child & Adolescent Psychology (AREA)
  • Hospice & Palliative Care (AREA)
  • Psychiatry (AREA)
  • Operations Research (AREA)

Abstract

本发明提出一种多模态英语演讲能力评估方法,包括,获取英语课堂上学生的演讲视频,对演讲视频进行数据筛选、切分和预处理,得到演讲片段;对演讲片段进行人工标注,划分焦虑等级;从演讲片段中提取音频和文本数据,对视频、音频、文本三模态提取模态特征;构建英语演讲焦虑评估模型;英语演讲焦虑评估模型包括单模态表示层、多模态融合层、焦虑检测层;根据焦虑等级和模态特征对演讲焦虑评估模型进行训练;将待评估演讲视频输入训练完成的英语演讲焦虑评估模型,输出包含焦虑等级的焦虑检测结果。本发明提出的方法聚焦于演讲焦虑强度检测,并可以从真实课堂场景推广到其他演讲场景中。

Description

一种多模态英语演讲能力评估方法
技术领域
本发明属于智慧教育与人工智能辅助语言学习领域。
背景技术
公众演讲是大学生学业和职业生涯发展的一项基本技能,本发明聚焦于演讲者英语演讲能力评估的一个重要维度:公众演讲焦虑强度。据报道,有15%-30%的人面临演讲焦虑,这阻碍了他们的职业和学业发展。当演讲者遭受演讲焦虑时,他们通常会经历生理唤起(如,心跳加快),消极的自我关注认知(如,“我担心我会显得无能”),和/或行为伴随(如,颤抖,言语不流利,避免与听众目光接触),以应对预期或实际的演讲。为了帮助人们减轻焦虑,一种精确的公共演讲焦虑检测方法对于后续的干预或治疗是必要的。同时,精确的焦虑检测方法也能进一步促进自动化英语演讲评分系统的发展。
目前少有带观众的真实教学课堂场景下的大规模细粒度公众演讲数据集,且现有的多模态演讲焦虑行为分析大多只关注于生理信号和非语言行为,缺少文本语言信息的支持。
多模态行为分析结合了多种模态例如语音、视频、姿态等,可以提供更丰富的信息表达。每个模态都可以提供不同的视角和特征,从而更全面地捕捉演讲者的行为和情感状态。不同模态之间存在互补性的特征,通过融合多个模态的信息可以增强特征的表达能力和鲁棒性。例如,语音可以提供情感色彩和声音特征,视频可以提供面部表情和身体语言特征,姿态可以提供动作和姿势特征。多模态行为分析可以同时考虑多个行为维度,如语言表达、情绪状态、姿态动作等,这有助于更全面地了解演讲者的行为特征和焦虑状态,实现更准确地焦虑检测和评估,从而提供个性化的指导和干预措施。
然而现有的多模态行为分析方法,多用于情感分析与情绪识别、抑郁症检测、参与度评估、幽默检测等任务,少有针对课堂公众演讲焦虑检测任务的深度学习模型,国内多模态演讲教学与评估的相关平台设计和实证研发相对匮乏。同时,大多数已有用于公众演讲能力评估的模型只使用非语言行为(如视频、音频),忽视了文本语言信息对于焦虑检测任务的作用。
发明内容
本发明旨在至少在一定程度上解决相关技术中的技术问题之一。
为此,本发明的目的在于提出一种多模态英语演讲能力评估方法,用于实现演讲课堂中学生英语演讲能力的大规模自动化评估。
为达上述目的,本发明第一方面实施例提出了一种多模态英语演讲能力评估方法,包括:
获取英语课堂上学生的演讲视频,对演讲视频进行数据筛选、切分和预处理,得到演讲片段;
对所述演讲片段进行人工标注,划分焦虑等级;
从所述演讲片段中提取音频和文本数据,对视频、音频、文本三模态提取模态特征;
构建英语演讲焦虑评估模型;所述英语演讲焦虑评估模型包括单模态表示层、多模态融合层、焦虑检测层;根据所述焦虑等级和所述模态特征对所述演讲焦虑评估模型进行训练;
将待评估演讲视频输入训练完成的英语演讲焦虑评估模型,输出包含所述焦虑等级的焦虑检测结果。
另外,根据本发明上述实施例的一种多模态英语演讲能力评估方法还可以具有以下附加的技术特征:
进一步地,在本发明的一个实施例中,从所述演讲片段中提取音频和文本数据,对视频、音频、文本三模态提取模态特征,包括:
使用BERT-base-uncased预训练模型提取文本模态特征,使用Wav2vec2.0-base预训练模型提取音频模态特征,使用R2Plus1D预训练模型提取视觉模态特征。
进一步地,在本发明的一个实施例中,所述单模态表示层用于模态表示学习;其中,定义s,lt,a,v分别表示演讲稿、实时文本、音频和视频模态,则有语言向量序列音频向量序列/>视频向量序列/>实时文本向量序列Ns、Na和Nlt表示序列的长度,ds、da、dv和dlt表示序列的维数;
对模态s,lt,a使用平均函数将映射到/>m∈{s,lt,a},表示为:
其中,Nm表示序列长度或Um的行数,Um,表示第i行的矩阵Um
将输入表示向量通过语言编码器和声学编码器投射到语言空间和声学空间,所述语言编码器和声学编码器分别表示为:
进一步地,在本发明的一个实施例中,所述多模态融合层用于将声学相关向量融合到下游焦虑预测的联合向量中,通过串联生成最终的输出向量,表示为:
其中,dh表示声学空间维度,代表拼接操作,最终的模型预测焦虑等级标签/>表示为/>使用一个全连接层作为P函数。
进一步地,在本发明的一个实施例中,所述英语演讲焦虑评估模型的损失函数表示为:
L=Ltask+α·Lsim+β·Ldiff+γ·Lrecon
其中,Ltask与特定的任务有关,α、β和γ是决定正则化项在总损失中所占比例的三个超参数;
其中,任务损失Task Loss表示为:
正则化损失Regularization Loss包括:
相似性损失Similarity Loss表示为:
差异性损失Difference Loss表示为:其中,表示Frobenius范数的平方,
重建损失Reconstruction Loss表示为:其中,/>表示L2范数的平方。
进一步地,在本发明的一个实施例中,
为达上述目的,本发明第二方面实施例提出了一种多模态英语演讲能力评估装置,包括以下模块:
预处理模块,用于获取英语课堂上学生的演讲视频,对演讲视频进行数据筛选、切分和预处理,得到演讲片段;
标注模块,用于对所述演讲片段进行人工标注,划分焦虑等级;
提取模块,用于从所述演讲片段中提取音频和文本数据,对视频、音频、文本三模态提取模态特征;
构建模块,用于构建英语演讲焦虑评估模型;所述英语演讲焦虑评估模型包括单模态表示层、多模态融合层、焦虑检测层;根据所述焦虑等级和所述模态特征对所述演讲焦虑评估模型进行训练;
评估模块,用于将待评估演讲视频输入训练完成的英语演讲焦虑评估模型,输出包含所述焦虑等级的焦虑检测结果。
进一步地,在本发明的一个实施例中,所述提取模块,还用于
使用BERT-base-uncased预训练模型提取文本模态特征,使用Wav2vec2.0-base预训练模型提取音频模态特征,使用R2Plus1D预训练模型提取视觉模态特征。
为达上述目的,本发明第三方面实施例提出了一种计算机设备,其特征在于,包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时,实现如上所述的一种多模态英语演讲能力评估方法。
为达上述目的,本发明第四方面实施例提出了一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如上所述的一种多模态英语演讲能力评估方法。
本发明实施例提出的多模态英语演讲能力评估方法应用到智慧教育领域,收集英语演讲课堂上学生的演讲视频录像,从视频中分别提取音频和文本信息,得到视觉、声觉、语言三模态数据,构建一个专注于课堂演讲的大规模多标签的数据集。利用该数据集,使用深度学习技术训练一个多模态英语演讲焦虑自动化评估模型(Public Speaking AnxietyDetection,PSAD),进行单模态特征提取和跨模态融合。针对视觉、声觉和文本的多模态数据特征选择有效的模态融合策略,得到融合后的多模态表示,模型输出最终的演讲焦虑强度预测结果,从而实现演讲课堂中学生英语演讲能力的大规模自动化评估。
附图说明
本发明上述的和/或附加的方面和优点从下面结合附图对实施例的描述中将变得明显和容易理解,其中:
图1为本发明实施例所提供的一种多模态英语演讲能力评估方法的流程示意图。
图2为本发明实施例所提供的一种多模态英语演讲能力评估装置的流程示意图。
具体实施方式
下面详细描述本发明的实施例,所述实施例的示例在附图中示出,其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的,旨在用于解释本发明,而不能理解为对本发明的限制。
下面参考附图描述本发明实施例的多模态英语演讲能力评估方法。
图1为本发明实施例所提供的一种多模态英语演讲能力评估方法的流程示意图。
如图1所示,该多模态英语演讲能力评估方法包括以下步骤:
S101:获取英语课堂上学生的演讲视频,对演讲视频进行数据筛选、切分和预处理,得到演讲片段;
本发明构建了一个来源于真实课堂的口语焦虑(Speaking Anxiety in Class,SAC)数据集。SAC是一个公开的多模态大规模数据集,来自实际的英语演讲课程,带有焦虑水平注释。第二语言课是练习口语和自然流露焦虑的合适场所。具体来说,SAC包括所有学生在一个学期内在两个英语授课的课堂上做三次演讲的视频。它包括2000多个片段,每个片段包含视觉、声学、语言三种模态的内容和一个焦虑强度等级的注释。
S102:对演讲片段进行人工标注,划分焦虑等级;
其中,具体包括,
数据收集:在一个学期内,我们从学校英语演讲班的两个班中挑选学生,使用摄像机录制每次演讲的视频和音频,每个学生至少做三次演讲,并收集他们的演讲稿作为语言信息。由于焦虑在演讲过程中可能并不总是存在,因此将整个视频作为一个单元的焦虑识别方法存在粒度过粗的问题。但是,如果分割过于精细,标注工作的难度和工作量也会增加。作为权衡,我们将视频以句子为单位分割成多个片段。如果分割的句子太短,那就把它合并到下一个句子中。
数据标注:三名标注者对视频片段进行焦虑等级标注(从1到4,分别表示平静、弱焦虑、焦虑和高度焦虑)。在标注过程中,综合考虑演讲者的身体和头部动作、面部表情、语言流畅性、停顿、口吃和颤抖的声音,以确定他们的PSA强度。
特征提取:使用BERT-base-uncased预训练模型提取文本模态特征,使用Wav2vec2.0-base预训练模型提取音频模态特征,使用R2Plus1D预训练模型提取视觉模态特征。
S103:从演讲片段中提取音频和文本数据,对视频、音频、文本三模态提取模态特征;
进一步地,在本发明的一个实施例中,使用BERT-base-uncased预训练模型提取文本模态特征,使用Wav2vec2.0-base预训练模型提取音频模态特征,使用R2Plus1D预训练模型提取视觉模态特征。
演讲稿本身并不能决定演讲者是否焦虑,但演讲稿和实际表现之间的差异决定了演讲者是否焦虑。例如,演讲稿是“He is a human”。然而,当演讲者在课堂上现场演讲时,实际表演的文本语言可能是“Uh,He is a he is a human being.”现实演讲中会有更多的重复和停顿。因此,本发明对比演讲稿和实时文本之间的差距,作为评判PSA的一个方面。
S104:构建英语演讲焦虑评估模型;英语演讲焦虑评估模型包括单模态表示层、多模态融合层、焦虑检测层;根据焦虑等级和模态特征对演讲焦虑评估模型进行训练;
进一步地,在本发明的一个实施例中,单模态表示层用于模态表示学习;其中,定义s,lt,a,v分别表示演讲稿、实时文本、音频和视频模态,则有语言向量序列音频向量序列/>视频向量序列/>实时文本向量序列/>Ns、Na和Nlt表示序列的长度,ds、da、dv和dlt表示序列的维数;
对模态s,lt,a使用平均函数将映射到/>m∈{s,lt,a},表示为:
其中,Nm表示序列长度或Um的行数,Um,表示第i行的矩阵Um
将输入表示向量通过语言编码器和声学编码器投射到语言空间和声学空间,语言编码器和声学编码器分别表示为:
进一步地,在本发明的一个实施例中,多模态融合层用于将声学相关向量融合到下游焦虑预测的联合向量中,通过串联生成最终的输出向量,表示为:
其中,dh表示声学空间维度,代表拼接操作,最终的模型预测焦虑等级标签/>表示为/>使用一个全连接层作为P函数。
进一步地,在本发明的一个实施例中,英语演讲焦虑评估模型的损失函数表示为:
L=Ltask+α·Lsim+β·Ldiff+γ·Lrecon
其中,Ltask与特定的任务有关,α、β和γ是决定正则化项在总损失中所占比例的三个超参数;
其中,任务损失Task Loss表示为:
正则化损失Regularization Loss包括:
相似性损失Similarity Loss表示为:
差异性损失Difference Loss表示为:其中,表示Frobenius范数的平方,
重建损失Reconstruction Loss表示为:其中,表示L2范数的平方。
S105:将待评估演讲视频输入训练完成的英语演讲焦虑评估模型,输出包含焦虑等级的焦虑检测结果。
本发明实施例提出的多模态英语演讲能力评估方法应用到智慧教育领域,收集英语演讲课堂上学生的演讲视频录像,从视频中分别提取音频和文本信息,得到视觉、声觉、语言三模态数据,构建一个专注于课堂演讲的大规模多标签的数据集。利用该数据集,使用深度学习技术训练一个多模态英语演讲焦虑自动化评估模型(Public Speaking AnxietyDetection,PSAD),进行单模态特征提取和跨模态融合。针对视觉、声觉和文本的多模态数据特征选择有效的模态融合策略,得到融合后的多模态表示,模型输出最终的演讲焦虑强度预测结果,从而实现演讲课堂中学生英语演讲能力的大规模自动化评估。
相对于现有技术,本发明的优点有:
1)提高准确性:通过综合利用多模态数据(如音频、视频、传感器数据等),本模型能够更准确地识别和评估焦虑情况,为焦虑检测任务提供更精确的结果。
2)增强实时性:采用高效的深度学习算法和实时数据处理技术,本模型能够实时监测和反馈焦虑水平,为用户提供即时的反馈和干预措施。
3)提供个性化支持:基于个体差异和上下文信息,本模型能够定制化地为不同用户提供个性化的焦虑管理建议和支持,满足用户的个性化需求。
4)降低成本和便捷性:相比传统的焦虑检测方法(如问卷调查、面对面评估等),本模型基于非侵入性的多模态数据采集方式,能够在更广泛的环境中使用,降低了检测成本和操作难度,提高了检测的便捷性和可行性。
本专利申请的多模态焦虑检测模型相对于现有技术具有更高的准确性、实时性、个性化支持和成本效益,为公众演讲焦虑检测领域带来了显著的技术进步和应用潜力。
为了实现上述实施例,本发明还提出多模态英语演讲能力评估装置。
图2为本发明实施例提供的一种多模态英语演讲能力评估装置的结构示意图。
如图2所示,该多模态英语演讲能力评估装置包括:预处理模块100,标注模块200,提取模块300,构建模块400,评估模块500,其中,
预处理模块,用于获取英语课堂上学生的演讲视频,对演讲视频进行数据筛选、切分和预处理,得到演讲片段;
标注模块,用于对演讲片段进行人工标注,划分焦虑等级;
提取模块,用于从演讲片段中提取音频和文本数据,对视频、音频、文本三模态提取模态特征;
构建模块,用于构建英语演讲焦虑评估模型;英语演讲焦虑评估模型包括单模态表示层、多模态融合层、焦虑检测层;根据焦虑等级和模态特征对演讲焦虑评估模型进行训练;
评估模块,用于将待评估演讲视频输入训练完成的英语演讲焦虑评估模型,输出包含焦虑等级的焦虑检测结果。
进一步地,在本发明的一个实施例中,提取模块,还用于:
使用BERT-base-uncased预训练模型提取文本模态特征,使用Wav2vec2.0-base预训练模型提取音频模态特征,使用R2Plus1D预训练模型提取视觉模态特征。
为达上述目的,本发明第三方面实施例提出了一种计算机设备,其特征在于,包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时,实现如上所述的多模态英语演讲能力评估方法。
为达上述目的,本发明第四方面实施例提出了一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如上所述的多模态英语演讲能力评估方法。
在本说明书的描述中,参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中,对上述术语的示意性表述不必须针对的是相同的实施例或示例。而且,描述的具体特征、结构、材料或者特点可以在任一个或多个实施例或示例中以合适的方式结合。此外,在不相互矛盾的情况下,本领域的技术人员可以将本说明书中描述的不同实施例或示例以及不同实施例或示例的特征进行结合和组合。
此外,术语“第一”、“第二”仅用于描述目的,而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此,限定有“第一”、“第二”的特征可以明示或者隐含地包括至少一个该特征。在本发明的描述中,“多个”的含义是至少两个,例如两个,三个等,除非另有明确具体的限定。
尽管上面已经示出和描述了本发明的实施例,可以理解的是,上述实施例是示例性的,不能理解为对本发明的限制,本领域的普通技术人员在本发明的范围内可以对上述实施例进行变化、修改、替换和变型。

Claims (9)

1.一种多模态英语演讲能力评估方法,其特征在于,包括以下步骤:
获取英语课堂上学生的演讲视频,对演讲视频进行数据筛选、切分和预处理,得到演讲片段;
对所述演讲片段进行人工标注,划分焦虑等级;
从所述演讲片段中提取音频和文本数据,对视频、音频、文本三模态提取模态特征;
构建英语演讲焦虑评估模型;所述英语演讲焦虑评估模型包括单模态表示层、多模态融合层、焦虑检测层;根据所述焦虑等级和所述模态特征对所述演讲焦虑评估模型进行训练;
将待评估演讲视频输入训练完成的英语演讲焦虑评估模型,输出包含所述焦虑等级的焦虑检测结果。
2.根据权利要求1所述的方法,其特征在于,从所述演讲片段中提取音频和文本数据,对视频、音频、文本三模态提取模态特征,包括:
使用BERT-base-uncased预训练模型提取文本模态特征,使用Wav2vec2.0-base预训练模型提取音频模态特征,使用R2Plus1D预训练模型提取视觉模态特征。
3.根据权利要求1所述的方法,其特征在于,所述单模态表示层用于模态表示学习;其中,定义s,lt,a,v分别表示演讲稿、实时文本、音频和视频模态,则有语言向量序列音频向量序列/>视频向量序列/>实时文本向量序列Ns、Na和Nlt表示序列的长度,ds、da、dv和dlt表示序列的维数;
对模态s,lt,a使用平均函数将映射到/>m∈{s,lt,a},表示为:
其中,Nm表示序列长度或Um的行数,Um,表示第i行的矩阵Um
将输入表示向量通过语言编码器和声学编码器投射到语言空间和声学空间,所述语言编码器和声学编码器分别表示为:
4.根据权利要求1所述的方法,其特征在于,所述多模态融合层用于将声学相关向量融合到下游焦虑预测的联合向量中,通过串联生成最终的输出向量,表示为:
其中,dh表示声学空间维度,代表拼接操作,最终的模型预测焦虑等级标签/>表示为使用一个全连接层作为P函数。
5.根据权利要求1所述的方法,其特征在于,所述英语演讲焦虑评估模型的损失函数表示为:
L=Ltask+α·Lsim+β·Ldiff+γ·Lrecon
其中,Ltask与特定的任务有关,α、β和γ是决定正则化项在总损失中所占比例的三个超参数;
其中,任务损失Task Loss表示为:
正则化损失Regularization Loss包括:
相似性损失Similarity Loss表示为:
差异性损失Difference Loss表示为:其中,/>表示Frobenius范数的平方,
重建损失Reconstruction Loss表示为:其中,/>表示L2范数的平方。
6.一种多模态英语演讲能力评估装置,其特征在于,包括以下模块:
预处理模块,用于获取英语课堂上学生的演讲视频,对演讲视频进行数据筛选、切分和预处理,得到演讲片段;
标注模块,用于对所述演讲片段进行人工标注,划分焦虑等级;
提取模块,用于从所述演讲片段中提取音频和文本数据,对视频、音频、文本三模态提取模态特征;
构建模块,用于构建英语演讲焦虑评估模型;所述英语演讲焦虑评估模型包括单模态表示层、多模态融合层、焦虑检测层;根据所述焦虑等级和所述模态特征对所述演讲焦虑评估模型进行训练;
评估模块,用于将待评估演讲视频输入训练完成的英语演讲焦虑评估模型,输出包含所述焦虑等级的焦虑检测结果。
7.根据权利要求6所述的装置,其特征在于,所述提取模块,还用于
使用BERT-base-uncased预训练模型提取文本模态特征,使用Wav2vec2.0-base预训练模型提取音频模态特征,使用R2Plus1D预训练模型提取视觉模态特征。
8.一种计算机设备,其特征在于,包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时,实现如权利要求1-5中任一所述的多模态英语演讲能力评估方法。
9.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1-5任意一项所述的多模态英语演讲能力评估方法。
CN202310706494.4A 2023-06-14 2023-06-14 一种多模态英语演讲能力评估方法 Pending CN116862287A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202310706494.4A CN116862287A (zh) 2023-06-14 2023-06-14 一种多模态英语演讲能力评估方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202310706494.4A CN116862287A (zh) 2023-06-14 2023-06-14 一种多模态英语演讲能力评估方法

Publications (1)

Publication Number Publication Date
CN116862287A true CN116862287A (zh) 2023-10-10

Family

ID=88225917

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202310706494.4A Pending CN116862287A (zh) 2023-06-14 2023-06-14 一种多模态英语演讲能力评估方法

Country Status (1)

Country Link
CN (1) CN116862287A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117522643A (zh) * 2023-12-04 2024-02-06 新励成教育科技股份有限公司 一种口才训练方法、装置、设备及存储介质

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117522643A (zh) * 2023-12-04 2024-02-06 新励成教育科技股份有限公司 一种口才训练方法、装置、设备及存储介质
CN117522643B (zh) * 2023-12-04 2024-05-10 新励成教育科技股份有限公司 一种口才训练方法、装置、设备及存储介质

Similar Documents

Publication Publication Date Title
Dewan et al. A deep learning approach to detecting engagement of online learners
Zeng et al. Bimodal HCI-related affect recognition
Oviatt et al. Multimodal learning analytics: Assessing learners' mental state during the process of learning
D'Mello et al. Multimodal-multisensor affect detection
CN117055724B (zh) 虚拟教学场景中生成式教学资源系统的工作方法
Süzgün et al. Hospisign: an interactive sign language platform for hearing impaired
CN116862287A (zh) 一种多模态英语演讲能力评估方法
Butko et al. Automated facial affect analysis for one-on-one tutoring applications
Alshammari et al. Robotics utilization in automatic vision-based assessment systems from artificial intelligence perspective: A systematic review
Alishboyevich USING AFFECTIVE COMPUTING SYSTEMS IN MODERN EDUCATION
CN112529054B (zh) 一种多源异构数据的多维度卷积神经网络学习者建模方法
Wagner et al. Real-time sensing of affect and social signals in a multimodal framework: a practical approach
Chen et al. Developing AI into Explanatory Supporting Models: An Explanation-visualized Deep Learning Prototype for Computer Supported Collaborative Learning
Okada et al. Predicting performance of collaborative storytelling using multimodal analysis
Wei Development and evaluation of an emotional lexicon system for young children
Vishnumolakala et al. In-class student emotion and engagement detection system (iSEEDS): an AI-based approach for responsive teaching
KR20220053441A (ko) 신경망을 이용한 강의 영상 평가 방법, 장치 및 컴퓨터 프로그램
Mou et al. An empirical study on learners’ learning emotion and learning effect in offline learning environment
Artanto et al. Emotions and gesture recognition using affective computing assessment with deep learning
Mahendar et al. Emotion estimation model for cognitive state analysis of learners in online education using deep learning
Abisado et al. Experimental facial expression and gesture training towards academic affect modeling
Ofemile Nonverbal Indicators of Comprehension Among L2 Users of English Interacting with Smart Verbal Software Agents
Ashwin et al. Summarization of video lectures
Miao et al. An English video teaching classroom attention evaluation model incorporating multimodal information
Jagadeesh et al. Emotion Recognition of Online Learners for Smart Education Systems using Computational Intelligence: Review and Insight

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination