CN114926716A - 一种学习参与度识别方法、装置、设备及可读存储介质 - Google Patents
一种学习参与度识别方法、装置、设备及可读存储介质 Download PDFInfo
- Publication number
- CN114926716A CN114926716A CN202210367286.1A CN202210367286A CN114926716A CN 114926716 A CN114926716 A CN 114926716A CN 202210367286 A CN202210367286 A CN 202210367286A CN 114926716 A CN114926716 A CN 114926716A
- Authority
- CN
- China
- Prior art keywords
- mode
- output value
- modal
- features
- fusion
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 42
- 230000004927 fusion Effects 0.000 claims abstract description 65
- 238000013507 mapping Methods 0.000 claims abstract description 13
- 238000012417 linear regression Methods 0.000 claims abstract description 12
- 238000007781 pre-processing Methods 0.000 claims abstract description 6
- 238000012549 training Methods 0.000 claims description 26
- 239000013598 vector Substances 0.000 claims description 24
- 238000013145 classification model Methods 0.000 claims description 14
- 230000006870 function Effects 0.000 claims description 12
- 230000015654 memory Effects 0.000 claims description 12
- 238000000605 extraction Methods 0.000 claims description 10
- 238000004590 computer program Methods 0.000 claims description 7
- 230000014509 gene expression Effects 0.000 claims description 5
- 230000007787 long-term memory Effects 0.000 claims description 4
- 238000005457 optimization Methods 0.000 claims description 4
- 230000006403 short-term memory Effects 0.000 claims description 4
- 238000010606 normalization Methods 0.000 claims description 3
- 230000008451 emotion Effects 0.000 abstract description 9
- 230000006399 behavior Effects 0.000 description 7
- 238000010586 diagram Methods 0.000 description 7
- 230000004913 activation Effects 0.000 description 5
- 238000004458 analytical method Methods 0.000 description 4
- 230000008909 emotion recognition Effects 0.000 description 4
- 230000000875 corresponding effect Effects 0.000 description 3
- 230000007246 mechanism Effects 0.000 description 3
- 230000008569 process Effects 0.000 description 3
- 230000002596 correlated effect Effects 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 230000008921 facial expression Effects 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 238000007500 overflow downdraw method Methods 0.000 description 2
- 238000011160 research Methods 0.000 description 2
- BMZIBHZDQPLVIS-UHFFFAOYSA-N 4-[2-(2-morpholin-4-ylethylselanyl)ethyl]morpholine Chemical compound C1COCCN1CC[Se]CCN1CCOCC1 BMZIBHZDQPLVIS-UHFFFAOYSA-N 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000004422 calculation algorithm Methods 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000008034 disappearance Effects 0.000 description 1
- 239000003814 drug Substances 0.000 description 1
- 238000002474 experimental method Methods 0.000 description 1
- 230000002349 favourable effect Effects 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 230000007935 neutral effect Effects 0.000 description 1
- 238000003909 pattern recognition Methods 0.000 description 1
- 238000012545 processing Methods 0.000 description 1
- 238000000746 purification Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/25—Fusion techniques
- G06F18/253—Fusion techniques of extracted features
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/22—Matching criteria, e.g. proximity measures
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
- G06F18/2413—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on distances to training or reference patterns
- G06F18/24133—Distances to prototypes
- G06F18/24137—Distances to cluster centroïds
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/243—Classification techniques relating to the number of classes
- G06F18/2431—Multiple classes
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/044—Recurrent networks, e.g. Hopfield networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/082—Learning methods modifying the architecture, e.g. adding, deleting or silencing nodes or connections
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/088—Non-supervised learning, e.g. competitive learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q10/00—Administration; Management
- G06Q10/06—Resources, workflows, human or project management; Enterprise or organisation planning; Enterprise or organisation modelling
- G06Q10/063—Operations research, analysis or management
- G06Q10/0631—Resource planning, allocation, distributing or scheduling for enterprises or organisations
- G06Q10/06311—Scheduling, planning or task assignment for a person or group
- G06Q10/063114—Status monitoring or status determination for a person or group
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q10/00—Administration; Management
- G06Q10/06—Resources, workflows, human or project management; Enterprise or organisation planning; Enterprise or organisation modelling
- G06Q10/063—Operations research, analysis or management
- G06Q10/0639—Performance analysis of employees; Performance analysis of enterprise or organisation operations
- G06Q10/06398—Performance of employee with respect to a job function
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q50/00—Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
- G06Q50/10—Services
- G06Q50/20—Education
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Business, Economics & Management (AREA)
- Physics & Mathematics (AREA)
- Human Resources & Organizations (AREA)
- Data Mining & Analysis (AREA)
- General Physics & Mathematics (AREA)
- Evolutionary Computation (AREA)
- Artificial Intelligence (AREA)
- General Engineering & Computer Science (AREA)
- Life Sciences & Earth Sciences (AREA)
- Economics (AREA)
- General Health & Medical Sciences (AREA)
- Strategic Management (AREA)
- Health & Medical Sciences (AREA)
- Molecular Biology (AREA)
- Bioinformatics & Computational Biology (AREA)
- Biophysics (AREA)
- Biomedical Technology (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Evolutionary Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Tourism & Hospitality (AREA)
- Educational Administration (AREA)
- Computational Linguistics (AREA)
- Entrepreneurship & Innovation (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Marketing (AREA)
- Development Economics (AREA)
- General Business, Economics & Management (AREA)
- Game Theory and Decision Science (AREA)
- Operations Research (AREA)
- Quality & Reliability (AREA)
- Educational Technology (AREA)
- Primary Health Care (AREA)
- Image Analysis (AREA)
Abstract
本申请提供了一种学习参与度识别方法、装置、设备及可读存储介质,涉及多模态情感识别技术领域,包括:对获取的视频样本进行预处理,提取出多个模态下的单模态特征;将多个模态下的单模态特征进行特征融合,得到多模态融合特征;多模态融合特征经过全连接层降低维度并进行预测,得到多模态输出值;单模态特征映射到低维空间中,再运用线性回归得到单模态输出值;将单模态输出值和多模态输出值按照预设权重加权求和,得到融合输出值;基于多模态输出值、单模态输出值和融合输出值,确定用户的学习参与度,这样,通过联合多模态信息和单模态信息,将提取出的单模态特征映射到低维空间,再单独训练模型,可以提高学习参与度的识别准确率。
Description
技术领域
本申请涉及多模态情感识别技术领域,特别涉及一种学习参与度识别方法、装置、设备及可读存储介质。
背景技术
本部分的陈述仅仅是提供了与本申请相关的背景技术,并不必然构成现有技术。
多模态情感识别是近年来模式识别的重要研究领域,情感表达的模态包括面部表情、行为、文字、语音、生理信号等,多模态情感分析在处理各种数据上会将更加全面,因而随着基于深度学习的情感分析技术的发展,融合多个模态信息来预测情感状态成为现阶段的研究热点。多模态学习应用涉及许多方面,在教育、医疗、自动驾驶等领域引起了研究人员的广泛关注。
会议在实际生活中起到重要作用,学习参与度是衡量参会人员的活动积极程度以及会议参与情况的重要指标。现有的学习参与度的识别方法,通常是采用图片识别技术,从会议现场图片中识别参会者的行为特征,如面部表情、行为动作等,并输入到预先训练的情绪识别模型,从而根据参会者的个体情绪识别结果确定参会人员的学习参与度,但是,仅通过参会者的行为特征进行参与度的识别,其信息不够全面,识别准确率不高。
发明内容
为了解决现有技术的不足,本申请的第一方面提供了一种学习参与度识别方法,通过联合多模态信息和单模态信息,将提取出的单模态特征映射到低维空间,再单独训练模型,以利用各个模态之间的差异性和互补性对参会人员行为进行全面分析,从而提高学习参与度的识别准确率。
为了实现上述目的,本申请采用如下技术方案:
本申请第一方面提供了一种学习参与度识别方法,包括:
对获取的视频样本进行预处理,提取出多个模态下的单模态特征;
将多个模态下的单模态特征进行特征融合,得到多模态融合特征;
多模态融合特征经过全连接层降低维度并进行预测,得到多模态输出值;单模态特征映射到低维空间中,再运用线性回归得到单模态输出值;将单模态输出值和多模态输出值按照预设权重加权求和,得到融合输出值;
基于所述多模态输出值、单模态输出值和融合输出值,确定用户的学习参与度。
作为可能的一些实现方式,多个模态下的单模态特征包括文本特征、视频特征和音频特征;
对于文本特征,特征提取过程包括:采用预设层数的BERT预训练模型进行编码,选取最后一层中的第一个词向量作为整句表示;
对于视频特征和语音特征,特征提取过程包括:经过新增加的网络层进行预训练后,再经过单向长短期记忆网络提取时序特征,将最后一个隐藏向量作为输出,通过一层卷积层提取出的初始特征与全连接层相连,输出低维向量进入单向长短期记忆网络,得到相应的特征表示。
作为可能的一些实现方式,将提取出的单模态特征进行拼接,得到多模态融合特征。
作为可能的一些实现方式,所述单模态特征映射到低维空间中,再运用线性回归得到单模态输出值,包括:将提取出的单模态特征映射到低维度空间之后,得到单模态特征向量;将所述单模态特征向量输入至训练好的单模态分类模型,得到单模态输出值。
作为可能的一些实现方式,所述单模态分类模型的训练方法包括:确定不同模态表示类的类中心;基于不同模态到类中心之间的距离,以及距离与预测值之间的关系,确定单模态监督值对多模态注释的偏移量,以L1损失函数作为优化目标训练单模态分类模型。
作为可能的一些实现方式,所述类中心包括消极中心和积极中心,分别计算不同模态到消极中心和积极中心的距离,定义用于衡量模态表示到负中心和正中心的相对距离,基于所述相对距离,以及相对距离与预测值之间的关系,确定单模态监督值对多模态注释的偏移量。
作为可能的一些实现方式,使用L2归一化作为模态表示与类中心之间的距离。
本申请第二方面提供了一种学习参与度识别装置,包括:
特征提取模块,用于对获取的视频样本进行预处理,提取出多个模态下的单模态特征;
特征融合模块,用于将多个模态下的单模态特征进行特征融合,得到多模态融合特征;
预测模块,用于多模态融合特征经过全连接层降低维度并进行预测,得到多模态输出值;单模态特征映射到低维空间中,再运用线性回归得到单模态输出值;将单模态输出值和多模态输出值按照预设权重加权求和,得到融合输出值;
参与度确定模块,用于基于所述多模态输出值、单模态输出值和融合输出值,确定用户的学习参与度。
本申请第三方面提供了一种计算机设备,包括:处理器、存储器和总线,所述存储器存储有所述处理器可执行的机器可读指令,当计算机设备运行时,所述处理器与所述存储器之间通过总线通信,所述机器可读指令被所述处理器执行时执行如上述第一方面,以及上述第一方面可能的实现方式所述的学习参与度识别方法的步骤。
本申请第四方面提供了一种计算机可读存储介质,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器运行时执行如上述第一方面,以及上述第一方面可能的实现方式所述的学习参与度识别方法的步骤。
与现有技术相比,本申请的有益效果是:
1、本申请联合多模态信息和单模态信息,将提取出的单模态特征映射到低维空间,再单独训练模型,利用各个模态之间的差异性和互补性对参会人员行为进行全面分析,提高了学习参与度的识别准确率。
2、采用早期融合和晚期融合的混合融合方法,对提取出的特征进行融合,早期融合具有训练简单的特点,而运用晚期融合,各个模态可以通过不同的模型进行训练,使得预测结果更加准确。
3、根据类中心的距离和模态表示提出了相对距离值与模型的输出呈正相关,并在此基础上,训练基于自监督学习的单模态分类模型,在三种数据集上验证了单模态分类模型的可靠性和稳定性,这种方法比现有的方法更先进。
附图说明
图1为本申请实施例所提供的学习参与度识别方法的流程图;
图2为本申请实施例所提供的学习参与度识别方法的网络架构图;
图3为本申请实施例所提供的24层BERT预训练模型的结构示意图;
图4为本申请实施例所提供的新增卷积层提取向量特征的流程示意图;
图5为本申请实施例所提供的生成的单模态标签结果示意图;
图6是本发明实施例的学习参与度识别装置的结构示意图;
图7是本发明实施例的一种计算机设备的示意图。
具体实施方式
应该指出,以下详细说明都是示例性的,旨在对本申请提供进一步的说明。除非另有指明,本文使用的所有技术和科学术语具有与本申请所属技术领域的普通技术人员通常理解的相同含义。
需要注意的是,这里所使用的术语仅是为了描述具体实施方式,而非意图限制根据本申请的示例性实施方式。如在这里所使用的,除非上下文另外明确指出,否则单数形式也意图包括复数形式,此外,还应当理解的是,当在本说明书中使用术语“包含”和/或“包括”时,其指明存在特征、步骤、操作、器件、组件和/或它们的组合。
在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互组合。
实施例一
多模态融合根据融合阶段可以分为以下三类:早期融合、中间融合、晚期融合。早期融合通常采用精细的注意力机制进行跨模态融合,常用方法是对提取出的特征进行简单的拼接操作;中间融合是将不同模态数据先转化为高维特征表示,再于模型中间进行融合;晚期融合是对每种模态数据单独训练一个模型,再采用融合机制对全部单模态模型的结果进行集成融合。由于早期融合只需要单一模型的训练,使得早期融合方法的训练相对容易,可以学习模态间的相似性。因此,利用早期晚期双融合能更好地将模态间的一致性与差异性进行表征学习,从而提高多模态情感计算的可靠性。下面结合附图对本申请提供的学习参与度识别方法进行介绍。
如图1和图2中所示,本申请实施例提供了一种学习参与度识别方法,包括以下步骤:
步骤101:对获取的视频样本进行预处理,提取出多个模态下的单模态特征。
在具体实施中,通过摄像头实时采集线上会议的画面,当视频输入网络,经过预处理后获得特征表示。输入的视频经过预处理后会被提取出三个模态:文本信息、视频信息、音频信息。
作为一可选实施例,多个模态下的单模态特征包括文本特征、视频特征和音频特征;
对于文本特征,特征提取过程包括:采用预设层数的BERT预训练模型进行编码,选取最后一层中的第一个词向量作为整句表示;
对于视频特征和语音特征,特征提取过程包括:经过新增加的网络层进行预训练后,再经过单向长短期记忆网络提取时序特征,将最后一个隐藏向量作为输出,通过一层卷积层提取出的初始特征与全连接层相连,输出低维向量进入单向长短期记忆网络,得到相应的特征表示。
在具体实施中,由于预训练的语言模型取得了较大成功,所以在提取文本特征时,本申请采用预训练24层BERT预训练模型来提取句子特征,如图3中所示,BERT预训练模型主要是用来提取文本特征,本申请采用24层的BERT预训练模型,使用BERT预训练模型内部结构的Transformer Encoder部分,并选取最后一层中的第一个词向量作为整句表示Ft。
视频信息和语音信息分别经过新增加的网络层进行预训练之后,再经过单向的长短期记忆网络LSTM,将最后一个隐藏向量作为输出,通过一层卷积层提取出的初始特征与全连接层相连,输出低维向量进入单向LSTM,从而得到特征表示,如图4中所示,将预训练网络新增一层卷积层,提取特征之后,与4层全连接层相连,获得全部特征向量之后再输入单向LSTM。
提取出文本特征Ft、视频特征Fv、语音特征Fa可表示为:
步骤102:将多个模态下的单模态特征进行特征融合,得到多模态融合特征。
在具体实施中,经过提取的单模态特征分为两个分支,一是经过早期融合进行多模态预测情感,二是将提取出的特征映射到低维空间中分别训练单模态模型,经过全连接层最后预测输出。
作为一可选实施例,将提取出的单模态特征进行拼接,得到多模态融合特征。
步骤103:多模态融合特征经过全连接层降低维度并进行预测,得到多模态输出值;单模态特征映射到低维空间中,再运用线性回归得到单模态输出值;将单模态输出值和多模态输出值按照预设权重加权求和,得到融合输出值。
在具体实施中,多模态特征表示如式(4)所示,经过全连接层降低维度并预测多模态输出,回归输出如式(5)所示。其次,为降低不同模态间的维度差异,将提取出的单模态特征映射到低维空间中,再运用线性回归得到单模态输出结果。最后,将三个单模态输出与多模态输出按权重为0.1、0.1、 0.1、0.7加权求和得到融合输出通过这种融合机制可以使得模态间信息互补。
特征分类模块分为多模态特征分类和单模态特征分类,本质上是线性回归问题。多模态任务和单模态任务全部使用全连接层进行分类,全连接层从本质上来说就是由一个特征空间线性变换到另一个特征空间,将学习到的分布式特征表示映射到样本标记空间中,以一维特征向量进行输出。全连接层较传统的分类器来说,会有高度提纯的特点,有利于最后结果的回归。
单模态任务和多模态任务提取全部使用Relu激活函数,引入激活函数是为了增加网络模型的非线性。Relu激活函数能够克服梯度消失问题,也可以加快训练速度。因此,本申请选用此激活函数。
作为一可选实施例,所述单模态特征映射到低维空间中,再运用线性回归得到单模态输出值,包括:将提取出的单模态特征映射到低维度空间之后,得到单模态特征向量;将所述单模态特征向量输入至训练好的单模态分类模型,得到单模态输出值。
可选的,所述单模态分类模型的训练方法包括:确定不同模态表示类的类中心;基于不同模态到类中心之间的距离,以及距离与预测值之间的关系,确定单模态监督值对多模态注释的偏移量,以L1损失函数作为优化目标训练单模态分类模型。
其中,所述类中心包括消极中心和积极中心,分别计算不同模态到消极中心和积极中心的距离,定义用于衡量模态表示到负中心和正中心的相对距离,基于所述相对距离,以及相对距离与预测值之间的关系,确定单模态监督值对多模态注释的偏移量。
在具体实施中,将提取出的单模态特征映射到低维度空间之后,三个单模态会分别进行任务,整个程序是通过自监督学习特征的,为了指导其训练过程,设计了单模态分类模型来获取分类标签,只存在于训练阶段。设计单模态分类模型的目的是通过多模态注释和模态表示来生成单模态监督值,因为更新网络参数会对其进行干扰,所以将单模态分类模型设计成一个非参数模块。在多数情况下,单模态监督值与多模态标签是高度相关的。因为不同的模态向量表示存在于不同的维度空间中,所以是不能使用绝对距离的。为此,提出了相对距离,它与空间维度无关。在前期训练阶段,主要训练不同模态表示类的消极中心和积极中心
在模态表示方面,使用L2归一化当作Fi *和类中心之间的距离。
其中,i∈{t,a,v,m},di代表维度,是一个尺度因子。
从而可以定义相对距离,相对距离用来衡量模态表示到负中心和正中心的相对距离,表达式如(10)所示。
其中,i∈{t,a,v,m},ε表示小数。
因为ri与最终结果呈正相关关系,为得到自监督值与预测值之间的关系,考虑以下两种关系。
由式(13)和(14)可以得出:
yf=ym+rf-rm (14)
联合式(11)和式(12),可通过等权求和得到单模态监督值。
式中f∈{t,a,v},表示单模态监督值对多模态注释的偏移量。如图5(a)-(c)所示,多模态特征表示更接近正中心,单模态特征表示更接近负中心。因此,在多模态标签ym的基础上,通过自监督学习生成的单模态标签yf应该增加负偏移量δfm。
最后,以L1损失函数作为基本优化目标。在单模态任务阶段,使用人工标注的多模态标签和通过自监督生成的单模态标签之间的差异作为损失函数的权重。该损失函数表明该网络应当注重差异较大的样本:
步骤104:基于所述多模态输出值、单模态输出值和融合输出值,确定用户的学习参与度。
在具体实施中,当输入用户参加会议的20个视频时,相应的会有五组输出,分别是多模态早期融合输出值、单模态文本输出值、单模态语音输出值、单模态视频输出值和多模态晚期融合输出值,把这些数值分为5个分类:消极{-1.0, -0.8},弱消极{-0.6,-0.4,-0.2},中性{0.0},弱积极{0.2,0.4,0.6},积极{0.8,1.0},从而判断与会人员的参与度。
为验证本发明在多模态情感分析方面的优势,本申请在MOSE I、MOS I、S IMS 三种数据集进行了大量的实验,实验结果表明,本申请所提出的一种基于语音、文本、视频三种模态的早期晚期混合融合识别参会人员线上教育的参与度可以达到很好的效果。该方法不仅可以识别用户参加线上教育的积极性,同时还具备准确率高的特点。由此可表明,本申请提出的基于自监督学习的多模态情感分析算法是有效的,并且符合会议信息化的要求。
实施例二
本申请实施例提供了一种学习参与度识别装置,如图6中所示,所述学习参与度识别装置600包括:
特征提取模块610,用于对获取的视频样本进行预处理,提取出多个模态下的单模态特征;
特征融合模块620,用于将多个模态下的单模态特征进行特征融合,得到多模态融合特征;
预测模块630,用于多模态融合特征经过全连接层降低维度并进行预测,得到多模态输出值;单模态特征映射到低维空间中,再运用线性回归得到单模态输出值;将单模态输出值和多模态输出值按照预设权重加权求和,得到融合输出值;
参与度确定模块640,用于基于所述多模态输出值、单模态输出值和融合输出值,确定用户的学习参与度。
实施例三
请参阅图7,图7是本发明实施例的一种计算机设备的示意图。如图7中所示,所述计算机设备700包括处理器710、存储器720和总线730。
所述存储器720存储有所述处理器710可执行的机器可读指令,当计算机设备700运行时,所述处理器710与所述存储器720之间通过总线730通信,所述机器可读指令被所述处理器710执行时,可以执行如上述图1以及图2所示方法实施例中的学习参与度识别方法的步骤,具体实现方式可参见方法实施例,在此不再赘述。
实施例四
基于同一申请构思,本发明实施例还提供一种计算机可读存储介质,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器运行时执行上述方法实施例中所述的学习参与度识别方法的步骤。
本发明实施例所提供的学习参与度识别方法的计算机程序产品,包括存储了程序代码的计算机可读存储介质,所述程序代码包括的指令可用于执行上述方法实施例中所述学习参与度识别方法的步骤,具体可参见上述方法实施例,在此不再赘述。
以上所述仅为本申请的优选实施例而已,并不用于限制本申请,对于本领域的技术人员来说,本申请可以有各种更改和变化。凡在本申请的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本申请的保护范围之内。
Claims (10)
1.一种学习参与度识别方法,其特征在于,所述识别方法包括:
对获取的视频样本进行预处理,提取出多个模态下的单模态特征;
将多个模态下的单模态特征进行特征融合,得到多模态融合特征;
多模态融合特征经过全连接层降低维度并进行预测,得到多模态输出值;单模态特征映射到低维空间中,再运用线性回归得到单模态输出值;将单模态输出值和多模态输出值按照预设权重加权求和,得到融合输出值;
基于所述多模态输出值、单模态输出值和融合输出值,确定用户的学习参与度。
2.如权利要求1所述的识别方法,其特征在于,多个模态下的单模态特征包括文本特征、视频特征和音频特征;
对于文本特征,特征提取过程包括:采用预设层数的BERT预训练模型进行编码,选取最后一层中的第一个词向量作为整句表示;
对于视频特征和语音特征,特征提取过程包括:经过新增加的网络层进行预训练后,再经过单向长短期记忆网络提取时序特征,将最后一个隐藏向量作为输出,通过一层卷积层提取出的初始特征与全连接层相连,输出低维向量进入单向长短期记忆网络,得到相应的特征表示。
3.如权利要求1所述的识别方法,其特征在于,将提取出的单模态特征进行拼接,得到多模态融合特征。
4.如权利要求1所述的识别方法,其特征在于,所述单模态特征映射到低维空间中,再运用线性回归得到单模态输出值,包括:将提取出的单模态特征映射到低维度空间之后,得到单模态特征向量;将所述单模态特征向量输入至训练好的单模态分类模型,得到单模态输出值。
5.如权利要求4所述的识别方法,其特征在于,所述单模态分类模型的训练方法包括:确定不同模态表示类的类中心;基于不同模态到类中心之间的距离,以及距离与预测值之间的关系,确定单模态监督值对多模态注释的偏移量,以L1损失函数作为优化目标训练单模态分类模型。
6.如权利要求5所述的识别方法,其特征在于,所述类中心包括消极中心和积极中心,分别计算不同模态到消极中心和积极中心的距离,定义用于衡量模态表示到负中心和正中心的相对距离,基于所述相对距离,以及相对距离与预测值之间的关系,确定单模态监督值对多模态注释的偏移量。
7.如权利要求6所述的识别方法,其特征在于,使用L2归一化作为模态表示与类中心之间的距离。
8.一种学习参与度识别装置,其特征在于,包括:
特征提取模块,用于对获取的视频样本进行预处理,提取出多个模态下的单模态特征;
特征融合模块,用于将多个模态下的单模态特征进行特征融合,得到多模态融合特征;
预测模块,用于多模态融合特征经过全连接层降低维度并进行预测,得到多模态输出值;单模态特征映射到低维空间中,再运用线性回归得到单模态输出值;将单模态输出值和多模态输出值按照预设权重加权求和,得到融合输出值;
参与度确定模块,用于基于所述多模态输出值、单模态输出值和融合输出值,确定用户的学习参与度。
9.一种计算机设备,其特征在于,包括:处理器、存储器和总线,所述存储器存储有所述处理器可执行的机器可读指令,当计算机设备运行时,所述处理器与所述存储器之间通过总线通信,所述机器可读指令被所述处理器执行时执行如权利要求1至7任一所述的学习参与度识别方法的步骤。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器运行时执行如权利要求1至7任意一项所述的学习参与度识别方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210367286.1A CN114926716A (zh) | 2022-04-08 | 2022-04-08 | 一种学习参与度识别方法、装置、设备及可读存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210367286.1A CN114926716A (zh) | 2022-04-08 | 2022-04-08 | 一种学习参与度识别方法、装置、设备及可读存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN114926716A true CN114926716A (zh) | 2022-08-19 |
Family
ID=82805026
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210367286.1A Pending CN114926716A (zh) | 2022-04-08 | 2022-04-08 | 一种学习参与度识别方法、装置、设备及可读存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114926716A (zh) |
Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111931795A (zh) * | 2020-09-25 | 2020-11-13 | 湖南大学 | 基于子空间稀疏特征融合的多模态情感识别方法及系统 |
CN112489635A (zh) * | 2020-12-03 | 2021-03-12 | 杭州电子科技大学 | 一种基于增强注意力机制的多模态情感识别方法 |
CN112560830A (zh) * | 2021-02-26 | 2021-03-26 | 中国科学院自动化研究所 | 多模态维度情感识别方法 |
CN113139664A (zh) * | 2021-04-30 | 2021-07-20 | 中国科学院计算技术研究所 | 一种跨模态的迁移学习方法 |
CN113408385A (zh) * | 2021-06-10 | 2021-09-17 | 华南理工大学 | 一种音视频多模态情感分类方法及系统 |
CN113420807A (zh) * | 2021-06-22 | 2021-09-21 | 哈尔滨理工大学 | 基于多任务学习与注意力机制的多模态融合情感识别系统、方法及实验评价方法 |
CN113705595A (zh) * | 2021-03-04 | 2021-11-26 | 腾讯科技(深圳)有限公司 | 异常细胞转移程度的预测方法、装置和存储介质 |
CN113837265A (zh) * | 2021-09-22 | 2021-12-24 | 湖南工业大学 | 基于联合域分离表示分层图融合网络的多模态情感分析方法 |
-
2022
- 2022-04-08 CN CN202210367286.1A patent/CN114926716A/zh active Pending
Patent Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111931795A (zh) * | 2020-09-25 | 2020-11-13 | 湖南大学 | 基于子空间稀疏特征融合的多模态情感识别方法及系统 |
CN112489635A (zh) * | 2020-12-03 | 2021-03-12 | 杭州电子科技大学 | 一种基于增强注意力机制的多模态情感识别方法 |
CN112560830A (zh) * | 2021-02-26 | 2021-03-26 | 中国科学院自动化研究所 | 多模态维度情感识别方法 |
CN113705595A (zh) * | 2021-03-04 | 2021-11-26 | 腾讯科技(深圳)有限公司 | 异常细胞转移程度的预测方法、装置和存储介质 |
CN113139664A (zh) * | 2021-04-30 | 2021-07-20 | 中国科学院计算技术研究所 | 一种跨模态的迁移学习方法 |
CN113408385A (zh) * | 2021-06-10 | 2021-09-17 | 华南理工大学 | 一种音视频多模态情感分类方法及系统 |
CN113420807A (zh) * | 2021-06-22 | 2021-09-21 | 哈尔滨理工大学 | 基于多任务学习与注意力机制的多模态融合情感识别系统、方法及实验评价方法 |
CN113837265A (zh) * | 2021-09-22 | 2021-12-24 | 湖南工业大学 | 基于联合域分离表示分层图融合网络的多模态情感分析方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN113420807A (zh) | 基于多任务学习与注意力机制的多模态融合情感识别系统、方法及实验评价方法 | |
CN112966127A (zh) | 一种基于多层语义对齐的跨模态检索方法 | |
Huan et al. | Video multimodal emotion recognition based on Bi-GRU and attention fusion | |
WO2022033208A1 (zh) | 视觉对话方法、模型训练方法、装置、电子设备及计算机可读存储介质 | |
CN112800292B (zh) | 一种基于模态特定和共享特征学习的跨模态检索方法 | |
Zhang et al. | Multi-modal multi-label emotion detection with modality and label dependence | |
CN113836992B (zh) | 识别标签的方法、训练标签识别模型的方法、装置及设备 | |
CN114091466A (zh) | 一种基于Transformer和多任务学习的多模态情感分析方法及系统 | |
CN110705490A (zh) | 视觉情感识别方法 | |
CN115130591A (zh) | 一种基于交叉监督的多模态数据分类方法及装置 | |
CN114282055A (zh) | 视频特征提取方法、装置、设备及计算机存储介质 | |
Wang et al. | A novel multiface recognition method with short training time and lightweight based on ABASNet and H-softmax | |
CN115827954A (zh) | 动态加权的跨模态融合网络检索方法、系统、电子设备 | |
CN117688936B (zh) | 一种图文融合的低秩多模态融合情感分析方法 | |
Huang et al. | An effective multimodal representation and fusion method for multimodal intent recognition | |
Jia et al. | Semantic association enhancement transformer with relative position for image captioning | |
Yu et al. | Multimodal fusion method with spatiotemporal sequences and relationship learning for valence-arousal estimation | |
US11810598B2 (en) | Apparatus and method for automated video record generation | |
CN115659242A (zh) | 一种基于模态增强卷积图的多模态情感分类方法 | |
CN114926716A (zh) | 一种学习参与度识别方法、装置、设备及可读存储介质 | |
Tellai et al. | CCTG-NET: Contextualized Convolutional Transformer-GRU Network for speech emotion recognition | |
CN117150320B (zh) | 对话数字人情感风格相似度评价方法及系统 | |
CN114298121B (zh) | 基于多模态的文本生成方法、模型训练方法和装置 | |
CN116561350B (zh) | 一种资源生成方法及相关装置 | |
Alaghband | Analysis of Sign Language Facial Expressions and Deaf Students' Retention Using Machine Learning and Agent-based Modeling |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |