CN112487949B - 一种基于多模态数据融合的学习者行为识别方法 - Google Patents

一种基于多模态数据融合的学习者行为识别方法 Download PDF

Info

Publication number
CN112487949B
CN112487949B CN202011355638.9A CN202011355638A CN112487949B CN 112487949 B CN112487949 B CN 112487949B CN 202011355638 A CN202011355638 A CN 202011355638A CN 112487949 B CN112487949 B CN 112487949B
Authority
CN
China
Prior art keywords
data
feature
model
inputting
dimension reduction
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202011355638.9A
Other languages
English (en)
Other versions
CN112487949A (zh
Inventor
杨宗凯
廖盛斌
邓颖
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Central China Normal University
Original Assignee
Central China Normal University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Central China Normal University filed Critical Central China Normal University
Priority to CN202011355638.9A priority Critical patent/CN112487949B/zh
Publication of CN112487949A publication Critical patent/CN112487949A/zh
Application granted granted Critical
Publication of CN112487949B publication Critical patent/CN112487949B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/20Movements or behaviour, e.g. gesture recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2415Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on parametric or probabilistic models, e.g. based on likelihood ratio or false acceptance rate versus a false rejection rate
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/084Backpropagation, e.g. using gradient descent
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q50/00Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
    • G06Q50/10Services
    • G06Q50/20Education
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • G06V20/41Higher-level, semantic clustering, classification or understanding of video scenes, e.g. detection, labelling or Markovian modelling of sport events or news items
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Business, Economics & Management (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Data Mining & Analysis (AREA)
  • Software Systems (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Computational Linguistics (AREA)
  • General Engineering & Computer Science (AREA)
  • Evolutionary Computation (AREA)
  • Mathematical Physics (AREA)
  • Multimedia (AREA)
  • Computing Systems (AREA)
  • Biophysics (AREA)
  • Biomedical Technology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Tourism & Hospitality (AREA)
  • Molecular Biology (AREA)
  • Educational Technology (AREA)
  • Marketing (AREA)
  • Educational Administration (AREA)
  • Social Psychology (AREA)
  • Psychiatry (AREA)
  • Economics (AREA)
  • Human Resources & Organizations (AREA)
  • Human Computer Interaction (AREA)
  • Primary Health Care (AREA)
  • Strategic Management (AREA)
  • General Business, Economics & Management (AREA)
  • Probability & Statistics with Applications (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开了一种基于多模态数据融合的学习者行为识别方法,该方法包括对xAPI活动流数据、视频数据以及音频数据进行预处理;将待识别的所述xAPI活动流数据输入BERT模型,将待识别的所述视频数据输入SlowFast模型,将待识别的所述音频数据输入VGGish模型,用以分别对不同模态数据进行特征提取;对三个模型进行特征提取后得到的特征向量分别进行PCA降维,并对降维后的三个所述特征向量进行TFN特征向量融合,得到多模态特征向量;将所述多模态特征向量输入卷积神经网络分类器中进行学生行为的分类,得到学生行为分类结果。本发明采用了一种新的多模态数据融合的办法,有效保留了每个模态数据的特点,使模型的分类准确率更高。

Description

一种基于多模态数据融合的学习者行为识别方法
技术领域
本申请涉及教育信息化技术领域,具体而言,涉及一种基于多模态数据融合的学习者行为识别方法。
背景技术
课堂是教师授课和学生获取知识的重要场所,随着社会的不断发展及对学生教育的重视程度提升,对课堂教学质量进行智能化分析变得越发重要。用信息化技术对课堂中学生的行为进行检测、处理和分析,不仅可以提醒学生规范,还可以反映课堂活跃程度,帮助教师改善教学方式。并且如果在学生行为分析后除了给出适合学生的学习模式,进行有效学习建议反馈和学习路径推荐外,对学生进行一定的学习行为干预,将会对学生的学习绩效提升更有意义。
目前对学生行为识别的研究较少,研究方法主要集中在机器学习和深度学习上。主要的学生行为识别方法都是遵循以下两个步骤:(1)从原始视频或者图像数据中识别出学生;(2)对识别出的学生进行分类。然而,很多时候仅仅是单一的图片或者视频是不能够非常好地识别出学生行为的,其无法适应不同课堂环境和组成成分的多变性和复杂性。
中国专利申请号为201410337744.2的发明专利申请公开了一种基于多模态序列融合的动作识别方法,该方法的基本步骤包括:1.获得原始视频多种模态下的信息,并进行预处理,获取初始RGB图像序列、初始深度图像序列,以及获取骨架特征序列;2.对所述初始RGB图像序列进行背景建模,通过得到的背景建模结果来提取第一人体区域外接矩形,同时提取所述初始深度图像序列上相应位置的第二人体区域外接矩形;3.在第一、第二人体区域外接矩形上分别提取人体动作特征,得到RGB模态和深度模态下的RGB-LBP、D-LBP特征向量序列;4.根据所述RGB-LBP、D-LBP特征向量序列,以及所述骨架特征序列,通过多视角判别模型来进行动作识别。但是由于需要对初始RGB图像序列进行背景建模,过程非常复杂,增加了很多计算量。
发明内容
为了解决上述问题,本申请实施例提供了一种基于多模态数据融合的学生行为识别方法。该方法对三种不同模态的数据分别用不同的网络模型进行了特征提取,分别进行降维后再用外积的方式进行融合,最后输入分类器得到最终的学生行为分类结果,从而达到复杂度低,实时性高、正确率高的目的。
第一方面,本申请实施例提供了一种基于多模态数据融合的学习者行为识别方法,所述方法包括:
(1)获取学生在信息空间的xAPI活动流数据、在物理学习空间的视频数据和音频数据;
(2)对所述xAPI活动流数据、视频数据以及音频数据进行预处理;
(3)将待识别的所述xAPI活动流数据输入BERT模型,将待识别的所述视频数据输入SlowFast模型,将待识别的所述音频数据输入VGGish模型,用以分别对不同模态数据进行特征提取;
(4)对三个模型进行特征提取后得到的特征向量分别进行PCA降维,并对降维后的三个所述特征向量进行TFN特征向量融合,得到多模态特征向量;
(5)将所述多模态特征向量输入卷积神经网络分类器中进行学生行为的分类,得到学生行为分类结果。
优选的,所述步骤(3)之前,还包括:
设置并训练得到BERT模型、SlowFast模型、VGGish模型。
具体的,输入层将样本活动流xAPI文本模态数据、视频模态数据或音频模态数据输入对应的模型网络,得到用于后续分类的三种模态数据特征向量;
所述BERT模型全称是:Bidirectional Encoder Representations fromTransformer,Transformer是组成BERT的核心模块,而Attention机制又是Transformer中最关键的部分。这里用到的是12层Transformer Encoder结构的BERT模型。
所述SlowFast模型是一个包含双通道的视频动作识别网络模型,使用了一个慢速高分辨率CNN(Slow通道)来分析视频中的静态内容,同时使用一个快速低分辨率CNN(Fast通道)来分析视频中的动态内容。
Slow通道:使用一个较大的时序跨度(即每秒跳过的帧数),通常设置为16,这意味着大约1秒可以采集2帧。
Fast通道:使用一个非常小的时序跨度τ/α,其中α通常设置为8,以便1秒可以采集15帧。Fast通道通过使用小得多的卷积宽度(使用的滤波器数量)来保持轻量化,通常设置为慢通道卷积宽度的1/8,这个值被标记为β。使用小一些的卷积宽度的原因是Fast通道需要的计算量要比Slow通道小4倍,虽然它的时序频率更高。
侧向连接:来自Fast通道的数据通过侧向连接被送入Slow通道,这使得Slow通道可以了解Fast通道的处理结果。
所述Slow通道和Fast通道都包含1个卷积层,1个平均池化层,4个残差块。
所诉VGGish模型是从音频波形中提取具有语义和有意义的128维高维的特征向量,而128维高维特征向量可以作为下游模型的输入。
本申请中用到的是具有16个权重层的VGGish,并用AudioSet进行预训练。VGGish模型就是VGG网络的一种衍生网络,结构与VGG11的结构一致,包含8个卷积层、5个池化层和3个全连接层,每个全连接层使用3×3的卷积核。
优选的,所述步骤(5)之后,还包括:
基于卷积神经网络分类层计算所述学生行为分类结果与检测到的实际学生行为类别的误差;
将所述误差反向传播,计算每一层参数的梯度,根据所述梯度对连接每一层参数进行调整;
重复所述将所述误差反向传播的过程直至所述每一层参数达到分类输出的误差极小点,停止迭代。
优选的,所述将所述误差反向传播,计算每一层参数的梯度,包括:
通过下述公式计算每一层参数的梯度:
Figure BDA0002802530260000031
Figure BDA0002802530260000032
θt+1=θt+vt+1
其中,
Figure BDA0002802530260000033
表示使用一个批量的样本数据训练后得到的误差L对于前一个迭代周期参数θt-1的梯度,vt是动量项,表示当前迭代累计的参数调整惯性,μ是冲量系数,ε表示学习速率。
优选的,所述基于卷积神经网络分类层计算所述学生行为分类结果与检测到的实际学生行为类别的误差,包括:
通过下述公式计算误差:
Figure BDA0002802530260000041
其中,x表示样本,n表示样本总数,求和是在所有的输入x上进行的,y是目标输出,通过迭代优化直至达到一个全局最优或者局部最优解。
优选的,所述步骤(4)中对三个模型进行特征提取后得到的特征向量分别进行PCA降维,包括:
对特征向量去中心化后计算协方差矩阵;
通过特征值分解法计算所述协方差矩阵的特征值与特征向量;
对所述特征值由大到小进行排序,选择最大的k个所述特征值对应的k个所述特征向量分别作为行向量组成特征向量矩阵P;
将数据转换至所述特征向量矩阵P构建而成的空间中,得到降维后的特征向量矩阵。
优选的,所述步骤(4)中对降维后的三个所述特征向量进行TFN特征向量融合,包括:
通过下述公式对降维后的三个所述特征向量进行TFN特征向量融合:
Figure BDA0002802530260000042
其中,zl、zv、za分别表示三个不同模态分别输入不同网络模型后提取到的并进行降维后的一维特征向量,符号
Figure BDA0002802530260000043
表示向量间的外积运算,该公式在数学上等同于zl、zv、za三个特征向量之间的可微分外积,运算后的特征维度为128×128×128,用以输入后续的卷积神经网络分类器中。
本发明的有益效果为:1.使用深度学习策略。本发明通过深度学习策略实现了端对端的课堂学生行为识别,客服了传统学生行为识别需要人工进行分类的缺点,在识别性能、效率等方面都有显著的优势。
2.使用了多模态的数据。传统的行为识别一般只使用单一模态的数据,本发明使用了三种不同的数据,有效克服了在单一模态识别方法在数据缺失时无法识别的缺点,增强了模型的鲁棒性和抗干扰性。
3.提出了有效的融合策略。本发明采用了一种新的多模态数据融合的办法,有效保留了每个模态数据的特点,使模型的分类准确率更高。
附图说明
为了更清楚地说明本申请实施例中的技术方案,下面将对实施例中所需使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本申请实施例提供的一种基于多模态数据融合的学习者行为识别方法的流程示意图;
图2为本申请实施例提供的网络总体模型举例示意图;
图3为本申请实施例提供的处理视频数据的SlowFast网络模型举例示意图;
图4为本申请实施例提供的处理音频数据的VGGish网络模型举例示意图;
图5为本申请实施例提供的处理xAPI数据的BERT网络模型举例示意图。
具体实施方式
下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述。
在下述介绍中,术语“第一”、“第二”仅为用于描述的目的,而不能理解为指示或暗示相对重要性。下述介绍提供了本发明的多个实施例,不同实施例之间可以替换或者合并组合,因此本发明也可认为包含所记载的相同和/或不同实施例的所有可能组合。因而,如果一个实施例包含特征A、B、C,另一个实施例包含特征B、D,那么本发明也应视为包括含有A、B、C、D的一个或多个所有其他可能的组合的实施例,尽管该实施例可能并未在以下内容中有明确的文字记载。
下面的描述提供了示例,并且不对权利要求书中阐述的范围、适用性或示例进行限制。可以在不脱离本发明内容的范围的情况下,对描述的元素的功能和布置做出改变。各个示例可以适当省略、替代或添加各种过程或组件。例如所描述的方法可以以所描述的顺序不同的顺序来执行,并且可以添加、省略或组合各种步骤。此外,可以将关于一些示例描述的特征组合到其他示例中。
本发明的技术思路是:同时使用三种不同模态的数据:xAPI数据,视频数据、音频数据,将三种数据分别输入对应的不同网络模型,对原始输入数据进行特征提取,再分别对提取到的特征进行主成分降维,然后对三种不同模态的数据进行融合,融合后的特征输入卷积神经网络分类器进行学生行为分类。本发明对三种不同模态的学生行为数据都能有效提取,降低了模型的计算复杂度,并且有效地解决了单个模态数据丢失时的分类错误,采用深度学习策略对不同模态的特征进行融合,提高了模型的准确率,使模型对不同场景的学生行为都有一定的识别能力。
参见图1、图2,三个不同模态的特征提取网络模型分别是SlowFast网络模型、VGGish网络模型图、BERT网络模型图,特征向量的降维和融合策略分别是PCA降维和TFN特征向量融合,后续的卷积神经网络分类器包括至少两次的交互堆叠的卷积层和池化层、softmax层。本发明使用的神经网络的构造和训练包括以下环节:
步骤一,xAPI数据输入BERT网络模型。
如图5所示,使用标注好的xAPI数据输入BERT网络模型,对一个xAPI数据中的每一个词使用token embedding、segment embedding、position embedding三个表示相加,简单来说,embedding就是把字映射为多维空间的一个点,即一个向量,并且使用MaskedLanguage Model和Next Sentence Prediction为优化目标,对字的三种表示进行优化,BERT网络模型输出的结果就是提取过后的xAPI模态数据的特征向量。
步骤二,视频数据输入SlowFast网络模型。
如图3所示,对同一个课堂学生行为视频应用两个平行的卷积神经网络,一个Slow通道,一个Fast通道。Slow通道采用慢速高分别率来分析视频中的静态内容,每16帧取1帧。Fast通道采用快速低分辨率来分析视频中的动态内容,使用较小的卷积宽度来保持轻量化。SlowFast网络模型输出的结果就是提取过后的视频模态数据的特征向量。
步骤三,音频数据输入VGGish网络模型。
如图4所示,输入数据为wav音频文件,经过预处理计算MFCC特征、预加重、分帧、加窗、快速傅里叶变换、三角带通滤波器、计算每个滤波器组输出的对数能量、经离散余弦变换(DCT)得到MFCC系数、计算对数能量、提取动态差分参数等步骤,得到128维的音频数据特征向量。标准的倒谱参数MFCC只反映了语音参数的静态特性,语音的动态特性可以用这些静态特征的差分谱来描述。VGGish模型输出数据格式为[nums_frames,128],其中nums_frames为帧长,nums_frames=音频时长/0.96。
步骤四,对特征向量进行降维。
首先将三个模态的数据分别提取的特征进行PCA降维。首先去平均值(即去中心化),即每一位特征减去各自的平均值,第二步计算协方差矩阵,然后用特征值分解方法求协方差矩阵的特征值与特征向量,接着对特征值从大到小排序,选择其中最大的k个。然后将其对应的k个特征向量分别作为行向量组成特征向量矩阵P。最后将数据转换到k个特征向量构建的新空间中,即Y=PX。所得到的矩阵Y就是降维后的特征矩阵。
步骤五,融合不同模态数据的特征向量。
降维后的特征融合采用了外积相乘的方式,将三个一维向量进行两两相乘的外积运算,得到三维的特征图,所得的特征图不仅保留了每个模态数据提取到的不同特征,也没有增加很大的运算量,最后可以将三维特征输入后续的卷积神经网络分类网络。
步骤六,进行卷积神经网络分类。
将步骤五得到的特征图输入卷积神经网络分类层,如图2所示,卷积神经网络分类层中包含若干卷积层和池化层,最后得到对应的课堂学生行为类别。
以上所述者,仅为本公开的示例性实施例,不能以此限定本公开的范围。即但凡依本公开教导所作的等效变化与修饰,皆仍属本公开涵盖的范围内。本领域技术人员在考虑说明书及实践这里的公开后,将容易想到本公开的其实施方案。本发明旨在涵盖本公开的任何变型、用途或者适应性变化,这些变型、用途或者适应性变化遵循本公开的一般性原理并包括本公开未记载的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的,本公开的范围和精神由权利要求限定。

Claims (5)

1.一种基于多模态数据融合的学习者行为识别方法,其特征在于,所述方法包括:
(1)获取学生在信息空间的xAPI活动流数据、在物理学习空间的视频数据和音频数据;
(2)对所述xAPI活动流数据、视频数据以及音频数据进行预处理;
(3)将待识别的所述xAPI活动流数据输入BERT模型,将待识别的所述视频数据输入SlowFast模型,将待识别的所述音频数据输入VGGish模型,用以分别对不同模态数据进行特征提取;
(4)对三个模型进行特征提取后得到的特征向量分别进行PCA降维,并对降维后的三个所述特征向量进行TFN特征向量融合,得到多模态特征向量;
所述步骤(4)中对降维后的三个所述特征向量进行TFN特征向量融合,包括:
通过下述公式对降维后的三个所述特征向量进行TFN特征向量融合:
Figure FDA0004135275940000011
其中,zl、zv、za分别表示三个不同模态分别输入不同网络模型后提取到的并进行降维后的一维特征向量,符号
Figure FDA0004135275940000012
表示向量间的外积运算,该公式在数学上等同于zl、zv、za三个特征向量之间的可微分外积,运算后的特征维度为128×128×128,用以输入后续的卷积神经网络分类器中;
(5)将所述多模态特征向量输入卷积神经网络分类器中进行学生行为的分类,得到学生行为分类结果;
所述步骤(5)之后,还包括:
基于卷积神经网络分类层计算所述学生行为分类结果与检测到的实际学生行为类别的误差;
将所述误差反向传播,计算每一层参数的梯度,根据所述梯度对连接每一层参数进行调整;
重复所述将所述误差反向传播的过程直至所述每一层参数达到分类输出的误差极小点,停止迭代。
2.根据权利要求1所述的方法,其特征在于,所述步骤(3)之前,还包括:
设置并训练得到BERT模型、SlowFast模型、VGGish模型。
3.根据权利要求1所述的方法,其特征在于,所述将所述误差反向传播,计算每一层参数的梯度,包括:
通过下述公式计算每一层参数的梯度:
Figure FDA0004135275940000021
Figure FDA0004135275940000022
θt+1=θt+vt+1
其中,
Figure FDA0004135275940000023
表示使用一个批量的样本数据训练后得到的误差L对于前一个迭代周期参数θt-1的梯度,vt是动量项,表示当前迭代累计的参数调整惯性,μ是冲量系数,ε表示学习速率。
4.根据权利要求1所述的方法,其特征在于,所述基于卷积神经网络分类层计算所述学生行为分类结果与检测到的实际学生行为类别的误差,包括:
通过下述公式计算误差:
Figure FDA0004135275940000024
其中,x表示样本,n表示样本总数,求和是在所有的输入x上进行的,y是目标输出,通过迭代优化直至达到一个全局最优或者局部最优解。
5.根据权利要求1所述的方法,其特征在于,所述步骤(4)中对三个模型进行特征提取后得到的特征向量分别进行PCA降维,包括:
对特征向量去中心化后计算协方差矩阵;
通过特征值分解法计算所述协方差矩阵的特征值与特征向量;
对所述特征值由大到小进行排序,选择最大的k个所述特征值对应的k个所述特征向量分别作为行向量组成特征向量矩阵P;
将数据转换至所述特征向量矩阵P构建而成的空间中,得到降维后的特征向量矩阵。
CN202011355638.9A 2020-11-27 2020-11-27 一种基于多模态数据融合的学习者行为识别方法 Active CN112487949B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011355638.9A CN112487949B (zh) 2020-11-27 2020-11-27 一种基于多模态数据融合的学习者行为识别方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011355638.9A CN112487949B (zh) 2020-11-27 2020-11-27 一种基于多模态数据融合的学习者行为识别方法

Publications (2)

Publication Number Publication Date
CN112487949A CN112487949A (zh) 2021-03-12
CN112487949B true CN112487949B (zh) 2023-05-16

Family

ID=74935999

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011355638.9A Active CN112487949B (zh) 2020-11-27 2020-11-27 一种基于多模态数据融合的学习者行为识别方法

Country Status (1)

Country Link
CN (1) CN112487949B (zh)

Families Citing this family (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113269068B (zh) * 2021-05-18 2022-04-22 上海大学 一种基于多模态特征调节与嵌入表示增强的手势识别方法
CN113344036A (zh) * 2021-07-19 2021-09-03 昆明理工大学 一种基于动态词嵌入的多模态Transformer的图像描述方法
CN114299551A (zh) * 2022-03-07 2022-04-08 深圳市海清视讯科技有限公司 模型训练方法、动物行为识别方法、装置、设备
CN114582024A (zh) * 2022-03-15 2022-06-03 沈阳航空航天大学 一种基于人体骨骼序列的动作预测方法
CN114627319A (zh) * 2022-05-16 2022-06-14 杭州闪马智擎科技有限公司 目标数据的上报方法、装置、存储介质及电子装置
CN115239527B (zh) * 2022-06-27 2024-05-07 重庆市科学技术研究院 基于知识库的教学特征融合与建模的教学行为分析系统
CN116363761B (zh) * 2023-06-01 2023-08-18 深圳海清智元科技股份有限公司 基于图像的行为识别方法、装置及电子设备
CN118097199B (zh) * 2024-04-29 2024-06-25 菏泽单州数字产业发展有限公司 基于神经网络的全域视联感知系统及控制方法

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102354349A (zh) * 2011-10-26 2012-02-15 华中师范大学 提高孤独症儿童社会互动能力的人机互动多模态早期干预系统
CN108288035A (zh) * 2018-01-11 2018-07-17 华南理工大学 基于深度学习的多通道图像特征融合的人体动作识别方法
CN110430397A (zh) * 2019-07-31 2019-11-08 广州竞德信息技术有限公司 基于多模态的行为识别方法
CN111027584A (zh) * 2019-10-23 2020-04-17 宋飞 一种课堂行为识别方法及设备

Family Cites Families (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9805255B2 (en) * 2016-01-29 2017-10-31 Conduent Business Services, Llc Temporal fusion of multimodal data from multiple data acquisition systems to automatically recognize and classify an action
CN106874521B (zh) * 2017-03-20 2020-07-28 南京云开科技有限公司 一种大数据学习分析系统及方法
CN108664614B (zh) * 2017-05-12 2021-11-23 华中师范大学 基于教育大数据的学习者模型动态构建方法
CN107679491B (zh) * 2017-09-29 2020-05-19 华中师范大学 一种融合多模态数据的3d卷积神经网络手语识别方法
CN108447329A (zh) * 2018-05-11 2018-08-24 上海陌桥网络科技有限公司 学习效果测试方法、教育资源管理装置、系统及客户端
CN108648746B (zh) * 2018-05-15 2020-11-20 南京航空航天大学 一种基于多模态特征融合的开放域视频自然语言描述生成方法
CN109614895A (zh) * 2018-10-29 2019-04-12 山东大学 一种基于attention特征融合的多模态情感识别的方法
CN109815903B (zh) * 2019-01-24 2020-10-02 同济大学 一种基于自适应融合网络的视频情感分类方法
CN110287389A (zh) * 2019-05-31 2019-09-27 南京理工大学 基于文本、语音和视频融合的多模态情感分类方法
CN111539358A (zh) * 2020-04-28 2020-08-14 上海眼控科技股份有限公司 工作状态确定方法、装置、计算机设备和存储介质

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102354349A (zh) * 2011-10-26 2012-02-15 华中师范大学 提高孤独症儿童社会互动能力的人机互动多模态早期干预系统
CN108288035A (zh) * 2018-01-11 2018-07-17 华南理工大学 基于深度学习的多通道图像特征融合的人体动作识别方法
CN110430397A (zh) * 2019-07-31 2019-11-08 广州竞德信息技术有限公司 基于多模态的行为识别方法
CN111027584A (zh) * 2019-10-23 2020-04-17 宋飞 一种课堂行为识别方法及设备

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
Research on Adaptive Learning Prediction Based on XAPI;Jun Xiao 等;International Journal of Information and Education Technology;第10卷(第9期);679-684 *

Also Published As

Publication number Publication date
CN112487949A (zh) 2021-03-12

Similar Documents

Publication Publication Date Title
CN112487949B (zh) 一种基于多模态数据融合的学习者行为识别方法
CN111554268B (zh) 基于语言模型的语言识别方法、文本分类方法和装置
CN111582225B (zh) 一种遥感图像场景分类方法及装置
CN112990296B (zh) 基于正交相似度蒸馏的图文匹配模型压缩与加速方法及系统
CN110728997A (zh) 一种基于情景感知的多模态抑郁症检测方法和系统
CN114398961A (zh) 一种基于多模态深度特征融合的视觉问答方法及其模型
CN111160533A (zh) 一种基于跨分辨率知识蒸馏的神经网络加速方法
CN111831789A (zh) 一种基于多层语义特征提取结构的问答文本匹配方法
CN110991515B (zh) 一种融合视觉上下文的图像描述方法
CN112015760B (zh) 基于候选答案集重排序的自动问答方法、装置和存储介质
CN115393933A (zh) 一种基于帧注意力机制的视频人脸情绪识别方法
CN107293290A (zh) 建立语音声学模型的方法和装置
CN111653270B (zh) 语音处理方法、装置、计算机可读存储介质及电子设备
CN110348482A (zh) 一种基于深度模型集成架构的语音情感识别系统
CN116050892A (zh) 一种基于人工智能的智能教育评价监督方法
CN116244474A (zh) 一种基于多模态情感特征融合的学习者学习状态获取方法
CN115935969A (zh) 基于多模态信息融合的异构数据特征提取方法
CN115563327A (zh) 基于Transformer网络选择性蒸馏的零样本跨模态检索方法
CN115147641A (zh) 一种基于知识蒸馏和多模态融合的视频分类方法
CN117033961A (zh) 一种上下文语境感知的多模态图文分类方法
CN115116470B (zh) 音频处理方法、装置、计算机设备和存储介质
CN114330535B (zh) 一种基于支持向量正则化字典对学习的模式分类方法
CN112765955B (zh) 一种中文指代表达下的跨模态实例分割方法
Wu et al. Question-driven multiple attention (dqma) model for visual question answer
CN114818739A (zh) 一种利用位置信息优化的视觉问答方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant