CN116071794A - 一种行为数据学习风格画像生成方法、系统、设备和介质 - Google Patents

一种行为数据学习风格画像生成方法、系统、设备和介质 Download PDF

Info

Publication number
CN116071794A
CN116071794A CN202211632045.1A CN202211632045A CN116071794A CN 116071794 A CN116071794 A CN 116071794A CN 202211632045 A CN202211632045 A CN 202211632045A CN 116071794 A CN116071794 A CN 116071794A
Authority
CN
China
Prior art keywords
data
learning
cognitive
constructing
feature
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202211632045.1A
Other languages
English (en)
Inventor
梁智杰
武锐霞
王玲
毛笋
杨娟
吴长城
李红霞
冯朝胜
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sichuan Normal University
Sichuan Water Conservancy Vocational College
Original Assignee
Sichuan Normal University
Sichuan Water Conservancy Vocational College
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sichuan Normal University, Sichuan Water Conservancy Vocational College filed Critical Sichuan Normal University
Priority to CN202211632045.1A priority Critical patent/CN116071794A/zh
Publication of CN116071794A publication Critical patent/CN116071794A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/16Human faces, e.g. facial parts, sketches or expressions
    • G06V40/174Facial expression recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/764Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/774Generating sets of training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/20Movements or behaviour, e.g. gesture recognition
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • General Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Software Systems (AREA)
  • Computing Systems (AREA)
  • Medical Informatics (AREA)
  • Human Computer Interaction (AREA)
  • Databases & Information Systems (AREA)
  • Oral & Maxillofacial Surgery (AREA)
  • Social Psychology (AREA)
  • Psychiatry (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Molecular Biology (AREA)
  • General Engineering & Computer Science (AREA)
  • Mathematical Physics (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开了一种行为数据学习风格画像生成方法、系统、设备和介质,包括:获取样本数据,构建卷积神经网络模型,对第一行为数据进行处理,获得认知情绪状态识别数据;构建时空特征融合的Transformer模型,对第二行为数据进行处理,获得认知专注度识别数据;构建语义识别模型,对第三行为数据进行处理,获得互动活跃度识别数据;对认知情绪状态识别数据、认知专注度识别数据和互动活跃度识别数据进行量化,生成行为数据序列,构建学习风格编码框架,根据行为数据序列生成学习风格画像,通过追踪聋哑人在场馆参观情境下的非正式学习行为数据进行学习风格生成,从而掌握聋哑学习者的学习状态,从而提升聋哑人的非正式学习交互体验。

Description

一种行为数据学习风格画像生成方法、系统、设备和介质
技术领域
本发明涉及数据处理技术领域,具体涉及一种行为数据学习风格画像生成方法、系统、设备和介质。
背景技术
现阶段,要进行聋哑人场馆非正式学习的学习风格画像生成,有以下两种主流的技术方案:
第一种是借鉴传统的定性式教育观察。观察者凭借教育理论和行业经验,针对聋哑学习者的学习行为表现给出定性的描述,并提出一些改进建议。但是,此类方法存在缺乏个性化教学这一弊端。从聋哑学习者角度出发,定性观察强调对学习活动进行整体描述,无法精确的掌握每一位学习者的学习状态。所以,此类方法的主观性较强,难以反映事件之间的局部差异。
第二种是基于实证研究的定量观察。此类方法首先创建观察编码框架,利用人工标记的方式记录学习行为,并使用统计数据对学习行为进行量化分析。这些行为编码系统主要针对学习活动中的教学行为和互动信息,对聋哑人非正式学习视频分析具有一定的借鉴意义,但仍需要根据聋哑人的交互特点对观察要素进行修改和调整。同时,由于聋哑人听说受限,交流互动主要依靠手语和肢体表达,从机器理解的角度来看,缺少声音这一重要的信息摄入通道,给机器理解聋哑人非正式学习行为带来了巨大挑战。
发明内容
本发明所要解决的技术问题是现有技术中无法精确的掌握聋哑学习者的学习状态,目的在于提供一种行为数据学习风格画像生成方法、系统、设备和介质,利用聋哑人在场馆学习情境中的非正式学习行为,通过学习认知情绪状态识别数据、观展头部姿态、学习互动行为等外显信息进行学习风格生成,获得聋哑学习者的参展互动活跃度,从而掌握聋哑学习者的学习状态,从而提升聋哑人的非正式学习交互体验。
本发明通过下述技术方案实现:
本发明第一方面提供一种行为数据学习风格画像生成方法,包括以下具体步骤:
S1、获取样本数据,所述样本数据包括:第一行为数据、第二行为数据和第三行为数据;
S2、构建卷积神经网络模型,对第一行为数据进行处理,获得认知情绪状态识别数据;
构建时空特征融合的Transformer模型,对第二行为数据进行处理,获得认知专注度识别数据;
构建语义识别模型,对第三行为数据进行处理,获得互动活跃度识别数据;
S3、对认知情绪状态识别数据、认知专注度识别数据和互动活跃度识别数据进行量化,生成行为数据序列;
S4、构建学习风格编码框架,根据行为数据序列生成学习风格画像。
本发明通过追踪聋哑人在场馆参观情境下的非正式学习行为,通过学习认知情绪状态识别数据、观展头部姿态、学习互动行为等外显信息进行学习风格生成,获得聋哑学习者的参展互动活跃度,从而掌握聋哑学习者的学习状态,从而提升聋哑人的非正式学习交互体验。
进一步的,所述样本数据为聋哑人在场馆学习情境中的行为数据,所述第一行为数据包括学习者的面部表情数据,第二行为数据包括学习者的观展时头部姿态数据,第三行为数据包括学习者的手语动作数据。
进一步的,所述构建卷积神经网络模型,对第一行为数据进行处理,获得认知情绪状态识别数据具体包括:
获取第一行为数据,构建卷积神经网络模型对第一行为数据进行特征提取,获得特征标签;
对特征标签进行筛选,将筛选后不同尺寸的特征标签进行拼接,获得固定长度的特征向量,采用softmax函数确定特征标签所属类别概率,获得特征标签分类结果;
采用反向传播算法更新特征标签分类结果与实际表情类别之间的误差,进行多轮迭代训练卷积神经网络模型参数;
将特征标签输入训练好的卷积神经网络模型中,将采用不同尺寸卷积核得到的特征标签进行融合,输出概率最高的分类结果作为最终的表情识别结果,根据最终的表情识别结果确定认知情绪状态识别数据。
进一步的,所述构建时空特征融合的Transformer模型,对第二行为数据进行处理,获得认知专注度识别数据具体包括:
获取第二行为数据,构建时空特征融合的Transformer模型提取学习者头部的角度偏转特征,通过softmax回归器对学习者头部的角度偏转特征进行估计头部姿态,根据头部姿态的水平偏转角度和垂直偏转角度估计,获得认知专注度识别数据。
进一步的,所述对学习者头部的角度偏转特征进行估计头部姿态具体包括:
获取学习者的观展头部姿态数据,在空间维度上对视频逐帧进行均匀切片,将二维图像转换成一维线性序列,在水平和垂直角度回归预测出学习者的头部偏转角度;
通过线性压缩模块对序列进行拉平操作,得到图像数据的嵌入向量作为Transformer模块的输入;
所述序列包含图像位置信息,空间Transformer将该帧的每一个关键点当做一个切片,通过空间位置嵌入得到高维度特征;
通过空间提取高维特征作为时间维度上的一个切片进行时序信息编码,得到多帧图片之间的时间相关性;
根据多帧图片之间的时间相关性获得头部的朝向描述算子,将头部的朝向描述算子传入分类推断模块进行头部的水平和垂直偏转角度估计,获得认知专注度识别数据。
进一步的,所述构建语义识别模型,对第三行为数据进行处理,获得互动活跃度识别数据具体包括:
获取第三行为数据,构建三通道卷积神经网络模型,从空间、局部时域、全局时域三个通道进行特征图的构建:所述空间通道CNN对动作图像进行深度学习,所述局部时域通道CNN对光流场进行深度学习,所述全局时域通道CNN对动作差分图像进行深度学习;
将不同尺寸的特征图拼接为固定长度的特征向量,对拼接后的特征进行分类;
将三通道视频特征输入特征提取模块,获得深度特征映射输入至长短时记忆单元,提取肢体语义的上下文时域信息;
根据肢体语义的上下文时域信息融合不同特征通道的输出进行投票,获得学习者肢体语义的识别结果。
进一步的,获取认知情绪状态识别数据、参观认知专注度识别数据和交互活跃度的历史数据,确定认知情绪状态识别数据、参观认知专注度识别数据和交互活跃度的权重因子;
构建学习风格编码框架,结合权重因子对情感投入度、认知专注度识别数据、互动活跃度识别数据进行加权计算,生成聋哑学人的场馆学习风格画像。
本发明第二方面提供一种行为数据学习风格画像生成系统,包括:
样本数据收集模块:用于收集第一行为数据、第二行为数据和第三行为数据;
第一处理模块:用于构建卷积神经网络模型,对第一行为数据进行处理,获得认知情绪状态识别数据;
第二处理模块:用于构建时空特征融合的Transformer模型,对第二行为数据进行处理,获得认知专注度识别数据;
第三处理模块:用于构建语义识别模型,对第三行为数据进行处理,获得互动活跃度识别数据;
数据处理模块:用于对认知情绪状态识别数据、认知专注度识别数据和互动活跃度识别数据进行量化,生成行为数据序列;
学习风格生成模块:用于画像构建学习风格编码框架,根据行为数据序列生成学习风格画像。
本发明第三方面提供一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现一种行为数据学习风格画像生成方法。
本发明第四方面提供一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现一种行为数据学习风格画像生成方法。
本发明与现有技术相比,具有如下的优点和有益效果:
1.本发明通过追踪聋哑人在场馆参观情境下的非正式学习行为,通过学习认知情绪状态识别数据、观展头部姿态、学习互动行为等外显信息进行学习风格生成,获得聋哑学习者的参展互动活跃度,从而掌握聋哑学习者的学习状态,从而提升聋哑人的非正式学习交互体验;
2.本发明通过采集场馆学习过程中的聋哑人的面部表情,设计可变尺寸的卷积神经网络,对聋哑人视频脸部特征进行细粒度检测,实现聋哑人认知情绪的识别;采集聋哑学习者观看展品时的头部姿态,设计时空特征融合的Transformer模型,估计聋哑学习者的头部偏转角度,结合阈值判定法计算出学习者的认知专注状态;采集学习者在场馆情境下的互动肢体动作,设计语义识别模型对其肢体语义进行理解,得出聋哑与学习者的参展互动活跃度;对聋哑学习者的历史行为进行量化,输入至学习风格编码框架,根据行为数据序列生成学习风格画像,并进行可视化展示,可将其应用于残障人士的场馆教学情境中;
3.以此学习风格推演方法为支点的学习支持服务,更加注重场馆学习情景下聋哑学生行为的描述,使学习分析落实到客观的数据上,从而帮助场馆管理人员根据学习者的反馈表现,在展室环境、展品摆放和设计方面进行改进,促进非正式学习效果的提升。
附图说明
为了更清楚地说明本发明示例性实施方式的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,应当理解,以下附图仅示出了本发明的某些实施例,因此不应被看作是对范围的限定,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他相关的附图。在附图中:
图1为本发明实施例中的场馆情境下学习风格推演方法流程图;
图2为本发明实施例中的学习者认知情绪状态识别数据生成流程图;
图3为本发明实施例中的学习者认知专注度识别数据生成流程图;
图4为本发明实施例中的学习者互动活跃度识别数据生成流程图;
图5为本发明实施例中的学习者学习风格画像生成流程图;
图6为本发明实施例中的学习风格推演的运行效果图;
图7为本发明实施例中的不同学习者的差异化学习风格画像对比实施案例图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚明白,下面结合实施例和附图,对本发明作进一步的详细说明,本发明的示意性实施方式及其说明仅用于解释本发明,并不作为对本发明的限定。
实施例1
如图1所示,本实施例第一方面提供一种行为数据学习风格画像生成方法,包括以下具体步骤:
S1、获取样本数据,样本数据包括:第一行为数据、第二行为数据和第三行为数据;
S2、构建卷积神经网络模型,对第一行为数据进行处理,获得认知情绪状态识别数据;
构建时空特征融合的Transformer模型,对第二行为数据进行处理,获得认知专注度识别数据;
构建语义识别模型,对第三行为数据进行处理,获得互动活跃度识别数据;
S3、对认知情绪状态识别数据、认知专注度识别数据和互动活跃度识别数据进行量化,生成行为数据序列;
S4、构建学习风格编码框架,根据行为数据序列生成学习风格画像。
通过追踪聋哑人在场馆参观情境下的非正式学习行为,通过学习认知情绪状态识别数据、观展头部姿态、学习互动行为等外显信息进行学习风格生成,获得聋哑学习者的参展互动活跃度,从而掌握聋哑学习者的学习状态,从而提升聋哑人的非正式学习交互体验。
在一些可能的实施例中,样本数据为聋哑人在场馆学习情境中的行为数据,第一行为数据包括学习者的面部表情数据,第二行为数据包括学习者的观展时头部姿态数据,第三行为数据包括学习者的手语动作数据。
如图2所示,构建卷积神经网络模型,对第一行为数据进行处理,获得认知情绪状态识别数据具体包括:
采集场馆参观过程中的聋哑学习者面部表情,设计可变尺寸的卷积神经网络,对聋哑人视频脸部特征进行细粒度检测,实现聋哑人认知情绪的中立、分心、高兴、挫败、厌倦、疑惑6个维度的分类识别。
可变尺寸的卷积神经网络,包括输入层、至少4次堆叠的卷积层、池化层、空间金字塔池化层、softmax分类层:
输入层将场馆学习情境的图像输入至卷积层进行特征提取,得到用于人脸表情识别的特征信息;
池化层将部分特征丢弃后输入至金字池化层(Spatial Pyramid Pooling,SPP),不同尺寸的特征图经过空间金字塔池化层拼接后,可以得到固定长度的特征向量,从而确保在特征输入softmax层之前分类器的平滑性。
计算softmax层输出的特征与实际表情类别之间的误差,依据计算得到的误差反向传播,计算机每一层参数优化的梯度值,进而循环对每一层参数进行调整,直到模型输出与实际表情之间的误差达到极小点而停止迭代。
本实施例中的可变尺寸卷积神经网络图一共有2种不同尺寸的卷积操作(Conv)从图像上进行特征采样,尺寸分别是1×1和3×3,rate代表卷积核的个数,卷积操作实现如下式:
上式中,表示当前状态下输入的图像样本,上标中的x和y代表样本的长度和宽度,分别使用了两种尺寸的卷积核进行差异化特征提取;下标中(l)n表示第l层中的第n个特征图。表示卷积核连接到第n个特征图的权重,p,q表示卷积核的空间尺寸。表示第l层中的第j个特征图的偏置项,f表示卷积操作后的输出。池化层紧随其后,进行无关特征的丢弃,池化操作表示为:
上式中,是卷积操作输出的二维张量,m代表池化操作在空间维度上的大小,在该空间维度上仅保留最大值。
为了对抗因距离不同所导致的人脸分别率过低的影响,针对输入样本数据分辨率的不同,在全连接层前添加了一个空间金字塔池化层。
金字塔池化层的由3个网格尺寸为4×4、2×2、1×1的最大池化层组合构成,对于输入的任意大小的特征图,3个最大池化层分别将图像切分为16、4、1块,而后在每一块上进行最大池化。第1个池化层提取16维特征向量,第2个池化层提取4维特征向量,第3个池化层提取1维特征向量,最后将3个池化层提取到的特征向量融合,得到16+4+1=21维的特征向量,不同尺寸的特征图在经过空间金字塔池化层拼接后可以得到固定长度的特征向量,确保输入全连接分类器的特征维度相同。
全连接层采用softmax函数对特征图计算其所属类别概率,得到分类结果,softmax函数计算逻辑为:
上式中,xi表示输出层第i个神经元的输出;k表示输出参数的个数,即表情分类的种类。这样,可以将k个标量x1,...,xk转换为一个概率分布:p1,...,pk。在训练阶段,模型结合人脸表情数据库的标签进行有监督学习,使模型的梯度和权重信息得到更新。在测试阶段,模型同样是将不同尺寸卷积核得到的特征进行融合,输出概率最高的p值作为最终的表情识别结果。
如图3所示,构建时空特征融合的Transformer模型,对第二行为数据进行处理,获得认知专注度识别数据具体包括:
首先,在空间维度上对视频逐帧进行均匀切片,对于原始输入图像x,使用网格将图像划分为N个尺寸为N×N的子区域,此处N=HW/P2,并且输出序列的总长度由N值决定。而后,将图像按子图的序列调整为一维线性序列,即序列中每个块包含了图像位置信息,连同特征嵌入的一维向量输入带有自注意力机制的模型中,其计算逻辑为:
上式中,Q,K,V由输入的向量x经过线性变换得到的,Q代表要查询的信息,K代表被查询的向量,V代表查询得到的值,d是查询向量Q和值向量K的维度,B代表位置偏移矩阵。类似的,每一帧图片经过空间提取高维特征后,被当做时间维度上的一个切片,经过时序信息编码后得到多帧之间的时间相关性。最终,将所得到的头部的朝向描述算子传入分类推断模块,对头部的水平和垂直偏转角度进行估计,在俯仰角(pitch)和偏航角(yaw)两个维度返回头部姿态的偏转角度;此处,偏转角度和观展认知注意力的判断逻辑如下:
上式中,Rpitch表示头部在水平方向上的俯仰角,Rroll表示垂直方向上的偏航角,如果Rpitch和Rroll的值均介于设定的阈值-20°到20°之间,则当前时刻被判定为专注;反之,若如果Rpitch和Rroll的值其中有一项不满足阈值条件,则表示学习者当前时刻不专注。
如图4所示,将聋哑人肢体表述视频输入语义识别模型中,首先从空间、局部时域、全局时域三个通道进行特征图的构建。而后,将三通道视频特征输入有4个卷积层、2个池化层组成的特征提取模块,经过卷积和池化操作后,得到深度特征映射输入至长短时记忆单元(LSTM),进一步提取肢体语义的上下文时域信息;
所述LSTM单元通过引入门结构来控制线性的信息在其中循环传递,并且将非线性的信息通过输出方式传递给隐藏层的外部状态ht
ht=ot⊙tanh(ct)
上式中,⊙表示向量元素的求哈达玛积;ct-1表示记忆单元在上一时刻的输出。表示非线性激活函数输出的候选状态,其计算逻辑为:
上式中,xt表示当前状态下的输入信息,ht-1表示上一时刻的输出,W和Uc分别表示当前时刻和上一时刻输入信息的权值,bc表示偏置项;在时刻t,ct作为状态单元,蕴含了信息传递至当前时刻所包含的全部历史信息,并且残留的比例使用门结构进行控制:
ft=σ(Wixt+Uiht-1+bi)
it=σ(Wfxt+Ufht-1+bf)
ot=σ(Woxt+Uoht-1+bo)
上式中,ft表示遗忘门,it表示输入门,ot表示输出门,σ(·)表示非线性激活函数,可将三个门的输出值归一化至[0,1]的区间范围。其中,遗忘门ft根据当前的输入xt和上一时刻的输出ht-1确定当前时刻的神经元需要保留的信息;输入门it根据xt、ht-1以及遗忘门权重Uf控制加入到候选状态中的信息比例,以生成新的状态ct;输出门ot根据更新后的ct状态,决定该时刻的输出值ht
在softmax层与LSTM模型之间添加空间金字塔池化层,将不同尺寸的特征图拼接为固定长度的特征向量,通过softmax对当前特征进行分类。最终,通过融合不同特征通道的输出进行投票,获得聋哑学习者肢体语义的识别结果。
如图5所示,获取认知情绪状态识别数据、参观认知专注度识别数据和交互活跃度的历史数据,确定认知情绪状态识别数据、参观认知专注度识别数据和交互活跃度的权重因子;
构建学习风格编码框架,结合权重因子对情感投入度、认知专注度识别数据、互动活跃度识别数据进行加权计算,生成聋哑学人的场馆学习风格画像具体包括:
根据机器输出场馆视频中聋哑学习者学习认知情绪、观展头部姿态和学习交互行为的特征信息和统计信息,分别构建学习者情感参与度、学习专注度和交互活跃度模型,各项信息由S1至S3的各个子模型得到并分配权重因子α、β、η。在建立的情感投入度、学习专注度和行为参与度模型基础上,根据三个维度中识别出的学习行为,遵循学习风格编码框架对场馆行为进行频次的统计,生成场馆学习风格个人测评可视化结果。
如图6所示,首先,将学习者进入某一展品情境作为原始状态,通过对学习者专注参观的行为(主动交互、肢体应答、互动操作和记录等)和不专注的行为(低头、左右看、快速离开等)进行识别和记录,进而对学习者个体的参展行为进行统计。其中,学习者动作检测和判定可依靠行为理解模块完成。所有检测的结果,实时通过传感器存储接口上传到展馆中心服务器,在参观结束后,从独立、依存、动觉和沉寂四个维度给出学习风格的测评结果。
,制定场馆学习风格画像编码系统,将学习者行为细分为参观者表述信息、参观者活动行为、讲解者的学习影响和学习场景的信息流四个区域,每个区域再划分4个子层次,建立包含16个维度的行为坐标系。通过统计历史行为数据计算出每个维度上的得分值,将这些值在行为坐标系中记录并接邻互联,形成不规则折线闭环状的“场馆学习效果云”。
如图7所示,可以从归一化后的面积、外部周长、重心、极差和离散系数来反映不同参观者的学习效果。比如,学习者0相比学习者1的行为云整体形态更加饱满、均匀并且极差更小,说明其能力发展良好,获得了较为理想的学习效果。而且进一步对比行为云的重心,可以发现二者具有明显的学习风格差异,学习者1倾向于跟随场馆预先设定好的节奏逐个观察展品,而学习者0则更愿意自主地进行探索和互动。后期,可以结合学习者的学习风格偏好及学习群体差异化特征,有针对性地推送契合度更高的展品讲解内容和扩展资料;通过优质的学习支持服务,实现“千人千面”的因材施教。
本实施例所描述的方法,通过将聋哑人场馆学习过程与基于人工智能的相关测量手段相结合,在借鉴传统教育观察分析研究的基础上,用数据驱动的机器智能方式将聋哑人场馆学习情境中的多元异构显性行为(学习认知情绪、观展头部姿态、学习互动行为)与潜在隐性状态(情感投入度、学习专注度、行为参与度)建立关联;并据此信息进行学习风格生成,相比传统的学习分析方法具有显而易见的优势。
本实施例第二方面提供一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,处理器执行程序时实现一种行为数据学习风格画像生成方法。
本实施例第三方面提供一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现一种行为数据学习风格画像生成方法。
实施例2
本实施例提供一种行为数据学习风格画像生成系统,包括:
样本数据收集模块:用于收集第一行为数据、第二行为数据和第三行为数据;
第一处理模块:用于构建卷积神经网络模型,对第一行为数据进行处理,获得认知情绪状态识别数据,认知情绪状态识别数据由表情识别框架完成中立、分心、高兴、挫败、厌倦、疑惑6个表情的细分
第二处理模块:用于构建时空特征融合的Transformer模型,对第二行为数据进行处理,获得认知专注度识别数据,认知专注度识别数据由头部姿态估计模型计算出学习者的头部在水平和垂直角度的偏转角度,结合阈值判定法进一步返回学习者保持专注的时长;
第三处理模块:用于构建语义识别模型,对第三行为数据进行处理,获得互动活跃度识别数据,互动活跃度识别数据由聋哑学习者的肢体语义理解框架,统计聋哑学习者在场馆情境下的互动频次得出;
数据处理模块:用于对认知情绪状态识别数据、认知专注度识别数据和互动活跃度识别数据进行量化,生成行为数据序列;
学习风格生成模块:用于画像构建学习风格编码框架,根据行为数据序列生成学习风格画像,从参观者交互信息、参观者活动行为、讲解者的学习影响和学习场景的信息流四大区域,共16个维度对各类信息自动抽样和统计,根据行为频次形成学习风格画像的数据序列,并使用雷达图进行学习风格画像的展示。
以上所述的具体实施方式,对本发明的目的、技术方案和有益效果进行了进一步详细说明,所应理解的是,以上所述仅为本发明的具体实施方式而已,并不用于限定本发明的保护范围,凡在本发明的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (10)

1.一种行为数据学习风格画像生成方法,其特征在于,包括以下具体步骤:
S1、获取样本数据,所述样本数据包括:第一行为数据、第二行为数据和第三行为数据;
S2、构建卷积神经网络模型,对第一行为数据进行处理,获得认知情绪状态识别数据;
构建时空特征融合的Transformer模型,对第二行为数据进行处理,获得认知专注度识别数据;
构建语义识别模型,对第三行为数据进行处理,获得互动活跃度识别数据;
S3、对认知情绪状态识别数据、认知专注度识别数据和互动活跃度识别数据进行量化,生成行为数据序列;
S4、构建学习风格编码框架,根据行为数据序列生成学习风格画像。
2.根据权利要求1所述的一种行为数据学习风格画像生成方法,其特征在于,所述样本数据为聋哑人在场馆学习情境中的行为数据,所述第一行为数据包括学习者的面部表情数据,第二行为数据包括学习者的观展时头部姿态数据,第三行为数据包括学习者的手语动作数据。
3.根据权利要求1所述的一种行为数据学习风格画像生成方法,其特征在于,所述构建卷积神经网络模型,对第一行为数据进行处理,获得认知情绪状态识别数据具体包括:
获取第一行为数据,构建卷积神经网络模型对第一行为数据进行特征提取,获得特征标签;
对特征标签进行筛选,将筛选后不同尺寸的特征标签进行拼接,获得固定长度的特征向量,采用softmax函数确定特征标签所属类别概率,获得特征标签分类结果;
采用反向传播算法更新特征标签分类结果与实际表情类别之间的误差,进行多轮迭代训练卷积神经网络模型参数;
将特征标签输入训练好的卷积神经网络模型中,将采用不同尺寸卷积核得到的特征标签进行融合,输出概率最高的分类结果作为最终的表情识别结果,根据最终的表情识别结果确定认知情绪状态识别数据。
4.根据权利要求1所述的一种行为数据学习风格画像生成方法,其特征在于,所述构建时空特征融合的Transformer模型,对第二行为数据进行处理,获得认知专注度识别数据具体包括:
获取第二行为数据,构建时空特征融合的Transformer模型提取学习者头部的角度偏转特征,通过softmax回归器对学习者头部的角度偏转特征进行估计头部姿态,根据头部姿态的水平偏转角度和垂直偏转角度估计,获得认知专注度识别数据。
5.根据权利要求4所述的一种行为数据学习风格画像生成方法,其特征在于,所述对学习者头部的角度偏转特征进行估计头部姿态具体包括:
获取学习者的观展头部姿态数据,在空间维度上对视频逐帧进行均匀切片,将二维图像转换成一维线性序列,在水平和垂直角度回归预测出学习者的头部偏转角度;
通过线性压缩模块对序列进行拉平操作,得到图像数据的嵌入向量作为Transformer模块的输入;
所述序列包含图像位置信息,空间Transformer将该帧的每一个关键点当做一个切片,通过空间位置嵌入得到高维度特征;
通过空间提取高维特征作为时间维度上的一个切片进行时序信息编码,得到多帧图片之间的时间相关性;
根据多帧图片之间的时间相关性获得头部的朝向描述算子,将头部的朝向描述算子传入分类推断模块进行头部的水平和垂直偏转角度估计,获得认知专注度识别数据。
6.根据权利要求1所述的一种行为数据学习风格画像生成方法,其特征在于,所述构建语义识别模型,对第三行为数据进行处理,获得互动活跃度识别数据具体包括:
获取第三行为数据,构建三通道卷积神经网络模型,从空间、局部时域、全局时域三个通道进行特征图的构建:所述空间通道CNN对动作图像进行深度学习,所述局部时域通道CNN对光流场进行深度学习,所述全局时域通道CNN对动作差分图像进行深度学习;
将不同尺寸的特征图拼接为固定长度的特征向量,对拼接后的特征进行分类;
将三通道视频特征输入特征提取模块,获得深度特征映射输入至长短时记忆单元,提取肢体语义的上下文时域信息;
根据肢体语义的上下文时域信息融合不同特征通道的输出进行投票,获得学习者肢体语义的识别结果。
7.根据权利要求1所述的一种行为数据学习风格画像生成方法,其特征在于,获取认知情绪状态识别数据、参观认知专注度识别数据和交互活跃度的历史数据,确定认知情绪状态识别数据、参观认知专注度识别数据和交互活跃度的权重因子;
构建学习风格编码框架,结合权重因子对情感投入度、认知专注度识别数据、互动活跃度识别数据进行加权计算,生成聋哑学人的场馆学习风格画像。
8.一种行为数据学习风格画像生成系统,其特征在于,包括:
样本数据收集模块:用于收集第一行为数据、第二行为数据和第三行为数据;
第一处理模块:用于构建卷积神经网络模型,对第一行为数据进行处理,获得认知情绪状态识别数据;
第二处理模块:用于构建时空特征融合的Transformer模型,对第二行为数据进行处理,获得认知专注度识别数据;
第三处理模块:用于构建语义识别模型,对第三行为数据进行处理,获得互动活跃度识别数据;
数据处理模块:用于对认知情绪状态识别数据、认知专注度识别数据和互动活跃度识别数据进行量化,生成行为数据序列;
学习风格生成模块:用于画像构建学习风格编码框架,根据行为数据序列生成学习风格画像。
9.一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时实现如权利要求1至7任一项所述的一种行为数据学习风格画像生成方法。
10.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,该程序被处理器执行时实现如权利要求1至7任一项所述的一种行为数据学习风格画像生成方法。
CN202211632045.1A 2022-12-19 2022-12-19 一种行为数据学习风格画像生成方法、系统、设备和介质 Pending CN116071794A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202211632045.1A CN116071794A (zh) 2022-12-19 2022-12-19 一种行为数据学习风格画像生成方法、系统、设备和介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202211632045.1A CN116071794A (zh) 2022-12-19 2022-12-19 一种行为数据学习风格画像生成方法、系统、设备和介质

Publications (1)

Publication Number Publication Date
CN116071794A true CN116071794A (zh) 2023-05-05

Family

ID=86174029

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202211632045.1A Pending CN116071794A (zh) 2022-12-19 2022-12-19 一种行为数据学习风格画像生成方法、系统、设备和介质

Country Status (1)

Country Link
CN (1) CN116071794A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117527444A (zh) * 2023-12-29 2024-02-06 中智关爱通(南京)信息科技有限公司 用于训练检测登录数据风险值的模型的方法、设备和介质

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117527444A (zh) * 2023-12-29 2024-02-06 中智关爱通(南京)信息科技有限公司 用于训练检测登录数据风险值的模型的方法、设备和介质
CN117527444B (zh) * 2023-12-29 2024-03-26 中智关爱通(南京)信息科技有限公司 用于训练检测登录数据风险值的模型的方法、设备和介质

Similar Documents

Publication Publication Date Title
Pabba et al. An intelligent system for monitoring students' engagement in large classroom teaching through facial expression recognition
US20210326597A1 (en) Video processing method and apparatus, and electronic device and storage medium
Dewan et al. A deep learning approach to detecting engagement of online learners
CN112699774B (zh) 视频中人物的情绪识别方法及装置、计算机设备及介质
CN110851760B (zh) 在web3D环境融入视觉问答的人机交互系统
CN110826453A (zh) 一种通过提取人体关节点坐标的行为识别方法
CN113158861B (zh) 一种基于原型对比学习的运动分析方法
CN112529054B (zh) 一种多源异构数据的多维度卷积神经网络学习者建模方法
CN113297936B (zh) 一种基于局部图卷积网络的排球群体行为识别方法
Kaluri et al. A framework for sign gesture recognition using improved genetic algorithm and adaptive filter
Shu et al. Perception of human interaction based on motion trajectories: From aerial videos to decontextualized animations
KR20200010672A (ko) 딥러닝을 이용한 스마트 상품 검색 방법 및 시스템
CN114529984A (zh) 一种基于可学习pl-gcn和eclstm的骨骼动作识别方法
CN115966010A (zh) 一种基于注意力和多尺度特征融合的表情识别方法
CN111985532B (zh) 一种场景级上下文感知的情感识别深度网络方法
CN114724224A (zh) 一种用于医疗护理机器人的多模态情感识别方法
Chen et al. Dynamic facial expression recognition model based on BiLSTM-Attention
CN116071794A (zh) 一种行为数据学习风格画像生成方法、系统、设备和介质
Yang et al. Student in-class behaviors detection and analysis system based on CBAM-YOLOv5
CN113239866B (zh) 一种时空特征融合与样本注意增强的人脸识别方法及系统
CN110580456A (zh) 基于相干约束图长短时记忆网络的群体活动识别方法
CN114757247A (zh) 分类预测模型的训练方法、分类预测方法、装置和设备
Zhong A convolutional neural network based online teaching method using edge-cloud computing platform
CN116244474A (zh) 一种基于多模态情感特征融合的学习者学习状态获取方法
Kousalya et al. Prediction of Best Optimizer for Facial Expression Detection using Convolutional Neural Network

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination