CN113762062A

CN113762062A - 专注度评估方法、装置、计算机设备和存储介质

Info

Publication number: CN113762062A
Application number: CN202110583903.7A
Authority: CN
Inventors: 孙朝旭; 刘萌; 吴嫒博; 孙康明; 叶礼伟; 夏志群; 卢鑫鑫; 蔡晓凤; 滕达; 覃伟枫
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2021-05-27
Filing date: 2021-05-27
Publication date: 2021-12-07

Abstract

本申请涉及一种专注度评估方法、装置、计算机设备和存储介质。所述方法包括：从目标图像帧中提取全局图像特征；在所述目标图像帧中提取图像上下文特征；基于所述全局图像特征和所述图像上下文特征之间的融合特征，识别所述目标图像帧中目标对象的表情和姿态，以及所述目标图像帧中的物品；根据所述融合特征确定所述目标对象与所述物品之间的交互行为；依据所述表情、所述姿态、所述物品的类型和所述交互行为，确定所述目标对象的专注度。采用本方法能够提高专注度评估的准确性。

Description

专注度评估方法、装置、计算机设备和存储介质

技术领域

本申请涉及人工智能技术领域，特别是涉及一种专注度评估方法、装置、计算机设备和存储介质。

背景技术

近些年来，随着人工智能技术的不断发展，使得人工智能技术被广泛应用到各种领域，例如应用到课堂教学中的专注度评估。在课堂教学中，若学生专注度较低，则很容易遗漏重要的知识点，因此通过人工智能技术对采集学生的人脸图像进行专注度的识别，可以有效地对专注度低的学生进行干预以优化课堂教学的质量。然而，通过人脸识别的方式来确定专注度，将会影响专注度评估的准确性。

发明内容

基于此，有必要针对上述技术问题，提供一种能够提升专注度评估准确性的专注度评估方法、装置、计算机设备和存储介质。

一种专注度评估方法，所述方法包括：

从目标图像帧中提取全局图像特征；

在所述目标图像帧中提取图像上下文特征；

基于所述全局图像特征和所述图像上下文特征之间的融合特征，识别所述目标图像帧中目标对象的表情和姿态，以及所述目标图像帧中的物品；

根据所述融合特征确定所述目标对象与所述物品之间的交互行为；

依据所述表情、所述姿态、所述物品的类型和所述交互行为，确定所述目标对象的专注度。

一种专注度评估装置，所述装置包括：

全局特征提取模块，用于从目标图像帧中提取全局图像特征；

上下文特征提取模块，用于在所述目标图像帧中提取图像上下文特征；

识别模块，用于基于所述全局图像特征和所述图像上下文特征之间的融合特征，识别所述目标图像帧中目标对象的表情和姿态，以及所述目标图像帧中的物品；

交互确定模块，用于根据所述融合特征确定所述目标对象与所述物品之间的交互行为；

专注度确定模块，用于依据所述表情、所述姿态、所述物品的类型和所述交互行为，确定所述目标对象的专注度。

在一个实施例中，所述装置还包括：

视频解码模块，用于对视频流进行解码，得到图像帧序列；

图像帧抽取模块，用于从所述图像帧序列中进行图像帧抽取，得到目标图像帧；

图像处理模块，用于对所述目标图像帧进行图像处理，得到处理后的目标图像帧。

在一个实施例中，所述图像处理模块，还用于：

对所述目标图像帧进行反相处理，得到反相图像帧；

获取所述反相图像帧中各像素点的像素值；

基于所述像素值确定所述反相图像帧中各像素点对应的变换参数；

根据所述反相图像帧中各像素点的像素值和对应的所述变换参数，对所述目标图像帧进行非线性变换，得到处理后的目标图像帧。

在一个实施例中，所述全局特征提取模块，还用于：

对处理后的所述目标图像帧依序进行归一化和去噪处理，得到归一化去噪图像帧；

将所述归一化去噪图像帧输入至专注度评估模型；

通过所述专注度评估模型中的特征提取网络，提取所述归一化去噪图像帧中的全局图像特征。

在一个实施例中，所述上下文特征提取模块，还用于：

对所述归一化去噪图像帧进行分块处理，得到图像序列块；

将所述图像序列块输入专注度评估模型；

通过所述专注度评估模型中的多注意力编码网络，提取所述图像序列块中各图像块的上下文特征；

通过所述专注度评估模型中的多层感知器，对各所述图像块的上下文特征进行特征融合，得到融合的图像上下文特征。

在一个实施例中，所述专注度确定模块，还用于：

基于所述表情确定所述目标对象的表情得分；

基于所述姿态确定所述目标对象的姿态得分；

基于所述物品的类型确定所述目标对象的物品得分；基于所述交互行为确定所述目标对象的交互得分；

根据所述表情得分、所述姿态得分、所述物品得分和所述交互得分，确定所述目标对象的专注度。

在一个实施例中，所述专注度确定模块，还用于：

获取表情维度、姿态维度、物品维度和交互维度分别所对应的权重；

基于不同维度的所述权重，对所述表情得分、所述姿态得分、所述物品得分和所述交互得分进行加权求和；

根据加权求和所得的加权得分确定所述目标对象的专注度。

在一个实施例中，所述目标对象为目标群体中的人物对象；所述装置还包括图表生成模块，用于：

获取每个所述人物对象在历史时刻的专注度；

基于当前确定的每个所述人物对象的专注度和所述历史时刻的专注度，确定所述目标群体在不同时刻的平均专注度；

根据各时刻的所述平均专注度生成所述目标群体的专注度分析图。

在一个实施例中，所述图表生成模块，还用于：

获取每个所述人物对象在历史时刻的专注度；

基于当前确定的每个所述人物对象的专注度和所述历史时刻的专注度，生成各所述人物对象的专注度分析图。

在一个实施例中，所述识别模块，还用于：

对所述全局图像特征和所述图像上下文特征进行特征融合，得到融合特征；

从所述融合特征中提取目标对象特征和物品特征；

基于所述目标对象特征识别所述目标图像帧中目标对象的表情和姿态；

基于所述物品特征识别所述目标图像帧中的物品。

一种计算机设备，包括存储器和处理器，所述存储器存储有计算机程序，所述处理器执行所述计算机程序时实现以下步骤：

从目标图像帧中提取全局图像特征；

在所述目标图像帧中提取图像上下文特征；

一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现以下步骤：

从目标图像帧中提取全局图像特征；

在所述目标图像帧中提取图像上下文特征；

一种计算机程序，所述计算机程序包括计算机指令，所述计算机指令存储在计算机可读存储介质中，计算机设备的处理器从所述计算机可读存储介质读取所述计算机指令，所述处理器执行所述计算机指令，使得所述计算机设备执行以下步骤：

从目标图像帧中提取全局图像特征；

在所述目标图像帧中提取图像上下文特征；

上述专注度评估方法、装置、计算机设备和存储介质，通过从目标图像帧中提取全局图像特征和图像上下文特征，并基于全局图像特征和图像上下文特征之间的融合特征，识别目标图像帧中目标对象的表情和姿态，以及目标图像帧中的物品，根据融合特征确定目标对象与物品之间的交互行为，一方面通过对特征进行融合，提高了识别结果的准确性，另一方面通过依据表情、姿态、物品的类型和交互行为多个维度，综合地确定出目标对象的专注度，从而提高了专注度评估的准确性。

附图说明

图1为一个实施例中专注度评估方法的应用环境图；

图2为一个实施例中专注度评估方法的流程示意图；

图3为一个实施例中残差单元结构示意图；

图4为一个实施例中图像分块处理示意图；

图5为一个实施例中Transformer Encoder模块的结构示意图；

图6为一个实施例中目标图像帧获取步骤的流程示意图；

图7为一个实施例中目标群体的专注度分析图的示意图；

图8为一个实施例中目标群体的个体专注度分析图的示意图；

图9为另一个实施例中专注度评估方法的流程示意图；

图10为另一个实施例中专注度评估方法的流程示意图；

图11为一个实施例中专注度评估装置的结构框图；

图12为一个实施例中专注度评估装置的结构框图；

图13为一个实施例中计算机设备的内部结构图；

图14为一个实施例中计算机设备的内部结构图。

具体实施方式

为了使本申请的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本申请进行进一步详细说明。应当理解，此处描述的具体实施例仅仅用以解释本申请，并不用于限定本申请。

人工智能(Artificial Intelligence,AI)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能，感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。换句话说，人工智能是计算机科学的一个综合技术，它企图了解智能的实质，并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法，使机器具有感知、推理与决策的功能。

人工智能技术是一门综合学科，涉及领域广泛，既有硬件层面的技术也有软件层面的技术。人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互系统、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。

机器学习(Machine Learning,ML)是一门多领域交叉学科，涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为，以获取新的知识或技能，重新组织已有的知识结构使之不断改善自身的性能。机器学习是人工智能的核心，是使计算机具有智能的根本途径，其应用遍及人工智能的各个领域。机器学习和深度学习通常包括人工神经网络、置信网络、强化学习、迁移学习、归纳学习、式教学习等技术。

随着人工智能技术研究和进步，人工智能技术在多个领域展开研究和应用，例如常见的无人驾驶、自动驾驶、无人机、机器人、智能家居、智能穿戴设备、虚拟助理、智能音箱、智能营销、智能医疗、智能客服等，相信随着技术的发展，人工智能技术将在更多的领域得到应用，并发挥越来越重要的价值。

本申请实施例提供的方案涉及人工智能的机器学习等技术，具体通过如下实施例进行说明：本申请提供的专注度评估方法，可以应用于如图1所示的应用环境中。其中，终端102通过网络与服务器104进行通信。终端102可通过内置或者外接的图像采集装置采集目标图像帧，然后将所采集的目标图像保存终端102本地或上传至服务器104，从而终端102或服务器104执行本申请提供的专注度评估方法。以该方法应用于终端102为例，终端102从目标图像帧中提取全局图像特征；在目标图像帧中提取图像上下文特征；基于全局图像特征和图像上下文特征之间的融合特征，识别目标图像帧中目标对象的表情和姿态，以及目标图像帧中的物品；根据融合特征确定目标对象与物品之间的交互行为；依据表情、姿态、物品的类型和交互行为，确定目标对象的专注度。

其中，终端102但不限于是各种个人计算机、笔记本电脑、智能手机、平板电脑和便携式可穿戴设备，服务器104可以是独立的物理服务器，也可以是多个物理服务器构成的服务器集群或者分布式系统，还可以是提供云存储、网络服务、云通信、大数据和人工智能平台等基础云计算服务的云服务器，还可以是区块链系统中的服务节点，区块链系统中的各服务节点之间形成组成点对点(P2P，Peer To Peer)网络，P2P协议是一个运行在传输控制协议(TCP，Transmission Control Protocol)协议之上的应用层协议。终端以及服务器可以通过有线或无线通信方式进行直接或间接地连接，本申请在此不做限制。

在一个实施例中，如图2所示，提供了一种专注度评估方法，以该方法应用于图1中的计算机设备(包括终端102和服务器104)为例进行说明，包括以下步骤：

S202，从目标图像帧中提取全局图像特征。

其中，目标图像帧是从视频流所包含的图像帧序列中所抽取出的包含目标对象的图像帧。比如，视频流为某个课堂教学过程中对学生进行拍摄而得到的视频流，则从该视频流中可以抽取出包含学生个体的图像帧作为目标图像帧；视频流为某个课堂教学过程中对教师进行拍摄而得到的视频流，则从该视频流中可以抽取出包含教师个体的图像帧作为目标图像帧。

全局图像特征是指能表示整幅图像上的特征，全局特征是相对于图像局部特征而言的，用于描述图像或目标的颜色和形状等整体特征。全局特征包括颜色特征、纹理特征和形状特征，比如强度直方图等。由于是像素级的低层可视特征，因此，全局特征具有良好的不变性、计算简单、表示直观等特点。

具体地，计算机设备在获取到目标图像帧之后，将所获取的目标图像帧输入预先训练好的专注度评估模型，并通过该专注度评估模型的特征提取网络提取目标图像帧的全局图像特征。

其中，专注度评估模型是预先训练的用于评估专注度的机器学习模型，包括特征提取网络和预测网络，特征提取网络用于从输入的图像帧中提取全局图像特征，预测网络用于基于输入的图像特征识别图像帧中的目标对象、物品和交互行为。

在一个实施例中，特征提取网络由Resnet Blockc残差单元构建，具体可包含多个残差单元，通过多个残差单元从图像帧中提取出不同层次的有丰富语义信息的图像特征，从而得到目标图像帧的全局图像特征。

图3示出了一个实施例中Resnet Blockc残差单元的结构示意图，其中，X为残差单元的输入，F(X)表示残差映射，输出为：Y＝F(X)+X，Resnet Blockc残差单元通过identitymapping的引入在输入和输出之间建立了一条直接的关联通道，从而使得有参层集中学习输入和输出之间的残差。

S204，在目标图像帧中提取图像上下文特征。

图像上下文特征是指目标图像帧中能够影响场景和图像中的对象的一些信息或者是全部信息，可以表征目标图像帧中目标对象与其他对象或环境之间的关系。

具体地，计算机设备在获取到目标图像帧之后，将所获取的目标图像帧输入预先训练好的专注度评估模型，并通过该专注度评估模型的多注意力编码特征提取网络提取目标图像帧的上下文特征。

其中，专注度评估模型是预先训练的用于评估专注度的机器学习模型，还包括多注意力编码特征提取网络，多注意力编码特征提取网络用于从输入的图像帧中提取图像上下文特征。

在一个实施例中，多注意力编码特征提取网络包括多注意力编码网络和多层感知器(MLP)，多注意力编码网络由Transformer Encoder模块构建，Transformer Encoder模块由Multi-head self-attention(MSA，多头注意力)和MLP(多层感知器)块的层组成。Transformer Encoder模块通过采用多头注意力机制代替原有单头注意力机制，可以更好地融合特征，从而提取出更加丰富的图像上下文特征。

其中，Transformer是一种主要基于自注意力机制的深度神经网络，最初是在自然语言处理领域中应用的。受到Transformer强大的表示能力的启发，研究人员提议将Transformer扩展到计算机视觉任务。与其他网络类型(例如卷积网络和循环网络)相比，基于Transformer的模型在各种视觉基准上显示出更好的性能。

在一个实施例中，计算机设备在获取的目标图像帧之后，对目标图像帧进行分块处理，得到图像序列块，并将所得到的图像序列块输入专注度评估模型，通过专注度评估模型中的多注意力编码特征提取网络提取各图像块的上下文特征，并对所提取的各图像块的上下文特征进行特征融合，得到融合的图像上下文特征。

具体地，计算机设备在得到目标图像帧之后，还可以将目标图像帧输入预先训练的专注度评估模型，通过专注度评估模型的线性投影层对目标图像进行线性投影映射得到预设尺寸的图像块序列。

在一个实施例中，针对尺寸为H×W×C的目标图像帧，可采用下式对其进行线性投影映射，从而得到预设尺寸的图像块序列：

其中，H为目标图像帧的高，W为目标图像帧的宽，C为目标图像帧的通道数，P为所得图像块的高和宽，N是所得图块的数量，N会影响图像序列块的长度，N的可通过下式计算得到：

图4示出了一个实施例中图像分块处理示意图，图中针对原始目标图像帧，采用公式(1)对其进行线性投影映射得到9个16*16的图像块，按从左至右，从上至下的顺序组成图像序列块。

在一个实施例中，计算机设备在得到图像序列块之后，并将所得到的图像序列块输入专注度评估模型，通过专注度评估模型中的多注意力编码网络，提取图像序列块中各图像块的上下文特征，通过专注度评估模型中的多层感知器，对各图像块的上下文特征进行特征融合，得到融合的图像上下文特征。其中，多注意力编码网络由TransformerEncoder模块构建，Transformer Encoder模块由Multi-head self-attention(MSA，多头注意力编码网络)和MLP(多层感知器)块的层组成。

图5示出了一个实施例中Transformer Encoder模块的结构示意图，图中Transformer Encoder模块由Multi-head self-attention(MSA，多头注意力)和MLP(多层感知器)块的层组成，在每个块之前应用Layer norm(LN，归一化层)，在每个块之后应用残差连接，MLP包含具有GELU(Gaussian Error Linear Unit)非线性的两全连接层，对目标图像帧进行分块处理的图像序列块(Embedded Patches)输入Transformer Encoder模块，通过Transformer Encoder模块中的Multi-head self-attention块和MLP块提取图像序列块中各图像块的上下文特征，然后将所得到的图像序列块中各图像块的上下文特征输入到专注度评估模型中的多层感知器，通过专注度评估模型中的多层感知器对各图像块的上下文特征进行特征融合，得到融合的图像上下文特征。

S206，基于全局图像特征和图像上下文特征之间的融合特征，识别目标图像帧中目标对象的表情和姿态，以及目标图像帧中的物品。

其中，表情包括三种情绪类型，包括正面情绪类型、中性情绪类型和负面情绪类型，可以理解的是高兴和惊喜属于正面情绪类型，生气、厌恶、害怕、难过、轻视、疑惑等属于负面情绪类型；姿态包括目标对象的头部姿态和身体姿态，头部姿态是指为头部的俯仰角、偏航角和滚转角，身体姿态包括举手、站立、正坐、趴桌子等身体姿态。物品可包括正常物品和异常物品，正常物品包括文具、书本等与学习相关的物品，异常物品包括手机、玩具等与学习无关的物品。

具体地，计算机设备在得到目标图像帧的全局图像特征和图像上下文特征之后，对全局图像特征和图像上下文特征进行融合处理，得到目标图像帧的融合特征，并基于目标图像帧的融合特征识别目标图像帧中目标对象的表情和姿态、以及目标图像帧中的物品。

在一个实施例中，计算机设备通过得到目标图像帧的融合特征之后，将所得到的融合特征输入专注度评估模型的预测网络，通过预测网络分别识别出目标图像帧中目标对象的表情和姿态，以及目标图像帧中的物品。

其中，专注度评估模型的预测网络可以包括多个子网络，具体可包括表情识别子网络、姿态识别子网络和物品识别子网络，通过表情识别子网络可以识别目标图像帧中目标对象的表情，通过姿态识别子网络可以识别目标图像帧中目标对象的姿态，通过物品识别子网络可以识别出目标图像帧中所包含的物品。每个子网络均由全连接层构成。

S208，根据融合特征确定目标对象与物品之间的交互行为。

其中，交互行为可以是目标对象对物品进行操作或观看的行为，比如在物品为书本时，目标对象阅读该书本的阅读行为，在物品为笔时，目标对象持笔书写的书写行为，物品为手机时，目标对象持手机或者观看手机的玩手机行为。

具体地，计算机设备可以直接根据融合特征识别出目标对象与物品之间的交互行为。

在一个实施例中，计算机设备通过得到目标图像帧的融合特征之后，将所得到的融合特征输入专注度评估模型的预测网络，通过预测网络所包含的姿态识别子网络直接识别出目标对象与物品的交互状态，并基于所识别出的交互状态的类别，确定出目标对象与物品之间的交互行为。其中，交互状态包括阅读状态、书写状态、玩手机状态等。

在一个实施例中，计算机设备在识别出目标图像帧中目标对象的表情和姿态、以及目标图像帧中的物品之后，还可以基于目标对象的表情和姿态中的至少一种，确定目标对象与物品之间的交互行为。

在一个实施例中，计算机设备确定目标对象的表情和物品是否匹配，若匹配，则确定目标对象和该物品之间存在交互行为，并基于目标物品确定交互行为。

例如，物品为书本，若目标对象的表情为中性情绪，则确定目标对象与该书本存在交互行为，并确定该交互行为为阅读行为；若目标对象的表情为负面情绪，则确定目标对象与该书本不存在交互行为；物品为手机，若目标对象的表情为正面情绪，则确定目标对象与手机存在交互行为，并确定该交互行为玩手机行为；若目标对象的表情为负面情绪，则确定目标对象与手机不存在交互行为。

在一个实施例中，计算机设备确定目标对象的姿态与物品是否匹配，若匹配，则确定目标对象和该物品之间存在交互行为，并基于目标物品确定交互行为。

具体地，计算机设备可以确定出物品的位置，并确定目标对象的姿态与物体的是否匹配，若目标对象的姿态与物品的位置匹配，则确定目标对象的姿态与物品匹配，若目标对象的姿态与物品的位置不匹配，则确定目标对象姿态与物品不匹配。

例如，物品为书本，若目标对象的头部姿态与书本的位置匹配，则确定目标对象的姿态与物品匹配，确定目标对象和书本之间存在交互行为，并确定该交互行为阅读行为，若目标对象的头部姿态与书本的位置不匹配，则确定目标对象的姿态与物品不匹配，确定目标对象和书本之间不存在交互行为；物品为手机，若目标对象的头部姿态与手机的位置匹配，则确定目标对象的姿态与书本匹配，确定目标对象和手机之间存在交互行为，并确定该交互行为阅读行为，若目标对象的头部姿态与手机的位置不匹配，则确定目标对象的姿态与书本不匹配，确定目标对象和手机之间不存在交互行为。

在一个实施例中，计算机设备分别确定目标对象的表情和物品是否匹配，以及目标对象的姿态与物品是否匹配，若目标对象的表情和姿态均与物品匹配，则确定目标对象和该物品之间存在交互行为，并基于目标物品确定交互行为；若目标对象的表情或姿态与物品不匹配，则确定目标对象和该物品之间不存在交互行为。

例如，物品为书本，若目标对象的表情为中性情绪、且目标对象的头部姿态与物品的位置匹配，则确定目标对象与该书本存在交互行为，并确定该交互行为为阅读行为；若目标对象的表情为负面情绪、且目标对象的头部姿态与物品的位置匹配，则确定目标对象与该书本不存在交互行为；若目标对象的表情为正面情绪、且目标对象的头部姿态与物品的位置不匹配，则确定目标对象与该书本不存在交互行为；若目标对象的表情为负面情绪、且目标对象的头部姿态与物品的位置不匹配，则确定目标对象与该书本不存在交互行为。

S210，依据表情、姿态、物品的类型和交互行为，确定目标对象的专注度。

其中，专注度用于衡量目标对象在课堂教学过程中的专注程度。目标对象可以是学生或教师。

具体地，计算机设备在识别出目标对象的表情和姿态、物品、目标对象与物品的交互行为之后，基于目标对象的表情和姿态、物品的类型和交互行为，分别确定出目标对象的表情得分和姿态得分、物品得分和交互得分，并根据目标对象的表情得分和姿态得分、物品得分和交互得分，确定目标对象的专注度。

在一个实施例中，S210包括以下步骤：基于表情确定目标对象的表情得分；基于姿态确定目标对象的姿态得分；基于物品的类型确定目标对象的物品得分；基于交互行为确定目标对象的交互得分；根据表情得分、姿态得分、物品得分和交互得分，确定目标对象的专注度。

具体地，计算机设备确定目标对象的表情所属的表情类型，并将该表情类型所对应的得分确定为目标对象的表情得分；基于目标对象的头部姿态和身体姿态确定目标对象的姿态得分；确定物品所属的类型，并所确定的物品类型所对应的得分确定为物品得分，并基于交互行为确定交互得分，然后根据表情得分、姿态得分、物品得分和交互得分，确定目标对象的专注度。

例如，目标对象的表情为中性情绪，则获取中性情绪所对应的得分作为目标对象的表情得分，头部姿态为俯仰角为30°、偏航角为35°，身体姿态为正坐，则获取俯仰角为30°、偏航角为35°所对应的头部姿态得分，以及正坐所对应的身体姿态得分，物品为书本，则书本为正常物品类型，则将正常物品类型所对应的得分确定为物品得分，交互行为为阅读行为，则获取阅读行为所对应交互得分，并根据表情得分、头部姿态得分、身体姿态得分、物品得分和交互得分，确定目标对象的专注度。

在一个实施例中，计算机设备在得到目标对象的专注度之后，确定该目标对象的专注度是否低于预设的专注度阈值，若是，则生成提示信息以进行提示。

例如，若目标对象为学生，则可以在学生的专注度低于专注度阈值时，生成专注度提示信息发送至教师对应的终端或该学生所对应的终端，以提示教师对该学生进行干预，或者提示学生集中注意力进行听讲；若目标对象为教师，则可以在教师的专注度低于专注度阈值时，生成专注度提示信息发送至教师所对应的终端或者教学质量监督员所对应的终端，以提示教师调整教学状态，或者提示教学质量监督员关注该教师的课堂教学情况。

上述专注度评估方法，通过从目标图像帧中提取全局图像特征和图像上下文特征，并基于全局图像特征和图像上下文特征之间的融合特征，识别目标图像帧中目标对象的表情和姿态，以及目标图像帧中的物品，根据融合特征确定目标对象与物品之间的交互行为，一方面通过对特征进行融合，提高了识别结果的准确性，另一方面通过依据表情、姿态、物品的类型和交互行为多个维度，综合地确定出目标对象的专注度，从而提高了专注度评估的准确性。

在一个实施例中，计算机设备在从目标图像帧中提取全局图像特征之前，如图6所示，上述专注度评估方法还包括以下步骤：

S602，对视频流进行解码，得到图像帧序列。

在一个实施例中，计算机设备通过内置或外接的图像采集装置实时采集课堂教学环境中的视频流，当场景为线下的课堂教学时，则可以通过至少一个图像采集装置对整体课堂教学环境进行图像采集得到视频流；当场景为线上课堂教学时，则可以通过学生或教师所使用的终端的图像采集装置，分别采集相应用户的个体课堂教学环境进行图像采集得到各个视频流。

在一个实施例中，计算机设备在接收到视频流中，直接将所接收的视频流发送至解码器，通过解码器对视频流进行解码，得到各帧视频流所对应的图像帧，并基于各帧视频流所对应的图像帧组成图像帧序列。

在一个实施例中，计算机设备在得到各帧视频流所对应的图像帧之后，直接从各帧视频流所对应的图像帧中抽取出关键帧视频流所对应的图像帧，并基于各关键帧视频流所对应的图像帧组成图像帧序列。其中，关键帧视频流可以是编码时的画面数据被完整保留的视频帧，即包含完整画面的视频帧。

在一个实施例中，计算机设备在接收到视频流之后，从所接收的视频流中抽取关键帧视频流，并对关键帧视频流进行解码，得到各关键帧视频流所对应的图像帧，并基于各关键帧视频流所对应的图像帧组成图像帧序列。

S604，从图像帧序列中进行图像帧抽取，得到目标图像帧。

其中，目标图像帧中包含有至少一个目标对象，比如针对线下的课堂教学场景所对应的目标图像帧，每个目标图像帧可以包含有多个目标对象，针对线上课堂教学场景所对应的目标图像帧，每个目标图像帧可以包含有一个目标对象。

具体地，计算机设备在对视频流进行解码得到图像帧序列之后，对图像帧序列中各个图像帧分别进行人脸检测，并将各图像帧中包含人脸的图像帧抽取出来，得到目标图像帧。

S606，对目标图像帧进行图像处理，得到处理后的目标图像帧。

其中，图像处理包括裁剪处理和图像校正处理中的至少一种。图像校正处理可以是几何校正处理或灰度校正处理。

在一个实施例中，若目标图像帧中包含多个目标对象，则计算机设备对目标图像帧进行人脸检测，并根据人脸检测结果对目标图像帧进行裁剪处理，得到各个目标对象分别对应的图像帧，并将各个目标对象分别对应的图像帧确定为处理后的目标图像帧。

在一个实施例中，计算机设备在得到目标图像帧之后，可以对目标图像帧的至少一部分进行Gamma校正处理，通过对目标图像帧的至少一部分进行Gamma校正处理可以调整目标图像帧的图像的灰度，减少光线不均匀对识别效果的影响。

上述实施例中，计算机设备通过对视频流进行解码，得到图像帧序列，从图像帧序列中进行图像帧抽取，得到目标图像帧，对目标图像帧进行图像处理，从而可以得到适合能进目标识别的处理后的目标图像帧，提高了识别的准确率，进而提高了专注度评估的准确性。

在一个实施例中，计算机设备在得到目标图像帧之后，对所得到的目标图像帧进行Gamma校正处理，理的过程包括以下步骤：对目标图像帧进行反相处理，得到反相图像帧；获取反相图像帧中各像素点的像素值；基于像素值确定反相图像帧中各像素点对应的变换参数；根据反相图像帧中各像素点的像素值和对应的变换参数，对目标图像帧进行非线性变换，得到处理后的目标图像帧。

其中，反相处理是指对目标图像帧求反色，反色的实际含义是将R、G、B值反转。若颜色的量化级别是256，则新图的R、G、B值为255减去原图的R、G、B值。这里针对的是所有图，包括真彩图、带调色板的彩色图(又称为伪彩色图)、和灰度图。

具体地，计算机设备在获取到反相图像帧中各像素点的像素值之后，可将反相图像帧中各像素点的像素值代入以下公式，通过以下公式得到各像素点所对应的变换参数：

其中，r[i,j,N(i,j)]为坐标(i，j)对应的第N个像素点所对应的变换参数，mask(i,j)为反相图像帧中为坐标(i，j)的对应的第N个像素点所对应的像素点的像素值。

计算机设备在获取到各个像素点所对应变换参数之后，可将各变换参数和目标图像帧中各像素点的像素值代入以下公式，通过以下公式得到各像素点变换后的像素值：

其中，O(i,j)为坐标(i，j)对应的第N个像素点所对应的变换后的像素值，r[i,j,N(i,j)]为坐标(i，j)对应的第N个像素点所对应的变换参数，I(i,j)为目标图像帧中坐标(i，j)对应的第N个像素点所对应的像素值。

上述实施例中，计算机设备通过对目标图像帧进行反相处理，得到反相图像帧，并获取反相图像帧中各像素点的像素值，基于像素值确定反相图像帧中各像素点对应的变换参数，从而根据反相图像帧中各像素点的像素值和对应的变换参数，对目标图像帧进行非线性变换，从而可以得到Gamma校正处理后的目标图像帧，减少目标图像帧光线不均匀对识别效果的影响，从而提高了识别的准确率，进而提高了专注度评估的准确性。

在一个实施例中，S202具体包括以下步骤：对处理后的目标图像帧依序进行归一化和去噪处理，得到归一化去噪图像帧；将归一化去噪图像帧输入至专注度评估模型；通过专注度评估模型中的特征提取网络，提取归一化去噪图像帧中的全局图像特征。

其中，归一化是指通过一系列变换，将待处理的原始图像转换成相应的唯一标准形式，即利用图像的不变矩寻找一组参数使其能够消除其他变换函数对图像变换的影响，所得到标准形式图像对平移、旋转、缩放等仿射变换具有不变特性。在神经网络中，对图像进行归一化处理还可以加快训练网络的收敛性。

对目标图像帧进行去处理，是将目标图像帧中的噪声进行去除。噪声可以理解为“妨碍人们感觉器官对所接收的信源信息理解的因素”。例如，一幅黑白图片，其平面亮度分布假定为f(x，y)，那么对其接收起干扰作用的亮度分布R(x，y)，即可称为图像噪声。具体可以采用基于空间域的中值滤波、基于小波域的小波阈值去噪、基于PDE的图像去噪或全变分(TV)图像去噪等图像去噪算法对目标图像帧进行去噪处理。

具体地，计算机设备在得到归一化去噪图像帧之后，可将归一化去噪图像帧直接输入至专注度评估模型，通过专注度评估模型中的特征提取网络，提取归一化去噪图像帧中的全局图像特征。

在一个实施例中，特征提取网络由Resnet Blockc残差单元构建，具体可包含多个残差单元，通过多个残差单元从图像帧中提取出不同层次的有丰富语义信息的图像特征，从而得到归一化去噪图像帧的全局图像特征。

上述实施例中，计算机设备通过对处理后的目标图像帧依序进行归一化和去噪处理，得到归一化去噪图像帧，将归一化去噪图像帧输入至专注度评估模型，通过专注度评估模型中的特征提取网络，提取归一化去噪图像帧中的全局图像特征，一方面减少了目标图像帧中噪声对特征提取的影响，另一方面提高了模型对图像帧进行特征提取的效率，从而提高了识别的时效性，进而提高了专注度评估的准确性和效率。

在一个实施例中，S204具体包括以下步骤：对处理后的目标图像帧依序进行归一化和去噪处理，得到归一化去噪图像帧；对归一化去噪图像帧进行分块处理，得到图像序列块；将图像序列块输入专注度评估模型；通过专注度评估模型中的多注意力编码网络，提取图像序列块中各图像块的上下文特征；通过专注度评估模型中的多层感知器，对各图像块的上下文特征进行特征融合，得到融合的图像上下文特征。

具体地，计算机设备在得到归一化去噪图像帧之后，可对归一化去噪图像帧进行分块处理，得到图像序列块，并将图像序列块输入专注度评估模型，通过专注度评估模型中的多注意力编码特征提取网络，提取图像序列块对应的图像上下文特征。

其中，多注意力编码特征提取网络包括多注意力编码网络和多层感知器(MLP)，多注意力编码网络由Transformer Encoder模块构建，Transformer Encoder模块由Multi-head self-attention(MSA，多头注意力)和MLP(多层感知器)块的层组成。TransformerEncoder模块通过采用多头注意力机制代替原有单头注意力机制，可以更好地融合特征，从而提取出更加丰富的图像上下文特征。

上述实施例中，计算机设备通过对处理后的目标图像帧依序进行归一化和去噪处理，得到归一化去噪图像帧，对归一化去噪图像帧进行分块处理，得到图像序列块，将图像序列块输入专注度评估模型，通过专注度评估模型中的多注意力编码特征提取网络，提取融合的图像上下文特征，一方面减少了目标图像帧中噪声对特征提取的影响，另一方面提高了模型对图像帧进行特征提取的效率，从而提高了识别的时效性，进而提高了专注度评估的准确性和效率。

在一个实施例中，计算机设备根据表情得分、姿态得分、物品得分和交互得分，确定目标对象的专注度的过程包括以下步骤：获取表情维度、姿态维度、物品维度和交互维度分别所对应的权重；基于不同维度的权重，对表情得分、姿态得分、物品得分和交互得分进行加权求和；根据加权求和所得的加权得分确定目标对象的专注度。

其中，表情维度、姿态维度、物品维度和交互维度分别所对应的权重可以相同也可以不相同，各维度的权重表征该维度对专注度的影响程度。

具体地，计算机设备在获取各个维度所对应的权重和相应得分之后，可以将所获取的权重和对应的得分输入下式，通过下式计算出目标对象的专注度：

P＝αA+βB+γC+εD (5)

其中，P为目标对象的专注度，A为表情得分、B为姿态得分、C为物品得分、D为交互得分，α为表情维度所对应的权重，β为姿态维度所对应的权重、γ为物品维度所对应的权重、ε为交互维度所对应的权重，且α+β+γ+ε＝1。

上述实施例中，计算机设备通过获取表情维度、姿态维度、物品维度和交互维度分别所对应的权重，并基于不同维度的权重和得分进行加权求和得到目标对象的专注度，对于专注度的评估综合的考虑了各个维度对专注度的影响程度，进一步提高了专注度评估的准确性。

在一个实施例中，目标对象为目标群体中的人物对象，上述专注度评估方法还包括以下步骤：获取每个人物对象在历史时刻的专注度；基于当前确定的每个人物对象的专注度和历史时刻的专注度，确定目标群体在不同时刻的平均专注度；根据各时刻的平均专注度生成目标群体的专注度分析图。

例如，目标群体为某个班级，该班级包含有50名学生，则该50名学生即为目标群体中的人物对象，则可以获取每名学生在历史时刻所对应的专注度，以及所确定的当前时刻每名学生所对应的专注度，求取各个时刻50名学生的专注度的平均值，得到各个时刻所对应的平均专注度，然后以时间为横坐标、平均专注度为纵坐标，生成该班级的专注度分析图。图7为一个实施例中目标群体的专注度分析图的示意图。

上述实施例中，计算机设备通过获取每个人物对象在历史时刻的专注度，并基于当前确定的每个人物对象的专注度和历史时刻的专注度，确定目标群体在不同时刻的平均专注度，从而可以根据各时刻的平均专注度生成目标群体的专注度分析图，通过所生成的群体的专注度分析图可以对目标群体的专注度进行整体评估，以便基于整体专注度评估结果调整后续的教学策略。

在一个实施例中，目标对象为目标群体中的人物对象，上述专注度评估方法还包括以下步骤：获取每个人物对象在当前时刻的专注度，确定目标群体在当前时刻的当前平均专注度，若当前平均专注度小于专注度阈值，则生成提示信息，并将该提示信息发送至目标群体所对应的管理员终端。

其中，目标群体所对应的管理员终端可以是授课老师的终端或者是教学质量监督老师的终端。

例如，平均专注度阈值为0.5，当前时刻学生的平均专注度为0.4，则生成课堂预警提示信息，并将课堂预警提示信息发送至授课老师终端，以便授课老师根据课堂预警信息及时对教学内容或教学策略进行调整。

上述实施例中，计算机设备通过获取每个人物对象在当前时刻的专注度，确定目标群体在当前时刻的当前平均专注度，若当前平均专注度小于专注度阈值，则生成提示信息，并将该提示信息发送至目标群体所对应的管理员终端，从而可以使得管理员可以基于所接收到的提示信息实时对教学内容或教学策略进行调整，提高了教学反馈的效率。

在一个实施例中，目标对象为目标群体中的人物对象，上述专注度评估方法还包括以下步骤：获取每个人物对象在历史时刻的专注度；基于当前确定的每个人物对象的专注度和历史时刻的专注度，生成各人物对象的专注度分析图。

例如，目标群体为某个班级，该班级包含有50名学生，则该50名学生即为目标群体中的人物对象，则可以获取每名学生在历史时刻所对应的专注度，以及所确定的当前时刻每名学生所对应的专注度，针对任一学生，可以以时间为横坐标、以该学生各个时刻的专注度为纵坐标，生成该学生的专注度分析图。图8示出了一个实施例中某个学生个体的专注度分析图的示意图。此外，还可以获取授课教师在历史时刻而所对应的专注度，以及所确定的当前时刻所对应的专注度，则以时间为横坐标、以该教师各个时刻的专注度为纵坐标，生成教师所对应的专注度分析图。

上述实施例中，计算机设备通过获取每个人物对象在历史时刻的专注度，基于当前确定的每个人物对象的专注度和历史时刻的专注度，生成各人物对象的专注度分析图，通过所生成的个体的专注度分析图可以对个体的专注度进行单独评估，以便基于个体的专注度评估结果对个体进行学习指导。

在一个实施例中，目标对象为目标群体中的人物对象，上述专注度评估方法还包括以下步骤：基于各人物对象的专注度分析图，确定各人物对象专注度达到专注度阈值的有效学习时间，当有效学习时间达到有效时间阈值时，生成第一提示信息，并将第一提示信息发送至对应人物对象的终端；当有效时间未达到有效时间阈值时，生成第二提示信息，并将第二提示信息发送至对应人物对象的终端。

例如，一节课有45分钟，专注度阈值为0.3，有效时间阈值为36分钟，针对任一学生，当该学生的专注度阈值达到0.3时间累积达到36分钟时，则生成课堂表现好的表扬信息，并将表扬信息发送至该学生的终端；当该学生的专注度阈值达到0.3时间累积未达到36分钟时，则生成需要课后复习的学习建议信息，并将学习建议信息发送至该学生的终端。

上述实施例中，计算机设备通过基于各人物对象的专注度分析图，确定各人物对象专注度达到专注度阈值的有效学习时间，从而可以对个体的专注度进行单独评估，以便基于个体的专注度评估结果对个体进行学习指导。

在一个实施例中，S206包括以下步骤：对全局图像特征和图像上下文特征进行特征融合，得到融合特征；从融合特征中提取目标对象特征和物品特征；基于目标对象特征识别目标图像帧中目标对象的表情和姿态；基于物品特征识别目标图像帧中的物品。

其中，对全局图像特征和图像上下文特征进行特征融合，可以是将所得到的全局图像特征和图像上下文特征进行拼接，拼接所得到的特征确定为融合特征。比如所得到的全局图像特征的尺寸为1024*1，所得到的图像上下文特征的尺寸为1024*1，直接将全局图像特征和图像上下文特征进行拼接，得到融合特征的尺寸为2048*1。

具体地，计算机设备得到融合特征之后，将所得到的融合输入特征分类网络，通过特征分类网络从融合特征中提取目标对象特征和物品特征，并将所提取出的目标对象特征分别输入表情识别子网络和姿态识别子网络，将物品特征输入物品识别子网络，并通过表情识别子网络基于目标对象特征识别目标图像帧中目标对象的表情，通过姿态识别子网络识别目标图像帧中目标对象的姿态，通过物品识别子网络识别目标图像帧中的物品。

上述实施例中，计算机设备通过对全局图像特征和图像上下文特征进行特征融合，得到融合特征，并从融合特征中提取目标对象特征和物品特征，以便基于目标对象特征识别目标图像帧中目标对象的表情和姿态，以及基于物品特征识别目标图像帧中的物品，从而提高了识别结果的准确性。

在一个实施例中，如图9所示，还提供了一种专注度评估方法，以该方法应用于图1中的计算机设备(包括终端102和服务器104)为例进行说明，包括以下步骤：

S902，对视频流进行解码，得到图像帧序列。

S904，从图像帧序列中进行图像帧抽取，得到目标图像帧。

S906，对目标图像帧进行反相处理，得到反相图像帧。

S908，获取反相图像帧中各像素点的像素值。

S910，基于像素值确定反相图像帧中各像素点对应的变换参数。

S912，根据反相图像帧中各像素点的像素值和对应的变换参数，对目标图像帧进行非线性变换，得到处理后的目标图像帧。

S914，对处理后的目标图像帧依序进行归一化和去噪处理，得到归一化去噪图像帧。

S916，将归一化去噪图像帧输入至专注度评估模型。

S918，通过专注度评估模型中的特征提取网络，提取归一化去噪图像帧中的全局图像特征。

S920，对归一化去噪图像帧进行分块处理，得到图像序列块。

S922，将图像序列块输入专注度评估模型。

S924，通过专注度评估模型中的多注意力编码网络，提取图像序列块中各图像块的上下文特征。

S926，通过专注度评估模型中的多层感知器，对各图像块的上下文特征进行特征融合，得到融合的图像上下文特征。

S928，基于全局图像特征和图像上下文特征之间的融合特征，识别目标图像帧中目标对象的表情和姿态，以及目标图像帧中的物品。

S930，根据融合特征确定目标对象与物品之间的交互行为。

S932，依据表情、姿态、物品的类型和交互行为，确定表情得分、姿态得分、物品得分和交互得分。

S934，获取表情维度、姿态维度、物品维度和交互维度分别所对应的权重。

S936，基于不同维度的权重，对表情得分、姿态得分、物品得分和交互得分进行加权求和。

S938，根据加权求和所得的加权得分确定目标对象的专注度。

本申请还提供一种应用场景，该应用场景应用上述的专注度评估方法。具体地，该专注度评估方法在该应用场景的应用如下：

参考图10所示的专注度评估方法流程图，计算机设备在对视频流进行解码得到目标图像帧后，对目标图像帧进行预处理，得到预处理后目标图像，其中，图像预处理可以是归一化、去噪和gamma校正处理中的至少一种，然后一方面对预处理后目标图像帧进行分块处理，得到图像序列块S，并将所得到的图像序列块S输入Transformer Encoder模块，通过Transformer Encoder模块提取各图像块的上下文特征T，然后将所提取的各图像块的上下文特征T输入MLP模块，通过MLP模块对各图像块的上下文特征进行特征融合，得到融合的图像上下文特征F1；另一方面将预处理后目标图像帧输入Resnet Blockc残差单元所组成的特征提取网络，通过Resnet Blockc残差单元所组成的特征提取网络从预处理后目标图像帧中提取全局图像特征F2，然后将图像上下文特征F1和全局图像特征F2进行融合，得到融合特征F，并将融合特征输入预测网络，通过预测网络识别出目标对象的表情、头部姿态、身份姿态、物品和交互行为，并根据目标对象的表情、头部姿态、身份姿态、物品和交互行为，确定目标对象的表情得分、头部姿态得分、身体姿态得分、物品得分和交互行为得分，然后对表情得分、头部姿态得分、身体姿态得分、物品得分和交互行为得分进行加权求和，得到目标对象的专注度。

应该理解的是，虽然图2、6、9和10的流程图中的各个步骤按照箭头的指示依次显示，但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明，这些步骤的执行并没有严格的顺序限制，这些步骤可以以其它的顺序执行。而且，图2、6、9和10中的至少一部分步骤可以包括多个步骤或者多个阶段，这些步骤或者阶段并不必然是在同一时刻执行完成，而是可以在不同的时刻执行，这些步骤或者阶段的执行顺序也不必然是依次进行，而是可以与其它步骤或者其它步骤中的步骤或者阶段的至少一部分轮流或者交替地执行。

在一个实施例中，如图11所示，提供了一种专注度评估装置，该装置可以采用软件模块或硬件模块，或者是二者的结合成为计算机设备的一部分，该装置具体包括：全局特征提取模块1102、上下文特征提取模块1104、识别模块1106、交互确定模块1108和专注度确定模块1110，其中：

全局特征提取模块1102，用于从目标图像帧中提取全局图像特征。

上下文特征提取模块1104，用于在目标图像帧中提取图像上下文特征。

识别模块1106，用于基于全局图像特征和图像上下文特征之间的融合特征，识别目标图像帧中目标对象的表情和姿态，以及目标图像帧中的物品。

交互确定模块1108，用于根据融合特征确定目标对象与物品之间的交互行为。

专注度确定模块1110，用于依据表情、姿态、物品的类型和交互行为，确定目标对象的专注度。

上述实施例中，专注度评估装置通过从目标图像帧中提取全局图像特征和图像上下文特征，并基于全局图像特征和图像上下文特征之间的融合特征，识别目标图像帧中目标对象的表情和姿态，以及目标图像帧中的物品，根据融合特征确定目标对象与物品之间的交互行为，一方面通过对特征进行融合，提高了识别结果的准确性，另一方面通过依据表情、姿态、物品的类型和交互行为多个维度，综合地确定出目标对象的专注度，从而提高了专注度评估的准确性。

在一个实施例中，如图12所示，装置还包括：视频解码模块1112、图像帧抽取模块1114和图像处理模块1116，其中：视频解码模块1112，用于对视频流进行解码，得到图像帧序列；图像帧抽取模块1114，用于从图像帧序列中进行图像帧抽取，得到目标图像帧；图像处理模块1116，用于对目标图像帧进行图像处理，得到处理后的目标图像帧。

上述实施例中，通过对视频流进行解码，得到图像帧序列，从图像帧序列中进行图像帧抽取，得到目标图像帧，对目标图像帧进行图像处理，从而可以得到适合能进目标识别的处理后的目标图像帧，提高了识别的准确率，进而提高了专注度评估的准确性。

在一个实施例中，图像处理模块1116，还用于：对目标图像帧进行反相处理，得到反相图像帧；获取反相图像帧中各像素点的像素值；基于像素值确定反相图像帧中各像素点对应的变换参数；根据反相图像帧中各像素点的像素值和对应的变换参数，对目标图像帧进行非线性变换，得到处理后的目标图像帧。

上述实施例中，通过对目标图像帧进行反相处理，得到反相图像帧，并获取反相图像帧中各像素点的像素值，基于像素值确定反相图像帧中各像素点对应的变换参数，从而根据反相图像帧中各像素点的像素值和对应的变换参数，对目标图像帧进行非线性变换，从而可以得到Gamma校正处理后的目标图像帧，减少目标图像帧光线不均匀对识别效果的影响，从而提高了识别的准确率，进而提高了专注度评估的准确性。

在一个实施例中，全局特征提取模块1102，还用于：对处理后的目标图像帧依序进行归一化和去噪处理，得到归一化去噪图像帧；将归一化去噪图像帧输入至专注度评估模型；通过专注度评估模型中的特征提取网络，提取归一化去噪图像帧中的全局图像特征。

上述实施例中，通过对处理后的目标图像帧依序进行归一化和去噪处理，得到归一化去噪图像帧，将归一化去噪图像帧输入至专注度评估模型，通过专注度评估模型中的特征提取网络，提取归一化去噪图像帧中的全局图像特征，一方面减少了目标图像帧中噪声对特征提取的影响，另一方面提高了模型对图像帧进行特征提取的效率，从而提高了识别的时效性，进而提高了专注度评估的准确性和效率。

在一个实施例中，上下文特征提取模块1104，还用于：对处理后的目标图像帧依序进行归一化和去噪处理，得到归一化去噪图像帧；对归一化去噪图像帧进行分块处理，得到图像序列块；将图像序列块输入专注度评估模型；通过专注度评估模型中的多注意力编码网络，提取图像序列块中各图像块的上下文特征；通过专注度评估模型中的多层感知器，对各图像块的上下文特征进行特征融合，得到融合的图像上下文特征。

上述实施例中，通过对处理后的目标图像帧依序进行归一化和去噪处理，得到归一化去噪图像帧，对归一化去噪图像帧进行分块处理，得到图像序列块，将图像序列块输入专注度评估模型，通过专注度评估模型中的多注意力编码特征提取网络，提取融合的图像上下文特征，一方面减少了目标图像帧中噪声对特征提取的影响，另一方面提高了模型对图像帧进行特征提取的效率，从而提高了识别的时效性，进而提高了专注度评估的准确性和效率。

在一个实施例中，专注度确定模块1110，还用于：基于表情确定目标对象的表情得分；基于姿态确定目标对象的姿态得分；基于物品的类型确定目标对象的物品得分；基于交互行为确定目标对象的交互得分；根据表情得分、姿态得分、物品得分和交互得分，确定目标对象的专注度。

在一个实施例中，专注度确定模块1110，还用于：获取表情维度、姿态维度、物品维度和交互维度分别所对应的权重；基于不同维度的权重，对表情得分、姿态得分、物品得分和交互得分进行加权求和；根据加权求和所得的加权得分确定目标对象的专注度。

上述实施例中，通过获取表情维度、姿态维度、物品维度和交互维度分别所对应的权重，并基于不同维度的权重和得分进行加权求和得到目标对象的专注度，对于专注度的评估综合的考虑了各个维度对专注度的影响程度，进一步提高了专注度评估的准确性。

在一个实施例中，目标对象为目标群体中的人物对象；如图12所示，装置还包括图表生成模块1118，用于：获取每个人物对象在历史时刻的专注度；基于当前确定的每个人物对象的专注度和历史时刻的专注度，确定目标群体在不同时刻的平均专注度；根据各时刻的平均专注度生成目标群体的专注度分析图。

上述实施例中，通过获取每个人物对象在历史时刻的专注度，并基于当前确定的每个人物对象的专注度和历史时刻的专注度，确定目标群体在不同时刻的平均专注度，从而可以根据各时刻的平均专注度生成目标群体的专注度分析图，通过所生成的群体的专注度分析图可以对目标群体的专注度进行整体评估，以便基于整体专注度评估结果调整后续的教学策略。

在一个实施例中，图表生成模块1118，还用于：获取每个人物对象在历史时刻的专注度；基于当前确定的每个人物对象的专注度和历史时刻的专注度，生成各人物对象的专注度分析图。

上述实施例中，通过获取每个人物对象在历史时刻的专注度，基于当前确定的每个人物对象的专注度和历史时刻的专注度，生成各人物对象的专注度分析图，通过所生成的个体的专注度分析图可以对个体的专注度进行单独评估，以便基于个体的专注度评估结果对个体进行学习指导。

在一个实施例中，识别模块1106，还用于：对全局图像特征和图像上下文特征进行特征融合，得到融合特征；从融合特征中提取目标对象特征和物品特征；基于目标对象特征识别目标图像帧中目标对象的表情和姿态；基于物品特征识别目标图像帧中的物品。

上述实施例中，通过基于各人物对象的专注度分析图，确定各人物对象专注度达到专注度阈值的有效学习时间，从而可以对个体的专注度进行单独评估，以便基于个体的专注度评估结果对个体进行学习指导。

关于专注度评估装置的具体限定可以参见上文中对于专注度评估方法的限定，在此不再赘述。上述专注度评估装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中，也可以以软件形式存储于计算机设备中的存储器中，以便于处理器调用执行以上各个模块对应的操作。

在一个实施例中，提供了一种计算机设备，该计算机设备可以是服务器，其内部结构图可以如图13所示。该计算机设备包括通过系统总线连接的处理器、存储器和网络接口。其中，该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统、计算机程序和数据库。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的数据库用于存储图像数据。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种专注度评估方法。

在一个实施例中，提供了一种计算机设备，该计算机设备可以是终端，其内部结构图可以如图14所示。该计算机设备包括通过系统总线连接的处理器、存储器、通信接口、显示屏和输入装置。其中，该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统和计算机程序。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的通信接口用于与外部的终端进行有线或无线方式的通信，无线方式可通过WIFI、运营商网络、NFC(近场通信)或其他技术实现。该计算机程序被处理器执行时以实现一种专注度评估方法。该计算机设备的显示屏可以是液晶显示屏或者电子墨水显示屏，该计算机设备的输入装置可以是显示屏上覆盖的触摸层，也可以是计算机设备外壳上设置的按键、轨迹球或触控板，还可以是外接的键盘、触控板或鼠标等。

本领域技术人员可以理解，图13或14中示出的结构，仅仅是与本申请方案相关的部分结构的框图，并不构成对本申请方案所应用于其上的计算机设备的限定，具体的计算机设备可以包括比图中所示更多或更少的部件，或者组合某些部件，或者具有不同的部件布置。

在一个实施例中，还提供了一种计算机设备，包括存储器和处理器，存储器中存储有计算机程序，该处理器执行计算机程序时实现上述各方法实施例中的步骤。

在一个实施例中，提供了一种计算机可读存储介质，存储有计算机程序，该计算机程序被处理器执行时实现上述各方法实施例中的步骤。

在一个实施例中，提供了一种计算机程序产品或计算机程序，该计算机程序产品或计算机程序包括计算机指令，该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令，处理器执行该计算机指令，使得该计算机设备执行上述各方法实施例中的步骤。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，所述的计算机程序可存储于一非易失性计算机可读取存储介质中，该计算机程序在执行时，可包括如上述各方法的实施例的流程。其中，本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用，均可包括非易失性和易失性存储器中的至少一种。非易失性存储器可包括只读存储器(Read-Only Memory，ROM)、磁带、软盘、闪存或光存储器等。易失性存储器可包括随机存取存储器(Random Access Memory，RAM)或外部高速缓冲存储器。作为说明而非局限，RAM可以是多种形式，比如静态随机存取存储器(Static Random Access Memory，SRAM)或动态随机存取存储器(Dynamic Random Access Memory，DRAM)等。

以上实施例的各技术特征可以进行任意的组合，为使描述简洁，未对上述实施例中的各个技术特征所有可能的组合都进行描述，然而，只要这些技术特征的组合不存在矛盾，都应当认为是本说明书记载的范围。

以上所述实施例仅表达了本申请的几种实施方式，其描述较为具体和详细，但并不能因此而理解为对发明专利范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本申请构思的前提下，还可以做出若干变形和改进，这些都属于本申请的保护范围。因此，本申请专利的保护范围应以所附权利要求为准。

Claims

1.一种专注度评估方法，其特征在于，所述方法包括：

从目标图像帧中提取全局图像特征；

在所述目标图像帧中提取图像上下文特征；

2.根据权利要求1所述的方法，其特征在于，所述从目标图像帧中提取全局图像特征之前，所述方法还包括：

对视频流进行解码，得到图像帧序列；

从所述图像帧序列中进行图像帧抽取，得到目标图像帧；

对所述目标图像帧进行图像处理，得到处理后的目标图像帧。

3.根据权利要求2所述的方法，其特征在于，所述对所述目标图像帧进行图像处理，得到处理后的目标图像帧，包括：

对所述目标图像帧进行反相处理，得到反相图像帧；

获取所述反相图像帧中各像素点的像素值；

4.根据权利要求3所述的方法，其特征在于，所述从目标图像帧中提取全局图像特征，包括：

将所述归一化去噪图像帧输入至专注度评估模型；

5.根据权利要求3所述的方法，其特征在于，所述在所述目标图像帧中提取图像上下文特征，包括：

对所述归一化去噪图像帧进行分块处理，得到图像序列块；

将所述图像序列块输入专注度评估模型；

6.根据权利要求1所述的方法，其特征在于，所述依据所述表情、所述姿态、所述物品的类型和所述交互行为，确定所述目标对象的专注度，包括：

基于所述表情确定所述目标对象的表情得分；

基于所述姿态确定所述目标对象的姿态得分；

基于所述物品的类型确定所述目标对象的物品得分；

基于所述交互行为确定所述目标对象的交互得分；

7.根据权利要求6所述的方法，其特征在于，所述根据所述表情得分、所述姿态得分、所述物品得分和所述交互得分，确定所述目标对象的专注度，包括：

根据加权求和所得的加权得分确定所述目标对象的专注度。

8.根据权利要求1至7任一项所述的方法，其特征在于，所述目标对象为目标群体中的人物对象；所述方法还包括：

获取每个所述人物对象在历史时刻的专注度；

9.根据权利要求1至7任一项所述的方法，其特征在于，所述目标对象为目标群体中的人物对象；所述方法还包括：

获取每个所述人物对象在历史时刻的专注度；

10.根据权利要求1至7任一项所述的方法，其特征在于，所述基于所述全局图像特征和所述图像上下文特征之间的融合特征，识别所述目标图像帧中目标对象的表情和姿态，以及所述目标图像帧中的物品包括：

从所述融合特征中提取目标对象特征和物品特征；

基于所述物品特征识别所述目标图像帧中的物品。

11.一种专注度评估装置，其特征在于，所述装置包括：

12.根据权利要求11所述的装置，其特征在于，所述装置还包括：

视频解码模块，用于对视频流进行解码，得到图像帧序列；

13.根据权利要求12所述的装置，其特征在于，所述图像处理模块，还用于：

对所述目标图像帧进行反相处理，得到反相图像帧；

获取所述反相图像帧中各像素点的像素值；

14.一种计算机设备，包括存储器和处理器，所述存储器存储有计算机程序，其特征在于，所述处理器执行所述计算机程序时实现权利要求1至10中任一项所述的方法的步骤。

15.一种计算机可读存储介质，存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现权利要求1至10中任一项所述的方法的步骤。