CN114648805A - 课程视频视线修正模型及其训练方法、视线落点估计方法 - Google Patents

课程视频视线修正模型及其训练方法、视线落点估计方法 Download PDF

Info

Publication number
CN114648805A
CN114648805A CN202210537861.8A CN202210537861A CN114648805A CN 114648805 A CN114648805 A CN 114648805A CN 202210537861 A CN202210537861 A CN 202210537861A CN 114648805 A CN114648805 A CN 114648805A
Authority
CN
China
Prior art keywords
feature
sight
heat map
correction model
video
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202210537861.8A
Other languages
English (en)
Other versions
CN114648805B (zh
Inventor
许炜
郑祎能
蔡世鹏
饶龙
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Huazhong University of Science and Technology
Original Assignee
Huazhong University of Science and Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Huazhong University of Science and Technology filed Critical Huazhong University of Science and Technology
Priority to CN202210537861.8A priority Critical patent/CN114648805B/zh
Publication of CN114648805A publication Critical patent/CN114648805A/zh
Application granted granted Critical
Publication of CN114648805B publication Critical patent/CN114648805B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/048Activation functions
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/43Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
    • H04N21/44Processing of video elementary streams, e.g. splicing a video clip retrieved from local storage with an incoming video stream or rendering scenes according to encoded video stream scene graphs
    • H04N21/44008Processing of video elementary streams, e.g. splicing a video clip retrieved from local storage with an incoming video stream or rendering scenes according to encoded video stream scene graphs involving operations for analysing video streams, e.g. detecting features or characteristics in the video stream
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/43Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
    • H04N21/44Processing of video elementary streams, e.g. splicing a video clip retrieved from local storage with an incoming video stream or rendering scenes according to encoded video stream scene graphs
    • H04N21/44016Processing of video elementary streams, e.g. splicing a video clip retrieved from local storage with an incoming video stream or rendering scenes according to encoded video stream scene graphs involving splicing one content stream with another content stream, e.g. for substituting a video clip
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/47End-user applications
    • H04N21/478Supplemental services, e.g. displaying phone caller identification, shopping application

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Evolutionary Computation (AREA)
  • Molecular Biology (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Multimedia (AREA)
  • Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Software Systems (AREA)
  • General Health & Medical Sciences (AREA)
  • Mathematical Physics (AREA)
  • Computing Systems (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开了一种针对课程视频的视线修正模型、对该模型的训练方法以及利用训练好的视线修正模型进行视线落点估计的方法,其中,利用神经网络,先对视线落点的初始热度图和带语音可视化标注的课程视频帧进行通道拼接,再对所拼接的特征进行显著性检测,然后对所提取的显著性特征进行还原,得到视线落点的修正热度图。本发明一方面基于显著性检测对初始热度图进行修正,另一方面对输入的课程视频帧添加语音可视化标注,以提高显著性检测的效果,从而提高视线落点估计的精度。

Description

课程视频视线修正模型及其训练方法、视线落点估计方法
技术领域
本发明属于图像识别技术领域,更具体地,涉及一种针对课程视频的视线修正模型及其训练方法、以及针对课程视频的视线落点估计方法。
背景技术
随着信息技术的发展,在线教育平台逐渐兴起。与传统课堂相比,线上教学感知度较低,为了评估学生观看课程视频的关注点,可以采用眼动仪收集眼动数据并分析视线落点,然而眼动仪不便在学生日常学习中推广应用。因此使用单目摄像头采集眼部图像进行视线估计成为较为常见的数据采集和行为分析方式,然而,仅通过眼部图像进行视线估计的算法精度提升受限。
发明内容
针对现有技术的以上缺陷或改进需求,本发明提供了一种针对课程视频的视线修正模型及其训练方法、以及针对课程视频的视线落点估计方法,其目的在于提高针对课程视频的视线估计精度。
为实现上述目的,按照本发明的一个方面,提供了一种针对课程视频的视线修正模型,包括:
通道拼接层,用于对视线落点的初始热度图和带语音可视化标注的课程视频帧进行通道拼接,输出拼接图像,所述语音可视化标注为基于音频信息对课程视频帧所添加的标注;
特征提取网络,用于对所述拼接图像进行显著性特征提取,得到显著性特征;
时序提取层,用于获取不同课程视频帧的时序信息;
信息解码网络,用于根据所提取的显著性特征以及不同课程视频帧的时序信息,通过上采样操作进行特征还原,输出视线落点的修正热度图。
在其中一个实施例中,所述特征提取网络包括N个特征提取块以及N-1个特征权重增强单元,每相邻两个特征提取块之间连接一个特征权重增强单元,每个特征权重增强单元包括特征权重增强结构、点乘运算结构和加法运算结构;其中,
特征提取块用于对所输入的特征进行卷积操作并增加特征通道,输出多通道的高阶特征I;
特征权重增强结构用于对上一相邻的特征提取块输出的高阶特征I进行卷积操作并降低特征通道,输出单通道的权重矩阵Z;
点乘运算结构用于将所属特征权重增强单元中的权重矩阵Z与上一相邻的特征提取块输出的高阶特征I进行点乘运算,输出多通道的加权特征I⊙Z;
加法运算结构用于将所属特征权重增强单元中的加权特征I⊙Z和上一相邻的特 征提取块输出的高阶特征I进行求和运算,输出多通道的显著性特征
Figure 352657DEST_PATH_IMAGE001
, 并作为下一特征提取块的输入特征。
在其中一个实施例中,所述特征提取块包括归一化层、Relu激活函数、卷积层和自适应最大池化层,所述特征提取块中的卷积层的卷积核尺寸为3x3,所述特征提取块的输出通道数是输入通道数的2倍,所述特征提取块的输出特征的高和宽分别是对应特征提取块的输入特征的高和宽的一半。
在其中一个实施例中,所述特征权重增强结构包括依次相连且卷积核尺寸均为1x1的第一卷积层、第二卷积层和第三卷积层,其中,
所述第一卷积层用于对多通道的高阶特征I进行卷积操作且第一卷积层的输出通道数和输入通道数相等;
所述第二卷积层对第一卷积层的输出特征进行卷积操作且第二卷积层的输出通道数和输入通道数相等;
所述第三卷积层对第二卷积层的输出特征进行卷积操作且第三卷积层的输出通道数为1。
在其中一个实施例中,所述特征提取网络、时序提取层和信息解码网络组成显著性检测网络,所述显著性检测网络在以带语音可视化标注的课程视频帧作为测试集并使用交叉熵、线性相关系数和相似性测量3个指标构建的损失函数进行训练时的收敛程度满足预期。
按照本发明的另一方面,提供了一种针对课程视频的视线修正模型的训练方法,所述视线修正模型为上述的针对课程视频的视线修正模型,所述训练方法包括:
对观看课程视频人员的眼部图像进行视线估计得到视线落点的初始热度图;
根据课程视频中的音频信息对课程视频帧进行语音可视化标注;
将所述初始热度图和带标注的课程视频帧同时输入所述视线修正模型;
以缩小修正热度图与期望热度图之间的差异为目标对所述视线修正模型进行训练。
在其中一个实施例中,根据课程视频中的音频信息对课程视频帧进行语音可视化标注,包括:
通过语音转录对与当前课程视频帧配套的音频信息进行转录,得到语音转录结果序列;
通过文字识别技术对当前课程视频帧中文字进行识别,得到文字识别结果序列;
将语音转录结果序列和文字识别结果序列进行比对,获取文字识别结果序列与语音转录结果序列相匹配的文字内容坐标并进行语音可视化标注。
在其中一个实施例中,所述期望热度图为基于观看课程视频人员的眼动数据进行标注所得。
在其中一个实施例中,以交叉熵作为训练的损失函数,所述损失函数为:
Figure 4219DEST_PATH_IMAGE002
其中,
Figure 393743DEST_PATH_IMAGE003
表示课程视频帧的第
Figure 523373DEST_PATH_IMAGE004
个像素,
Figure 806587DEST_PATH_IMAGE005
表示像素数量,
Figure 222525DEST_PATH_IMAGE006
表示修正热 度图,
Figure 223979DEST_PATH_IMAGE007
表示期望热度图。
按照本发明的又一方面,提供了一种针对课程视频的视线落点估计方法,包括:
获取训练好的视线修正模型,所述视线修正模型为根据上述的针对课程视频的视线修正模型的训练方法训练所得;
基于课程视频的音频信息对课程视频帧添加语音可视化标注,并基于观看课程视频人员的眼部图像获取视线落点的初始热度图;
将初始热度图和带标注的课程视频帧同时输入所述视线修正模型,得到视线落点的修正热度图。
总体而言,通过本发明所构思的以上技术方案与现有技术相比,能够取得下列有益效果:第一、本发明所搭建的针对课程视频的视线修正模型,先对初始热度图和课程视频帧进行通道拼接后再对所拼接的特征进行显著性检测,然后对所提取的显著性特征进行还原,得到视线落点的修正热度图。由于人员对课程视频的观看模式密切相关,也即,观看者的视线落点与屏幕内容是具有相关性的,而传统的视线估计方法往往忽略了视线落点与屏幕内容的相关性。在本发明中,获得视线落点的初始热度图后,基于初始热度图以及课程视频帧共同分析课程视频内容的显著性信息,并基于所提取的显著性特征重新生成实现落点的热度图,以对初始热度图进行修正,提高视线估计的精度。
第二、本发明还考虑了课程视频的特殊性,课程视频往往不同于常规的视频内容,常规的视频内容主要为人类运动和日常活动等场景,从视觉生物学角度来看这些视频中均包含具有突出显著特征的主体,如图1所示,该视频主体为冲浪者,视频背景几乎无变化,而主体姿态和位置不断改变,显著性特征比较突出。而课程视频基本不具有显著特征的主体,如图2中课程视频截图示例,该视频中只有文字内容,从视觉角度来看,不同区域间的像素差异较小,直接将原始的课程视频帧输入视线修正模型,其显著性检测结果并不理想。在本发明中,考虑了课程视频配套的音频信息与人类视觉关注区域的关联,利用课程视频的音频信息提前对相应的课程视频帧进行语音可视化标注,由此可以提升体征提取网络对课程视频的显著性检测效果,进一步提高视线修正模型所输出视线落点热度图的精度。
附图说明
图1是具有显著性主体的常规视频帧。
图2是不具备显著性主体的课程视频帧。
图3是一实施例中的视线修正模型的结构示意图。
图4是一实施例中的初始估计网络的结构示意图。
图5是一实施例中的对课程视频帧进行语音可视化标注的步骤流程图。
图6是一实施例中的特征提取网络的结构示意图。
图7是一实施例中的特征权重增强结构的示意图。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。此外,下面所描述的本发明各个实施方式中所涉及到的技术特征只要彼此之间未构成冲突就可以相互组合。
如图3所示,针对课程视频的视线修正模型包括通道拼接层(conncat)、特征提取网络(Spatial-Encoder)、时序提取层(LSTM)以及信息解码网络(Dencoder),需要说明的是,附图中所标识的 a@b*c 表示通道数为 a,特征图宽度为 b,特征图高度为 c,且附图中的数值仅为示例,并不以此为限。
其中,通道拼接层用于对视线落点的初始热度图(PoG)和带语音可视化标注的课程视频帧进行通道拼接,输出拼接图像。例如,课程视频帧为RGB三通道输入,初始热度图为单通道输入,经过通道拼接层后进行通道级拼接后的4通道拼接图像。其中,初始热度图可以通过传统技术获取,例如通过将摄像机采集的视频观看者眼部图像输入初始视线估计网络进行分析所得,如图4所示为一实施例中的初始视线估计网络的结构图。特征提取网络与通道拼接层相连,以通道拼接层输出的拼接图像作为输入特征,对拼接图像进行特征提取,得到显著性特征。时序提取层则保留了不同帧图像间的时序信息。信息解码网络通过上采样操作将小尺寸的高层语义信息逐步放大还原,最终输出和课程视频帧相同大小的显著性热度图,即为视线落点的修正热度图。
其中,输入通道拼接层的课程视频帧带有语音可视化标注,该语音可视化标注是提前基于课程视频中与课程视频帧对应的音频信息对当前课程视频帧所添加的语音可视化标注。由于当前显著性检测领域算法与开源数据集更多的侧重于日常活动或电影片段等动态变化较为丰富的场景,而课程视频中内容以文字、图表、公式等为主,帧图像不同区域的像素间差异较小,且教师讲授过程中幻灯片内容变化通常不连续,经常存在一段时间内无内容变化的情况,导致现有显著性检测算法对课程视频帧内容不敏感,因此通过标注课程视频帧图像中对应音频的文字内容,将音频内容信息转化为图像中可视化的特征进行学习,与音频频谱相比具有更明确的定位,更适用于课程视频场景,由于音频信息变化具有连续性,在一定程度上弥补了幻灯片变化不连续情况下给显著性检测带来的干扰信息,使得显著性预测结果更加准确。
在一具体的实施例中,初始估计网络以眼部图像作为输入,得到对应该图像的预 估视线方向和预估视线在屏幕的落点(Point of Gaze, PoG)热度图,PoG热度图对应视线 落点可能出现在屏幕某位置的概率。给定同一人的左眼和右眼图像输入初始估计网络后分 别得到对应左眼和右眼的PoG,取左右眼预测的PoG的平均值作为当前帧屏幕内容图像对应 的视线落点
Figure 265622DEST_PATH_IMAGE008
在一具体的实施例中,如图5所示,根据课程视频中的音频信息对课程视频帧进行语音可视化标注的方法包括:
通过语音转录对与当前课程视频帧配套的音频信息进行转录,得到语音转录结果序列;
通过文字识别技术对当前课程视频帧中文字进行识别,得到文字识别结果序列;
将语音转录结果序列和文字识别结果序列进行比对,获取文字识别结果序列与语音转录结果序列相匹配的文字内容坐标并进行语音可视化标注。
其中,语音转录API包括百度、腾讯、阿里、讯飞等API,或PaddleSpeech、Vosk等开源项目。可以采用的文字识别API包括百度PaddleOCR、腾讯优图OCR、Google开源项目Tesseract OCR、Calamari OCR等。将语音转录结果序列和文字识别结果序列进行比对,获取可匹配的文字内容坐标信息,将该坐标位置内容进行颜色填充,生成带有标注的课程视频帧图像。
在一实施例中,如图6所示,特征提取网络包括N个特征提取块(Block)以及N-1个特征权重增强单元,图中括号内每个参数含义按照以下顺序排列:(batchsize, channel,width, height),batchsize为每次训练所选取的样本数量,channel为当前通道数,width和height分别代表当前特征图的宽和高。每相邻两个特征提取块之间连接一个特征权重增强单元,每个特征权重增强单元包括特征权重增强结构(Spatial Weights CNN)、点乘运算结构和加法运算结构。如图6所示为5个Block和4个Spatial Weights CNN,但并不以此为限,其数量可以根据特征图输入输出大小与实际应用场景进行调整。
其中,特征提取块用于对所输入的特征进行卷积操作并增加特征通道,输出多通道的高阶特征I。具体的,特征提取块包括归一化层(InstanceNorm2d)、Relu激活函数、卷积层(Conv2d)和自适应最大池化层(AdaptiveMaxPool)。其中,卷积层的数量、卷积核的大小、各层的输入输出通道均可以根据需要灵活设置。在一实施例中,特征提取块可以具有两层卷积层,每层卷积层中的卷积核尺寸为3x3。特征提取块的具体结构可以为依次连接的第一归一化层、第一卷积层(Conv2d-1)、第二归一化层、第二卷积层(Conv2d-2)以及自适应最大池化层。经过特征提取子单元,可以增加特征的通道数,并逐步缩小特征尺寸,通道数增加是在增加每层特征图的个数,逐渐把低阶特征映射到更高维度,有利于提取高级特征信息,增加模型复杂度和拟合能力。在本实施例中,特征提取块的输出通道数是输入通道数的2倍,特征提取块的输出特征的高和宽分别是对应特征提取块的输入特征的高和宽的一半。
其中,各层的参数设置如下表 1,其中,IN 表示输入通道数,OUT 表示输出通道数,ic 表示当前网络层的输入通道数值,oc 表示当前网络层的输出通道数值,Kernel 为卷积核尺寸大小,Stride 为卷积核移动步长,Padding表示计算过程中需要额外填充的零值。其中归一化层输入输出通道数不变,卷积层通道数根据实际应用场景可根据自行设置的网络参数进行调整,
Figure 668921DEST_PATH_IMAGE010
其中,特征权重增强结构用于对特征提取块输出的高阶特征I进行卷积操作并降低特征通道,输出单通道的权重矩阵Z。特征权重增强结构具有多个卷积层,其作用是对特征图中不同特征通道的信息进行线性叠加,每个卷积层中卷积核的通道数都要和当前卷积层输入的特征图通道数保持一致,卷积核的个数决定了输出特征图的通道数。在一实施例中,如图7所示,特征权重增强结构包括依次相连且卷积核尺寸均为1x1三个卷积层及对应的Relu激活函数,分别为第一卷积层、第二卷积层和第三卷积层。第一卷积层用于对输入特征图(多通道的高阶特征I)进行卷积操作且第一卷积层的输出通道数(卷积核数量)和输入特征的通道数相等。所述第二卷积层对第一卷积层的输出特征进行卷积操作且第二卷积层的输出通道数(卷积核数量)和输入通道数相等。所述第三卷积层对第二卷积层的输出特征进行卷积操作且第三卷积层的输出通道数(卷积核数量)为1。通过多次测试证明,在本申请中,使用3个卷积层所达到的特征增强效果较好,但是并不限定为3个。特征权重增强结构的参数设置如下表2,其中,INIT表示卷积层初始化参数设置,括号中参数含义按照下列顺序排列:(weights, mean, std),其中,weights、mean、 std 分别表示权重、均值和标准差。前两个卷积层以均值为0,标准差为0.01的正态分布初始化,偏置bias设置为0.1,最后一个卷积层以均值为0,标准差为0.001的正态分布初始化,偏置bias为1,
Figure 396706DEST_PATH_IMAGE012
经过特征权重增强结构,输出单通道的权重矩阵Z。由于该权重矩阵Z后续需要与 高阶特征I进行点乘与求和运算,因此,特征权重增强结构输出的权重矩阵Z的高宽维度与 高阶特征I的高宽维度相同。例如,对于输入特征图
Figure 744510DEST_PATH_IMAGE013
,其中C为特征通道数,H为 特征图高度,W为特征图宽度,特征权重增强结构会生成
Figure 215943DEST_PATH_IMAGE014
大小的空间权重矩阵Z。
其中,点乘运算结构用于将权重矩阵Z与各通道的高阶特征I进行点乘运算,输出 多通道的加权特征I⊙Z。加法运算结构则用于对高阶特征I和加权特征I⊙Z进行求和运算, 输出多通道的显著性特征
Figure 208170DEST_PATH_IMAGE015
,并作为所属特征提取子单元的输出特征。在 本实施例中,每个Block中间设有计算图像特征权重的CNN结构,当前Block特征图和经过特 征权重增强结构网络得到的特征图进行点积操作,并与初始特征图相加,在不损失原始特 征信息的前提下增强部分图像特征。
由于课程视频的特殊性,在搭建上述模型时,通常还会去验证所设计的特征提取网络的特征提取性能,当该特征提取网络能有效实现课程视频帧的显著性检测时,才确定为可用网络。而视频显著性检测性能需要从多个方面进行综合评估,单一的评价指标无法使模型达到令人满意的效果。在本实施例中,搭建显著性检测验证网络,该验证网络包括特征提取网络、时序提取层以及信息解码网络,将带语音可视化标注的课程视频帧输入该验证网络进行训练,以使用交叉熵(Kullback-Leibler Divergence,KLD)、线性相关系数(Linear Correlation Coefficient,CC)和 相似性测量(Similarity Metric, SIM)3 个指标构建反向传播的损失函数。基于该损失函数,若验证网络收敛程度达到预期,说明该网络能够有效实现课程视频帧的显著性检测,在该网络前端增加通道拼接层,以搭建出上述针对课程视频的视线修正模型。
为方便介绍上述各评估指标的计算方式,本文假设显著性检测模型的视觉注意力 预测结果为
Figure 247801DEST_PATH_IMAGE016
,真实的眼动数据记录为
Figure 958268DEST_PATH_IMAGE017
,通过对真实眼动数 据点分布图使用较小的高斯核卷积得到连续的视觉显著性真值分布
Figure 967813DEST_PATH_IMAGE018
其中,交叉熵KLD的表达式如下:
Figure 204759DEST_PATH_IMAGE019
式中, i表示图像中的第 i 个像素,
Figure 274346DEST_PATH_IMAGE020
为正则化系数。交叉熵数值越小,则表明视 觉显著性检测性能越好。由于该指标对零值较为敏感,因此稀疏的视觉显著性预测值会受 到很大的惩罚。
线性相关系数CC的表达式如下:
Figure 737688DEST_PATH_IMAGE021
式中,
Figure 924825DEST_PATH_IMAGE022
表示视觉注意力预测结果和连续的视觉注意力真值分布间的 协方差,
Figure 891644DEST_PATH_IMAGE023
表示视觉注意力预测结果的标准差,
Figure 397712DEST_PATH_IMAGE024
表示视觉显著性真值分布的标 准差,CC指标数值范围为[-1,+1],该指标的绝对值越接近1,则视觉显著性预测结果越准 确。
相似性测量SIM指标的计算公式如下:
Figure 207405DEST_PATH_IMAGE025
式中,
Figure 558752DEST_PATH_IMAGE026
表示第i个像素的视觉注意力预测结果,
Figure 645656DEST_PATH_IMAGE027
表示第i个像素的视觉显著 性真值,相似性测量(Similarity Metric, SIM)指标将视觉注意力预测结果 P 和连续的 视觉显著性真值分布 Q 进行归一化处理,计算图像中每个像素上最小值的累加和,当SIM 值越接近 1 时,表示P和Q两个概率分布越相似,当SIM为 0 时,则表示完全不同。
验证网络训练的损失函数为
Figure 197991DEST_PATH_IMAGE028
其中,KLD为非相似性评估指标,值越小则模型性能越好;CC、Sim均为相似性指标, 指标数值越大,则模型表现越好。因此损失函数中参数设置分别为
Figure 370347DEST_PATH_IMAGE029
Figure 525385DEST_PATH_IMAGE030
当以带语音可视化标注的课程视频帧作为测试集、以基于眼动数据得到的显著性分布作为验证集并使用上述损失函数对上述验证网络进行训练时,若能验证证明上述验证网络能够有效实现课程视频帧的显著性检测,则在该网络前端增加通道拼接层,以搭建出上述针对课程视频的视线修正模型。
相应的,本申请还涉及一种针对课程视频的视线修正模型的训练方法,该实现修正模型即为上文介绍的任意一种针对课程视频的视线修正模型。
在一实施例中,该训练方法包括以下步骤:
步骤S110:对观看课程视频人员的眼部图像进行视线估计得到视线落点的初始热度图。
步骤S120:根据课程视频中的音频信息对课程视频帧进行语音可视化标注。
步骤S130:将初始热度图和带标注的课程视频帧同时输入视线修正模型。
步骤S140:以缩小修正热度图与期望热度图之间的差异为目标对所述视线修正模型进行训练。
其中,获取初始热度图和对课程视频帧进行语音可视化标注的过程可参考上文介绍,在此不再赘述。
在一实施例中,在步骤S140中,选用交叉熵(Cross Entropy Loss,CE Loss)对修 正前后的PoG热力图进行评估,CE Loss能够衡量修正模型输出的修正PoG分布和PoG的期望 分布之间的差异程度,即评估模型预测的概率分布与真实概率分布之间的差异,因此CE Loss的值越小,模型性能越好。PoG真实分布为
Figure 732375DEST_PATH_IMAGE031
,视线修正模型输出的 PoG分布为
Figure 704879DEST_PATH_IMAGE032
,损失函数计算方式如下所示:
Figure 364531DEST_PATH_IMAGE033
式中,
Figure 323259DEST_PATH_IMAGE034
表示课程视频帧的第
Figure 227499DEST_PATH_IMAGE035
个像素,
Figure 246271DEST_PATH_IMAGE036
表示像素数量,
Figure 393218DEST_PATH_IMAGE006
表示修正热 度图,
Figure 14693DEST_PATH_IMAGE007
表示期望热度图。
在一实施例中,上述期望热度图为基于观看课程视频人员的眼动数据进行标注所得。在一实施例中,可以使用眼动测量仪采集,采集受试者观看一段课程视频过程中的眼动数据,并将眼动数据与课程视频帧进行数据对齐,生成相同大小的课程视频帧图像和真实的二值人眼注视点记录图像。具体的,根据采集过程中记录的眼动数据时间戳与课程视频帧时间戳进行对齐,由于眼动仪帧率通常高于课程视频帧率,因此以课程视频时间戳为基准进行匹配,根据课程视频帧率设置合理的时间阈值,每个课程视频帧图像匹配该阈值间隔内的眼动数据,完成上述过程后,去除无法匹配的眼动数据,实现对应视频帧的眼动数据标注,得到期望的视线落点热度图,作为上述训练过程的验证数据集。
相应的,本申请还涉及一种针对课程视频的视线落点估计方法,该方法包括:
步骤S210:获取训练好的视线修正模型。
其中,该视线修正模型为根据上文介绍的任意一种训练方法训练而得的视线修正模型。
步骤S220:基于课程视频的音频信息对课程视频帧添加语音可视化标注,并基于观看课程视频人员的眼部图像获取视线落点的初始热度图。
其中,添加语音可视化标注以及获取初始热度图的方法可参考上文介绍,在此不再赘述。
步骤S230:将初始热度图和带标注的课程视频帧同时输入所述视线修正模型,得到视线落点的修正热度图。
通过上述步骤,便能实现针对课程视频的视线落点估计。
综上,本发明一方面考虑观看者的视线落点与屏幕内容是具有相关性的,基于课程视频帧分析课程视频内容的显著性信息,并基于针对课程视频的显著性检测网络重新生成视线落点的热度图,以对初始热度图进行修正,提高视线估计的精度。另一方面还考虑了课程视频基本不具有显著特征的主体的特殊性,利用课程视频的音频信息提前对相应的课程视频帧进行语音可视化标注,由此可以提升特征提取网络对课程视频的显著性检测效果,进一步提高视线修正模型所输出视线落点热度图的精度。
本领域的技术人员容易理解,以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明的保护范围之内。

Claims (10)

1.一种针对课程视频的视线修正模型,其特征在于,包括:
通道拼接层,用于对视线落点的初始热度图和带语音可视化标注的课程视频帧进行通道拼接,输出拼接图像,所述语音可视化标注为基于音频信息对课程视频帧所添加的标注;
特征提取网络,用于对所述拼接图像进行显著性特征提取,得到显著性特征;
时序提取层,用于获取不同课程视频帧的时序信息;
信息解码网络,用于根据所提取的显著性特征以及不同课程视频帧的时序信息,通过上采样操作进行特征还原,输出视线落点的修正热度图。
2.如权利要求1所述的针对课程视频的视线修正模型,其特征在于,所述特征提取网络包括N个特征提取块以及N-1个特征权重增强单元,每相邻两个特征提取块之间连接一个特征权重增强单元,每个特征权重增强单元包括特征权重增强结构、点乘运算结构和加法运算结构;其中,
特征提取块用于对所输入的特征进行卷积操作并增加特征通道,输出多通道的高阶特征I;
特征权重增强结构用于对上一相邻的特征提取块输出的高阶特征I进行卷积操作并降低特征通道,输出单通道的权重矩阵Z;
点乘运算结构用于将所属特征权重增强单元中的权重矩阵Z与上一相邻的特征提取块输出的高阶特征I进行点乘运算,输出多通道的加权特征I⊙Z;
加法运算结构用于将所属特征权重增强单元中的加权特征I⊙Z和上一相邻的特征提 取块输出的高阶特征I进行求和运算,输出多通道的显著性特征
Figure 839299DEST_PATH_IMAGE001
,并作为 下一特征提取块的输入特征。
3.如权利要求2所述的针对课程视频的视线修正模型,其特征在于,所述特征提取块包括归一化层、Relu激活函数、卷积层和自适应最大池化层,所述特征提取块中的卷积层的卷积核尺寸为3x3,所述特征提取块的输出通道数是输入通道数的2倍,所述特征提取块的输出特征的高和宽分别是对应特征提取块的输入特征的高和宽的一半。
4.如权利要求2所述的针对课程视频的视线修正模型,其特征在于,所述特征权重增强结构包括依次相连且卷积核尺寸均为1x1的第一卷积层、第二卷积层和第三卷积层,其中,
所述第一卷积层用于对多通道的高阶特征I进行卷积操作且第一卷积层的输出通道数和输入通道数相等;
所述第二卷积层对第一卷积层的输出特征进行卷积操作且第二卷积层的输出通道数和输入通道数相等;
所述第三卷积层对第二卷积层的输出特征进行卷积操作且第三卷积层的输出通道数为1。
5.如权利要求1所述的针对课程视频的视线修正模型,其特征在于,所述特征提取网络、时序提取层和信息解码网络组成显著性检测网络,所述显著性检测网络在以带语音可视化标注的课程视频帧作为测试集并使用交叉熵、线性相关系数和相似性测量3 个指标构建的损失函数进行训练时的收敛程度满足预期。
6.一种针对课程视频的视线修正模型的训练方法,其特征在于,所述视线修正模型为权利要求1至5任一项所述的针对课程视频的视线修正模型,所述训练方法包括:
对观看课程视频人员的眼部图像进行视线估计得到视线落点的初始热度图;
根据课程视频中的音频信息对课程视频帧进行语音可视化标注;
将所述初始热度图和带标注的课程视频帧同时输入所述视线修正模型;
以缩小修正热度图与期望热度图之间的差异为目标对所述视线修正模型进行训练。
7.如权利要求6所述的针对课程视频的视线修正模型的训练方法,其特征在于,根据课程视频中的音频信息对课程视频帧进行语音可视化标注,包括:
通过语音转录对与当前课程视频帧配套的音频信息进行转录,得到语音转录结果序列;
通过文字识别技术对当前课程视频帧中文字进行识别,得到文字识别结果序列;
将语音转录结果序列和文字识别结果序列进行比对,获取文字识别结果序列与语音转录结果序列相匹配的文字内容坐标并进行语音可视化标注。
8.如权利要求6所述的针对课程视频的视线修正模型的训练方法,其特征在于,所述期望热度图为基于观看课程视频人员的眼动数据进行标注所得。
9.如权利要求6所述的针对课程视频的视线修正模型的训练方法,其特征在于,以交叉熵作为训练的损失函数,所述损失函数为:
Figure 851117DEST_PATH_IMAGE002
其中,
Figure 674717DEST_PATH_IMAGE003
表示课程视频帧的第
Figure 813705DEST_PATH_IMAGE004
个像素,
Figure 39150DEST_PATH_IMAGE005
表示像素数量,
Figure 487449DEST_PATH_IMAGE006
表示修正热度 图,
Figure 798345DEST_PATH_IMAGE007
表示期望热度图。
10.一种针对课程视频的视线落点估计方法,其特征在于,包括:
获取训练好的视线修正模型,所述视线修正模型为根据权利要求6至9任一项所述的针对课程视频的视线修正模型的训练方法训练所得;
基于课程视频的音频信息对课程视频帧添加语音可视化标注,并基于观看课程视频人员的眼部图像获取视线落点的初始热度图;
将初始热度图和带标注的课程视频帧同时输入所述视线修正模型,得到视线落点的修正热度图。
CN202210537861.8A 2022-05-18 2022-05-18 课程视频视线修正系统及其训练方法、视线落点估计方法 Active CN114648805B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210537861.8A CN114648805B (zh) 2022-05-18 2022-05-18 课程视频视线修正系统及其训练方法、视线落点估计方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210537861.8A CN114648805B (zh) 2022-05-18 2022-05-18 课程视频视线修正系统及其训练方法、视线落点估计方法

Publications (2)

Publication Number Publication Date
CN114648805A true CN114648805A (zh) 2022-06-21
CN114648805B CN114648805B (zh) 2022-09-02

Family

ID=81996669

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210537861.8A Active CN114648805B (zh) 2022-05-18 2022-05-18 课程视频视线修正系统及其训练方法、视线落点估计方法

Country Status (1)

Country Link
CN (1) CN114648805B (zh)

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CA2847975A1 (en) * 2011-09-07 2013-03-14 Tandemlaunch Technologies Inc. System and method for using eye gaze information to enhance interactions
CN110174942A (zh) * 2019-04-30 2019-08-27 北京航空航天大学 眼动合成方法及装置
CN112465008A (zh) * 2020-11-25 2021-03-09 电子科技大学 一种基于自监督课程学习的语音和视觉关联性增强方法
EP3816853A1 (en) * 2019-10-31 2021-05-05 NVIDIA Corporation Gaze determination using one or more neural networks
CN113095357A (zh) * 2021-03-04 2021-07-09 山东大学 基于注意力机制与gmn的多模态情感识别方法及系统
CN114387679A (zh) * 2022-01-14 2022-04-22 上海大学 基于递归卷积神经网络实现视线估计与注意力分析的系统及其方法

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CA2847975A1 (en) * 2011-09-07 2013-03-14 Tandemlaunch Technologies Inc. System and method for using eye gaze information to enhance interactions
CN110174942A (zh) * 2019-04-30 2019-08-27 北京航空航天大学 眼动合成方法及装置
EP3816853A1 (en) * 2019-10-31 2021-05-05 NVIDIA Corporation Gaze determination using one or more neural networks
CN112465008A (zh) * 2020-11-25 2021-03-09 电子科技大学 一种基于自监督课程学习的语音和视觉关联性增强方法
CN113095357A (zh) * 2021-03-04 2021-07-09 山东大学 基于注意力机制与gmn的多模态情感识别方法及系统
CN114387679A (zh) * 2022-01-14 2022-04-22 上海大学 基于递归卷积神经网络实现视线估计与注意力分析的系统及其方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
BO JIANG ET AL.: "A classroom concentration model based on computer vision", 《PROCEEDINGS OF THE ACM TURING CELEBRATION CONFERENCE-CHINA》 *
占渊: "基于多视觉特征的学生课堂参与度评估", 《中国优秀硕士论文电子期刊网》 *

Also Published As

Publication number Publication date
CN114648805B (zh) 2022-09-02

Similar Documents

Publication Publication Date Title
CN111709409B (zh) 人脸活体检测方法、装置、设备及介质
KR102266529B1 (ko) 이미지 기반의 데이터 처리 방법, 장치, 기기 및 판독 가능 저장 매체
CN110866968A (zh) 基于神经网络生成虚拟人物视频的方法及相关设备
CN108090857A (zh) 一种多模态的学生课堂行为分析系统和方法
CN112287820A (zh) 人脸检测神经网络及训练方法、人脸检测方法、存储介质
CN110097115B (zh) 一种基于注意力转移机制的视频显著性物体检测方法
CN113269013B (zh) 对象行为分析方法、信息显示方法及电子设备
CN111986180B (zh) 基于多相关帧注意力机制的人脸伪造视频检测方法
CN111563418A (zh) 一种基于注意力机制的非对称多模态融合显著性检测方法
CN112329663B (zh) 一种基于人脸图像序列的微表情时刻检测方法及装置
CN110688874A (zh) 人脸表情识别方法及其装置、可读存储介质和电子设备
CN113869229A (zh) 基于先验注意力机制引导的深度学习表情识别方法
US20240312181A1 (en) Video detection method and apparatus, device, and storage medium
US11386292B2 (en) Method and system for auto multiple image captioning
CN114357206A (zh) 基于语义分析的教育类视频彩色字幕生成方法及系统
CN112488072A (zh) 一种人脸样本集获取方法、系统及设备
CN116310396A (zh) 一种基于深度质量加权的rgb-d显著性目标检测方法
Guo et al. PhyCoVIS: A visual analytic tool of physical coordination for cheer and dance training
CN114329050A (zh) 视觉媒体数据去重处理方法、装置、设备和存储介质
CN114648805B (zh) 课程视频视线修正系统及其训练方法、视线落点估计方法
CN114783049B (zh) 一种基于深度神经网络视觉识别的口语学习方法及系统
CN115220574A (zh) 位姿确定方法及装置、计算机可读存储介质和电子设备
CN117351382A (zh) 视频对象定位方法及其装置、存储介质、程序产品
CN112580526A (zh) 基于视频监控的学生课堂行为识别系统
KR20210053864A (ko) 이미지 다중 캡션 자동 생성 방법 및 시스템

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant