CN114648805B - 课程视频视线修正系统及其训练方法、视线落点估计方法 - Google Patents

课程视频视线修正系统及其训练方法、视线落点估计方法 Download PDF

Info

Publication number
CN114648805B
CN114648805B CN202210537861.8A CN202210537861A CN114648805B CN 114648805 B CN114648805 B CN 114648805B CN 202210537861 A CN202210537861 A CN 202210537861A CN 114648805 B CN114648805 B CN 114648805B
Authority
CN
China
Prior art keywords
feature
heat map
sight
video
course video
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202210537861.8A
Other languages
English (en)
Other versions
CN114648805A (zh
Inventor
许炜
郑祎能
蔡世鹏
饶龙
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Huazhong University of Science and Technology
Original Assignee
Huazhong University of Science and Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Huazhong University of Science and Technology filed Critical Huazhong University of Science and Technology
Priority to CN202210537861.8A priority Critical patent/CN114648805B/zh
Publication of CN114648805A publication Critical patent/CN114648805A/zh
Application granted granted Critical
Publication of CN114648805B publication Critical patent/CN114648805B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/048Activation functions
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/43Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
    • H04N21/44Processing of video elementary streams, e.g. splicing a video clip retrieved from local storage with an incoming video stream or rendering scenes according to encoded video stream scene graphs
    • H04N21/44008Processing of video elementary streams, e.g. splicing a video clip retrieved from local storage with an incoming video stream or rendering scenes according to encoded video stream scene graphs involving operations for analysing video streams, e.g. detecting features or characteristics in the video stream
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/43Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
    • H04N21/44Processing of video elementary streams, e.g. splicing a video clip retrieved from local storage with an incoming video stream or rendering scenes according to encoded video stream scene graphs
    • H04N21/44016Processing of video elementary streams, e.g. splicing a video clip retrieved from local storage with an incoming video stream or rendering scenes according to encoded video stream scene graphs involving splicing one content stream with another content stream, e.g. for substituting a video clip
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/47End-user applications
    • H04N21/478Supplemental services, e.g. displaying phone caller identification, shopping application

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Evolutionary Computation (AREA)
  • Molecular Biology (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Multimedia (AREA)
  • Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Software Systems (AREA)
  • General Health & Medical Sciences (AREA)
  • Mathematical Physics (AREA)
  • Computing Systems (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开了一种针对课程视频的视线修正系统、对该系统的训练方法以及利用训练好的视线修正系统进行视线落点估计的方法,其中,利用神经网络,先对视线落点的初始热度图和带语音可视化标注的课程视频帧进行通道拼接,再对所拼接的特征进行显著性检测,然后对所提取的显著性特征进行还原,得到视线落点的修正热度图。本发明一方面基于显著性检测对初始热度图进行修正,另一方面对输入的课程视频帧添加语音可视化标注,以提高显著性检测的效果,从而提高视线落点估计的精度。

Description

课程视频视线修正系统及其训练方法、视线落点估计方法
技术领域
本发明属于图像识别技术领域,更具体地,涉及一种针对课程视频的视线修正系统及其训练方法、以及针对课程视频的视线落点估计方法。
背景技术
随着信息技术的发展,在线教育平台逐渐兴起。与传统课堂相比,线上教学感知度较低,为了评估学生观看课程视频的关注点,可以采用眼动仪收集眼动数据并分析视线落点,然而眼动仪不便在学生日常学习中推广应用。因此使用单目摄像头采集眼部图像进行视线估计成为较为常见的数据采集和行为分析方式,然而,仅通过眼部图像进行视线估计的算法精度提升受限。
发明内容
针对现有技术的以上缺陷或改进需求,本发明提供了一种针对课程视频的视线修正系统及其训练方法、以及针对课程视频的视线落点估计方法,其目的在于提高针对课程视频的视线估计精度。
为实现上述目的,按照本发明的一个方面,提供了一种针对课程视频的视线修正系统,包括:
通道拼接层,用于对视线落点的初始热度图和带语音可视化标注的课程视频帧进行通道拼接,输出拼接图像,所述语音可视化标注为基于音频信息对课程视频帧所添加的标注;
特征提取网络,用于对所述拼接图像进行显著性特征提取,得到显著性特征;
时序提取层,用于获取不同课程视频帧的时序信息;
信息解码网络,用于根据所提取的显著性特征以及不同课程视频帧的时序信息,通过上采样操作进行特征还原,输出视线落点的修正热度图。
在其中一个实施例中,所述特征提取网络包括N个特征提取块以及N-1个特征权重增强单元,每相邻两个特征提取块之间连接一个特征权重增强单元,每个特征权重增强单元包括特征权重增强结构、点乘运算结构和加法运算结构;其中,
特征提取块用于对所输入的特征进行卷积操作并增加特征通道,输出多通道的高阶特征I;
特征权重增强结构用于对上一相邻的特征提取块输出的高阶特征I进行卷积操作并降低特征通道,输出单通道的权重矩阵Z;
点乘运算结构用于将所属特征权重增强单元中的权重矩阵Z与上一相邻的特征提取块输出的高阶特征I进行点乘运算,输出多通道的加权特征I⊙Z;
加法运算结构用于将所属特征权重增强单元中的加权特征I⊙Z和上一相邻的特征提取块输出的高阶特征I进行求和运算,输出多通道的显著性特征Io=I+I⊙Z,并作为下一特征提取块的输入特征。
在其中一个实施例中,所述特征提取块包括归一化层、Relu激活函数、卷积层和自适应最大池化层,所述特征提取块中的卷积层的卷积核尺寸为3x3,所述特征提取块的输出通道数是输入通道数的2倍,所述特征提取块的输出特征的高和宽分别是对应特征提取块的输入特征的高和宽的一半。
在其中一个实施例中,所述特征权重增强结构包括依次相连且卷积核尺寸均为1x1的第一卷积层、第二卷积层和第三卷积层,其中,
所述第一卷积层用于对多通道的高阶特征I进行卷积操作且第一卷积层的输出通道数和输入通道数相等;
所述第二卷积层对第一卷积层的输出特征进行卷积操作且第二卷积层的输出通道数和输入通道数相等;
所述第三卷积层对第二卷积层的输出特征进行卷积操作且第三卷积层的输出通道数为1。
在其中一个实施例中,所述特征提取网络、时序提取层和信息解码网络组成显著性检测网络,所述显著性检测网络在以带语音可视化标注的课程视频帧作为测试集并使用交叉熵、线性相关系数和相似性测量3个指标构建的损失函数进行训练时的收敛程度满足预期。
按照本发明的另一方面,提供了一种针对课程视频的视线修正系统的训练方法,所述视线修正系统为上述的针对课程视频的视线修正系统,所述训练方法包括:
对观看课程视频人员的眼部图像进行视线估计得到视线落点的初始热度图;
根据课程视频中的音频信息对课程视频帧进行语音可视化标注;
将所述初始热度图和带标注的课程视频帧同时输入所述视线修正系统;
以缩小修正热度图与期望热度图之间的差异为目标对所述视线修正系统进行训练。
在其中一个实施例中,根据课程视频中的音频信息对课程视频帧进行语音可视化标注,包括:
通过语音转录对与当前课程视频帧配套的音频信息进行转录,得到语音转录结果序列;
通过文字识别技术对当前课程视频帧中文字进行识别,得到文字识别结果序列;
将语音转录结果序列和文字识别结果序列进行比对,获取文字识别结果序列与语音转录结果序列相匹配的文字内容坐标并进行语音可视化标注。
在其中一个实施例中,所述期望热度图为基于观看课程视频人员的眼动数据进行标注所得。
在其中一个实施例中,以交叉熵作为训练的损失函数,所述损失函数为:
Figure GDA0003755686140000041
其中,xi表示课程视频帧的第i个像素,n表示像素数量,G′(xi)表示修正热度图,G(xi)表示期望热度图。
按照本发明的又一方面,提供了一种针对课程视频的视线落点估计方法,包括:
获取训练好的视线修正系统,所述视线修正系统为根据上述的针对课程视频的视线修正系统的训练方法训练所得;
基于课程视频的音频信息对课程视频帧添加语音可视化标注,并基于观看课程视频人员的眼部图像获取视线落点的初始热度图;
将初始热度图和带标注的课程视频帧同时输入所述视线修正系统,得到视线落点的修正热度图。
总体而言,通过本发明所构思的以上技术方案与现有技术相比,能够取得下列有益效果:
第一、本发明所搭建的针对课程视频的视线修正系统,先对初始热度图和课程视频帧进行通道拼接后再对所拼接的特征进行显著性检测,然后对所提取的显著性特征进行还原,得到视线落点的修正热度图。由于人员对课程视频的观看模式密切相关,也即,观看者的视线落点与屏幕内容是具有相关性的,而传统的视线估计方法往往忽略了视线落点与屏幕内容的相关性。在本发明中,获得视线落点的初始热度图后,基于初始热度图以及课程视频帧共同分析课程视频内容的显著性信息,并基于所提取的显著性特征重新生成实现落点的热度图,以对初始热度图进行修正,提高视线估计的精度。
第二、本发明还考虑了课程视频的特殊性,课程视频往往不同于常规的视频内容,常规的视频内容主要为人类运动和日常活动等场景,从视觉生物学角度来看这些视频中均包含具有突出显著特征的主体,如图1所示,该视频主体为冲浪者,视频背景几乎无变化,而主体姿态和位置不断改变,显著性特征比较突出。而课程视频基本不具有显著特征的主体,如图2中课程视频截图示例,该视频中只有文字内容,从视觉角度来看,不同区域间的像素差异较小,直接将原始的课程视频帧输入视线修正系统,其显著性检测结果并不理想。在本发明中,考虑了课程视频配套的音频信息与人类视觉关注区域的关联,利用课程视频的音频信息提前对相应的课程视频帧进行语音可视化标注,由此可以提升体征提取网络对课程视频的显著性检测效果,进一步提高视线修正系统所输出视线落点热度图的精度。
附图说明
图1是具有显著性主体的常规视频帧。
图2是不具备显著性主体的课程视频帧。
图3是一实施例中的视线修正系统的结构示意图。
图4是一实施例中的初始估计网络的结构示意图。
图5是一实施例中的对课程视频帧进行语音可视化标注的步骤流程图。
图6是一实施例中的特征提取网络的结构示意图。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。此外,下面所描述的本发明各个实施方式中所涉及到的技术特征只要彼此之间未构成冲突就可以相互组合。
如图3所示,针对课程视频的视线修正系统包括通道拼接层(conncat)、特征提取网络(Spatial-Encoder)、时序提取层(LSTM)以及信息解码网络(Dencoder)。需要说明的是,附图中所标识的a@b*c表示通道数为a,特征图宽度为b,特征图高度为c,且附图中的数值仅为示例,并不以此为限。
其中,通道拼接层用于对视线落点的初始热度图(PoG)和带语音可视化标注的课程视频帧进行通道拼接,输出拼接图像。例如,课程视频帧为RGB三通道输入,初始热度图为单通道输入,经过通道拼接层后进行通道级拼接后的4通道拼接图像。其中,初始热度图可以通过传统技术获取,例如通过将摄像机采集的视频观看者眼部图像输入初始视线估计网络进行分析所得,如图4所示为一实施例中的初始视线估计网络的结构图。特征提取网络与通道拼接层相连,以通道拼接层输出的拼接图像作为输入特征,对拼接图像进行特征提取,得到显著性特征。时序提取层则保留了不同帧图像间的时序信息。信息解码网络通过上采样操作将小尺寸的高层语义信息逐步放大还原,最终输出和课程视频帧相同大小的显著性热度图,即为视线落点的修正热度图。
其中,输入通道拼接层的课程视频帧带有语音可视化标注,该语音可视化标注是提前基于课程视频中与课程视频帧对应的音频信息对当前课程视频帧所添加的语音可视化标注。由于当前显著性检测领域算法与开源数据集更多的侧重于日常活动或电影片段等动态变化较为丰富的场景,而课程视频中内容以文字、图表、公式等为主,帧图像不同区域的像素间差异较小,且教师讲授过程中幻灯片内容变化通常不连续,经常存在一段时间内无内容变化的情况,导致现有显著性检测算法对课程视频帧内容不敏感,因此通过标注课程视频帧图像中对应音频的文字内容,将音频内容信息转化为图像中可视化的特征进行学习,与音频频谱相比具有更明确的定位,更适用于课程视频场景,由于音频信息变化具有连续性,在一定程度上弥补了幻灯片变化不连续情况下给显著性检测带来的干扰信息,使得显著性预测结果更加准确。
在一具体的实施例中,初始估计网络以眼部图像作为输入,得到对应该图像的预估视线方向和预估视线在屏幕的落点(Point of Gaze,PoG)热度图,PoG热度图对应视线落点可能出现在屏幕某位置的概率。给定同一人的左眼和右眼图像输入初始估计网络后分别得到对应左眼和右眼的PoG,取左右眼预测的PoG的平均值作为当前帧屏幕内容图像对应的视线落点
Figure GDA0003755686140000071
在一具体的实施例中,如图5所示,根据课程视频中的音频信息对课程视频帧进行语音可视化标注的方法包括:
通过语音转录对与当前课程视频帧配套的音频信息进行转录,得到语音转录结果序列;
通过文字识别技术对当前课程视频帧中文字进行识别,得到文字识别结果序列;
将语音转录结果序列和文字识别结果序列进行比对,获取文字识别结果序列与语音转录结果序列相匹配的文字内容坐标并进行语音可视化标注。
其中,语音转录API包括百度、腾讯、阿里、讯飞等API,或PaddleSpeech、Vosk等开源项目。可以采用的文字识别API包括百度PaddleOCR、腾讯优图OCR、Google开源项目Tesseract OCR、Calamari OCR等。将语音转录结果序列和文字识别结果序列进行比对,获取可匹配的文字内容坐标信息,将该坐标位置内容进行颜色填充,生成带有标注的课程视频帧图像。
在一实施例中,如图6所示,特征提取网络包括N个特征提取块(Block)以及N-1个特征权重增强单元,图中括号内每个参数含义按照以下顺序排列:(batchsize,channel,width,height),batchsize为每次训练所选取的样本数量,channel为当前通道数,width和height分别代表当前特征图的宽和高。每相邻两个特征提取块之间连接一个特征权重增强单元,每个特征权重增强单元包括特征权重增强结构(Spatial Weights CNN)、点乘运算结构和加法运算结构。如图6所示为5个Block和4个Spatial Weights CNN,但并不以此为限,其数量可以根据特征图输入输出大小与实际应用场景进行调整。
其中,特征提取块用于对所输入的特征进行卷积操作并增加特征通道,输出多通道的高阶特征I。具体的,特征提取块包括归一化层(InstanceNorm2d)、Relu激活函数、卷积层(Conv2d)和自适应最大池化层(AdaptiveMaxPool)。其中,卷积层的数量、卷积核的大小、各层的输入输出通道均可以根据需要灵活设置。在一实施例中,特征提取块可以具有两层卷积层,每层卷积层中的卷积核尺寸为3x3。特征提取块的具体结构可以为依次连接的第一归一化层、第一卷积层(Conv2d-1)、第二归一化层、第二卷积层(Conv2d-2)以及自适应最大池化层。经过特征提取子单元,可以增加特征的通道数,并逐步缩小特征尺寸,通道数增加是在增加每层特征图的个数,逐渐把低阶特征映射到更高维度,有利于提取高级特征信息,增加系统复杂度和拟合能力。在本实施例中,特征提取块的输出通道数是输入通道数的2倍,特征提取块的输出特征的高和宽分别是对应特征提取块的输入特征的高和宽的一半。
其中,各层的参数设置如下表1,其中,IN表示输入通道数,OUT表示输出通道数,ic表示当前网络层的输入通道数值,oc表示当前网络层的输出通道数值,Kernel为卷积核尺寸大小,Stride为卷积核移动步长,Padding表示计算过程中需要额外填充的零值。其中归一化层输入输出通道数不变,卷积层通道数根据实际应用场景可根据自行设置的网络参数进行调整。
表1特征提取网络中特征提取块的参数表
Figure GDA0003755686140000081
其中,特征权重增强结构用于对特征提取块输出的高阶特征I进行卷积操作并降低特征通道,输出单通道的权重矩阵Z。特征权重增强结构具有多个卷积层,其作用是对特征图中不同特征通道的信息进行线性叠加,每个卷积层中卷积核的通道数都要和当前卷积层输入的特征图通道数保持一致,卷积核的个数决定了输出特征图的通道数。在一实施例中,特征权重增强结构包括依次相连且卷积核尺寸均为1x1三个卷积层及对应的Relu激活函数,分别为第一卷积层、第二卷积层和第三卷积层。第一卷积层用于对输入特征图(多通道的高阶特征I)进行卷积操作且第一卷积层的输出通道数(卷积核数量)和输入特征的通道数相等。所述第二卷积层对第一卷积层的输出特征进行卷积操作且第二卷积层的输出通道数(卷积核数量)和输入通道数相等。所述第三卷积层对第二卷积层的输出特征进行卷积操作且第三卷积层的输出通道数(卷积核数量)为1。通过多次测试证明,在本申请中,使用3个卷积层所达到的特征增强效果较好,但是并不限定为3个。特征权重增强结构的参数设置如下表2,其中,INIT表示卷积层初始化参数设置,括号中参数含义按照下列顺序排列:(weights,mean,std),其中,weights、mean、std分别表示权重、均值和标准差。前两个卷积层以均值为0,标准差为0.01的正态分布初始化,偏置bias设置为0.1,最后一个卷积层以均值为0,标准差为0.001的正态分布初始化,偏置bias为1。
表2特征权重增强结构参数表
Figure GDA0003755686140000091
经过特征权重增强结构,输出单通道的权重矩阵Z。由于该权重矩阵Z后续需要与高阶特征I进行点乘与求和运算,因此,特征权重增强结构输出的权重矩阵Z的高宽维度与高阶特征I的高宽维度相同。例如,对于输入特征图IC×H×W,其中C为特征通道数,H为特征图高度,W为特征图宽度,特征权重增强结构会生成H×W大小的空间权重矩阵Z。
其中,点乘运算结构用于将权重矩阵Z与各通道的高阶特征I进行点乘运算,输出多通道的加权特征I⊙Z。加法运算结构则用于对高阶特征I和加权特征I⊙Z进行求和运算,输出多通道的显著性特征Io=I+I⊙Z,并作为所属特征提取子单元的输出特征。在本实施例中,每个Block中间设有计算图像特征权重的CNN结构,当前Block特征图和经过特征权重增强结构网络得到的特征图进行点积操作,并与初始特征图相加,在不损失原始特征信息的前提下增强部分图像特征。
由于课程视频的特殊性,在搭建上述系统时,通常还会去验证所设计的特征提取网络的特征提取性能,当该特征提取网络能有效实现课程视频帧的显著性检测时,才确定为可用网络。而视频显著性检测性能需要从多个方面进行综合评估,单一的评价指标无法使系统达到令人满意的效果。在本实施例中,搭建显著性检测验证网络,该验证网络包括特征提取网络、时序提取层以及信息解码网络,将带语音可视化标注的课程视频帧输入该验证网络进行训练,以使用交叉熵(Kullback-Leibler Divergence,KLD)、线性相关系数(Linear Correlation Coefficient,CC)和相似性测量(Similarity Metric,SIM)3个指标构建反向传播的损失函数。基于该损失函数,若验证网络收敛程度达到预期,说明该网络能够有效实现课程视频帧的显著性检测,在该网络前端增加通道拼接层,以搭建出上述针对课程视频的视线修正系统。
为方便介绍上述各评估指标的计算方式,本文假设显著性检测系统的视觉注意力预测结果为P∈[0,1]W×H,真实的眼动数据记录为R∈{0,1}W×H,通过对真实眼动数据点分布图使用较小的高斯核卷积得到连续的视觉显著性真值分布Q∈[0,1]W×H
其中,交叉熵KLD的表达式如下:
Figure GDA0003755686140000101
式中,i表示图像中的第i个像素,ε为正则化系数。交叉熵数值越小,则表明视觉显著性检测性能越好。由于该指标对零值较为敏感,因此稀疏的视觉显著性预测值会受到很大的惩罚。
线性相关系数CC的表达式如下:
Figure GDA0003755686140000111
式中,cov(P,Q)表示视觉注意力预测结果和连续的视觉注意力真值分布间的协方差,σ(P)表示视觉注意力预测结果的标准差,σ(Q)表示视觉显著性真值分布的标准差,CC指标数值范围为[-1,+1],该指标的绝对值越接近1,则视觉显著性预测结果越准确。
相似性测量SIM指标的计算公式如下:
Figure GDA0003755686140000112
式中,P′i表示第i个像素的视觉注意力预测结果,Q′i表示第i个像素的视觉显著性真值,相似性测量(Similarity Metric,SIM)指标将视觉注意力预测结果P和连续的视觉显著性真值分布Q进行归一化处理,计算图像中每个像素上最小值的累加和,当SIM值越接近1时,表示P和Q两个概率分布越相似,当SIM为0时,则表示完全不同。
验证网络训练的损失函数为
Figure GDA0003755686140000113
其中,KLD为非相似性评估指标,值越小则系统性能越好;CC、Sim均为相似性指标,指标数值越大,则系统表现越好。因此损失函数中参数设置分别为α1=1,α2=α3=-1。
当以带语音可视化标注的课程视频帧作为测试集、以基于眼动数据得到的显著性分布作为验证集并使用上述损失函数对上述验证网络进行训练时,若能验证证明上述验证网络能够有效实现课程视频帧的显著性检测,则在该网络前端增加通道拼接层,以搭建出上述针对课程视频的视线修正系统。
相应的,本申请还涉及一种针对课程视频的视线修正系统的训练方法,该实现修正系统即为上文介绍的任意一种针对课程视频的视线修正系统。
在一实施例中,该训练方法包括以下步骤:
步骤S110:对观看课程视频人员的眼部图像进行视线估计得到视线落点的初始热度图。
步骤S120:根据课程视频中的音频信息对课程视频帧进行语音可视化标注。
步骤S130:将初始热度图和带标注的课程视频帧同时输入视线修正系统。
步骤S140:以缩小修正热度图与期望热度图之间的差异为目标对所述视线修正系统进行训练。
其中,获取初始热度图和对课程视频帧进行语音可视化标注的过程可参考上文介绍,在此不再赘述。
在一实施例中,在步骤S140中,选用交叉熵(Cross Entropy Loss,CE Loss)对修正前后的PoG热力图进行评估,CE Loss能够衡量修正系统输出的修正PoG分布和PoG的期望分布之间的差异程度,即评估系统预测的概率分布与真实概率分布之间的差异,因此CELoss的值越小,系统性能越好。PoG真实分布为G∈[0,1]W×H,视线修正系统输出的PoG分布为G′∈[0,1]W×H,损失函数计算方式如下所示:
Figure GDA0003755686140000121
式中,xi表示课程视频帧的第i个像素,n表示像素数量,G′(xi)表示修正热度图,G(xi)表示期望热度图。
在一实施例中,上述期望热度图为基于观看课程视频人员的眼动数据进行标注所得。在一实施例中,可以使用眼动测量仪采集,采集受试者观看一段课程视频过程中的眼动数据,并将眼动数据与课程视频帧进行数据对齐,生成相同大小的课程视频帧图像和真实的二值人眼注视点记录图像。具体的,根据采集过程中记录的眼动数据时间戳与课程视频帧时间戳进行对齐,由于眼动仪帧率通常高于课程视频帧率,因此以课程视频时间戳为基准进行匹配,根据课程视频帧率设置合理的时间阈值,每个课程视频帧图像匹配该阈值间隔内的眼动数据,完成上述过程后,去除无法匹配的眼动数据,实现对应视频帧的眼动数据标注,得到期望的视线落点热度图,作为上述训练过程的验证数据集。
相应的,本申请还涉及一种针对课程视频的视线落点估计方法,该方法包括:
步骤S210:获取训练好的视线修正系统。
其中,该视线修正系统为根据上文介绍的任意一种训练方法训练而得的视线修正系统。
步骤S220:基于课程视频的音频信息对课程视频帧添加语音可视化标注,并基于观看课程视频人员的眼部图像获取视线落点的初始热度图。
其中,添加语音可视化标注以及获取初始热度图的方法可参考上文介绍,在此不再赘述。
步骤S230:将初始热度图和带标注的课程视频帧同时输入所述视线修正系统,得到视线落点的修正热度图。
通过上述步骤,便能实现针对课程视频的视线落点估计。
综上,本发明一方面考虑观看者的视线落点与屏幕内容是具有相关性的,基于课程视频帧分析课程视频内容的显著性信息,并基于针对课程视频的显著性检测网络重新生成视线落点的热度图,以对初始热度图进行修正,提高视线估计的精度。另一方面还考虑了课程视频基本不具有显著特征的主体的特殊性,利用课程视频的音频信息提前对相应的课程视频帧进行语音可视化标注,由此可以提升特征提取网络对课程视频的显著性检测效果,进一步提高视线修正系统所输出视线落点热度图的精度。
本领域的技术人员容易理解,以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明的保护范围之内。

Claims (10)

1.一种针对课程视频的视线修正系统,其特征在于,包括:
通道拼接层,用于对视线落点的初始热度图和带语音可视化标注的课程视频帧进行通道拼接,输出拼接图像,所述语音可视化标注为基于音频信息对课程视频帧所添加的标注;
特征提取网络,用于对所述拼接图像进行显著性特征提取,得到显著性特征;
时序提取层,用于获取不同课程视频帧的时序信息;
信息解码网络,用于根据所提取的显著性特征以及不同课程视频帧的时序信息,通过上采样操作进行特征还原,输出视线落点的修正热度图;
其中,语音可视化标注为根据文字识别结果序列与语音转录结果序列相匹配的文字内容坐标所添加的标注,所述文字识别结果序列为通过文字识别技术对当前课程视频帧中文字进行识别所得,所述语音转录结果序列为通过语音转录对与当前课程视频帧配套的音频信息进行转录所得。
2.如权利要求1所述的针对课程视频的视线修正系统,其特征在于,所述特征提取网络包括N个特征提取块以及N-1个特征权重增强单元,每相邻两个特征提取块之间连接一个特征权重增强单元,每个特征权重增强单元包括特征权重增强结构、点乘运算结构和加法运算结构;其中,
特征提取块用于对所输入的特征进行卷积操作并增加特征通道,输出多通道的高阶特征I;
特征权重增强结构用于对上一相邻的特征提取块输出的高阶特征I进行卷积操作并降低特征通道,输出单通道的权重矩阵Z;
点乘运算结构用于将所属特征权重增强单元中的权重矩阵Z与上一相邻的特征提取块输出的高阶特征I进行点乘运算,输出多通道的加权特征I⊙Z;
加法运算结构用于将所属特征权重增强单元中的加权特征I⊙Z和上一相邻的特征提取块输出的高阶特征I进行求和运算,输出多通道的显著性特征Io=I+I⊙Z,并作为下一特征提取块的输入特征。
3.如权利要求2所述的针对课程视频的视线修正系统,其特征在于,所述特征提取块包括归一化层、Relu激活函数、卷积层和自适应最大池化层,所述特征提取块中的卷积层的卷积核尺寸为3x3,所述特征提取块的输出通道数是输入通道数的2倍,所述特征提取块的输出特征的高和宽分别是对应特征提取块的输入特征的高和宽的一半。
4.如权利要求2所述的针对课程视频的视线修正系统,其特征在于,所述特征权重增强结构包括依次相连且卷积核尺寸均为1x1的第一卷积层、第二卷积层和第三卷积层,其中,
所述第一卷积层用于对多通道的高阶特征I进行卷积操作且第一卷积层的输出通道数和输入通道数相等;
所述第二卷积层对第一卷积层的输出特征进行卷积操作且第二卷积层的输出通道数和输入通道数相等;
所述第三卷积层对第二卷积层的输出特征进行卷积操作且第三卷积层的输出通道数为1。
5.如权利要求1所述的针对课程视频的视线修正系统,其特征在于,所述特征提取网络、时序提取层和信息解码网络组成显著性检测网络,所述显著性检测网络在以带语音可视化标注的课程视频帧作为测试集并使用交叉熵、线性相关系数和相似性测量3个指标构建的损失函数进行训练时的收敛程度满足预期。
6.一种针对课程视频的视线修正系统的训练方法,其特征在于,所述视线修正系统为权利要求1至5任一项所述的针对课程视频的视线修正系统,所述训练方法包括:
对观看课程视频人员的眼部图像进行视线估计得到视线落点的初始热度图;
根据课程视频中的音频信息对课程视频帧进行语音可视化标注;
将所述初始热度图和带标注的课程视频帧同时输入所述视线修正系统;
以缩小修正热度图与期望热度图之间的差异为目标对所述视线修正系统进行训练。
7.如权利要求6所述的针对课程视频的视线修正系统的训练方法,其特征在于,根据课程视频中的音频信息对课程视频帧进行语音可视化标注,包括:
通过语音转录对与当前课程视频帧配套的音频信息进行转录,得到语音转录结果序列;
通过文字识别技术对当前课程视频帧中文字进行识别,得到文字识别结果序列;
将语音转录结果序列和文字识别结果序列进行比对,获取文字识别结果序列与语音转录结果序列相匹配的文字内容坐标并进行语音可视化标注。
8.如权利要求6所述的针对课程视频的视线修正系统的训练方法,其特征在于,所述期望热度图为基于观看课程视频人员的眼动数据进行标注所得。
9.如权利要求6所述的针对课程视频的视线修正系统的训练方法,其特征在于,以交叉熵作为训练的损失函数,所述损失函数为:
Figure FDA0003755686130000031
其中,xi表示课程视频帧的第i个像素,n表示像素数量,G′(xi)表示修正热度图,G(xi)表示期望热度图。
10.一种针对课程视频的视线落点估计方法,其特征在于,包括:
获取训练好的视线修正系统,所述视线修正系统为根据权利要求6至9任一项所述的针对课程视频的视线修正系统的训练方法训练所得;
基于课程视频的音频信息对课程视频帧添加语音可视化标注,并基于观看课程视频人员的眼部图像获取视线落点的初始热度图;
将初始热度图和带标注的课程视频帧同时输入所述视线修正系统,得到视线落点的修正热度图。
CN202210537861.8A 2022-05-18 2022-05-18 课程视频视线修正系统及其训练方法、视线落点估计方法 Active CN114648805B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210537861.8A CN114648805B (zh) 2022-05-18 2022-05-18 课程视频视线修正系统及其训练方法、视线落点估计方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210537861.8A CN114648805B (zh) 2022-05-18 2022-05-18 课程视频视线修正系统及其训练方法、视线落点估计方法

Publications (2)

Publication Number Publication Date
CN114648805A CN114648805A (zh) 2022-06-21
CN114648805B true CN114648805B (zh) 2022-09-02

Family

ID=81996669

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210537861.8A Active CN114648805B (zh) 2022-05-18 2022-05-18 课程视频视线修正系统及其训练方法、视线落点估计方法

Country Status (1)

Country Link
CN (1) CN114648805B (zh)

Family Cites Families (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2013033842A1 (en) * 2011-09-07 2013-03-14 Tandemlaunch Technologies Inc. System and method for using eye gaze information to enhance interactions
CN110174942B (zh) * 2019-04-30 2021-01-19 北京航空航天大学 眼动合成方法及装置
EP3816853A1 (en) * 2019-10-31 2021-05-05 NVIDIA Corporation Gaze determination using one or more neural networks
CN112465008B (zh) * 2020-11-25 2021-09-24 电子科技大学 一种基于自监督课程学习的语音和视觉关联性增强方法
CN113095357A (zh) * 2021-03-04 2021-07-09 山东大学 基于注意力机制与gmn的多模态情感识别方法及系统
CN114387679A (zh) * 2022-01-14 2022-04-22 上海大学 基于递归卷积神经网络实现视线估计与注意力分析的系统及其方法

Also Published As

Publication number Publication date
CN114648805A (zh) 2022-06-21

Similar Documents

Publication Publication Date Title
CN111709409B (zh) 人脸活体检测方法、装置、设备及介质
CN112287820A (zh) 人脸检测神经网络及训练方法、人脸检测方法、存储介质
CN108090857A (zh) 一种多模态的学生课堂行为分析系统和方法
CN107396095B (zh) 一种无参考三维图像质量评价方法
CN111986180B (zh) 基于多相关帧注意力机制的人脸伪造视频检测方法
Sun et al. A weakly supervised method for makeup-invariant face verification
CN111401192B (zh) 基于人工智能的模型训练方法和相关装置
CN113592007B (zh) 一种基于知识蒸馏的不良图片识别系统、方法、计算机及存储介质
CN112084927A (zh) 一种融合多种视觉信息的唇语识别方法
US11386292B2 (en) Method and system for auto multiple image captioning
CN114357206A (zh) 基于语义分析的教育类视频彩色字幕生成方法及系统
CN113269013B (zh) 对象行为分析方法、信息显示方法及电子设备
CN112488072A (zh) 一种人脸样本集获取方法、系统及设备
CN111507467A (zh) 神经网络模型的训练方法、装置、计算机设备及存储介质
CN112464775A (zh) 一种基于多分支网络的视频目标重识别方法
Nugraha et al. Video recognition of American sign language using two-stream convolution neural networks
CN112329663B (zh) 一种基于人脸图像序列的微表情时刻检测方法及装置
CN114648805B (zh) 课程视频视线修正系统及其训练方法、视线落点估计方法
Bermejo et al. FacialSCDnet: a deep learning approach for the estimation of subject-to-camera distance in facial photographs
US11587345B2 (en) Image identification device, method for performing semantic segmentation, and storage medium
CN115359571A (zh) 一种在线跨通道交互式并行蒸馏架构姿态预估方法及装置
KR20210053864A (ko) 이미지 다중 캡션 자동 생성 방법 및 시스템
CN114445744A (zh) 一种教育视频自动定位方法、装置及存储介质
CN112580526A (zh) 基于视频监控的学生课堂行为识别系统
CN114329050A (zh) 视觉媒体数据去重处理方法、装置、设备和存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant