针对教育视频的信息预测方法及装置
技术领域
本发明涉及信息处理技术领域,特别是涉及一种针对教育视频的信息预测方法及装置。
背景技术
越来越多的用户选择通过互联网来完成学习。在线教育平台上最主要的两种教育资源就是教学视频和习题,学习者通过教学视频学习知识技能,通过习题评估学习情况。随着在线教育平台的增长,针对不同的教育应用场景,大量的教学视频和习题被收集和制作。其中,典型的应用场景就是教学视频和习题间的双向相关推荐,如学习者在完成某一教学视频的学习后,平台会为其推荐相关的习题进行自测,或者在学习者进行习题练习遇到困难时,为其推荐相关的视频进行提示解答。可见,如何对教学视频和习题进行准确的相似度评估,是这些应用的核心问题。
现有技术中,通常会通过基于专家知识的相似度评估方法或者基于文本的单模态相似度预测方法,对教学视频和习题进行预测。但是,基于专家知识的相似度评估方法费时费力,对专业知识要求高,并且人工标注不适用于大规模数据,教育资源利用率低下。基于文本的单模态相似度检测方法,只利用视频的文本数据,而忽略了视频的其他信息,因此无法对视频内容进行准确理解和表示。可见,现有的预测方法存在信息处理难度高以及预测准确率低的问题。
发明内容
针对于上述问题,本发明提供一种针对视频教育的信息预测方法及装置,实现了降低信息处理难度以及提升预测准确率的目的。
为了实现上述目的,本发明提供了如下技术方案:
一种针对教育视频的信息预测方法,所述方法包括:
获取待预测信息;
基于预创建的预测模型对所述待预测信息进行处理,得到目标信息,所述预创建的预测模型是基于目标样本生成的,所述目标样本的每个样本包括教育视频以及与所述教育视频相匹配的试题集合,所述教育视频包括字幕信息和视频信息,预测模型的生成过程包括利用多模态深度表示方法和注意力机制对所述目标样本进行处理得到模型;
输出所述目标信息。
可选地,所述待预测信息包括教育视频,所述基于预创建的预测模型对所述待预测信息进行处理,得到目标信息,包括:
基于预创建的预测模型对所述教育视频进行处理,得到与所述教育视频相匹配的试题信息;
或者,所述待预测信息包括试题信息,所述基于预创建的预测模型对所述待预测信息进行处理,得到目标信息,包括:
基于预创建的预测模型对所述试题信息进行处理,得到与所述教育试题信息相匹配的教育视频。
可选地,所述方法还包括:
获取目标样本,所述目标样本的每个样本包括教育视频以及与所述教育视频相匹配的试题集合,所述教育视频包括字幕信息和视频信息,且所述视频信息包括若干视频片段;
利用多模态深度表示和注意力机制对所述目标样本进行建模,得到目标样本的语义表征向量;
对所述视频片段的语义表征向量进行多尺度感知融合,得到每个视频片段关于对应试题的融合了适当上下文信息的综合语义向量;
将所述视频片段的综合语义向量与对应试题的语义向量拼接后,利用全连接神经网络进行预测,得到每个视频片段与对应试题的相似度得分;
基于所述相似度分值对创建的初始模型进行参数训练,得到预测模型。
可选地,所述利用多模态深度表示和注意力机制对所述目标样本进行建模,得到目标样本的语义表征向量,包括:
对所述教育视频和所述试题集合进行预处理,得到所述教育视频的字幕信息的词序列、所述教育视频的多个视频片段和所述试题集合的试题文本的词序列;
对所述字幕信息的词序列和所述试题文本的词序列分别进行序列建模,得到字幕信息和试题的表征向量;
对各个所述视频片段关键帧进行建模,得到各个所述视频片段的视觉信息表征向量;
基于所述字幕信息的表征向量和所述视频片段的视觉信息表征向量进行语义对齐处理,得到包含视觉信息和字幕信息的视频片段表征向量。
可选地,所述方法还包括:
基于视频片段表征向量,根据目标试题表征向量,融合适当范围内的相邻片段的语义信息;
基于所述语义信息,确定目标视频各片段与试题的相似度分值。
一种针对教育视频的信息预测装置,所述装置包括:
获取单元,用于获取待预测信息;
处理单元,用于基于预创建的预测模型对所述待预测信息进行处理,得到目标信息,所述预创建的预测模型是基于目标样本生成的,所述目标样本的每个样本包括教育视频以及与所述教育视频相匹配的试题集合,所述教育视频包括字幕信息和视频信息,预测模型的生成过程包括利用多模态深度表示方法和注意力机制对所述目标样本进行处理得到模型;
输出单元,用于输出所述目标信息。
可选地,所述处理单元包括:
第一处理子单元,用于当待预测信息包括教育视频,基于预创建的预测模型对所述教育视频进行处理,得到与所述教育视频相匹配的试题信息;
或者,第二处理子单元,用于当所述待预测信息包括试题信息,基于预创建的预测模型对所述试题信息进行处理,得到与所述教试题信息相匹配的教育视频。
可选地,所述装置还包括:
样本获取单元,用于获取目标样本,所述目标样本的每个样本包括教育视频以及与所述教育视频相匹配的试题集合,所述教育视频包括字幕信息和视频信息,且所述视频信息包括若干视频片段;
建模单元,用于利用多模态深度表示和注意力机制对所述目标样本进行建模,得到目标样本的语义表征向量;
融合处理单元,用于对所述视频片段的语义表征向量进行多尺度感知融合,得到每个视频片段关于对应试题的融合了适当上下文信息的综合语义向量;
预测单元,将所述视频片段的综合语义向量与对应试题的语义向量拼接后,基于全连接神经网络进行预测,得到每个视频片段与对应试题的相似度得分;
训练单元,用于基于所述相似度分值对创建的初始模型进行参数调整,得到预测模型。
可选地,所述建模单元包括:
预处理子单元,用于对所述教育视频和所述试题集合进行预处理,得到所述教育视频的字幕信息的词序列、所述教育视频的多个视频片段和所述试题集合的试题文本的词序列;
建模子单元,用于对所述字幕信息的词序列和所述试题文本的词序列分别进行序列建模,得到字幕信息和试题的表征向量;
语义处理子单元,用于基于所述字幕信息的表征向量和所述视频片段的视觉信息表征向量进行语义对齐处理,得到包含视觉信息和字幕信息的视频片段表征向量。
可选地,所述装置还包括:
第一确定单元,用于基于对应试题表征向量,确定目标视频片段待融合的上下文范围;
第二确定单元,用于基于所述语义表征向量,确定目标视频片段与试题的相似度分值。
相较于现有技术,本发明提供了一种针对视频教育的信息预测方法及装置,基于预创建的预测模型对所述待预测信息进行处理,所述预创建模型是基于目标样本生成的,所述目标样本的每个样本包括教育视频以及与所述教育视频相匹配的试题集合,所述教育视频包括字幕信息和视频信息,预测模型的生成过程包括利用多模态深度表示方法和注意力机制对所述目标样本进行处理得到模型。本发明可以充分利用了教育视频的视觉和文本信息,深入理解和准确表示教育视频的语义内容,实现了提升预测准确率,并且基于模型处理解决了人工处理信息处理难度大的问题。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据提供的附图获得其他的附图。
图1为本发明实施例提供的一种针对视频教育的信息预测方法的流程示意图;
图2为本发明实施例提供的一种针对视频教育的信息预测装置的结构示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
本发明的说明书和权利要求书及上述附图中的术语“第一”和“第二”等是用于区别不同的对象,而不是用于描述特定的顺序。此外术语“包括”和“具有”以及他们任何变形,意图在于覆盖不排他的包含。例如包含了一系列步骤或单元的过程、方法、系统、产品或设备没有设定于已列出的步骤或单元,而是可包括没有列出的步骤或单元。
在本发明实施例中提供了一种针对教育视频的信息预测方法,参见图1,所述方法可以包括以下步骤:
S101、获取待预测信息。
对应的,待预测信息可以是教育视频也可以是试题,即在本发明实施例中可以根据教育视频来预测对应的试题,也可以是根据试题预测对应的教育视频,如预测与试题对应的讲解视频等。
S102、基于预创建的预测模型对待预测信息进行处理,得到目标信息。
S103、输出目标信息。
预测模型是基于目标样本生成的,目标样本的每个样本包括教育视频以及与教育视频相匹配的试题集合,教育视频包括字幕信息和视频信息,预测模型的生成过程包括利用多模态深度表示方法和注意力机制对目标样本进行处理得到模型。
在本发明实施例中结合教育视频的视觉风格利用镜头边界检测将视频分割成片段,然后充分利用视频片段的字幕信息和视觉信息对其进行多模态深度表示。同时,基于不同片段间存在语义关联,并且不同习题关注的上下文范围通常是不同的,因此通过多尺度感知融合模块使用不同尺度的上下文融合窗口对不同范围的上下文语义关联进行建模,根据试题语义利用注意力机制对不同范围的融合表征进行加权得到视频片段最终的综合语义表示向量。最后基于各视频片段和习题的深度表征,对其语义相似度进行准确预测。
由于该预测模型可以实现双向预测,即所述待预测信息包括教育视频,所述基于预创建的预测模型对所述待预测信息进行处理,得到目标信息,包括:基于预创建的预测模型对所述教育视频进行处理,得到与所述教育视频相匹配的试题信息。
或者,所述待预测信息包括试题信息,所述基于预创建的预测模型对所述待预测信息进行处理,得到目标信息,包括:
基于预创建的预测模型对所述试题信息进行处理,得到与所述教试题信息相匹配的教育视频。
对应的,在本发明实施例中还提供一种预测模型的创建方法,该方法包括:
S201、获取目标样本。
所述目标样本的每个样本包括教育视频以及与所述教育视频相匹配的试题集合,所述教育视频包括字幕信息和视频信息。
多模态教育视频和试题集合均可通过从在线教育平台爬取获得。每个多模态教育视频包括视频帧序列和带有时间戳的字幕。每个试题(或者称为习题)包含题目的文本描述。此外,将教育视频对应的练习题目作为其相似习题,通过负采样可得到其不相似习题。
S202、利用多模态深度表示和注意力机制对所述目标样本进行建模,得到目标样本的语义表征向量;
S203、对所述视频片段的语义表征向量进行多尺度感知融合,得到每个视频片段关于对应试题的融合了适当上下文信息的综合语义向量;
S204、将所述视频片段的综合语义向量与对应试题的语义向量拼接后,基于全连接神经网络进行预测,得到每个视频片段与对应试题的相似度得分;
S205、基于所述相似度分值对创建的初始模型进行参数调整,得到预测模型。
首先,将视频和试题数据进行统一描述。试题只包含文本材料(文本描述、公式符号等),经过分词后,任意一个试题E可表示为一个词序列,如E=(w1,w2,...,wn),wi∈Rd0表示习题E由n个词组成,其中,每个词由一个维度为d0的词向量表示。对于多模态视频V,首先利用视频分割算法(如镜头边界检测)将其划分为多个视频片段V=(S1,S2,…,Sm),其中每个视频片段包含一个关键帧和一段对应的字幕描述Si={fi,ci},每个关键帧是一个大小为H×W的灰度图,每个像素值是0到1之间的实数,每个字幕标识为一个词序列ci=(wi1,wi2,...,wil)。
针对习题文本的词序列信息E=(w1,w2,...,wn),采用长短期记忆网络LSTM对试题进行时序建模,得到每一时刻的隐向量h=(h1,h2,...,hn),其中状态ht作为t时刻的语义表征,包含了t时刻之前的语义信息。具体地,在第t个时间步,LSTM的隐含状态ht计算计算更显如下:
it=σ(Wi·[ht-1,wt]+bi
ft=σ(Wf·[ht-1,wt]+bf
ot=σ(Wo·[ht-1,wt]+bo
ct=ftct-1+ittanh(Wc·[ht-1,wt]+bc
ht=ottanh(ct)
其中,it,ft,ot,ct分别是LSTM的输入门、遗忘门、记忆细胞、输出门,Wo,bo分别是LSTM的参数矩阵和偏置。考虑到最后的隐藏状态hn包含了词序列的全部语义信息,因此将其作为习题的最终表示向量。
针对多模态视频V=(S
1,S
2,…,S
m),首先对其包含的视频片段S
i进行独立建模,获得各片段的表征向量。每个视频片段S
i包含一个关键帧和一段对应的字幕描述S
i={f
i,c
i}。对于字幕描述,使用另一个长短记忆网络LSTM对其进行语义信息建模,获得字幕语义表征向量r
c。对于关键帧f
i∈R
H×W,首先利用卷积神经网络(CNN)对其进行初步的信息抽取,获得包含主要语义内容的特征图
然后,利用注意力(Attention)机制对字幕和关键帧进行语义对齐,即根据字幕语义信息对特征图
不同区域赋予不同的权重α
ij,突出主要相关信息,弱化次要无关信息。注意力机制计算如下:
其中,V
α和W
α分别是注意力机制的可学习参数,
是特征图中第(i,j)区域的信息与字幕的语义关联得分,α
ij是对语义关联得分进行归一化后得到的权重。基于上述注意力机制对特征图区域进行加权后,得到特征图
关于字幕的注意力表示
与一般的图像不同,教育视频帧既包含图形,也包含大量的文本和公式。视频帧中的文本和公式与一般的文本材料类似,具有固定的阅读顺序,即从左到右从上到下。这些空间结构信息(图形)和时序信息(文本公式)对于视觉语义内容的准确理解直观重要。为此,基于初步信息抽取获得的特征图
利用CNN对空间信息(图形)进行建模得到
利用两个长短期记忆网络LSTM分别对水平和垂直方向的时序信息进行建模得到
最后,将关键帧空间信息、时序信息和对应字幕的语义表示向量进行拼接作为该视频片段的表征向量,即
根据获取到的视频和习题表征使用多尺度感知融合方法融合目标片段的上下文语义,预测各片段与习题间的相似度得分包括:
经过深度表征,每个视频可表示为一个语义向量序列
其中,r
i s为视频片段的语义表示向量。考虑到视频片段间存在语义关联,为了准确表示视频片段的语义信息进而深入挖掘其与习题的相似语义,需要融合视频片段的上下文信息。具体地,针对视频片段r
t s,通过如下计算融合其上下文语义信息
其中,Wf和bf是可学习参数,w表示融合目标片段前后w各相邻片段的语义信息。但是,针对不同的习题,它所关注的目标片段的上下文范围通常是不同的,即不同的习题需要不同的w。为此,本发明采用了一种多尺度感知融合方法,根据不同的习题选择合适的上下文融合范围。具体地,首先使用多个融合范围[w1,w2,…]执行上述信息融合计算,获得多个融合表征向量[frt1 s,frt2 s,…]。然后利用注意力机制,计算融合表征向量关于习题re的注意力权重βi。最后,对各融合表征加权求和,得到片段rt s的最终的融合语义表征frt s:
最后,将试题表征re和视频片段St的融合表征frt s拼接后传入一个两层全连接网络预测其相似度得分:
score(E,St)=a(W2v+b2)
其中,W1、b1、W2、b2是全连接网络的参数,ReLU是激活函数,即ReLU(x)=max(0,x),σ是sigmoid函数,即σ(x)=1/(1+e-x)。
针对本发明中的学习参数Θ,可以利用已有的相似视频习题时,通过PairWise训练策略,最小化以损失函数进行学习:
其中,Es是视频V的相似习题,Eds是基于负采样得到的视频V的不相似习题,μ是迫使相似对得分高于不相似对得分的边缘差距,λ是正则化参数。
利用训练好的模型,对于任意一个教育视频V和习题E,可以计算视频个片段St与习题E间的相似得分score(St,E)。根据相似度得分进而可进行相似判定和基于相似度的检索、推荐等应用。
本发明实施例提供的针对教育视频的信息预测方法是一种基于深度学习的多模态教育视频和习题的细粒度相似度预测方法。具体地,该方法首先结合教育视频的视觉风格利用镜头边界检测将视频分割成片段。然后充分利用视频片段的字幕信息和视觉信息对其进行多模态深度表示。此外,考虑到不同片段间存在语义关联,并且不同习题关注的上下文范围通常是不同的,该方法设计了一个多尺度感知融合模块使用不同尺度的上下文融合窗口对不同范围的上下文语义关联进行建模,根据试题语义利用注意力机制对不同范围的融合表征进行加权得到视频片段最终的综合语义表示向量。最后基于各视频片段和习题的深度表征,对其语义相似度进行准确预测。
对应的,参见图2,其示出了本发明实施例提供的一种针对教育视频的信息预测装置的结构示意图,所述装置包括:
获取单元10,用于获取待预测信息;
处理单元20,用于基于预创建的预测模型对所述待预测信息进行处理,得到目标信息,所述预创建的预测建模型是基于目标样本生成的,所述目标样本的每个样本包括教育视频以及与所述教育视频相匹配的试题集合,所述教育视频包括字幕信息和视频信息,预测模型的生成过程包括利用多模态深度表示方法和注意力机制对所述目标样本进行处理得到模型;
输出单元30,用于输出所述目标信息。
在上述实施例的基础上,所述处理单元包括:
第一处理子单元,用于当待预测信息包括教育视频,基于预创建的预测模型对所述教育视频进行处理,得到与所述教育视频相匹配的试题信息;
或者,第二处理子单元,用于当所述待预测信息包括试题信息,基于预创建的预测模型对所述试题信息进行处理,得到与所述教试题信息相匹配的教育视频。
在上述实施例的基础上,所述装置还包括:
样本获取单元,用于获取目标样本,所述目标样本的每个样本包括教育视频以及与所述教育视频相匹配的试题集合,所述教育视频包括字幕信息和视频信息,且所述视频信息包括若干视频片段;
建模单元,用于利用多模态深度表示和注意力机制对所述目标样本进行建模,得到目标样本的语义表征向量;
融合处理单元,用于对所述视频片段的语义表征向量进行多尺度感知融合,得到每个视频片段关于对应试题的融合了适当上下文信息的综合语义向量;
预测单元,将所述视频片段的综合语义向量与对应试题的语义向量拼接后,基于全连接神经网络进行预测,得到每个视频片段与对应试题的相似度得分;
训练单元,用于基于所述相似度分值对创建的初始模型进行参数调整,得到预测模型。
在上述实施例的基础上,所述建模单元包括:
预处理子单元,用于对所述教育视频和所述试题集合进行预处理,得到所述教育视频的字幕信息的词序列、所述教育视频的多个视频片段和所述试题集合的试题文本的词序列;
建模子单元,用于对所述字幕信息的词序列和所述试题文本的词序列分别进行序列建模,得到字幕信息和试题的表征向量;
语义处理子单元,用于基于所述字幕信息的表征向量和所述视频片段的视觉信息表征向量进行语义对齐处理,得到包含视觉信息和字幕信息的视频片段表征向量。
在上述实施例的基础上,所述装置还包括:
第一确定单元,用于基于对应试题表征向量,确定目标视频片段待融合的上下文范围;
第二确定单元,用于基于所述语义表征向量,确定目标视频片段与试题的相似度分值。
本发明提供了一种针对教育视频的信息预测装置,基于预创建的预测模型对所述待预测信息进行处理,述预测建模型是基于目标样本生成的,所述目标样本的每个样本包括教育视频以及与所述教育视频相匹配的试题集合,所述教育视频包括字幕信息和视频信息,预测模型的生成过程包括利用多模态深度表示方法和注意力机制对所述目标样本进行处理得到模型。本发明可以充分利用了教育视频的视觉和文本信息,深入理解和准确表示教育视频的语义内容,实现了提升预测准确率,并且基于模型处理解决了人工处理信息处理难度大的问题。
在本发明实施例还提供了一种存储介质,其上存储有计算机程序,所述计算机程序被处理器执行,实现如上任意一项所述的针对教育视频的信息预测方法的各步骤。
该存储介质是指计算机存储介质,其可能包含一个内含有计算机程序编码的传播数据信号,例如在基带上或作为载波的一部分。该传播信号可能有多种表现形式,包括电磁形式、光形式等,或合适的组合形式。计算机存储介质可以是除计算机可读存储介质之外的任何计算机可读介质,该介质可以通过连接至一个指令执行系统、装置或设备以实现通讯、传播或传输供使用的程序。位于计算机存储介质上的程序编码可以通过任何合适的介质进行传播,包括无线电、电缆、光纤电缆、RF、或类似介质,或任何上述介质的组合。
本说明书中各个实施例采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似部分互相参见即可。对于实施例公开的装置而言,由于其与实施例公开的方法相对应,所以描述的比较简单,相关之处参见方法部分说明即可。
对所公开的实施例的上述说明,使本领域专业技术人员能够实现或使用本发明。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的,本文中所定义的一般原理可以在不脱离本发明的精神或范围的情况下,在其它实施例中实现。因此,本发明将不会被限制于本文所示的这些实施例,而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。