CN111783709A - 针对教育视频的信息预测方法及装置 - Google Patents

针对教育视频的信息预测方法及装置 Download PDF

Info

Publication number
CN111783709A
CN111783709A CN202010656382.9A CN202010656382A CN111783709A CN 111783709 A CN111783709 A CN 111783709A CN 202010656382 A CN202010656382 A CN 202010656382A CN 111783709 A CN111783709 A CN 111783709A
Authority
CN
China
Prior art keywords
information
video
test question
education
target
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202010656382.9A
Other languages
English (en)
Other versions
CN111783709B (zh
Inventor
刘淇
陈恩红
王新
黄威
阴钰
黄振亚
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Chen Enhong
Huang Zhenya
Liu Qi
University of Science and Technology of China USTC
Original Assignee
University of Science and Technology of China USTC
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by University of Science and Technology of China USTC filed Critical University of Science and Technology of China USTC
Priority to CN202010656382.9A priority Critical patent/CN111783709B/zh
Publication of CN111783709A publication Critical patent/CN111783709A/zh
Application granted granted Critical
Publication of CN111783709B publication Critical patent/CN111783709B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • G06V20/49Segmenting video sequences, i.e. computational techniques such as parsing or cutting the sequence, low-level clustering or determining units such as shots or scenes
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/22Matching criteria, e.g. proximity measures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/25Fusion techniques
    • G06F18/253Fusion techniques of extracted features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/044Recurrent networks, e.g. Hopfield networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/048Activation functions
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • G06V20/46Extracting features or characteristics from the video content, e.g. video fingerprints, representative shots or key frames
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • G06V20/48Matching video sequences

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • General Engineering & Computer Science (AREA)
  • Evolutionary Computation (AREA)
  • Computing Systems (AREA)
  • Biophysics (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • Biomedical Technology (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Molecular Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Multimedia (AREA)
  • Two-Way Televisions, Distribution Of Moving Picture Or The Like (AREA)
  • Testing, Inspecting, Measuring Of Stereoscopic Televisions And Televisions (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种针对教育视频的信息预测方法及装置,基于预创建的预测模型对所述待预测信息进行处理,所述预测建模型是基于目标样本生成的,所述目标样本的每个样本包括教育视频以及与所述教育视频相匹配的试题集合,所述教育视频包括字幕信息和视频信息,预测模型的生成过程包括利用多模态深度表示方法和注意力机制对所述目标样本进行处理得到模型。本发明可以充分利用了教育视频的视觉和文本信息,深入理解和准确表示教育视频的语义内容,实现了提升预测准确率,并且基于模型处理解决了人工处理信息处理难度大的问题。

Description

针对教育视频的信息预测方法及装置
技术领域
本发明涉及信息处理技术领域,特别是涉及一种针对教育视频的信息预测方法及装置。
背景技术
越来越多的用户选择通过互联网来完成学习。在线教育平台上最主要的两种教育资源就是教学视频和习题,学习者通过教学视频学习知识技能,通过习题评估学习情况。随着在线教育平台的增长,针对不同的教育应用场景,大量的教学视频和习题被收集和制作。其中,典型的应用场景就是教学视频和习题间的双向相关推荐,如学习者在完成某一教学视频的学习后,平台会为其推荐相关的习题进行自测,或者在学习者进行习题练习遇到困难时,为其推荐相关的视频进行提示解答。可见,如何对教学视频和习题进行准确的相似度评估,是这些应用的核心问题。
现有技术中,通常会通过基于专家知识的相似度评估方法或者基于文本的单模态相似度预测方法,对教学视频和习题进行预测。但是,基于专家知识的相似度评估方法费时费力,对专业知识要求高,并且人工标注不适用于大规模数据,教育资源利用率低下。基于文本的单模态相似度检测方法,只利用视频的文本数据,而忽略了视频的其他信息,因此无法对视频内容进行准确理解和表示。可见,现有的预测方法存在信息处理难度高以及预测准确率低的问题。
发明内容
针对于上述问题,本发明提供一种针对视频教育的信息预测方法及装置,实现了降低信息处理难度以及提升预测准确率的目的。
为了实现上述目的,本发明提供了如下技术方案:
一种针对教育视频的信息预测方法,所述方法包括:
获取待预测信息;
基于预创建的预测模型对所述待预测信息进行处理,得到目标信息,所述预创建的预测模型是基于目标样本生成的,所述目标样本的每个样本包括教育视频以及与所述教育视频相匹配的试题集合,所述教育视频包括字幕信息和视频信息,预测模型的生成过程包括利用多模态深度表示方法和注意力机制对所述目标样本进行处理得到模型;
输出所述目标信息。
可选地,所述待预测信息包括教育视频,所述基于预创建的预测模型对所述待预测信息进行处理,得到目标信息,包括:
基于预创建的预测模型对所述教育视频进行处理,得到与所述教育视频相匹配的试题信息;
或者,所述待预测信息包括试题信息,所述基于预创建的预测模型对所述待预测信息进行处理,得到目标信息,包括:
基于预创建的预测模型对所述试题信息进行处理,得到与所述教育试题信息相匹配的教育视频。
可选地,所述方法还包括:
获取目标样本,所述目标样本的每个样本包括教育视频以及与所述教育视频相匹配的试题集合,所述教育视频包括字幕信息和视频信息,且所述视频信息包括若干视频片段;
利用多模态深度表示和注意力机制对所述目标样本进行建模,得到目标样本的语义表征向量;
对所述视频片段的语义表征向量进行多尺度感知融合,得到每个视频片段关于对应试题的融合了适当上下文信息的综合语义向量;
将所述视频片段的综合语义向量与对应试题的语义向量拼接后,利用全连接神经网络进行预测,得到每个视频片段与对应试题的相似度得分;
基于所述相似度分值对创建的初始模型进行参数训练,得到预测模型。
可选地,所述利用多模态深度表示和注意力机制对所述目标样本进行建模,得到目标样本的语义表征向量,包括:
对所述教育视频和所述试题集合进行预处理,得到所述教育视频的字幕信息的词序列、所述教育视频的多个视频片段和所述试题集合的试题文本的词序列;
对所述字幕信息的词序列和所述试题文本的词序列分别进行序列建模,得到字幕信息和试题的表征向量;
对各个所述视频片段关键帧进行建模,得到各个所述视频片段的视觉信息表征向量;
基于所述字幕信息的表征向量和所述视频片段的视觉信息表征向量进行语义对齐处理,得到包含视觉信息和字幕信息的视频片段表征向量。
可选地,所述方法还包括:
基于视频片段表征向量,根据目标试题表征向量,融合适当范围内的相邻片段的语义信息;
基于所述语义信息,确定目标视频各片段与试题的相似度分值。
一种针对教育视频的信息预测装置,所述装置包括:
获取单元,用于获取待预测信息;
处理单元,用于基于预创建的预测模型对所述待预测信息进行处理,得到目标信息,所述预创建的预测模型是基于目标样本生成的,所述目标样本的每个样本包括教育视频以及与所述教育视频相匹配的试题集合,所述教育视频包括字幕信息和视频信息,预测模型的生成过程包括利用多模态深度表示方法和注意力机制对所述目标样本进行处理得到模型;
输出单元,用于输出所述目标信息。
可选地,所述处理单元包括:
第一处理子单元,用于当待预测信息包括教育视频,基于预创建的预测模型对所述教育视频进行处理,得到与所述教育视频相匹配的试题信息;
或者,第二处理子单元,用于当所述待预测信息包括试题信息,基于预创建的预测模型对所述试题信息进行处理,得到与所述教试题信息相匹配的教育视频。
可选地,所述装置还包括:
样本获取单元,用于获取目标样本,所述目标样本的每个样本包括教育视频以及与所述教育视频相匹配的试题集合,所述教育视频包括字幕信息和视频信息,且所述视频信息包括若干视频片段;
建模单元,用于利用多模态深度表示和注意力机制对所述目标样本进行建模,得到目标样本的语义表征向量;
融合处理单元,用于对所述视频片段的语义表征向量进行多尺度感知融合,得到每个视频片段关于对应试题的融合了适当上下文信息的综合语义向量;
预测单元,将所述视频片段的综合语义向量与对应试题的语义向量拼接后,基于全连接神经网络进行预测,得到每个视频片段与对应试题的相似度得分;
训练单元,用于基于所述相似度分值对创建的初始模型进行参数调整,得到预测模型。
可选地,所述建模单元包括:
预处理子单元,用于对所述教育视频和所述试题集合进行预处理,得到所述教育视频的字幕信息的词序列、所述教育视频的多个视频片段和所述试题集合的试题文本的词序列;
建模子单元,用于对所述字幕信息的词序列和所述试题文本的词序列分别进行序列建模,得到字幕信息和试题的表征向量;
语义处理子单元,用于基于所述字幕信息的表征向量和所述视频片段的视觉信息表征向量进行语义对齐处理,得到包含视觉信息和字幕信息的视频片段表征向量。
可选地,所述装置还包括:
第一确定单元,用于基于对应试题表征向量,确定目标视频片段待融合的上下文范围;
第二确定单元,用于基于所述语义表征向量,确定目标视频片段与试题的相似度分值。
相较于现有技术,本发明提供了一种针对视频教育的信息预测方法及装置,基于预创建的预测模型对所述待预测信息进行处理,所述预创建模型是基于目标样本生成的,所述目标样本的每个样本包括教育视频以及与所述教育视频相匹配的试题集合,所述教育视频包括字幕信息和视频信息,预测模型的生成过程包括利用多模态深度表示方法和注意力机制对所述目标样本进行处理得到模型。本发明可以充分利用了教育视频的视觉和文本信息,深入理解和准确表示教育视频的语义内容,实现了提升预测准确率,并且基于模型处理解决了人工处理信息处理难度大的问题。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据提供的附图获得其他的附图。
图1为本发明实施例提供的一种针对视频教育的信息预测方法的流程示意图;
图2为本发明实施例提供的一种针对视频教育的信息预测装置的结构示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
本发明的说明书和权利要求书及上述附图中的术语“第一”和“第二”等是用于区别不同的对象,而不是用于描述特定的顺序。此外术语“包括”和“具有”以及他们任何变形,意图在于覆盖不排他的包含。例如包含了一系列步骤或单元的过程、方法、系统、产品或设备没有设定于已列出的步骤或单元,而是可包括没有列出的步骤或单元。
在本发明实施例中提供了一种针对教育视频的信息预测方法,参见图1,所述方法可以包括以下步骤:
S101、获取待预测信息。
对应的,待预测信息可以是教育视频也可以是试题,即在本发明实施例中可以根据教育视频来预测对应的试题,也可以是根据试题预测对应的教育视频,如预测与试题对应的讲解视频等。
S102、基于预创建的预测模型对待预测信息进行处理,得到目标信息。
S103、输出目标信息。
预测模型是基于目标样本生成的,目标样本的每个样本包括教育视频以及与教育视频相匹配的试题集合,教育视频包括字幕信息和视频信息,预测模型的生成过程包括利用多模态深度表示方法和注意力机制对目标样本进行处理得到模型。
在本发明实施例中结合教育视频的视觉风格利用镜头边界检测将视频分割成片段,然后充分利用视频片段的字幕信息和视觉信息对其进行多模态深度表示。同时,基于不同片段间存在语义关联,并且不同习题关注的上下文范围通常是不同的,因此通过多尺度感知融合模块使用不同尺度的上下文融合窗口对不同范围的上下文语义关联进行建模,根据试题语义利用注意力机制对不同范围的融合表征进行加权得到视频片段最终的综合语义表示向量。最后基于各视频片段和习题的深度表征,对其语义相似度进行准确预测。
由于该预测模型可以实现双向预测,即所述待预测信息包括教育视频,所述基于预创建的预测模型对所述待预测信息进行处理,得到目标信息,包括:基于预创建的预测模型对所述教育视频进行处理,得到与所述教育视频相匹配的试题信息。
或者,所述待预测信息包括试题信息,所述基于预创建的预测模型对所述待预测信息进行处理,得到目标信息,包括:
基于预创建的预测模型对所述试题信息进行处理,得到与所述教试题信息相匹配的教育视频。
对应的,在本发明实施例中还提供一种预测模型的创建方法,该方法包括:
S201、获取目标样本。
所述目标样本的每个样本包括教育视频以及与所述教育视频相匹配的试题集合,所述教育视频包括字幕信息和视频信息。
多模态教育视频和试题集合均可通过从在线教育平台爬取获得。每个多模态教育视频包括视频帧序列和带有时间戳的字幕。每个试题(或者称为习题)包含题目的文本描述。此外,将教育视频对应的练习题目作为其相似习题,通过负采样可得到其不相似习题。
S202、利用多模态深度表示和注意力机制对所述目标样本进行建模,得到目标样本的语义表征向量;
S203、对所述视频片段的语义表征向量进行多尺度感知融合,得到每个视频片段关于对应试题的融合了适当上下文信息的综合语义向量;
S204、将所述视频片段的综合语义向量与对应试题的语义向量拼接后,基于全连接神经网络进行预测,得到每个视频片段与对应试题的相似度得分;
S205、基于所述相似度分值对创建的初始模型进行参数调整,得到预测模型。
首先,将视频和试题数据进行统一描述。试题只包含文本材料(文本描述、公式符号等),经过分词后,任意一个试题E可表示为一个词序列,如E=(w1,w2,...,wn),wi∈Rd0表示习题E由n个词组成,其中,每个词由一个维度为d0的词向量表示。对于多模态视频V,首先利用视频分割算法(如镜头边界检测)将其划分为多个视频片段V=(S1,S2,…,Sm),其中每个视频片段包含一个关键帧和一段对应的字幕描述Si={fi,ci},每个关键帧是一个大小为H×W的灰度图,每个像素值是0到1之间的实数,每个字幕标识为一个词序列ci=(wi1,wi2,...,wil)。
针对习题文本的词序列信息E=(w1,w2,...,wn),采用长短期记忆网络LSTM对试题进行时序建模,得到每一时刻的隐向量h=(h1,h2,...,hn),其中状态ht作为t时刻的语义表征,包含了t时刻之前的语义信息。具体地,在第t个时间步,LSTM的隐含状态ht计算计算更显如下:
it=σ(Wi·[ht-1,wt]+bi
ft=σ(Wf·[ht-1,wt]+bf
ot=σ(Wo·[ht-1,wt]+bo
ct=ftct-1+ittanh(Wc·[ht-1,wt]+bc
ht=ottanh(ct)
其中,it,ft,ot,ct分别是LSTM的输入门、遗忘门、记忆细胞、输出门,Wo,bo分别是LSTM的参数矩阵和偏置。考虑到最后的隐藏状态hn包含了词序列的全部语义信息,因此将其作为习题的最终表示向量。
针对多模态视频V=(S1,S2,…,Sm),首先对其包含的视频片段Si进行独立建模,获得各片段的表征向量。每个视频片段Si包含一个关键帧和一段对应的字幕描述Si={fi,ci}。对于字幕描述,使用另一个长短记忆网络LSTM对其进行语义信息建模,获得字幕语义表征向量rc。对于关键帧fi∈RH×W,首先利用卷积神经网络(CNN)对其进行初步的信息抽取,获得包含主要语义内容的特征图
Figure BDA0002576884790000081
然后,利用注意力(Attention)机制对字幕和关键帧进行语义对齐,即根据字幕语义信息对特征图
Figure BDA0002576884790000082
不同区域赋予不同的权重αij,突出主要相关信息,弱化次要无关信息。注意力机制计算如下:
Figure BDA0002576884790000083
Figure BDA0002576884790000084
Figure BDA0002576884790000085
其中,Vα和Wα分别是注意力机制的可学习参数,
Figure BDA0002576884790000091
是特征图中第(i,j)区域的信息与字幕的语义关联得分,αij是对语义关联得分进行归一化后得到的权重。基于上述注意力机制对特征图区域进行加权后,得到特征图
Figure BDA0002576884790000092
关于字幕的注意力表示
Figure BDA0002576884790000093
与一般的图像不同,教育视频帧既包含图形,也包含大量的文本和公式。视频帧中的文本和公式与一般的文本材料类似,具有固定的阅读顺序,即从左到右从上到下。这些空间结构信息(图形)和时序信息(文本公式)对于视觉语义内容的准确理解直观重要。为此,基于初步信息抽取获得的特征图
Figure BDA0002576884790000094
利用CNN对空间信息(图形)进行建模得到
Figure BDA0002576884790000095
利用两个长短期记忆网络LSTM分别对水平和垂直方向的时序信息进行建模得到
Figure BDA0002576884790000096
最后,将关键帧空间信息、时序信息和对应字幕的语义表示向量进行拼接作为该视频片段的表征向量,即
Figure BDA0002576884790000097
根据获取到的视频和习题表征使用多尺度感知融合方法融合目标片段的上下文语义,预测各片段与习题间的相似度得分包括:
经过深度表征,每个视频可表示为一个语义向量序列
Figure BDA0002576884790000098
其中,ri s为视频片段的语义表示向量。考虑到视频片段间存在语义关联,为了准确表示视频片段的语义信息进而深入挖掘其与习题的相似语义,需要融合视频片段的上下文信息。具体地,针对视频片段rt s,通过如下计算融合其上下文语义信息
Figure BDA0002576884790000099
Figure BDA00025768847900000910
Figure BDA00025768847900000911
其中,Wf和bf是可学习参数,w表示融合目标片段前后w各相邻片段的语义信息。但是,针对不同的习题,它所关注的目标片段的上下文范围通常是不同的,即不同的习题需要不同的w。为此,本发明采用了一种多尺度感知融合方法,根据不同的习题选择合适的上下文融合范围。具体地,首先使用多个融合范围[w1,w2,…]执行上述信息融合计算,获得多个融合表征向量[frt1 s,frt2 s,…]。然后利用注意力机制,计算融合表征向量关于习题re的注意力权重βi。最后,对各融合表征加权求和,得到片段rt s的最终的融合语义表征frt s
Figure BDA0002576884790000101
Figure BDA0002576884790000102
Figure BDA0002576884790000103
最后,将试题表征re和视频片段St的融合表征frt s拼接后传入一个两层全连接网络预测其相似度得分:
Figure BDA0002576884790000104
score(E,St)=a(W2v+b2)
其中,W1、b1、W2、b2是全连接网络的参数,ReLU是激活函数,即ReLU(x)=max(0,x),σ是sigmoid函数,即σ(x)=1/(1+e-x)。
针对本发明中的学习参数Θ,可以利用已有的相似视频习题时,通过PairWise训练策略,最小化以损失函数进行学习:
Figure BDA0002576884790000105
其中,Es是视频V的相似习题,Eds是基于负采样得到的视频V的不相似习题,μ是迫使相似对得分高于不相似对得分的边缘差距,λ是正则化参数。
利用训练好的模型,对于任意一个教育视频V和习题E,可以计算视频个片段St与习题E间的相似得分score(St,E)。根据相似度得分进而可进行相似判定和基于相似度的检索、推荐等应用。
本发明实施例提供的针对教育视频的信息预测方法是一种基于深度学习的多模态教育视频和习题的细粒度相似度预测方法。具体地,该方法首先结合教育视频的视觉风格利用镜头边界检测将视频分割成片段。然后充分利用视频片段的字幕信息和视觉信息对其进行多模态深度表示。此外,考虑到不同片段间存在语义关联,并且不同习题关注的上下文范围通常是不同的,该方法设计了一个多尺度感知融合模块使用不同尺度的上下文融合窗口对不同范围的上下文语义关联进行建模,根据试题语义利用注意力机制对不同范围的融合表征进行加权得到视频片段最终的综合语义表示向量。最后基于各视频片段和习题的深度表征,对其语义相似度进行准确预测。
对应的,参见图2,其示出了本发明实施例提供的一种针对教育视频的信息预测装置的结构示意图,所述装置包括:
获取单元10,用于获取待预测信息;
处理单元20,用于基于预创建的预测模型对所述待预测信息进行处理,得到目标信息,所述预创建的预测建模型是基于目标样本生成的,所述目标样本的每个样本包括教育视频以及与所述教育视频相匹配的试题集合,所述教育视频包括字幕信息和视频信息,预测模型的生成过程包括利用多模态深度表示方法和注意力机制对所述目标样本进行处理得到模型;
输出单元30,用于输出所述目标信息。
在上述实施例的基础上,所述处理单元包括:
第一处理子单元,用于当待预测信息包括教育视频,基于预创建的预测模型对所述教育视频进行处理,得到与所述教育视频相匹配的试题信息;
或者,第二处理子单元,用于当所述待预测信息包括试题信息,基于预创建的预测模型对所述试题信息进行处理,得到与所述教试题信息相匹配的教育视频。
在上述实施例的基础上,所述装置还包括:
样本获取单元,用于获取目标样本,所述目标样本的每个样本包括教育视频以及与所述教育视频相匹配的试题集合,所述教育视频包括字幕信息和视频信息,且所述视频信息包括若干视频片段;
建模单元,用于利用多模态深度表示和注意力机制对所述目标样本进行建模,得到目标样本的语义表征向量;
融合处理单元,用于对所述视频片段的语义表征向量进行多尺度感知融合,得到每个视频片段关于对应试题的融合了适当上下文信息的综合语义向量;
预测单元,将所述视频片段的综合语义向量与对应试题的语义向量拼接后,基于全连接神经网络进行预测,得到每个视频片段与对应试题的相似度得分;
训练单元,用于基于所述相似度分值对创建的初始模型进行参数调整,得到预测模型。
在上述实施例的基础上,所述建模单元包括:
预处理子单元,用于对所述教育视频和所述试题集合进行预处理,得到所述教育视频的字幕信息的词序列、所述教育视频的多个视频片段和所述试题集合的试题文本的词序列;
建模子单元,用于对所述字幕信息的词序列和所述试题文本的词序列分别进行序列建模,得到字幕信息和试题的表征向量;
语义处理子单元,用于基于所述字幕信息的表征向量和所述视频片段的视觉信息表征向量进行语义对齐处理,得到包含视觉信息和字幕信息的视频片段表征向量。
在上述实施例的基础上,所述装置还包括:
第一确定单元,用于基于对应试题表征向量,确定目标视频片段待融合的上下文范围;
第二确定单元,用于基于所述语义表征向量,确定目标视频片段与试题的相似度分值。
本发明提供了一种针对教育视频的信息预测装置,基于预创建的预测模型对所述待预测信息进行处理,述预测建模型是基于目标样本生成的,所述目标样本的每个样本包括教育视频以及与所述教育视频相匹配的试题集合,所述教育视频包括字幕信息和视频信息,预测模型的生成过程包括利用多模态深度表示方法和注意力机制对所述目标样本进行处理得到模型。本发明可以充分利用了教育视频的视觉和文本信息,深入理解和准确表示教育视频的语义内容,实现了提升预测准确率,并且基于模型处理解决了人工处理信息处理难度大的问题。
在本发明实施例还提供了一种存储介质,其上存储有计算机程序,所述计算机程序被处理器执行,实现如上任意一项所述的针对教育视频的信息预测方法的各步骤。
该存储介质是指计算机存储介质,其可能包含一个内含有计算机程序编码的传播数据信号,例如在基带上或作为载波的一部分。该传播信号可能有多种表现形式,包括电磁形式、光形式等,或合适的组合形式。计算机存储介质可以是除计算机可读存储介质之外的任何计算机可读介质,该介质可以通过连接至一个指令执行系统、装置或设备以实现通讯、传播或传输供使用的程序。位于计算机存储介质上的程序编码可以通过任何合适的介质进行传播,包括无线电、电缆、光纤电缆、RF、或类似介质,或任何上述介质的组合。
本说明书中各个实施例采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似部分互相参见即可。对于实施例公开的装置而言,由于其与实施例公开的方法相对应,所以描述的比较简单,相关之处参见方法部分说明即可。
对所公开的实施例的上述说明,使本领域专业技术人员能够实现或使用本发明。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的,本文中所定义的一般原理可以在不脱离本发明的精神或范围的情况下,在其它实施例中实现。因此,本发明将不会被限制于本文所示的这些实施例,而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

Claims (10)

1.一种针对教育视频的信息预测方法,其特征在于,所述方法包括:
获取待预测信息;
基于预创建的预测模型对所述待预测信息进行处理,得到目标信息,所述预创建的预测模型是基于目标样本生成的,所述目标样本的每个样本包括教育视频以及与所述教育视频相匹配的相关试题集合,所述教育视频包括字幕信息和视频信息,预测模型的生成过程包括利用多模态深度表示方法和注意力机制对所述目标样本进行处理得到模型;
输出所述目标信息。
2.根据权利要求1所述的方法,其特征在于,所述待预测信息包括教育视频,所述基于预创建的预测模型对所述待预测信息进行处理,得到目标信息,包括:
基于预创建的预测模型对所述教育视频进行处理,得到与所述教育视频相匹配的试题信息;
或者,所述待预测信息包括试题信息,所述基于预创建的预测模型对所述待预测信息进行处理,得到目标信息,包括:
基于预创建的预测模型对所述试题信息进行处理,得到与所述教育试题信息相匹配的教育视频。
3.根据权利要求1所述的方法,其特征在于,所述方法还包括:
获取目标样本,所述目标样本的每个样本包括教育视频以及与所述教育视频相匹配的试题集合,所述教育视频包括字幕信息和视频信息,且所述视频信息包括若干视频片段;
利用多模态深度表示和注意力机制对所述目标样本进行建模,得到目标样本的语义表征向量;
对所述视频片段的语义表征向量进行多尺度感知融合,得到每个视频片段关于对应试题的融合了适当上下文信息的综合语义向量;
将所述视频片段的综合语义向量与对应试题的语义向量拼接后,利用全连接神经网络进行预测,得到每个视频片段与对应试题的相似度得分;基于所述相似度得分对创建的初始模型进行参数训练,得到预测模型。
4.根据权利要求3所述的方法,其特征在于,所述利用多模态深度表示和注意力机制对所述目标样本进行建模,得到目标样本的语义表征向量,包括:
对所述教育视频和所述试题集合进行预处理,得到所述教育视频的字幕信息的词序列、所述教育视频的多个视频片段和所述试题集合的试题文本的词序列;
对所述字幕信息的词序列和所述试题文本的词序列分别进行序列建模,得到字幕信息和试题的表征向量;
对各个所述视频片段关键帧进行建模,得到各个所述视频片段的视觉信息表征向量;
基于所述字幕信息的表征向量和所述视频片段的视觉信息表征向量进行语义对齐处理,得到包含视觉信息和字幕信息的视频片段表征向量。
5.根据权利要求4所述的方法,其特征在于,所述方法还包括:
基于视频片段表征向量,根据目标试题表征向量,融合适当范围内的相邻片段的语义信息;
基于所述语义信息,确定目标视频各片段与试题的相似度分值。
6.一种针对教育视频的信息预测装置,其特征在于,所述装置包括:
获取单元,用于获取待预测信息;
处理单元,用于基于预创建的预测模型对所述待预测信息进行处理,得到目标信息,所述预创建的预测模型是基于目标样本生成的,所述目标样本的每个样本包括教育视频以及与所述教育视频相匹配的试题集合,所述教育视频包括字幕信息和视频信息,预测模型的生成过程包括利用多模态深度表示方法和注意力机制对所述目标样本进行处理得到模型;
输出单元,用于输出所述目标信息。
7.根据权利要求6所述的装置,其特征在于,所述处理单元包括:
第一处理子单元,用于当待预测信息包括教育视频,基于预创建的预测模型对所述教育视频进行处理,得到与所述教育视频相匹配的试题信息;
或者,第二处理子单元,用于当所述待预测信息包括试题信息,基于预创建的预测模型对所述试题信息进行处理,得到与所述教育试题信息相匹配的教育视频。
8.根据权利要求6所述的装置,其特征在于,所述装置还包括:
样本获取单元,用于获取目标样本,所述目标样本的每个样本包括教育视频以及与所述教育视频相匹配的试题集合,所述教育视频包括字幕信息和视频信息,且所述视频信息包括若干视频片段;
建模单元,用于利用多模态深度表示和注意力机制对所述目标样本进行建模,得到目标样本的语义表征向量;
融合处理单元,用于对所述视频片段的语义表征向量进行多尺度感知融合,得到每个视频片段关于对应试题的融合了适当上下文信息的综合语义向量;预测单元,将所述视频片段的综合语义向量与对应试题的语义向量拼接后,基于全连接神经网络进行预测,得到每个视频片段与对应试题的相似度得分;
训练单元,用于基于所述相似度分值对创建的初始模型进行参数调整,得到预测模型。
9.根据权利要求8所述的装置,其特征在于,所述建模单元包括:
预处理子单元,用于对所述教育视频和所述试题集合进行预处理,得到所述教育视频的字幕信息的词序列、所述教育视频的多个视频片段和所述试题集合的试题文本的词序列;
建模子单元,用于对所述字幕信息的词序列和所述试题文本的词序列分别进行序列建模,得到字幕信息和试题的表征向量;
语义处理子单元,用于基于所述字幕信息的表征向量和所述视频片段的视觉信息表征向量进行语义对齐处理,得到包含视觉信息和字幕信息的视频片段表征向量。
10.根据权利要求9所述的装置,其特征在于,所述装置还包括:
第一确定单元,用于基于对应试题表征向量,确定目标视频片段待融合的上下文范围;
第二确定单元,用于基于所述语义表征向量,确定目标视频片段与试题的相似度分值。
CN202010656382.9A 2020-07-09 2020-07-09 针对教育视频的信息预测方法及装置 Active CN111783709B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010656382.9A CN111783709B (zh) 2020-07-09 2020-07-09 针对教育视频的信息预测方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010656382.9A CN111783709B (zh) 2020-07-09 2020-07-09 针对教育视频的信息预测方法及装置

Publications (2)

Publication Number Publication Date
CN111783709A true CN111783709A (zh) 2020-10-16
CN111783709B CN111783709B (zh) 2022-09-06

Family

ID=72759326

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010656382.9A Active CN111783709B (zh) 2020-07-09 2020-07-09 针对教育视频的信息预测方法及装置

Country Status (1)

Country Link
CN (1) CN111783709B (zh)

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112464814A (zh) * 2020-11-27 2021-03-09 北京百度网讯科技有限公司 视频处理方法、装置、电子设备及存储介质
CN112488107A (zh) * 2020-12-04 2021-03-12 北京华录新媒信息技术有限公司 一种视频字幕的处理方法及处理装置
CN112785039A (zh) * 2020-12-31 2021-05-11 科大讯飞股份有限公司 一种试题作答得分率的预测方法及相关装置
CN112801762A (zh) * 2021-04-13 2021-05-14 浙江大学 基于商品感知的多模态视频高光检测方法及其系统
CN112989117A (zh) * 2021-04-14 2021-06-18 北京世纪好未来教育科技有限公司 视频分类的方法、装置、电子设备和计算机存储介质
CN118296243A (zh) * 2024-06-03 2024-07-05 合肥师范学院 一种基于视频理解的多任务信息增强试题推荐方法

Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2014112280A (ja) * 2012-12-05 2014-06-19 Nippon Telegr & Teleph Corp <Ntt> 映像群再構成・要約装置、映像群再構成・要約方法及び映像群再構成・要約プログラム
CN104809920A (zh) * 2015-04-01 2015-07-29 广东小天才科技有限公司 一种个性化的学习方法和学习装置
CN105956144A (zh) * 2016-05-13 2016-09-21 安徽教育网络出版有限公司 一种多标签学习资源关联度定量计算方法
CN107343223A (zh) * 2017-07-07 2017-11-10 北京慕华信息科技有限公司 视频片段的识别方法和装置
CN107978189A (zh) * 2017-12-21 2018-05-01 广东小天才科技有限公司 一种习题的智能推送方法、系统及终端设备
CN109344288A (zh) * 2018-09-19 2019-02-15 电子科技大学 一种基于多模态特征结合多层注意力机制的结合视频描述方法
CN109359215A (zh) * 2018-12-03 2019-02-19 江苏曲速教育科技有限公司 视频智能推送方法和系统
CN109376269A (zh) * 2018-12-05 2019-02-22 西安交通大学 一种基于图谱关联的跨课程视频子图推荐方法
CN111079601A (zh) * 2019-12-06 2020-04-28 中国科学院自动化研究所 基于多模态注意力机制的视频内容描述方法、系统、装置

Patent Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2014112280A (ja) * 2012-12-05 2014-06-19 Nippon Telegr & Teleph Corp <Ntt> 映像群再構成・要約装置、映像群再構成・要約方法及び映像群再構成・要約プログラム
CN104809920A (zh) * 2015-04-01 2015-07-29 广东小天才科技有限公司 一种个性化的学习方法和学习装置
CN105956144A (zh) * 2016-05-13 2016-09-21 安徽教育网络出版有限公司 一种多标签学习资源关联度定量计算方法
CN107343223A (zh) * 2017-07-07 2017-11-10 北京慕华信息科技有限公司 视频片段的识别方法和装置
CN107978189A (zh) * 2017-12-21 2018-05-01 广东小天才科技有限公司 一种习题的智能推送方法、系统及终端设备
CN109344288A (zh) * 2018-09-19 2019-02-15 电子科技大学 一种基于多模态特征结合多层注意力机制的结合视频描述方法
CN109359215A (zh) * 2018-12-03 2019-02-19 江苏曲速教育科技有限公司 视频智能推送方法和系统
CN109376269A (zh) * 2018-12-05 2019-02-22 西安交通大学 一种基于图谱关联的跨课程视频子图推荐方法
CN111079601A (zh) * 2019-12-06 2020-04-28 中国科学院自动化研究所 基于多模态注意力机制的视频内容描述方法、系统、装置

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
LIANG SUN等: "《Multimodal Semantic Attention Network for Video Captioning》", 《HTTPS://ARXIV.ORG/ABS/1905.02963V1》 *
SADIA ILYAS等: "《A Deep Learning based Approach for Precise Video Tagging》", 《2019 15TH INTERNATIONAL CONFERENCE ON EMERGING TECHNOLOGIES (ICET)》 *
吴雷等: "《多标签学习资源关联度定量计算方法》", 《电子技术设计与应用》 *

Cited By (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112464814A (zh) * 2020-11-27 2021-03-09 北京百度网讯科技有限公司 视频处理方法、装置、电子设备及存储介质
EP3933686A2 (en) * 2020-11-27 2022-01-05 Beijing Baidu Netcom Science Technology Co., Ltd. Video processing method, apparatus, electronic device, storage medium, and program product
US12112539B2 (en) 2020-11-27 2024-10-08 Beijing Baidu Netcom Science Technology Co., Ltd. Video processing method, electronic device and storage medium
CN112488107A (zh) * 2020-12-04 2021-03-12 北京华录新媒信息技术有限公司 一种视频字幕的处理方法及处理装置
CN112785039A (zh) * 2020-12-31 2021-05-11 科大讯飞股份有限公司 一种试题作答得分率的预测方法及相关装置
CN112785039B (zh) * 2020-12-31 2023-12-01 科大讯飞股份有限公司 一种试题作答得分率的预测方法及相关装置
CN112801762A (zh) * 2021-04-13 2021-05-14 浙江大学 基于商品感知的多模态视频高光检测方法及其系统
CN112801762B (zh) * 2021-04-13 2021-08-03 浙江大学 基于商品感知的多模态视频高光检测方法及其系统
CN112989117A (zh) * 2021-04-14 2021-06-18 北京世纪好未来教育科技有限公司 视频分类的方法、装置、电子设备和计算机存储介质
CN118296243A (zh) * 2024-06-03 2024-07-05 合肥师范学院 一种基于视频理解的多任务信息增强试题推荐方法

Also Published As

Publication number Publication date
CN111783709B (zh) 2022-09-06

Similar Documents

Publication Publication Date Title
CN111783709B (zh) 针对教育视频的信息预测方法及装置
CN110377710B (zh) 一种基于多模态融合的视觉问答融合增强方法
US11409964B2 (en) Method, apparatus, device and storage medium for evaluating quality of answer
CN110750959A (zh) 文本信息处理的方法、模型训练的方法以及相关装置
CN110362671B (zh) 题目推荐方法、设备和存储介质
CN108376132A (zh) 相似试题的判定方法及系统
CN111488931A (zh) 文章质量评估方法、文章推荐方法及其对应的装置
CN113297370B (zh) 基于多交互注意力的端到端多模态问答方法及系统
CN113505589B (zh) 一种基于bert模型的mooc学习者认知行为识别方法
CN116186250A (zh) 小样本条件下的多模态学习水平挖掘方法、系统及介质
CN114218379A (zh) 一种面向智能问答系统的无法回答问题的归因方法
CN116385937B (zh) 一种基于多粒度的跨模态交互框架解决视频问答的方法及系统
CN113569112A (zh) 基于题目的辅导策略提供方法、系统、装置及介质
CN110852071B (zh) 知识点检测方法、装置、设备及可读存储介质
CN110765241B (zh) 推荐题的超纲检测方法、装置、电子设备和存储介质
CN112364743A (zh) 一种基于半监督学习和弹幕分析的视频分类方法
CN110309515B (zh) 实体识别方法及装置
CN117992614A (zh) 一种中文网络课程评论情感分类方法、装置、设备和介质
CN115544226B (zh) 一种基于多模态情感分析的相似识别方法
CN113361615B (zh) 基于语义相关性的文本分类方法
CN116050382A (zh) 章节检测方法、装置、电子设备和存储介质
Liao [Retracted] Construction of Knowledge Graph English Online Homework Evaluation System Based on Multimodal Neural Network Feature Extraction
CN113157932B (zh) 基于知识图谱表示学习的隐喻计算和装置
CN117235347A (zh) 一种基于大语言模型的青少年算法代码辅助学习系统及方法
CN116012866A (zh) 重题检测方法、装置、电子设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
TR01 Transfer of patent right

Effective date of registration: 20241002

Address after: 230026 Jinzhai Road, Baohe District, Hefei, Anhui Province, No. 96

Patentee after: University of Science and Technology of China

Country or region after: China

Patentee after: Liu Qi

Patentee after: Chen Enhong

Patentee after: Huang Zhenya

Address before: 230026 Jinzhai Road, Baohe District, Hefei, Anhui Province, No. 96

Patentee before: University of Science and Technology of China

Country or region before: China

TR01 Transfer of patent right