CN112231516A - 视频摘要生成模型的训练方法、视频摘要生成方法及装置 - Google Patents

视频摘要生成模型的训练方法、视频摘要生成方法及装置 Download PDF

Info

Publication number
CN112231516A
CN112231516A CN202011057685.5A CN202011057685A CN112231516A CN 112231516 A CN112231516 A CN 112231516A CN 202011057685 A CN202011057685 A CN 202011057685A CN 112231516 A CN112231516 A CN 112231516A
Authority
CN
China
Prior art keywords
video
attention
generation model
mixed
matrix
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202011057685.5A
Other languages
English (en)
Other versions
CN112231516B (zh
Inventor
柴振华
王君岩
白杨
胡炳彰
龙洋
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Sankuai Online Technology Co Ltd
Original Assignee
Beijing Sankuai Online Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Sankuai Online Technology Co Ltd filed Critical Beijing Sankuai Online Technology Co Ltd
Priority to CN202011057685.5A priority Critical patent/CN112231516B/zh
Publication of CN112231516A publication Critical patent/CN112231516A/zh
Application granted granted Critical
Publication of CN112231516B publication Critical patent/CN112231516B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/70Information retrieval; Database structures therefor; File system structures therefor of video data
    • G06F16/73Querying
    • G06F16/738Presentation of query results
    • G06F16/739Presentation of query results in form of a video summary, e.g. the video summary being a video sequence, a composite still image or having synthesized frames
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/70Information retrieval; Database structures therefor; File system structures therefor of video data
    • G06F16/74Browsing; Visualisation therefor
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/0002Inspection of images, e.g. flaw detection
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/10Image acquisition modality
    • G06T2207/10016Video; Image sequence

Abstract

本申请公开了一种视频摘要生成模型的训练方法、视频摘要生成方法及装置,属于机器学习领域。该方法包括:获取视频样本,从视频样本中确定出至少两帧样本图像,每一帧样本图像标注有参考评分;调用视频摘要生成模型分别对每一帧样本图像进行时间特征与空间特征的混合自注意力学习,得到样本图像在时间与空间上的混合特征向量;调用视频摘要生成模型基于混合特征向量对样本图像进行评分,得到每一帧样本图像作为视频摘要的重要性评分;基于参考评分与重要性评分之间的学习损失更新视频摘要生成模型中的模型参数,最终得到训练完成的视频摘要生成模型。该方法使得模型能够更充分的捕捉视频的上下文信息,生成时序表达优秀的视频摘要。

Description

视频摘要生成模型的训练方法、视频摘要生成方法及装置
技术领域
本申请涉及机器学习领域,特别涉及一种视频摘要生成模型的训练方法、视频摘要生成方法及装置。
背景技术
随着视频资料在视频平台上的巨大增长,视频摘要的生成研究越来越受到关注。
视频摘要的生成可以采用机器模型来实现,示例性的,将视频资源输入到机器模型中,由机器模型学习出视频资料的视频摘要。
但是,一般的机器模型对于视频上下文信息的捕捉能力不足,导致生成的视频摘要的时序表达差。
发明内容
本申请实施例提供了一种视频摘要生成模型的训练方法、视频摘要生成方法及装置,能够更充分的捕捉视频的上下文信息,生成时序表达优秀的视频摘要。所述技术方案如下:
根据本申请的一个方面,提供了一种视频摘要生成模型的训练方法,该方法包括:
获取视频样本,从视频样本中确定出至少两帧样本图像,每一帧样本图像标注有参考评分,参考评分是指样本图像作为视频摘要的参考评分;
调用视频摘要生成模型分别对每一帧样本图像进行时间特征与空间特征的混合自注意力学习,得到样本图像在时间与空间上的混合特征向量;
调用视频摘要生成模型基于混合特征向量对样本图像进行评分,得到每一帧样本图像作为视频摘要的重要性评分;
基于参考评分与重要性评分之间的学习损失更新视频摘要生成模型中的模型参数,最终得到训练完成的视频摘要生成模型。
根据本申请的另一个方面,提供了一种视频摘要生成方法,该方法包括:
获取视频,从视频中确定出至少两帧图像;
调用视频摘要生成模型分别对每一帧图像进行时间特征与空间特征的混合自注意力学习,得到图像在时间与空间上的混合特征向量;
调用视频摘要生成模型基于混合特征向量对图像进行评分,得到每一帧图像作为视频摘要的重要性评分;
调用视频摘要生成模型基于重要性评分从至少两帧图像中确定出视频摘要。
根据本申请的另一个方面,提供了一种视频摘要生成模型的训练装置,该装置包括:
获取模块,用于获取视频样本,从视频样本中确定出至少两帧样本图像,每一帧样本图像标注有参考评分,参考评分是指样本图像作为视频摘要的参考评分;
训练模块,用于调用视频摘要生成模型分别对每一帧样本图像进行时间特征与空间特征的混合自注意力学习,得到样本图像在时间与空间上的混合特征向量;
训练模块,用于调用视频摘要生成模型基于混合特征向量对样本图像进行评分,得到每一帧样本图像作为视频摘要的重要性评分;
训练模块,用于基于参考评分与重要性评分之间的学习损失更新视频摘要生成模型中的模型参数,最终得到训练完成的视频摘要生成模型。
根据本申请的另一个方面,提供了一种视频摘要生成装置,该装置包括:
获取模块,用于获取视频,从视频中确定出至少两帧图像;
学习模块,用于调用视频摘要生成模型分别对每一帧图像进行时间特征与空间特征的混合自注意力学习,得到图像在时间与空间上的混合特征向量;
学习模块,用于调用视频摘要生成模型基于混合特征向量对图像进行评分,得到每一帧图像作为视频摘要的重要性评分;
学习模块,用于调用视频摘要生成模型基于重要性评分从至少两帧图像中确定出视频摘要。
根据本申请的另一方面,提供了一种计算机设备,上述计算机设备包括:处理器和存储器,上述存储器存储有计算机程序,上述计算机程序由上述处理器加载并执行以实现如上所述的视频摘要生成模型的训练方法,或者,如上所述的视频摘要生成方法。
根据本申请的另一方面,提供了一种计算机可读存储介质,上述计算机可读存储介质中存储有计算机程序,上述计算机程序由处理器加载并执行以实现如上所述的视频摘要生成模型的训练方法,或者,如上所述的视频摘要生成方法。
根据本申请的另一个方面,提供了一种计算机程序产品,上述计算机程序产品包括计算机指令,上述计算机指令存储在计算机可读存储介质中。计算机设备的处理器从上述计算机可读存储介质读取上述计算机指令,上述处理器执行上述计算机指令,使得上述计算机设备执行如上所述的视频摘要生成模型的训练方法,或者,如上所述的视频摘要生成方法。
本申请实施例提供的技术方案带来的有益效果至少包括:
在模型训练的过程中,该视频摘要生成模型分别对样本图像在时间与空间上进行混合自注意力学习,也即分别专注于时间特征与空间特征的混合自注意力学习,使得模型能够更充分地捕捉视频的上下文信息,更优秀地学习视频摘要中每一帧图像的时序表达,最终训练完成的视频摘要生成模型能够在输入视频之后,输出上下文信息表达充分地、视频帧时序表达准确地视频摘要。
附图说明
为了更清楚地说明本申请实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1示出了本申请一个示例性实施例提供的视频摘要生成模型的训练方法的流程图;
图2示出了本申请一个示例性实施例提供的特征图提取的示意图;
图3示出了本申请一个示例性实施例提供的混合特征向量学习的示意图;
图4示出了本申请一个示例性实施例提供的时间/空间特征向量学习的示意图;
图5示出了本申请另一个示例性实施例提供的视频摘要生成模型的训练方法的流程图;
图6示出了本申请一个示例性实施例提供的元学习过程的示意图;
图7示出了本申请一个示例性实施例提供的视频摘要生成方法的流程图;
图8示出了本申请一个示例性实施例提供的视频摘要生成模型的训练装置的框图;
图9示出了本申请一个示例性实施例提供的视频摘要生成装置的框图;
图10示出了本申请一个示例性实施例提供的计算机设备的结构示意图。
具体实施方式
为使本申请的目的、技术方案和优点更加清楚,下面将结合附图对本申请实施方式作进一步地详细描述。
首先对本申请涉及的几个名词进行介绍:
视频摘要:是指对原始视频的视频内容进行概括表达的视频;即是以自动或者半自动的方式,通过分析视频的结构和内容存在的时空冗余,从原始视频中提取有意义的片段帧。示例性的,本申请中摘要视频即是直接从视频中提取的关键帧合成的新视频。
提供有计算机系统支持视频平台的运行,各大视频平台上的视频资料庞大,为了更快捷地查看视频资料,视频平台上可以提供视频资料的视频摘要,通过视频摘要了解视频资料的内容。上述视频摘要可以是由视频平台基于视频资料自动生成的;示例性的,计算机系统包括服务器与终端,用户通过终端将视频资料上传至服务器,由服务器对接收到的视频资料进行视频摘要的提取,之后将视频资料与视频摘要进行对应存储,以提供后续的对视频资料与视频摘要的查找与查看。
其中,上述计算机系统中终端可以包括智能手机、平板电脑、电子书阅读器、MP3(Moving Picture Experts Group Audio Layer III,动态影像专家压缩标准音频层面3)播放器、MP4(Moving Picture Experts Group Audio Layer IV,动态影像专家压缩标准音频层面4)播放器、膝上型便携计算机和台式计算机中、笔记本电脑的至少一种。
上述计算机系统中服务器可以包括一台服务器、多台服务器、云计算平台和虚拟化中心中的至少一种。本领域技术人员可以知晓,上述计算机系统中终端的数量可以更多或更少。比如,上述计算机系统中终端可以仅为一个,或者为几十个或几百个,或者更多数量,本申请实施例对计算机系统中终端的数量和设备类型不加以限定。
对于上述视频资料的视频摘要的生成,本申请提供了一种视频摘要生成模型,该视频摘要生成模型可以是由机器模型训练得到的,能够基于视频直接生成该视频对应的视频摘要,该视频摘要对视频的上下文信息表达充分地、且视频帧时序表达准确。
图1示出了本申请的一个示例性实施例提供的视频摘要生成模型的训练方法的流程图,以该方法应用于服务器中为例,对上述视频摘要生成模型的训练进行说明,该方法包括:
步骤101,获取视频样本,从视频样本中确定出至少两帧样本图像,每一帧样本图像标注有参考评分。
上述样本视频存储在数据库中,服务器从数据库中获取至少一个视频样本,每一个视频样本均是独立存在的完整视频;每一个视频样本中的每一帧图像均标注有参考评分,上述参考评分是指样本图像作为视频摘要的参考评分。
服务器在获取得到一个视频样本之后,从该视频样本中抽取出至少两帧样本图像,对于样本图像的抽取可以是以下方式中的至少一种:
1)利用核时序分割的方式在时间上将整段视频分割成不相交的n段间隔视频,将每段间隔视频中的中间帧确定为样本图像,n为正整数。
2)仍是利用核时序分割的方式在时间上将整段视频分割成不相交的n段间隔视频,从每段间隔视频中随机抽取一帧图像作为样本图像。
3)按照设置的时间间隔从视频中抽取图像帧作为样本图像,比如,在整段视频中,从第一帧图像开始每间隔时长c抽取一帧图像作为样本图像,c为正整数。
在模型训练的过程中,服务器采用一个样本视频对模型进行一轮训练,也即每一个样本视频对应一个训练任务(task);服务器在得到一个样本视频的至少两帧样本图像之后,对视频摘要生成模型进行一轮训练,在未完成对视频摘要生成模型的训练之前,服务器继续采用下一个样本视频进行模型训练。
步骤102,调用视频摘要生成模型分别对每一帧样本图像进行时间特征与空间特征的混合自注意力学习,得到样本图像在时间与空间上的混合特征向量。
在一轮模型训练中,服务器在获得至少两帧样本图像之后,将至少两帧样本图像依次输入视频摘要生成模型中,调用视频摘要生成模型分别对每一帧样本图像进行时间特征与空间特征的混合自注意力学习,得到样本图像在时间与空间上的混合特征向量。
在一些实施例中,对于混合特征向量的生成,服务器调用视频摘要生成模型从每一帧样本图像中提取时间特征图与空间特征图;调用视频摘要生成模型分别对时间特征图与空间特征图进行混合自注意力学习,得到时间特征向量与空间特征向量;调用视频摘要生成模型基于时间特征向量与空间特征向量生成混合特征向量。
可选地,上述视频摘要生成模型包括时间通道与空间通道,服务器将每一帧样本图像输入视频摘要生成模型的时间通道,得到样本图像的时间特征图;将每一帧样本图像输入视频摘要生成模型的空间通道,得到样本图像的空间特征图。也就是说,服务器将样本图像输入视频摘要生成模型之后,视频摘要生成模型将样本图像分别输入时间通道与空间通道,由时间通道输出时间特征图,由空间通道输出空间特征图。
可选地,上述时间通道是由双向长短期记忆(Bi-directional Long Short TermMemory,Bi-LSTM)构成的,上述空间通道是由深度卷积神经网络(Deep ConvolutionalNeural Networks,Deep CNNs)构成的。示例性的,如图2,将从视频样本中提取出的一组视频帧输入至由Bi-LSTM构成的时间通道11中,输出时间特征图hs;将从视频样本中提取出的一组视频帧输入至由Deep CNNs构成的空间通道12中,输出时间特征图hv。示例性的,时间特征图与空间特征图的维度相同,比如,每一帧时间特征图均为1024维,每一帧空间特征图均为1024维。
在得到时间特征图与空间特征图之后,视频摘要生成模型针对时间特征图进行混合自注意力学习,得到样本图像在时间上的混合注意力表达,即时间特征向量;针对空间特征图进行混合自注意力学习,得到样本图像在空间上的混合注意力表达,即空间特征向量;之后对时间特征向量与空间特征向量进行拼接,得到样本图像的混合特征向量。示例性的,视频摘要生成模型还可以将时间特征向量与空间特征向量进行相加或者加权相加,来生成样本图像的混合特征向量。
步骤103,调用视频摘要生成模型基于混合特征向量对样本图像进行评分,得到每一帧样本图像作为视频摘要的重要性评分。
服务器调用视频摘要生成模型基于混合特征向量对样本图像进行评分,以评价每一帧样本图像作为视频摘要的重要性,示例性的,视频摘要生成模型包括打分层,将上述混合特征向量输出打分层进行对样本图像进行评分。示例性的,上述打分层可以是由两层线性网络构成的,比如,上述线性网络可以是由归一化函数(即softmax函数)构成的。
步骤104,基于参考评分与重要性评分之间的学习损失更新视频摘要生成模型中的模型参数,最终得到训练完成的视频摘要生成模型。
在得到样本图像的重要性评分之后,服务器调用视频摘要生成模型计算该样本图像的参考评分与重要性评分之间的学习损失,根据上述学习损失对视频摘要生成模型中的模型参数进行传播训练。
可选地,视频摘要生成模型中包括损失函数,视频摘要生成模型将样本图像的重要评分与参考评分对应输入损失函数中,计算样本图像的学习损失,之后根据学习损失对视频摘要生成模型进行反向传播训练。示例性的,上述损失函数可以是均方误差损失函数、平均绝对值误差损失函数、平滑平均绝对误差(Huber Loss)损失函数、Log-Cosh损失函数、分位数损失函数中的任一项。
每一个视频样本的训练任务作为一次迭代,在经过指定的迭代次数的训练之后,最终得到训练完成的视频摘要生成模型。
综上所述,本实施例提供的视频摘要生成模型的训练方法,在模型训练的过程中,该视频摘要生成模型分别对样本图像在时间与空间上进行混合自注意力学习,也即分别专注于时间特征与空间特征的混合自注意力学习,使得模型能够更充分地捕捉视频的上下文信息,更优秀地学习视频摘要中每一帧图像的时序表达,最终训练完成的视频摘要生成模型能够在输入视频之后,输出上下文信息表达充分地、视频帧时序表达准确地视频摘要。
该训练方法中,针对时间与空间的维度分别设置了特征图的提取通道,从而提取出时间特征图与空间特征图,基于时间特征图与空间特征图充分学习样本图像中的时间特征与空间特征,更准确地学习出视频样本的时间与空间结构。
一般的机器学习模型在注意力方面还存在归一化瓶颈(softmax bottleneck)问题,也即softmax函数无法表达视频资料的真正注意力分布,因此,本申请提供的视频摘要生成模型在对时间与空间特征图学习时,采用了混合自注意力学习的方式,可选地,视频摘要生成模型包括混合自注意力层,相应地,调用视频摘要生成模型分别对时间特征图与空间特征图进行混合自注意力学习,以得到时间特征向量与空间特征向量则可以采用以下方式:
1)通过混合自注意力层学习时间特征图的混合注意力分布,得到时间特征向量。
视频摘要生成模型中设置有m个混合自注意力层,m个混合自注意力层之间串行连接,上述m个混合自注意力层用于学习时间特征图的混合注意力分布;服务器将时间特征图输入上述m个混合自注意力层中,经由m个混合自注意力层的m次混合自注意力学习得到时间特征向量,m为正整数。
可选地,对于每一层混合自注意力层对时间特征图的混合注意力分布的学习,服务器通过视频摘要生成模型中的混合自注意力层从时间特征图中学习出时间特征图对应的查询矩阵、键矩阵、值矩阵、以及辅助查询矩阵;调用混合自注意力层将查询矩阵、辅助查询矩阵分别与键矩阵相乘,得到时间特征图对应的注意力矩阵与辅助注意力矩阵;调用混合自注意力层基于注意力矩阵、辅助注意力矩阵、以及值矩阵生成时间特征向量。
示例性的,混合自注意力层中设置有查询参数矩阵、键参数矩阵、值参数矩阵、以及辅助查询参数矩阵,混合自注意力层中还设置有归一化函数;服务器通过混合自注意力层将时间特征图分别与查询参数矩阵、键参数矩阵、值参数矩阵相乘,得到时间特征图对应的查询矩阵、键矩阵和值矩阵;通过混合自注意力层将查询矩阵与辅助查询参数矩阵相乘,得到时间特征图对应的辅助查询矩阵;通过混合自注意力层将查询矩阵与辅助查询矩阵分别与键矩阵相乘,得到时间特征图对应的注意力矩阵与辅助注意力矩阵;通过混合自注意力层中归一化函数将注意力矩阵与辅助注意力矩阵分布转换为注意力分布与辅助注意力分布;通过混合自注意力层将注意力分布与辅助注意力分布的转置矩阵相乘,得到混合注意力分布;通过混合自注意力层将混合注意力分布与键矩阵相乘,得到时间特征向量。
在m个混合自注意力层中,第1个混合自注意力层的输入为时间特征图,第i个混合自注意力层的输入为第i-1个混合自注意力层的输出的中间特征向量,第m个混合自注意力层的输出为时间特征向量,i为大于1且小于等于m的正整数。
可选地,m个混合自注意力层中存在至少两个混合自注意力层中的参数矩阵相同,和/或,m个混合自注意力层中存在至少两个混合自注意力层中的参数矩阵不同。
2)通过混合自注意力层学习空间特征图的混合注意力分布,得到空间特征向量。
视频摘要生成模型中设置有k个混合自注意力层,k个混合自注意力层之间串行连接,上述k个混合自注意力层用于学习空间特征图的混合注意力分布;服务器将空间特征图输入上述k个混合自注意力层中,经由k个混合自注意力层的k次混合自注意力学习得到空间特征向量,k为正整数。可选地,m的取值可以与k的取值相同或者不同。
可选地,对于每一层混合自注意力层对空间特征图的混合注意力分布的学习,服务器通过视频摘要生成模型中的混合自注意力层从空间特征图中学习出空间特征图对应的查询矩阵、键矩阵、值矩阵、以及辅助查询矩阵;调用混合自注意力层将查询矩阵、辅助查询矩阵分别与键矩阵相乘,得到空间特征图对应的注意力矩阵与辅助注意力矩阵;调用混合自注意力层基于注意力矩阵、辅助注意力矩阵、以及值矩阵生成空间特征向量。
示例性的,混合自注意力层中设置有查询参数矩阵、键参数矩阵、值参数矩阵、以及辅助查询参数矩阵,混合自注意力层中还设置有归一化函数;服务器通过混合自注意力层将空间特征图分别与查询参数矩阵、键参数矩阵、值参数矩阵相乘,得到空间特征图对应的查询矩阵、键矩阵和值矩阵;通过混合自注意力层将查询矩阵与辅助查询参数矩阵相乘,得到空间特征图对应的辅助查询矩阵;通过混合自注意力层将查询矩阵与辅助查询矩阵分别与键矩阵相乘,得到空间特征图对应的注意力矩阵与辅助注意力矩阵;通过混合自注意力层中归一化函数将注意力矩阵与辅助注意力矩阵分布转换为注意力分布与辅助注意力分布;通过混合自注意力层将注意力分布与辅助注意力分布的转置矩阵相乘,得到混合注意力分布;通过混合自注意力层将混合注意力分布与键矩阵相乘,得到空间特征向量。
在k个混合自注意力层中,第1个混合自注意力层的输入为空间特征图,第j个混合自注意力层的输入为第j-1个混合自注意力层的输出的中间特征向量,第m个混合自注意力层的输出为空间特征向量,j为大于1且小于等于k的正整数。
可选地,k个混合自注意力层中存在至少两个混合自注意力层中的参数矩阵相同,和/或,k个混合自注意力层中存在至少两个混合自注意力层中的参数矩阵不同。
示例性的,如图3,将时间特征图hs输入m个混合自注意力层21中,由m个混合自注意力层21输出时间特征向量Zs;将空间特征图hv输入k个混合自注意力层22中,由k个混合自注意力层22输出空间特征向量Zv;将时间特征向量Zs与空间特征向量Zv进行拼接,得到混合特征向量Z;之后基于混合特征向量进行至少两帧样本图像作为视频摘要时的重要性评分预测,基于对上述重要性评分的预测结果进行分段选择,选择出作为视频摘要的评分。
示例性的,如图4,对于每一个混合自注意力层中混合注意力分布的学习过程进行详细说明:
混合自注意力层(Mixture of self-Attention layer,MoA)中设置有查询参数矩阵WQ、键参数矩阵WK、值参数矩阵WV、以及辅助查询参数矩阵WQ’,混合自注意力层中还设置softmax函数;混合自注意力层将特征图h分别与查询参数矩阵WQ、键参数矩阵WK、值参数矩阵WV相乘,得到特征图h对应的查询矩阵Q、键矩阵K和值矩阵V;混合自注意力层将查询矩阵Q与辅助查询参数矩阵WQ’相乘,得到特征图h对应的辅助查询矩阵Q’;混合自注意力层将查询矩阵Q与辅助查询矩阵Q’分别与键矩阵K相乘,得到特征图h对应的注意力矩阵与辅助注意力矩阵,以注意力矩阵的计算为例,公式如下:
Figure BDA0002711295400000091
其中,Fscale(K,Q)是注意力矩阵,KT是K的转置矩阵,Da是模型参数;混合自注意力层中softmax函数将注意力矩阵与辅助注意力矩阵分布转换为注意力分布与辅助注意力分布,以注意力分布的计算为例,公式如下:
Figure BDA0002711295400000092
其中,A是注意力分布,t是指T帧样本图像(即至少两帧样本图像)中的第t帧样本图像,t、T为正整数,t小于等于T;混合自注意力层将注意力分布与辅助注意力分布的转置矩阵相乘,得到混合注意力分布,示例性的,公式如下:
AMoA=A A’T;------(3)
其中,A’是辅助注意力分布,A’T是辅助注意力分布的转置矩阵;混合自注意力层将混合注意力分布与键矩阵相乘,得到特征向量Z。其中,上述h可以是时间特征图或者空间特征图;当h是时间特征图时,Z是时间特征向量;当h是空间特征图时,Z是空间特征向量。
需要说明的是,上述查询矩阵相当于“查询,键和值(Queries,Keys and Values)”中的查询值,上述键矩阵相当于“查询,键和值”中的键值,上述值矩阵相当于“查询,键和值”中的值。
综上所述,本实施例提供的视频摘要生成模型的训练方法,所训练的视频摘要生成模型包括了混合自注意力层,通过二次辅助查询特征与混合注意力的方式,更好地解决了模型中的Softmax Bottleneck问题。
对于视频资料的视频摘要的生成,还存在由于视频帧的标注困难导致的视频样本难以获取的问题,这一问题导致了模型训练可用的视频样本数量少,因此,为了解决这一问题,可以采用元学习的方式对视频摘要生成模型进行训练,示例性的,如图5,示出了本申请的一个示例性实施例提供的视频摘要生成模型的训练方法的流程图,以该方法应用于服务器中为例,对视频摘要生成模型的训练采用元学习的方式进行说明,该方法包括:
步骤201,获取视频样本,从视频样本中确定出至少两帧样本图像,每一帧样本图像标注有参考评分。
上述样本视频存储在数据库中,服务器从数据库中获取E个视频样本,每一个视频样本均是独立存在的完整视频;每一个视频样本中的每一帧图像均标注有参考评分,上述参考评分是指样本图像作为视频摘要的参考评分;E为大于1的正整数。
将每一个视频样本的学习作为一个task,对视频摘要生成模型进行训练,首先,服务器在获取得到第x个视频样本之后开始执行第x个任务,从该视频样本中抽取出至少两帧样本图像,x为小于等于E的正整数。
步骤202,调用视频摘要生成模型分别对每一帧样本图像进行时间特征与空间特征的混合自注意力学习,得到样本图像在时间与空间上的混合特征向量。
在一轮模型训练中,服务器在获得至少两帧样本图像之后,将至少两帧样本图像依次输入视频摘要生成模型中,调用视频摘要生成模型分别对每一帧样本图像进行时间特征与空间特征的混合自注意力学习,得到每一帧样本图像在时间与空间上的混合特征向量。
在一些实施例中,对于混合特征向量的生成,服务器调用视频摘要生成模型从每一帧样本图像中提取时间特征图与空间特征图;调用视频摘要生成模型分别对时间特征图与空间特征图进行混合自注意力学习,得到时间特征向量与空间特征向量;调用视频摘要生成模型对时间特征向量与空间特征向量进行拼接,得到样本图像的混合特征向量。
步骤203,调用视频摘要生成模型基于混合特征向量对样本图像进行评分,得到每一帧样本图像作为视频摘要的重要性评分。
服务器调用视频摘要生成模型基于混合特征向量对样本图像进行评分,以评价每一帧样本图像作为视频摘要的重要性,示例性的,视频摘要生成模型包括打分层,将上述混合特征向量输出打分层进行对样本图像进行评分。
步骤204,基于参考评分与重要性评分之间的学习损失更新学习器中的模型参数,且记录本轮训练中学习器中模型参数的更新次数。
视频摘要生成模型包括学习器与元学习器,也即视频摘要生成模型的结构可以划分为学习器与元学习器;在得到至少两帧样本图像的重要性评分之后,服务器调用视频摘要生成模型计算至少两帧样本图像的参考评分与重要性评分之间的学习损失,根据上述学习损失对视频摘要生成模型中学习器的模型参数进行传播训练。
对模型的一轮训练采用一个任务,在每一个任务中,基于一个视频样本的至少两帧样本图像对学习器进行反复训练,因此,服务器记录本轮训练中学习器中模型参数的更新次数,也即是本轮训练中采用至少两帧图像对学习器训练的次数。
步骤205,响应于学习器中模型参数的更新次数小于次数阈值,继续基于本轮训练中的至少两帧样本图像对学习器中的模型参数进行更新。
服务器中设置有学习器中模型参数更新的次数阈值,服务器在确定本轮训练过程中学习器中模型参数的更新次数小于次数阈值,则继续采用本轮训练中的至少两帧样本图像进行学习器中的模型参数的训练更新。
需要说明的是,在一个任务中,学习器对于样本图像的每一次学习,采用的可以是至少两帧样本图像中的不同样本图像组合,比如,至少两帧样本图像的集合{I1,I2,I3,I4,I5},在学习器的第一次样本图像学习时采用集合{I1,I3,I4},在学习器的第二次样本图像学习时采用集合{I2,I3,I5}。
步骤206,响应于学习器中模型参数的更新次数等于次数阈值,基于学习器中的模型参数更新元学习器中的模型参数。
服务器在确定本轮训练过程中学习器中模型参数的更新次数等于次数阈值,则基于学习器中的模型参数更新元学习器中的模型参数。在对元学习器中的模型参数更新完成后,将元学习器中的模型参数复制到学习器中,采用第x+1个任务继续对学习器进行训练,x+1小于E。
示例性的,如图6,视频摘要学习模型采用双通道混合注意力网络(Dual ofMixture Attention network,DMA)41;采用第x-1个任务对模型训练后,将元学习器中的模型参数复制到学习器中θx-1,继续采用第x个任务(即task x)对DMA 41进行训练,首先学习更新学习器中模型参数,采用的参数更新公式如下:
Figure BDA0002711295400000111
其中,
Figure BDA0002711295400000112
是指在第x个任务中学习器的第y次更新的模型参数,
Figure BDA0002711295400000113
是指在第x个任务中学习器的第y-1次更新的模型参数,α表示学习器的学习率,
Figure BDA0002711295400000114
表示梯度,L表示损失函数,y的取值为1至th,th为次数阈值。在对学习器中模型参数进行th次更新之后,采用第th次的模型参数
Figure BDA0002711295400000115
来更新元学习器,元学习器的模型参数更新公式如下:
Figure BDA0002711295400000116
其中,θx是指在第x个任务中元学习器更新后的模型参数,θx-1是指在第x-1个任务中元学习器更新后的模型参数,β表示元学习器的学习率。
步骤207,获取本轮训练中视频样本对应的验证视频,通过验证视频对视频摘要生成模型进行模型评估,得到模型评估值。
上述视频样本对应的验证视频是从视频样本中提取得到的至少两个视频帧。示例性的,在从视频样本中提取得到至少两帧样本图像之后,可以将至少两帧样本划分为两个样本集合,一个样本集合用于作为训练样本集合,另一个样本集合用于作为验证视频。在每一轮训练中,当采用视频样本学习完成后,还采用该视频样本对应的验证视频对视频摘要生成模型进行模型评估,从而得到模型评估值(F-Score)。示例性的,模型评估值可以为F1,F1是指模型评估公式中参数值为1时的模型评估值。
步骤208,响应于模型评估值在本轮训练上未收敛,从所述获取视频样本的步骤开始下一轮训练。
在对视频摘要生成模型进行多轮训练之后,当本轮训练的模型评估值在收敛函数上还未收敛,重新获取一个视频样本来执行新任务,以对视频摘要生成模型继续训练,直至模型评估值收敛,执行步骤209。
步骤209,响应于模型评估值在本轮训练上收敛,完成对视频摘要生成模型的训练。
在对视频摘要生成模型进行多轮训练之后,当本轮训练的模型评估值在收敛函数上收敛,确定完成了对视频摘要生成模型的训练。需要说明的是,确定完成视频摘要生成模型的方式,还可以是对视频摘要生成模型的训练达到要求的迭代次数,比如,可以是对元学习器中模型参数更新的迭代次数达到了要求的迭代次数。
综上所述,本实施例提供的视频摘要生成模型的训练方法,采用了元学习策略来解决视频样本的数据库量小的问题,进而在视频样本少的情况下也能够对视频摘要生成模型进行充分地训练。该方法中还以一个视频样本作为一个任务,以一个任务对视频摘要生成模型进行一轮训练,也即采用了单视频元学习策略(Single-video meta learning),遵循了每个单独的视频拥有各自的潜在机制的规则,使得训练得到的视频摘要生成模型能够更准确地学习出不同机制下视频的视频摘要。
对于上述训练完成的视频摘要生成模型的应用说明,请参考图7,示出了本申请的一个示例性实施例提供的视频摘要生成方法的流程图,以该方法应用于服务器中为例,该方法包括:
步骤301,获取视频,从视频中确定出至少两帧图像。
服务器获取视频,示例性的,该视频可以是通过终端上传的视频;从上述视频中抽取出至少两帧图像,示例性的,对于上述至少两帧图像的抽取可以采用如下方式中的至少一种:
1)利用核时序分割的方式在时间上将整段视频分割成不相交的n段间隔视频,获取每段间隔视频中的中间帧,n为正整数。
2)仍是利用核时序分割的方式在时间上将整段视频分割成不相交的n段间隔视频,从每段间隔视频中随机抽取一帧图像。
3)按照设置的时间间隔从视频中抽取图像帧,比如,在整段视频中,从第一帧图像开始每间隔时长c抽取一帧图像,c为正整数。
步骤302,调用视频摘要生成模型分别对每一帧图像进行时间特征与空间特征的混合自注意力学习,得到图像在时间与空间上的混合特征向量。
服务器调用视频摘要生成模型从每一帧样本图像中提取时间特征图与空间特征图;调用视频摘要生成模型分别对时间特征图与空间特征图进行混合自注意力学习,得到时间特征向量与空间特征向量;调用视频摘要生成模型基于时间特征向量与空间特征向量生成混合特征向量。
可选地,上述视频摘要生成模型包括时间通道与空间通道,服务器将每一帧图像输入视频摘要生成模型的时间通道,得到图像的时间特征图;将每一帧图像输入视频摘要生成模型的空间通道,得到图像的空间特征图。可选地,上述时间通道是由Bi-LSTM构成的,上述空间通道是由深度卷积神经网络Deep CNNs构成的。
可选地,视频摘要生成模型中设置有至少两个混合自注意力层,至少两个混合自注意力层之间串行连接,上述至少两个混合自注意力层用于学习特征图的混合注意力分布;服务器将特征图输入上述至少两个混合自注意力层中,经由至少两个混合自注意力层的至少两次混合自注意力学习得到特征向量。
示例性的,混合自注意力层中设置有查询参数矩阵、键参数矩阵、值参数矩阵、以及辅助查询参数矩阵,混合自注意力层中还设置有归一化函数;服务器通过混合自注意力层将特征图分别与查询参数矩阵、键参数矩阵、值参数矩阵相乘,得到特征图对应的查询矩阵、键矩阵和值矩阵;通过混合自注意力层将查询矩阵与辅助查询参数矩阵相乘,得到特征图对应的辅助查询矩阵;通过混合自注意力层将查询矩阵与辅助查询矩阵分别与键矩阵相乘,得到特征图对应的注意力矩阵与辅助注意力矩阵;通过混合自注意力层中归一化函数将注意力矩阵与辅助注意力矩阵分布转换为注意力分布与辅助注意力分布;通过混合自注意力层将注意力分布与辅助注意力分布的转置矩阵相乘,得到混合注意力分布;通过混合自注意力层将混合注意力分布与键矩阵相乘,得到特征向量。
上述特征图是时间特征图或者空间特征图;当特征图是时间特征图时,上述特征向量为时间特征向量;当特征图是空间特征图时,上述特征向量为空间特征向量。
步骤303,调用视频摘要生成模型基于混合特征向量对图像进行评分,得到每一帧图像作为视频摘要的重要性评分。
服务器调用视频摘要生成模型基于混合特征向量对图像进行评分,以评价每一帧图像作为视频摘要的重要性,示例性的,视频摘要生成模型包括打分层,将上述混合特征向量输出打分层进行对图像进行评分。示例性的,上述打分层可以是由两层线性网络构成的,比如,上述线性网络可以是由softmax函数构成的。
步骤304,调用视频摘要生成模型基于重要性评分从至少两帧图像中确定出视频摘要。
示例性的,服务器调用视频摘要生成模型生成至少两帧图像的重要性评分的预测曲线,将预测曲线中峰值所在位置对应的图像确定为摘要图像,根据摘要图像生成视频摘要,比如,将摘要图像按照时序拼接生成视频摘要。示例性的,服务器还可以将上述预测曲线在时间上分段,将每一段上峰值所在位置对应的图像确定为摘要图像,根据摘要图像生成视频摘要。
综上所述,本实施例提供的视频摘要生成方法,采用视频摘要生成模型分别对样本图像在时间与空间上进行混合自注意力学习,也即分别专注于时间特征与空间特征的混合自注意力学习,使得模型能够更充分地捕捉视频的上下文信息,更优秀地学习视频摘要中每一帧图像的时序表达,最终输出上下文信息表达充分地、视频帧时序表达准确地视频摘要。
图8示出了本申请一个示例性实施例提供的视频摘要生成模型的训练装置的框图,该装置可以通过软件、硬件、或者二者结合实现成为服务器或者终端的部分或者全部,该装置中设置有视频摘要生成模型。该装置包括:
获取模块401,用于获取视频样本,从视频样本中确定出至少两帧样本图像,每一帧样本图像标注有参考评分,参考评分是指样本图像作为视频摘要的参考评分;
训练模块402,用于调用视频摘要生成模型分别对每一帧样本图像进行时间特征与空间特征的混合自注意力学习,得到样本图像在时间与空间上的混合特征向量;
训练模块402,用于调用视频摘要生成模型基于混合特征向量对样本图像进行评分,得到每一帧样本图像作为视频摘要的重要性评分;
训练模块402,用于基于参考评分与重要性评分之间的学习损失更新视频摘要生成模型中的模型参数,最终得到训练完成的视频摘要生成模型。
在一些实施例中,训练模块402,包括:
提取子模块4021,用于调用视频摘要生成模型从每一帧样本图像中提取出时间特征图与空间特征图;
学习子模块4022,用于调用视频摘要生成模型分别对时间特征图与空间特征图进行混合自注意力学习,得到时间特征向量与空间特征向量;
生成子模块4023,用于调用视频摘要生成模型基于时间特征向量与空间特征向量生成混合特征向量。
在一些实施例中,视频摘要生成模型包括时间通道与空间通道;
提取子模块4021,用于将每一帧样本图像输入时间通道,得到样本图像的时间特征图;将每一帧样本图像输入空间通道,得到样本图像的空间特征图。
在一些实施例中,视频摘要生成模型包括混合自注意力层;
学习子模块4022,用于通过混合自注意力层学习时间特征图的混合注意力分布,得到时间特征向量;通过混合自注意力层学习空间特征图的混合注意力分布,得到空间特征向量。
在一些实施例中,学习子模块4022,用于调用混合自注意力层从时间特征图中学习出时间特征图对应的查询矩阵、键矩阵、值矩阵、以及辅助查询矩阵;调用混合自注意力层将查询矩阵、辅助查询矩阵分别与键矩阵相乘,得到时间特征图对应的注意力矩阵与辅助注意力矩阵;调用混合自注意力层基于注意力矩阵、辅助注意力矩阵、以及值矩阵生成时间特征向量。
在一些实施例中,学习子模块4022,用于调用混合自注意力层从空间特征图中学习出空间特征图对应的查询矩阵、键矩阵、值矩阵、以及辅助查询矩阵;调用混合自注意力层将查询矩阵、辅助查询矩阵分别与键矩阵相乘,得到空间特征图对应的注意力矩阵与辅助注意力矩阵;调用混合自注意力层基于注意力矩阵、辅助注意力矩阵、以及值矩阵生成空间特征向量。
在一些实施例中,视频摘要生成模型中包括学习器与元学习器;训练模块402,用于:
基于参考评分与重要性评分之间的学习损失更新学习器中的模型参数,且记录本轮训练中学习器中模型参数的更新次数;
响应于学习器中模型参数的更新次数小于次数阈值,继续基于本轮训练中的至少两帧样本图像对学习器中的模型参数进行更新;响应于更新次数等于次数阈值,基于学习器中的模型参数更新元学习器中的模型参数;
获取本轮训练中视频样本对应的验证视频,通过验证视频对视频摘要生成模型进行模型评估,得到模型评估值;
响应于模型评估值在本轮训练上未收敛,从获取视频样本的步骤开始下一轮训练,直至模型评估值收敛,完成对视频摘要生成模型的训练。
综上所述,本实施例提供的视频摘要生成模型的训练装置,在模型训练的过程中,该视频摘要生成模型分别对样本图像在时间与空间上进行混合自注意力学习,也即分别专注于时间特征与空间特征的混合自注意力学习,使得模型能够更充分地捕捉视频的上下文信息,更优秀地学习视频摘要中每一帧图像的时序表达,最终训练完成的视频摘要生成模型能够在输入视频之后,输出上下文信息表达充分地、视频帧时序表达准确地视频摘要。
图9示出了本申请一个示例性实施例提供的视频摘要生成装置的框图,该装置可以通过软件、硬件、或者二者结合实现成为服务器或者终端的部分或者全部,该装置中设置有视频摘要生成模型。该装置包括:
获取模块501,用于获取视频,从视频中确定出至少两帧图像;
学习模块502,用于调用视频摘要生成模型分别对每一帧图像进行时间特征与空间特征的混合自注意力学习,得到图像在时间与空间上的混合特征向量;
学习模块502,用于调用视频摘要生成模型基于混合特征向量对图像进行评分,得到每一帧图像作为视频摘要的重要性评分;
学习模块502,用于调用视频摘要生成模型基于重要性评分从至少两帧图像中确定出视频摘要。
在一些实施例中,学习模块502,包括:
提取子模块5021,用于调用视频摘要生成模型从每一帧图像中提取出时间特征图与空间特征图;
学习子模块5022,用于调用视频摘要生成模型分别对时间特征图与空间特征图进行混合自注意力学习,得到时间特征向量与空间特征向量;
生成子模块5023,用于调用视频摘要生成模型基于时间特征向量与空间特征向量生成混合特征向量。
在一些实施例中,视频摘要生成模型包括时间通道与空间通道;
提取子模块5021,用于将每一帧图像输入时间通道,得到图像的时间特征图;将每一帧图像输入空间通道,得到图像的空间特征图。
在一些实施例中,视频摘要生成模型包括混合自注意力层;
学习子模块5022,用于通过混合自注意力层学习时间特征图的混合注意力分布,得到时间特征向量;通过混合自注意力层学习空间特征图的混合注意力分布,得到空间特征向量。
在一些实施例中,学习子模块5022,用于调用混合自注意力层从时间特征图中学习出时间特征图对应的查询矩阵、键矩阵、值矩阵、以及辅助查询矩阵;调用混合自注意力层将查询矩阵、辅助查询矩阵分别与键矩阵相乘,得到时间特征图对应的注意力矩阵与辅助注意力矩阵;调用混合自注意力层基于注意力矩阵、辅助注意力矩阵、以及值矩阵生成时间特征向量。
在一些实施例中,学习子模块5022,用于调用混合自注意力层从空间特征图中学习出空间特征图对应的查询矩阵、键矩阵、值矩阵、以及辅助查询矩阵;调用混合自注意力层将查询矩阵、辅助查询矩阵分别与键矩阵相乘,得到空间特征图对应的注意力矩阵与辅助注意力矩阵;调用混合自注意力层基于注意力矩阵、辅助注意力矩阵、以及值矩阵生成空间特征向量。
综上所述,本实施例提供的视频摘要生成装置,采用视频摘要生成模型分别对样本图像在时间与空间上进行混合自注意力学习,也即分别专注于时间特征与空间特征的混合自注意力学习,使得模型能够更充分地捕捉视频的上下文信息,更优秀地学习视频摘要中每一帧图像的时序表达,最终输出上下文信息表达充分地、视频帧时序表达准确地视频摘要。
图10示出了本申请一个示例性实施例提供的计算机设备的结构示意图。该计算机设备可以是执行如本申请提供的视频摘要生成模型的训练方法或者视频摘要生成方法的设备,该计算机设备可以是终端或者服务器。具体来讲:
计算机设备600包括中央处理单元(CPU,Central Processing Unit)601、包括随机存取存储器(RAM,Random Access Memory)602和只读存储器(ROM,Read Only Memory)603的系统存储器604,以及连接系统存储器604和中央处理单元601的系统总线605。计算机设备600还包括帮助计算机内的各个器件之间传输信息的基本输入/输出系统(I/O系统,Input Output System)606,和用于存储操作系统613、应用程序614和其他程序模块615的大容量存储设备607。
基本输入/输出系统606包括有用于显示信息的显示器608和用于用户输入信息的诸如鼠标、键盘之类的输入设备609。其中显示器608和输入设备609都通过连接到系统总线605的输入输出控制器610连接到中央处理单元601。基本输入/输出系统606还可以包括输入输出控制器610以用于接收和处理来自键盘、鼠标、或电子触控笔等多个其他设备的输入。类似地,输入输出控制器610还提供输出到显示屏、打印机或其他类型的输出设备。
大容量存储设备607通过连接到系统总线605的大容量存储控制器(未示出)连接到中央处理单元601。大容量存储设备607及其相关联的计算机可读介质为计算机设备600提供非易失性存储。也就是说,大容量存储设备607可以包括诸如硬盘或者紧凑型光盘只读存储器(CD-ROM,Compact Disc Read Only Memory)驱动器之类的计算机可读介质(未示出)。
计算机可读介质可以包括计算机存储介质和通信介质。计算机存储介质包括以用于存储诸如计算机可读指令、数据结构、程序模块或其他数据等信息的任何方法或技术实现的易失性和非易失性、可移动和不可移动介质。计算机存储介质包括RAM、ROM、可擦除可编程只读存储器(EPROM,Erasable Programmable Read Only Memory)、带电可擦可编程只读存储器(EEPROM,Electrically Erasable Programmable Read Only Memory)、闪存或其他固态存储其技术,CD-ROM、数字通用光盘(DVD,Digital Versatile Disc)或固态硬盘(SSD,Solid State Drives)、其他光学存储、磁带盒、磁带、磁盘存储或其他磁性存储设备。其中,随机存取记忆体可以包括电阻式随机存取记忆体(ReRAM,Resistance RandomAccess Memory)和动态随机存取存储器(DRAM,Dynamic Random Access Memory)。当然,本领域技术人员可知计算机存储介质不局限于上述几种。上述的系统存储器604和大容量存储设备607可以统称为存储器。
根据本申请的各种实施例,计算机设备600还可以通过诸如因特网等网络连接到网络上的远程计算机运行。也即计算机设备600可以通过连接在系统总线605上的网络接口单元611连接到网络612,或者说,也可以使用网络接口单元611来连接到其他类型的网络或远程计算机系统(未示出)。
上述存储器还包括一个或者一个以上的程序,一个或者一个以上程序存储于存储器中,被配置由CPU执行。
在一个可选的实施例中,提供了一种计算机设备,该计算机设备包括处理器和存储器,存储器中存储有至少一条指令、至少一段程序、代码集或指令集,至少一条指令、至少一段程序、代码集或指令集由处理器加载并执行以实现如上所述的视频摘要生成模型的训练方法,或者,视频摘要生成方法。
在一个可选的实施例中,提供了一种计算机可读存储介质,该存储介质中存储有至少一条指令、至少一段程序、代码集或指令集,至少一条指令、至少一段程序、代码集或指令集由处理器加载并执行以实现如上所述的视频摘要生成模型的训练方法,或者,视频摘要生成方法。
可选地,该计算机可读存储介质可以包括:只读存储器(ROM,Read Only Memory)、随机存取记忆体(RAM,Random Access Memory)、固态硬盘(SSD,Solid State Drives)或光盘等。其中,随机存取记忆体可以包括电阻式随机存取记忆体(ReRAM,Resistance RandomAccess Memory)和动态随机存取存储器(DRAM,Dynamic Random Access Memory)。上述本申请实施例序号仅仅为了描述,不代表实施例的优劣。
本领域普通技术人员可以理解实现上述实施例的全部或部分步骤可以通过硬件来完成,也可以通过程序来指令相关的硬件完成,所述的程序可以存储于一种计算机可读存储介质中,上述提到的存储介质可以是只读存储器,磁盘或光盘等。
本申请还提供一种计算机可读存储介质,该存储介质中存储有至少一条指令、至少一段程序、代码集或指令集,该至少一条指令、至少一段程序、代码集或指令集由处理器加载并执行以实现上述各方法实施例提供的视频摘要生成模型的训练方法,或者,视频摘要生成方法。
本申请还提供了一种计算机程序产品,上述计算机程序产品包括计算机指令,上述计算机指令存储在计算机可读存储介质中。计算机设备的处理器从上述计算机可读存储介质读取上述计算机指令,上述处理器执行上述计算机指令,使得上述计算机设备执行如上所述的视频摘要生成模型的训练方法,或者,视频摘要生成方法。
应当理解的是,在本文中提及的“多个”是指两个或两个以上。“和/或”,描述关联对象的关联关系,表示可以存在三种关系,例如,A和/或B,可以表示:单独存在A,同时存在A和B,单独存在B这三种情况。字符“/”一般表示前后关联对象是一种“或”的关系。
本领域普通技术人员可以理解实现上述实施例的全部或部分步骤可以通过硬件来完成,也可以通过程序来指令相关的硬件完成,所述的程序可以存储于一种计算机可读存储介质中,上述提到的存储介质可以是只读存储器,磁盘或光盘等。
以上所述仅为本申请的可选实施例,并不用以限制本申请,凡在本申请的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本申请的保护范围之内。

Claims (12)

1.一种视频摘要生成模型的训练方法,其特征在于,所述方法包括:
获取视频样本,从所述视频样本中确定出至少两帧样本图像,每一帧所述样本图像标注有参考评分,所述参考评分是指所述样本图像作为视频摘要的参考评分;
调用所述视频摘要生成模型分别对每一帧所述样本图像进行时间特征与空间特征的混合自注意力学习,得到所述样本图像在时间与空间上的混合特征向量;
调用所述视频摘要生成模型基于所述混合特征向量对所述样本图像进行评分,得到每一帧所述样本图像作为所述视频摘要的重要性评分;
基于所述参考评分与所述重要性评分之间的学习损失更新所述视频摘要生成模型中的模型参数,最终得到训练完成的视频摘要生成模型。
2.根据权利要求1所述的方法,其特征在于,所述调用所述视频摘要生成模型分别对每一帧所述样本图像进行时间特征与空间特征的混合自注意力学习,得到所述样本图像在时间与空间上的混合特征向量,包括:
调用所述视频摘要生成模型从每一帧所述样本图像中提取出时间特征图与空间特征图;
调用所述视频摘要生成模型分别对所述时间特征图与所述空间特征图进行混合自注意力学习,得到时间特征向量与空间特征向量;
调用所述视频摘要生成模型基于所述时间特征向量与所述空间特征向量生成所述混合特征向量。
3.根据权利要求2所述的方法,其特征在于,所述视频摘要生成模型包括时间通道与空间通道;
所述调用所述视频摘要生成模型从每一帧所述样本图像中提取出时间特征图与空间特征图,包括:
将每一帧所述样本图像输入所述时间通道,得到所述样本图像的所述时间特征图;
将每一帧所述样本图像输入所述空间通道,得到所述样本图像的所述空间特征图。
4.根据权利要求2或3所述的方法,其特征在于,所述视频摘要生成模型包括混合自注意力层;
所述调用所述视频摘要生成模型分别对所述时间特征图与所述空间特征图进行混合自注意力学习,得到时间特征向量与空间特征向量,包括:
通过所述混合自注意力层学习所述时间特征图的混合注意力分布,得到所述时间特征向量;
通过所述混合自注意力层学习所述空间特征图的混合注意力分布,得到所述空间特征向量。
5.根据权利要求4所述的方法,其特征在于,所述通过所述混合自注意力层学习所述时间特征图的混合注意力分布,得到所述时间特征向量,包括:
调用所述混合自注意力层从所述时间特征图中学习出所述时间特征图对应的查询矩阵、键矩阵、值矩阵、以及辅助查询矩阵;
调用所述混合自注意力层将所述查询矩阵、所述辅助查询矩阵分别与所述键矩阵相乘,得到所述时间特征图对应的注意力矩阵与辅助注意力矩阵;
调用所述混合自注意力层基于所述注意力矩阵、所述辅助注意力矩阵、以及所述值矩阵生成所述时间特征向量。
6.根据权利要求4所述的方法,其特征在于,所述通过所述混合自注意力层学习所述空间特征图的混合注意力分布,得到所述空间特征向量,包括:
调用所述混合自注意力层从所述空间特征图中学习出所述空间特征图对应的查询矩阵、键矩阵、值矩阵、以及辅助查询矩阵;
调用所述混合自注意力层将所述查询矩阵、所述辅助查询矩阵分别与所述键矩阵相乘,得到所述空间特征图对应的注意力矩阵与辅助注意力矩阵;
调用所述混合自注意力层基于所述注意力矩阵、所述辅助注意力矩阵、以及所述值矩阵生成所述空间特征向量。
7.根据权利要求1至6任一所述的方法,其特征在于,所述视频摘要生成模型中包括学习器与元学习器;
所述基于所述参考评分与所述重要性评分之间的学习损失更新所述视频摘要生成模型中的模型参数,最终得到训练完成的视频摘要生成模型,包括:
基于所述参考评分与所述重要性评分之间的学习损失更新所述学习器中的模型参数,且记录本轮训练中所述学习器中模型参数的更新次数;
响应于所述学习器中模型参数的更新次数小于次数阈值,继续基于本轮训练中的所述至少两帧样本图像对所述学习器中的模型参数进行更新;响应于所述更新次数等于所述次数阈值,基于所述学习器中的模型参数更新所述元学习器中的模型参数;
获取本轮训练中所述视频样本对应的验证视频,通过所述验证视频对所述视频摘要生成模型进行模型评估,得到模型评估值;
响应于所述模型评估值在本轮训练上未收敛,从所述获取视频样本的步骤开始下一轮训练,直至所述模型评估值收敛,完成对所述视频摘要生成模型的训练。
8.一种视频摘要生成方法,其特征在于,所述方法包括:
获取视频,从所述视频中确定出至少两帧图像;
调用视频摘要生成模型分别对每一帧所述图像进行时间特征与空间特征的混合自注意力学习,得到所述图像在时间与空间上的混合特征向量;
调用所述视频摘要生成模型基于所述混合特征向量对所述图像进行评分,得到每一帧所述图像作为所述视频摘要的重要性评分;
调用所述视频摘要生成模型基于所述重要性评分从所述至少两帧图像中确定出所述视频摘要。
9.一种视频摘要生成模型的训练装置,其特征在于,所述装置包括:
获取模块,用于获取视频样本,从所述视频样本中确定出至少两帧样本图像,每一帧所述样本图像标注有参考评分,所述参考评分是指所述样本图像作为视频摘要的参考评分;
训练模块,用于调用所述视频摘要生成模型分别对每一帧所述样本图像进行时间特征与空间特征的混合自注意力学习,得到所述样本图像在时间与空间上的混合特征向量;
所述训练模块,用于调用所述视频摘要生成模型基于所述混合特征向量对所述样本图像进行评分,得到每一帧所述样本图像作为所述视频摘要的重要性评分;
所述训练模块,用于基于所述参考评分与所述重要性评分之间的学习损失更新所述视频摘要生成模型中的模型参数,最终得到训练完成的视频摘要生成模型。
10.一种视频摘要生成装置,其特征在于,所述装置包括:
获取模块,用于获取视频,从所述视频中确定出至少两帧图像;
学习模块,用于调用视频摘要生成模型分别对每一帧所述图像进行时间特征与空间特征的混合自注意力学习,得到所述图像在时间与空间上的混合特征向量;
所述学习模块,用于调用所述视频摘要生成模型基于所述混合特征向量对所述图像进行评分,得到每一帧所述图像作为所述视频摘要的重要性评分;
所述学习模块,用于调用所述视频摘要生成模型基于所述重要性评分从所述至少两帧图像中确定出所述视频摘要。
11.一种计算机设备,其特征在于,所述计算机设备包括:处理器和存储器,所述存储器存储有计算机程序,所述计算机程序由所述处理器加载并执行以实现如权利要求1至7任一所述的视频摘要生成模型的训练方法,或者,如权利要求8所述的视频摘要生成方法。
12.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质中存储有计算机程序,所述计算机程序由处理器加载并执行以实现如权利要求1至7任一所述的视频摘要生成模型的训练方法,或者,如权利要求8所述的视频摘要生成方法。
CN202011057685.5A 2020-09-29 2020-09-29 视频摘要生成模型的训练方法、视频摘要生成方法及装置 Active CN112231516B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011057685.5A CN112231516B (zh) 2020-09-29 2020-09-29 视频摘要生成模型的训练方法、视频摘要生成方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011057685.5A CN112231516B (zh) 2020-09-29 2020-09-29 视频摘要生成模型的训练方法、视频摘要生成方法及装置

Publications (2)

Publication Number Publication Date
CN112231516A true CN112231516A (zh) 2021-01-15
CN112231516B CN112231516B (zh) 2024-02-27

Family

ID=74119773

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011057685.5A Active CN112231516B (zh) 2020-09-29 2020-09-29 视频摘要生成模型的训练方法、视频摘要生成方法及装置

Country Status (1)

Country Link
CN (1) CN112231516B (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113051430A (zh) * 2021-03-26 2021-06-29 北京达佳互联信息技术有限公司 模型训练方法、装置、电子设备、介质及产品
CN115695950A (zh) * 2023-01-04 2023-02-03 石家庄铁道大学 一种基于内容感知的视频摘要生成方法

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109086873A (zh) * 2018-08-01 2018-12-25 北京旷视科技有限公司 递归神经网络的训练方法、识别方法、装置及处理设备
CN110765921A (zh) * 2019-10-18 2020-02-07 北京工业大学 一种基于弱监督学习和视频时空特征的视频物体定位方法
US20200139973A1 (en) * 2018-11-01 2020-05-07 GM Global Technology Operations LLC Spatial and temporal attention-based deep reinforcement learning of hierarchical lane-change policies for controlling an autonomous vehicle
CN111241996A (zh) * 2020-01-09 2020-06-05 桂林电子科技大学 一种用于识别视频中人物动作的方法
CN111526434A (zh) * 2020-04-24 2020-08-11 西北工业大学 基于转换器的视频摘要方法

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109086873A (zh) * 2018-08-01 2018-12-25 北京旷视科技有限公司 递归神经网络的训练方法、识别方法、装置及处理设备
US20200139973A1 (en) * 2018-11-01 2020-05-07 GM Global Technology Operations LLC Spatial and temporal attention-based deep reinforcement learning of hierarchical lane-change policies for controlling an autonomous vehicle
CN110765921A (zh) * 2019-10-18 2020-02-07 北京工业大学 一种基于弱监督学习和视频时空特征的视频物体定位方法
CN111241996A (zh) * 2020-01-09 2020-06-05 桂林电子科技大学 一种用于识别视频中人物动作的方法
CN111526434A (zh) * 2020-04-24 2020-08-11 西北工业大学 基于转换器的视频摘要方法

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113051430A (zh) * 2021-03-26 2021-06-29 北京达佳互联信息技术有限公司 模型训练方法、装置、电子设备、介质及产品
CN113051430B (zh) * 2021-03-26 2024-03-26 北京达佳互联信息技术有限公司 模型训练方法、装置、电子设备、介质及产品
CN115695950A (zh) * 2023-01-04 2023-02-03 石家庄铁道大学 一种基于内容感知的视频摘要生成方法

Also Published As

Publication number Publication date
CN112231516B (zh) 2024-02-27

Similar Documents

Publication Publication Date Title
WO2022022152A1 (zh) 视频片段定位方法、装置、计算机设备及存储介质
CN112633419B (zh) 小样本学习方法、装置、电子设备和存储介质
CN110321958B (zh) 神经网络模型的训练方法、视频相似度确定方法
CN109040779B (zh) 字幕内容生成方法、装置、计算机设备及存储介质
CN112819686B (zh) 基于人工智能的图像风格处理方法、装置及电子设备
CN111666416B (zh) 用于生成语义匹配模型的方法和装置
CN113761261A (zh) 图像检索方法、装置、计算机可读介质及电子设备
CN112231516B (zh) 视频摘要生成模型的训练方法、视频摘要生成方法及装置
CN110674331A (zh) 信息处理方法、相关设备及计算机存储介质
CN114860892B (zh) 层次类目预测方法、装置、设备和介质
CN114417058A (zh) 一种视频素材的筛选方法、装置、计算机设备和存储介质
WO2021012691A1 (zh) 用于检索图像的方法和装置
CN112966754A (zh) 样本筛选方法、样本筛选装置及终端设备
CN117332766A (zh) 流程图生成方法、装置、计算机设备和存储介质
CN115129902B (zh) 媒体数据处理方法、装置、设备及存储介质
CN116883740A (zh) 相似图片识别方法、装置、电子设备和存储介质
CN115730142A (zh) 一种确定投放内容的方法、装置、计算机设备及存储介质
CN110377591A (zh) 训练数据清洗方法、装置、计算机设备及存储介质
CN113010687B (zh) 一种习题标签预测方法、装置、存储介质以及计算机设备
CN113569960B (zh) 基于域适应的小样本图像分类方法及系统
CN113821676A (zh) 视频检索方法、装置、设备及存储介质
CN114510592A (zh) 图像分类方法、装置、电子设备及存储介质
Wu et al. Knowing where and what to write in automated live video comments: A unified multi-task approach
CN112231546A (zh) 异构文档的排序方法、异构文档排序模型训练方法及装置
US11610606B1 (en) Retiming digital videos utilizing machine learning and temporally varying speeds

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant