CN110347872B - 视频封面图像提取方法及装置、存储介质及电子设备 - Google Patents
视频封面图像提取方法及装置、存储介质及电子设备 Download PDFInfo
- Publication number
- CN110347872B CN110347872B CN201910607614.9A CN201910607614A CN110347872B CN 110347872 B CN110347872 B CN 110347872B CN 201910607614 A CN201910607614 A CN 201910607614A CN 110347872 B CN110347872 B CN 110347872B
- Authority
- CN
- China
- Prior art keywords
- highlight
- information
- image
- video
- target video
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/70—Information retrieval; Database structures therefor; File system structures therefor of video data
- G06F16/74—Browsing; Visualisation therefor
- G06F16/743—Browsing; Visualisation therefor a collection of video files or sequences
Abstract
本公开提供一种视频封面图像提取方法及装置、电子设备、存储介质;涉及人工智能技术领域。所述视频封面图像提取方法包括:对目标视频的分帧图像进行精彩程度评估,获取用于表征各所述分帧图像的精彩程度的第一度量值;对所述目标视频进行精彩片段识别,获取所述目标视频中的精彩片段以及用于表征各所述精彩片段的精彩程度的第二度量值;对于各所述分帧图像,根据该所述分帧图像的第一度量值以及该所述分帧述图像所属精彩片段的第二度量值,计算该所述分帧图像的第三度量值;根据各所述分帧图像的第三度量值从所述视频中提取封面图像。本公开可以提升视频封面图像提取的准确性及稳定性。
Description
技术领域
本公开涉及人工智能技术领域,具体而言,涉及基于人工智能的一种视频封面图像提取方法、视频封面图像提取装置、电子设备以及计算机可读存储介质。
背景技术
随着科学技术和信息技术的进步,特别是计算机技术、网络技术和大容量存储技术的不断发展,目前互联网上已经生产了海量的视频数据。
在对视频进行展示时,一般会从视频中选取一个或多个分帧图像作为封面图像,以使用户通过封面图像对视频有初步了解。
现有技术中,有些方案是对视频中分帧图像单独进行简单评估,并根据评估结果从视频中自动挑选封面图像。但该方案的准确性以及稳定性仍存在一定的提升空间。
需要说明的是,在上述背景技术部分公开的信息仅用于加强对本公开的背景的理解,因此可以包括不构成对本领域普通技术人员已知的现有技术的信息。
发明内容
本公开实施例的目的在于提供一种视频封面图像提取方法、视频封面图像提取装置、电子设备以及计算机可读存储介质,进而至少在一定程度上提高视频封面图像提取的稳定性及准确性。
根据本公开的一个方面,提供一种视频封面图像提取方法,包括:
对目标视频的分帧图像进行精彩程度评估,获取用于表征各所述分帧图像的精彩程度的第一度量值;
对所述目标视频进行精彩片段识别,获取所述目标视频中的精彩片段以及用于表征各所述精彩片段的精彩程度的第二度量值;
对于各所述分帧图像,根据该所述分帧图像的第一度量值以及该所述分帧述图像所属精彩片段的第二度量值,计算该所述分帧图像的第三度量值;
根据各所述分帧图像的第三度量值从所述视频中提取封面图像。
在本公开的一种示例性实施例中,对目标视频的分帧图像进行精彩程度评估,包括:
将所述分帧图像输入至第一判别模型以通过所述第一判别模型确定所述分帧图像属于精彩图像的概率值,并将所述概率值作为所述第一度量值。
在本公开的一种示例性实施例中,所述方法还包括:
获取多条训练数据,各所述训练数据至少包含样本图像以及关于所述样本图像是否属于精彩图像的标注信息;
基于所述训练数据,对一机器学习模型进行训练,以得到所述第一判别模型。
在本公开的一种示例性实施例中,对所述目标视频进行精彩片段识别,包括:
基于所述目标视频的图像信息、光流信息、音频信息以及附属信息中的一种或多种,对所述目标视频进行精彩片段识别。
在本公开的一种示例性实施例中,对所述目标视频进行精彩片段识别,包括:
从所述目标视频中提取多个时刻的图像信息和音频信息;
根据所述多个时刻的图像信息和音频信息获取所述目标视频在各所述时刻的综合特征信息;
根据所述综合特征信息,对所述目标视频进行精彩片段识别。
在本公开的一种示例性实施例中,获取所述目标视频在各所述时刻的综合特征信息,包括:
对于各时刻的所述图像信息进行图像特征提取,得到所述目标视频在各时刻的第一特征信息;
对于各时刻的所述音频信息进行音频特征提取,得到所述目标视频在各时刻的第二特征信息;
融合各时刻的所述第一特征信息和第二特征信息,得到所述目标视频在各时刻的所述综合特征信息。
在本公开的一种示例性实施例中,融合所述第一特征信息和第二特征信息,包括:
对所述第一特征信息进行编码操作,得到第一编码信息;
对所述第二特征信息进行所述编码操作,得到第二编码信息;
合并所述第一特征信息和第二特征信息,得到第三特征信息,并对所述第三特征信息进行所述编码操作,得到第三编码信息;
合并所述第一编码信息、第二编码信息以及第三编码信息,得到所述综合特征信息。
在本公开的一种示例性实施例中,对所述目标视频进行精彩片段识别,包括:
将所有所述时刻的所述综合特征信息输入至第二判别模型,以通过所述第二判别模型确定各时刻属于精彩片段开始阶段的概率值、属于精彩片段结束阶段的概率值以及属于精彩片段中间阶段的概率值;
根据各所述概率值从各所述时刻中确定多个候选开始时刻以及多个候选结束时刻;
根据所述多个候选开始时刻以及候选结束时刻确定多个候选片段;
对各所述候选片段进行评估,并根据评估结果从所述多个所述候选片段中确定所述精彩片段以及对应的所述第二度量值。
在本公开的一种示例性实施例中,对各所述候选片段进行评估,包括:
获取多条训练数据,各所述训练数据至少包含样本片段以及该样本片段与其对应的精彩片段的时间交并比;
基于所述训练数据,对一机器学习模型进行训练,得到评估模型;
将所述候选片段输入所述评估模型以通过所述评估模型确定所述候选片段为精彩片段的概率。
在本公开的一种示例性实施例中,计算该所述分帧图像的第三度量值,包括:
对所述第一度量值和第二度量值进行相加,得到所述第三度量值;或者
对所述第一度量值和第二度量值进行乘积,得到所述第三度量值;或者
对所述第一度量值和第二度量值进行加权求和,得到所述第三度量值。
在本公开的一种示例性实施例中,根据各所述分帧图像的第三度量值从所述视频中提取封面图像,包括:
将所述第三度量值最高的一个或多个分帧图像作为所述封面图像。
根据本公开的一个方面,提供一种视频封面图像提取装置,包括:
图像评估模块,用于对目标视频的分帧图像进行精彩程度评估,获取用于表征各所述分帧图像的精彩程度的第一度量值;
视频评估模块,用于对所述目标视频进行精彩片段识别,获取所述目标视频中的精彩片段以及用于表征各所述精彩片段的精彩程度的第二度量值;
综合计算模块,用于对于各所述分帧图像,根据该所述分帧图像的第一度量值以及该所述分帧述图像所属精彩片段的第二度量值,计算该所述分帧图像的第三度量值;
封面提取模块,用于根据各所述分帧图像的第三度量值从所述视频中提取封面图像。
在本公开的一种示例性实施例中,所述图像评估模块通过下述方法对目标视频的分帧图像进行精彩程度评估:将所述分帧图像输入至第一判别模型以通过所述第一判别模型确定所述分帧图像属于精彩图像的概率值,并将所述概率值作为所述第一度量值。
在本公开的一种示例性实施例中,所述装置还包括:
第一模型训练模块,用于获取多条训练数据,各所述训练数据至少包含样本图像以及关于所述样本图像是否属于精彩图像的标注信息;基于所述训练数据,对一机器学习模型进行训练,以得到所述第一判别模型。
在本公开的一种示例性实施例中,所述视频评估模块通过下述方法对所述目标视频进行精彩片段识别:基于所述目标视频的图像信息、光流信息、音频信息以及附属信息中的一种或多种,对所述目标视频进行精彩片段识别。
在本公开的一种示例性实施例中,所述视频评估模块通过下述方法对所述目标视频进行精彩片段识别:从所述目标视频中提取多个时刻的图像信息和音频信息;根据所述多个时刻的图像信息和音频信息获取所述目标视频在各所述时刻的综合特征信息;根据所述综合特征信息,对所述目标视频进行精彩片段识别。
在本公开的一种示例性实施例中,所述视频评估模块通过下述方法获取所述目标视频在各所述时刻的综合特征信息包括:对于各时刻的所述图像信息进行图像特征提取,得到所述目标视频在各时刻的第一特征信息;对于各时刻的所述音频信息进行音频特征提取,得到所述目标视频在各时刻的第二特征信息;融合各时刻的所述第一特征信息和第二特征信息,得到所述目标视频在各时刻的所述综合特征信息。
在本公开的一种示例性实施例中,所述视频评估模块通过下述方法融合所述第一特征信息和第二特征信息:对所述第一特征信息进行编码操作,得到第一编码信息;对所述第二特征信息进行所述编码操作,得到第二编码信息;合并所述第一特征信息和第二特征信息,得到第三特征信息,并对所述第三特征信息进行所述编码操作,得到第三编码信息;合并所述第一编码信息、第二编码信息以及第三编码信息,得到所述综合特征信息。
在本公开的一种示例性实施例中,所述视频评估模块通过下述方法对所述目标视频进行精彩片段识别:将所有所述时刻的所述综合特征信息输入至第二判别模型,以通过所述第二判别模型确定各时刻属于精彩片段开始阶段的概率值、属于精彩片段结束阶段的概率值以及属于精彩片段中间阶段的概率值;根据各所述概率值从各所述时刻中确定多个候选开始时刻以及多个候选结束时刻;根据所述多个候选开始时刻以及候选结束时刻确定多个候选片段;对各所述候选片段进行评估,并根据评估结果从所述多个所述候选片段中确定所述精彩片段以及对应的所述第二度量值。
在本公开的一种示例性实施例中,所述视频评估模块通过下述方法对各所述候选片段进行评估:获取多条训练数据,各所述训练数据至少包含样本片段以及该样本片段与其对应的精彩片段的时间交并比;基于所述训练数据,对一机器学习模型进行训练,得到评估模型;将所述候选片段输入所述评估模型以通过所述评估模型确定所述候选片段为精彩片段的概率。
在本公开的一种示例性实施例中,所述综合计算模块通过下述方法计算该所述分帧图像的第三度量值:对所述第一度量值和第二度量值进行相加,得到所述第三度量值;或者对所述第一度量值和第二度量值进行乘积,得到所述第三度量值;或者对所述第一度量值和第二度量值进行加权求和,得到所述第三度量值。
在本公开的一种示例性实施例中,所述综合计算模块通过下述方法从所述视频中提取封面图像:将所述第三度量值最高的一个或多个分帧图像作为所述封面图像。
根据本公开的一个方面,提供一种电子设备,包括:处理器;以及存储器,用于存储所述处理器的可执行指令;其中,所述处理器配置为经由执行所述可执行指令来执行上述任意一项所述的方法。
根据本公开的一个方面,提供一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现上述任意一项所述的方法。
本公开示例性实施例可以具有以下部分或全部有益效果:
在公开示例实施方式所提供的视频封面图像提取方法中,分别对目标视频的各分帧图像的精彩程度单独评估,得到第一度量值;然后,识别目标视频中的精彩片段,并根据各分帧图像所属的精彩片段的精彩程度,得到第二度量值;最后,综合第一度量值和第二度量值判断各分帧图像是否可以作为封面图像。在该视频封面图像提取方法中,从多个维度对分帧图像进行评估,从而大幅度提高了封面图像提取的稳定性和准确性,同时具有更好的可解释性,进而可以通过封面图像较为准确的反映目标视频的精彩程度,提高用户的信息获取效率以及更好的引导用户找到其所想看的视频内容。
应当理解的是,以上的一般描述和后文的细节描述仅是示例性和解释性的,并不能限制本公开。
附图说明
此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本公开的实施例,并与说明书一起用于解释本公开的原理。显而易见地,下面描述中的附图仅仅是本公开的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1示出了可以应用本公开实施例的一种视频封面图像提取方法及装置的示例性系统架构的示意图;
图2示出了适于用来实现本公开实施例的电子设备的计算机系统的结构示意图;
图3示意性示出了根据本公开的一个实施例的视频封面图像提取方法的流程图;
图4示意性示出了根据本公开的一个实施例中精彩片段识别过程的流程图;
图5示意性示出了根据本公开的一个实施例中综合特征信息提取过程的流程图;
图6示意性示出了根据本公开的一个实施例中特征信息融合的流程图;
图7示意性示出了根据本公开的一个实施例中精彩片段识别过程的流程图;
图8示意性示出了根据本公开的一个实施例中候选片段评估过程的流程图;
图9A示出了通过现有技术为某一游戏视频选取的封面图像。
图9B示出了通过本公开一实施例中方法为某一游戏视频选取的封面图像。
图10A示出了通过现有技术为某一游戏视频选取的封面图像。
图10B示出了通过本公开一实施例中方法为某一游戏视频选取的封面图像。
图11示意性示出了根据本公开的一个实施例的视频封面图像提取装置的框图。
具体实施方式
现在将参考附图更全面地描述示例实施方式。然而,示例实施方式能够以多种形式实施,且不应被理解为限于在此阐述的范例;相反,提供这些实施方式使得本公开将更加全面和完整,并将示例实施方式的构思全面地传达给本领域的技术人员。所描述的特征、结构或特性可以以任何合适的方式结合在一个或更多实施方式中。在下面的描述中,提供许多具体细节从而给出对本公开的实施方式的充分理解。然而,本领域技术人员将意识到,可以实践本公开的技术方案而省略所述特定细节中的一个或更多,或者可以采用其它的方法、组元、装置、步骤等。在其它情况下,不详细示出或描述公知技术方案以避免喧宾夺主而使得本公开的各方面变得模糊。
此外,附图仅为本公开的示意性图解,并非一定是按比例绘制。图中相同的附图标记表示相同或类似的部分,因而将省略对它们的重复描述。附图中所示的一些方框图是功能实体,不一定必须与物理或逻辑上独立的实体相对应。可以采用软件形式来实现这些功能实体,或在一个或多个硬件模块或集成电路中实现这些功能实体,或在不同网络和/或处理器装置和/或微控制器装置中实现这些功能实体。
图1示出了可以应用本公开实施例的一种视频封面图像提取方法及装置的示例性应用环境的系统架构的示意图。
如图1所示,系统架构100可以包括终端设备101、102、103中的一个或多个,网络104和服务器105。网络104用以在终端设备101、102、103和服务器105之间提供通信链路的介质。网络104可以包括各种连接类型,例如有线、无线通信链路或者光纤电缆等等。终端设备101、102、103可以是具有显示屏的各种电子设备,包括但不限于台式计算机、便携式计算机、智能手机和平板电脑等等。应该理解,图1中的终端设备、网络和服务器的数目仅仅是示意性的。根据实现需要,可以具有任意数目的终端设备、网络和服务器。比如服务器105可以是多个服务器组成的服务器集群等。
本公开实施例所提供的视频封面图像提取方法一般由服务器105执行,相应地,视频封面图像提取装置一般设置于服务器105中。但本领域技术人员容易理解的是,本公开实施例所提供的视频封面图像提取方法也可以由终端设备101、102、103执行,相应的,视频封面图像提取装置也可以设置于终端设备101、102、103中,本示例性实施例中对此不做特殊限定。
图2示出了适于用来实现本公开实施例的电子设备的计算机系统的结构示意图。
需要说明的是,图2示出的电子设备的计算机系统200仅是一个示例,不应对本公开实施例的功能和使用范围带来任何限制。
如图2所示,计算机系统200包括中央处理单元(CPU)201,其可以根据存储在只读存储器(ROM)202中的程序或者从存储部分208加载到随机访问存储器(RAM)203中的程序而执行各种适当的动作和处理。在RAM 203中,还存储有系统操作所需的各种程序和数据。CPU201、ROM 202以及RAM 203通过总线204彼此相连。输入/输出(I/O)接口205也连接至总线204。
以下部件连接至I/O接口205:包括键盘、鼠标等的输入部分206;包括诸如阴极射线管(CRT)、液晶显示器(LCD)等以及扬声器等的输出部分207;包括硬盘等的存储部分208;以及包括诸如LAN卡、调制解调器等的网络接口卡的通信部分209。通信部分209经由诸如因特网的网络执行通信处理。驱动器210也根据需要连接至I/O接口205。可拆卸介质211,诸如磁盘、光盘、磁光盘、半导体存储器等等,根据需要安装在驱动器210上,以便于从其上读出的计算机程序根据需要被安装入存储部分208。
特别地,根据本公开的实施例,下文参考流程图描述的过程可以被实现为计算机软件程序。例如,本公开的实施例包括一种计算机程序产品,其包括承载在计算机可读介质上的计算机程序,该计算机程序包含用于执行流程图所示的方法的程序代码。在这样的实施例中,该计算机程序可以通过通信部分209从网络上被下载和安装,和/或从可拆卸介质211被安装。在该计算机程序被中央处理单元(CPU)201执行时,执行本申请的方法和装置中限定的各种功能。在一些实施例中,计算机系统200还可以包括AI(ArtificialIntelligence,人工智能)处理器,该AI处理器用于处理有关机器学习的计算操作。
以下对本公开实施例的技术方案进行详细阐述:
本示例实施方式提供了一种视频封面图像提取方法。该视频封面图像提取方法可以应用于上述服务器105,也可以应用于上述终端设备101、102、103中的一个或多个,本示例性实施例中对此不做特殊限定。参考图3所示,该视频封面图像提取方法可以包括以下步骤:
步骤S310.对目标视频的分帧图像进行精彩程度评估,获取用于表征各所述分帧图像的精彩程度的第一度量值;
步骤S320.对所述目标视频进行精彩片段识别,获取所述目标视频中的精彩片段以及用于表征各所述精彩片段的精彩程度的第二度量值;
步骤S330.对于各所述分帧图像,根据该所述分帧图像的第一度量值以及该所述分帧述图像所属精彩片段的第二度量值,计算该所述分帧图像的第三度量值;
步骤S340.根据各所述分帧图像的第三度量值从所述视频中提取封面图像。
在本示例实施方式所提供的视频封面图像提取方法中,根据表征各所述分帧图像的精彩程度的第一度量值,和表征各所述精彩片段的精彩程度的第二度量值,从多个维度对分帧图像进行评估,从而大幅度提高了封面图像提取的稳定性和准确性,同时具有更好的可解释性,进而可以通过封面图像较为准确的反映目标视频的精彩程度,提高用户的信息获取效率以及更好的引导用户找到其所想看的视频内容。
下面,在另一实施例中,对上述步骤进行更加详细的说明。
在步骤S310中,对目标视频的分帧图像进行精彩程度评估,获取用于表征各所述分帧图像的精彩程度的第一度量值。
本示例实施方式中,所述目标视频由一系列按照时间顺序排列的分帧图像组成;此外,目标视频还可以包括音频信息以及附属信息;所述附属信息例如可以为视频标题信息、视频分类信息、视频标签信息、字幕信息以及弹幕信息等。根据内容,目标视频可以为游戏视频、体育视频、影视视频、小视频、综艺视频、MV(Music Video)视频等;根据类型,目标视频可以为互联网视频,也可以为本地视频;本示例性实施例中对这些均不做特殊限定。
本示例实施方式中,精彩程度是一个相对的概念,可以用于反映分帧图像或者视频片段对于用户的注意力刺激程度、用于用户的引导力度、本身的信息丰富度或者对于视频内容的代表性等。本示例实施方式中,可以将所述分帧图像输入至第一判别模型以通过所述第一判别模型确定所述分帧图像属于精彩图像的概率值,并将所述概率值作为所述第一度量值。举例而言:
首先,获取多条训练数据,各所述训练数据至少包含样本图像以及关于所述样本图像是否属于精彩图像的标注信息。例如,可以参考主观感受到刺激程度以及美观程度等因素,人工判断样本图像是否为精彩图像,并将人工判断得到的精彩图像作为正样本,将其他图像作为负样本。
然后,基于所述训练数据,对一机器学习模型进行训练,以得到所述第一判别模型。本示例实施方式中,该机器学习模型可以为卷积神经网络模型,例如可以为ResNet(残差卷积神经网络)模型、LeNet-5模型、AlexNet模型等。在训练过程中,将训练数据输入至卷积神经网络模型之后,将卷积神经网络模型的输出结果与对应的标注信息进行比对,并根据比对结果利用反向传播算法对卷积神经网络模型中卷积核的元素值、全连接层中的系数等参数进行优化,最终得到本示例实施方式中所需要的第一判别模型。
接着,将目标视频的各个分帧图像分别输入至上述步骤训练得到的第一判别模型,该第一判别模型即可通过前向传播输出各个分帧图像为精彩图像的概率值,进而可以将所述概率值作为所述第一度量值供后续使用。当然,在本公开的其他示例性实施例中,上述机器学习模型也可以为RNN(Recurrent Neural Network,循环神经网络)模型、随机森林模型、SVM(Support Vector Machine,支持向量机)模型等其他分类模型框架,且本示例性实施例中并不以此为限。
在步骤S320中,对所述目标视频进行精彩片段识别,获取所述目标视频中的精彩片段以及用于表征各所述精彩片段的精彩程度的第二度量值。
本示例性实施例中,可以基于多种信息,利用时序动作定位方法来捕捉目标视频中的精彩片段;根据目标视频类型的不同,例如在游戏视频中,所述精彩片段例如可以为单杀片段、爆头片段、漂移片段、射门片段、盖帽片段、跳舞片段等。
举例而言,本示例实施方式中可以基于所述目标视频的图像信息、光流信息、音频信息以及附属信息中的一种或多种,对所述目标视频进行精彩片段识别。其中,所述光流信息用于描述三维的运动点投影到二维图像之后相应的投影点的运行情况;所述附属信息例如可以为视频标题信息、视频分类信息、视频标签信息、字幕信息以及弹幕信息等。此外,在本公开的其他示例性实施例中,还可以基于目标视频的其他信息,如密集轨迹信息等,对所述目标视频进行精彩片段识别;本示例性实施例中对此不做特殊限定。
进一步的,考虑到光流信息的提取运算的复杂度且其表达能力与图像信息有较多重合部分,同时,附属信息可能在特定的场景才能准确传达目标视频的内在信息;因此,本示例实施方式中,将以基于目标视频的图像信息和音频信息对所述目标视频进行精彩片段识别为例进行说明。其中,图像信息和音频信息均可以给出每一个时刻目标视频的信息,且两者之间可以互为补充,更加有利于判断各时刻是否属于精彩片段。
参考图4所示,可以通过下述步骤S410至步骤S430对所述目标视频进行精彩片段识别:
在步骤S410中,从所述目标视频中提取多个时刻的图像信息和音频信息。举例而言:
所述图像信息可以是每间隔预设时长,从所述目标视频中提取的分帧图像。所述预设时长可以是固定时长,如0.5秒、1秒、2秒等;例如,可以每间隔1秒从所述目标视频中提取的一个分帧图像作为上述图像信息;相应的,所述多个时刻即第0秒、第1秒、第2秒等。所述预设时长也可以是根据目标视频的长度确定,例如,预设时长可以与目标视频的长度正相关。例如,假设第一目标视频的总时长为300秒,第二目标视频的总时长为600秒,可以每隔3秒从第一目标视频中提取一个分帧图像作为上述图像信息,相应的,所述多个时刻即第0秒、第3秒、第6秒等;可以每隔5秒从第二目标视频中提取一个分帧图像作为上述图像信息,相应的,所述多个时刻即第0秒、第5秒、第10秒等。当然,在本公开的其他示例性实施例中,上述多个时刻也可以通过其他方式确定,例如,随机选取等;本示例性实施例中对此不做特殊限定。
上述音频信息可以是,从目标视频中提取到与目标视频时长相同的WAV(WindowsMedia Audio,微软公司推出的一种音频格式)等格式的音频文件后,在所述音频文件中每隔上述预设时长提取到的声道数、采样位数和采样频率等信息;当然,本领域技术人员容易理解的是,根据音频文件格式的不同,提取到的信息也可能存在不同。此外,对于所述预设时长,已经在上文进行了详细说明,因此此处不再赘述。
在步骤S420中,根据所述多个时刻的图像信息和音频信息获取所述目标视频在各所述时刻的综合特征信息。举例而言,参考图5所示,本示例实施方式中,该步骤可以包括如下子步骤S510至子步骤S520。其中:
在步骤S510中,对于各时刻的所述图像信息进行图像特征提取,得到所述目标视频在各时刻的第一特征信息。举例而言,对于每一所述时刻的所述图像信息,可以利用深度卷积网络进行特征提取,得到对应各个时刻的多维向量特征,然后将这些多维向量特征按照时间顺序排列,形成具有更加丰富的语义性的特征矩阵。例如,以所述深度卷积网络是ResNet50模型为例,ResNet50模型训练于百万数据量的ImageNet数据集(一个大型可视化数据库),其深层特征具有丰富的图像语义信息;本示例实施方式中,可以将各时刻的所述图像信息输入至ResNet50模型,通过前向传播运算得到Pool5层的2048维向量特征,作为各时刻的第一特征信息;然后,将这些2048维向量特征按照时间顺序排列形成特征矩阵,以便后续计算。
在步骤S520中,对于各时刻的所述音频信息进行音频特征提取,得到所述目标视频在各时刻的第二特征信息。举例而言,对于各所述时刻的音频信息,可以获取其梅尔频率倒谱系数(Mel Frequency Cepstral Coefficents,MFCC)特征矩阵,如该特征矩阵可以为96*60的矩阵;对于每个特征矩阵可以进一步利用深度卷积网络进行特征提取,得到对应各个时刻的卷积特征矩阵,然后将卷积特征矩阵拉平为与上述第一特征信息维数相同的向量特征,作为各时刻的第一特征信息。例如,以所述深度卷积网络是Vggish模型为例,Vggish模型训练于谷歌发行的大规模音频数据集AudioSet,其深层特征同样具有丰富的音频语义信息。本示例实施方式中,可以将各时刻的所述音频信息的梅尔频率倒谱系数特征矩阵输入至Vggish模型,通过前向传播运算得到卷积特征矩阵,然后将其拉平为2048维向量特征,作为各时刻的第二特征信息;最后,将这些2048维向量特征按照时间顺序排列形成特征矩阵,以便后续计算。
此外,如果通用的模型提取的特征信息不能体现目标视频的特点,本示例实施方式中还可以利用时序动作定位的标注,将各所述时刻人工分为“正样本时刻”和“负样本时刻”得到训练数据,然后基于训练数据对通用模型进行微调,从而使得微调后的模型能够提取到可以更好的体现出目标视频的特点的特征信息。
在步骤S530中,融合各时刻的所述第一特征信息和第二特征信息,得到所述目标视频在各时刻的所述综合特征信息。举例而言,参考图6所示,本示例实施方式中可以通过如下步骤S610至步骤S630对第一特征信息和第二特征信息进行融合。其中:
在步骤S610中,对所述第一特征信息进行编码操作,得到第一编码信息。本示例实施方式中,所述编码操作可以是采用堆积的时序卷积(如Conv1D等)对所有第一特征信息排列组成的特征矩阵进行卷积操作,得到第一编码信息;第一编码信息同样为矩阵形式。举例来说,针对100个分帧图像,每个分帧图像的特征为4096维的向量,则100个分帧图像的第一特征信息可以按照时间顺序排列形成4096×100维矩阵,此时,可以基于一个或多个卷积核进行一次或多次一维卷积操作,将4096×100维矩阵压缩成为如256×100维矩阵,卷积操作得到矩阵中的每列数据均可以表示一个分帧图像的特征信息且整体矩阵具有时间维度的语义;当然,在本公开的其他示例性实施例中,也可以对第一编码信息进行其他方式的编码操作,以降低后续运算量,本示例性实施例中并不以此为限。
在步骤S620中,对所述第二特征信息进行所述编码操作,得到第二编码信息。本示例实施方式中,对于第一特征信息和第二特征信息的编码操作需要一致,以确保第一编码信息、第二编码信息的行列数目相同。
在步骤S630中,合并所述第一特征信息和第二特征信息,得到第三特征信息,并对所述第三特征信息进行所述编码操作,得到第三编码信息。本示例实施方式中,可以将矩阵形式的第一特征信息和第二特征信息中相同位置的数据进行求和、取最大值、求平均值、求乘积或者其他运算,从而实现第一特征信息和第二特征信息的合并,得到第三特征信息。本示例实施方式中,对于第一特征信息、第二特征信息以及第三特征信息的编码操作需要一致,以确保第一编码信息、第二编码信息以及第三特征信息的行列数目相同。
在步骤S640中,合并所述第一编码信息、第二编码信息以及第三编码信息,得到所述综合特征信息。本示例实施方式中,可以将矩阵形式的第一编码信息、第二编码信息以及第三编码信息中相同位置的数据进行求和、取最大值、求平均值、求乘积或者其他运算,从而实现第一编码信息、第二编码信息以及第三编码信息的合并,得到所述综合特征信息。
在上述示例性实施例中,通过对于目标视频的图像信息相关的特征和音频信息相关的特征进行融合,得到的是多模态的综合特征信息;同时,由于采用了相同的编码方式,综合特征信息也捕获了原始的图像信息相关的特征和音频信息相关的特征在时间维度上的关系。此外,仅使用图像信息和音频信息,而放弃其他信息,可以在保证效果的前提下尽可能提高处理速度,从而增强本示例实施方式中方法的实用性。
在步骤S430中,根据所述综合特征信息,对所述目标视频进行精彩片段识别。举例而言,参考图7所示,本示例实施方式中可以通过如下步骤S710至步骤S730对所述目标视频进行精彩片段识别。其中:
在步骤S710中,将所有所述时刻的所述综合特征信息输入至第二判别模型,以通过所述第二判别模型确定各时刻属于精彩片段开始阶段的概率值、属于精彩片段结束阶段的概率值以及属于精彩片段中间阶段的概率值。
本示例实施方式中,可以将精彩片段分为上述开始阶段、结束阶段以及位于开始阶段和结束阶段之间的中间阶段。其中,由于精彩片段的起始点周围的一段区间往往也可以作为起始点,因此,本示例实施方式中的开始阶段可以指一个连续的时间区间;其中,开始阶段的时长可以是固定时长,例如为2秒、3秒等,也可以根据精彩片段的时长确定,例如,精彩片段时长的15%、20%等;结束阶段同理。其中,开始阶段和结束阶段的长度可以是固定长度,也可以是变化的长度,例如,开始阶段和结束阶段的长度与中间阶段的长度正相关(如成正比)等。对于一个具体的所述时刻,其要么属于开始阶段要么不属于开始阶段,因此可以通过第二判别模型评估该时刻属于开始阶段的概率;同样的,也可以通过第二判别模型评估该时刻属于中间阶段以及结束阶段的概率。
举例而言,可以对一堆叠时序卷积网络进行训练,得到可以处理上述三个分类问题的第二判别模型;接着,可以将所有时刻的所述综合特征信息输入至训练好的堆叠时序卷积网络中,通过该堆叠时序卷积网络输出三个长度和所述综合特征信息相等的多维向量。其中,一个所述多维向量中的第i个分量用于表示第i个所述时刻属于精彩片段中间阶段的概率值;一个所述多维向量中的第i个分量用于表示第i个所述时刻属于精彩片段开始阶段的概率值;一个所述多维向量中的第i个分量用于表示第i个所述时刻属于精彩片段结束阶段的概率值。此外,在本公开的其他示例性实施例中,所述第二判别模型也可以为RNN模型、LSTM(Long Short Term Memory,长短期记忆网络)模型等其他分类模型框架,且本示例性实施例中并不以此为限。
在步骤S720中,根据各所述概率值从各所述时刻中确定多个候选开始时刻以及多个候选结束时刻。举例而言,如果一个所述时刻属于精彩片段开始阶段的概率值大于其相邻时刻属于精彩片段开始阶段的概率值,并且,所述时刻属于精彩片段开始阶段的概率值在所有时刻中排名靠前,则可以将该所述时刻作为候选开始时刻。例如,对于时刻Tn而言,其前一时刻为时刻Tn-1,其后一时刻为时刻Tn+1;如果时刻Tn属于精彩片段开始阶段的概率值大于时刻Tn-1和时刻Tn+1属于精彩片段开始阶段的概率值,同时,时刻Tn属于精彩片段开始阶段的概率值在所有时刻中属于前30%或者其他预设比例,则可以将时刻Tn作为候选开始时刻。同理,可以确定各所述候选结束时刻。但本领域技术人员容易理解的是,在本公开的其他示例性实施例中,也可以根据其他规则确定候选开始时刻以及候选结束时刻,本示例性实施例中对此不做特殊限定。
在步骤S730中,根据所述多个候选开始时刻以及候选结束时刻确定多个候选片段。本示例实施方式中可以将所有候选开始时刻和候选结束时刻两两组合形成多个提名;然后,从所述多个提名中筛选出候选片段。举例而言,首先删除候选开始时刻晚于候选结束时刻的提名;接着,根据得分对剩余提名进行排序,从中筛选中排名靠前(例如前N名)的提名作为候选片段;例如,可以根据提名中候选开始时刻对应的概率值和候选结束时刻对应的概率值,计算该提名的得分;计算方式可以是计算两个所述概率值的乘积、总和值或者平均值等。当然,在本公开的其他示例性实施例中,也可以根据其他规则确定候选片段,这同样属于本公开的保护范围。
在步骤S740中,对各所述候选片段进行评估,并根据评估结果从所述多个所述候选片段中确定所述精彩片段以及对应的所述第二度量值。举例而言,参考图8所示,本示例实施方式中可以通过如下步骤S810至步骤S830对各所述候选片段进行评估。其中:
在步骤S810中,获取多条训练数据,各所述训练数据至少包含样本片段以及该样本片段与其对应的精彩片段的时间交并比。例如,样本片段的时长为100秒,精彩片段的时长为150秒,两者共同包括的重叠片段的时长为80秒,则该样本片段与其对应的精彩片段的时间交并比为47.06%。
在步骤S820中,基于所述训练数据,对一机器学习模型进行训练,得到评估模型。本示例实施方式中,可以首先获取样本片段包括的各时刻的特征信息;例如,可以获取样本片段包括的图像信息以及视频信息,并基于上述步骤420中的方法获取样本片段各时刻的特征信息。以所述机器学习模型为时序卷积和全连接模块叠放的网络为例,可以样本片段各时刻的特征信息输入至时序卷积模块进行特征变换,并在全连接模块使用若干维数相同的向量与时序卷积模块输出的特征做内积操作,然后通过归一化指数层或者其他输出层输出计算得到的交并比;最后,基于机器学习模型输出的交并比与实际交并比的比对结果,利用反向传播算法对机器学习模型中卷积核的元素值、全连接层中的系数等参数进行优化,最终得到本示例实施方式中所需要的评估模型。
在步骤S830中,将所述候选片段输入所述评估模型以通过所述评估模型确定所述候选片段为精彩片段的概率。本示例实施方式中,可以首先获取候选片段包括的各时刻的特征信息;例如,可以获取候选片段包括的图像信息以及视频信息,并基于上述步骤420中的方法获取候选片段各时刻的特征信息。此外,由于上述步骤420中是采用深度卷积网络对目标视频进行的特征提取,而深度卷积网络的任意一中间层的特征都可以代表整体视频的每一时刻;因此,可以从上述步骤S420中的深度卷积网络的任意中间层直接获取候选片段各时刻的特征信息;之后,将候选片段各时刻的特征信息输入至训练好的评估模型,以输出计算得到的交并比并将所述交并比作为所述候选片段为精彩片段的概率值。最后,可以选取概率值最高的一个或多个候选片段作为精彩片段,并将对应的所述概率值作为表征各所述精彩片段的精彩程度的第二度量值。
在步骤S330中,对于各所述分帧图像,根据该所述分帧图像的第一度量值以及该所述分帧述图像所属精彩片段的第二度量值,计算该所述分帧图像的第三度量值。
本示例实施方式中,首先确定各所述分帧图像是否属于一精彩片段,如果其不属于任意一个精彩片段,则可以认为其第二度量值为零;如果其属于某一精彩片段,则可以获取其所属精彩片段的第二度量值。然后,可以根据实际应用需求,计算该所述分帧图像的第三度量值;例如,可以对所述第一度量值和第二度量值进行相加,得到所述第三度量值;或者对所述第一度量值和第二度量值进行乘积,得到所述第三度量值;或者对所述第一度量值和第二度量值进行加权求和,得到所述第三度量值,其中加权所需的权重值可以根据经验或者实验获得。当然,在本公开的其他示例性实施例中,也可以对第一度量值和第二度量值进行其他运算得到所述第三度量值,这同样属于本公开的保护范围。
在步骤S340中,根据各所述分帧图像的第三度量值从所述视频中提取封面图像。举例而言,可以将所述第三度量值最高的一个分帧图像作为所述封面图像;或者,将所述第三度量值最高的多个分帧图像作为所述封面图像,例如,根据第三度量值对各分帧图像进行排序,并选择排名靠前的N个分帧图像作为封面图像等。
在上述示例性实施例中的视频封面图像提取方法中,分别对目标视频的各分帧图像的精彩程度单独评估,得到第一度量值;然后,识别目标视频中的精彩片段,并根据各分帧图像所属的精彩片段的精彩程度,得到第二度量值;最后,综合第一度量值和第二度量值判断各分帧图像是否可以作为封面图像。一方面,本示例实施方式中的方法从多个维度对分帧图像进行评估,从而大幅度提高了封面图像提取的稳定性和准确性,同时具有更好的可解释性。另一方面,相比于现有技术,本示例实施方式中的视频封面图像提取方法的处理速度更快,例如,可以达到20倍实时(如目标视频时长20分钟,则处理时间仅需1分钟)。进而,由于本示例实施方式中的视频封面图像提取方法提取的封面图像能够较为准确的反映目标视频的精彩程度,因此可以更好的引导用户点击目标视频;对此,发明人进行如下实验验证:
参考图9A所示,是通过现有技术为某一游戏视频选取的封面图像。在对该游戏视频的各分帧图像进行精彩程度评估之后,可以得到用于表征各分帧图像的精彩程度的第一度量值;同时,对该游戏视频进行精彩片段识别获取其中的精彩片段以及用于表征各精彩片段的精彩程度的第二度量值;然后,对于各分帧图像,根据该分帧图像的第一度量值及该分帧述图像所属精彩片段的第二度量值,计算该分帧图像的第三度量值;接着,根据第三度量值对各分帧图像进行排序并选取出排名最高的分帧图像;最后,将选取出的分帧图像输出并作为封面图像显示,具体如图9B所示。可以看出,图9A中的封面图像显示的是游戏开始阶段,并无特殊事件发生;图9B中的封面图像显示的是多个玩家激烈交战的场景,精彩程度显然相比图9A更高。类似的,图10A和图10B分别是通过现有技术和本示例实施方式中的方案,为另一游戏视频提取的封面图像;同样可以看出,图10B中的场景相比图10A更加精彩。经过统计,这该类视频中,通过本示例实施方式中的方法提取封面图像,将视频点击率提升了近4成。
应当注意,尽管在附图中以特定顺序描述了本公开中方法的各个步骤,但是,这并非要求或者暗示必须按照该特定顺序来执行这些步骤,或是必须执行全部所示的步骤才能实现期望的结果。附加的或备选的,可以省略某些步骤,将多个步骤合并为一个步骤执行,以及/或者将一个步骤分解为多个步骤执行等。
进一步的,本示例实施方式中,还提供了基于人工智能的一种视频封面图像提取装置。该视频封面图像提取装置可以应用于一服务器或终端设备。参考图11所示,该视频封面图像提取装置1100可以包括图像评估模块1110、视频评估模块1120、综合计算模块1130以及封面提取模块1140。其中:
图像评估模块1110可以用于对目标视频的分帧图像进行精彩程度评估,获取用于表征各所述分帧图像的精彩程度的第一度量值;视频评估模块1120可以用于对所述目标视频进行精彩片段识别,获取所述目标视频中的精彩片段以及用于表征各所述精彩片段的精彩程度的第二度量值;综合计算模块1130可以用于对于各所述分帧图像,根据该所述分帧图像的第一度量值以及该所述分帧述图像所属精彩片段的第二度量值,计算该所述分帧图像的第三度量值;封面提取模块1140可以用于根据各所述分帧图像的第三度量值从所述视频中提取封面图像。
本示例性实施例中,所述图像评估模块1110通过下述方法对目标视频的分帧图像进行精彩程度评估:将所述分帧图像输入至第一判别模型以通过所述第一判别模型确定所述分帧图像属于精彩图像的概率值,并将所述概率值作为所述第一度量值。
本示例性实施例中,所述装置还包括第一模型训练模块。其中:
第一模型训练模块可以用于获取多条训练数据,各所述训练数据至少包含样本图像以及关于所述样本图像是否属于精彩图像的标注信息;基于所述训练数据,对一机器学习模型进行训练,以得到所述第一判别模型。
本示例性实施例中,所述视频评估模块1120通过下述方法对所述目标视频进行精彩片段识别:基于所述目标视频的图像信息、光流信息、音频信息以及附属信息中的一种或多种,对所述目标视频进行精彩片段识别。
本示例性实施例中,所述视频评估模块1120通过下述方法对所述目标视频进行精彩片段识别:从所述目标视频中提取多个时刻的图像信息和音频信息;根据所述多个时刻的图像信息和音频信息获取所述目标视频在各所述时刻的综合特征信息;根据所述综合特征信息,对所述目标视频进行精彩片段识别。
本示例性实施例中,所述视频评估模块1120通过下述方法获取所述目标视频在各所述时刻的综合特征信息包括:对于各时刻的所述图像信息进行图像特征提取,得到所述目标视频在各时刻的第一特征信息;对于各时刻的所述音频信息进行音频特征提取,得到所述目标视频在各时刻的第二特征信息;融合各时刻的所述第一特征信息和第二特征信息,得到所述目标视频在各时刻的所述综合特征信息。
本示例性实施例中,所述视频评估模块1120通过下述方法融合所述第一特征信息和第二特征信息:对所述第一特征信息进行编码操作,得到第一编码信息;对所述第二特征信息进行所述编码操作,得到第二编码信息;合并所述第一特征信息和第二特征信息,得到第三特征信息,并对所述第三特征信息进行所述编码操作,得到第三编码信息;合并所述第一编码信息、第二编码信息以及第三编码信息,得到所述综合特征信息。
本示例性实施例中,所述视频评估模块1120通过下述方法对所述目标视频进行精彩片段识别:将所有所述时刻的所述综合特征信息输入至第二判别模型,以通过所述第二判别模型确定各时刻属于精彩片段开始阶段的概率值、属于精彩片段结束阶段的概率值以及属于精彩片段中间阶段的概率值;根据各所述概率值从各所述时刻中确定多个候选开始时刻以及多个候选结束时刻;根据所述多个候选开始时刻以及候选结束时刻确定多个候选片段;对各所述候选片段进行评估,并根据评估结果从所述多个所述候选片段中确定所述精彩片段以及对应的所述第二度量值。
本示例性实施例中,所述视频评估模块1120通过下述方法对各所述候选片段进行评估:获取多条训练数据,各所述训练数据至少包含样本片段以及该样本片段与其对应的精彩片段的时间交并比;基于所述训练数据,对一机器学习模型进行训练,得到评估模型;将所述候选片段输入所述评估模型以通过所述评估模型确定所述候选片段为精彩片段的概率。
本示例性实施例中,所述综合计算模块1130通过下述方法计算该所述分帧图像的第三度量值:对所述第一度量值和第二度量值进行相加,得到所述第三度量值;或者对所述第一度量值和第二度量值进行乘积,得到所述第三度量值;或者对所述第一度量值和第二度量值进行加权求和,得到所述第三度量值。
本示例性实施例中,所述封面提取模块1140通过下述方法从所述视频中提取封面图像:将所述第三度量值最高的一个或多个分帧图像作为所述封面图像。
上述视频封面图像提取装置中各模块或单元的具体细节已经在对应的视频封面图像提取方法中进行了详细的描述,因此此处不再赘述。
作为另一方面,本申请还提供了一种计算机可读介质,该计算机可读介质可以是上述实施例中描述的电子设备中所包含的;也可以是单独存在,而未装配入该电子设备中。上述计算机可读介质承载有一个或者多个程序,当上述一个或者多个程序被一个该电子设备执行时,使得该电子设备实现如下述实施例中所述的方法。例如,所述的电子设备可以实现如图3~图8所示的各个步骤等。
需要说明的是,本公开所示的计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质或者是上述两者的任意组合。计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的系统、装置或器件,或者任意以上的组合。计算机可读存储介质的更具体的例子可以包括但不限于:具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机访问存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本公开中,计算机可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。而在本公开中,计算机可读的信号介质可以包括在基带中或者作为载波一部分传播的数据信号,其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式,包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是计算机可读存储介质以外的任何计算机可读介质,该计算机可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。计算机可读介质上包含的程序代码可以用任何适当的介质传输,包括但不限于:无线、电线、光缆、RF等等,或者上述的任意合适的组合。
附图中的流程图和框图,图示了按照本公开各种实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分,上述模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意,在有些作为替换的实现中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个接连地表示的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图或流程图中的每个方框、以及框图或流程图中的方框的组合,可以用执行规定的功能或操作的专用的基于硬件的系统来实现,或者可以用专用硬件与计算机指令的组合来实现。
应当理解的是,本公开并不局限于上面已经描述并在附图中示出的精确结构,并且可以在不脱离其范围进行各种修改和改变。本公开的范围仅由所附的权利要求来限制。
Claims (13)
1.一种视频封面图像提取方法,其特征在于,包括:
对目标视频的分帧图像进行精彩程度评估,获取用于表征各所述分帧图像的精彩程度的第一度量值;
对所述目标视频进行精彩片段识别,获取所述目标视频中的精彩片段以及用于表征各所述精彩片段的精彩程度的第二度量值;
对于各所述分帧图像,根据该所述分帧图像的第一度量值及该所述分帧图像所属精彩片段的第二度量值,计算该所述分帧图像的第三度量值;
根据各所述分帧图像的第三度量值从所述视频中提取封面图像;
其中,所述对所述目标视频进行精彩片段识别,获取所述目标视频中的精彩片段以及用于表征各所述精彩片段的精彩程度的第二度量值,包括:
从所述目标视频中提取多个时刻的图像信息和音频信息;
根据所述多个时刻的图像信息和音频信息获取所述目标视频在各所述时刻的综合特征信息;
将所有所述时刻的所述综合特征信息输入至第二判别模型,以通过所述第二判别模型确定各时刻属于精彩片段开始阶段的概率值、属于精彩片段结束阶段的概率值以及属于精彩片段中间阶段的概率值;
根据各所述概率值从各所述时刻中确定多个候选开始时刻以及多个候选结束时刻;
根据所述多个候选开始时刻以及候选结束时刻确定多个候选片段;
对各所述候选片段进行评估,并根据评估结果从所述多个所述候选片段中确定所述精彩片段以及对应的所述第二度量值。
2.根据权利要求1所述的视频封面图像提取方法,其特征在于,对目标视频的分帧图像进行精彩程度评估,包括:
将所述分帧图像输入至第一判别模型以通过所述第一判别模型确定所述分帧图像属于精彩图像的概率值,并将所述概率值作为所述第一度量值。
3.根据权利要求2所述的视频封面图像提取方法,其特征在于,所述方法还包括:
获取多条训练数据,各所述训练数据至少包含样本图像以及关于所述样本图像是否属于精彩图像的标注信息;
基于所述训练数据,对一机器学习模型进行训练,以得到所述第一判别模型。
4.根据权利要求1所述的视频封面图像提取方法,其特征在于,对所述目标视频进行精彩片段识别,包括:
基于所述目标视频的图像信息、光流信息、音频信息以及附属信息中的一种或多种,对所述目标视频进行精彩片段识别。
5.根据权利要求1所述的视频封面图像提取方法,其特征在于,获取所述目标视频在各所述时刻的综合特征信息,包括:
对于各时刻的所述图像信息进行图像特征提取,得到所述目标视频在各时刻的第一特征信息;
对于各时刻的所述音频信息进行音频特征提取,得到所述目标视频在各时刻的第二特征信息;
融合各时刻的所述第一特征信息和第二特征信息,得到所述目标视频在各时刻的所述综合特征信息。
6.根据权利要求5所述的视频封面图像提取方法,其特征在于,融合所述第一特征信息和第二特征信息,包括:
对所述第一特征信息进行编码操作,得到第一编码信息;
对所述第二特征信息进行所述编码操作,得到第二编码信息;
合并所述第一特征信息和第二特征信息,得到第三特征信息,并对所述第三特征信息进行所述编码操作,得到第三编码信息;
合并所述第一编码信息、第二编码信息以及第三编码信息,得到所述综合特征信息。
7.根据权利要求6所述的视频封面图像提取方法,其特征在于,对各所述候选片段进行评估,包括:
将所述候选片段输入一评估模型,以通过所述评估模型确定所述候选片段为精彩片段的概率。
8.根据权利要求7所述的视频封面图像提取方法,其特征在于,所述方法还包括:
获取多条训练数据,各所述训练数据至少包含样本片段以及该样本片段与其对应的精彩片段的时间交并比,所述时间交并比是指所述样本片段与所述精彩片段的交集时长与并集时长之间的比值;
基于所述训练数据,对一机器学习模型进行训练,得到所述评估模型。
9.根据权利要求1所述的视频封面图像提取方法,其特征在于,计算该所述分帧图像的第三度量值,包括:
对所述第一度量值和第二度量值进行相加,得到所述第三度量值;或者
对所述第一度量值和第二度量值进行乘积,得到所述第三度量值;或者
对所述第一度量值和第二度量值进行加权求和,得到所述第三度量值。
10.根据权利要求1~9任意一项所述的视频封面图像提取方法,其特征在于,根据各所述分帧图像的第三度量值从所述视频中提取封面图像,包括:
将所述第三度量值最高的一个或多个分帧图像作为所述封面图像。
11.一种视频封面图像提取装置,其特征在于,包括:
图像评估模块,用于对目标视频的分帧图像进行精彩程度评估,获取用于表征各所述分帧图像的精彩程度的第一度量值;
视频评估模块,用于对所述目标视频进行精彩片段识别,获取所述目标视频中的精彩片段以及用于表征各所述精彩片段的精彩程度的第二度量值;
综合计算模块,用于对于各所述分帧图像,根据该所述分帧图像的第一度量值以及该所述分帧图像所属精彩片段的第二度量值,计算该所述分帧图像的第三度量值;
封面提取模块,用于根据各所述分帧图像的第三度量值从所述视频中提取封面图像;
其中,所述视频评估模块还用于:
从所述目标视频中提取多个时刻的图像信息和音频信息;
根据所述多个时刻的图像信息和音频信息获取所述目标视频在各所述时刻的综合特征信息;
将所有所述时刻的所述综合特征信息输入至第二判别模型,以通过所述第二判别模型确定各时刻属于精彩片段开始阶段的概率值、属于精彩片段结束阶段的概率值以及属于精彩片段中间阶段的概率值;
根据各所述概率值从各所述时刻中确定多个候选开始时刻以及多个候选结束时刻;
根据所述多个候选开始时刻以及候选结束时刻确定多个候选片段;
对各所述候选片段进行评估,并根据评估结果从所述多个所述候选片段中确定所述精彩片段以及对应的所述第二度量值。
12.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1-10任一项所述的方法。
13.一种电子设备,其特征在于,包括:
处理器;以及
存储器,用于存储所述处理器的可执行指令;
其中,所述处理器配置为经由执行所述可执行指令来执行权利要求1-10任一项所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910607614.9A CN110347872B (zh) | 2019-07-04 | 2019-07-04 | 视频封面图像提取方法及装置、存储介质及电子设备 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910607614.9A CN110347872B (zh) | 2019-07-04 | 2019-07-04 | 视频封面图像提取方法及装置、存储介质及电子设备 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN110347872A CN110347872A (zh) | 2019-10-18 |
CN110347872B true CN110347872B (zh) | 2023-10-24 |
Family
ID=68177942
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910607614.9A Active CN110347872B (zh) | 2019-07-04 | 2019-07-04 | 视频封面图像提取方法及装置、存储介质及电子设备 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110347872B (zh) |
Families Citing this family (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2018203920A1 (en) * | 2017-05-05 | 2018-11-08 | Google Llc | Summarizing video content |
CN110751224B (zh) * | 2019-10-25 | 2022-08-05 | Oppo广东移动通信有限公司 | 视频分类模型的训练方法、视频分类方法、装置及设备 |
CN111277892B (zh) * | 2020-01-20 | 2022-03-22 | 北京百度网讯科技有限公司 | 用于选取视频片段的方法、装置、服务器和介质 |
CN111274444A (zh) * | 2020-02-24 | 2020-06-12 | 北京达佳互联信息技术有限公司 | 视频封面确定模型的生成方法及装置、视频封面确定方法及装置 |
CN112437343B (zh) * | 2020-05-15 | 2021-09-17 | 上海哔哩哔哩科技有限公司 | 基于浏览器的封面生成方法和系统 |
CN112632329A (zh) * | 2020-12-18 | 2021-04-09 | 咪咕互动娱乐有限公司 | 视频提取方法、装置、电子设备及存储介质 |
CN114697741B (zh) * | 2020-12-30 | 2023-06-30 | 腾讯科技(深圳)有限公司 | 多媒体信息的播放控制方法及相关设备 |
CN113099129A (zh) * | 2021-01-27 | 2021-07-09 | 北京字跳网络技术有限公司 | 一种视频生成方法、装置、电子设备及存储介质 |
US11763564B1 (en) * | 2021-03-29 | 2023-09-19 | Amazon Technologies, Inc. | Techniques for generating optimized video segments utilizing a visual search |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106028134A (zh) * | 2015-03-31 | 2016-10-12 | 泽普实验室公司 | 针对移动计算设备检测体育视频精彩部分 |
CN107077595A (zh) * | 2014-09-08 | 2017-08-18 | 谷歌公司 | 选择和呈现代表性帧以用于视频预览 |
CN109002812A (zh) * | 2018-08-08 | 2018-12-14 | 北京未来媒体科技股份有限公司 | 一种智能识别视频封面的方法及装置 |
CN109121021A (zh) * | 2018-09-28 | 2019-01-01 | 北京周同科技有限公司 | 一种视频集锦的生成方法、装置、电子设备及存储介质 |
CN111787356A (zh) * | 2020-07-09 | 2020-10-16 | 易视腾科技股份有限公司 | 目标视频片段提取方法和装置 |
-
2019
- 2019-07-04 CN CN201910607614.9A patent/CN110347872B/zh active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107077595A (zh) * | 2014-09-08 | 2017-08-18 | 谷歌公司 | 选择和呈现代表性帧以用于视频预览 |
CN106028134A (zh) * | 2015-03-31 | 2016-10-12 | 泽普实验室公司 | 针对移动计算设备检测体育视频精彩部分 |
CN109002812A (zh) * | 2018-08-08 | 2018-12-14 | 北京未来媒体科技股份有限公司 | 一种智能识别视频封面的方法及装置 |
CN109121021A (zh) * | 2018-09-28 | 2019-01-01 | 北京周同科技有限公司 | 一种视频集锦的生成方法、装置、电子设备及存储介质 |
CN111787356A (zh) * | 2020-07-09 | 2020-10-16 | 易视腾科技股份有限公司 | 目标视频片段提取方法和装置 |
Also Published As
Publication number | Publication date |
---|---|
CN110347872A (zh) | 2019-10-18 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110347872B (zh) | 视频封面图像提取方法及装置、存储介质及电子设备 | |
CN110582025B (zh) | 用于处理视频的方法和装置 | |
CN109145784B (zh) | 用于处理视频的方法和装置 | |
CN108986186B (zh) | 文字转化视频的方法和系统 | |
CN109874029B (zh) | 视频描述生成方法、装置、设备及存储介质 | |
CN112533051B (zh) | 弹幕信息显示方法、装置、计算机设备和存储介质 | |
CN109905772B (zh) | 视频片段查询方法、装置、计算机设备及存储介质 | |
CN110674350B (zh) | 视频人物检索方法、介质、装置和计算设备 | |
CN109691124B (zh) | 用于自动生成视频亮点的方法和系统 | |
CN111444967B (zh) | 生成对抗网络的训练方法、生成方法、装置、设备及介质 | |
CN110234018B (zh) | 多媒体内容描述生成方法、训练方法、装置、设备及介质 | |
CN109871490B (zh) | 媒体资源匹配方法、装置、存储介质和计算机设备 | |
EP3796189A1 (en) | Video retrieval method, and method and apparatus for generating video retrieval mapping relationship | |
CN112559800B (zh) | 用于处理视频的方法、装置、电子设备、介质和产品 | |
CN109640112B (zh) | 视频处理方法、装置、设备及存储介质 | |
Rongved et al. | Real-time detection of events in soccer videos using 3D convolutional neural networks | |
CN111783712A (zh) | 一种视频处理方法、装置、设备及介质 | |
CN113539304B (zh) | 视频拆条方法和装置 | |
CN113779381B (zh) | 资源推荐方法、装置、电子设备和存储介质 | |
CN110263218B (zh) | 视频描述文本生成方法、装置、设备和介质 | |
Wang et al. | Fast and accurate action detection in videos with motion-centric attention model | |
CN111816170A (zh) | 一种音频分类模型的训练和垃圾音频识别方法和装置 | |
CN114943549A (zh) | 一种广告投放方法及装置 | |
CN114627556B (zh) | 动作检测方法、动作检测装置、电子设备以及存储介质 | |
Park et al. | Multimodal learning model based on video–audio–chat feature fusion for detecting e-sports highlights |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |