CN111836118B - 视频处理方法、装置、服务器及存储介质 - Google Patents

视频处理方法、装置、服务器及存储介质 Download PDF

Info

Publication number
CN111836118B
CN111836118B CN201910319668.5A CN201910319668A CN111836118B CN 111836118 B CN111836118 B CN 111836118B CN 201910319668 A CN201910319668 A CN 201910319668A CN 111836118 B CN111836118 B CN 111836118B
Authority
CN
China
Prior art keywords
video
frame
image
wonderful
wonderness
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201910319668.5A
Other languages
English (en)
Other versions
CN111836118A (zh
Inventor
王建国
李�一
陈晓冬
郭佳骋
刘林
朱延峰
其他发明人请求不公开姓名
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Baidu Netcom Science and Technology Co Ltd
Original Assignee
Beijing Baidu Netcom Science and Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Baidu Netcom Science and Technology Co Ltd filed Critical Beijing Baidu Netcom Science and Technology Co Ltd
Priority to CN201910319668.5A priority Critical patent/CN111836118B/zh
Publication of CN111836118A publication Critical patent/CN111836118A/zh
Application granted granted Critical
Publication of CN111836118B publication Critical patent/CN111836118B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/80Generation or processing of content or additional data by content creator independently of the distribution process; Content per se
    • H04N21/83Generation or processing of protective or descriptive data associated with content; Content structuring
    • H04N21/845Structuring of content, e.g. decomposing content into time segments
    • H04N21/8456Structuring of content, e.g. decomposing content into time segments by decomposing the content in the time domain, e.g. in time segments
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/20Servers specifically adapted for the distribution of content, e.g. VOD servers; Operations thereof
    • H04N21/23Processing of content or additional data; Elementary server operations; Server middleware
    • H04N21/234Processing of video elementary streams, e.g. splicing of video streams or manipulating encoded video stream scene graphs
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/20Servers specifically adapted for the distribution of content, e.g. VOD servers; Operations thereof
    • H04N21/23Processing of content or additional data; Elementary server operations; Server middleware
    • H04N21/234Processing of video elementary streams, e.g. splicing of video streams or manipulating encoded video stream scene graphs
    • H04N21/23418Processing of video elementary streams, e.g. splicing of video streams or manipulating encoded video stream scene graphs involving operations for analysing video streams, e.g. detecting features or characteristics
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/20Servers specifically adapted for the distribution of content, e.g. VOD servers; Operations thereof
    • H04N21/23Processing of content or additional data; Elementary server operations; Server middleware
    • H04N21/234Processing of video elementary streams, e.g. splicing of video streams or manipulating encoded video stream scene graphs
    • H04N21/23424Processing of video elementary streams, e.g. splicing of video streams or manipulating encoded video stream scene graphs involving splicing one content stream with another content stream, e.g. for inserting or substituting an advertisement

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Business, Economics & Management (AREA)
  • Marketing (AREA)
  • Television Signal Processing For Recording (AREA)
  • Image Analysis (AREA)

Abstract

本发明实施例公开了一种视频处理方法、装置、服务器及存储介质,其中,所述方法包括:获取待处理视频中的每帧图像,并利用预先训练的机器学习模型,识别所述每帧图像的精彩度;根据所述每帧图像中图像内容的相关性,将待处理视频分成至少两个连续视频段;在所述至少两个连续视频段中,按照所述每帧图像的精彩度确定至少一个候选连续视频段,并将所述至少一个候选连续视频段按照视频播放顺序组合成目标视频。本发明实施例输出的目标视频中包含具有一定精彩度的视频帧图像,既保证了重要信息的曝光时长,又保证了目标视频与待处理视频的相关性。此外,由于组成目标视频的各视频段具有连续性和完整性,确保了输出的目标视频的连续性。

Description

视频处理方法、装置、服务器及存储介质
技术领域
本发明实施例涉及互联网技术领域,尤其涉及一种视频处理方法、装置、服务器及存储介质。
背景技术
随着互联网技术的不断进步,推动了互联网广告业的迅猛发展,越来越多的广告主选择互联网在线视频广告的形式进行广告投放,例如,在视频播放前或视频播放过程中加播一段长视频广告。然而,长视频广告虽然内容丰富饱满,但是研究发现,互联网中用户对视频内容的关注程度,是随着时间而递减的,导致长视频广告效果并不理想,需要对长视频广告进行剪辑。由此,如何将长视频广告剪辑成例如15秒的短视频广告,变得非常重要。
现有技术中,通常从长视频中截取连续的视频片段作为短视频,但是这种方法截取的视频片段内容不能充分表达长视频的核心内容,而且容易在长视频中本应连续播放的时间点进行截取,从而造成截取的短视频在内容上欠缺完整性,影响观看效果。此外,还可以通过对长视频快进压缩的方法得到短视频,但是,对于长视频中曝光时间短的有价值片段,快进后曝光时间变得更短,那么在用户观看短视频的过程中,这些有价值的片段容易被忽略。
发明内容
本发明实施例提供了一种视频处理方法、装置、服务器及存储介质,以解决现有技术中将长视频剪辑成短视频时,存在生成的短视频无法体现长视频的核心内容或核心内容曝光时间过短、或者生成的短视频连续性差的技术问题。
第一方面,本发明实施例提供了一种视频处理方法,包括:
获取待处理视频中的每帧图像,并利用预先训练的机器学习模型,识别所述每帧图像的精彩度;
根据所述每帧图像中图像内容的相关性,将待处理视频分成至少两个连续视频段;
在所述至少两个连续视频段中,按照所述每帧图像的精彩度确定至少一个候选连续视频段,并将所述至少一个候选连续视频段按照视频播放顺序组合成目标视频。
第二方面,本发明实施例还提供了一种视频处理装置,包括:
精彩度识别模块,用于获取待处理视频中的每帧图像,并利用预先训练的机器学习模型,识别所述每帧图像的精彩度;
分段模块,用于根据所述每帧图像中图像内容的相关性,将待处理视频分成至少两个连续视频段;
组合模块,用于在所述至少两个连续视频段中,按照所述每帧图像的精彩度确定至少一个候选连续视频段,并将所述至少一个候选连续视频段按照视频播放顺序组合成目标视频。
第三方面,本发明实施例还提供了一种服务器,包括:
一个或多个处理器;
存储器,用于存储一个或多个程序,
当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现如本发明任一实施例所述的视频处理方法。
第四方面,本发明实施例还提供了一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现如本发明任一实施例所述的视频处理方法。
本发明实施例提供的一种视频处理方法、装置、服务器及存储介质,通过采用机器学习方法识别待处理视频中每帧的精彩度,使生成的目标视频中包含具有一定精彩度的待处理视频中的视频帧图像,既保证了重要信息的曝光时长,又保证了目标视频与待处理视频的相关性。此外,通过对待处理视频进行细粒度分段,得到连续性视频段,保证了每个视频段的连续性和完整性,进而在将精彩度高的视频段顺序组合成目标视频后,确保目标视频具有连续性。
附图说明
图1是本发明实施例一提供的一种视频处理方法的流程示意图;
图2是本发明实施例二提供的一种视频处理方法的流程示意图;
图3是本发明实施例三提供的一种视频处理方法的流程示意图;
图4是本发明实施例四提供的一种视频处理装置的结构示意图;
图5是本发明实施例五提供的一种服务器的结构示意图。
具体实施方式
下面结合附图和实施例对本发明作进一步的详细说明。可以理解的是,此处所描述的具体实施例仅仅用于解释本发明,而非对本发明的限定。另外还需要说明的是,为了便于描述,附图中仅示出了与本发明相关的部分而非全部结构。
实施例一
图1是本发明实施例一提供的一种视频处理方法的流程图,本实施例可适用于将长视频剪辑成短视频的情况,该方法可以由相应的视频处理装置执行,该装置可以采用软件和/或硬件的方式实现,并可配置于服务器上。
如图1所示,本发明实施例中提供的视频处理方法可以包括:
S110、获取待处理视频中的每帧图像,并利用预先训练的机器学习模型,识别所述每帧图像的精彩度。
其中,待处理视频为视频时长超过预设时间阈值的长视频,示例性的,待处理视频可以为长视频广告,也可以为影视视频的片段节选等,在此不做具体限定。
预先训练的机器学习模型是指用于专门识别视频帧精彩度的神经网络模型。将获取到的待处理视频中的每帧图像,输入到预先训练的机器学习模型,根据该机器学习模型输出的精彩度值,即可确定每个视频帧的精彩度或精彩度等级。由此可保证后续生成的目标视频中包含具有一定精彩度的待处理视频中的视频帧图像,进而确保目标视频与待处理视频的相关性,也能确保待处理视频中的重要信息在目标视频中的曝光时长。
进一步的,预先训练的机器学习模型包括预先训练好的精彩特征识别模型和精彩度识别模型。则利用预先训练的机器学习模型,识别所述每帧图像的精彩可以包括:
利用预先训练的至少一个精彩特征识别模型,分别识别每帧图像中的精彩特征,其中,所述精彩特征为影响视频精彩度的特征;
利用预先训练的精彩度识别模型,以每帧图像和与之对应的精彩特征为输入,输出每帧图像的精彩度。
具体的,每帧图像的精彩度与每帧图像所包括的目标元素相关,在不同的场景下,目标元素可以不同,例如,该目标元素可以为任一帧图像中的至少一种或多种元素:某明星图像、公司特有的logo、经典广告语/台词或经典动作,以及帧图像中存在的特效等。因此,利用预先训练的至少一个精彩特征识别模型,分别识别每帧图像中的精彩特征,即可以是针对不同的目标元素对每一帧图像进行识别,不同的目标元素即可以作为不同的精彩特征。而对于所述精彩特征识别模型,则可以是利用大量的图像样本和标注数据通过机器学习训练得到,所述标注数据即为不同图像样本中对应的精彩特征标注数据。此外,不同的目标元素还可以对应不同的精彩度权重,以便由所述精彩度识别模型最终依据该权重输出得到每帧图像的综合精彩度。
示例性的,所述精彩度识别模型的训练过程包括:
获取视频样本集中每个视频样本的每个视频帧图像;
获取每个视频帧图像的标注信息,其中,所述标注信息包括精彩度结果;
将所述每个视频帧图像以及利用所述至少一个精彩特征识别模型识别出来的精彩特征作为输入,将每个视频帧图像的精彩度结果作为输出,利用循环神经网络训练得到所述精彩度识别模型。
也即,训练得到的精彩度识别模型,可以根据图像及其精彩特征输出得到该图像的精彩度或精彩度等级,优选的,所述循环神经网络包括LSTM(Long Short-Term Memory,长短期记忆)网络。
还需要说明的是,针对精彩特征识别模型和精彩度识别模型,可以分别进行训练,也可以将精彩特征识别模型和精彩度识别模型联合,即作为一个整体的机器学习模型进行训练,从而达到更好的训练效果。
S120、根据所述每帧图像中图像内容的相关性,将待处理视频分成至少两个连续视频段。
在将待处理的长视频剪辑为短视频的过程中,截取的视频帧在内容上需要是完整的、连续的,而常规的视频中通常是由多组镜头拍摄而成,或者是由多个不同的小片段组合而成,每一组镜头或小片段都是一段完整的视频,那么在截取视频帧的过程中,如果从某一组镜头或小片段的中间开始截取,或者截取到某一组镜头或小片段的中间,就会造成截取的视频部分在内容上欠缺完整性和连续性,生成的短视频效果不好。例如,假设一个动作由两个视频帧完成,如果只抽取其中一个视频帧作为目标视频中的一帧图像,看起来就好比这个动作突然开始,或者动作进行一半就结束了,导致整个视频段不连续。
因此,在本发明实施例中,根据每帧图像中图像内容的相关性,将待处理视频分成至少两个连续视频段,其中,每帧图像中图像内容的相关性用于表征不同图像之间的连续性,于是,划分得到的每个视频段都是连续视频段,再利用这些连续视频段进行组合成目标视频,从而提高目标视频的完整性和连续性。
S130、在所述至少两个连续视频段中,按照所述每帧图像的精彩度确定至少一个候选连续视频段,并将所述至少一个候选连续视频段按照视频播放顺序组合成目标视频。
示例性的,在所述至少两个连续视频段中,按照所述每帧图像的精彩度,计算每个连续视频段的平均帧精彩度。将所述平均帧精彩度满足预设精彩度阈值的连续视频段,作为候选连续视频段。由此可确定多个候选连续视频段,并且这些候选连续视频段由于具有一定的精彩度,因此保留了原待处理视频中的重要信息。同时,每个连续视频段都是完整且连续的,那么最后将多个候选连续视频段按照视频播放顺序组合成目标视频,即可得到完整、连续且精彩的目标视频,从而提高目标视频的质量。
在一种实施方式中,将多个候选连续视频段组合成目标视频之前,还可以判断用户是否对目标视频的时长有要求,若有,则需要根据目标视频的时长对选出的多个候选连续视频段进行二次筛选,或者直接根据时长和精彩度来选择候选连续视频段;若无,则直接将多个候选连续视频段组成目标视频。
本发明实施例中,通过采用机器学习方法识别待处理视频中每帧的精彩度,使生成的目标视频中包含具有一定精彩度的待处理视频中的视频帧图像,既保证了重要信息的曝光时长,又保证了目标视频与待处理视频的相关性。此外,根据每帧图像中图像内容的相关性进行分段,得到连续性视频段,保证了每个视频段的连续性和完整性,进而在将精彩度高的视频段顺序组合成目标视频后,确保目标视频具有连续性。
实施例二
图2为本发明实施例二提供的一种视频处理方法的流程示意图。本实施例以上述实施例为基础进行优化,如图2所示,本发明实施例中提供的视频处理方法可以包括:
S210、获取待处理视频中的每帧图像,并利用预先训练的机器学习模型,识别所述每帧图像的精彩度。
S220、利用核时域分割方法,将待处理视频分成至少两个连续视频段,以使所述至少两个连续视频段中,各视频段的段内图像差异度的和满足预设条件。
其中,核时域分割方法是一种对待处理视频进行细粒度分段的方法,即是将待处理视频分割成多个镜头,每个镜头是由一系列相互关联的视频帧组成,代表了一个连续的动作,由此,每个镜头也即是一个连续的视频段。
通过核时域分割方法得到的任一连续视频段均满足如下条件:各视频段的段内图像差异度的和满足预设条件,示例性的,各视频段的段内图像差异度的和小于预设阈值。其中,所述段内图像差异度的和是在核函数空间计算得到的。具体的,视频段中的每一帧的帧特征向量在核函数空间的映射,各自与该视频段内所有帧的帧特征向量在核函数空间的映射的平均值的差异度的累加和,其中,所述帧特征向量用帧的灰度直方图表示。
这里需要说明的是,为了提高模型效果,会将特征a提升维度成为b。例如,计算两个向量a1、a2的相似度,则可以先将a1转化为b1,a2转化为b2,进而用b1、b2的相似度代替a1、a2的相似度。其中,b1、b2所在的空间就是核空间,也即所述核函数空间。
示例性的,针对某一连续视频段,该视频段包括的视频帧数为5,则先将该连续视频段内所有的视频帧进行帧特征向量表示,并确定所有帧的帧特征向量在核函数空间的映射的平均值,得到平均帧特征向量。然后将第1帧对应的帧特征向量映射到核函数空间,计算第1帧对应的帧特征向量与平均帧特征向量的差异度A1,示例性的,可通过求第1帧对应的帧特征向量与平均帧特征向量之间的余弦距离,确定A1。同理,依次将第2-5帧对应的帧特征向量映射到核函数空间,计算第2-5帧对应的帧特征向量分别与平均帧特征向量的差异度A2、A3、A4、A5。最后求A1、A2、A3、A4、A5的和即为段内图像差异度的和。
S230、在所述至少两个连续视频段中,按照所述每帧图像的精彩度确定至少一个候选连续视频段,并将所述至少一个候选连续视频段按照视频播放顺序组合成目标视频。
本发明实施例中,采用核时域分割方法将待处理视频分成多个连续的视频段,既实现了细粒度分段,又确保了每个视频段具有连续性和完整性,从而得到质量更高的目标视频。
实施例三
图3为本发明实施例三提供的一种视频处理方法的流程示意图。本实施例以上述实施例为基础进行优化,如图3所示,本发明实施例中提供的视频处理方法可以包括:
S310、获取待处理视频中的每帧图像,并利用预先训练的机器学习模型,识别所述每帧图像的精彩度。
本实施例中,如果只选择平均帧精彩度高的视频段顺序组合得到目标视频,有可能出现几个相似的片段在目标视频中。可通过S330-S340对待处理视频中的部分帧图像的精彩度进行调整,使得通过S320得到的连续视频段之间不重复,同时确保视频段的精彩性。其中,S330-S340可以在S320前执行,也可以在S320后执行,本实施例示例性的在S320后执行。
S320、根据所述每帧图像中图像内容的相关性,将待处理视频分成至少两个连续视频段。
S330、利用行列式点过程模型,在所述待处理视频的每帧图像中,求解得到多样性子集,其中,所述多样性子集中的每帧图像具有多样性。
行列式点过程模型(Determinantal Point Process,DPP)是一种概率模型,利用行列式点过程模型计算待处理视频的每帧图像相互之间具有多样性的概率,并将概率大于阈值的帧图像抽取出来组成多样性子集,该多样性子集中包括多个视频帧图像,且这些视频帧图像之间具有多样性,也即不重复。
S340、调整所述多样性子集中的每帧图像的精彩度,其中,所述调整的操作包括将精彩度调高预设幅度。
将多样性子集中的每帧图像的精彩度调高,示例性的可通过对原精彩度增加一个固定值或乘以一个大于1的实数来实现。
S350、在所述至少两个连续视频段中,按照调整后的所述每帧图像的精彩度确定至少一个候选连续视频段,并将所述至少一个候选连续视频段按照视频播放顺序组合成目标视频。
由于通过S340增加了多样性子集中各个视频帧图像的精彩度,因此,在计算各连续视频段的整体精彩度时,就会提高具有多样性、不重复的连续视频段的整体精彩度,从而提高其被选中作为候选连续视频段的概率,得到丰富的、具有多样性的且不重复的多个候选连续视频段,继而经组合得到内容不重复的目标视频。
本发明实施例中,通过行列式点过程模型选出待处理视频中的部分帧图像,即多样性子集,并增加该多样性子集中各视频帧图像的精彩度,由此才能根据精彩度确定多个相互之间不重复的候选连续视频段,继而组合得到内容不重复的目标视频,进一步提高了目标视频的视频质量。
实施例四
图4是本发明实施例四提供的一种视频处理装置的结构示意图。如图4所示,该装置包括:
精彩度识别模块410,用于获取待处理视频中的每帧图像,并利用预先训练的机器学习模型,识别所述每帧图像的精彩度;
分段模块420,用于根据所述每帧图像中图像内容的相关性,将待处理视频分成至少两个连续视频段;
组合模块430,用于在所述至少两个连续视频段中,按照所述每帧图像的精彩度确定至少一个候选连续视频段,并将所述至少一个候选连续视频段按照视频播放顺序组合成目标视频。
本发明实施例中,精彩度识别模块通过采用机器学习方法识别待处理视频中每帧的精彩度,使组合模块生成的目标视频中包含具有一定精彩度的待处理视频中的视频帧图像,既保证了重要信息的曝光时长,又保证了目标视频与待处理视频的相关性。此外通过分段模块对待处理视频进行细粒度分段,得到连续性视频段,保证了每个视频段的连续性和完整性。进而,在将精彩度高的视频段顺序组合成目标视频后,确保目标视频具有连续性。
在上述实施例的基础上,所述精彩度识别模块包括:
特征识别单元,用于利用预先训练的至少一个精彩特征识别模型,分别识别每帧图像中的精彩特征,其中,所述精彩特征为影响视频精彩度的特征;
精彩度识别单元,用于利用预先训练的精彩度识别模型,以每帧图像和与之对应的精彩特征为输入,输出每帧图像的精彩度。
在上述实施例的基础上,所述装置还包括精彩度识别模型训练模块,具体用于:
获取视频样本集中每个视频样本的每个视频帧图像;
获取每个视频帧图像的标注信息,其中,所述标注信息包括精彩度结果;
将所述每个视频帧图像以及利用所述至少一个精彩特征识别模型识别出来的精彩特征作为输入,将每个视频帧图像的精彩度结果作为输出,利用循环神经网络训练得到所述精彩度识别模型。
在上述实施例的基础上,所述分段模块具体用于:
利用核时域分割方法,将待处理视频分成至少两个连续视频段,以使所述至少两个连续视频段中,各视频段的段内图像差异度的和满足预设条件;
其中,所述段内图像差异度的和是指视频段中的每一帧的帧特征向量在核函数空间的映射,各自与该视频段内所有帧的帧特征向量在核函数空间的映射的平均值的差异度的累加和,所述帧特征向量用帧的灰度直方图表示。
在上述实施例的基础上,所述组合模块包括:
平均帧精彩度计算单元,用于在所述至少两个连续视频段中,按照所述每帧图像的精彩度,计算每个连续视频段的平均帧精彩度;
判断单元,用于将所述平均帧精彩度满足预设精彩度阈值的连续视频段,作为所述至少一个候选连续视频段。
在上述实施例的基础上,所述装置还包括:
多样性子集获取模块,用于利用行列式点过程模型,在所述待处理视频的每帧图像中,求解得到多样性子集,其中,所述多样性子集中的每帧图像具有多样性;
调整模块,用于调整所述多样性子集中的每帧图像的精彩度,其中,所述调整的操作包括将精彩度调高预设幅度;
相应的,所述组合模块具体用于:
在所述至少两个连续视频段中,按照调整后的所述每帧图像的精彩度确定至少一个候选连续视频段,并将所述至少一个候选连续视频段按照视频播放顺序组合成目标视频。
本发明实施例所提供的视频处理装置可执行本发明任意实施例所提供的视频处理方法,具备执行方法相应的功能模块和有益效果。
实施例五
图5为本发明实施例六提供的服务器的结构示意图。图5示出了适于用来实现本发明实施方式的示例性服务器12的框图。图5显示的服务器12仅仅是一个示例,不应对本发明实施例的功能和使用范围带来任何限制。
如图5所示,服务器12以通用计算设备的形式表现。服务器12的组件可以包括但不限于:一个或者多个处理器或者处理器16,存储器28,连接不同系统组件(包括存储器28和处理器16)的总线18。
总线18表示几类总线结构中的一种或多种,包括存储器总线或者存储器控制器,外围总线,图形加速端口,处理器或者使用多种总线结构中的任意总线结构的局域总线。举例来说,这些体系结构包括但不限于工业标准体系结构(ISA)总线,微通道体系结构(MAC)总线,增强型ISA总线、视频电子标准协会(VESA)局域总线以及外围组件互连(PCI)总线。
服务器12典型地包括多种计算机系统可读介质。这些介质可以是任何能够被服务器12访问的可用介质,包括易失性和非易失性介质,可移动的和不可移动的介质。
存储器28可以包括易失性存储器形式的计算机系统可读介质,例如随机存取存储器(RAM)30和/或高速缓存存储器32。服务器12可以进一步包括其它可移动/不可移动的、易失性/非易失性计算机系统存储介质。仅作为举例,存储系统34可以用于读写不可移动的、非易失性磁介质(图5未显示,通常称为“硬盘驱动器”)。尽管图5中未示出,可以提供用于对可移动非易失性磁盘(例如“软盘”)读写的磁盘驱动器,以及对可移动非易失性光盘(例如CD-ROM,DVD-ROM或者其它光介质)读写的光盘驱动器。在这些情况下,每个驱动器可以通过一个或者多个数据介质接口与总线18相连。存储器28可以包括至少一个程序产品,该程序产品具有一组(例如至少一个)程序模块,这些程序模块被配置以执行本发明各实施例的功能。
具有一组(至少一个)程序模块42的程序/实用工具40,可以存储在例如存储器28中,这样的程序模块42包括但不限于操作系统、一个或者多个应用程序、其它程序模块以及程序数据,这些示例中的每一个或某种组合中可能包括网络环境的实现。程序模块42通常执行本发明所描述的实施例中的功能和/或方法。
服务器12也可以与一个或多个外部设备14(例如键盘、指向设备、显示器24等)通信,还可与一个或者多个使得用户能与该服务器12交互的设备通信,和/或与使得该服务器12能与一个或多个其它计算设备进行通信的任何设备(例如网卡,调制解调器等等)通信。这种通信可以通过输入/输出(I/O)接口22进行。并且,服务器12还可以通过网络适配器20与一个或者多个网络(例如局域网(LAN),广域网(WAN)和/或公共网络,例如因特网)通信。如图所示,网络适配器20通过总线18与服务器12的其它模块通信。应当明白,尽管图中未示出,可以结合服务器12使用其它硬件和/或软件模块,包括但不限于:微代码、设备驱动器、冗余处理单元、外部磁盘驱动阵列、RAID系统、磁带驱动器以及数据备份存储系统等。
处理器16通过运行存储在存储器28中的程序,从而执行各种功能应用以及数据处理,例如实现本发明实施例所提供的视频处理方法,包括:
获取待处理视频中的每帧图像,并利用预先训练的机器学习模型,识别所述每帧图像的精彩度;
根据所述每帧图像中图像内容的相关性,将待处理视频分成至少两个连续视频段;
在所述至少两个连续视频段中,按照所述每帧图像的精彩度确定至少一个候选连续视频段,并将所述至少一个候选连续视频段按照视频播放顺序组合成目标视频。
实施例五
本发明实施例中提供一种包含计算机可执行指令的存储介质,所述计算机可执行指令在由计算机处理器执行时用于执行一种视频处理方法,该方法包括:
获取待处理视频中的每帧图像,并利用预先训练的机器学习模型,识别所述每帧图像的精彩度;
根据所述每帧图像中图像内容的相关性,将待处理视频分成至少两个连续视频段;
在所述至少两个连续视频段中,按照所述每帧图像的精彩度确定至少一个候选连续视频段,并将所述至少一个候选连续视频段按照视频播放顺序组合成目标视频。
当然,本发明实施例中所提供的一种包含计算机可执行指令的存储介质,其计算机可执行指令不限于如上所述的方法操作,还可以执行本发明任意实施例中所提供的视频处理方法中的相关操作。
本发明实施例的计算机存储介质,可以采用一个或多个计算机可读的介质的任意组合。计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质。计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的系统、装置或器件,或者任意以上的组合。计算机可读存储介质的更具体的例子(非穷举的列表)包括:具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本文件中,计算机可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。
计算机可读的信号介质可以包括在基带中或者作为载波一部分传播的数据信号,其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式,包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是计算机可读存储介质以外的任何计算机可读介质,该计算机可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。
计算机可读介质上包含的程序代码可以用任何适当的介质传输,包括——但不限于无线、电线、光缆、RF等等,或者上述的任意合适的组合。
可以以一种或多种程序设计语言或其组合来编写用于执行本发明操作的计算机程序代码,所述程序设计语言包括面向对象的程序设计语言—诸如Java、Smalltalk、C++,还包括常规的过程式程序设计语言—诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在涉及远程计算机的情形中,远程计算机可以通过任意种类的网络——包括局域网(LAN)或广域网(WAN)—连接到用户计算机,或者,可以连接到外部计算机(例如利用因特网服务提供商来通过因特网连接)。注意,上述仅为本发明的较佳实施例及所运用技术原理。本领域技术人员会理解,本发明不限于这里所述的特定实施例,对本领域技术人员来说能够进行各种明显的变化、重新调整和替代而不会脱离本发明的保护范围。因此,虽然通过以上实施例对本发明进行了较为详细的说明,但是本发明不仅仅限于以上实施例,在不脱离本发明构思的情况下,还可以包括更多其他等效实施例,而本发明的范围由所附的权利要求范围决定。

Claims (13)

1.一种视频处理方法,其特征在于,所述方法包括:
获取待处理视频中的每帧图像,并利用预先训练的机器学习模型,识别所述每帧图像的精彩度;
根据所述每帧图像中图像内容的相关性,将待处理视频分成至少两个连续视频段;
利用行列式点过程模型,在所述待处理视频的每帧图像中,求解得到多样性子集,其中,所述多样性子集中的每帧图像具有多样性;
调整所述多样性子集中的每帧图像的精彩度,其中,所述调整的操作包括将精彩度调高预设幅度;
在所述至少两个连续视频段中,按照调整后的所述每帧图像的精彩度确定至少一个候选连续视频段,并将所述至少一个候选连续视频段按照视频播放顺序组合成目标视频。
2.根据权利要求1所述的方法,其特征在于,所述利用预先训练的机器学习模型,识别所述每帧图像的精彩度,包括:
利用预先训练的至少一个精彩特征识别模型,分别识别每帧图像中的精彩特征,其中,所述精彩特征为影响视频精彩度的特征;
利用预先训练的精彩度识别模型,以每帧图像和与之对应的精彩特征为输入,输出每帧图像的精彩度。
3.根据权利要求2所述的方法,其特征在于,所述精彩度识别模型的训练过程包括:
获取视频样本集中每个视频样本的每个视频帧图像;
获取每个视频帧图像的标注信息,其中,所述标注信息包括精彩度结果;
将所述每个视频帧图像以及利用所述至少一个精彩特征识别模型识别出来的精彩特征作为输入,将每个视频帧图像的精彩度结果作为输出,利用循环神经网络训练得到所述精彩度识别模型。
4.根据权利要求3所述的方法,其特征在于,所述循环神经网络包括LSTM网络。
5.根据权利要求1所述的方法,其特征在于,所述根据所述每帧图像中图像内容的相关性,将待处理视频分成至少两个连续视频段,包括:
利用核时域分割方法,将待处理视频分成至少两个连续视频段,以使所述至少两个连续视频段中,各视频段的段内图像差异度的和满足预设条件;
其中,所述段内图像差异度的和是指视频段中的每一帧的帧特征向量在核函数空间的映射,各自与该视频段内所有帧的帧特征向量在核函数空间的映射的平均值的差异度的累加和,所述帧特征向量用帧的灰度直方图表示。
6.根据权利要求1所述的方法,其特征在于,所述在所述至少两个连续视频段中,按照所述每帧图像的精彩度确定至少一个候选连续视频段,包括:
在所述至少两个连续视频段中,按照所述每帧图像的精彩度,计算每个连续视频段的平均帧精彩度;
将所述平均帧精彩度满足预设精彩度阈值的连续视频段,作为所述至少一个候选连续视频段。
7.一种视频处理装置,其特征在于,所述装置包括:
精彩度识别模块,用于获取待处理视频中的每帧图像,并利用预先训练的机器学习模型,识别所述每帧图像的精彩度;
分段模块,用于根据所述每帧图像中图像内容的相关性,将待处理视频分成至少两个连续视频段;
多样性子集获取模块,用于利用行列式点过程模型,在所述待处理视频的每帧图像中,求解得到多样性子集,其中,所述多样性子集中的每帧图像具有多样性;
调整模块,用于调整所述多样性子集中的每帧图像的精彩度,其中,所述调整的操作包括将精彩度调高预设幅度;
组合模块,用于在所述至少两个连续视频段中,按照调整后的所述每帧图像的精彩度确定至少一个候选连续视频段,并将所述至少一个候选连续视频段按照视频播放顺序组合成目标视频。
8.根据权利要求7所述的装置,其特征在于,所述精彩度识别模块包括:
特征识别单元,用于利用预先训练的至少一个精彩特征识别模型,分别识别每帧图像中的精彩特征,其中,所述精彩特征为影响视频精彩度的特征;
精彩度识别单元,用于利用预先训练的精彩度识别模型,以每帧图像和与之对应的精彩特征为输入,输出每帧图像的精彩度。
9.根据权利要求8所述的装置,其特征在于,所述装置还包括精彩度识别模型训练模块,具体用于:
获取视频样本集中每个视频样本的每个视频帧图像;
获取每个视频帧图像的标注信息,其中,所述标注信息包括精彩度结果;
将所述每个视频帧图像以及利用所述至少一个精彩特征识别模型识别出来的精彩特征作为输入,将每个视频帧图像的精彩度结果作为输出,利用循环神经网络训练得到所述精彩度识别模型。
10.根据权利要求7所述的装置,其特征在于,所述分段模块具体用于:
利用核时域分割方法,将待处理视频分成至少两个连续视频段,以使所述至少两个连续视频段中,各视频段的段内图像差异度的和满足预设条件;
其中,所述段内图像差异度的和是指视频段中的每一帧的帧特征向量在核函数空间的映射,各自与该视频段内所有帧的帧特征向量在核函数空间的映射的平均值的差异度的累加和,所述帧特征向量用帧的灰度直方图表示。
11.根据权利要求7所述的装置,其特征在于,所述组合模块包括:
平均帧精彩度计算单元,用于在所述至少两个连续视频段中,按照所述每帧图像的精彩度,计算每个连续视频段的平均帧精彩度;
判断单元,用于将所述平均帧精彩度满足预设精彩度阈值的连续视频段,作为所述至少一个候选连续视频段。
12.一种服务器,其特征在于,包括:
一个或多个处理器;
存储器,用于存储一个或多个程序,
当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现如权利要求1-6中任一所述的视频处理方法。
13.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,该程序被处理器执行时实现如权利要求1-6中任一所述的视频处理方法。
CN201910319668.5A 2019-04-19 2019-04-19 视频处理方法、装置、服务器及存储介质 Active CN111836118B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910319668.5A CN111836118B (zh) 2019-04-19 2019-04-19 视频处理方法、装置、服务器及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910319668.5A CN111836118B (zh) 2019-04-19 2019-04-19 视频处理方法、装置、服务器及存储介质

Publications (2)

Publication Number Publication Date
CN111836118A CN111836118A (zh) 2020-10-27
CN111836118B true CN111836118B (zh) 2022-09-06

Family

ID=72912132

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910319668.5A Active CN111836118B (zh) 2019-04-19 2019-04-19 视频处理方法、装置、服务器及存储介质

Country Status (1)

Country Link
CN (1) CN111836118B (zh)

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113032624B (zh) * 2021-04-21 2023-07-25 北京奇艺世纪科技有限公司 视频观影兴趣度确定方法、装置、电子设备及介质
CN113676671B (zh) * 2021-09-27 2023-06-23 北京达佳互联信息技术有限公司 视频剪辑方法、装置、电子设备及存储介质
CN115866347B (zh) * 2023-02-22 2023-08-01 北京百度网讯科技有限公司 视频处理方法、装置、电子设备
CN117135444A (zh) * 2023-03-10 2023-11-28 荣耀终端有限公司 一种基于强化学习的选帧决策方法及装置

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106162223A (zh) * 2016-05-27 2016-11-23 北京奇虎科技有限公司 一种新闻视频切分方法和装置
CN107077595A (zh) * 2014-09-08 2017-08-18 谷歌公司 选择和呈现代表性帧以用于视频预览

Family Cites Families (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20060020597A1 (en) * 2003-11-26 2006-01-26 Yesvideo, Inc. Use of image similarity in summarizing a collection of visual images
CN1968358A (zh) * 2006-09-14 2007-05-23 浙江大学 基于时间约束的频繁镜头模式的视频摘要自动生成方法
CN102324037A (zh) * 2011-09-06 2012-01-18 天津工业大学 一种基于支持向量机和遗传算法的镜头边界检测方法
US10572735B2 (en) * 2015-03-31 2020-02-25 Beijing Shunyuan Kaihua Technology Limited Detect sports video highlights for mobile computing devices
US10390082B2 (en) * 2016-04-01 2019-08-20 Oath Inc. Computerized system and method for automatically detecting and rendering highlights from streaming videos
CN106650922B (zh) * 2016-09-29 2019-05-03 清华大学 硬件神经网络转换方法、计算装置、软硬件协作系统
GB2565999A (en) * 2017-05-15 2019-03-06 Antony Clark Roger System for producing video recordings
CN107484017B (zh) * 2017-07-25 2020-05-26 天津大学 基于注意力模型的有监督视频摘要生成方法
CN107995536B (zh) * 2017-11-28 2020-01-21 百度在线网络技术(北京)有限公司 一种提取视频预览的方法、装置、设备和计算机存储介质
CN108419145A (zh) * 2018-05-04 2018-08-17 腾讯科技(深圳)有限公司 一种视频摘要的生成方法和装置以及计算机可读存储介质
CN109121021A (zh) * 2018-09-28 2019-01-01 北京周同科技有限公司 一种视频集锦的生成方法、装置、电子设备及存储介质

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107077595A (zh) * 2014-09-08 2017-08-18 谷歌公司 选择和呈现代表性帧以用于视频预览
CN106162223A (zh) * 2016-05-27 2016-11-23 北京奇虎科技有限公司 一种新闻视频切分方法和装置

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
基于稀疏编码算法的多视频摘要研究;马亚茹;《中国优秀硕士学位论文全文数据库 信息科技辑》;20190415;全文 *

Also Published As

Publication number Publication date
CN111836118A (zh) 2020-10-27

Similar Documents

Publication Publication Date Title
CN111836118B (zh) 视频处理方法、装置、服务器及存储介质
CN109117777B (zh) 生成信息的方法和装置
CN108307229B (zh) 一种影音数据的处理方法及设备
US11295497B2 (en) Dynamic subtitle enhancement
EP2568429A1 (en) Method and system for pushing individual advertisement based on user interest learning
Lee et al. Unsupervised domain adaptation for semantic segmentation by content transfer
US20140257995A1 (en) Method, device, and system for playing video advertisement
US8805123B2 (en) System and method for video recognition based on visual image matching
CN108460098B (zh) 信息推荐方法、装置和计算机设备
CN110688524B (zh) 视频检索方法、装置、电子设备及存储介质
CN110675433A (zh) 视频处理方法、装置、电子设备及存储介质
CN107492383B (zh) 直播内容的筛选方法、装置、设备及存储介质
JP2011082958A (ja) ビデオ検索システムおよびそのためのコンピュータプログラム
CN111553923B (zh) 一种图像处理方法、电子设备及计算机可读存储介质
US10721519B2 (en) Automatic generation of network pages from extracted media content
CN111209431A (zh) 一种视频搜索方法、装置、设备及介质
CN112381104A (zh) 一种图像识别方法、装置、计算机设备及存储介质
US10769247B2 (en) System and method for interacting with information posted in the media
CN111209897A (zh) 视频处理的方法、装置和存储介质
CN112419132B (zh) 视频水印检测方法、装置、电子设备及存储介质
CN108345700B (zh) 文章代表图片的选取方法、装置和计算机设备
CN111191591B (zh) 一种水印检测、视频处理方法和相关设备
CN113923504B (zh) 视频预览动图生成方法和装置
CN110769291B (zh) 一种视频处理方法、装置、电子设备及存储介质
CN111914850A (zh) 图片特征提取方法、装置、服务器和介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant