CN113784227A - 一种视频切片方法、装置、电子设备及存储介质 - Google Patents

一种视频切片方法、装置、电子设备及存储介质 Download PDF

Info

Publication number
CN113784227A
CN113784227A CN202010525563.8A CN202010525563A CN113784227A CN 113784227 A CN113784227 A CN 113784227A CN 202010525563 A CN202010525563 A CN 202010525563A CN 113784227 A CN113784227 A CN 113784227A
Authority
CN
China
Prior art keywords
video
video frames
neural network
preset
similarity
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202010525563.8A
Other languages
English (en)
Inventor
成超
蔡媛
樊鸿飞
汪贤
鲁方波
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Kingsoft Cloud Network Technology Co Ltd
Original Assignee
Beijing Kingsoft Cloud Network Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Kingsoft Cloud Network Technology Co Ltd filed Critical Beijing Kingsoft Cloud Network Technology Co Ltd
Priority to CN202010525563.8A priority Critical patent/CN113784227A/zh
Publication of CN113784227A publication Critical patent/CN113784227A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/80Generation or processing of content or additional data by content creator independently of the distribution process; Content per se
    • H04N21/83Generation or processing of protective or descriptive data associated with content; Content structuring
    • H04N21/845Structuring of content, e.g. decomposing content into time segments
    • H04N21/8456Structuring of content, e.g. decomposing content into time segments by decomposing the content in the time domain, e.g. in time segments
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/43Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
    • H04N21/44Processing of video elementary streams, e.g. splicing a video clip retrieved from local storage with an incoming video stream or rendering scenes according to encoded video stream scene graphs
    • H04N21/44008Processing of video elementary streams, e.g. splicing a video clip retrieved from local storage with an incoming video stream or rendering scenes according to encoded video stream scene graphs involving operations for analysing video streams, e.g. detecting features or characteristics in the video stream

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Signal Processing (AREA)
  • Multimedia (AREA)
  • Theoretical Computer Science (AREA)
  • General Health & Medical Sciences (AREA)
  • Computing Systems (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Biomedical Technology (AREA)
  • Molecular Biology (AREA)
  • Biophysics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Artificial Intelligence (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Image Analysis (AREA)

Abstract

本申请实施例提供了一种视频切片方法、装置、电子设备及存储介质,涉及视频处理技术领域,该方法包括:将待切片视频中的视频帧依次输入特征向量提取模型,特征向量提取模型基于预设训练集对神经网络模型训练得到,预设训练集中包括多个镜头的视频帧序列、同一视频帧序列包括的视频帧之间的预设相似度以及不同视频帧序列包括的视频帧之间的预设相似度;针对待切片视频中的每个视频帧,获取特征向量提取模型输出的该视频帧的特征向量,然后计算两个相邻视频帧的特征向量之间的相似度,若两个相邻视频帧的特征向量之间的相似度小于预设相似度阈值,则在两个相邻视频帧之间进行视频切片。采用本申请可以提高视频切片的精度。

Description

一种视频切片方法、装置、电子设备及存储介质
技术领域
本申请涉及视频处理技术领域,特别是涉及一种视频切片方法、装置、电子设备及存储介质。
背景技术
视频切片是指将一段视频以镜头为单位切分成多个视频片段,每个视频片段可称为一个镜头。其中,一个镜头为摄像设备在同一次拍摄过程中,拍摄的一段具有连续时空关系的视频帧序列。
在相关技术中,通常使用快进运动图像压缩(Fast Forward Mpeg,FFmpeg)工具对视频进行视频切片。例如,如图1所示,图1为一段足球直播视频的视频帧序列,该足球直播视频的视频帧序列由4段连续镜头组成。镜头一为高空场景俯瞰整个防守禁区,球员完成射门的视频帧序列;镜头二为对球员特写的视频帧序列;镜头三为射门回放的视频帧序列;镜头四为对对方球员特写的视频帧序列。其中,图1中剪刀所示的位置为FFmpeg工具对该足球直播视频进行视频切片的位置。
然而,使用FFmpeg工具进行视频切片的过程中,存在对视频切片的位置判断错误,导致将一个镜头切分为两个视频切片问题。例如,如图2所示,图2为一段摄像设备拍摄的14号球衣以及27号球衣的视频帧序列,在图2所示的视频中,所有视频帧均属于同一镜头,但是,画面由14号球衣移动到27号球衣的过程中,由于视频帧中的内容出现了变化,因此,FFmpeg工具容易将图2所示的视频帧误判为多个镜头的视频帧,进而将图2所示的视频帧序列处理为多个视频切片,使得视频切片的精度较低。
发明内容
本申请实施例的目的在于提供一种视频切片方法、装置、电子设备及存储介质,以提高视频切片的精度。具体技术方案如下:
第一方面,本申请实施例提供一种视频切片方法,所述方法包括:
将待切片视频中的视频帧依次输入特征向量提取模型,所述特征向量提取模型基于预设训练集对神经网络模型训练得到,所述预设训练集中包括多个镜头的视频帧序列、同一视频帧序列包括的视频帧之间的预设相似度以及不同视频帧序列包括的视频帧之间的预设相似度;
针对所述待切片视频中的每个视频帧,获取所述特征向量提取模型输出的所述视频帧的特征向量;
计算两个相邻视频帧的特征向量之间的相似度,若所述两个相邻视频帧的特征向量之间的相似度小于预设相似度阈值,则在所述两个相邻视频帧之间进行视频切片。
在一种可能的实现方式中,在将待切片视频中的视频帧依次输入特征向量提取模型之前,所述方法还包括:
将待切片视频中的各视频帧缩放至预设像素尺寸。
在一种可能的实现方式中,在将待切片视频中的视频帧依次输入特征向量提取模型之前,所述方法还包括:
获取所述预设训练集;
分别将所述预设训练集中的每两个视频帧输入神经网络模型,获取所述神经网络模型输出的两个视频帧的特征向量,计算所述两个视频帧的特征向量之间的相似度;
基于计算得到的所述两个视频帧的特征向量之间的相似度以及所述两个视频帧之间的预设相似度对所述神经网络模型进行训练,得到所述特征向量提取模型。
在一种可能的实现方式中,所述基于计算得到的所述两个视频帧的特征向量之间的相似度以及所述两个视频帧之间的预设相似度对所述神经网络模型进行训练,得到所述特征向量提取模型,包括:
根据计算得到的所述两个视频帧的特征向量之间的相似度,以及所述两个视频帧之间的预设相似度,计算损失函数值;
根据所述损失函数值,确定所述神经网络模型是否收敛;
若所述神经网络模型收敛,则结束训练,得到所述特征向量提取模型;
若所述神经网络模型未收敛,则根据所述损失函数值,调整所述神经网络模型的参数,返回分别将所述预设训练集中的每两个视频帧输入所述神经网络模型,获取所述神经网络模型输出的两个视频帧的特征向量,计算所述两个视频帧的特征向量之间的相似度的步骤,直至所述神经网络模型收敛时,得到所述特征向量提取模型。
在一种可能的实现方式中,所述预设训练集中的视频帧序列包括的视频帧的像素尺寸为所述预设像素尺寸。
第二方面,本申请实施例提供一种视频切片装置,所述装置包括:
输入模块,用于将待切片视频中的视频帧依次输入特征向量提取模型,所述特征向量提取模型基于预设训练集对神经网络模型训练得到,所述预设训练集中包括多个镜头的视频帧序列、同一视频帧序列包括的视频帧之间的预设相似度以及不同视频帧序列包括的视频帧之间的预设相似度;
获取模块,用于针对所述待切片视频中的每个视频帧,获取所述特征向量提取模型输出的所述视频帧的特征向量;
计算模块,用于计算两个相邻视频帧的特征向量之间的相似度;
切片模块,用于若所述两个相邻视频帧的特征向量之间的相似度小于预设相似度阈值,则在所述两个相邻视频帧之间进行视频切片。
在一种可能的实现方式中,所述装置还包括:
缩放模块,用于将待切片视频中的各视频帧缩放至预设像素尺寸。
在一种可能的实现方式中,所述装置还包括:训练模块
所述获取模块,还用于获取所述预设训练集;
所述输入模块,还用于分别将所述预设训练集中的每两个视频帧输入神经网络模型;
所述获取模块,还用于获取所述神经网络模型输出的两个视频帧的特征向量;
所述计算模块,还用于计算所述两个视频帧的特征向量之间的相似度;
所述训练模块,用于基于计算得到的所述两个视频帧的特征向量之间的相似度以及所述两个视频帧之间的预设相似度对所述神经网络模型进行训练,得到所述特征向量提取模型。
在一种可能的实现方式中,所述训练模块,具体用于:
根据计算得到的所述两个视频帧的特征向量之间的相似度,以及所述两个视频帧之间的预设相似度,计算损失函数值;
根据所述损失函数值,确定所述神经网络模型是否收敛;
若所述神经网络模型收敛,则结束训练,得到所述特征向量提取模型;
若所述神经网络模型未收敛,则根据所述损失函数值,调整所述神经网络模型的参数,触发所述输入模块分别将所述预设训练集中的每两个视频帧输入所述神经网络模型,以及所述获取模块获取所述神经网络模型输出的两个视频帧的特征向量,以及所述计算模块计算所述两个视频帧的特征向量之间的相似度,直至所述神经网络模型收敛时,得到所述特征向量提取模型。
在一种可能的实现方式中,所述预设训练集中的视频帧序列包括的视频帧的像素尺寸为所述预设像素尺寸。
第三方面,本申请实施例提供了一种电子设备,包括处理器和存储器;
存储器,用于存放计算机程序;
处理器,用于执行存储器上所存放的程序时,实现第一方面所述的方法步骤。
第四方面,本申请实施例提供了一种计算机可读存储介质,所述计算机可读存储介质内存储有计算机程序,所述计算机程序被处理器执行时实现第一方面所述的方法步骤。
第五方面,本申请实施例提供了一种包含指令的计算机程序产品,当其在计算机上运行时,使得计算机执行上述第一方面所述的方法。
采用本申请实施例提供的视频切片方法、装置、电子设备及存储介质,可以将待切片视频中的视频帧依次输入特征向量提取模型,针对待切片视频中的每个视频帧,获取特征向量提取模型输出的该视频帧的特征向量,然后计算两个相邻视频帧的特征向量之间的相似度,从而在确定相似度小于预设相似度阈值的情况下,在两个相邻视频帧之间进行视频切片。由于特征向量提取模型是基于预设训练集对神经网络模型训练得到的,预设训练集中包括了同一镜头对应的视频帧之间的预设相似度以及不同镜头对应的视频帧之间的相似度,从而使得训练得到的特征提取模型提取出的同一镜头的两个视频帧的特征向量之间的相似度较高,可以避免在属于同一镜头的两个视频帧之间进行视频切片,提高了视频切片的精度。
当然,实施本申请的任一产品或方法并不一定需要同时达到以上所述的所有优点。
附图说明
为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为背景技术提供的一种视频切片的位置的示例性示意图;
图2为背景技术提供的一种待切片视频的视频帧序列的示例性示意图;
图3为本申请实施例提供的一种视频切片方法的流程图;
图4为本申请实施例提供的另一种视频切片方法的流程图;
图5为本申请实施例提供的一种视频切片方法的流程示意图;
图6为本申请实施例提供的一种训练特征向量提取模型的方法的流程图;
图7为本申请实施例提供的一种神经网络模型的结构示意图;
图8为本申请实施例提供的一种视频切片装置的结构示意图;
图9为本申请实施例提供的另一种视频切片装置的结构示意图;
图10为本申请实施例提供的一种电子设备的结构示意图。
具体实施方式
下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
本申请实施例提供一种视频切片方法,该方法应用于电子设备,该电子设备可以为手机、电脑等具有视频处理能力的终端,如图3所示,该方法包括:
S301、将待切片视频中的视频帧依次输入特征向量提取模型。
其中,特征向量提取模型基于预设训练集对神经网络模型训练得到,预设训练集中包括多个镜头的视频帧序列、同一视频帧序列包括的视频帧之间的预设相似度以及不同视频帧序列包括的视频帧之间的预设相似度。
可选地,同一视频帧序列,即同一个镜头对应的视频帧之间的预设相似度可以为1;不同视频帧序列,即不同镜头对应的视频帧之间的预设相似度可以为0。当然本申请实施例中预设相似度的取值不限于此。
S302、针对待切片视频中的每个视频帧,获取特征向量提取模型输出的该视频帧的特征向量。
S303、计算两个相邻视频帧的特征向量之间的相似度,若两个相邻视频帧的特征向量之间相似度小于预设相似度阈值,则在两个相邻视频帧之间进行视频切片。
其中,两个相邻视频帧的特征向量之间的相似度可以用余弦距离或者欧式距离表示。以余弦距离为例,可以计算两个相邻视频帧的特征向量之间的余弦相似度。
余弦相似度的取值范围可以为0至1之间的自然数,余弦相似度越大,代表两个相邻视频帧之间的相似度越高。
可以理解的是,因对待切片视频的切片位置在该视频的第一个视频帧之后,所以获取特征向量输出的第一个视频帧的特征向量后,存储第一个视频帧对应的特征向量,在获取第二个视频帧的特征向量后,可以计算第一个视频帧与第二个视频帧的特征向量之间的相似度,并基于预设相似度阈值确定是否在第一个视频帧与第二个视频帧之间进行切片。然后输入第三个视频帧,并获取第三个视频帧的特征向量,计算第二个视频帧与第三个视频帧的特征向量之间的相似度,依次类推,直至计算该待切片视频的倒数第二个视频帧与最后一个视频帧的特征向量之间的相似度。
采用本申请实施例提供的视频切片方法,可以将待切片视频中的视频帧依次输入特征向量提取模型,针对待切片视频中的每个视频帧,获取特征向量提取模型输出的该视频帧的特征向量,然后计算两个相邻视频帧的特征向量之间的相似度,从而在确定相似度小于预设相似度阈值的情况下,在两个相邻视频帧之间进行视频切片。由于特征向量提取模型是基于预设训练集对神经网络模型训练得到的,预设训练集中包括了同一镜头对应的视频帧之间的预设相似度以及不同镜头对应的视频帧之间的相似度,从而使得训练得到的特征提取模型提取出的同一镜头的两个视频帧的特征向量之间的相似度较高,可以避免在属于同一镜头的两个视频帧之间进行视频切片,提高了视频切片的精度。
可选地,在上述S303、计算两个相邻视频帧的特征向量之间的相似度之后,若两个相邻视频帧的特征向量之间的相似度大于或等于预设相似度阈值,则确定两个相邻视频帧属于同一个镜头,则不在这两个视频帧之间进行视频切片。
在本申请的另一实施例中,如图4所示,在上述S301、将待切片视频中的视频帧依次输入特征向量提取模型之前,该方法还包括:
S401、将待切片视频中的各视频帧缩放至预设像素尺寸。
其中,将视频帧缩放至预设像素尺寸后,预设像素尺寸的视频帧能够保留缩放前的视频帧所包含的主要信息。预设像素尺寸具体可以用分辨率标识,例如可以为64x64的分辨率。当然,预设像素尺寸也可以大于64x64,本申请实施例对此不作限定。分辨率越高,后续的计算量越大,但分辨率过低,将导致缩放后的视频帧丢失原始视频帧中的重要特征,所以一般不会将视频帧缩放至64x64以下。
由于视频帧的原始像素尺寸较大,将视频帧缩放至预设像素尺寸可以减小对视频帧处理过程的计算量,且依据视频帧中的主要特征可以确定出两个视频帧的相似性,所以本申请实施例实现了在降低计算量的前提下提高视频切片的精度。
如图5所示,本申请实施例提供的视频切片方法具体包括图5示出的三个阶段,分别为预处理阶段、评分阶段以及决策阶段。
其中,在预处理阶段,可以按照统一标准对待切片视频包括的视频帧进行预处理,将每个视频帧缩放至64x64的分辨率。
在评分阶段,按顺序将缩放后的每个视频帧输入特征向量提取模型,获取特征向量输出模型输出的视频帧的特征向量,并计算两个相邻视频帧的特征向量之间的相似度,计算得到的相似度也可称为相似度分数。
其中,特征向量模型输出的视频帧的特征向量可以为128维的特征向量。
在决策阶段,可判断评分阶段计算出的相似度是否小于预设相似度阈值,若小于,则在两个相邻视频帧之间进行视频切片;若不小于,则不在两个相邻视频帧之间进行视频切片。
作为示例,预设相似度阈值可以为0.75,若两个相邻视频帧的特征向量之间的相似度小于0.75,则认为这两个相邻视频帧属于不同的镜头,在这两个相邻视频帧之间进行视频切片;若两个相邻视频帧的特征向量之间的相似度大于或等于0.75,则认为这两个相邻视频帧属于相同的镜头,不在这两个相邻视频帧之间进行视频切片。
以下对训练特征向量提取模型的方法进行介绍,如图6所示,该方法包括:
S601、获取预设训练集。
具体地,可以准备n个不同种类的视频,然后通过人工对这n个视频进行视频切片,得到m个镜头对应的视频帧序列,因为每个视频可以被拆分为一个或多个镜头,所以m大于等于n。
然后可分别将上述视频帧序列中的每个视频帧压缩为预设像素尺寸,即预设训练集中的视频帧序列包括的视频帧的像素尺寸为预设像素尺寸。
S602、分别将预设训练集中的每两个视频帧输入神经网络模型,获取神经网络模型输出的两个视频帧的特征向量,计算两个视频帧的特征向量之间的相似度。
其中,每次可将预设训练集中的两个视频帧输入神经网络模型。输入神经网络模型的两个视频帧可以属于同一视频帧序列也可属于不同视频帧序列。在一种实施方式中,可以设置输入同一视频帧序列的两个视频帧与输入不同视频帧序列的两个视频帧之间的比例,比如各为50%。
本申请实施例中的神经网络模型具体可以为一个轻量级的卷积神经网络,作为示例,如图7所示,该卷积神经网络可以包括6个卷积层、2个池化层以及1个全局池化层。将视频帧输入该卷积神经网络后,卷积层可提取视频帧的抽象特征,池化层可以降低计算维度,对抽象特征进行降维操作,最后全局池化层输出一个特定维度的特征向量,比如,特定维度可以为128维。该特征向量用于标识视频帧的抽象特征。图7仅为一种示例,本申请实施例中应用的卷积神经网络的结构不限于此。
S603、基于计算得到的两个视频帧的特征向量之间的相似度以及两个视频帧之间的预设相似度对神经网络模型进行训练,得到特征向量提取模型。
具体地,可根据计算得到的两个视频帧的特征向量之间相似度,以及两个视频帧之间的预设相似度计算损失函数值,根据该损失函数值,确定神经网络模型是否收敛。
若神经网络模型收敛,则结束训练,得到特征向量提取模型。
若神经网络模型未收敛,则根据损失函数值,调整神经网络模型的参数,然后返回上述S602、分别将预设训练集中的每两个视频帧输入神经网络模型,获取神经网络模型输出的两个视频帧的特征向量,计算两个视频帧的特征向量之间的相似度,直至神经网络模型收敛时,得到特征向量提取模型。
换言之,若神经网络模型未收敛,则根据损失函数值调整神经网络模型的参数,然后通过预设训练集继续对调整参数后的神经网络模型进行训练,直至神经网络模型收敛。
在本申请实施例中,可以基于损失函数值以及反向传播算法,调整神经网络模型中的参数。
比如,若输入的两个视频帧属于同一视频帧序列,则可确定这两个视频帧的预设相似度为1,若计算得到的这两个视频帧的特征向量的余弦相似度为0.2,与预设相似度相差较大,则基于预设相似度1和计算得到的余弦相似0.2计算损失函数,并基于损失函数值调整神经网络模型中的参数。然后再将预设训练集中的另外两个视频帧输入调整后的神经网络模型,并执行S602-S603,直至神经网络模型收敛,得到特征向量提取模型。
采用该方法,由于训练神经网络模型时采用的是准确的人工进行视频切片得到的视频帧序列,在训练过程中依据计算得到的两个视频帧的相似度与预设相似度对神经网络模型进行训练,训练的目的是使得特征向量提取模型输出的同一个镜头的视频帧的特征向量具有较高的相似度。所以基于此训练得到的特征向量提取模型可以准确地对一个镜头下的两个视频帧输出相似度较高的特征向量,避免了同一个镜头因相邻两个画面变化较大而出现的视频切片错误的问题。
基于相同的技术构思,本申请实施例还提供了一种视频切片装置,如图8所示,该装置包括:输入模块801、获取模块802、计算模块803以及切片模块804。
输入模块801,用于将待切片视频中的视频帧依次输入特征向量提取模型,特征向量提取模型基于预设训练集对神经网络模型训练得到,预设训练集中包括多个镜头的视频帧序列、同一视频帧序列包括的视频帧之间的预设相似度以及不同视频帧序列包括的视频帧之间的预设相似度;
获取模块802,用于针对待切片视频中的每个视频帧,获取特征向量提取模型输出的该视频帧的特征向量;
计算模块803,用于计算两个相邻视频帧的特征向量之间的相似度;
切片模块804,用于若两个相邻视频帧的特征向量之间的相似度小于预设相似度阈值,则在两个相邻视频帧之间进行视频切片。
可选地,如图9所示,该装置还包括:
缩放模块901,用于将待切片视频中的各视频帧缩放至预设像素尺寸。
可选地,该装置还包括:训练模块902。
获取模块802,还用于获取预设训练集;
输入模块801,还用于分别将预设训练集中的每两个视频帧输入神经网络模型;
获取模块802,还用于获取神经网络模型输出的两个视频帧的特征向量;
计算模块803,还用于计算两个视频帧的特征向量之间的相似度;
训练模块902,用于基于计算得到的两个视频帧的特征向量之间的相似度以及两个视频帧之间的预设相似度对神经网络模型进行训练,得到特征向量提取模型。
可选地,训练模块902,具体用于:
根据计算得到的两个视频帧的特征向量之间的相似度,以及两个视频帧之间的预设相似度,计算损失函数值;
根据损失函数值,确定神经网络模型是否收敛;
若神经网络模型收敛,则结束训练,得到特征向量提取模型;
若神经网络模型未收敛,则根据损失函数值,调整神经网络模型的参数,触发输入模块801分别将预设训练集中的每两个视频帧输入神经网络模型,以及获取模块802获取神经网络模型输出的两个视频帧的特征向量,以及计算模块803计算两个视频帧的特征向量之间的相似度,直至神经网络模型收敛时,得到特征向量提取模型。
可选地,预设训练集中的视频帧序列包括的视频帧的像素尺寸为预设像素尺寸。
本申请实施例还提供了一种电子设备,如图10所示,包括处理器1001和存储器1003。
存储器1003,用于存放计算机程序;
处理器1001,用于执行存储器1003上所存放的程序时,实现如上述方法实施例中的方法步骤。
可选地,电子设备中还包括通信接口1002和通信总线1004,其中,处理器1001,通信接口1002,存储器1003通过通信总线1004完成相互间的通信。
上述电子设备提到的通信总线可以是外设部件互连标准(英文:PeripheralComponent Interconnect,简称:PCI)总线或扩展工业标准结构(英文:Extended IndustryStandard Architecture,简称:EISA)总线等。该通信总线可以分为地址总线、数据总线、控制总线等。为便于表示,图中仅用一条粗线表示,但并不表示仅有一根总线或一种类型的总线。
通信接口用于上述电子设备与其他设备之间的通信。
存储器可以包括随机存取存储器(英文:Random Access Memory,简称:RAM),也可以包括非易失性存储器(英文:Non-Volatile Memory,简称:NVM),例如至少一个磁盘存储器。可选的,存储器还可以是至少一个位于远离前述处理器的存储装置。
上述的处理器可以是通用处理器,包括中央处理器(英文:Central ProcessingUnit,简称:CPU)、网络处理器(英文:Network Processor,简称:NP)等;还可以是数字信号处理器(英文:Digital Signal Processing,简称:DSP)、专用集成电路(英文:ApplicationSpecific Integrated Circuit,简称:ASIC)、现场可编程门阵列(英文:Field-Programmable Gate Array,简称:FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。
基于相同的技术构思,本申请实施例还提供了一种计算机可读存储介质,所述计算机可读存储介质内存储有计算机程序,所述计算机程序被处理器执行时实现上述视频切片方法步骤。
基于相同的技术构思,本申请实施例还提供了一种包含指令的计算机程序产品,当其在计算机上运行时,使得计算机执行上述视频切片方法步骤。
在上述实施例中,可以全部或部分地通过软件、硬件、固件或者其任意组合来实现。当使用软件实现时,可以全部或部分地以计算机程序产品的形式实现。所述计算机程序产品包括一个或多个计算机指令。在计算机上加载和执行所述计算机程序指令时,全部或部分地产生按照本申请实施例所述的流程或功能。所述计算机可以是通用计算机、专用计算机、计算机网络、或者其他可编程装置。所述计算机指令可以存储在计算机可读存储介质中,或者从一个计算机可读存储介质向另一个计算机可读存储介质传输,例如,所述计算机指令可以从一个网站站点、计算机、服务器或数据中心通过有线(例如同轴电缆、光纤、数字用户线(DSL))或无线(例如红外、无线、微波等)方式向另一个网站站点、计算机、服务器或数据中心进行传输。所述计算机可读存储介质可以是计算机能够存取的任何可用介质或者是包含一个或多个可用介质集成的服务器、数据中心等数据存储设备。所述可用介质可以是磁性介质,(例如,软盘、硬盘、磁带)、光介质(例如,DVD)、或者半导体介质(例如固态硬盘Solid State Disk(SSD))等。
需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
本说明书中的各个实施例均采用相关的方式描述,各个实施例之间相同相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。尤其,对于装置实施例而言,由于其基本相似于方法实施例,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。
以上所述仅为本申请的较佳实施例而已,并非用于限定本申请的保护范围。凡在本申请的精神和原则之内所作的任何修改、等同替换、改进等,均包含在本申请的保护范围内。

Claims (12)

1.一种视频切片方法,其特征在于,所述方法包括:
将待切片视频中的视频帧依次输入特征向量提取模型,所述特征向量提取模型基于预设训练集对神经网络模型训练得到,所述预设训练集中包括多个镜头的视频帧序列、同一视频帧序列包括的视频帧之间的预设相似度以及不同视频帧序列包括的视频帧之间的预设相似度;
针对所述待切片视频中的每个视频帧,获取所述特征向量提取模型输出的所述视频帧的特征向量;
计算两个相邻视频帧的特征向量之间的相似度,若所述两个相邻视频帧的特征向量之间的相似度小于预设相似度阈值,则在所述两个相邻视频帧之间进行视频切片。
2.根据权利要求1所述的方法,其特征在于,在将待切片视频中的视频帧依次输入特征向量提取模型之前,所述方法还包括:
将待切片视频中的各视频帧缩放至预设像素尺寸。
3.根据权利要求1或2所述的方法,其特征在于,在将待切片视频中的视频帧依次输入特征向量提取模型之前,所述方法还包括:
获取所述预设训练集;
分别将所述预设训练集中的每两个视频帧输入神经网络模型,获取所述神经网络模型输出的两个视频帧的特征向量,计算所述两个视频帧的特征向量之间的相似度;
基于计算得到的所述两个视频帧的特征向量之间的相似度以及所述两个视频帧之间的预设相似度对所述神经网络模型进行训练,得到所述特征向量提取模型。
4.根据权利要求3所述的方法,其特征在于,所述基于计算得到的所述两个视频帧的特征向量之间的相似度以及所述两个视频帧之间的预设相似度对所述神经网络模型进行训练,得到所述特征向量提取模型,包括:
根据计算得到的所述两个视频帧的特征向量之间的相似度,以及所述两个视频帧之间的预设相似度,计算损失函数值;
根据所述损失函数值,确定所述神经网络模型是否收敛;
若所述神经网络模型收敛,则结束训练,得到所述特征向量提取模型;
若所述神经网络模型未收敛,则根据所述损失函数值,调整所述神经网络模型的参数,返回分别将所述预设训练集中的每两个视频帧输入所述神经网络模型,获取所述神经网络模型输出的两个视频帧的特征向量,计算所述两个视频帧的特征向量之间的相似度的步骤,直至所述神经网络模型收敛时,得到所述特征向量提取模型。
5.根据权利要求2所述的方法,其特征在于,所述预设训练集中的视频帧序列包括的视频帧的像素尺寸为所述预设像素尺寸。
6.一种视频切片装置,其特征在于,所述装置包括:
输入模块,用于将待切片视频中的视频帧依次输入特征向量提取模型,所述特征向量提取模型基于预设训练集对神经网络模型训练得到,所述预设训练集中包括多个镜头的视频帧序列、同一视频帧序列包括的视频帧之间的预设相似度以及不同视频帧序列包括的视频帧之间的预设相似度;
获取模块,用于针对所述待切片视频中的每个视频帧,获取所述特征向量提取模型输出的所述视频帧的特征向量;
计算模块,用于计算两个相邻视频帧的特征向量之间的相似度;
切片模块,用于若所述两个相邻视频帧的特征向量之间的相似度小于预设相似度阈值,则在所述两个相邻视频帧之间进行视频切片。
7.根据权利要求6所述的装置,其特征在于,所述装置还包括:
缩放模块,用于将待切片视频中的各视频帧缩放至预设像素尺寸。
8.根据权利要求6或7所述的装置,其特征在于,所述装置还包括:训练模块;
所述获取模块,还用于获取所述预设训练集;
所述输入模块,还用于分别将所述预设训练集中的每两个视频帧输入神经网络模型;
所述获取模块,还用于获取所述神经网络模型输出的两个视频帧的特征向量;
所述计算模块,还用于计算所述两个视频帧的特征向量之间的相似度;
所述训练模块,用于基于计算得到的所述两个视频帧的特征向量之间的相似度以及所述两个视频帧之间的预设相似度对所述神经网络模型进行训练,得到所述特征向量提取模型。
9.根据权利要求8所述的装置,其特征在于,所述训练模块,具体用于:
根据计算得到的所述两个视频帧的特征向量之间的相似度,以及所述两个视频帧之间的预设相似度,计算损失函数值;
根据所述损失函数值,确定所述神经网络模型是否收敛;
若所述神经网络模型收敛,则结束训练,得到所述特征向量提取模型;
若所述神经网络模型未收敛,则根据所述损失函数值,调整所述神经网络模型的参数,触发所述输入模块分别将所述预设训练集中的每两个视频帧输入所述神经网络模型,以及所述获取模块获取所述神经网络模型输出的两个视频帧的特征向量,以及所述计算模块计算所述两个视频帧的特征向量之间的相似度,直至所述神经网络模型收敛时,得到所述特征向量提取模型。
10.根据权利要求7所述的装置,其特征在于,所述预设训练集中的视频帧序列包括的视频帧的像素尺寸为所述预设像素尺寸。
11.一种电子设备,其特征在于,包括处理器和存储器;
存储器,用于存放计算机程序;
处理器,用于执行存储器上所存放的程序时,实现权利要求1-5任一所述的方法步骤。
12.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质内存储有计算机程序,所述计算机程序被处理器执行时实现权利要求1-5任一所述的方法步骤。
CN202010525563.8A 2020-06-10 2020-06-10 一种视频切片方法、装置、电子设备及存储介质 Pending CN113784227A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010525563.8A CN113784227A (zh) 2020-06-10 2020-06-10 一种视频切片方法、装置、电子设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010525563.8A CN113784227A (zh) 2020-06-10 2020-06-10 一种视频切片方法、装置、电子设备及存储介质

Publications (1)

Publication Number Publication Date
CN113784227A true CN113784227A (zh) 2021-12-10

Family

ID=78834808

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010525563.8A Pending CN113784227A (zh) 2020-06-10 2020-06-10 一种视频切片方法、装置、电子设备及存储介质

Country Status (1)

Country Link
CN (1) CN113784227A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114862704A (zh) * 2022-04-25 2022-08-05 陕西西影数码传媒科技有限责任公司 影像色彩修复的镜头自动划分方法
CN115314731A (zh) * 2022-06-23 2022-11-08 浙江大华技术股份有限公司 视频处理系统、方法、计算机设备和存储介质

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108647641A (zh) * 2018-05-10 2018-10-12 北京影谱科技股份有限公司 基于双路模型融合的视频行为分割方法和装置
CN110460838A (zh) * 2019-07-11 2019-11-15 平安科技(深圳)有限公司 一种镜头切换的检测方法、装置及计算机设备
CN110490119A (zh) * 2019-08-14 2019-11-22 腾讯科技(深圳)有限公司 重复视频标记方法、装置和计算机可读存储介质
CN111090807A (zh) * 2019-12-16 2020-05-01 秒针信息技术有限公司 一种基于知识图谱的用户识别方法及装置

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108647641A (zh) * 2018-05-10 2018-10-12 北京影谱科技股份有限公司 基于双路模型融合的视频行为分割方法和装置
CN110460838A (zh) * 2019-07-11 2019-11-15 平安科技(深圳)有限公司 一种镜头切换的检测方法、装置及计算机设备
CN110490119A (zh) * 2019-08-14 2019-11-22 腾讯科技(深圳)有限公司 重复视频标记方法、装置和计算机可读存储介质
CN111090807A (zh) * 2019-12-16 2020-05-01 秒针信息技术有限公司 一种基于知识图谱的用户识别方法及装置

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114862704A (zh) * 2022-04-25 2022-08-05 陕西西影数码传媒科技有限责任公司 影像色彩修复的镜头自动划分方法
CN115314731A (zh) * 2022-06-23 2022-11-08 浙江大华技术股份有限公司 视频处理系统、方法、计算机设备和存储介质

Similar Documents

Publication Publication Date Title
CN110189378B (zh) 一种视频处理方法、装置及电子设备
US11410038B2 (en) Frame selection based on a trained neural network
CN110309795B (zh) 视频检测方法、装置、电子设备及存储介质
CN112312231B (zh) 一种视频图像编码方法、装置、电子设备及介质
CN110460838B (zh) 一种镜头切换的检测方法、装置及计算机设备
CN110691259A (zh) 视频播放方法、系统、装置、电子设备及存储介质
CN110991287A (zh) 一种实时视频流人脸检测跟踪方法及检测跟踪系统
CN113784227A (zh) 一种视频切片方法、装置、电子设备及存储介质
CN110688524A (zh) 视频检索方法、装置、电子设备及存储介质
US10762122B2 (en) Method and device for assessing quality of multimedia resource
CN111860353A (zh) 基于双流神经网络的视频行为预测方法、装置及介质
CN111553182A (zh) 一种船只检索方法、装置及电子设备
CN111046847A (zh) 一种视频处理方法、装置、电子设备以及介质
CN110516572B (zh) 一种识别体育赛事视频片段的方法、电子设备及存储介质
CN110826365B (zh) 一种视频指纹生成方法和装置
Chen et al. Modelling of content-aware indicators for effective determination of shot boundaries in compressed MPEG videos
US20170040040A1 (en) Video information processing system
CN113408332A (zh) 视频分镜方法、装置、设备及计算机可读存储介质
CN112115295A (zh) 视频图像检测方法、装置、及电子设备
CN115004245A (zh) 目标检测方法、装置、电子设备和计算机存储介质
US20220122352A1 (en) Method and apparatus for detecting game prop in game region, device, and storage medium
CN115393755A (zh) 视觉目标跟踪方法、装置、设备以及存储介质
KR102215285B1 (ko) 키 프레임 선택 방법 및 이를 수행하는 장치들
CN110781345B (zh) 视频描述生成模型的获取方法、视频描述生成方法及装置
CN113784226A (zh) 一种视频切片方法、装置、电子设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20211210

RJ01 Rejection of invention patent application after publication