CN115119014B - 视频处理方法、插帧数量模型的训练方法及装置 - Google Patents

视频处理方法、插帧数量模型的训练方法及装置 Download PDF

Info

Publication number
CN115119014B
CN115119014B CN202210675072.0A CN202210675072A CN115119014B CN 115119014 B CN115119014 B CN 115119014B CN 202210675072 A CN202210675072 A CN 202210675072A CN 115119014 B CN115119014 B CN 115119014B
Authority
CN
China
Prior art keywords
frame
video
video frame
frames
samples
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202210675072.0A
Other languages
English (en)
Other versions
CN115119014A (zh
Inventor
赵幸福
王洪斌
周迅溢
蒋宁
吴海英
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Mashang Xiaofei Finance Co Ltd
Original Assignee
Mashang Xiaofei Finance Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Mashang Xiaofei Finance Co Ltd filed Critical Mashang Xiaofei Finance Co Ltd
Priority to CN202210675072.0A priority Critical patent/CN115119014B/zh
Publication of CN115119014A publication Critical patent/CN115119014A/zh
Application granted granted Critical
Publication of CN115119014B publication Critical patent/CN115119014B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/20Servers specifically adapted for the distribution of content, e.g. VOD servers; Operations thereof
    • H04N21/23Processing of content or additional data; Elementary server operations; Server middleware
    • H04N21/234Processing of video elementary streams, e.g. splicing of video streams or manipulating encoded video stream scene graphs
    • H04N21/23424Processing of video elementary streams, e.g. splicing of video streams or manipulating encoded video stream scene graphs involving splicing one content stream with another content stream, e.g. for inserting or substituting an advertisement
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/20Servers specifically adapted for the distribution of content, e.g. VOD servers; Operations thereof
    • H04N21/23Processing of content or additional data; Elementary server operations; Server middleware
    • H04N21/236Assembling of a multiplex stream, e.g. transport stream, by combining a video stream with other content or additional data, e.g. inserting a URL [Uniform Resource Locator] into a video stream, multiplexing software data into a video stream; Remultiplexing of multiplex streams; Insertion of stuffing bits into the multiplex stream, e.g. to obtain a constant bit-rate; Assembling of a packetised elementary stream
    • H04N21/23611Insertion of stuffing data into a multiplex stream, e.g. to obtain a constant bitrate
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/43Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
    • H04N21/44Processing of video elementary streams, e.g. splicing a video clip retrieved from local storage with an incoming video stream or rendering scenes according to encoded video stream scene graphs
    • H04N21/44016Processing of video elementary streams, e.g. splicing a video clip retrieved from local storage with an incoming video stream or rendering scenes according to encoded video stream scene graphs involving splicing one content stream with another content stream, e.g. for substituting a video clip

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Business, Economics & Management (AREA)
  • Marketing (AREA)
  • Television Signal Processing For Recording (AREA)
  • Two-Way Televisions, Distribution Of Moving Picture Or The Like (AREA)

Abstract

本申请实施例公开了一种视频处理方法、插帧数量模型的训练方法及装置,该方法包括:获取前向视频帧序列中后N个连续的视频帧,和后向视频帧序列中前N个连续的视频帧;对后N个连续的视频帧和前N个连续的视频帧进行拼接,得到拼接后的拼接视频帧,通过插帧数量模型对输入的所述拼接视频帧中的目标对象的动作参数进行处理,得到插帧数量;根据插帧数量在前向视频帧序列的最后一帧视频帧和后向视频帧序列的第一帧视频帧之间进行插帧处理,得到拼接的目标视频帧序列。如此,能够按照待拼接的视频中目标对象的动作参数确定出合理的插帧数量,按照该插帧数量对前向视频和后向视频之间进行插帧,保证两个视频中物体动作变化的流畅性。

Description

视频处理方法、插帧数量模型的训练方法及装置
技术领域
本申请涉及视频处理技术领域,尤其涉及一种视频处理方法、插帧数量模型的训练方法及装置。
背景技术
随着移动互联网的快速发展,用户对信息的获取方式已经逐渐从文字、图片以及语音扩展到视频领域。手机、平板电脑等电子设备的迅速普及,应用各类电子设备来播放视频早已成为不可忽视的用户需求。
在一些场景下,需要将同一情景下的相似度较高的多个视频段进行拼接,合成为一段视频,但是由于视频本身中的物体动作的快慢不同,多段视频拼接在一起会有明显的拼接痕迹,拼接后的视频中的图像变化不够自然流畅,有损用户的视觉体验。
发明内容
本申请提供一种视频处理方法、插帧数量模型的训练方法、装置及电子设备,用于提高视频拼接的效果,进一步提高拼接后的视频中的图像变化的自然流畅度。
第一方面,本申请提供一种视频处理方法,包括:获取前向视频帧序列中后N个连续的视频帧,和后向视频帧序列中前N个连续的视频帧;对后N个连续的视频帧和前N个连续的视频帧进行拼接,得到拼接后的拼接视频帧,通过插帧数量模型对输入的所述拼接视频帧中的目标对象的动作参数进行处理,得到插帧数量;根据插帧数量在前向视频帧序列的最后一帧视频帧和后向视频帧序列的第一帧视频帧之间进行插帧处理,得到拼接的目标视频帧序列。
可以看出,通过插帧数量模型对后N个连续的视频帧和前N个连续的视频帧中的目标对象的动作参数进行处理,对动作参数进行处理时,例如可以是对后N个连续的视频帧和前N个连续的视频帧中的目标对象的动作的相似度和动作速度进行处理,能够按照待拼接的视频中目标对象的动作相似度和动作速度确定出合理的插帧数量,按照该插帧数量对前向视频和后向视频之间进行插帧,保证两个视频中物体动作变化的流畅性,可以让视频图像的变化看起来更加顺畅而自然,避免多段视频拼接在一起会有明显的拼接痕迹的问题,提升用户的视觉体验。
第二方面,本申请提供一种插帧数量模型的训练方法,包括:
获取n个视频帧序列样本,其中,n为大于0的整数;对于每个所述视频帧序列样本,从所述视频帧序列样本中依次截取连续的M个视频帧,得到n组训练样本子集,其中,每组训练样本子集中包括一组所述连续的M个视频帧,其中,M为大于1的整数;选择前向视频帧样本和后向视频帧样本,包括:从每一组所述训练样本子集中随机选取N个连续的视频帧作为前向视频帧样本,随机选取N个连续的视频帧作为后向视频帧样本,其中,所述前向视频帧样本和所述后向视频帧样本不完全相同,所述前向视频帧样本和所述后向视频帧样本均包括目标对象的动作参数,N为大于1且小于M的整数;对所述前向视频帧样本和所述后向视频帧样本进行拼接,得到拼接后的拼接视频帧样本,将拼接视频帧样本输入到待训练的插帧数量模型进行迭代训练,直至所述插帧数量模型的损失函数收敛,得到训练后的所述插帧数量模型。
可以看出,插帧数量模型是对前向视频帧样本和后向视频帧样本中的连续N个视频帧进行训练,可以对前向视频帧样本和后向视频帧样本中N个视频帧中目标对象的相似性进行了学习了解,也对前向视频帧样本和后向视频帧样本中N个视频帧中目标对象的动作的速度进行学习了解,从而能够学习到两段视频之间插帧多少数量的视频帧能够使得前向视频和后向视频之间物体动作更能平缓的过度,使得利用该插帧数量模型确定出的插帧数量更合理。
第三方面,本申请提供一种视频处理装置,包括:获取模块,用于获取前向视频帧序列中后N个连续的视频帧,和后向视频帧序列中前N个连续的视频帧;拼接模块,用于对所述后N个连续的视频帧和所述前N个连续的视频帧进行拼接,得到拼接后的拼接视频帧;处理模块,用于通过插帧数量模型对输入的所述拼接视频帧中的目标对象的动作参数进行处理,得到插帧数量;插帧模块,用于根据所述插帧数量在所述前向视频帧序列的最后一帧视频帧和所述后向视频帧序列的第一帧视频帧之间进行插帧处理,得到拼接的目标视频帧序列。
第四方面,本申请提供一种插帧数量模型的训练装置,包括:获取模块,用于获取n个视频帧序列样本,其中,n为大于0的整数;截取模块,用于对于每个所述视频帧序列样本,从所述视频帧序列样本中依次截取连续的M个视频帧,得到n组训练样本子集,其中,每组训练样本子集中包括一组所述连续的M个视频帧,其中,M为大于1的整数;选取模块,用于选择前向视频帧样本和后向视频帧样本,包括从每一组所述训练样本子集中随机选取N个连续的视频帧作为前向视频帧样本,随机选取N个连续的视频帧作为后向视频帧样本,其中,所述前向视频帧样本和所述后向视频帧样本不完全相同,所述前向视频帧样本和所述后向视频帧样本均包括目标对象的动作参数,N为大于1且小于M的整数;拼接模块,用于对所述前向视频帧样本和所述后向视频帧样本进行拼接,得到拼接后的拼接视频帧样本;训练模块,用于将所述拼接视频帧样本输入到待训练的插帧数量模型进行迭代训练,直至所述插帧数量模型的损失函数收敛,得到训练后的所述插帧数量模型。
第五方面,本申请提供一种电子设备,包括:处理器;用于存储所述处理器可执行指令的存储器;其中,所述处理器被配置为执行所述指令,以实现如第一方面或第二方面所述的方法。
第六方面,本申请提供一种计算机可读存储介质,当所述存储介质中的指令由电子设备的处理器执行时,使得电子设备能够执行如第一方面或第二方面所述的方法。
附图说明
此处所说明的附图用来提供对本说明书的进一步理解,构成本说明书的一部分,本说明书的示意性实施例及其说明用于解释本说明书,并不构成对本说明书的不当限定。在附图中:
图1为本申请实施例提供的一种插帧数量模型的训练方法的流程示意图;
图2为本申请实施例提供的一种插帧数量模型的结构示意图;
图3为本申请实施例提供的一种视频处理方法的流程示意图;
图4为本申请实施例提供的一种插帧数量模型的训练装置的结构示意图;
图5为本申请实施例提供的一种视频处理装置的结构示意图;
图6为本说明书的一个实施例提供的一种电子设备的结构示意图。
具体实施方式
为使本说明书的目的、技术方案和优点更加清楚,下面将结合本说明书具体实施例及相应的附图对本说明书技术方案进行清楚、完整地描述。显然,所描述的实施例仅是本说明书一部分实施例,而不是全部的实施例。基于本说明书中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都应当属于本申请保护的范围。
本说明书和权利要求书中的术语“第一”、“第二”等是用于区别类似的对象,而不用于描述特定的顺序或先后次序。应理解这样使用的数据在适当情况下可以互换,以便本申请实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外,本说明书以及权利要求书中“和/或”表示所连接对象的至少其中之一,字符“/”一般表示前后关联对象是一种“或”的关系。
如前,需要将同一情景下的相似度较高的多个视频段进行拼接,合成为一段视频,相关技术中,可以通过插帧技术将多个视频段进行拼接,具体是基于前向视频参考帧的最后一帧和后向视频参考帧的第一帧之间的相似度确定待拼接视频段之间的插帧数量,然后在待拼接的两个视频段之间插入与插帧数量相对应的图像帧,从而保证拼接后的视频更加自然流畅。但是仅通过前向视频参考帧的最后一帧和后向视频参考帧的第一帧之间的相似度确定待拼接视频段的插帧数量,由于视频本身中的物体动作的快慢不同,确定出的插帧数量的准确度并不是很高,在多段视频之间按照该插帧数量进行视频插帧时,多段视频拼接在一起会有明显的拼接痕迹,视频拼接不够自然,有损用户的视觉体验。
例如,如果拼接包含人物挥手的两个视频,其中一个视频中人物挥手动作较快,另外一个视频中人物挥手动作较慢,前一个视频中的帧序列中的最后一帧和后一个视频中的帧序列中的第一帧的相似度几乎一致,按照该相似度确定在两个视频之间插帧的插帧数量仅能保证前一个视频和后一个视频中物体本身的流畅性。但是由于两个视频中人物挥手的动作的快慢不同,无法保证两个视频中物体动作变化的流畅性,多段视频拼接在一起会有明显的拼接痕迹,视频拼接不够自然,有损用户的视觉体验。
为了提高对多段视频间进行视频插帧的插帧数量的准确性,进而提高视频拼接的效果,提高拼接后的视频的自然流畅度。本申请实施例旨在提供一种插帧数量模型的训练方法以及后续基于插帧数量模型确定插帧数量的方案,对于插帧数量模型的训练方法而言,对每个视频帧序列样本,从视频帧序列样本中依次截取连续的M个视频帧,得到n组训练样本子集,其中,每组训练样本子集中包括一组连续的M个视频帧,选择前向视频帧样本和后向视频帧样本,包括从每一组训练样本子集中随机选取N个连续的视频帧作为前向视频帧样本,随机选取N个连续的视频帧作为后向视频帧样本;对前向视频帧样本和后向视频帧样本进行拼接,得到拼接后的拼接视频帧样本,将拼接视频帧样本输入到待训练的插帧数量模型进行迭代训练,直至插帧数量模型的损失函数收敛,得到训练后的插帧数量模型。如此,插帧数量模型是对前向视频帧样本和后向视频帧样本拼接后的拼接视频帧样本中的连续N个视频帧进行训练,即对前向视频帧样本和后向视频帧样本中N个视频帧中目标对象的相似性进行了学习了解,也对前向视频帧样本和后向视频帧样本中N个视频帧中目标对象的动作的速度进行学习了解,从而能够学习到两段视频之间插帧多少数量的视频帧能够使得前向视频和后向视频之间物体动作更能平缓的过度,使得利用该插帧数量模型确定出的插帧数量更合理。
对于视频处理方法而言,通过获取前向视频帧序列中后N个连续的视频帧,和后向视频帧序列中前N个连续的视频帧;对后N个连续的视频帧和前N个连续的视频帧进行拼接,得到拼接后的拼接视频帧,通过插帧数量模型对输入的所述拼接视频帧中的目标对象的动作参数进行处理,得到插帧数量;根据插帧数量在前向视频帧序列的最后一帧视频帧和后向视频帧序列的第一帧视频帧之间进行插帧处理,得到拼接的目标视频帧序列。如此,通过插帧数量模型对后N个连续的视频帧和前N个连续的视频帧中的目标对象的动作参数进行处理,对动作参数进行处理时,可以是对后N个连续的视频帧和前N个连续的视频帧中的目标对象的动作的相似度和动作速度进行特征提取处理,能够按照待拼接的视频中目标对象的动作相似度和动作速度确定出合理的插帧数量,按照该插帧数量对前向视频和后向视频之间进行插帧,保证两个视频中物体动作变化的流畅性,可以让视频图像的变化看起来更加顺畅而自然,避免多段视频拼接在一起会有明显的拼接痕迹的问题,提升用户的视觉体验。
应理解,本申请实施例提供的视频处理方法和插帧数量模型的训练方法均可以由电子设备执行或安装在电子设备中的软件执行,具体可以由终端设备或服务端设备执行。其中,视频处理方法和插帧数量模型的训练方法可以由同一电子设备执行,或者也可以由不同的电子设备执行。
以下结合附图,详细说明本说明书各实施例提供的技术方案。
请参考图1,为本说明书的一个实施例提供的一种插帧数量模型的训练方法的流程示意图,应用于电子设备,该方法可以包括:
步骤S101,获取n个视频帧序列样本。
其中,n为大于0的整数。
具体来讲,视频被分解成一帧一帧的静止的帧图像,形成视频帧序列,本申请实施例中以至少一个视频作为样本,至少一个视频以至少一种帧率被分解成一帧一帧的静止的帧图像之后,形成n个视频序列样本,可见,视频帧序列样本是按照时间的顺序由一帧一帧的静止的帧图像形成的序列。
在一种可能的实现方式中,获取n个视频帧序列样本包括:获取至少一个视频样本,以至少一种帧率分别对至少一个视频样本进行分帧,得到n个视频帧序列样本。具体的,视频帧序列样本可以包括多种帧率的视频帧序列样本,如n个视频帧序列样本可以是n个不同的视频样本的视频帧序列,n个不同的视频样本的视频帧序列中至少两个视频帧序列样本的帧率不相同,可以理解的是,n个不同视频样本的视频帧序列样本的帧率也可以是相同的;n个不同的视频样本的视频帧序列样本也可以是同一个视频样本的多种帧率的视频帧序列样本;n个不同的视频样本的视频帧序列样本也可以是多个视频样本中每个视频样本提供多种不同的帧率的视频帧序列样本,其总共包括n个视频帧序列样本。例如,作为样本的视频为3个,每个视频样本提供15fps、20fps和25fps三种帧率的视频帧序列样本,则视频帧序列样本n为9个。如此,多种帧率的视频帧序列样本可以模拟视频中物体的运动的快慢,从而增加样本的多样性,有利于提高插帧数量模型的训练精度,从而进一步提高确定出的插帧数量的精确度。
步骤S103,对于每个视频帧序列样本,从视频帧序列样本中依次截取连续的M个视频帧,得到n组训练样本子集。
其中,每组训练样本子集中包括一组连续的M个视频帧,其中,M为大于1的整数。
具体来讲,对于每个视频帧序列样本而言,其可以由一帧一帧静止的图像组成,在获取训练样本子集时,可以按时序从视频序列样本中依次截取连续的M个视频帧,连续的M个视频帧指的是按照时间由早到晚的顺序截取在时间上连续的M个视频帧。
为了进一步增加训练样本的多样性,在相邻的两组训练样本子集中,前序训练样本子集的M个视频帧的后N个连续的视频帧与后序训练样本子集的M个视频帧的前N个连续的视频帧相同。例如,对于每个训练样本子集,其包括18个视频帧,每18个视频帧作为一组数据组,作为前序训练样本子集的一个数据组的后5个视频帧和作为后序训练样本子集的一个数据组的前5个视频帧相同,即作为前序训练样本子集和作为后序训练样本子集之间间隔13个视频帧。如此,对于每个视频帧序列而言,按照时序关系除了视频帧序列最开始的前N帧和视频帧序列结束的最后N帧,视频帧序列中最开始的前N帧和视频序列结束的最后N帧之间的每帧视频帧都有机会作为前向视频帧样本和后向视频帧样本,从而增加训练样本的多样性,有利于提高插帧数量模型的训练精度,从而进一步提高确定出的插帧数量的精确度。值得注意的是,视频帧序列最开始的前N帧只能作为前向视频帧样本,视频帧序列结束的最后N帧只能作为后向视频帧样本。
步骤S105,选择前向视频帧样本和后向视频帧样本,包括:从每一组训练样本子集中随机选取N个连续的视频帧作为前向视频帧样本,随机选取N个连续的视频帧作为后向视频帧样本。
其中,前向视频帧样本和后向视频帧样本不完全相同,前向视频帧样本和后向视频帧样本均包括目标对象的动作参数,N为大于1且小于M的整数。
具体来讲,对于一组包含M个视频帧的训练样本子集,在每次输入至待训练的插帧数量模型时,从每组包含M个视频帧的训练样本子集随机选取连续的N帧作为前向视频帧样本,从每组包含M个视频帧的训练样本子集随机选取连续的N帧作为后向视频帧样本,前向视频帧样本和后向视频帧样本中N帧视频帧在时序上都是连续的。如前所述,在相邻的两组训练样本子集中,前序训练样本子集的M个视频帧的后N个连续的视频帧与后序训练样本子集的M个视频帧的前N个连续的视频帧相同,也就是说,从一个训练样本子集中随机选取开始的前N个连续的视频帧时,该前N个连续的视频帧是相邻的前一个训练样本子集中的结束的后N个连续的视频帧,则该N个连续的视频帧即可以作为前向视频帧样本,又可以作为后向视频帧样本;从一个训练样本子集中随机选取结束的后N个连续的视频帧时,该后N个连续的视频帧是相邻的后一个训练样本子集中的开始的前N个连续的视频帧,则该后N个连续的视频帧即可以作为前向视频帧样本,又可以作为后向视频帧样本;此外,同一个训练样本子集中的任意一个视频帧既可以作为前向视频帧样本,又可以作为后向视频帧样本,从而增加样本的多样性,有利于提高插帧数量模型的训练精度,从而进一步提高确定出的插帧数量的精确度。
其中,N可以根据实际情况设定,由于N的取值过大会影响插帧数量模型的运行速度,而N的取值过小则会影响插帧数量模型的识别精度,因此,本申请实施例将N的取值限制在第三阈值和第四阈值之间,例如本申请实施例中N的取值被限制在6(第三阈值)以下,大于等于2(第四阈值),从而保证插帧数量模型的运行速度以及识别精度,能够快速且精准的提取视频中的动作参数。前向视频帧样本和后向视频帧样本中均包含目标对象的动作参数的时间特征,动作参数包括但不限于目标对象的动作速度、动作的相似度等,目标对象可以为人物、动物以及景物等。
在一种可能的实现方式中,前向视频帧样本的最后一帧和后向视频帧样本的第一帧之间间隔预设数量的视频帧,预设数量处于第一阈值和第二阈值之间。
其中,为了避免需要拼接的前向视频帧样本和后向视频帧样本之间差异性较大而引起拼接效果较差的问题,需要对前向视频样本和后向视频样本之间的插帧数量进行限制,如果插帧数量超出该限制,则说明需要拼接的视频的差异性较大,不再适用插帧方式对视频进行拼接。如此,在每一个包含M个视频帧的训练样本子集中选取前向视频帧样本和后向视频帧样本时,一个训练样本子集中的前向视频帧样本在时序上的最后一帧视频帧和后向视频帧样本在时序上的第一帧视频帧之间的视频帧的数量设定为预设数量。其中,第一阈值和第二阈值可以按照实际情况设定,本申请实施例在此并不作限定,如第一阈值可以取值为0,第二阈值可以取值为8,也就是说,前向视频帧样本的最后一帧和后向视频帧样本的第一帧之间的视频帧的数量被限制在0和8之间。避免了需要拼接的前向视频帧样本和后向视频帧样本之间差异性较大而引起拼接效果较差的问题。
步骤S107,对前向视频帧样本和后向视频帧样本进行拼接,得到拼接后的拼接视频帧样本。
具体的,将前向视频帧样本中的视频帧和后向视频帧样本中的视频帧进行拼接可以是按照时间的顺序将前向视频帧样本和后向视频帧样本进行拼接,时间早的视频帧靠前,时间晚的视频帧靠后,即前向视频帧样本中的视频帧靠前,后向视频帧样本中的视频帧靠后。
在拼接前向视频帧样本和后向视频帧样本时,可以将前向视频帧样本中的视频帧和后向视频帧样本中的视频帧按通道拼接。如可以将前向视频帧样本中的视频帧和后向视频帧样本中的视频帧按RGB通道以及CMYK通道拼接。为了满足拼接视频帧在显示屏上显示的需求和质量,可以采用RGB通道拼接的方式,对于RGB通道拼接的方式先分别将前向视频帧样本中的视频帧和后向视频帧样本中的视频帧中的每个视频帧的R(Red)通道、G(Green)通道和B(Blue)通道分离开,再按照时间由早到晚的顺序分别将每个视频帧按照R通道、B通道和G通道进行拼接,时间早的视频帧靠前,时间晚的视频帧靠后。拼接视频帧样本包括前向视频帧样本和后向视频帧样本的各个视频帧的R通道的拼接帧图像、B通道的拼接帧图像和G通道的拼接帧图像,其中,R通道的拼接帧图像包括前向视频帧样本和后向视频帧样本中每个视频帧的R通道的帧图像,G通道的拼接帧图像包括前向视频帧样本和后向视频帧样本中每个视频帧的G通道的帧图像,B通道的拼接帧图像包括前向视频帧样本和后向视频帧样本中每个视频帧的B通道的帧图像。进一步,在各个拼接帧图像中,时间早的视频帧的帧图像靠前,时间晚的视频帧的帧图像靠后,拼接帧图像中帧图像的维度为前向视频帧样本中视频帧的数量和后向视频帧样本中视频帧的数量之和。
步骤S109,将拼接视频帧样本输入到待训练的插帧数量模型进行迭代训练,直至插帧数量模型的损失函数收敛,得到训练后的插帧数量模型。
具体来讲,待训练的插帧数量模型包括空间特征提取层、时间特征提取层和全连接层,损失函数可以采用均方误差函数(Mean Square Error,MSE),优化器可以选用随机梯度下降法(Stochastic Gradient Descent,SGD)或者adam算法,本申请实施例中选择adam算法,学习率为0.001。
其中,空间特征提取层可以为二维卷积神经网络(2DCNN)、时间特征提取层可以为时域卷积网络(Temporal convolutional network,TCN)、全连接层可以为全连接层FC。
在得到多组前向视频帧样本和后向视频帧样本之后,对前向视频帧样本和后向视频帧样本进行拼接,得到拼接后的拼接视频帧样本,拼接视频帧样本包括前向视频帧样本中的多个视频帧和后向视频帧样本中的多个视频帧,依次将拼接视频帧样本输入到待训练的插帧数量模型进行迭代训练,直至插帧数量模型的损失函数收敛则完成训练。具体为:如图2所示的,先将前向视频帧样本和后向视频帧样本按通道拼接后,得到拼接视频帧样本,输入到2DCNN,通过2DCNN对前向视频帧样本和后向视频帧样本中的每一帧视频帧依次提取出空间图像特征,空间图像特征包括但不限于纹理、颜色、空间关系特征、形状等;然后将拼接视频帧样本输入到TCN中,由TCN对拼接视频帧样本中的多个连续视频帧中的目标对象的动作参数在时域上提取时间特征,最后将得到的空间图像特征和时间特征输入到全连接层FC中,将空间图像特征和时间特征进行融合映射后输入插帧数量。
通过本申请实施例公开的插帧数量模型的训练方法,插帧数量模型是对前向视频帧样本和后向视频帧样本拼接后的拼接视频帧样本中的连续N个视频帧进行训练,即对前向视频帧样本和后向视频帧样本中N个视频帧中目标对象的相似性进行了学习了解,也对前向视频帧样本和后向视频帧样本中N个视频帧中目标对象的动作的快慢进行学习了解,从而能够学习到两段视频之间插帧多少数量的视频帧能够使得前向视频和后向视频之间物体动作更能平缓的过度,使得利用该插帧数量模型确定出的插帧数量更合理。
与上述方法相应地,本申请实施例还提供一种视频处理方法,能够基于图1所示方法训练出的插帧数量模型确定在前向视频和后向视频进行插帧的插帧数量。
请参考图3,为本说明书的一个实施例提供的一种视频处理方法的流程示意图,应用于电子设备,该方法可以包括:
步骤S301,获取前向视频帧序列中后N个连续的视频帧,和后向视频帧序列中前N个连续的视频帧。
具体来讲,前向视频帧序列和后向视频帧序列为需要拼接的视频帧序列,前向视频帧序列相比于后向视频帧序列在时序上靠前。前向视频帧序列中,按照时间由早到晚的顺序降序排列,将排序在后的N个视频帧作为前向视频帧序列中后N个连续的视频帧;后向视频帧序列中,按照时间由早到晚的顺序降序排列,将排序在前的N个视频帧作为后向视频帧序列中的前N个连续的视频帧。其中,N可以根据实际情况设定,本申请实施例中N的取值被限制在6以下,大于等于2,从而保证插帧数量模型的运行速度以及完整提取视频中的动作参数,如N可以取值为5。
假设有两段录制好的人物视频段A和人物视频段B,视频段A的结束帧和视频段B的开始帧的任务动作大致相似,视频段A由多个视频帧组成并作为前向视频帧序列,视频段B由多个视频帧组成并作为后向视频帧序列。前向视频帧序列和后序视频帧序列的图像分辨率均为512*512,首先截取前向视频帧序列中的最后5个连续的视频帧(1*5*512*512)和后向视频帧序列中的前5个连续的视频帧(1*5*512*512)。
步骤S303,对后N个连续的视频帧和前N个连续的视频帧进行拼接得到拼接后的拼接视频帧。
具体的,对后N个连续的视频帧和前N个连续的视频帧进行拼接可以是按照时间的顺序对后N个连续的视频帧和前N个连续的视频帧进行拼接,时间早的视频帧靠前,时间晚的视频帧靠后,即前向视频帧序列中的后N个连续的视频帧靠前,后向视频帧序列中的后N个连续的视频帧靠后。
在拼接后N个连续的视频帧和前N个连续的视频帧时,可以将后N个连续的视频帧和前N个连续的视频帧按通道拼接,如按照RGB通道拼接以及CMYK通道拼接的方式等。为了满足拼接视频帧在显示屏上显示的需求和质量,可以采用RGB通道拼接的方式,具体是先分别将后N个连续的视频帧和前N个连续的视频帧中的每个视频帧的R通道、G通道和B通道分离开,再按照时间由早到晚的顺序分别将每个视频帧按照R通道、B通道和G通道进行拼接,时间早的视频帧靠前,时间晚的视频帧靠后,即前向视频帧序列中后N个连续的视频帧靠前,后向视频帧序列中前N个连续的视频帧靠后。拼接视频帧包括后N个连续的视频帧和前N个连续的视频帧中的各个视频帧的R通道的拼接帧图像、B通道的拼接帧图像和G通道的拼接帧图像,其中,R通道的拼接帧图像包括拼接视频帧包括后N个连续的视频帧和前N个连续的视频帧中的每个视频帧的R通道的帧图像,G通道的拼接帧图像包括后N个连续的视频帧和前N个连续的视频帧中的每个视频帧的G通道的帧图像,B通道的拼接帧图像包括后N个连续的视频帧和前N个连续的视频帧中的中每个视频帧的B通道的帧图像。进一步,在各个拼接帧图像中,时间早的视频帧的帧图像靠前,时间晚的视频帧的帧图像靠后,拼接帧图像中帧图像的维度为后N个连续的视频帧的数量与前N个连续的视频帧的数量之和。例如,将上述的前向视频帧序列中的最后5个连续的视频帧(1*5*512*512)和后向视频帧序列中的前5个连续的视频帧(1*5*512*512)按通道拼接后,得到维度为1*10*512*512的特征向量。
步骤S305,通过插帧数量模型对输入的所述拼接视频帧中的目标对象的动作参数进行处理,得到插帧数量。
其中,插帧数量模型是预先训练好的插帧数量模型,该插帧数量模型可以是回归模型等;插帧数量模型用于对后N个连续的视频帧和前N个连续的视频帧中目标对象的动作参数进行处理。
具体的,动作参数包括但不限于目标对象的动作速度、动作的相似度等,目标对象可以为人物、动物以及景物等。拼接视频帧中的目标对象的动作参数进行处理包括对各视频帧中的目标对象的动作速度、动作相似度进行特征提取;以便了解目标对象之间的动作速度、动作相似度的关联性;插帧数量模型首先对后N个连续的视频帧和前N个连续的视频帧中的目标对象提取空间图像特征,空间图像特征包括但不限于视频帧的纹理、颜色、空间关系特征、形状等,再对后N个连续的视频帧和前N个连续的视频帧中目标对象的动作参数在时域上进行特征提取,即对各个视频帧中目标对象在不同时间的动作速度和动作相似度进行特征提取。
在一种可能的实现方式中,插帧数量模型包括:空间特征提取层、时间特征提取层和全连接层;空间特征提取层用于对拼接视频帧中的每个视频帧依次提取空间图像特征;时间特征提取层用于对拼接视频帧中的多个连续视频帧中的目标对象的动作参数提取时间特征;全连接层用于对空间图像特征和时间特征进行融合映射,得到插帧数量。
具体来讲,按照上述实施例中的记载,空间特征提取层可以为二维卷积神经网络(2DCNN)、时间特征提取层可以为时域卷积网络(Temporal convolutional network,TCN)、全连接层可以为全连接层FC,2DCNN可以对后N个连续的视频帧和前N个连续的视频帧拼接后的拼接视频帧中的每个视频帧的纹理、颜色、空间关系特征、形状等空间图像特征进行提取;TCN可以对后N个连续的视频帧和前N个连续的视频帧拼接后的拼接视频帧中多个连续的视频帧中的目标对象的动作速度进行时间特征提取,对动作参数进行时间特征提取指的是对多个连续的视频帧中的目标对象的动作速度和动作相似度进行特征提取;最后将空间图像特征和时间特征输入到全连接层FC中,将空间图像特征和时间特征进行融合映射后输入插帧数量。如此,空间特征提取层可以对N个连续的视频帧中的图像特征进行提取、时间特征提取层可以对N个连续的视频帧的动作速度及动作相似度进行提取,全连接层能够对上述的图像特征、动作速度以及动作相似度进行融合映射,得到插帧数量,按照该插帧数量对前向视频和后向视频之间进行插帧,保证两个视频中物体动作变化的流畅性,可以让视频图像的变化看起来更加顺畅而自然。
如,将上述拼接后的1*10*512*512的特征向量输入到2DCNN中,得到1*10*512的空间特征向量,然后输入到卷积核为3、层数为4的TCN网络中进行时间维度的特征提取,得到特征向量维度为1*10*512,然后Flatten到维度1*5120,输入到全连接层,融合映射的维度为1*1向量,该融合映射得到的向量也就是最后的插帧帧数。
步骤S307,根据插帧数量在前向视频帧序列的最后一帧视频帧和后向视频帧序列的第一帧视频帧之间进行插帧处理,得到拼接的目标视频帧序列。
具体来讲,前向视频帧序列的最后一帧视频帧指的是前向视频序列中按照时间由早到晚的顺序,时间最晚的视频帧为前向视频帧序列中的最后一帧视频帧,后向视频帧序列的第一帧视频帧指的是后向视频序列中按照时间由早到晚的顺序,时间最早的视频帧为后向视频帧序列中的第一帧视频帧。在最后一帧视频帧和第一帧视频帧之间插入与插帧数量相对应的插帧图像,如插帧数量为5,则插帧图像的数量就为5,最终形成的目标视频帧序列包括前向视频帧序列、所述插帧图像和所述后向视频帧序列,其中,插帧数量可以为任意值。如此,在前向视频帧序列和后向视频帧序列之间插入插帧图像,可以保证前向视频序列和后向视频序列的平滑过度,使得拼接后的目标视频帧序列更加自然。
在一种可能的实现方式中,插帧数量被限制在第一阈值与第二阈值之间。
具体来讲,按照上述实施例的记载,为了避免需要拼接的前向视频帧序列和后向视频帧序列之间差异性较大而引起拼接效果较差的问题,需要对前向视频帧序列和后向视频帧序列之间的插帧数量进行限制,如果插帧数量超出该限制,则说明需要拼接的视频的差异性较大,不再适用插帧方式对视频进行拼接。如此,需要将插帧数量限制在第一阈值和第二阈值之间。其中,第一阈值和第二阈值可以按照实际情况设定,本申请实施例在此并不作限定,如第一阈值可以取值为0,第二阈值可以取值为8,也就是说,前向视频帧序列的最后一帧和后向视频帧序列的第一帧之间的视频帧的数量被限制在0和8之间。避免了需要拼接的前向视频帧序列和后向视频帧序列之间差异性较大而引起拼接效果较差的问题。
在一种可能的实现方式中,根据插帧数量在前向视频帧序列的最后一帧视频帧和后向视频帧序列的第一帧视频帧之间进行插帧处理,得到拼接的目标视频帧序列包括:根据最后一帧视频帧和第一帧视频帧生成与插帧数量对应的插帧图像;将插帧图像插入至最后一帧视频帧和第一帧视频帧之间,得到拼接的目标视频帧序列包括前向视频帧序列、插帧图像和后向视频帧序列。
具体来讲,可以根据最后一帧视频帧的图像和第一帧视频帧的图像的变化程度来确定插帧图像,也可以利用光流法来得到插帧图像。具体而言,利用后N个连续的视频帧和前N个连续的视频帧中的图像像素在时间域上的变化以及相邻视频帧之间的相关性来找到上一帧视频帧跟当前视频帧之间存在的对应关系,计算出相邻的最后一帧视频帧和第一帧视频帧之间目标对象的动作速度以及动作相似度,进而得到插帧图像。
将上述得到的插帧图像插入至最后一帧视频帧和第一帧视频帧之间,得到拼接的视频帧序列包括前向视频帧序列、插帧图像和后向视频帧序列。当视频帧序列被播放时,可以让拼接后的前向视频帧序列和后向视频帧序列之间的变化更加流畅,还可以让视频图像的变化看起来更加顺畅而自然。
本申请实施例提供的视频处理方法,通过插帧数量模型对后N个连续的视频帧和前N个连续的视频帧中的目标对象的动作参数进行处理,对动作参数进行处理时,可以是对后N个连续的视频帧和前N个连续的视频帧中的目标对象的动作的相似度和动作速度进行处理,能够按照待拼接的视频中目标对象的动作相似度和动作速度确定出合理的插帧数量,按照该插帧数量对前向视频和后向视频之间进行插帧,保证两个视频中物体动作变化的流畅性,可以让视频图像的变化看起来更加顺畅而自然,避免多段视频拼接在一起会有明显的拼接痕迹的问题,使得视频拼接不够自然,提升用户的视觉体验
此外,与上述图1所示的插帧数量模型的训练方法相对应地,本申请实施例还提供一种插帧数量模型的训练装置。图4是本申请实施例提供的一种插帧数量模型的训练装置400的结构示意图,包括:获取模块401,用于获取n个视频帧序列样本,其中,n为大于0的整数;截取模块402,用于对于每个视频帧序列样本,从视频帧序列样本中依次截取连续的M个视频帧,得到n组训练样本子集,其中,每组训练样本子集中包括一组连续的M个视频帧,其中,M为大于1的整数;选取模块403,用于选择前向视频样本和后向视频样本,包括:从每一组训练样本子集中随机选取N个连续的视频帧作为前向视频帧样本,随机选取N个连续的视频帧作为后向视频帧样本,其中,前向视频帧样本和后向视频帧样本不完全相同,前向视频帧样本和后向视频帧样本均包括目标对象的动作参数,N为大于1且小于M的整数;拼接模块404用于对前向视频帧样本和后向视频帧样本进行拼接,得到拼接后的拼接视频帧样本;训练模块405,用于将拼接视频帧样本输入到待训练的插帧数量模型进行迭代训练,直至插帧数量模型的损失函数收敛,得到训练后的插帧数量模型。
本申请实施例提供的插帧数量模型的训练装置,插帧数量模型是对前向视频帧样本和后向视频帧样本中的连续N个视频帧进行训练,即对前向视频帧样本和后向视频帧样本中N个视频帧中目标对象的相似性进行了学习了解,也对前向视频帧样本和后向视频帧样本中N个视频帧中目标对象的动作的速度进行学习了解,从而能够学习到两段视频之间插帧多少数量的视频帧能够使得前向视频和后向视频之间物体动作更能平缓的过度,使得利用该插帧数量模型确定出的插帧数量更合理。
在一种可能的实现方式中,相邻的两组训练样本子集中,前序训练样本子集的M个视频帧的后N个连续的视频帧与后序训练样本子集的M个视频帧的前N个连续的视频帧相同。
在一种可能的实现方式中,前向视频帧样本的最后一帧和后向视频帧样本的第一帧之间间隔预设数量的视频帧,预设数量处于第一阈值和第二阈值之间。
在一种可能的实现方式中,获取模块401,还用于获取至少一个视频样本;以至少一种帧率分别对所述至少一个视频样本进行分帧,得到n个视频帧序列样本。
显然,本申请实施例的插帧数量模型的训练装置可以作为上述图1所示的插帧数量模型的训练方法的执行主体,因此能够实现插帧数量模型的训练方法在图1所实现的功能。由于原理相同,在此不再赘述。
此外,与上述图3所示的视频处理方法相对应地,本申请实施例还提供一种视频处理装置。图5是本申请实施例提供的一种视频处理装置500的结构示意图,包括:获取模块501,用于获取前向视频帧序列中后N个连续的视频帧,和后向视频帧序列中前N个连续的视频帧;拼接模块502,用于对后N个连续的视频帧和前N个连续的视频帧进行拼接,得到拼接后的拼接视频帧,处理模块503,用于通过插帧数量模型对输入的所述拼接视频帧中的目标对象的动作参数进行处理,得到插帧数量;插帧模块504,用于根据插帧数量在前向视频帧序列的最后一帧视频帧和后向视频帧序列的第一帧视频帧之间进行插帧处理,得到拼接的目标频帧序列。
本申请实施例提供的视频处理装置,通过插帧数量模型对后N个连续的视频帧和前N个连续的视频帧中的目标对象的动作参数进行处理,对动作参数进行处理时,可以是对后N个连续的视频帧和前N个连续的视频帧中的目标对象的动作的相似度和动作速度进行处理,能够按照待拼接的视频中目标对象的动作相似度和动作速度确定出合理的插帧数量,按照该插帧数量对前向视频和后向视频之间进行插帧,保证两个视频中物体动作变化的流畅性,可以让视频图像的变化看起来更加顺畅而自然,避免多段视频拼接在一起会有明显的拼接痕迹的问题,提升用户的视觉体验。
在一种可能的实现方式中,插帧数量模型包括:空间特征提取层、时间特征提取层和全连接层;所述空间特征提取层用于对所述拼接视频帧中的每个视频帧依次提取空间图像特征;所述时间特征提取层用于对所述拼接视频帧中的多个连续视频帧中的目标对象的动作参数提取时间特征;所述全连接层用于对所述空间图像特征和所述时间特征进行融合映射,得到所述插帧数量。
在一种可能的实现方式中,拼接模块502,还用于对所述后N个连续的视频帧和所述前N个连续的视频帧按通道拼接。
在一种可能的实现方式中,拼接模块502,还用于对所述后N个连续的视频帧和所述前N个连续的视频帧按RGB通道拼接。
在一种可能的实现方式中,插帧模块504,还用于根据所述最后一帧视频帧和所述第一帧视频帧生成与所述插帧数量对应的插帧图像;将所述插帧图像插入至所述最后一帧视频帧和所述第一帧视频帧之间,得到所述拼接的目标视频帧序列;所述目标视频帧序列包括所述前向视频帧序列、所述插帧图像和所述后向视频帧序列。
显然,本申请实施例的视频处理装置可以作为上述图3所示的视频处理方法的执行主体,因此能够实现视频处理方法在图3所实现的功能。由于原理相同,在此不再赘述。
图6是本说明书的一个实施例电子设备的结构示意图。请参考图6,在硬件层面,该电子设备包括处理器,可选地还包括内部总线、网络接口、存储器。其中,存储器可能包含内存,例如高速随机存取存储器(Random-Access Memory,RAM),也可能还包括非易失性存储器(non-volatile memory),例如至少1个磁盘存储器等。当然,该电子设备还可能包括其他业务所需要的硬件。
处理器、网络接口和存储器可以通过内部总线相互连接,该内部总线可以是ISA(Industry Standard Architecture,工业标准体系结构)总线、PCI(PeripheralComponent Interconnect,外设部件互连标准)总线或EISA(Extended Industry StandardArchitecture,扩展工业标准结构)总线等。总线可以分为地址总线、数据总线、控制总线等。为便于表示,图6中仅用一个双向箭头表示,但并不表示仅有一根总线或一种类型的总线。
存储器,用于存放程序。具体地,程序可以包括程序代码,程序代码包括计算机操作指令。存储器可以包括内存和非易失性存储器,并向处理器提供指令和数据。
处理器从非易失性存储器中读取对应的计算机程序到内存中然后运行,在逻辑层面上形成插帧数量模型的训练装置。处理器,执行存储器所存放的程序,并具体用于执行以下操作:
获取n个视频帧序列样本,其中,n为大于0的整数;对于每个所述视频帧序列样本,从所述视频帧序列样本中依次截取连续的M个视频帧,得到n组训练样本子集,其中,每组训练样本子集中包括一组所述连续的M个视频帧,其中,M为大于1的整数;选择前向视频帧样本和后向视频帧样本,包括:从每一组所述训练样本子集中随机选取N个连续的视频帧作为前向视频帧样本,随机选取N个连续的视频帧作为后向视频帧样本,其中,所述前向视频帧样本和所述后向视频帧样本不完全相同,所述前向视频帧样本和所述后向视频帧样本均包括目标对象的动作参数,N为大于1且小于M的整数;对所述前向视频帧样本和所述后向视频帧样本进行拼接,得到拼接后的拼接视频帧样本,将拼接视频帧样本输入到待训练的插帧数量模型进行迭代训练,直至所述插帧数量模型的损失函数收敛,得到训练后的所述插帧数量模型。
或者,处理器从非易失性存储器中读取对应的计算机程序到内存中然后运行,在逻辑层面上形成视频处理装置。处理器,执行存储器所存放的程序,并具体用于执行以下操作:
获取前向视频帧序列中后N个连续的视频帧,和后向视频帧序列中前N个连续的视频帧;对后N个连续的视频帧和前N个连续的视频帧进行拼接,得到拼接后的拼接视频帧,将所述拼接视频帧输入到插帧数量模型中进行特征处理,得到插帧数量,其中,插帧数量模型用于对后N个连续的视频帧和前N个连续的视频帧中目标对象的动作参数进行处理;根据插帧数量在前向视频帧序列的最后一帧视频帧和后向视频帧序列的第一帧视频帧之间进行插帧处理,得到拼接的目标视频帧序列。
上述如本说明书图4所示实施例揭示的插帧数量模型的训练装置执行的方法或者如本说明书图5所示实施例揭示的视频处理装置可以应用于处理器中,或者由处理器实现。处理器可能是一种集成电路芯片,具有信号的处理能力。在实现过程中,上述方法的各步骤可以通过处理器中的硬件的集成逻辑电路或者软件形式的指令完成。上述的处理器可以是通用处理器,包括中央处理器(Central Processing Unit,CPU)、网络处理器(NetworkProcessor,NP)等;还可以是数字信号处理器(Digital Signal Processor,DSP)、专用集成电路(Application Specific Integrated Circuit,ASIC)、现场可编程门阵列(Field-Programmable Gate Array,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。可以实现或者执行本申请实施例中的公开的各方法、步骤及逻辑框图。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。结合本申请实施例所公开的方法的步骤可以直接体现为硬件译码处理器执行完成,或者用译码处理器中的硬件及软件模块组合执行完成。软件模块可以位于随机存储器,闪存、只读存储器,可编程只读存储器或者电可擦写可编程存储器、寄存器等本领域成熟的存储介质中。该存储介质位于存储器,处理器读取存储器中的信息,结合其硬件完成上述方法的步骤。
应理解,本申请实施例的电子设备可以实现插帧数量模型的训练装置在图4所示实施例的功能或者视频处理装置在图5示实施例的功能。由于原理相同,本申请实施例在此不再赘述。
当然,除了软件实现方式之外,本说明书的电子设备并不排除其他实现方式,比如逻辑器件抑或软硬件结合的方式等等,也就是说以下处理流程的执行主体并不限定于各个逻辑单元,也可以是硬件或逻辑器件。
本申请实施例还提出了一种计算机可读存储介质,该计算机可读存储介质存储一个或多个程序,该一个或多个程序包括指令,该指令当被包括多个应用程序的便携式电子设备执行时,能够使该便携式电子设备执行图1所示实施例的方法,并具体用于执行以下操作:
获取n个视频帧序列样本,其中,n为大于0的整数;对于每个所述视频帧序列样本,从所述视频帧序列样本中依次截取连续的M个视频帧,得到n组训练样本子集,其中,每组训练样本子集中包括一组所述连续的M个视频帧,其中,M为大于1的整数;选择前向视频帧样本和后向视频帧样本,包括:从每一组所述训练样本子集中随机选取N个连续的视频帧作为前向视频帧样本,随机选取N个连续的视频帧作为后向视频帧样本,其中,所述前向视频帧样本和所述后向视频帧样本不完全相同,所述前向视频帧样本和所述后向视频帧样本均包括目标对象的动作参数,N为大于1且小于M的整数;对所述前向视频帧样本和所述后向视频帧样本进行拼接,得到拼接后的拼接视频帧样本,将拼接视频帧样本输入到待训练的插帧数量模型进行迭代训练,直至所述插帧数量模型的损失函数收敛,得到训练后的所述插帧数量模型。
本申请实施例还提出了一种计算机可读存储介质,该计算机可读存储介质存储一个或多个程序,该一个或多个程序包括指令,该指令当被包括多个应用程序的便携式电子设备执行时,能够使该便携式电子设备执行图3所示实施例的方法,并具体用于执行以下操作:
获取前向视频帧序列中后N个连续的视频帧,和后向视频帧序列中前N个连续的视频帧;对后N个连续的视频帧和前N个连续的视频帧进行拼接,得到拼接后的拼接视频帧,将所述拼接视频帧输入到插帧数量模型中进行特征处理,得到插帧数量,其中,插帧数量模型用于对后N个连续的视频帧和前N个连续的视频帧中目标对象的动作参数进行处理;根据插帧数量在前向视频帧序列的最后一帧视频帧和后向视频帧序列的第一帧视频帧之间进行插帧处理,得到拼接的目标视频帧序列。
上述对本说明书特定实施例进行了描述。其它实施例在所附权利要求书的范围内。在一些情况下,在权利要求书中记载的动作或步骤可以按照不同于实施例中的顺序来执行并且仍然可以实现期望的结果。另外,在附图中描绘的过程不一定要求示出的特定顺序或者连续顺序才能实现期望的结果。在某些实施方式中,多任务处理和并行处理也是可以的或者可能是有利的。
总之,以上仅为本说明书的较佳实施例而已,并非用于限定本说明书的保护范围。凡在本说明书的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本说明书的保护范围之内。
上述实施例阐明的系统、装置、模块或单元,具体可以由计算机芯片或实体实现,或者由具有某种功能的产品来实现。一种典型的实现设备为计算机。具体的,计算机例如可以为个人计算机、膝上型计算机、蜂窝电话、相机电话、智能电话、个人数字助理、媒体播放器、导航设备、电子邮件设备、游戏控制台、平板计算机、可穿戴设备或者这些设备中的任何设备的组合。
计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括,但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带,磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质,可用于存储可以被计算设备访问的信息。按照本文中的界定,计算机可读介质不包括暂存电脑可读媒体(transitory media),如调制的数据信号和载波。
还需要说明的是,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、商品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、商品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、商品或者设备中还存在另外的相同要素。
本说明书中的各个实施例均采用递进的方式描述,各个实施例之间相同相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。尤其,对于系统实施例而言,由于其基本相似于方法实施例,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。

Claims (11)

1.一种视频处理方法,其特征在于,包括:
获取前向视频帧序列中后N个连续的视频帧,和后向视频帧序列中前N个连续的视频帧;
对所述后N个连续的视频帧和所述前N个连续的视频帧进行拼接,得到拼接后的拼接视频帧;
通过插帧数量模型对输入的所述拼接视频帧中的目标对象的动作参数进行处理,得到插帧数量;
根据所述插帧数量在所述前向视频帧序列的最后一帧视频帧和所述后向视频帧序列的第一帧视频帧之间进行插帧处理,得到拼接的目标视频帧序列。
2.根据权利要求1所述的视频处理方法,其特征在于,所述插帧数量模型包括:空间特征提取层、时间特征提取层和全连接层;
所述空间特征提取层用于对所述拼接视频帧中的每个视频帧依次提取空间图像特征;
所述时间特征提取层用于对所述拼接视频帧中的多个连续视频帧中的目标对象的动作参数提取时间特征;
所述全连接层用于对所述空间图像特征和所述时间特征进行融合映射,得到所述插帧数量。
3.根据权利要求1所述的视频处理方法,其特征在于,所述对所述后N个连续的视频帧和所述前N个连续的视频帧进行拼接包括:
对所述后N个连续的视频帧和所述前N个连续的视频帧按通道拼接。
4.根据权利要求1至3任一项所述的视频处理方法,其特征在于,所述根据所述插帧数量在所述前向视频帧序列的最后一帧视频帧和所述后向视频帧序列的第一帧视频帧之间进行插帧处理,得到拼接的目标视频帧序列包括:
根据所述最后一帧视频帧和所述第一帧视频帧生成与所述插帧数量对应的插帧图像;
将所述插帧图像插入至所述最后一帧视频帧和所述第一帧视频帧之间,得到所述拼接的目标视频帧序列;所述目标视频帧序列包括所述前向视频帧序列、所述插帧图像和所述后向视频帧序列。
5.一种插帧数量模型的训练方法,其特征在于,所述方法包括:
获取n个视频帧序列样本,其中,n为大于0的整数;
对于每个所述视频帧序列样本,从所述视频帧序列样本中依次截取连续的M个视频帧,得到n组训练样本子集,其中,每组训练样本子集包括一组所述连续的M个视频帧,其中,M为大于1的整数;
选择前向视频帧样本和后向视频帧样本;包括:从每一组所述训练样本子集中随机选取N个连续的视频帧作为所述前向视频帧样本,随机选取N个连续的视频帧作为所述后向视频帧样本,其中,所述前向视频帧样本和所述后向视频帧样本不完全相同,所述前向视频帧样本和所述后向视频帧样本均包括目标对象的动作参数,N为大于1且小于M的整数;
对所述前向视频帧样本和所述后向视频帧样本进行拼接,得到拼接后的拼接视频帧样本;
将所述拼接视频帧样本输入到待训练的插帧数量模型进行迭代训练,直至所述插帧数量模型的损失函数收敛,得到训练后的所述插帧数量模型。
6.根据权利要求5所述的插帧数量模型的训练方法,其特征在于,相邻的两组训练样本子集中,前序训练样本子集的M个视频帧的后N个连续的视频帧与后序训练样本子集的M个视频帧的前N个连续的视频帧相同。
7.根据权利要求5所述的插帧数量模型的训练方法,其特征在于,所述前向视频帧样本的最后一帧和所述后向视频帧样本的第一帧之间间隔预设数量的视频帧,所述预设数量处于第一阈值和第二阈值之间。
8.根据权利要求5至7任一项所述的插帧数量模型的训练方法,其特征在于,所述获取n个视频帧序列样本包括:
获取至少一个视频样本;
以至少一种帧率分别对所述至少一个视频样本进行分帧,得到n个视频帧序列样本。
9.一种视频处理装置,其特征在于,包括:
获取模块,用于获取前向视频帧序列中后N个连续的视频帧,和后向视频帧序列中前N个连续的视频帧;
拼接模块,用于对所述后N个连续的视频帧和所述前N个连续的视频帧进行拼接,得到拼接后的拼接视频帧;
处理模块,通过插帧数量模型对输入的所述拼接视频帧中的目标对象的动作参数进行处理,得到插帧数量;
插帧模块,用于根据所述插帧数量在所述前向视频帧序列的最后一帧视频帧和所述后向视频帧序列的第一帧视频帧之间进行插帧处理,得到拼接的目标视频帧序列。
10.一种电子设备,其特征在于,包括:
处理器;
用于存储所述处理器可执行指令的存储器;
其中,所述处理器被配置为执行所述指令,以实现如权利要求1至4中任一项所述的视频处理方法或5至8中任一项所述的插帧数量模型的训练方法。
11.一种计算机可读存储介质,其特征在于,当所述存储介质中的指令由电子设备的处理器执行时,使得电子设备能够执行如权利要求1至4中任一项所述的视频处理方法或5至8中任一项所述的插帧数量模型的训练方法。
CN202210675072.0A 2022-06-15 2022-06-15 视频处理方法、插帧数量模型的训练方法及装置 Active CN115119014B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210675072.0A CN115119014B (zh) 2022-06-15 2022-06-15 视频处理方法、插帧数量模型的训练方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210675072.0A CN115119014B (zh) 2022-06-15 2022-06-15 视频处理方法、插帧数量模型的训练方法及装置

Publications (2)

Publication Number Publication Date
CN115119014A CN115119014A (zh) 2022-09-27
CN115119014B true CN115119014B (zh) 2024-01-30

Family

ID=83328275

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210675072.0A Active CN115119014B (zh) 2022-06-15 2022-06-15 视频处理方法、插帧数量模型的训练方法及装置

Country Status (1)

Country Link
CN (1) CN115119014B (zh)

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2001160150A (ja) * 1999-12-02 2001-06-12 Arika:Kk ゲームキャラクタのモーション表示方法
CN108319905A (zh) * 2018-01-25 2018-07-24 南京邮电大学 一种基于长时程深度时空网络的行为识别方法
CN109951654A (zh) * 2019-03-06 2019-06-28 腾讯科技(深圳)有限公司 一种视频合成的方法、模型训练的方法以及相关装置
CN112188236A (zh) * 2019-07-01 2021-01-05 北京新唐思创教育科技有限公司 视频插帧模型训练、视频插帧生成方法及相关装置
CN112367481A (zh) * 2020-10-28 2021-02-12 郑州阿帕斯科技有限公司 一种视频片段的处理方法和装置
CN113141537A (zh) * 2021-04-02 2021-07-20 Oppo广东移动通信有限公司 视频插帧方法、装置、存储介质以及终端
CN113365098A (zh) * 2021-06-01 2021-09-07 平安国际智慧城市科技股份有限公司 视频帧组装方法、装置、电子设备及存储介质
WO2022100735A1 (zh) * 2020-11-16 2022-05-19 北京字节跳动网络技术有限公司 视频处理方法、装置、电子设备及存储介质

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108769801B (zh) * 2018-05-28 2019-03-29 广州虎牙信息科技有限公司 短视频的合成方法、装置、设备及存储介质

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2001160150A (ja) * 1999-12-02 2001-06-12 Arika:Kk ゲームキャラクタのモーション表示方法
CN108319905A (zh) * 2018-01-25 2018-07-24 南京邮电大学 一种基于长时程深度时空网络的行为识别方法
CN109951654A (zh) * 2019-03-06 2019-06-28 腾讯科技(深圳)有限公司 一种视频合成的方法、模型训练的方法以及相关装置
CN112188236A (zh) * 2019-07-01 2021-01-05 北京新唐思创教育科技有限公司 视频插帧模型训练、视频插帧生成方法及相关装置
CN112367481A (zh) * 2020-10-28 2021-02-12 郑州阿帕斯科技有限公司 一种视频片段的处理方法和装置
WO2022100735A1 (zh) * 2020-11-16 2022-05-19 北京字节跳动网络技术有限公司 视频处理方法、装置、电子设备及存储介质
CN113141537A (zh) * 2021-04-02 2021-07-20 Oppo广东移动通信有限公司 视频插帧方法、装置、存储介质以及终端
CN113365098A (zh) * 2021-06-01 2021-09-07 平安国际智慧城市科技股份有限公司 视频帧组装方法、装置、电子设备及存储介质

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
Identification of Frame-Rate Up-Conversion Based on Spatial-Temporal Edge and Occlusion with Convolutional Neural Network;Xiangling Ding.etc;2020 IEEE International Symposium on Circuits and Systems (ISCAS);全文 *
一种有效的视频序列拼接方法;曹丽娟;郭三华;初玲;焦安霞;;电子设计工程(16);全文 *
基于分割的立体视频运动估计方法;南立园;张萍;王;夏清;费春;;中国科技论文(02);全文 *

Also Published As

Publication number Publication date
CN115119014A (zh) 2022-09-27

Similar Documents

Publication Publication Date Title
CN109618222B (zh) 一种拼接视频生成方法、装置、终端设备及存储介质
CN109803175B (zh) 视频处理方法及装置、设备、存储介质
US10776671B2 (en) Joint blur map estimation and blur desirability classification from an image
CN107707931B (zh) 根据视频数据生成解释数据、数据合成方法及装置、电子设备
US10410397B2 (en) Picture presentation method and apparatus
TW202042175A (zh) 圖像處理方法及裝置、電子設備和電腦可讀儲存媒體
US20130229581A1 (en) Juxtaposing still and dynamic imagery for cliplet creation
CN109168026A (zh) 即时视频显示方法、装置、终端设备及存储介质
CN111145308A (zh) 一种贴纸获取方法和装置
CN109871490A (zh) 媒体资源匹配方法、装置、存储介质和计算机设备
CN112584232A (zh) 视频插帧方法、装置及服务器
CN112565653B (zh) 一种视频插帧方法、系统、电子设备及存储介质
CN104486546A (zh) 拍照的方法、装置及移动终端
CN112183588A (zh) 视频处理方法及装置、电子设备及存储介质
CN116740204A (zh) 风格化图像生成模型的生成方法、装置、设备及存储介质
US10924637B2 (en) Playback method, playback device and computer-readable storage medium
Luo et al. Defocus to focus: Photo-realistic bokeh rendering by fusing defocus and radiance priors
CN110166700A (zh) 创建选择性虚拟长曝光图像
CN115119014B (zh) 视频处理方法、插帧数量模型的训练方法及装置
CN112906553A (zh) 图像处理方法、装置、设备及介质
CN108960130B (zh) 视频文件智能处理方法和装置
CN113658091A (zh) 一种图像评价方法、存储介质及终端设备
CN108460768B (zh) 层次化时域切分的视频关注对象分割方法和装置
CN115623313A (zh) 图像处理方法、图像处理装置、电子设备、存储介质
WO2020108248A1 (zh) 一种视频播放方法及装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant