CN112929743A - 对视频中指定对象添加视频特效的方法、装置及移动端 - Google Patents

对视频中指定对象添加视频特效的方法、装置及移动端 Download PDF

Info

Publication number
CN112929743A
CN112929743A CN202110086911.0A CN202110086911A CN112929743A CN 112929743 A CN112929743 A CN 112929743A CN 202110086911 A CN202110086911 A CN 202110086911A CN 112929743 A CN112929743 A CN 112929743A
Authority
CN
China
Prior art keywords
video
image data
reference frame
processed
gray level
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202110086911.0A
Other languages
English (en)
Other versions
CN112929743B (zh
Inventor
林青山
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Guangzhou Guangzhuiyuan Information Technology Co ltd
Original Assignee
Guangzhou Guangzhuiyuan Information Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Guangzhou Guangzhuiyuan Information Technology Co ltd filed Critical Guangzhou Guangzhuiyuan Information Technology Co ltd
Priority to CN202110086911.0A priority Critical patent/CN112929743B/zh
Publication of CN112929743A publication Critical patent/CN112929743A/zh
Application granted granted Critical
Publication of CN112929743B publication Critical patent/CN112929743B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/43Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
    • H04N21/44Processing of video elementary streams, e.g. splicing a video clip retrieved from local storage with an incoming video stream, rendering scenes according to MPEG-4 scene graphs
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/43Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
    • H04N21/44Processing of video elementary streams, e.g. splicing a video clip retrieved from local storage with an incoming video stream, rendering scenes according to MPEG-4 scene graphs
    • H04N21/4402Processing of video elementary streams, e.g. splicing a video clip retrieved from local storage with an incoming video stream, rendering scenes according to MPEG-4 scene graphs involving reformatting operations of video signals for household redistribution, storage or real-time display
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N5/00Details of television systems
    • H04N5/222Studio circuitry; Studio devices; Studio equipment
    • H04N5/262Studio circuits, e.g. for mixing, switching-over, change of character of image, other special effects ; Cameras specially adapted for the electronic generation of special effects
    • H04N5/2621Cameras specially adapted for the electronic generation of special effects during image pickup, e.g. digital cameras, camcorders, video cameras having integrated special effects capability

Abstract

本发明涉及一种对视频中指定对象添加视频特效的方法、装置及移动端,所述方法包括获取待处理视频;利用所述视频时间轴得到参考帧抠图结果灰度图;根据参考帧图像数据、参考帧抠图结果灰度图、跟踪帧图像数据进行得到跟踪帧抠图结果灰度图;将所有的抠图结果灰度图进行噪声消除,得到精确抠图结果灰度图;最后合成为视频。通过本发明中提供的技术方案,用户只要指定视频中的某个物体,就能根据指定的坐标,识别出视频中距离该坐标最完整的物体/人物,同时自动推算、识别视频后续时间段中该物体/人物的坐标及轮廓,然后利用特效渲染GPU对视频逐帧添加特效,以达到对视频中指定物体/人物添加特效的效果,此方法省时、省力。

Description

对视频中指定对象添加视频特效的方法、装置及移动端
技术领域
本发明属于视频处理技术领域,具体涉及一种对视频中指定对象添加视频特效的方法、装置及移动端。
背景技术
随着用户自制的移动视频平台兴起,越来越多视频制作者会尝试在视频中添加特效来提高视频的表现力。目前移动端的主流特效添加方式一般是通过GPU渲染等技术针对视频中特定时段添加针对整个画面的特效,但当用户需要针对视频中特定的物体/人物添加特效时,普通技术就无能为力了。
相关技术中,使用当前市场上现有的技术针对视频特定区域进行特效渲染,可以考虑引导用户手工绘制固定区域,对该区域进行特效的渲染,但这一方式的缺点是视频中的物体/人物,随着播放时间的变化,其位置、区域大小也会发生相应的变化,除非用户想要添加特效的物体/人物在视频中始终静止不动,添加特效的区域随着时间推移会产生偏差,无法完美地叠加到指定的物体/人物上。同时即使针对视频中静止不动的物体/人物,通过手工绘制区域的方式也非常费时费力。
发明内容
有鉴于此,本发明的目的在于克服现有技术的不足,提供一种对视频中指定对象添加视频特效的方法、装置及移动端,以解决现有技术中对视频中指定区域或指定对象添加特效会产生偏差的问题。
为实现以上目的,本发明采用如下技术方案:一种对视频中指定对象添加视频特效的方法,包括:
获取待处理视频以及所述待处理视频的视频时间轴;
利用所述视频时间轴暂停所述待处理视频,确认所述待处理视频中待添加特效的对象所在的帧图像作为参考帧,将所述参考帧解码后的参考帧图像数据进行处理后输入到训练好的交互式图像网络模型,输出参考帧抠图结果灰度图;
继续播放所述待处理视频,多次获取当前播放的帧图像作为跟踪帧,获取所述跟踪帧解码后的跟踪帧图像数据,将所述参考帧图像数据、参考帧抠图结果灰度图、跟踪帧图像数据进行处理后输入半监督视频图像分割网络模型中,输出跟踪帧抠图结果灰度图;当所述跟踪帧抠图结果灰度图的数量达到预设的参考帧替换阈值时,将当前跟踪帧图像数据和跟踪帧抠图结果灰度图作为新的参考帧图像数据和参考帧抠图结果灰度图;
将所有得到的参考帧抠图结果灰度图和跟踪帧抠图结果灰度图进行噪声消除,得到所有的抠图结果灰度图;
结合所有的抠图结果灰度图,对待处理视频中的待添加特效的对象进行特效渲染,得到特效渲染后的图像数据和原始音频数据;
利用视频硬编码器对特效渲染后的图像数据进行处理,利用音频硬编码器对原始音频数据进行处理,将处理后的图像数据和音频数据合成为视频文件。
进一步的,所述获取待处理视频以及所述待处理视频的视频时间轴,包括:
获取待处理视频;
对所述待处理视频以预设时间段进行抽帧并生成当前帧图像对应的缩略图;
根据所述缩略图以及其对应的时间点生成视频时间轴。
进一步的,所述将所述参考帧解码后的参考帧图像数据进行处理后输入到训练好的交互式图像网络模型,输出参考帧抠图结果灰度图,包括:
获取所述参考帧解码后的参考帧图像数据;
确定所述待添加特效的对象在所述帧图像中的位置坐标;
将参考帧图像数据与所述位置坐标的数据整合后进行归一化,将归一化后得到的图像数据输入到训练好的交互式图像分割网络模型中进行计算,得到参考帧抠图结果灰度图。
进一步的,所述将所述参考帧图像数据、参考帧抠图结果灰度图、跟踪帧图像数据进行处理后输入半监督视频图像分割网络模型中,输出跟踪帧抠图结果灰度图,包括:
将参考帧图像数据,参考帧抠图结果灰度图,跟踪帧图像数据整合并归一化;
将归一化后得到的图像数据输入到训练好的半监督视频图像分割网络模型中进行计算,得到跟踪帧抠图结果灰度图。
进一步的,所述将所有得到的参考帧抠图结果灰度图和跟踪帧抠图结果灰度图进行噪声消除,得到所有的抠图结果灰度图,包括:
采用OSTU大津法对所有的参考帧抠图结果灰度图和跟踪帧抠图结果灰度图进行自适应阈值二值化处理,得到二值化图像;
对所述二值化图像进行膨胀腐蚀处理,得到所有的抠图结果灰度图。
进一步的,所述利用视频硬编码器对特效渲染后的图像数据进行处理,利用音频硬编码器对原始音频数据进行处理,将处理后的图像数据和音频数据合成为视频文件,包括:
初始化视频硬编码器和音频硬编码器;
启动编码时钟控制器;
创建编码视频数据的缓冲区和编码音频数据的缓冲区;
根据所述编码时钟控制器,获取特效渲染后的图像数据和视频原始音频数据;
将所述特效渲染后的图像数据和原始音视频数据分别输入到视频硬编码部件的数据输入区和音频硬编码部件的数据输入区,所述视频硬编码部件和音频硬编码部件分别对所述特效渲染后的图像数据和视频原始音频数据进行压缩编码;
将压缩编码后的视频数据和音频数据分别输出到编码视频缓冲区和编码音频缓冲区;
获取编码视频缓冲区和编码音频缓冲区中的视频数据和音频数据,使用CPU模块将两者以公开格式的算法进行合成,生成视频文件。
进一步的,所述参考帧图像数据为RGBA格式;
所述跟踪帧图像数据为RGBA格式。
进一步的,所述视频文件采用MP4格式。
本申请实施例提供一种对视频中指定对象添加视频特效的装置,包括:
视频时间轴模块,用于获取待处理视频以及所述待处理视频的视频时间轴;
抠图对象选取模块,用于利用所述视频时间轴暂停所述待处理视频,确认所述待处理视频中待添加特效的对象所在的帧图像作为参考帧,将所述参考帧解码后的参考帧图像数据进行处理后输入到训练好的交互式图像网络模型,输出参考帧抠图结果灰度图;
抠图对象跟踪模块,用于继续播放所述待处理视频,多次获取当前播放的帧图像作为跟踪帧,获取所述跟踪帧解码后的跟踪帧图像数据,将所述参考帧图像数据、参考帧抠图结果灰度图、跟踪帧图像数据进行处理后输入半监督视频图像分割网络模型中,输出跟踪帧抠图结果灰度图;当所述跟踪帧抠图结果灰度图的数量达到预设的参考帧替换阈值时,将当前跟踪帧图像数据和跟踪帧抠图结果灰度图作为新的参考帧图像数据和参考帧抠图结果灰度图;
抠图结果调优模块,用于将所有得到的参考帧抠图结果灰度图和跟踪帧抠图结果灰度图进行噪声消除,得到所有的抠图结果灰度图;
特效渲染模块,用于结合所有的抠图结果灰度图,对待处理视频中的待添加特效的对象进行特效渲染,得到特效渲染后的图像数据和原始音频数据;
视频编码导出模块,用于利用视频硬编码器对特效渲染后的图像数据进行处理,利用音频硬编码器对原始音频数据进行处理,将处理后的图像数据和音频数据合成为视频文件。
本申请实施例提供一种移动端,包括处理器,以及与所述处理器连接的存储器;
所述存储器用于存储计算机程序,计算机程序用于执行上述任一实施例提供的对视频中指定对象添加视频特效的方法;
所述处理器用于调用并执行存储器中的计算机程序
本发明采用以上技术方案,能够达到的有益效果包括:
本发明提供一种对视频中指定对象添加视频特效的方法、装置及移动端,采用本申请提供的技术方案用户只要简单指定视频中的某个物体,该方案就能根据指定的坐标,自动识别出视频中距离该坐标最完整的物体/人物,同时自动推算、识别视频后续时间段中该物体/人物的坐标及轮廓,然后利用特效渲染技术利用GPU对视频逐帧自动添加特效,以达到对视频中指定物体/人物添加特效的效果,比传统方法省时、省力。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明对视频中指定对象添加视频特效的方法的步骤示意图;
图2为本发明抠图结果灰度图;
图3为本发明对视频中指定对象添加视频特效的装置的结构示意图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚,下面将对本发明的技术方案进行详细的描述。显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动的前提下所得到的所有其它实施方式,都属于本发明所保护的范围。
下面结合附图介绍本申请实施例中提供的一个具体的对视频中指定对象添加视频特效的方法、装置以及移动端。
如图1所示,本申请实施例中提供的对视频中指定对象添加视频特效的方法包括:
S101,获取待处理视频以及所述待处理视频的视频时间轴;
S102,利用所述视频时间轴暂停所述待处理视频,确认所述待处理视频中待添加特效的对象所在的帧图像作为参考帧,将所述参考帧解码后的参考帧图像数据进行处理后输入到训练好的交互式图像网络模型,输出参考帧抠图结果灰度图;
S103,继续播放所述待处理视频,多次获取当前播放的帧图像作为跟踪帧,获取所述跟踪帧解码后的跟踪帧图像数据,将所述参考帧图像数据、参考帧抠图结果灰度图、跟踪帧图像数据进行处理后输入半监督视频图像分割网络模型中,输出跟踪帧抠图结果灰度图;当所述跟踪帧抠图结果灰度图的数量达到预设的参考帧替换阈值时,将当前跟踪帧图像数据和跟踪帧抠图结果灰度图作为新的参考帧图像数据和参考帧抠图结果灰度图;
S104,将所有得到的参考帧抠图结果灰度图和跟踪帧抠图结果灰度图进行噪声消除,得到所有的抠图结果灰度图;
S105,结合所有的抠图结果灰度图,对待处理视频中的待添加特效的对象进行特效渲染,得到特效渲染后的图像数据和原始音频数据;
经过上述得到的所有抠图结果灰度图已经得到了从参考帧开始到后续所有播放到的跟踪帧的每一帧的抠图结果灰度图。结合抠图结果灰度图,将常用的各种视频特效渲染到视频中的局部位置,也就是我们选择目标对象上。
S106,利用视频硬编码器对特效渲染后的图像数据进行处理,利用音频硬编码器对原始音频数据进行处理,将处理后的图像数据和音频数据合成为视频文件。
对视频中指定对象添加视频特效的方法的工作原理为:可以理解的是,本申请提供的方法可在移动端完成,通过移动端拍摄视频或者从移动端的相册中选择视频作为待处理视频,确认待处理视频中待添加特效的对象所在的帧图像作为参考帧,将参考帧解码后的参考帧图像数据进行处理后输入到训练好的交互式图像网络模型,输出参考帧抠图结果灰度图,继续播放待处理视频,多次获取当前播放的帧图像作为跟踪帧,获取跟踪帧解码后的跟踪帧图像数据,将参考帧图像数据、参考帧抠图结果灰度图、跟踪帧图像数据进行处理后输入半监督视频图像分割网络模型中,输出跟踪帧抠图结果灰度图;当跟踪帧抠图结果灰度图的数量达到预设的参考帧替换阈值时,将当前跟踪帧图像数据和跟踪帧抠图结果灰度图作为新的参考帧图像数据和参考帧抠图结果灰度图;将所有得到的参考帧抠图结果灰度图和跟踪帧抠图结果灰度图进行噪声消除,得到所有的抠图结果灰度图,结合所有的抠图结果灰度图,对待处理视频中的待添加特效的对象进行特效渲染,得到特效渲染后的图像数据和原始音频数据,最后利用视频硬编码器对特效渲染后的图像数据进行处理,利用音频硬编码器对原始音频数据进行处理,将处理后的图像数据和音频数据合成为视频文件。
采用本申请提供的技术方案用户只要简单指定视频中的某个物体,该方案就能根据指定的坐标,自动识别出视频中距离该坐标最完整的物体/人物,同时自动推算、识别视频后续时间段中该物体/人物的坐标及轮廓,然后利用特效渲染技术利用GPU对视频逐帧自动添加特效,以达到对视频中指定物体/人物添加特效的效果,比传统方法省时、省力。
一些实施例中,所述获取待处理视频以及所述待处理视频的视频时间轴,包括:
获取待处理视频;
对所述待处理视频以预设时间段进行抽帧并生成当前帧图像对应的缩略图;
根据所述缩略图以及其对应的时间点生成视频时间轴。
具体的,对用户导入的视频按照一定的时间精度进行快速抽帧,并生成该帧视频画面对应的缩略图;使用上述生成的缩略图,按照对应的时间点生成视频轴;用户可以根据场景需要,自行缩放时间轴精度,最大精度可以对应视频的每一帧画面,以便对视频进行更加精细的控制;用户可以通过视频时间轴对视频进行播放、暂停和任意时间的跳转操作。用户通过触摸、单点滑动和多点滑动等交互方式对视频时间轴操作,可以实现对视频的播放、暂停、跳转到视频时间范围内的任意时间点。同时用户可以通过视频时间轴上不同时间点对应的视频画面的缩略图对整个视频信息有更全面和清晰的了解。
一些实施例中,所述将所述参考帧解码后的参考帧图像数据进行处理后输入到训练好的交互式图像网络模型,输出参考帧抠图结果灰度图,包括:
获取所述参考帧解码后的参考帧图像数据;
确定所述待添加特效的对象在所述帧图像中的位置坐标;
将参考帧图像数据与所述位置坐标的数据整合后进行归一化,将归一化后得到的图像数据输入到训练好的交互式图像分割网络模型中进行计算,得到参考帧抠图结果灰度图。
具体的,用户通过视频时间轴操作,确认视频中想要调加特效的对象所在的帧后,对视频进行暂停操作,视频暂停在当前帧作为参考帧,并获取到参考帧解码后的图像数据,优选地,参考帧图像数据需转换为RGBA格式。用户通过在移动端中输入目标对象所在位置信息,例如可以通过点击屏幕的方式,然后程序获取到用户所触摸的屏幕位置的坐标,坐标为两个整型数值,例如100,100。
将参考帧图像数据与上述位置坐标进行数据整合并归一化,本实施例中对参考帧图像数据进行非等比例缩放到长宽尺寸为128*128,以位置坐标为中心附近范围7*7的范围内,将图像数据的透明通道置为255,范围外的则置为0。将图像数据进行归一化,得到128*128*4大小的输入数据并输入到已训练好的交互式图像分割网络模型中,经过网络运算输出结果灰度图,作为参考帧抠图结果灰度图,如附图2所示,灰度图取值范围为0-1,取值越接近1表示对应的帧图像相同位置的像素是目标对象的概率越大。其中,交互式图像分割网络模型的实现有很多不同的方式,其可以采用现有技术实现,本申请在此不做限定,本申请对所使用的交互式图像分割网络模型的具体实现没有要求,只需保持输出结果为上述灰度图的形式,其余可结合实际使用场景进行设计、实现和训练。
本实施例中,针对移动端的算力现状,为了提高运算速度达到实时推理,对网络模型进行了模型量化,还采用主流的针对移动端前向推导进行设计的开源框架,如ncnn,mnn等。
一些是实施例中,所述将所述参考帧图像数据、参考帧抠图结果灰度图、跟踪帧图像数据进行处理后输入半监督视频图像分割网络模型中,输出跟踪帧抠图结果灰度图,包括:
将参考帧图像数据,参考帧抠图结果灰度图,跟踪帧图像数据整合并归一化;
将归一化后得到的图像数据输入到训练好的半监督视频图像分割网络模型中进行计算,得到跟踪帧抠图结果灰度图。
具体的,用户对视频进行播放操作,视频播放同时获取到当前播放的帧解码后的帧图像数据作为跟踪帧,优选地,跟踪帧图像数据需转换为RGBA格式。将参考帧图像数据,参考帧抠图结果灰度图,跟踪帧图像数据整合并归一化。本申请中对跟踪帧图像数据进行非等比例缩放到长宽尺寸为128*128,以位置坐标为中心附近范围7*7的范围内,将跟踪帧图像数据的透明通道置为255,范围外的则置为0。将跟踪帧图像数据进行归一化,得到128*128*4大小的输入数据。然后跟参考帧图像数据(128*128*4),参考帧抠图结果灰度图(128*128*1)进行拼接,得到128*128*9大小的输入数据。将数据输入到已训练好的半监督视频图像分割网络模型中,经过网络模型运算输出结果灰度图,作为跟踪帧抠图结果灰度图,灰度图取值范围为0-1,取值越接近1表示对应的帧图像相同位置的像素是目标对象的概率越大。其中,半监督视频图像分割网络模型的实现有很多不同的方式,其可以采用现有技术实现,本申请在此不做限定;参考帧图像数据,参考帧抠图结果灰度图作为监督信息辅助分割网络模型对跟踪帧图像进行分割,所使用的半监督视频图像分割网络模型的具体实现没有要求,只需保持输出结果为上述灰度图的形式,其余可结合实际使用场景进行设计、实现和训练。
本实施例中,针对移动端的算力现状,为了提高运算速度达到实时推理,对网络模型进行了模型量化,还采用主流的针对移动端前向推导进行设计的开源框架,如ncnn,mnn等。
可以理解的是,本申请设定参考帧替换阈值,例如是5,随着跟踪帧数量的增加,当跟踪次数达到所设定阈值,例如已累计进行跟踪帧抠图超过5次,将当前跟踪帧数据和跟踪帧抠图结果灰度图,分别替换掉原来的参考帧图像数据,参考帧抠图结果灰度图,作为新的参考帧图像数据和参考帧抠图结果灰度图。
一些实施例中,所述将所有得到的参考帧抠图结果灰度图和跟踪帧抠图结果灰度图进行噪声消除,得到所有的抠图结果灰度图,包括:
采用OSTU大津法对所有的参考帧抠图结果灰度图和跟踪帧抠图结果灰度图进行自适应阈值二值化处理,得到二值化图像;
对所述二值化图像进行膨胀腐蚀处理,得到所有的抠图结果灰度图。
具体的,本申请对上述运算所得的所有抠图结果灰度图,利用阈值二值化,膨胀腐蚀等常用图像处理的技术手段进行部分噪声消除,得到更加精确的抠图结果灰度图。具体的,本实施例中,使用设定阈值为0.3,将灰度图中取值低于0.3的数值置为0,将灰度图中取值高于0.3的数值置为1。
一些实施例中,所述利用视频硬编码器对特效渲染后的图像数据进行处理,利用音频硬编码器对原始音频数据进行处理,将处理后的图像数据和音频数据合成为视频文件,包括:
初始化视频硬编码器和音频硬编码器;
启动编码时钟控制器;
创建编码视频数据的缓冲区和编码音频数据的缓冲区;
根据所述编码时钟控制器,获取特效渲染后的图像数据和视频原始音频数据;
将所述特效渲染后的图像数据和原始音视频数据分别输入到视频硬编码部件的数据输入区和音频硬编码部件的数据输入区,所述视频硬编码部件和音频硬编码部件分别对所述特效渲染后的图像数据和视频原始音频数据进行压缩编码;
将压缩编码后的视频数据和音频数据分别输出到编码视频缓冲区和编码音频缓冲区;
获取编码视频缓冲区和编码音频缓冲区中的视频数据和音频数据,使用CPU模块将两者以公开格式的算法进行合成,生成视频文件。
具体的,本实施例中用户导入了分辨率为1080P、帧率为30的MP4格式视频,而导出期望配置分辨率为720P、帧率为30的MP4格式视频,根据用户导入的视频基本信息以及用户需要导出的视频配置,初始化了以编码DSP为运算核心的视频硬编码器和音频硬编码器。启动编码时钟控制器,该时钟控制器将按照用户期望的导出视频帧率控制导出进度;根据用户期望的导出视频分辨率创建编码视频数据的缓冲区和编码音频数据的缓冲区;根据上述时钟控器的通知,获取特效渲染模块处理后的YUV格式的图像数据和视频原始PCM格式的音频数据,并且将两种分别输入到视频硬编码部件的数据输入区和音频硬编码部件的数据输入区,并且通知初始化好的硬编码部件分别对图像和音频数据进行压缩编码;将压缩编码后的视频数据和音频数据分别输出到编码视频的缓冲区和编码音频的缓冲区;从上述的编码视频缓冲区和编码音频缓冲区获取编码后的视频和音频数据,使用CPU运算模块将两者以MP4格式合成最终的视频文件。
如图3所示,本申请提供一种对视频中指定对象添加视频特效的装置,包括:
视频时间轴模块301,用于获取待处理视频以及所述待处理视频的视频时间轴;
抠图对象选取模块302,用于利用所述视频时间轴暂停所述待处理视频,确认所述待处理视频中待添加特效的对象所在的帧图像作为参考帧,将所述参考帧解码后的参考帧图像数据进行处理后输入到训练好的交互式图像网络模型,输出参考帧抠图结果灰度图;
抠图对象跟踪模块303,用于继续播放所述待处理视频,多次获取当前播放的帧图像作为跟踪帧,获取所述跟踪帧解码后的跟踪帧图像数据,将所述参考帧图像数据、参考帧抠图结果灰度图、跟踪帧图像数据进行处理后输入半监督视频图像分割网络模型中,输出跟踪帧抠图结果灰度图;当所述跟踪帧抠图结果灰度图的数量达到预设的参考帧替换阈值时,将当前跟踪帧图像数据和跟踪帧抠图结果灰度图作为新的参考帧图像数据和参考帧抠图结果灰度图;
抠图结果调优模块304,用于将所有得到的参考帧抠图结果灰度图和跟踪帧抠图结果灰度图进行噪声消除,得到所有的抠图结果灰度图;
特效渲染模块305,用于结合所有的抠图结果灰度图,对待处理视频中的待添加特效的对象进行特效渲染,得到特效渲染后的图像数据和原始音频数据;
视频编码导出模块306,用于利用视频硬编码器对特效渲染后的图像数据进行处理,利用音频硬编码器对原始音频数据进行处理,将处理后的图像数据和音频数据合成为视频文件。
本申请实施例提供的对视频中指定对象添加视频特效的装置的工作原理为,视频时间轴模块301获取待处理视频以及所述待处理视频的视频时间轴;抠图对象选取模块302利用所述视频时间轴暂停所述待处理视频,确认所述待处理视频中待添加特效的对象所在的帧图像作为参考帧,将所述参考帧解码后的参考帧图像数据进行处理后输入到训练好的交互式图像网络模型,输出参考帧抠图结果灰度图;抠图对象跟踪模块303继续播放所述待处理视频,多次获取当前播放的帧图像作为跟踪帧,获取所述跟踪帧解码后的跟踪帧图像数据,将所述参考帧图像数据、参考帧抠图结果灰度图、跟踪帧图像数据进行处理后输入半监督视频图像分割网络模型中,输出跟踪帧抠图结果灰度图;当所述跟踪帧抠图结果灰度图的数量达到预设的参考帧替换阈值时,将当前跟踪帧图像数据和跟踪帧抠图结果灰度图作为新的参考帧图像数据和参考帧抠图结果灰度图;抠图结果调优模块304将所有得到的参考帧抠图结果灰度图和跟踪帧抠图结果灰度图进行噪声消除,得到所有的抠图结果灰度图;特效渲染模块305结合所有的抠图结果灰度图,对待处理视频中的待添加特效的对象进行特效渲染,得到特效渲染后的图像数据和原始音频数据;视频编码导出模块306利用视频硬编码器对特效渲染后的图像数据进行处理,利用音频硬编码器对原始音频数据进行处理,将处理后的图像数据和音频数据合成为视频文件。
本申请实施例提供一种移动端,包括处理器,以及与处理器连接的存储器;
存储器用于存储计算机程序,计算机程序用于执行上述任一实施例提供的对视频中指定对象添加视频特效的方法;
处理器用于调用并执行存储器中的计算机程序。
综上所述,本发明提供一种对视频中指定对象添加视频特效的方法、装置及移动端,所述方法包括获取待处理视频;利用所述视频时间轴得到参考帧抠图结果灰度图;根据参考帧图像数据、参考帧抠图结果灰度图、跟踪帧图像数据进行得到跟踪帧抠图结果灰度图;将所有的抠图结果灰度图进行噪声消除,得到精确抠图结果灰度图;将得到的图像数据和音频数据合成为视频。通过本发明中提供的技术方案,用户只要指定视频中的某个物体,就能根据指定的坐标,识别出视频中距离该坐标最完整的物体/人物,同时自动推算、识别视频后续时间段中该物体/人物的坐标及轮廓,然后利用特效渲染GPU对视频逐帧添加特效,以达到对视频中指定物体/人物添加特效的效果,此方法省时、省力。
可以理解的是,上述提供的方法实施例与上述的装置实施例对应,相应的具体内容可以相互参考,在此不再赘述。
本领域内的技术人员应明白,本申请的实施例可提供为方法、系统、或计算机程序产品。因此,本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器和光学存储器等)上实施的计算机程序产品的形式。
本申请是参照根据本申请实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令方法的制造品,该指令方法实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
以上所述,仅为本发明的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到变化或替换,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应以所述权利要求的保护范围为准。

Claims (10)

1.一种对视频中指定对象添加视频特效的方法,其特征在于,包括:
获取待处理视频以及所述待处理视频的视频时间轴;
利用所述视频时间轴暂停所述待处理视频,确认所述待处理视频中待添加特效的对象所在的帧图像作为参考帧,将所述参考帧解码后的参考帧图像数据进行处理后输入到训练好的交互式图像网络模型,输出参考帧抠图结果灰度图;
继续播放所述待处理视频,多次获取当前播放的帧图像作为跟踪帧,获取所述跟踪帧解码后的跟踪帧图像数据,将所述参考帧图像数据、参考帧抠图结果灰度图、跟踪帧图像数据进行处理后输入半监督视频图像分割网络模型中,输出跟踪帧抠图结果灰度图;当所述跟踪帧抠图结果灰度图的数量达到预设的参考帧替换阈值时,将当前跟踪帧图像数据和跟踪帧抠图结果灰度图作为新的参考帧图像数据和参考帧抠图结果灰度图;
将所有得到的参考帧抠图结果灰度图和跟踪帧抠图结果灰度图进行噪声消除,得到所有的抠图结果灰度图;
结合所有的抠图结果灰度图,对待处理视频中的待添加特效的对象进行特效渲染,得到特效渲染后的图像数据和原始音频数据;
利用视频硬编码器对特效渲染后的图像数据进行处理,利用音频硬编码器对原始音频数据进行处理,将处理后的图像数据和音频数据合成为视频文件。
2.根据权利要求1所述的方法,其特征在于,所述获取待处理视频以及所述待处理视频的视频时间轴,包括:
获取待处理视频;
对所述待处理视频以预设时间段进行抽帧并生成当前帧图像对应的缩略图;
根据所述缩略图以及其对应的时间点生成视频时间轴。
3.根据权利要求1所述的方法,其特征在于,所述将所述参考帧解码后的参考帧图像数据进行处理后输入到训练好的交互式图像网络模型,输出参考帧抠图结果灰度图,包括:
获取所述参考帧解码后的参考帧图像数据;
确定所述待添加特效的对象在所述帧图像中的位置坐标;
将参考帧图像数据与所述位置坐标的数据整合后进行归一化,将归一化后得到的图像数据输入到训练好的交互式图像分割网络模型中进行计算,得到参考帧抠图结果灰度图。
4.根据权利要求1所述的方法,其特征在于,所述将所述参考帧图像数据、参考帧抠图结果灰度图、跟踪帧图像数据进行处理后输入半监督视频图像分割网络模型中,输出跟踪帧抠图结果灰度图,包括:
将参考帧图像数据,参考帧抠图结果灰度图,跟踪帧图像数据整合并归一化;
将归一化后得到的图像数据输入到训练好的半监督视频图像分割网络模型中进行计算,得到跟踪帧抠图结果灰度图。
5.根据权利要求1所述的方法,其特征在于,所述将所有得到的参考帧抠图结果灰度图和跟踪帧抠图结果灰度图进行噪声消除,得到所有的抠图结果灰度图,包括:
采用OSTU大津法对所有的参考帧抠图结果灰度图和跟踪帧抠图结果灰度图进行自适应阈值二值化处理,得到二值化图像;
对所述二值化图像进行膨胀腐蚀处理,得到所有的抠图结果灰度图。
6.根据权利要求1所述的方法,其特征在于,所述利用视频硬编码器对特效渲染后的图像数据进行处理,利用音频硬编码器对原始音频数据进行处理,将处理后的图像数据和音频数据合成为视频文件,包括:
初始化视频硬编码器和音频硬编码器;
启动编码时钟控制器;
创建编码视频数据的缓冲区和编码音频数据的缓冲区;
根据所述编码时钟控制器,获取特效渲染后的图像数据和视频原始音频数据;
将所述特效渲染后的图像数据和原始音视频数据分别输入到视频硬编码部件的数据输入区和音频硬编码部件的数据输入区,所述视频硬编码部件和音频硬编码部件分别对所述特效渲染后的图像数据和视频原始音频数据进行压缩编码;
将压缩编码后的视频数据和音频数据分别输出到编码视频缓冲区和编码音频缓冲区;
获取编码视频缓冲区和编码音频缓冲区中的视频数据和音频数据,使用CPU模块将两者以公开格式的算法进行合成,生成视频文件。
7.根据权利要求1所述的方法,其特征在于,
所述参考帧图像数据为RGBA格式;
所述跟踪帧图像数据为RGBA格式。
8.根据权利要求1所述的方法,其特征在于,
所述视频文件采用MP4格式。
9.一种对视频中指定对象添加视频特效的装置,其特征在于,包括:
视频时间轴模块,用于获取待处理视频以及所述待处理视频的视频时间轴;
抠图对象选取模块,用于利用所述视频时间轴暂停所述待处理视频,确认所述待处理视频中待添加特效的对象所在的帧图像作为参考帧,将所述参考帧解码后的参考帧图像数据进行处理后输入到训练好的交互式图像网络模型,输出参考帧抠图结果灰度图;
抠图对象跟踪模块,用于继续播放所述待处理视频,多次获取当前播放的帧图像作为跟踪帧,获取所述跟踪帧解码后的跟踪帧图像数据,将所述参考帧图像数据、参考帧抠图结果灰度图、跟踪帧图像数据进行处理后输入半监督视频图像分割网络模型中,输出跟踪帧抠图结果灰度图;当所述跟踪帧抠图结果灰度图的数量达到预设的参考帧替换阈值时,将当前跟踪帧图像数据和跟踪帧抠图结果灰度图作为新的参考帧图像数据和参考帧抠图结果灰度图;
抠图结果调优模块,用于将所有得到的参考帧抠图结果灰度图和跟踪帧抠图结果灰度图进行噪声消除,得到所有的抠图结果灰度图;
特效渲染模块,用于结合所有的抠图结果灰度图,对待处理视频中的待添加特效的对象进行特效渲染,得到特效渲染后的图像数据和原始音频数据;
视频编码导出模块,用于利用视频硬编码器对特效渲染后的图像数据进行处理,利用音频硬编码器对原始音频数据进行处理,将处理后的图像数据和音频数据合成为视频文件。
10.一种移动端,其特征在于,包括处理器,以及与所述处理器连接的存储器;
所述存储器用于存储计算机程序,计算机程序用于执行所述权利要求1至7任一项所述的对视频中指定对象添加视频特效的方法;
所述处理器用于调用并执行存储器中的计算机程序。
CN202110086911.0A 2021-01-22 2021-01-22 对视频中指定对象添加视频特效的方法、装置及移动端 Active CN112929743B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110086911.0A CN112929743B (zh) 2021-01-22 2021-01-22 对视频中指定对象添加视频特效的方法、装置及移动端

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110086911.0A CN112929743B (zh) 2021-01-22 2021-01-22 对视频中指定对象添加视频特效的方法、装置及移动端

Publications (2)

Publication Number Publication Date
CN112929743A true CN112929743A (zh) 2021-06-08
CN112929743B CN112929743B (zh) 2023-03-21

Family

ID=76164613

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110086911.0A Active CN112929743B (zh) 2021-01-22 2021-01-22 对视频中指定对象添加视频特效的方法、装置及移动端

Country Status (1)

Country Link
CN (1) CN112929743B (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113596564A (zh) * 2021-09-29 2021-11-02 卡莱特云科技股份有限公司 一种画面播放方法及装置
CN113658232A (zh) * 2021-07-13 2021-11-16 广东技术师范大学 基于视频跟踪的建模方法、装置及计算机可读程序介质

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104394324A (zh) * 2014-12-09 2015-03-04 成都理想境界科技有限公司 特效视频生成方法及装置
CN108111911A (zh) * 2017-12-25 2018-06-01 北京奇虎科技有限公司 基于自适应跟踪框分割的视频数据实时处理方法及装置
CN109889893A (zh) * 2019-04-16 2019-06-14 北京字节跳动网络技术有限公司 视频处理方法、装置及设备
CN111815649A (zh) * 2020-06-30 2020-10-23 清华大学深圳国际研究生院 一种人像抠图方法及计算机可读存储介质
CN111968123A (zh) * 2020-08-28 2020-11-20 北京交通大学 一种半监督视频目标分割方法
CN112153472A (zh) * 2020-09-27 2020-12-29 广州博冠信息科技有限公司 一种画面特效的生成方法及装置、存储介质及电子设备

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104394324A (zh) * 2014-12-09 2015-03-04 成都理想境界科技有限公司 特效视频生成方法及装置
CN108111911A (zh) * 2017-12-25 2018-06-01 北京奇虎科技有限公司 基于自适应跟踪框分割的视频数据实时处理方法及装置
CN109889893A (zh) * 2019-04-16 2019-06-14 北京字节跳动网络技术有限公司 视频处理方法、装置及设备
CN111815649A (zh) * 2020-06-30 2020-10-23 清华大学深圳国际研究生院 一种人像抠图方法及计算机可读存储介质
CN111968123A (zh) * 2020-08-28 2020-11-20 北京交通大学 一种半监督视频目标分割方法
CN112153472A (zh) * 2020-09-27 2020-12-29 广州博冠信息科技有限公司 一种画面特效的生成方法及装置、存储介质及电子设备

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113658232A (zh) * 2021-07-13 2021-11-16 广东技术师范大学 基于视频跟踪的建模方法、装置及计算机可读程序介质
CN113658232B (zh) * 2021-07-13 2024-01-05 杭州追形视频科技有限公司 基于视频跟踪的建模方法、装置及计算机可读程序介质
CN113596564A (zh) * 2021-09-29 2021-11-02 卡莱特云科技股份有限公司 一种画面播放方法及装置

Also Published As

Publication number Publication date
CN112929743B (zh) 2023-03-21

Similar Documents

Publication Publication Date Title
CN110855904B (zh) 视频处理方法、电子装置和存储介质
CN110503703B (zh) 用于生成图像的方法和装置
US20180192063A1 (en) Method and System for Virtual Reality (VR) Video Transcode By Extracting Residual From Different Resolutions
CN112929743B (zh) 对视频中指定对象添加视频特效的方法、装置及移动端
CN111464833A (zh) 目标图像生成方法、目标图像生成装置、介质及电子设备
TW201501761A (zh) 以遊戲者之注意區域爲基礎改善視訊串流的速率控制位元分配
EP3917131A1 (en) Image deformation control method and device and hardware device
CN110620924B (zh) 编码数据的处理方法、装置、计算机设备及存储介质
CN104091607A (zh) 一种基于ios设备的视频编辑方法及装置
CN111612878B (zh) 将静态照片制作成三维效果视频的方法及装置
US20230034764A1 (en) Video stream processing method and apparatus, and electronic device and computer-readable medium
CN111192190B (zh) 消除图像水印的方法、装置及电子设备
CN104918120A (zh) 一种播放进度调节方法及电子设备
US20220014447A1 (en) Method for enhancing quality of media
US20220188357A1 (en) Video generating method and device
CN104091608A (zh) 一种基于ios设备的视频编辑方法及装置
CN114972574A (zh) 利用潜在向量流绘制器和图像修改神经网络的基于web的数字图像实时编辑
CN113132800B (zh) 视频处理方法、装置、视频播放器、电子设备及可读介质
CN113055730B (zh) 视频生成方法、装置、电子设备以及存储介质
WO2012071844A1 (zh) 多媒体动画的生成和播放的方法和装置
WO2018123202A1 (ja) 動画像処理装置、表示装置、動画像処理方法、および制御プログラム
CN115482832A (zh) 虚拟人脸生成方法、装置、计算机设备及可读存储介质
CN104168482A (zh) 一种视频编解码方法及装置
CN113489899A (zh) 特效视频录制方法、装置、计算机设备及存储介质
CN112767240A (zh) 提高人像视频美化处理效率的方法、装置及移动端

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant