CN114302128A - 视频生成的方法、装置、电子设备及存储介质 - Google Patents
视频生成的方法、装置、电子设备及存储介质 Download PDFInfo
- Publication number
- CN114302128A CN114302128A CN202111671320.6A CN202111671320A CN114302128A CN 114302128 A CN114302128 A CN 114302128A CN 202111671320 A CN202111671320 A CN 202111671320A CN 114302128 A CN114302128 A CN 114302128A
- Authority
- CN
- China
- Prior art keywords
- target
- video
- virtual
- video frame
- target object
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Landscapes
- Processing Or Creating Images (AREA)
Abstract
本发明实施例涉及一种视频生成的方法、装置、电子设备及存储介质,包括:获取原始视频,以及获取目标虚拟场景;针对所述原始视频中的每一视频帧,从所述视频帧中提取目标对象的3D虚拟形象;将所述目标对象的3D虚拟形象与所述目标虚拟场景进行合成,得到3D视频帧;根据每一所述3D视频帧生成不同虚拟视点下的目标视频。由此,可以实现用户可在虚拟场景中进行视频拍摄,增加了趣味,减少拍摄成本,提升用户体验。
Description
技术领域
本发明实施例涉及视频处理技术领域,尤其涉及一种视频生成的方法、装置、电子设备及存储介质。
背景技术
随着科技的快速发展,市场上涌现出大量新媒体和自媒体平台,一些平台上承载着庞大的用户量,用户会出于记录、分享、热度、推广、营销等目的,在平台上发布一些图文、直播、创意视频(例如短片)等内容。
其中,用户更多的选择发布创意视频,但是,创意视频的拍摄对拍摄时间、拍摄地点、拍摄环境等都有一定的要求。目前,用户可以通过视频剪辑工具对拍摄的视频进行剪辑和/或编辑。
然而,现有的视频剪辑工具仅仅能够实现特效装扮、拍摄环境编辑或者更换等基本剪辑功能,创作成本高,融合度较低,并且无法满足用户更多的需求。
发明内容
鉴于此,为解决上述全部的技术问题或者部分的技术问题,本发明实施例提供一种视频生成的方法、装置、电子设备及存储介质。
第一方面,本发明实施例提供一种视频生成的方法,包括:
获取原始视频,以及获取目标虚拟场景;
针对所述原始视频中的每一视频帧,从所述视频帧中提取目标对象的3D虚拟形象;
将所述目标对象的3D虚拟形象与所述目标虚拟场景进行合成,得到3D视频帧;
根据每一所述3D视频帧生成不同虚拟视点下的目标视频。
在一可能的实施方式中,所述从所述视频帧中提取目标对象的3D虚拟形象,包括:
从所述视频帧中提取所述目标对象的特征,所述特征包括下述一项或几项:轮廓、肢体动作、表情参数、深度信息;
利用无线网格Mesh贴图技术对所述目标对象的特征进行3D重塑,得到所述目标对象的3D虚拟形象。
在一可能的实施方式中,所述根据每一所述3D视频帧生成不同虚拟视点下的目标视频,包括:
在所述目标虚拟场景中设置多个虚拟视点,多个所述虚拟视点分布在所述目标虚拟场景的不同方位上;
针对每一所述3D视频帧,确定所述3D视频帧在不同虚拟视点下的虚拟视点图像;
针对每一所述虚拟视点,将所述虚拟视点下的多个所述虚拟视点图像进行合成,得到所述虚拟视点下的目标视频。
在一可能的实施方式中,所述根据每一所述3D视频帧生成不同虚拟视点下的目标视频,包括:
在所述目标虚拟场景中设置至少一个虚拟视点;
针对每一所述虚拟视点,控制所述虚拟视点在所述3D视频帧中移动,并在移动过程中,针对每一所述3D视频帧,确定所述3D视频帧在当前的虚拟视点下的虚拟视点图像;
将多个所述虚拟视点图像进行合成,得到所述虚拟视点下的目标视频。
在一可能的实施方式中,所述方法还包括:
获取目标音频;
所述将所述目标对象的3D虚拟形象与所述目标虚拟场景进行合成,得到3D视频帧,包括:
将所述目标音频、所述目标对象的3D虚拟形象及所述目标虚拟场景进行合成,得到3D视频帧。
在一可能的实施方式中,所述获取目标音频,包括:
针对所述原始视频中的每一视频帧,从所述视频帧中提取出音频;
将提取出的所述音频确定为目标音频;
或者,
接收外部输入的目标音频。
在一可能的实施方式中,在所述根据每一所述3D视频帧生成不同虚拟视点下的目标视频之后,所述方法还包括:
对所述目标视频进行转码;
将转码后的目标视频保存至本地图库。
第二方面,本发明实施例提供一种视频生成的装置,包括:
获取模块,用于获取原始视频,以及获取目标虚拟场景;
提取模块,用于针对所述原始视频中的每一视频帧,从所述视频帧中提取目标对象的3D虚拟形象;
合成模块,用于将所述目标对象的3D虚拟形象与所述目标虚拟场景进行合成,得到3D视频帧;
生成模块,用于根据每一所述3D视频帧生成不同虚拟视点下的目标视频。
在一可能的实施方式中,所述提取模块,包括:
提取子模块,用于从所述视频帧中提取所述目标对象的特征,所述特征包括下述一项或几项:轮廓、肢体动作、表情参数、深度信息;
重塑子模块,用于利用无线网格Mesh贴图技术对所述目标对象的特征进行3D重塑,得到所述目标对象的3D虚拟形象。
在一可能的实施方式中,所述生成模块,包括:
第一视点设置子模块,用于在所述目标虚拟场景中设置多个虚拟视点,多个所述虚拟视点分布在所述目标虚拟场景的不同方位上;
第一图像确定子模块,用于针对每一所述3D视频帧,确定所述3D视频帧在不同虚拟视点下的虚拟视点图像;
第一图像合成子模块,用于针对每一所述虚拟视点,将所述虚拟视点下的多个所述虚拟视点图像进行合成,得到所述虚拟视点下的目标视频。
在一可能的实施方式中,所述生成模块,包括:
第二视点设置子模块,用于在所述目标虚拟场景中设置至少一个虚拟视点;
第二图像确定子模块,用于针对每一所述虚拟视点,控制所述虚拟视点在所述3D视频帧中移动,并在移动过程中,针对每一所述3D视频帧,确定所述3D视频帧在当前的虚拟视点下的虚拟视点图像;
第二图像合成子模块,用于将多个所述虚拟视点图像进行合成,得到所述虚拟视点下的目标视频。
在一可能的实施方式中,所述装置还包括:
音频获取模块,用于获取目标音频;
所述合成模块,包括:
合成子模块,用于将所述音频、所述目标对象的3D虚拟形象及所述目标虚拟场景进行合成,得到3D视频帧。
在一可能的实施方式中,所述音频获取模块,具体用于:
针对所述原始视频中的每一视频帧,从所述视频帧中提取出音频;
将提取出的所述音频确定为目标音频;
或者,
接收外部输入的目标音频。
在一可能的实施方式中,所述装置还包括:
转码模块,用于在所述根据每一所述3D视频帧生成不同虚拟视点下的目标视频之后,对所述目标视频进行转码;
保存模块,用于将转码后的目标视频保存至本地图库。
第三方面,本发明实施例提供一种电子设备,包括:处理器和存储器,所述处理器用于执行所述存储器中存储的视频生成的程序,以实现第一方面中任一项所述的视频生成的方法。
第四方面,本发明实施例提供一种存储介质,所述存储介质存储有一个或者多个程序,所述一个或者多个程序可被一个或者多个处理器执行,以实现第一方面中任一项所述的视频生成的方法。
本发明实施例提供的技术方案,通过获取原始视频,以及获取目标虚拟场景,针对原始视频中的每一视频帧,从视频帧中提取目标对象的3D虚拟形象,将目标对象的3D虚拟形象与目标虚拟场景进行合成,得到3D视频帧,根据每一3D视频帧生成不同虚拟视点下的目标视频。由此,可通过原始视频提取目标对象的3D虚拟形象,将目标对象的3D虚拟形象与目标虚拟场景进行合成,得到3D视频帧,根据每一3D视频帧生成包含多方位视点的目标视频,为录制视频增添了趣味,提升用户体验。同时,对目标对象进行3D虚拟形象重塑,并置入目标虚拟场景中进行3D拍摄,实现了融合3D深度、灯光,使得3D虚拟形象与目标虚拟场景融合度更高。
附图说明
图1为本发明实施例提供的一种视频生成的方法的实施例流程图;
图2为本发明实施例提供的一种虚拟场景创建方法的实施例流程图;
图3为本发明实施例提供的一种三维人体确定方法的实施例流程图;
图4为本发明实施例提供的另一种视频生成的方法的实施例流程图;
图5为本发明实施例提供的一种虚拟合成方法的实施例流程图;
图6为本发明实施例提供的一种视频导出方法的实施例流程图;
图7为本发明实施例提供的一种视频生成的装置的实施例框图;
图8为本发明实施例提供的一种电子设备的结构示意图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
下面结合附图以具体实施例对本发明提供的视频生成的方法做进一步的解释说明,实施例并不构成对本发明实施例的限定。
参见图1,为本发明实施例提供的一种视频生成的方法的实施例流程图。如图1所示,该流程可包括以下步骤:
步骤101、获取原始视频,以及获取目标虚拟场景。
上述原始视频可以是用户通过录像设备进行录制得到的,其中,录像设备可以是智能手机、录像机等,本发明实施例对此不做限制。
可选的,上述获取目标虚拟场景的具体实现方式可包括:将从已构建的虚拟场景库中被用户选中的虚拟场景确定为目标虚拟场景。
上述虚拟场景库中的虚拟场景的创建的具体实现可包括:可通过建模工具搭建场景及可应用与场景中的模型,并将搭建完成的场景文件及模型文件以FBX格式进行保存,并将FBX文件的场景及模型文件上传至已构建的虚拟场景库中。其中,FBX是FilmBoX软件所使用的格式,后改称Motionbuilder。FBX可以用在诸如在3D Max、Maya等软件间进行模型、材质、动作和摄影机信息的互导,其中,3D Max是3D Studio Max的简称,是基于PC系统的三维动画渲染和制作软件,可用于动画制作、特效制作等。Maya也即Autodesk Maya,是美国Autodesk公司出品的世界顶级的三维动画软件,Maya的优点有功能完善,工作灵活,制作效率极高,渲染真实感极强。
具体的,可参见图2,为本发明实施例提供的一种虚拟场景创建方法的实施例流程图。如图2所示,通过剪辑工具提取音频,以及通过3D建模工具对输入的虚拟场景进行建模,将音频及虚拟场景分别生成FBX文件,通过虚拟引擎将虚拟场景与音频进行整合,得到整合后的虚拟场景,之后,可通过相关插件将整合后的虚拟场景上传至系统中,系统可读取整合后的虚拟场景中的内容,并最终生成虚拟场景。
其中,上述建模工具可以是3D Max、Maya等,本发明实施例对此不做限制。上述系统可以是VSS系统(Venue Simulation Services,虚拟场馆仿真系统)。
可选的,上述获取目标虚拟场景的具体实现方式可包括:用户可通过相关建模软件根据需求自主创建虚拟场景,将最终确定的虚拟场景确定为目标虚拟场景。
步骤102、针对原始视频中的每一视频帧,从视频帧中提取目标对象的3D虚拟形象。
在一实施例中,可针对原始视频中每一视频帧,通过人像识别处理模型对视频帧中目标对象进行抠图,并进行目标对象的3D虚拟形象重塑。
可选的,从视频帧中提取目标对象的3D虚拟形象的具体实现可包括:从视频帧中提取目标对象的特征,这里,目标对象的特征可包括下述一项或几项:轮廓、肢体动作、表情参数、深度信息。利用无线网格Mesh贴图技术对目标对象的特征进行3D重塑,得到目标对象的3D虚拟形象。
具体的,参见图3,为本发明实施例提供的一种三维人体确定方法的实施例流程图。如图3所示,可通过人像识别技术对原始视频中每一视频帧中识别并提取目标对象的特征,然后根据目标对象的图像及目标对象的轮廓对目标对象进行单面贴图重建,以及根据目标对象的肢体动作、表情参数及深度信息对目标对象进行三维Mesh重建,根据单面贴图重建的结果及三维Mesh重建的结果,通过Mesh贴图将重建结果中空白的部分进行补充,得到三维人体(也即目标对象的3D虚拟形象)。
以上仅仅是对目标对象进行3D重塑技术的一种示例,在实际操作中还可通过其他方式来实现,本发明实施例对此不做限制。
通过这种处理方式,可以对原始视频中的目标对象进行提取和3D重塑,得到目标对象的3D虚拟形象。
步骤103、将目标对象的3D虚拟形象与目标虚拟场景进行合成,得到3D视频帧。
步骤104、根据每一3D视频帧生成不同虚拟视点下的目标视频。
以下对步骤103和步骤104进行统一说明:
上述将目标对象的3D虚拟形象与目标虚拟场景进行合成可以是基于原始视频中的每一视频帧,将目标对象的3D虚拟形象与目标虚拟场景进行合成,确定对应的3D视频帧。例如,原始视频中一视频帧为目标对象在踢足球的一个画面,那么目标虚拟场景可以是足球场,相应的,合成视频帧可以是目标对象的3D虚拟形象在足球场中在踢足球的一个3D画面。
通过这种处理方式,可以将目标对象的3D虚拟形象与虚拟场景进行合成,得到与原始视频帧对应的3D视频帧。
在一实施例中,根据每一3D视频帧生成不同虚拟视点下的目标视频的具体实现可包括:在目标虚拟场景中设置多个虚拟视点,多个虚拟视点分布在目标虚拟场景的不同方位上,针对每一3D视频帧,确定3D视频帧在不同虚拟视点下的虚拟视点图像,针对每一虚拟视点,将虚拟视点下的多个虚拟视点图像进行合成,得到虚拟视点下的目标视频。
上述多个虚拟视点可分别对应多个虚拟机位,相应的,虚拟机位可分布在目标虚拟场景的不同方位上。
上述目标视频可以是,将虚拟视点下得到的多个虚拟视点图像合成,得到虚拟视点对应的不同方位的多个视频,对该多个视频进行剪辑,以获取包含不同方位的目标视频。上述目标视频也可以是,在虚拟视点下得到的多个虚拟视点图像中,选择不同方位的多个虚拟视点图像进行合成,以获取目标视频。
举例来说,假设在目标虚拟场景中设置四个虚拟视点,该四个虚拟视点分布在不同方位上(例如,正面、背面、左面、右面),由此,可以同时得到3D虚拟形象在不同虚拟视点下的多个虚拟视点图像,针对每一虚拟视点,将虚拟视点下的多个虚拟视点图像进行合成,得到虚拟视点下的目标视频。
在另一实施例中,根据每一3D视频帧生成不同虚拟视点下的目标视频的具体实现可包括:在目标虚拟场景中设置至少一个虚拟视点,控制至少一个虚拟视点在3D视频帧中移动,并在移动过程中,针对每一3D视频帧,确定3D视频帧在当前的虚拟视点下的虚拟视点图像,将多个虚拟视点图像进行合成,得到虚拟视点下的目标视频。
在本发明实施例中,在目标虚拟场景中设置至少一个虚拟视点时,按照预设的移动规则将上述至少一个虚拟视点进行移动,在移动过程中可获得每一3D视频帧对应虚拟视点下的虚拟视点图像。
上述移动规则可以是用户根据需求实时地控制虚拟视点的移动,也可以是提前设定的虚拟视点的移动路线。其中,上述移动可以是由上到下的移动,也可以是由远及近的移动,还可以是由3D虚拟形象的正面到反面的移动,本发明实施例对此不做限制。
举例来说,假设在目标虚拟场景中设置一个虚拟视点,用户可控制该虚拟视点获取第一秒内3D虚拟形象的正面虚拟视点图像,再控制该虚拟视点移动到该3D虚拟形象的背面,以在第二秒内获取该3D虚拟形象的背面虚拟视点图像。依此操作,可得到预设时间(例如2分钟)内3D虚拟形象的不同方位的多个虚拟视点图像,将多个虚拟视点图像进行合成,得到虚拟视点下不同方位的目标视频。
再假设在目标虚拟场景中设置两个虚拟视点,第一个虚拟视点的初始位置在3D虚拟形象的正面,第二个虚拟视点的初始位置在3D虚拟形象的背面,在这两个虚拟视点移动的第一秒内,可分别得到3D虚拟形象的正面和背面的虚拟视点图像,用户可分别控制第一个虚拟视点和第二个虚拟视点移动到3D虚拟形象的左面和右面,以分别获取3D虚拟形象在第二秒内的左面虚拟视点图像和右面虚拟视点图像。依此操作,可得到预设时间内(例如2分钟)3D虚拟形象的不同方位的多个虚拟视点图像,将多个虚拟视点图像进行合成,得到虚拟视点下不同方位的目标视频。
通过这种处理方式,可以实现获得目标对象的3D虚拟形象在目标虚拟场景中的不同方位的多个虚拟视点图像,根据多个虚拟视点图像进行合成,得到包含对3D虚拟形象和目标虚拟场景进行不同方位录制的目标视频,目标视频更加逼真,使得3D虚拟形象和目标虚拟场景的融合度更高,并且视频内容更加丰富,增添趣味性。
至此,完成图1所示流程的相关描述。
通过图1所示流程可以看出,在本发明的技术方案中,通过获取原始视频,以及获取目标虚拟场景,针对原始视频中的每一视频帧,从视频帧中提取目标对象的3D虚拟形象,将目标对象的3D虚拟形象与目标虚拟场景进行合成,得到3D视频帧,根据每一3D视频帧生成不同虚拟视点下的目标视频。由此,可通过原始视频提取目标对象的3D虚拟形象,将目标对象的3D虚拟形象与目标虚拟场景进行合成,得到3D视频帧,根据每一3D视频帧生成包含多方位视点的目标视频,为录制视频增添了趣味,提升用户体验。同时,对目标对象进行3D虚拟形象重塑,并置入目标虚拟场景中进行3D拍摄,实现了融合3D深度、灯光,使得3D虚拟形象与目标虚拟场景融合度更高。
参见图4,为本发明实施例提供的另一种视频生成的方法的实施例流程图。如图4所示,该流程可包括以下步骤:
步骤401、获取原始视频,以及获取目标虚拟场景。
步骤402、针对原始视频中的每一视频帧,从视频帧中提取目标对象的3D虚拟形象。
步骤401和步骤402在图1中的步骤101和步骤102已做详细介绍,这里不再赘述。
步骤403、获取目标音频。
步骤404、将目标音频、目标对象的3D虚拟形象及目标虚拟场景进行合成,得到3D视频帧。
以下对步骤403和步骤404进行统一说明:
在一实施例中,获取目标音频的具体实现可包括:针对原始视频中的每一视频帧,从视频帧中提取出音频,将提取出的音频确定为目标音频。
通过虚拟合成模块将目标音频、目标对象的3D虚拟形象及目标虚拟场景进行虚拟合成可以是基于原始视频中的每一视频帧,将音频、目标对象的3D虚拟形象及目标虚拟场景进行虚拟合成,可得到与原视频对应的3D视频帧。例如,原始视频中一视频帧为目标对象在踢足球的时候喊了“加油”的一个画面,那么,3D视频帧可以是目标对象的3D虚拟形象在目标虚拟场景中在踢足球的时候喊了“加油”的一个3D画面。可参见图5,为本发明实施例提供的一种虚拟合成方法的实施例流程图,如图5所示,可通过人像识别技术对原始视频中目标对象进行抠图及3D虚拟形象重塑,又通过声音提取技术对原始视频中的音频进行提取,将目标对象的3D虚拟形象、音频及系统场景库中目标虚拟场景进行虚拟合成。
基于上述虚拟合成的情况,可通过控制目标虚拟场景中的虚拟机位(也即虚拟视点)在进行视频录制时获取3D视频帧。
此外,还可通过音频提取模块对原始视频中的音频进行提取,得到单独的音频文件。
在另一实施例中,获取目标音频的具体实现可包括:接收外部输入的目标音频。例如,可将音乐文件确定为目标音频,进而与目标对象的3D虚拟形象及目标虚拟场景进行合成,得到3D视频帧。
通过这种处理,可以从原始视频中提取目标音频或者接收外部输入的目标音频,并将目标音频、目标对象的3D虚拟形象及目标虚拟场景进行虚拟合成,以得到合成视频帧。
步骤405、根据每一3D视频帧生成不同虚拟视点下的目标视频。
步骤405在图1中的步骤104中已做详细介绍,这里不再赘述。
步骤406、对目标视频进行转码。
步骤407、将转码后的目标视频保存至本地图库。
以下对步骤406和步骤407进行统一说明:
视频转码需求主要有三类:不同视频格式间的转换;内容传输,改变比特率,以满足不同网络带宽、不同的终端处理能力和不同的用户需求;清晰度,将高清视频转换为标清或者更低清晰度的视频。因此,为将目标视频导出以完成内容传输,可以对目标视频进行转码。
在一实施例中,在接收到用户确定将目标视频导出保存的操作时,可以将目标视频进行转码。可以通过安装有具有转码功能的相关软件的电子设备对目标视频进行转码操作。上述电子设备可以是智能手机、笔记本电脑等。
在实现目标视频的转码后,可将转码后的目标视频导出并保存至本地图库中。参见图6,为本发明实施例提供的一种视频导出方法的实施例流程图。如图6所示,可通过控制目标虚拟场景中的虚拟机位(也即虚拟视点)进行录制,录制过程中按帧记录物体的运行参数信息,获取虚拟机位对应的图像信息(也即虚拟视点图像),生成目标视频,之后,可对目标视频进行转码,并导出视频(也即转码后的目标视频)。其中,图像信息可包括:位移,旋转,缩放等通用信息,以及物体的特有信息比如灯光的颜色,摄影机的景深等独有信息。
此外,还可将转码后的目标视频上传至服务器中,本发明实施例对此不做限制。
通过这种处理方式,可以将生成的目标视频进行保存,避免视频丢失,提高安全性。
至此,完成图4所示流程的相关描述。
与前述视频生成的方法的实施例相对应,本发明还提供装置的实施例框图。
参见图7,为本发明实施例提供的一种视频生成的装置的实施例框图。如图7所示,该装置包括:
获取模块701,用于获取原始视频,以及获取目标虚拟场景;
提取模块702,用于针对所述原始视频中的每一视频帧,从所述视频帧中提取目标对象的3D虚拟形象;
合成模块703,用于将所述目标对象的3D虚拟形象与所述目标虚拟场景进行合成,得到3D视频帧;
生成模块704,用于根据每一所述3D视频帧生成不同虚拟视点下的目标视频。
在一可能的实施方式中,所述提取模块702,包括(图中未示出):
提取子模块,用于从所述视频帧中提取所述目标对象的特征,所述特征包括下述一项或几项:轮廓、肢体动作、表情参数、深度信息;
重塑子模块,用于利用无线网格Mesh贴图技术对所述目标对象的特征进行3D重塑,得到所述目标对象的3D虚拟形象。
在一可能的实施方式中,所述生成模块704,包括(图中未示出):
第一视点设置子模块,用于在所述目标虚拟场景中设置多个虚拟视点,多个所述虚拟视点分布在所述目标虚拟场景的不同方位上;
第一图像确定子模块,用于针对每一所述3D视频帧,确定所述3D视频帧在不同虚拟视点下的虚拟视点图像;
第一图像合成子模块,用于针对每一所述虚拟视点,将所述虚拟视点下的多个所述虚拟视点图像进行合成,得到所述虚拟视点下的目标视频。
在一可能的实施方式中,所述生成模块704,包括(图中未示出):
第二视点设置子模块,用于在所述目标虚拟场景中设置至少一个虚拟视点;
第二图像确定子模块,用于针对每一所述虚拟视点,控制所述虚拟视点在所述3D视频帧中移动,并在移动过程中,针对每一所述3D视频帧,确定所述3D视频帧在当前的虚拟视点下的虚拟视点图像;
第二图像合成子模块,用于将多个所述虚拟视点图像进行合成,得到所述虚拟视点下的目标视频。
在一可能的实施方式中,所述装置还包括(图中未示出):
音频获取模块,用于获取目标音频;
所述合成模块703,包括(图中未示出):
合成子模块,用于将所述音频、所述目标对象的3D虚拟形象及所述目标虚拟场景进行合成,得到3D视频帧。
在一可能的实施方式中,所述音频获取模块,具体用于:
针对所述原始视频中的每一视频帧,从所述视频帧中提取出音频;
将提取出的所述音频确定为目标音频;
或者,
接收外部输入的目标音频。
在一可能的实施方式中,所述装置还包括(图中未示出):
转码模块,用于在根据每一所述3D视频帧生成不同虚拟视点下的目标视频之后,对所述目标视频进行转码;
保存模块,用于将转码后的目标视频保存至本地图库。
图8为本发明实施例提供的一种电子设备的结构示意图,图8所示的电子设备800包括:至少一个处理器801、存储器802、至少一个网络接口804和其他用户接口803。电子设备800中的各个组件通过总线系统805耦合在一起。可理解,总线系统805用于实现这些组件之间的连接通信。总线系统805除包括数据总线之外,还包括电源总线、控制总线和状态信号总线。但是为了清楚说明起见,在图8中将各种总线都标为总线系统805。
其中,用户接口803可以包括显示器、键盘或者点击设备(例如,鼠标,轨迹球(trackball))、触感板或者触摸屏等。
可以理解,本发明实施例中的存储器802可以是易失性存储器或非易失性存储器,或可包括易失性和非易失性存储器两者。其中,非易失性存储器可以是只读存储器(Read-OnlyMemory,ROM)、可编程只读存储器(ProgrammableROM,PROM)、可擦除可编程只读存储器(ErasablePROM,EPROM)、电可擦除可编程只读存储器(ElectricallyEPROM,EEPROM)或闪存。易失性存储器可以是随机存取存储器(RandomAccessMemory,RAM),其用作外部高速缓存。通过示例性但不是限制性说明,许多形式的RAM可用,例如静态随机存取存储器(StaticRAM,SRAM)、动态随机存取存储器(DynamicRAM,DRAM)、同步动态随机存取存储器(SynchronousDRAM,SDRAM)、双倍数据速率同步动态随机存取存储器(DoubleDataRateSDRAM,DDRSDRAM)、增强型同步动态随机存取存储器(Enhanced SDRAM,ESDRAM)、同步连接动态随机存取存储器(SynchlinkDRAM,SLDRAM)和直接内存总线随机存取存储器(DirectRambusRAM,DRRAM)。本文描述的存储器802旨在包括但不限于这些和任意其它适合类型的存储器。
在一些实施方式中,存储器802存储了如下的元素,可执行单元或者数据结构,或者他们的子集,或者他们的扩展集:操作系统8021和应用程序8022。
其中,操作系统8021,包含各种系统程序,例如框架层、核心库层、驱动层等,用于实现各种基础业务以及处理基于硬件的任务。应用程序8022,包含各种应用程序,例如媒体播放器(MediaPlayer)、浏览器(Browser)等,用于实现各种应用业务。实现本发明实施例方法的程序可以包含在应用程序8022中。
在本发明实施例中,通过调用存储器802存储的程序或指令,具体的,可以是应用程序8022中存储的程序或指令,处理器801用于执行各方法实施例所提供的方法步骤,例如包括:
获取原始视频,以及获取目标虚拟场景;
针对所述原始视频中的每一视频帧,从所述视频帧中提取目标对象的3D虚拟形象;
将所述目标对象的3D虚拟形象与所述目标虚拟场景进行合成,得到3D视频帧;
根据每一所述3D视频帧生成不同虚拟视点下的目标视频。
在一可能的实施方式中,所述从所述视频帧中提取目标对象的3D虚拟形象,包括:
从所述视频帧中提取所述目标对象的特征,所述特征包括下述一项或几项:轮廓、肢体动作、表情参数、深度信息;
利用无线网格Mesh贴图技术对所述目标对象的特征进行3D重塑,得到所述目标对象的3D虚拟形象。
在一可能的实施方式中,所述根据每一所述3D视频帧生成不同虚拟视点下的目标视频,包括:
在所述目标虚拟场景中设置多个虚拟视点,多个所述虚拟视点分布在所述目标虚拟场景的不同方位上;
针对每一所述3D视频帧,确定所述3D视频帧在不同虚拟视点下的虚拟视点图像;
针对每一所述虚拟视点,将所述虚拟视点下的多个所述虚拟视点图像进行合成,得到所述虚拟视点下的目标视频。
在一可能的实施方式中,所述根据每一所述3D视频帧生成不同虚拟视点下的目标视频,包括:
在所述目标虚拟场景中设置至少一个虚拟视点;
针对每一所述虚拟视点,控制所述虚拟视点在所述3D视频帧中移动,并在移动过程中,针对每一所述3D视频帧,确定所述3D视频帧在当前的虚拟视点下的虚拟视点图像;
将多个所述虚拟视点图像进行合成,得到所述虚拟视点下的目标视频。
在一可能的实施方式中,所述方法还包括:
获取目标音频;
所述将所述目标对象的3D虚拟形象与所述目标虚拟场景进行合成,得到3D视频帧,包括:
将所述目标音频、所述目标对象的3D虚拟形象及所述目标虚拟场景进行合成,得到3D视频帧。
在一可能的实施方式中,所述获取目标音频,包括:
针对所述原始视频中的每一视频帧,从所述视频帧中提取出音频;
将提取出的所述音频确定为目标音频;
或者,
接收外部输入的目标音频。
在一可能的实施方式中,在所述根据每一所述3D视频帧生成不同虚拟视点下的目标视频之后,所述方法还包括:
对所述目标视频进行转码;
将转码后的目标视频保存至本地图库。
上述本发明实施例揭示的方法可以应用于处理器801中,或者由处理器801实现。处理器801可能是一种集成电路芯片,具有信号的处理能力。在实现过程中,上述方法的各步骤可以通过处理器801中的硬件的集成逻辑电路或者软件形式的指令完成。上述的处理器801可以是通用处理器、数字信号处理器(DigitalSignalProcessor,DSP)、专用集成电路(ApplicationSpecificIntegratedCircuit,ASIC)、现成可编程门阵列(FieldProgrammableGateArray,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。可以实现或者执行本发明实施例中的公开的各方法、步骤及逻辑框图。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。结合本发明实施例所公开的方法的步骤可以直接体现为硬件译码处理器执行完成,或者用译码处理器中的硬件及软件单元组合执行完成。软件单元可以位于随机存储器,闪存、只读存储器,可编程只读存储器或者电可擦写可编程存储器、寄存器等本领域成熟的存储介质中。该存储介质位于存储器802,处理器801读取存储器802中的信息,结合其硬件完成上述方法的步骤。
可以理解的是,本文描述的这些实施例可以用硬件、软件、固件、中间件、微码或其组合来实现。对于硬件实现,处理单元可以实现在一个或多个专用集成电路(ApplicationSpecificIntegratedCircuits,ASIC)、数字信号处理器(DigitalSignalProcessing,DSP)、数字信号处理设备(DSPDevice,DSPD)、可编程逻辑设备(ProgrammableLogicDevice,PLD)、现场可编程门阵列(Field-ProgrammableGateArray,FPGA)、通用处理器、控制器、微控制器、微处理器、用于执行本申请所述功能的其它电子单元或其组合中。
对于软件实现,可通过执行本文所述功能的单元来实现本文所述的技术。软件代码可存储在存储器中并通过处理器执行。存储器可以在处理器中或在处理器外部实现。
本实施例提供的电子设备可以是如图8中所示的电子设备,可执行如图1、图4中视频生成的方法的所有步骤,进而实现图1、图4中视频生成的方法的技术效果,具体请参照图1、图4相关描述,为简洁描述,在此不作赘述。
本发明实施例还提供了一种存储介质(计算机可读存储介质)。这里的存储介质存储有一个或者多个程序。其中,存储介质可以包括易失性存储器,例如随机存取存储器;存储器也可以包括非易失性存储器,例如只读存储器、快闪存储器、硬盘或固态硬盘;存储器还可以包括上述种类的存储器的组合。
当存储介质中一个或者多个程序可被一个或者多个处理器执行,以实现上述在电子设备侧执行的视频生成的方法。
所述处理器用于执行存储器中存储的视频生成程序,以实现以下在电子设备侧执行的视频生成的方法的步骤:
获取原始视频,以及获取目标虚拟场景;
针对所述原始视频中的每一视频帧,从所述视频帧中提取目标对象的3D虚拟形象;
将所述目标对象的3D虚拟形象与所述目标虚拟场景进行合成,得到3D视频帧;
根据每一所述3D视频帧生成不同视点下的目标视频。
在一可能的实施方式中,所述从所述视频帧中提取目标对象的3D虚拟形象,包括:
从所述视频帧中提取所述目标对象的特征,所述特征包括下述一项或几项:轮廓、肢体动作、表情参数、深度信息;
利用无线网格Mesh贴图技术对所述目标对象的特征进行3D重塑,得到所述目标对象的3D虚拟形象。
在一可能的实施方式中,所述根据每一所述3D视频帧生成不同虚拟视点下的目标视频,包括:
在所述目标虚拟场景中设置多个虚拟视点,多个所述虚拟视点分布在所述目标虚拟场景的不同方位上;
针对每一所述3D视频帧,确定所述3D视频帧在不同虚拟视点下的虚拟视点图像;
针对每一所述虚拟视点,将所述虚拟视点下的多个所述虚拟视点图像进行合成,得到所述虚拟视点下的目标视频。
在一可能的实施方式中,所述根据每一所述3D视频帧生成不同虚拟视点下的目标视频,包括:
在所述目标虚拟场景中设置至少一个虚拟视点;
针对每一所述虚拟视点,控制所述虚拟视点在所述3D视频帧中移动,并在移动过程中,针对每一所述3D视频帧,确定所述3D视频帧在当前的虚拟视点下的虚拟视点图像;
将多个所述虚拟视点图像进行合成,得到所述虚拟视点下的目标视频。
在一可能的实施方式中,所述方法还包括:
获取目标音频;
所述将所述目标对象的3D虚拟形象与所述目标虚拟场景进行合成,得到3D视频帧,包括:
将所述目标音频、所述目标对象的3D虚拟形象及所述目标虚拟场景进行合成,得到3D视频帧。
在一可能的实施方式中,所述获取目标音频,包括:
针对所述原始视频中的每一视频帧,从所述视频帧中提取出音频;
将提取出的所述音频确定为目标音频;
或者,
接收外部输入的目标音频。
在一可能的实施方式中,在所述根据每一所述3D视频帧生成不同虚拟视点下的目标视频之后,所述方法还包括:
对所述目标视频进行转码;
将转码后的目标视频保存至本地图库。
专业人员应该还可以进一步意识到,结合本文中所公开的实施例描述的各示例的单元及算法步骤,能够以电子硬件、计算机软件或者二者的结合来实现,为了清楚地说明硬件和软件的可互换性,在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本发明的范围。
结合本文中所公开的实施例描述的方法或算法的步骤可以用硬件、处理器执行的软件模块,或者二者的结合来实施。软件模块可以置于随机存储器(RAM)、内存、只读存储器(ROM)、电可编程ROM、电可擦除可编程ROM、寄存器、硬盘、可移动磁盘、CD-ROM、或技术领域内所公知的任意其它形式的存储介质中。
以上所述的具体实施方式,对本发明的目的、技术方案和有益效果进行了进一步详细说明,所应理解的是,以上所述仅为本发明的具体实施方式而已,并不用于限定本发明的保护范围,凡在本发明的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
Claims (10)
1.一种视频生成的方法,其特征在于,包括:
获取原始视频,以及获取目标虚拟场景;
针对所述原始视频中的每一视频帧,从所述视频帧中提取目标对象的3D虚拟形象;
将所述目标对象的3D虚拟形象与所述目标虚拟场景进行合成,得到3D视频帧;
根据每一所述3D视频帧生成不同虚拟视点下的目标视频。
2.根据权利要求1所述的方法,其特征在于,所述从所述视频帧中提取目标对象的3D虚拟形象,包括:
从所述视频帧中提取所述目标对象的特征,所述特征包括下述一项或几项:轮廓、肢体动作、表情参数、深度信息;
利用无线网格Mesh贴图技术对所述目标对象的特征进行3D重塑,得到所述目标对象的3D虚拟形象。
3.根据权利要求1所述的方法,其特征在于,所述根据每一所述3D视频帧生成不同虚拟视点下的目标视频,包括:
在所述目标虚拟场景中设置多个虚拟视点,多个所述虚拟视点分布在所述目标虚拟场景的不同方位上;
针对每一所述3D视频帧,确定所述3D视频帧在不同虚拟视点下的虚拟视点图像;
针对每一所述虚拟视点,将所述虚拟视点下的多个所述虚拟视点图像进行合成,得到所述虚拟视点下的目标视频。
4.根据权利要求1所述的方法,其特征在于,所述根据每一所述3D视频帧生成不同虚拟视点下的目标视频,包括:
在所述目标虚拟场景中设置至少一个虚拟视点;
针对每一所述虚拟视点,控制所述虚拟视点在所述3D视频帧中移动,并在移动过程中,针对每一所述3D视频帧,确定所述3D视频帧在当前的虚拟视点下的虚拟视点图像;
将多个所述虚拟视点图像进行合成,得到所述虚拟视点下的目标视频。
5.根据权利要求1所述的方法,其特征在于,所述方法还包括:
获取目标音频;
所述将所述目标对象的3D虚拟形象与所述目标虚拟场景进行合成,得到3D视频帧,包括:
将所述目标音频、所述目标对象的3D虚拟形象及所述目标虚拟场景进行合成,得到3D视频帧。
6.根据权利要求5所述的方法,其特征在于,所述获取目标音频,包括:
针对所述原始视频中的每一视频帧,从所述视频帧中提取出音频;将提取出的所述音频确定为目标音频;
或者,
接收外部输入的目标音频。
7.根据权利要求1所述的方法,其特征在于,在所述根据每一所述3D视频帧生成不同虚拟视点下的目标视频之后,所述方法还包括:
对所述目标视频进行转码;
将转码后的目标视频保存至本地图库。
8.一种视频生成的装置,其特征在于,包括:
获取模块,用于获取原始视频,以及获取目标虚拟场景;
提取模块,用于针对所述原始视频中的每一视频帧,从所述视频帧中提取目标对象的3D虚拟形象;
合成模块,用于将所述目标对象的3D虚拟形象与所述目标虚拟场景进行合成,得到3D视频帧;
生成模块,用于根据每一所述3D视频帧生成不同虚拟视点下的目标视频。
9.一种电子设备,其特征在于,包括:处理器和存储器,所述处理器用于执行所述存储器中存储的视频生成程序,以实现权利要求1~7中任一项所述的视频生成的方法。
10.一种存储介质,其特征在于,所述存储介质存储有一个或者多个程序,所述一个或者多个程序可被一个或者多个处理器执行,以实现权利要求1~7中任一项所述的视频生成的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111671320.6A CN114302128A (zh) | 2021-12-31 | 2021-12-31 | 视频生成的方法、装置、电子设备及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111671320.6A CN114302128A (zh) | 2021-12-31 | 2021-12-31 | 视频生成的方法、装置、电子设备及存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN114302128A true CN114302128A (zh) | 2022-04-08 |
Family
ID=80974463
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202111671320.6A Pending CN114302128A (zh) | 2021-12-31 | 2021-12-31 | 视频生成的方法、装置、电子设备及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114302128A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117596373A (zh) * | 2024-01-17 | 2024-02-23 | 淘宝(中国)软件有限公司 | 基于动态数字人形象进行信息展示的方法及电子设备 |
Citations (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105306862A (zh) * | 2015-11-17 | 2016-02-03 | 广州市英途信息技术有限公司 | 一种基于3d虚拟合成技术的情景视频录制系统、方法及情景实训学习方法 |
CN107343206A (zh) * | 2017-08-11 | 2017-11-10 | 北京铂石空间科技有限公司 | 支持多视角观看的视频生成方法、装置、介质和电子设备 |
US20180350146A1 (en) * | 2017-05-31 | 2018-12-06 | Verizon Patent And Licensing Inc. | Methods and Systems for Generating a Merged Reality Scene Based on a Virtual Object and on a Real-World Object Represented from Different Vantage Points in Different Video Data Streams |
CN110557625A (zh) * | 2019-09-17 | 2019-12-10 | 北京达佳互联信息技术有限公司 | 虚拟形象直播方法、终端、计算机设备及存储介质 |
CN110689570A (zh) * | 2019-09-29 | 2020-01-14 | 北京达佳互联信息技术有限公司 | 虚拟形象直播方法、装置、电子设备及存储介质 |
CN111970535A (zh) * | 2020-09-25 | 2020-11-20 | 魔珐(上海)信息科技有限公司 | 虚拟直播方法、装置、系统及存储介质 |
CN113115110A (zh) * | 2021-05-20 | 2021-07-13 | 广州博冠信息科技有限公司 | 视频合成方法、装置、存储介质与电子设备 |
CN113395540A (zh) * | 2021-06-09 | 2021-09-14 | 广州博冠信息科技有限公司 | 虚拟演播系统、虚拟演播实现方法、装置及设备、介质 |
CN113610953A (zh) * | 2021-02-07 | 2021-11-05 | 腾讯科技(深圳)有限公司 | 一种信息处理方法、装置及计算机可读存储介质 |
CN113784148A (zh) * | 2020-06-10 | 2021-12-10 | 阿里巴巴集团控股有限公司 | 数据处理方法、系统、相关设备和存储介质 |
CN113840049A (zh) * | 2021-09-17 | 2021-12-24 | 阿里巴巴(中国)有限公司 | 图像处理方法、视频流场景切换方法、装置、设备及介质 |
-
2021
- 2021-12-31 CN CN202111671320.6A patent/CN114302128A/zh active Pending
Patent Citations (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105306862A (zh) * | 2015-11-17 | 2016-02-03 | 广州市英途信息技术有限公司 | 一种基于3d虚拟合成技术的情景视频录制系统、方法及情景实训学习方法 |
US20180350146A1 (en) * | 2017-05-31 | 2018-12-06 | Verizon Patent And Licensing Inc. | Methods and Systems for Generating a Merged Reality Scene Based on a Virtual Object and on a Real-World Object Represented from Different Vantage Points in Different Video Data Streams |
CN107343206A (zh) * | 2017-08-11 | 2017-11-10 | 北京铂石空间科技有限公司 | 支持多视角观看的视频生成方法、装置、介质和电子设备 |
CN110557625A (zh) * | 2019-09-17 | 2019-12-10 | 北京达佳互联信息技术有限公司 | 虚拟形象直播方法、终端、计算机设备及存储介质 |
CN110689570A (zh) * | 2019-09-29 | 2020-01-14 | 北京达佳互联信息技术有限公司 | 虚拟形象直播方法、装置、电子设备及存储介质 |
CN113784148A (zh) * | 2020-06-10 | 2021-12-10 | 阿里巴巴集团控股有限公司 | 数据处理方法、系统、相关设备和存储介质 |
CN111970535A (zh) * | 2020-09-25 | 2020-11-20 | 魔珐(上海)信息科技有限公司 | 虚拟直播方法、装置、系统及存储介质 |
CN113610953A (zh) * | 2021-02-07 | 2021-11-05 | 腾讯科技(深圳)有限公司 | 一种信息处理方法、装置及计算机可读存储介质 |
CN113115110A (zh) * | 2021-05-20 | 2021-07-13 | 广州博冠信息科技有限公司 | 视频合成方法、装置、存储介质与电子设备 |
CN113395540A (zh) * | 2021-06-09 | 2021-09-14 | 广州博冠信息科技有限公司 | 虚拟演播系统、虚拟演播实现方法、装置及设备、介质 |
CN113840049A (zh) * | 2021-09-17 | 2021-12-24 | 阿里巴巴(中国)有限公司 | 图像处理方法、视频流场景切换方法、装置、设备及介质 |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117596373A (zh) * | 2024-01-17 | 2024-02-23 | 淘宝(中国)软件有限公司 | 基于动态数字人形象进行信息展示的方法及电子设备 |
CN117596373B (zh) * | 2024-01-17 | 2024-04-12 | 淘宝(中国)软件有限公司 | 基于动态数字人形象进行信息展示的方法及电子设备 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US9626788B2 (en) | Systems and methods for creating animations using human faces | |
CN110557625A (zh) | 虚拟形象直播方法、终端、计算机设备及存储介质 | |
US20130218542A1 (en) | Method and system for driving simulated virtual environments with real data | |
CN108140263A (zh) | 应用于图像或视频的ar显示系统及方法 | |
KR101989089B1 (ko) | 클라우드 소싱 기반의 ar 컨텐츠 템플릿을 수집하여 ar 컨텐츠를 자동으로 생성하는 방법 및 시스템 | |
KR20220093342A (ko) | 분할 미러 효과의 구현 방법, 장치 및 관련 제품 | |
US20220385721A1 (en) | 3d mesh generation on a server | |
CN107430788A (zh) | 虚拟三维空间生成方法、影像系统、其控制方法以及计算机装置中能读取的记录介质 | |
CN112929627B (zh) | 虚拟现实场景实现方法、装置、存储介质及电子设备 | |
CN109035415B (zh) | 虚拟模型的处理方法、装置、设备和计算机可读存储介质 | |
KR102032606B1 (ko) | 3d 게임엔진기반 머시니마 제작방법 | |
CN102811352A (zh) | 运动图像生成方法及运动图像生成装置 | |
Langlotz et al. | AR record&replay: situated compositing of video content in mobile augmented reality | |
KR20070099949A (ko) | 쓰리디콘티 제작시스템 및 그 제공방법 | |
CN114302128A (zh) | 视频生成的方法、装置、电子设备及存储介质 | |
US11581018B2 (en) | Systems and methods for mixing different videos | |
JP2012217144A (ja) | 画像編集装置、画像編集方法、およびプログラム | |
JP2022510658A (ja) | 仮想カメラパスを決定するシステム及び方法 | |
KR101843025B1 (ko) | 카메라워크 기반 영상합성 시스템 및 영상합성방법 | |
JP2006221489A (ja) | Cgアニメーション製作システム | |
Aguilar et al. | ARStudio: A low-cost virtual studio based on Augmented Reality for video production | |
US20230136597A1 (en) | Ingesting 3d objects from a virtual environment for 2d data representation | |
Karakottas et al. | Xr360: A toolkit for mixed 360 and 3d productions | |
JP6275759B2 (ja) | 三次元コンテンツの生成方法、プログラム、及びクライアント装置 | |
CN113556578A (zh) | 视频生成方法、装置、终端及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |