CN117750065A - 视频人物替换方法、装置、电子设备及可读存储介质 - Google Patents
视频人物替换方法、装置、电子设备及可读存储介质 Download PDFInfo
- Publication number
- CN117750065A CN117750065A CN202311747769.5A CN202311747769A CN117750065A CN 117750065 A CN117750065 A CN 117750065A CN 202311747769 A CN202311747769 A CN 202311747769A CN 117750065 A CN117750065 A CN 117750065A
- Authority
- CN
- China
- Prior art keywords
- video
- target
- video frame
- frame
- action
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 49
- 230000009471 action Effects 0.000 claims abstract description 98
- 238000001514 detection method Methods 0.000 claims abstract description 51
- 238000009877 rendering Methods 0.000 claims abstract description 45
- 230000033001 locomotion Effects 0.000 claims description 36
- 230000006399 behavior Effects 0.000 claims description 11
- 238000006467 substitution reaction Methods 0.000 claims description 8
- 244000198134 Agave sisalana Species 0.000 description 8
- 238000012545 processing Methods 0.000 description 5
- 230000008569 process Effects 0.000 description 4
- 238000004590 computer program Methods 0.000 description 3
- 238000010586 diagram Methods 0.000 description 3
- 238000005516 engineering process Methods 0.000 description 3
- 230000003287 optical effect Effects 0.000 description 3
- 230000007547 defect Effects 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 239000013307 optical fiber Substances 0.000 description 2
- 230000000644 propagated effect Effects 0.000 description 2
- 238000013473 artificial intelligence Methods 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 238000013500 data storage Methods 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 238000012217 deletion Methods 0.000 description 1
- 230000037430 deletion Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000006870 function Effects 0.000 description 1
- 238000010295 mobile communication Methods 0.000 description 1
- 230000008707 rearrangement Effects 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
- 238000001308 synthesis method Methods 0.000 description 1
Landscapes
- Processing Or Creating Images (AREA)
Abstract
本申请实施例提供了一种视频人物替换方法、装置、电子设备及可读存储介质,该方法包括:获取第一目标视频中的第一视频帧;将第一视频帧中的目标人物进行删除,得到第二视频帧;对第一目标视频进行人体检测生成动作信息;根据动作信息对图像模型进行渲染,生成第二视频帧对应的第三视频帧;将第二视频帧和对应的第三视频帧进行合并,得到第二目标视频。本申请通过获取第一目标视频中的包括目标人物的第一视频帧,并对第一视频帧中的目标人物进行删除,得到第二视频帧,再根据识别出的目标人物的动作信息,生成包括图像模型的第三视频帧,从而通过第二视频帧和对应的第三视频帧进行合并,得到替换后的第二目标视频,提高了视频中人物的替换效率。
Description
技术领域
本申请涉及深度学习技术领域,特别是涉及一种视频人物替换方法、装置、电子设备及可读存储介质。
背景技术
随着3D人体姿态估计和3D渲染技术的不断发展,它将改变视频编辑和内容创作的方式。这个技术潮流已经使得通过使用3D人物模型结合人工智能技术将传统视频中的人物替换为3D模型。目前,现有技术中一般通过图像剪切的方式将图片中的人物进行替换,但是这种形式对视频内容进行替换时,生成的图片会出现不连贯的效果,从而导致视频中人物替换效率较低的问题。
发明内容
本申请实施例的目的在于提供一种视频人物替换方法、装置、电子设备及可读存储介质,以解决视频中人物替换效率较低的问题。
在本申请实施的第一方面,首先提供了一种视频人物替换方法,所述方法包括:
获取第一目标视频中的第一视频帧,所述第一视频帧为包含目标人物的视频帧;
将所述第一视频帧中的所述目标人物进行删除,得到第二视频帧;
对第一目标视频进行人体检测生成动作信息,所述动作信息用于指示所述目标人物的动作行为;
根据所述动作信息对图像模型进行渲染,生成所述第二视频帧对应的第三视频帧;
将所述第二视频帧和对应的所述第三视频帧进行合并,得到第二目标视频。
可选的,所述将所述第一视频帧中的所述目标人物进行删除,得到第二视频帧,包括:
通过人体检测模型对所述第一视频帧进行人体识别,以在所述第一视频帧中生成目标检测框,所述目标检测框包括所述目标人物;
在所述目标检测框内进行人体检测,确定所述目标人物的轮廓信息;
将所述轮廓信息对所述第一视频帧中的所述目标人物进行删除,得到所述第二视频帧。
可选的,所述根据所述动作信息对图像模型进行渲染,生成所述第二视频帧对应的第三视频帧,包括:
根据所述动作信息对所述图像模型进行渲染,得到目标图像模型;
将所述目标图像模型的背景调整为透明背景;
基于透明背景的目标图像模型生成所述第三视频帧。
可选的,所述根据所述动作信息对所述图像模型进行渲染,得到目标图像模型,包括:
根据所述第一视频帧生成目标参数,所述目标参数包括以下至少一种:
灯光参数、相机角度参数和尺寸参数;
根据所述动作信息和所述目标参数对所述图像模型进行渲染,得到所述目标图像模型。
可选的,所述对第一目标视频进行人体检测生成动作信息,包括:
通过动作捕捉模型对所述第一目标视频进行人体检测,获得至少一个目标动作;
基于所述至少一个目标动作生成目标动作序列,所述目标动作序列包括依次排列的所述至少一个目标动作;
根据所述目标动作序列生成所述动作信息。
可选的,所述将所述第二视频帧和对应的所述第三视频帧进行合并,得到第二目标视频,包括:
根据所述第一目标视频的视频序列对多个所述第二视频帧和多个所述第三视频帧进行标记,得到标记后的多个第二视频帧和标记后的多个第三视频帧,所述标记后的多个第二视频帧和所述标记后的多个第三视频帧对应有一个不同的视频帧标签,所述视频帧标签用于指示所述视频帧的排序序号;
将具有相同视频帧标签的第二视频帧和第三视频帧进行合并,得到多个第四视频帧;
根据所述第一目标视频的视频序列将所述多个第四视频帧合并为所述第二目标视频。
可选的,所述将具有相同视频帧标签的第二视频帧和第三视频帧进行合并,得到多个第四视频帧,包括:
获取预设空白蒙版;
根据所述预设空白蒙版将具有相同视频帧标签的第二视频帧和第三视频帧进行合并,得到所述多个第四视频帧。
在本申请实施例的第二方面,还提供了一种视频人物替换装置,所述装置包括:
获取模块,用于获取第一目标视频中的第一视频帧,所述第一视频帧为包含目标人物的视频帧;
删除模块,用于将所述第一视频帧中的所述目标人物进行删除,得到第二视频帧;
生成模块,用于对第一目标视频进行人体检测生成动作信息,所述动作信息用于指示所述目标人物的动作行为;
渲染模块,用于根据所述动作信息对图像模型进行渲染,生成所述第二视频帧对应的第三视频帧;
合并模块,用于将所述第二视频帧和对应的所述第三视频帧进行合并,得到第二目标视频。
在本发明实施例的第三方面,还提供了一种电子设备,包括处理器,存储器及存储在所述存储器上并可在所述处理器上运行的程序或指令,所述程序或指令被所述处理器执行时实现如第一方面中任一项所述的视频人物替换方法的步骤。
在本发明实施例的第四方面,还提供了一种计算机可读存储介质,所述可读存储介质上存储有程序或指令,所述程序或指令被处理器执行时实现如第一方面中任一项所述的视频人物替换方法的步骤。
本申请实施例提供了一种视频人物替换方法、装置、电子设备及可读存储介质,该方法包括:获取第一目标视频中的第一视频帧,所述第一视频帧为包含目标人物的视频帧;将所述第一视频帧中的所述目标人物进行删除,得到第二视频帧;对第一目标视频进行人体检测生成动作信息,所述动作信息用于指示所述目标人物的动作行为;根据所述动作信息对图像模型进行渲染,生成所述第二视频帧对应的第三视频帧;将所述第二视频帧和对应的所述第三视频帧进行合并,得到第二目标视频。本申请通过获取第一目标视频中的包括目标人物的第一视频帧,并对第一视频帧中的目标人物进行删除,得到第二视频帧,再根据识别出的目标人物的动作信息,生成包括图像模型的第三视频帧,从而通过第二视频帧和对应的第三视频帧进行合并,得到替换后的第二目标视频,提高了视频中人物的替换效率。
附图说明
为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍。
图1为本申请实施例中提供的一种视频人物替换方法的流程示意图;
图2为本申请实施例中提供的一种视频人物替换装置的结构示意图;
图3为本申请实施例中提供的一种电子设备的结构示意图。
具体实施方式
下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获取的所有其他实施例,都属于本申请保护的范围。
在更加详细地讨论示例性实施例之前应当提到的是,一些示例性实施例被描述成作为流程图描绘的处理或方法。虽然流程图将各步骤描述成顺序的处理,但是其中的许多步骤可以被并行地、并发地或者同时实施。此外,各步骤的顺序可以被重新安排。当其操作完成时处理可以被终止,但是还可以具有未包括在附图中的附加步骤。处理可以对应于方法、函数、规程、子例程、子程序等等。
此外,术语“第一”、“第二”等可在本文中用于描述各种方向、动作、步骤或元件等,但这些方向、动作、步骤或元件不受这些术语限制。这些术语仅用于将第一个方向、动作、步骤或元件与另一个方向、动作、步骤或元件区分。举例来说,在不脱离本申请的范围的情况下,可以将第一速度差值为第二速度差值,且类似地,可将第二速度差值称为第一速度差值。第一速度差值和第二速度差值两者都是速度差值,但其不是同一速度差值。术语“第一”、“第二”等而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此,限定有“第一”、“第二”的特征可以明示或者隐含地包括一个或者更多个该特征。在本发明的描述中,“多个”的含义是至少两个,例如两个,三个等,除非另有明确具体的限定。
本申请实施例提供了一种视频人物替换方法,如图1所示,该方法包括:
步骤101、获取第一目标视频中的第一视频帧,所述第一视频帧为包含目标人物的视频帧。
在本实施例中,第一目标视频为需要进行替换的视频,其中,第一目标视频可以包括多个人物,当需要将其中人物替换为其他人物时,需要首先确定进行替换的人物,即目标人物。由此,通过第一目标视频获取其中包括目标人物的第一视频帧,其中需要进行说明的是,第一视频帧为第一目标视频中包括目标人物的视频帧,第一目标视频还可以包括其他视频帧,在其他视频帧中,不包括目标人物。
示例性的,第一目标视频由100张视频帧组成,其中10张视频帧中包括了“剑客”,因此只需要对包括了“剑客”的10张视频帧进行人物替换,即可达到视频替换的要求。
步骤102、将所述第一视频帧中的所述目标人物进行删除,得到第二视频帧。
在本实施例中,通过图像处理技术将第一视频帧中的目标人物进行删除,其他背景和人物均保持不变,从而得到删除目标人物的第二视频帧。示例性的,图像处理技术可以为InPaint技术,InPaint技术是一种图像处理技术,可以用于消除图像中的任何元素,使其外观看起来更加美观。它使用算法来填充受到损坏的区域,以获得更加平整的外观,并使用色调和纹理填充新的区域。
示例性的,通过InPaint技术将10张视频帧中包括的“剑客”进行删除,而10张视频帧中其他的部分保持不变,从而得到第二视频帧。
步骤103、对第一目标视频进行人体检测生成动作信息,所述动作信息用于指示所述目标人物的动作行为。
在本实施例中,使用人体检测模型对第一目标视频进行检测,判断其中目标人物的动作信息,具体地,例如将10张视频帧中的目标人物进行提取,判断目标人物在不同视频帧中的区别,从而判断出目标人物的动作行为,其中,动作行为可以为跑步、招手、摇头等等,在本实施例中不做具体限定。
步骤104、根据所述动作信息对图像模型进行渲染,生成所述第二视频帧对应的第三视频帧。
在本实施例中,图像模型可以为3D模型或其他模型,在本实施例中以3D模型为例进行说明,其中,可以通过3D渲染模型对3D模型进行渲染,得到第三视频帧,该第三视频帧与第二视频帧一一对应。示例性的,3D模型为“3D剑客”,通过“3D剑客”对第一目标视频中的“剑客”进行替换,从而更好地提高视频的展现效果。
具体地,对3D模型进行渲染可以为在3D渲染模型中调整灯光,对3D人物进行渲染,渲染成透明背景的视频帧,还可以调整3D模型的视角、角度、颜色等等,在本实施例中不做具体限定。
步骤105、将所述第二视频帧和对应的所述第三视频帧进行合并,得到第二目标视频。
在本实施例中,通过视频合成方法将第二视频帧和对应的第三视频帧进行合并,从而得到第四视频帧,具体地,例如将10张第二视频帧与10张第三视频帧进行合并时,需要将对应的第二视频帧和对应的第三视频帧进行合并,其中,对应是指例如在第一目标视频排序第1的第二视频帧需要与相同排序第1的第三视频帧进行合并,从而保证了合并后的第四视频帧不会出现缺陷和空白部分。
最后将所有得到的第四视频帧根据第一目标视频的顺序进行合并,生成第二目标视频,其中,第一目标视频中的所有“剑客”均为替换为了“3D剑客”,从而丰富了视频的个性化和可玩性。
本申请实施例提供了一种视频人物替换方法,该方法包括:获取第一目标视频中的第一视频帧,所述第一视频帧为包含目标人物的视频帧;将所述第一视频帧中的所述目标人物进行删除,得到第二视频帧;对第一目标视频进行人体检测生成动作信息,所述动作信息用于指示所述目标人物的动作行为;根据所述动作信息对图像模型进行渲染,生成所述第二视频帧对应的第三视频帧;将所述第二视频帧和对应的所述第三视频帧进行合并,得到第二目标视频。本申请通过获取第一目标视频中的包括目标人物的第一视频帧,并对第一视频帧中的目标人物进行删除,得到第二视频帧,再根据识别出的目标人物的动作信息,生成包括图像模型的第三视频帧,从而通过第二视频帧和对应的第三视频帧进行合并,得到替换后的第二目标视频,提高了视频中人物的替换效率。
在一些可行的实施方式中,可选的,步骤102、所述将所述第一视频帧中的所述目标人物进行删除,得到第二视频帧,包括:
通过人体检测模型对所述第一视频帧进行人体识别,以在所述第一视频帧中生成目标检测框,所述目标检测框包括所述目标人物;
在所述目标检测框内进行人体检测,确定所述目标人物的轮廓信息;
将所述轮廓信息对所述第一视频帧中的所述目标人物进行删除,得到所述第二视频帧。
在本实施例中,通过使用人体检测模型对所述第一视频帧进行人体跟踪和识别,具体地,会生成一个跟踪序列,确保人体检测模型能够准确定位人物在视频中的位置和动态。通过人体检测模型对人体进行检测,从而得到目标检测框,该目标检测框中完全包括了目标人物,通过对目标检测框进行进一步识别,可以确定出目标人物的轮廓信息,具体地,该轮廓信息为该目标人物的人形线,目标人物完全处于人形线中,通过轮廓信息准确确定目标人物所在第一视频帧中的位置。
基于InPaint技术对目标任务进行擦除后,可以自动填充出擦除部分,从而使得背景变得完整,最终生成第二视频帧。
可选的,步骤104、所述根据所述动作信息对图像模型进行渲染,生成所述第二视频帧对应的第三视频帧,包括:
根据所述动作信息对所述图像模型进行渲染,得到目标图像模型;
将所述目标图像模型的背景调整为透明背景;
基于透明背景的目标图像模型生成所述第三视频帧。
在本实施例中,图像模型以3D模型为例进行说明,目标图像模型为目标3D模型为例进行说明。根据识别出的目标人物的动作信息,通过3D渲染模型对3D模型进行渲染,得到目标3D模型,其中,原有的3D模型可以通过导入3D渲染模型中,该3D模型可以为预先生成的模型,在本实施例中不做具体限定。
对3D模型进行渲染后,得到渲染完成的目标3D模型,其中,渲染可以包括:颜色、灯光、角度等等方面的调整,在本实施例中不做具体限定。另外,需要将目标图像模型的背景调整为透明背景,以便与第二视频帧在结合时,不会因为第三视频帧原有的背景造成结合出现瑕疵或者不完美的情况,最终得到第三视频帧,需要进行说明的是,第三视频帧需要跟第二视频帧一一对应,即第二视频帧的数量和第三视频帧的数量需要保持一致,另外第二视频帧中目标人物的动作需要与目标3D模型的动作保持一致,从而便于第二视频帧和第三视频帧进行完美合并。
可选的,所述根据所述动作信息对所述图像模型进行渲染,得到目标图像模型,包括:
根据所述第一视频帧生成目标参数,所述目标参数包括以下至少一种:
灯光参数、相机角度参数和尺寸参数;
根据所述动作信息和所述目标参数对所述图像模型进行渲染,得到所述目标图像模型。
在本实施例中,通过动作信息对3D模型进行渲染时,通过第一视频帧原有的相关参数生成目标参数,其中,目标参数包括但不限于以下至少一种:灯光参数、相机角度参数和尺寸参数。其中灯光参数指视频帧中的亮度和灰度情况。相机角度参数指展现出来的3D模型的角度,例如包括俯视角度、仰视角度、平视角度之类。尺寸参数为3D模型在视频帧的展现的大小。
通过上述目标参数和动作信息对3D模型进行渲染,可以更好使得渲染出的目标3D模型更加贴合原有的目标人物,保证目标3D模型与第一目标视频中的其他元素进行完美的融合,从而提升了用户的观感。
可选的,步骤103、所述对第一目标视频进行人体检测生成动作信息,包括:
通过动作捕捉模型对所述第一目标视频进行人体检测,获得至少一个目标动作;
基于所述至少一个目标动作生成目标动作序列,所述目标动作序列包括依次排列的所述至少一个目标动作;
根据所述目标动作序列生成所述动作信息。
在本实施例中,在识别目标人物的动作时,会通过对跟踪到的人体进行3D姿态估计,例如捕捉目标人物的动作,包括姿势、关节运动等。其中,需要进行说明的是,目标动作可以为多个或者一个,具体数量本实施例中不做具体限定。此外,通过目标动作序列可以准确确定出目标人物的动作流程,例如,目标人物先穿了衣服、再穿了裤子,最后穿上了鞋子,这个动作流程在3D模型中也需要相同,因此需要通过目标动作序列使得3D模型生成相同的动作序列,从而可以保证3D模型与目标人物的动作保持一致。
通过目标动作序列中包括的至少一个目标动作生成动作信息,该动作信息包括了所有的目标动作和所有目标动作中的排序信息,例如先执行第一动作,再执行第二动作。
可选的,步骤105、所述将所述第二视频帧和对应的所述第三视频帧进行合并,得到第二目标视频,包括:
根据所述第一目标视频的视频序列对多个所述第二视频帧和多个所述第三视频帧进行标记,得到标记后的多个第二视频帧和标记后的多个第三视频帧,所述标记后的多个第二视频帧和所述标记后的多个第三视频帧对应有一个不同的视频帧标签,所述视频帧标签用于指示所述视频帧的排序序号;
将具有相同视频帧标签的第二视频帧和第三视频帧进行合并,得到多个第四视频帧;
根据所述第一目标视频的视频序列将所述多个第四视频帧合并为所述第二目标视频。
在本实施例中,在第二视频帧和第三视频帧进行合并时,需要首先确定出第二视频帧和第三视频帧的数量,例如10张第二视频帧和10张第三视频帧,需要进行说明的是,第二视频帧的数量需要和第三视频帧的数量保持一致。具体地,通过第一目标视频确定出视频序列,该视频序列包括了所有视频帧的排序情况,例如某个视频帧在视频序列中的位置。
通过获得的视频序列对多个第二视频帧和多个第三视频帧进行标记,其中,对应的第二视频帧和第三视频帧的标记相同,具体地,例如第二视频帧的标记为5,那么其对应的第三视频帧的标记也需要为5,从而保证对应的第二视频帧和第三视频帧能够完美结合。
通过第二视频帧和第三视频帧对应标签,将具有相同标签的第二视频帧和第三视频帧进行能够,从而得到多个第四视频帧,例如将10张第二视频帧和10张第三视频帧合并为10张第四视频帧,最后,通过第一目标视频的视频序列将得到的多个第四视频帧合并成为第二目标视频。
可选的,所述将具有相同视频帧标签的第二视频帧和第三视频帧进行合并,得到多个第四视频帧,包括:
获取预设空白蒙版;
根据所述预设空白蒙版(mask)将具有相同视频帧标签的第二视频帧和第三视频帧进行合并,得到所述多个第四视频帧。
在本实施例中,预设空白蒙版是一种用于图像处理的技术,用于将图像中的某些特定元素从图像中脱离出来。它可以用来消除图像中不想要的元素,并使其余部分更加清晰。具体地,通过预设空白蒙版将渲染后的透明背景的3D性视频帧和删除目标人物的视频帧进行合并,得到多个第四视频帧。
通过使用预设空白蒙版可以保证3D模型只出现了第一目标视频的删除后的区域。
本申请通过获取第一目标视频中的包括目标人物的第一视频帧,并对第一视频帧中的目标人物进行删除,得到第二视频帧,再根据识别出的目标人物的动作信息,生成包括图像模型的第三视频帧,从而通过第二视频帧和对应的第三视频帧进行合并,得到替换后的第二目标视频,提高了视频中人物的替换效率。
本申请实施例还提供了一种视频人物替换装置,如图2所示,该视频人物替换装置200包括:
获取模块210,用于获取第一目标视频中的第一视频帧,所述第一视频帧为包含目标人物的视频帧;
删除模块220,用于将所述第一视频帧中的所述目标人物进行删除,得到第二视频帧;
生成模块230,用于对第一目标视频进行人体检测生成动作信息,所述动作信息用于指示所述目标人物的动作行为;
渲染模块240,用于根据所述动作信息对图像模型进行渲染,生成所述第二视频帧对应的第三视频帧;
合并模块250,用于将所述第二视频帧和对应的所述第三视频帧进行合并,得到第二目标视频。
可选的,删除模块220包括:
识别子模块,用于通过人体检测模型对所述第一视频帧进行人体识别,以在所述第一视频帧中生成目标检测框,所述目标检测框包括所述目标人物;
检测子模块,用于在所述目标检测框内进行人体检测,确定所述目标人物的轮廓信息;
删除子模块,用于将所述轮廓信息对所述第一视频帧中的所述目标人物进行删除,得到所述第二视频帧。
可选的,渲染模块240包括:
渲染子模块,用于根据所述动作信息对所述图像模型进行渲染,得到目标图像模型;
调整子模块,用于将所述目标图像模型的背景调整为透明背景;
第一生成子模块,用于基于透明背景的目标图像模型生成所述第三视频帧。
可选的,渲染子模块包括:
生成单元,用于根据所述第一视频帧生成目标参数,所述目标参数包括以下至少一种:
灯光参数、相机角度参数和尺寸参数;
渲染单元,用于根据所述动作信息和所述目标参数对所述图像模型进行渲染,得到所述目标图像模型。
可选的,生成模块230包括:
检测子模块,用于通过动作捕捉模型对所述第一目标视频进行人体检测,获得至少一个目标动作;
第二生成子模块,用于基于所述至少一个目标动作生成目标动作序列,所述目标动作序列包括依次排列的所述至少一个目标动作;
第三生成子模块,用于根据所述目标动作序列生成所述动作信息。
可选的,合并模块250包括:
标记子模块,用于根据所述第一目标视频的视频序列对多个所述第二视频帧和多个所述第三视频帧进行标记,得到标记后的多个第二视频帧和标记后的多个第三视频帧,所述标记后的多个第二视频帧和所述标记后的多个第三视频帧对应有一个不同的视频帧标签,所述视频帧标签用于指示所述视频帧的排序序号;
第一合并子模块,用于将具有相同视频帧标签的第二视频帧和第三视频帧进行合并,得到多个第四视频帧;
第二合并子模块,用于根据所述第一目标视频的视频序列将所述多个第四视频帧合并为所述第二目标视频。
可选的,第一合并子模块包括:
获取单元,用于获取预设空白蒙版;
合并单元,用于根据所述预设空白蒙版将具有相同视频帧标签的第二视频帧和第三视频帧进行合并,得到所述多个第四视频帧。
本申请通过获取第一目标视频中的包括目标人物的第一视频帧,并对第一视频帧中的目标人物进行删除,得到第二视频帧,再根据识别出的目标人物的动作信息,生成包括图像模型的第三视频帧,从而通过第二视频帧和对应的第三视频帧进行合并,得到替换后的第二目标视频,提高了视频中人物的替换效率。
图3为本发明实施例提供的一种电子设备的结构示意图,如图3所示,该电子设备300包括存储器310、处理器320,电子设备300中处理器320的数量可以是一个或多个,图3中以一个处理器320为例;服务器中的存储器310、处理器320可以通过总线或其他方式连接,图3中以通过总线连接为例。
存储器310作为一种计算机可读存储介质,可用于存储软件程序、计算机可执行程序以及模块,如本发明实施例中的视频人物替换方法对应的程序指令/模块,处理器320通过运行存储在存储器310中的软件程序、指令以及模块,从而执行服务器/终端/服务器的各种功能应用以及数据处理,即实现上述的视频人物替换方法。
其中,处理器320用于运行存储在存储器310中的计算机程序,实现如下步骤:
获取第一目标视频中的第一视频帧,所述第一视频帧为包含目标人物的视频帧;
将所述第一视频帧中的所述目标人物进行删除,得到第二视频帧;
对第一目标视频进行人体检测生成动作信息,所述动作信息用于指示所述目标人物的动作行为;
根据所述动作信息对图像模型进行渲染,生成所述第二视频帧对应的第三视频帧;
将所述第二视频帧和对应的所述第三视频帧进行合并,得到第二目标视频。
可选的,所述将所述第一视频帧中的所述目标人物进行删除,得到第二视频帧,包括:
通过人体检测模型对所述第一视频帧进行人体识别,以在所述第一视频帧中生成目标检测框,所述目标检测框包括所述目标人物;
在所述目标检测框内进行人体检测,确定所述目标人物的轮廓信息;
将所述轮廓信息对所述第一视频帧中的所述目标人物进行删除,得到所述第二视频帧。
可选的,所述根据所述动作信息对图像模型进行渲染,生成所述第二视频帧对应的第三视频帧,包括:
根据所述动作信息对所述图像模型进行渲染,得到目标图像模型;
将所述目标图像模型的背景调整为透明背景;
基于透明背景的目标图像模型生成所述第三视频帧。
可选的,所述根据所述动作信息对所述图像模型进行渲染,得到目标图像模型,包括:
根据所述第一视频帧生成目标参数,所述目标参数包括以下至少一种:
灯光参数、相机角度参数和尺寸参数;
根据所述动作信息和所述目标参数对所述图像模型进行渲染,得到所述目标图像模型。
可选的,所述对第一目标视频进行人体检测生成动作信息,包括:
通过动作捕捉模型对所述第一目标视频进行人体检测,获得至少一个目标动作;
基于所述至少一个目标动作生成目标动作序列,所述目标动作序列包括依次排列的所述至少一个目标动作;
根据所述目标动作序列生成所述动作信息。
可选的,所述将所述第二视频帧和对应的所述第三视频帧进行合并,得到第二目标视频,包括:
根据所述第一目标视频的视频序列对多个所述第二视频帧和多个所述第三视频帧进行标记,得到标记后的多个第二视频帧和标记后的多个第三视频帧,所述标记后的多个第二视频帧和所述标记后的多个第三视频帧对应有一个不同的视频帧标签,所述视频帧标签用于指示所述视频帧的排序序号;
将具有相同视频帧标签的第二视频帧和第三视频帧进行合并,得到多个第四视频帧;
根据所述第一目标视频的视频序列将所述多个第四视频帧合并为所述第二目标视频。
可选的,所述将具有相同视频帧标签的第二视频帧和第三视频帧进行合并,得到多个第四视频帧,包括:
获取预设空白蒙版;
根据所述预设空白蒙版将具有相同视频帧标签的第二视频帧和第三视频帧进行合并,得到所述多个第四视频帧。
在其中一个实施例中,本发明实施例所提供的一种电子设备,其计算机程序不限于如上的方法操作,还可以执行本发明任意实施例所提供的视频人物替换方法中的相关操作。
存储器310可主要包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需的应用程序;存储数据区可存储根据终端的使用所创建的数据等。此外,存储器310可以包括高速随机存取存储器,还可以包括非易失性存储器,例如至少一个磁盘存储器件、闪存器件、或其他非易失性固态存储器件。在一些实例中,存储器310可进一步包括相对于处理器320远程设置的存储器,这些远程存储器可以通过网络连接至服务器/终端/服务器。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。
本申请通过获取第一目标视频中的包括目标人物的第一视频帧,并对第一视频帧中的目标人物进行删除,得到第二视频帧,再根据识别出的目标人物的动作信息,生成包括图像模型的第三视频帧,从而通过第二视频帧和对应的第三视频帧进行合并,得到替换后的第二目标视频,提高了视频中人物的替换效率。
本发明实施例的计算机可读存储介质,可以采用一个或多个计算机可读的介质的任意组合。计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质。计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的系统、装置或器件,或者任意以上的组合。计算机可读存储介质的更具体的例子(非穷举的列表)包括:具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本文件中,计算机可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。
计算机可读的信号介质可以包括在基带中或者作为载波一部分传播的数据信号,其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式,包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是计算机可读存储介质以外的任何计算机可读介质,该计算机可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。
存储介质上包含的程序代码可以用任何适当的介质传输,包括——但不限于无线、电线、光缆、RF等等,或者上述的任意合适的组合。
可以以一种或多种程序设计语言或其组合来编写用于执行本发明操作的计算机程序代码,所述程序设计语言包括面向对象的程序设计语言—诸如Java、Smalltalk、C++,还包括常规的过程式程序设计语言—诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或终端上执行。在涉及远程计算机的情形中,远程计算机可以通过任意种类的网络——包括局域网(LAN)或广域网(WAN)—连接到用户计算机,或者,可以连接到外部计算机(例如利用因特网服务提供商来通过因特网连接)。
注意,上述仅为本发明的较佳实施例及所运用技术原理。本领域技术人员会理解,本发明不限于这里所述的特定实施例,对本领域技术人员来说能够进行各种明显的变化、重新调整和替代而不会脱离本发明的保护范围。因此,虽然通过以上实施例对本发明进行了较为详细的说明,但是本发明不仅仅限于以上实施例,在不脱离本发明构思的情况下,还可以包括更多其他等效实施例,而本发明的范围由所附的权利要求范围决定。
Claims (10)
1.一种视频人物替换方法,其特征在于,所述方法包括:
获取第一目标视频中的第一视频帧,所述第一视频帧为包含目标人物的视频帧;
将所述第一视频帧中的所述目标人物进行删除,得到第二视频帧;
对第一目标视频进行人体检测生成动作信息,所述动作信息用于指示所述目标人物的动作行为;
根据所述动作信息对图像模型进行渲染,生成所述第二视频帧对应的第三视频帧;
将所述第二视频帧和对应的所述第三视频帧进行合并,得到第二目标视频。
2.根据权利要求1所述的方法,其特征在于,所述将所述第一视频帧中的所述目标人物进行删除,得到第二视频帧,包括:
通过人体检测模型对所述第一视频帧进行人体识别,以在所述第一视频帧中生成目标检测框,所述目标检测框包括所述目标人物;
在所述目标检测框内进行人体检测,确定所述目标人物的轮廓信息;
将所述轮廓信息对所述第一视频帧中的所述目标人物进行删除,得到所述第二视频帧。
3.根据权利要求1所述的方法,其特征在于,所述根据所述动作信息对图像模型进行渲染,生成所述第二视频帧对应的第三视频帧,包括:
根据所述动作信息对所述图像模型进行渲染,得到目标图像模型;
将所述目标图像模型的背景调整为透明背景;
基于透明背景的目标图像模型生成所述第三视频帧。
4.根据权利要求3所述的方法,其特征在于,所述根据所述动作信息对所述图像模型进行渲染,得到目标图像模型,包括:
根据所述第一视频帧生成目标参数,所述目标参数包括以下至少一种:
灯光参数、相机角度参数和尺寸参数;
根据所述动作信息和所述目标参数对所述图像模型进行渲染,得到所述目标图像模型。
5.根据权利要求1所述的方法,其特征在于,所述对第一目标视频进行人体检测生成动作信息,包括:
通过动作捕捉模型对所述第一目标视频进行人体检测,获得至少一个目标动作;
基于所述至少一个目标动作生成目标动作序列,所述目标动作序列包括依次排列的所述至少一个目标动作;
根据所述目标动作序列生成所述动作信息。
6.根据权利要求1所述的方法,其特征在于,所述将所述第二视频帧和对应的所述第三视频帧进行合并,得到第二目标视频,包括:
根据所述第一目标视频的视频序列对多个所述第二视频帧和多个所述第三视频帧进行标记,得到标记后的多个第二视频帧和标记后的多个第三视频帧,所述标记后的多个第二视频帧和所述标记后的多个第三视频帧对应有一个不同的视频帧标签,所述视频帧标签用于指示所述视频帧的排序序号;
将具有相同视频帧标签的第二视频帧和第三视频帧进行合并,得到多个第四视频帧;
根据所述第一目标视频的视频序列将所述多个第四视频帧合并为所述第二目标视频。
7.根据权利要求6所述的方法,其特征在于,所述将具有相同视频帧标签的第二视频帧和第三视频帧进行合并,得到多个第四视频帧,包括:
获取预设空白蒙版;
根据所述预设空白蒙版将具有相同视频帧标签的第二视频帧和第三视频帧进行合并,得到所述多个第四视频帧。
8.一种视频人物替换装置,其特征在于,所述装置包括:
获取模块,用于获取第一目标视频中的第一视频帧,所述第一视频帧为包含目标人物的视频帧;
删除模块,用于将所述第一视频帧中的所述目标人物进行删除,得到第二视频帧;
生成模块,用于对第一目标视频进行人体检测生成动作信息,所述动作信息用于指示所述目标人物的动作行为;
渲染模块,用于根据所述动作信息对图像模型进行渲染,生成所述第二视频帧对应的第三视频帧;
合并模块,用于将所述第二视频帧和对应的所述第三视频帧进行合并,得到第二目标视频。
9.一种电子设备,其特征在于,包括处理器,存储器及存储在所述存储器上并可在所述处理器上运行的程序或指令,所述程序或指令被所述处理器执行时实现如权利要求1至7中任一项所述的视频人物替换方法的步骤。
10.一种计算机可读存储介质,其特征在于,所述可读存储介质上存储有程序或指令,所述程序或指令被处理器执行时实现如权利要求1至7中任一项所述的视频人物替换方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311747769.5A CN117750065A (zh) | 2023-12-19 | 2023-12-19 | 视频人物替换方法、装置、电子设备及可读存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311747769.5A CN117750065A (zh) | 2023-12-19 | 2023-12-19 | 视频人物替换方法、装置、电子设备及可读存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN117750065A true CN117750065A (zh) | 2024-03-22 |
Family
ID=90282432
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202311747769.5A Pending CN117750065A (zh) | 2023-12-19 | 2023-12-19 | 视频人物替换方法、装置、电子设备及可读存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN117750065A (zh) |
-
2023
- 2023-12-19 CN CN202311747769.5A patent/CN117750065A/zh active Pending
Similar Documents
Publication | Publication Date | Title |
---|---|---|
AU2017254848B2 (en) | Image matting using deep learning | |
CN108632530B (zh) | 一种车辆定损的数据处理方法、装置、设备及客户端、电子设备 | |
JP2020087440A (ja) | 位置合わせされたcadモデルを使用するar対応ラベル付け | |
CN105981368B (zh) | 在成像装置中的照片构图和位置引导 | |
CN102780893B (zh) | 图像处理设备及其控制方法 | |
CN109891189B (zh) | 策划的摄影测量 | |
US6249285B1 (en) | Computer assisted mark-up and parameterization for scene analysis | |
KR20190028349A (ko) | 이미지 내 휴먼 분리를 위한 전자 장치 및 방법 | |
TW201947451A (zh) | 車輛定損的交互處理方法、裝置、處理設備及客戶端 | |
KR101929077B1 (ko) | 이미지 식별 방법 및 이미지 식별 장치 | |
CN108876886B (zh) | 图像处理方法、装置和计算机设备 | |
CN114730483A (zh) | 在消息传送系统中生成3d数据 | |
CN115428034A (zh) | 消息传送系统中的包括3d数据的增强现实内容生成器 | |
US11900552B2 (en) | System and method for generating virtual pseudo 3D outputs from images | |
CN106682652B (zh) | 基于增强现实的结构表面病害巡检和分析方法 | |
US11581020B1 (en) | Facial synchronization utilizing deferred neural rendering | |
JP2020088852A (ja) | ビデオコンテンツのフィルムショットにおける異なるオブジェクトの描写の偏差通知 | |
US20160086365A1 (en) | Systems and methods for the conversion of images into personalized animations | |
CN112562056A (zh) | 虚拟演播室中虚拟灯光的控制方法、装置、介质与设备 | |
Wang et al. | People as scene probes | |
US20140198177A1 (en) | Realtime photo retouching of live video | |
CN112749611A (zh) | 人脸点云模型生成方法及装置、存储介质、电子设备 | |
CN115131260A (zh) | 图像处理方法、装置、设备、计算机可读存储介质及产品 | |
JP2013200867A (ja) | アニメーション作成装置、カメラ | |
US11423654B2 (en) | Identification of continuity errors in video by automatically detecting visual inconsistencies in video frames |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |