CN115334324A

CN115334324A - 视频图像处理方法、装置和电子设备

Info

Publication number: CN115334324A
Application number: CN202210713860.4A
Authority: CN
Inventors: 卢胜栋
Original assignee: Guangzhou Boguan Information Technology Co Ltd
Current assignee: Guangzhou Boguan Information Technology Co Ltd
Priority date: 2022-06-22
Filing date: 2022-06-22
Publication date: 2022-11-11

Abstract

本发明提供了一种视频图像处理方法、装置和电子设备；其中，该方法包括：从直播视频中获取待处理的视频图像；确定待添加的第一特效以及第一特效的交互目标，从视频图像中提取包含交互目标的区域图像以及交互目标的位置；基于交互目标的位置，控制第一特效的特效元素与包含交互目标的区域图像进行物理交互模拟，得到物理交互模拟后，第一特效的形态图像；其中，第一特效的特效元素与区域图像位于同一二维空间；基于形态图像，生成添加有第一特效的视频图像。该方式中，特效随着交互目标实时变化，因而特效可以对交互目标的变化做出实时反馈，提高了特效与交互目标的互动感和反馈感，从而提高了直播特效的视觉效果。

Description

视频图像处理方法、装置和电子设备

技术领域

本发明涉及直播技术领域，尤其是涉及一种视频图像处理方法、装置和电子设备。

背景技术

在直播间中，主播提供丰富的视觉内容，以吸引用户观看。为了提高直播间的观看视觉效果，直播平台通常提供直播特效功能。直播平台在视频流上叠加特效画面，得到具有特效效果的直播画面，例如，火焰特效随着主播的后背移动。该方式中，特效画面与视频流中的视频图像叠加显示，二者相互分立，因而仅能实现粗略的特效的模拟和跟随，特效的表现效果也有限。其他方式中，通过缩影变换形成抖动的动画滤镜特效，该滤镜特效通过对某一帧直播图像进行缩影变换，从而得到短时的滤镜特效效果，该特效效果难以维持较长时间。对于主播而言，这些直播特效给与主播的交互感和反馈感有限，对于用户而言，直播特效提供的视觉效果也有限。

发明内容

有鉴于此，本发明的目的在于提供一种视频图像处理方法、装置和电子设备，以提高特效与交互目标的互动感和反馈感，从而提高直播特效的视觉效果。

第一方面，本发明实施例提供了一种视频图像处理方法，方法包括：从直播视频中获取待处理的视频图像；确定待添加的第一特效以及第一特效的交互目标，从视频图像中提取包含交互目标的区域图像以及交互目标的位置；基于交互目标的位置，控制第一特效的特效元素与包含交互目标的区域图像进行物理交互模拟，得到物理交互模拟后，第一特效的形态图像；其中，第一特效的特效元素与区域图像位于同一二维空间；基于形态图像，生成添加有第一特效的视频图像。

上述确定第一特效的交互目标的步骤，包括：从视频图像中识别交互目标，和/或，获取视频图像携带的交互指令，将交互指令对应的交互区域确定为交互目标。

上述基于交互目标的位置，控制第一特效的特效元素与包含交互目标的区域图像进行物理交互模拟，得到物理交互模拟后，第一特效的形态图像的步骤，包括：基于交互目标的位置，将交互目标的区域图像保存在二维渲染空间中；控制第一特效的特效元素在二维渲染空间中的指定位置生成，并按照预设的物理移动方式移动；当特效元素与交互目标的区域图像发生物理交互模拟，获取特效元素的形态信息，基于形态信息生成第一特效的形态图像。

上述当特效元素与交互目标的区域图像发生物理交互模拟，获取特效元素的形态信息，基于形态信息生成第一特效的形态图像的步骤，包括：从直播视频中确定交互目标的运动趋势；当特效元素与交互目标的区域图像发生物理交互模拟，基于交互目标的运动趋势，确定特效元素的形态信息；基于形态信息生成第一特效的形态图像。

上述从直播视频中确定交互目标的运动趋势的步骤，包括：从直播视频中获取视频图像的至少一张前序图像；其中，按照直播视频的图像采集顺序，前序图像位于视频图像之前；前序图像与视频图像具有第一指定距离；从前序图像中确定交互目标的历史位置；基于历史位置以及交互目标的位置，确定交互目标的运动趋势。

上述基于形态图像，生成添加有第一特效的视频图像的步骤，包括：将包含交互目标的区域图像保存在指定的二维存储空间；其中，二维存储空间的尺寸与视频图像的尺寸相匹配；将形态图像填充在二维存储空间中区域图像以外的空间中，得到添加有第一特效的视频图像。

上述基于形态图像，生成添加有第一特效的视频图像的步骤，包括：将形态图像叠加显示在视频图像中，区域图像以外的图像上。

上述从直播视频中获取待处理的视频图像的步骤，包括：将直播视频中的每帧图像逐一确定为待处理的视频图像；基于形态图像，生成添加有第一特效的视频图像的步骤之后，方法还包括：将添加有第一特效的视频图像发送至直播视频对应的客户端。

第二方面，本发明实施例提供了一种视频图像处理装置，装置包括：图像获取模块，用于从直播视频中获取待处理的视频图像；信息提取模块，用于确定待添加的第一特效以及第一特效的交互目标，从视频图像中提取包含交互目标的区域图像以及交互目标的位置；交互模块，用于基于交互目标的位置，控制第一特效的特效元素与包含交互目标的区域图像进行物理交互模拟，得到物理交互模拟后，第一特效的形态图像；其中，第一特效的特效元素与区域图像位于同一二维空间；图像生成模块，用于基于形态图像，生成添加有第一特效的视频图像。

第三方面，本发明实施例提供了一种电子设备，包括处理器和存储器，存储器存储有能够被处理器执行的机器可执行指令，处理器执行机器可执行指令以实现上述视频图像处理方法。

第四方面，本发明实施例提供了一种机器可读存储介质，机器可读存储介质存储有机器可执行指令，机器可执行指令在被处理器调用和执行时，机器可执行指令促使处理器实现上述视频图像处理方法。

本发明实施例带来了以下有益效果：

上述视频图像处理方法、装置和电子设备，从直播视频中获取待处理的视频图像；确定待添加的第一特效以及第一特效的交互目标，从视频图像中提取包含交互目标的区域图像以及交互目标的位置；基于交互目标的位置，控制第一特效的特效元素与包含交互目标的区域图像进行物理交互模拟，得到物理交互模拟后，第一特效的形态图像；其中，第一特效的特效元素与区域图像位于同一二维空间；基于形态图像，生成添加有第一特效的视频图像。该方式中，在处理视频图像时，在二维空间中控制特效元素与交互目标的区域图像进行物理交互模拟，得到特效的形态图像，进而基于该形态图像生成添加有特效的视频图像。该方式可以对直播视频逐帧添加特效，特效随着交互目标实时变化，因而图像可以对交互目标的变化做出实时反馈，提高了特效与交互目标的互动感和反馈感，从而提高了直播特效的视觉效果。

本发明的其他特征和优点将在随后的说明书中阐述，并且，部分地从说明书中变得显而易见，或者通过实施本发明而了解。本发明的目的和其他优点在说明书、权利要求书以及附图中所特别指出的结构来实现和获得。

为使本发明的上述目的、特征和优点能更明显易懂，下文特举较佳实施例，并配合所附附图，作详细说明如下。

附图说明

为了更清楚地说明本发明具体实施方式或现有技术中的技术方案，下面将对具体实施方式或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施方式，对于本领域技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例提供的一种视频图像处理方法的流程图；

图2为本发明实施例提供的一种特效元素与交互目标进行物理交互模拟的示意图；

图3为本发明实施例提供的另一种特效元素与交互目标进行物理交互模拟的示意图；

图4为本发明实施例提供的一种特意元素与交互区域进行物理交互模拟的示意图；

图5为本发明实施例提供的一种视频图像处理装置的结构示意图；

图6为本发明实施例提供的一种电子设备的结构示意图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合附图对本发明的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

在直播场景中，主播在直播间进行跳舞、与观众互动等。同时，主播特效可以为主播提供的观看内容增加视觉效果和吸引力，也为直播的观众用户提供较好的直播观看体验。相关技术中，直播平台具有多种直播特效。直播平台接收到来自主播端的视频流后，将特效画面叠加在视频流的画面上，得到直播特效效果。但这些直播特效给主播的交互感和反馈感有限。

具体的，将特效画面叠加在视频流的画面上，实现视觉上的特效的模拟和跟随。由于特效画面与视频流中的视频图像叠加显示，二者相互分立，同时考虑到计算量的问题，因而仅能实现粗略的特效的模拟和跟随，对主播而言，特效与自身的互动性较低，因而特效的表现效果也有限。

另一种方式中，滤镜特效通过对某一帧直播图像进行缩影变换，从而得到短时的滤镜特效效果，例如，在主播的边缘呈现变色抖动的滤镜效果。该滤镜特效效果只和该帧直播图像中主播的位置和姿势相匹配，当主播在不断移动或变换姿势时，该特效效果仅能显示较短的时间，该特效效果与主播的交互性更低，与直播场景的实时性和动态性不匹配，因而特效的表现效果也有限。

基于上述，本发明实施例提供的一种视频图像处理方法、装置以及系统，该技术可以应用于直播视频，对直播视频中的视频图像进行处理，从而实现对直播视频的特效添加；可以理解，该技术也可以应用于非直播视频，对非直播视频中的视频图像进行处理。

首先，参见图1所示的一种视频图像处理方法的流程图，该方法包括下述步骤：

步骤S102，从直播视频中获取待处理的视频图像；

在直播场景中，直播视频为主播正在直播时采集的视频。主播端的终端设备实时采集直播视频，将直播视频传输至直播服务器，然后，直播服务器将直播视频分发至各个观众端的终端设备。在直播场景中，本实施例的视频图像处理方法可以运行在主播端的终端设备或直播服务器，或者，该视频图像处理方法运行在单独的渲染服务器上，该渲染服务器与直播服务器通信连接。

本实施例旨在实现，对直播视频中的视频图像进行处理，从而在视频图像上添加特效，得到具有特效效果的直播视频。区别于现有技术中，将特效画面叠加在视频流上的方式，本实施例可以对直播视频中的视频图像进行逐帧的直接处理。

为了提高在直播场景中特效的实时性和互动性，对于直播视频，可以按照一定的频率从直播视频中确定待处理的视频图像，为了进一步提高特效的视觉效果，可以将直播视频中的每帧图像确定为待处理的视频图像，并进行后续步骤的处理。例如，通过主播端的终端设备采集得到直播视频，根据直播视频中的每帧图像的采集先后顺序，逐一把每帧图像确定为待处理的视频图像。对于非直播视频而言，也可以按照同样的方式确定待处理的视频图像。

步骤S104，确定待添加的第一特效以及第一特效的交互目标，从视频图像中提取包含交互目标的区域图像以及交互目标的位置；

可以预先设置多种特效，例如，下雨特效、雪花特效、满天星特效等，还可以为每种特效设置可选参数，例如，颜色参数、亮度参数、密度参数等。主播可以通过主播端选择特效的种类，以及设置可选参数，从而确定上述第一特效。第一特效的交互目标可以根据第一特效的属性确定，例如，下雨特效，该特效的交互目标可以设置为视频图像中对象的对象边缘。可以预先设置每种特效的交互目标，也可以由主播通过主播端设置交互目标。

上述视频图像是二维图像，可以通过抠图的方式，从视频图像中提取包含交互目标的区域图像，该区域图像的图像边缘通常就是交互目标的边缘，或者图像边缘距离交互目标的边缘较近。当交互目标为视频图像的前景图像时，为了便于提取包含交互目标的区域图像，在直播过程中可以使用指定的背景图像，例如，绿色背景，从而便于快速识别视频图像中的交互目标的区域和背景区域。

交互目标的位置，具体可以为交互目标的区域图像在视频图像中的位置。可以针对视频图像建立二维坐标系，每个像素点对应一个坐标，将区域图像中像素点的坐标集合，作为交互目标的位置。

步骤S106，基于交互目标的位置，控制第一特效的特效元素与包含交互目标的区域图像进行物理交互模拟，得到物理交互模拟后，第一特效的形态图像；其中，第一特效的特效元素与区域图像位于同一二维空间；

当第一特效为粒子特效时，特效元素为粒子；当第一特效为刚体特效时，特效元素为特定形状的刚体。一种具体的实现方式中，将第一特效的特效元素和包含交互目标的区域图像设置在同一二维空间，该二维空间也可以理解为一个平面。可以理解的是，第一特效也属于二维特效。当第一特效的特效元素与区域图像位于同一二维空间时，二者才可以产生物理交互。

在上述二维空间中，可以基于重力、流体力学、碰撞等物理学原理，控制特效元素的运动，以及特效元素与区域图像发生接触、碰撞时的状态。在实际实现时，区域图像在二维空间中的位置，可以基于交互目标在视频图像中的位置确定；而第一特征的特效元素的初始位置，可以预先设置，也可以随机生成。在实际实现时，可以仅控制特效元素生成并移动，或者仅控制区域图像移动，或者控制二者同时移动。

物理交互模拟具体可以为特效元素与区域图像的移动模拟、接触模拟、碰撞模拟等。特效元素与区域图像进行交互后，可能会产生移动方向、移动速度、元素形状、位置等参数的变化，基于这些参数变化，可以得到物理交互模拟后，第一特效的形态图像。例如，对于雨滴特效，特效元素为垂直下落的雨滴，该特效元素接触到区域图像后，会改变特效元素的移动方向，从而生成雨滴四溅的特效效果。

当第一特效为粒子特效时，可以对特效粒子进行流体模型，将特效粒子与区域图像发生接触、碰撞后，得到特效粒子的物理效果，该物理效果包括粒子的位置、形状等。对于刚体特效而言，可以模拟刚体与区域图像发生接触、碰撞后，刚体的运动形态，该运动形态包括刚体的运动状态、位置等。

需要说明的是，由于本实施例中的视频图像为二维图像，因此，目标对象的交互部位也是二维的。第一特效也属于二维特效，例如，二维纹理特效，即，本实施例可以在二维空间中，控制第一特效与目标对象的交互部位发生交互。

通过将第一特效的特效元素与区域图像进行模拟交互，可以得到第一特效与区域图像发生交互后，第一特效的形态。从第一特效的属性信息中可以获取第一特效的形状、颜色、亮度、纹理等信息，结合形态可以得到第一特征的形态图像。

步骤S108，基于形态图像，生成添加有第一特效的视频图像。

例如，当交互目标为视频图像的前景图像，如包含主播的区域图像，从视频图像中提取包含交互目标的区域图像，然后将该区域图像和第一形态图像进行叠加处理，得到添加后第一特征的视频图像；再如，当区域图像为主播的指定部位的图像时，例如，手部，形态图像可以填充在视频图像中手部图像以外的区域中，得到完成的且添加有第一特效的视频图像。

针对直播视频中的每帧图像，都可以采用前述上述步骤进行处理，直至直播被停止。

上述视频图像处理方法，从直播视频中获取待处理的视频图像；确定待添加的第一特效以及第一特效的交互目标，从视频图像中提取包含交互目标的区域图像以及交互目标的位置；基于交互目标的位置，控制第一特效的特效元素与包含交互目标的区域图像进行物理交互模拟，得到物理交互模拟后，第一特效的形态图像；其中，第一特效的特效元素与区域图像位于同一二维空间；基于形态图像，生成添加有第一特效的视频图像。该方式中，在处理视频图像时，在二维空间中控制特效元素与交互目标的区域图像进行物理交互模拟，得到特效的形态图像，进而基于该形态图像生成添加有特效的视频图像。该方式可以对直播视频逐帧添加特效，特效随着交互目标实时变化，因而特效可以对交互目标的变化做出实时反馈，提高了特效与交互目标的互动感和反馈感，从而提高了直播特效的视觉效果。

上述第一特效的交互目标可以具有多种。具体的，从视频图像中识别交互目标，和/或，获取视频图像携带的交互指令，将该交互指令对应的交互区域确定为交互目标。

例如，第一特效的交互目标为视频图像中的人物，此时，从视频图像中识别人物，例如主播人物；再如，第一特征的交互目标为人手，此时，从视频图像中识别人手。从而实现第一特效与视频图像中存在的交互目标进行交互。

另一种方式中，第一特效与主播或观众发出的交互操作进行交互。例如，向观众端提供触控接口，此时采集观众通过观众端执行触控操作的操作区域，基于操作区域生成前述交互指令，该交互指令可以携带在触控操作发生时或发生前后播放的视频图像中。从交互指令获取操作区域，将该操作区域作为交互指令对应的交互区域，即前述交互目标。

另一种实现方向中，第一特效在直播视频中展示的过程中，既可以与视频图像中已存在的交互目标进行交互，也可以与触控操作进行交互，此时，交互目标既包括从视频图像中识别的交互目标，如主播，也包括从交互指令的交互区域，如触控区域。

上述方式可以提高特征交互的灵活性，实现多种目标的特效交互。

下述实施例描述特效元素与区域图像进行物理交互模拟的具体实现方式。基于交互目标的位置，将交互目标的区域图像保存在二维渲染空间中；控制第一特效的特效元素在二维渲染空间中的指定位置生成，并按照预设的物理移动方式移动；当特效元素与交互目标的区域图像发生物理交互模拟，获取特效元素的形态信息，基于该形态信息生成第一特效的形态图像。

二维渲染空间的大小通常也会影响物理交互模拟的效果，进而影响第一特征的形态图像。因此，二维渲染空间的尺寸可以与视频图像的尺寸相同，或者略大于视频图像的尺寸。该二维渲染空间可以通过虚幻引擎提供，在该虚幻引擎中，通过特效模块生成前述第一特效的特效元素，例如，当第一特效属于粒子特效时，通过Niagara模块生成特效元素粒子。

将交互目标的区域图像保存在二维渲染空间中之前，可以先将无语图像保存在渲染目标中。通常，区域图像中由多通道图像组成，其中可能包含透明图像通道。将区域图像保存在渲染目标中，可以避免引擎特效系统识别到图像的透明通道的问题，从而避免特效元素无法与区域图像进行交互的问题。

考虑到交互目标的区域图像在二维渲染空间中的位置，会影响物理交互模拟的效果，因而本实施例中，基于交互目标在视频图像中的位置，确定交互目标的区域图像在二维渲染空间中的位置。例如，交互目标位于视频图像中的中心区域，此时，交互目标的区域图像也位于二维渲染空间的中心区域；再如，交互目标位于视频图像的下部，此时，交互目标的区域图像也位于二维渲染空间的下部。

第一特效的特效元素在二维渲染空间中生成的指定位置，可以预先设置，也可以随机确定。例如，对于下雨特效，该特效的特效元素通常在二维渲染空间中的顶部生成，此时，上述指定位置即顶部；对于烟花特效，该特效的特效元素可以在二维渲染空间中上半部区域的任意位置生成，此时，上述指定位置即二维渲染空间的上半部区域。

第一特效的特效元素在指定位置生成后，按照预设的物理移动方式移动。该物理移动方式可能包括：特效元素模拟受重力影响下落，特效元素沿着指定方向喷出后，受重力影响下落，或者，特效元素在移动过程中，受摩擦力影响改变移动速度、移动路径等。

在二维渲染空间中，交互目标的区域图像处于静止状态，而第一特效的特效元素处于移动状态，全部或部分特效元素可能与交互目标的区域图像发生接触、碰撞、粘连等物理交互模拟。特效元素与区域图像发生物理交互模拟后，特效元素会改变其形态，例如，改变移动速度、移动方向、发生形变等。例如，第一特效为雨滴特效时，特效元素为雨滴，雨滴与区域图像接触后，可能会发生改变移动路径、粘附在区域图像，或者特效元素雨滴由一滴碎裂为多滴。

通过物理交互模拟，可以得到特效元素与交互目标的区域图像接触后，特效元素的形态信息；该形态信息可以包括特效元素的运动方向、特效元素的位置、特效元素的形状等。形态信息确定后，即可生成第一特征的形态图像。

在实际实现时，所述第一特效具体可以为Grid2D纹理特效，通过流体模拟对该第一特效进行物理模拟，可以实现第一特效的特效元素按照流体力学的原理进行移动。

上述方式中，控制特效元素与区域图像在二维渲染空间中发生物理交互模拟，可以得到比较真实的交互后的特效形态，提高了特效与视频中目标的交互的实时性和互动性。

进一步的，直播视频中的交互目标可能处于静止状态，此时，特效元素与区域图像进行物理交互模拟，可以理解为特效元素与静止的交互目标进行物理交互模拟，因而可以直接得到第一特效比较真实的形态图像。然而在较多情况下，直播视频中的交互目标可能处于动态变化的状态，例如，交互目标为主播时，主播在跳舞过程中不断产生姿势变化。在该情况下，特效元素与区域图像发生物理交互模拟时，还需要考虑交互目标的运动状态，才能得到更加真实的特效元素的形态信息。

具体的，从直播视频中确定交互目标的运动趋势；当特效元素与交互目标的区域图像发生物理交互模拟，基于交互目标的运动趋势，确定特效元素的形态信息；基于形态信息生成第一特效的形态图像。

由于单一的视频图像仅显示交互目标的一个静止状态，难以基于一张视频图像确定交互目标的运动趋势，因此，需要从直播视频中确定交互目标的运动趋势。例如，可以比较该视频图像中交互目标的位置，以及该交互目标在该视频图像之间的图像中的位置，通过位置的变化确定交互目标的运动趋势。该运动趋势可以理解为，交互目标本身不发生形变，仅位置发生变化；运动趋势还可以理解为，交互目标的姿势变化和位置变化。

交互目标的运动趋势，会影响物理交互模拟后，特效元素的形态信息；例如，如果交互目标的运动方向与特效元素的运动方向相反，二者发生物理交互模拟后，特效元素的形态变化可能更为激烈，例如，碎裂形变更加严重，移动方向变化更大等；如果交互目标的运动方向与特效元素的运动方向相同，二者发生物理交互模拟后，特效元素的形态变化可能比较缓和，例如，特效元素不发生形变，仅较少的改变了移动方向和移动速度等。

为了便于理解，图2作为示例，第一特效的特效元素为星形元素，交互目标为人物的手部，当交互目标处于静止状态时，特效元素从上部模拟重力下落，特效元素与交互目标接触后，可能沿着交互目标的边缘继续下移，如图2中路径1所示。

图3作为另一个示例，交互目标的运动趋势为向右上方运动，即抬手的动作。特效元素从上部模拟重力下落，特效元素与交互目标接触后，特效元素会产生飞溅的物理效果，此时，特效元素会先远离交互目标一定的距离，然后继续模拟重力下落，如图3中路径2所示。

上述方式中，确定特效元素的形态时，考虑了交互目标的运动趋势，是特效的形态图像与交互目标的运动趋势相符合，提高了特效的交互真实性。

一种具体的实现方式中，在确定交互目标的运动趋势时，从直播视频中获取视频图像的至少一张前序图像；其中，按照直播视频的图像采集顺序，前序图像位于视频图像之前；前序图像与视频图像具有第一指定距离；从前序图像中确定交互目标的历史位置；基于历史位置以及交互目标的位置，确定交互目标的运动趋势。

前序图像可以为位于视频图像之前，且与视频图像相邻的一张或多张图像，或者，前序图像可以为位于视频图像之前，但与视频图像具有一定间隔的一种或多张图像。前述图像采集顺序可以按照图像采集的时间顺序确定。前述第一指定距离可以基于前序图像与视频图像的间隔图像的数量确定。作为一个示例，视频图像为直播视频中的第100帧图像，前序图像为第99帧图像，也可以为第95-99帧图像；另一个示例中，视频图像为直播视频中的第100帧图像，前序图像为第98帧图像，前序图像也可以包括第98帧、第96帧和第94帧图像。

前序图像中具有相对于视频图像的交互目标的历史位置。历史位置与视频图像中交互目标的位置，可以确定交互目标的位置变化，基于该位置变化可以得到交互目标的运动趋势。例如，交互目标在前序图像中的历史位置为位置1，在视频图像中为位置2，位置2位于位置1的上部，此时，可以预测交互目标的运动趋势为向上运动。

另外，如果交互目标占据较大的图像区域，则交互目标不同的位置点的运动趋势也不同。此时，可以从交互目标中确定多个位置点，采集每个位置点在前序图像中历史位置点，比较视频图像中每个位置点的位置，得到交互目标的整体的运动趋势。

得到第一特效的形态图像后，需要基于该形态图像，得到添加有第一特效的视频图像。一种具体的方式中。将包含交互目标的区域图像保存在指定的二维存储空间；其中，二维存储空间的尺寸与视频图像的尺寸相匹配；将形态图像填充在二维存储空间中区域图像以外的空间中，得到添加有第一特效的视频图像。该方式适用于第一特征与某个独立的交互目标的边缘进行交互的场景。例如，当交互目标为主播时，前述包含交互目标的区域图像中仅包括主播的人像，不包括主播背后的背景区域。此时，第一特效与主播交互后产生的形态图像，填充在区域图像以外的空间，即，形态图像替换了主播背后原始的背景区域。

前述二维存储空间也可以通过渲染目标实现，交互目标的区域图像保存在该二维存储空间后，通过图像填充的方式，将第一特效的形态图像渲染至空间的其他区域，从而实现将第一特效添加至视频图像的目的。

另一种方式中，将形态图像叠加显示在视频图像中，区域图像以外的图像上。该方式适用于交互目标为交互指令的交互区域，或者交互目标为某个对象的对象部位。第一特效与交互目标的边缘进行交互时，第一特效显示在交互目标以外的视频图像区域中。例如，交互目标为交互区域时，该交互区域为用户手指的点击区域，此时，第一特效的特效元素与该交互目标发生物理交互模拟后，特效元素沿着远离交互目标的方向四散运动，其形成的形态图像叠加在视频图像中交互目标以外的图像区域。

图4作为一个示例，阴影的圆形区域为交互区域，可以为观众通过观众端执行点击操作的点击区域。特效元素为线状雨的效果，当特效元素到达该交互区域后，随机改变移动路径，朝着远离交互区域的方向移动。此时，形态图像直接添加在交互目标以外的图像区域中。

对于直播视频，主播端在不断采集视频图像，为了提高特效显示的实时性和交互性，将直播视频中的每帧图像逐一确定为待处理的视频图像；针对每个视频图像，采用前述的方式，生成添加有第一特效的视频图像；将每帧添加有第一特效的视频图像连续起来，即可得到特效形态实时变化的视频图像，且每帧的特效形态与该帧视频图像中交互目标的位置以及运动趋势确定，因此，特效形态可以随着交互目标的变化而实时变化。

当交互目标为主播时，主播姿势随机变化，特效的形态可以实时动态跟随，这种特效处理方式可以给与主播较高的互动感和反馈感，对于观众而言，这种特效处理方式提高了直播特效的视觉效果。

在直播场景中，获取主播端采集的直播视频，通过前述方式添加第一特效后，将添加有第一特效的视频图像发送至直播视频对应的客户端。如果前述视频图像处理方法由直播服务器执行，则可以通过直播服务器直接将添加有第一特效的视频图像发送至直播视频对应的客户端；如果前述视频图像处理方法由渲染服务器执行，则渲染服务器可以从直播服务器获取直播视频，得到添加有第一特效的视频图像后，将添加有第一特效的视频图像再返回至直播服务器，通过直播服务器发送至直播视频对应的客户端。

在虚拟直播场景中，交互目标通常是主播人物，此时，在直播视频中，主播人物形成前景图像区域，主播人物背景的场景形成背景图像区域。由于需要从视频图像中提取包含主播人物的图像区域，为了保持图像区域的准确性，需要使主播人物在光照充足且均匀的环境中，从而可以准确的识别出交互目标的边缘，得到包含交互目标的图像区域。另外，可以使用绿幕作为背景，进一步提高前景图像和背景图像的区别，提高交互目标的图像区域的抠图准确性。

当交互目标为主播人物时，除了抠图得到交互目标的图像区域以外，还需要从图像区域中提取交互目标的一些识别信息，识别信息具体可以包括多种。一种具体的实现方式中，识别信息可以包括交互目标比较完整的信息，以人物为例，识别信息中可以包括交互目标的头发、眼睛、鼻子、嘴巴、耳朵、脸部、脖子、肩膀、手部等各个部位的部位位置，还可以包括交互目标整体的边缘位置。

为了提高信息提取效率，识别信息中可以仅包括待添加的第一特效与交互目标的交互部位。该方式中，需要预先确定添加特效，第一特效的确定可以根据主播端发出的特效选择指令确定，也可以根据观众端发出的特效选择指令确定，也可以随机确定。确定了第一特效的种类之后，从该第一特效的特效属性中获取该第一特征的交互部位，例如，交互部位是目标对象的对象边缘，或者是目标对象的头部。然后，仅提取该交互部位的部位位置，即可得到前述识别信息。

本实施例提供的上述视频图像处理方法，特效可以和主播全身任何部位进行物理模拟交互，借助虚幻引擎的实时渲染特性，改变了现有技术中，将交互画面叠加在视频流之上的虚假交互的方式，本实施例实现了特效随着主播的变化实时变化，主播每次的姿势和动作均可能触发不同的特效交互。

在虚拟直播场景中，主播实时参与特效的交互，同时，观众也可以通过触发操作实现与特效的交互，提高了直播特效整体的交互性。在虚拟直播过程中，能获取客户端直播画面的数据流，进而接入数据流到虚拟直播间；能够将客户端的主播动态数据与虚幻引擎UE4特效进行链接；能够做到主播直播过程中滤镜特效在直播过程中实时每帧变化，且效果是多样即时变化的；准确采集主播在现实环境中的动态变化以及做出正确实时反馈，能够呈现所见即所得；同时，可以接入平台客户端与能够其他直播配件进行兼容。

另外，需要说明的是，本实施例实现的特效元素与区域图像的模型，通过GPU(Graphics Processing Unit，图形处理器)渲染模拟实现，性能占用较小，即时每帧直播视频图像均计算得到特效图像，计算量和性能损耗均交底，不影响其他直播数据的处理和通信。

对应于上述方法实施例，参见图5所示的一种视频图像处理装置的结构示意图，该装置包括：

图像获取模块50，用于从直播视频中获取待处理的视频图像；

信息提取模块52，用于确定待添加的第一特效以及第一特效的交互目标，从视频图像中提取包含交互目标的区域图像以及交互目标的位置；

交互模块54，用于基于交互目标的位置，控制第一特效的特效元素与包含交互目标的区域图像进行物理交互模拟，得到物理交互模拟后，第一特效的形态图像；其中，第一特效的特效元素与区域图像位于同一二维空间；

图像生成模块56，用于基于形态图像，生成添加有第一特效的视频图像。

上述视频图像处理装置，从直播视频中获取待处理的视频图像；确定待添加的第一特效以及第一特效的交互目标，从视频图像中提取包含交互目标的区域图像以及交互目标的位置；基于交互目标的位置，控制第一特效的特效元素与包含交互目标的区域图像进行物理交互模拟，得到物理交互模拟后，第一特效的形态图像；其中，第一特效的特效元素与区域图像位于同一二维空间；基于形态图像，生成添加有第一特效的视频图像。该方式中，在处理视频图像时，在二维空间中控制特效元素与交互目标的区域图像进行物理交互模拟，得到特效的形态图像，进而基于该形态图像生成添加有特效的视频图像。该方式可以对直播视频逐帧添加特效，特效效果随着交互目标实时变化，因而可以对交互目标的变化作出实时反馈，提高了特效与交互目标的互动感和反馈感，从而提高了视觉效果。

上述信息提取模块，还用于：从视频图像中识别交互目标，和/或，获取视频图像携带的交互指令，将交互指令对应的交互区域确定为交互目标。

上述交互模块，还用于：基于交互目标的位置，将交互目标的区域图像保存在二维渲染空间中；控制第一特效的特效元素在二维渲染空间中的指定位置生成，并按照预设的物理移动方式移动；当特效元素与交互目标的区域图像发生物理交互模拟，获取特效元素的形态信息，基于形态信息生成第一特效的形态图像。

上述交互模块，还用于：从直播视频中确定交互目标的运动趋势；当特效元素与交互目标的区域图像发生物理交互模拟，基于交互目标的运动趋势，确定特效元素的形态信息；基于形态信息生成第一特效的形态图像。

上述交互模块，还用于：从直播视频中获取视频图像的至少一张前序图像；其中，按照直播视频的图像采集顺序，前序图像位于视频图像之前；前序图像与视频图像具有第一指定距离；从前序图像中确定交互目标的历史位置；基于历史位置以及交互目标的位置，确定交互目标的运动趋势。

上述图像生成模块，还用于：将包含交互目标的区域图像保存在指定的二维存储空间；其中，二维存储空间的尺寸与视频图像的尺寸相匹配；将形态图像填充在二维存储空间中区域图像以外的空间中，得到添加有第一特效的视频图像。

上述图像生成模块，还用于：将形态图像叠加显示在视频图像中，区域图像以外的图像上。

上述图像获取模块，还用于：将直播视频中的每帧图像逐一确定为待处理的视频图像；上述装置还包括发送模块，用于：将添加有第一特效的视频图像发送至直播视频对应的客户端。

本实施例还提供一种电子设备，包括处理器和存储器，存储器存储有能够被处理器执行的机器可执行指令，处理器执行机器可执行指令以实现上述视频图像处理方法。该电子设备可以是服务器，也可以是触控终端设备。

参见图6所示，该电子设备包括处理器100和存储器101，该存储器101存储有能够被处理器100执行的机器可执行指令，该处理器100执行机器可执行指令以实现上述视频图像处理方法。

进一步地，图6所示的电子设备还包括总线102和通信接口103，处理器100、通信接口103和存储器101通过总线102连接。

其中，存储器101可能包含高速随机存取存储器(RAM，Random Access Memory)，也可能还包括非不稳定的存储器(non-volatile memory)，例如至少一个磁盘存储器。通过至少一个通信接口103(可以是有线或者无线)实现该系统网元与至少一个其他网元之间的通信连接，可以使用互联网，广域网，本地网，城域网等。总线102可以是ISA总线、PCI总线或EISA总线等。所述总线可以分为地址总线、数据总线、控制总线等。为便于表示，图6中仅用一个双向箭头表示，但并不表示仅有一根总线或一种类型的总线。

处理器100可能是一种集成电路芯片，具有信号的处理能力。在实现过程中，上述方法的各步骤可以通过处理器100中的硬件的集成逻辑电路或者软件形式的指令完成。上述的处理器100可以是通用处理器，包括中央处理器(Central Processing Unit，简称CPU)、网络处理器(Network Processor，简称NP)等；还可以是数字信号处理器(DigitalSignal Processor，简称DSP)、专用集成电路(Application Specific IntegratedCircuit，简称ASIC)、现场可编程门阵列(Field-Programmable Gate Array，简称FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。可以实现或者执行本发明实施例中的公开的各方法、步骤及逻辑框图。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。结合本发明实施例所公开的方法的步骤可以直接体现为硬件译码处理器执行完成，或者用译码处理器中的硬件及软件模块组合执行完成。软件模块可以位于随机存储器，闪存、只读存储器，可编程只读存储器或者电可擦写可编程存储器、寄存器等本领域成熟的存储介质中。该存储介质位于存储器101，处理器100读取存储器101中的信息，结合其硬件完成前述实施例的方法的步骤。

上述电子设备中的处理器，通过执行机器可执行指令，可以实现上述视频图像处理方法中的下述操作：

从直播视频中获取待处理的视频图像；确定待添加的第一特效以及第一特效的交互目标，从视频图像中提取包含交互目标的区域图像以及交互目标的位置；基于交互目标的位置，控制第一特效的特效元素与包含交互目标的区域图像进行物理交互模拟，得到物理交互模拟后，第一特效的形态图像；其中，第一特效的特效元素与区域图像位于同一二维空间；基于形态图像，生成添加有第一特效的视频图像。

该方式中，在处理视频图像时，在二维空间中控制特效元素与交互目标的区域图像进行物理交互模拟，得到特效的形态图像，进而基于该形态图像生成添加有特效的视频图像。该方式可以对直播视频逐帧添加特效，特效效果随着交互目标实时变化，因而可以对交互目标的变化作出实时反馈，提高了特效与交互目标的互动感和反馈感，从而提高了视觉效果。

从视频图像中识别交互目标，和/或，获取视频图像携带的交互指令，将交互指令对应的交互区域确定为交互目标。

基于交互目标的位置，将交互目标的区域图像保存在二维渲染空间中；控制第一特效的特效元素在二维渲染空间中的指定位置生成，并按照预设的物理移动方式移动；当特效元素与交互目标的区域图像发生物理交互模拟，获取特效元素的形态信息，基于形态信息生成第一特效的形态图像。

从直播视频中确定交互目标的运动趋势；当特效元素与交互目标的区域图像发生物理交互模拟，基于交互目标的运动趋势，确定特效元素的形态信息；基于形态信息生成第一特效的形态图像。

从直播视频中获取视频图像的至少一张前序图像；其中，按照直播视频的图像采集顺序，前序图像位于视频图像之前；前序图像与视频图像具有第一指定距离；从前序图像中确定交互目标的历史位置；基于历史位置以及交互目标的位置，确定交互目标的运动趋势。

将包含交互目标的区域图像保存在指定的二维存储空间；其中，二维存储空间的尺寸与视频图像的尺寸相匹配；将形态图像填充在二维存储空间中区域图像以外的空间中，得到添加有第一特效的视频图像。

将形态图像叠加显示在视频图像中，区域图像以外的图像上。

将直播视频中的每帧图像逐一确定为待处理的视频图像；将添加有第一特效的视频图像发送至直播视频对应的客户端。

通过上述方式，在虚拟直播场景中，主播实时参与特效的交互，同时，观众也可以通过触发操作实现与特效的交互，提高了直播特效整体的交互性。

本实施例还提供一种机器可读存储介质，机器可读存储介质存储有机器可执行指令，机器可执行指令在被处理器调用和执行时，机器可执行指令促使处理器实现上述视频图像处理方法。

上述机器可读存储介质存储中的机器可执行指令，通过执行该机器可执行指令，可以实现上述视频图像处理方法中的下述操作：

本发明实施例所提供的视频图像处理方法、装置和电子设备的计算机程序产品，包括存储了程序代码的计算机可读存储介质，所述程序代码包括的指令可用于执行前面方法实施例中所述的方法，具体实现可参见方法实施例，在此不再赘述。

所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的系统和装置的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

另外，在本发明实施例的描述中，除非另有明确的规定和限定，术语“安装”、“相连”、“连接”应做广义理解，例如，可以是固定连接，也可以是可拆卸连接，或一体地连接；可以是机械连接，也可以是电连接；可以是直接相连，也可以通过中间媒介间接相连，可以是两个元件内部的连通。对于本领域技术人员而言，可以具体情况理解上述术语在本发明中的具体含义。

所述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

在本发明的描述中，需要说明的是，术语“中心”、“上”、“下”、“左”、“右”、“竖直”、“水平”、“内”、“外”等指示的方位或位置关系为基于附图所示的方位或位置关系，仅是为了便于描述本发明和简化描述，而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作，因此不能理解为对本发明的限制。此外，术语“第一”、“第二”、“第三”仅用于描述目的，而不能理解为指示或暗示相对重要性。

最后应说明的是：以上实施例，仅为本发明的具体实施方式，用以说明本发明的技术方案，而非对其限制，本发明的保护范围并不局限于此，尽管参照前述实施例对本发明进行了详细的说明，本领域技术人员应当理解：任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，其依然可以对前述实施例所记载的技术方案进行修改或可轻易想到变化，或者对其中部分技术特征进行等同替换；而这些修改、变化或者替换，并不使相应技术方案的本质脱离本发明实施例技术方案的精神和范围，都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应以权利要求的保护范围为准。

Claims

1.一种视频图像处理方法，其特征在于，所述方法包括：

从直播视频中获取待处理的视频图像；

确定待添加的第一特效以及所述第一特效的交互目标，从所述视频图像中提取包含所述交互目标的区域图像以及所述交互目标的位置；

基于所述交互目标的位置，控制所述第一特效的特效元素与包含所述交互目标的区域图像进行物理交互模拟，得到所述物理交互模拟后，所述第一特效的形态图像；其中，所述第一特效的特效元素与所述区域图像位于同一二维空间；

基于所述形态图像，生成添加有所述第一特效的视频图像。

2.根据权利要求1所述的方法，其特征在于，确定所述第一特效的交互目标的步骤，包括：

从所述视频图像中识别交互目标，和/或，获取所述视频图像携带的交互指令，将所述交互指令对应的交互区域确定为交互目标。

3.根据权利要求1所述的方法，其特征在于，基于所述交互目标的位置，控制所述第一特效的特效元素与包含所述交互目标的区域图像进行物理交互模拟，得到所述物理交互模拟后，所述第一特效的形态图像的步骤，包括：

基于所述交互目标的位置，将所述交互目标的区域图像保存在二维渲染空间中；

控制所述第一特效的特效元素在所述二维渲染空间中的指定位置生成，并按照预设的物理移动方式移动；

当所述特效元素与所述交互目标的区域图像发生物理交互模拟，获取所述特效元素的形态信息，基于所述形态信息生成所述第一特效的形态图像。

4.根据权利要求3所述的方法，其特征在于，当所述特效元素与所述交互目标的区域图像发生物理交互模拟，获取所述特效元素的形态信息，基于所述形态信息生成所述第一特效的形态图像的步骤，包括：

从所述直播视频中确定所述交互目标的运动趋势；

当所述特效元素与所述交互目标的区域图像发生物理交互模拟，基于所述交互目标的运动趋势，确定所述特效元素的形态信息；

基于所述形态信息生成所述第一特效的形态图像。

5.根据权利要求4所述的方法，其特征在于，从所述直播视频中确定所述交互目标的运动趋势的步骤，包括：

从所述直播视频中获取所述视频图像的至少一张前序图像；其中，按照所述直播视频的图像采集顺序，所述前序图像位于所述视频图像之前；所述前序图像与所述视频图像具有第一指定距离；

从所述前序图像中确定所述交互目标的历史位置；

基于所述历史位置以及所述交互目标的位置，确定所述交互目标的运动趋势。

6.根据权利要求1所述的方法，其特征在于，基于所述形态图像，生成添加有所述第一特效的视频图像的步骤，包括：

将包含所述交互目标的区域图像保存在指定的二维存储空间；其中，所述二维存储空间的尺寸与所述视频图像的尺寸相匹配；

将所述形态图像填充在所述二维存储空间中所述区域图像以外的空间中，得到添加有所述第一特效的视频图像。

7.根据权利要求1所述的方法，其特征在于，基于所述形态图像，生成添加有所述第一特效的视频图像的步骤，包括：将所述形态图像叠加显示在所述视频图像中，所述区域图像以外的图像上。

8.根据权利要求1所述的方法，其特征在于，从直播视频中获取待处理的视频图像的步骤，包括：将直播视频中的每帧图像逐一确定为待处理的视频图像；

所述基于所述形态图像，生成添加有所述第一特效的视频图像的步骤之后，所述方法还包括：将添加有所述第一特效的视频图像发送至所述直播视频对应的客户端。

9.一种视频图像处理装置，其特征在于，所述装置包括：

图像获取模块，用于从直播视频中获取待处理的视频图像；

信息提取模块，用于确定待添加的第一特效以及所述第一特效的交互目标，从所述视频图像中提取包含所述交互目标的区域图像以及所述交互目标的位置；

交互模块，用于基于所述交互目标的位置，控制所述第一特效的特效元素与包含所述交互目标的区域图像进行物理交互模拟，得到所述物理交互模拟后，所述第一特效的形态图像；其中，所述第一特效的特效元素与所述区域图像位于同一二维空间；

图像生成模块，用于基于所述形态图像，生成添加有所述第一特效的视频图像。

10.一种电子设备，其特征在于，包括处理器和存储器，所述存储器存储有能够被所述处理器执行的机器可执行指令，所述处理器执行所述机器可执行指令以实现权利要求1-8任一项所述的视频图像处理方法。

11.一种机器可读存储介质，其特征在于，所述机器可读存储介质存储有机器可执行指令，所述机器可执行指令在被处理器调用和执行时，所述机器可执行指令促使所述处理器实现权利要求1-8任一项所述的视频图像处理方法。