CN113286160A

CN113286160A - 视频处理方法、装置、电子设备以及存储介质

Info

Publication number: CN113286160A
Application number: CN202110547763.8A
Authority: CN
Inventors: 王琳; 刘飞
Original assignee: Guangdong Oppo Mobile Telecommunications Corp Ltd
Current assignee: Guangdong Oppo Mobile Telecommunications Corp Ltd
Priority date: 2021-05-19
Filing date: 2021-05-19
Publication date: 2021-08-20

Abstract

本申请公开了一种视频处理方法、装置、电子设备以及存储介质，涉及视频技术领域。该方法包括：采集目标对象的视频信息，并对视频信息进行识别，获得目标对象的行为信息，从多个预设元素中，确定与行为信息对应的预设元素作为目标元素，获取实时视频对应的视频场景，并基于视频场景确定目标元素的显示特征，基于显示特征将视频信息和目标元素进行合成处理，获得待显示视频，将待显示视频发送至接收端，以指示接收端显示待显示视频。本申请通过目标对象的行为信息确定对应的目标元素，并根据实时视频的视频场景确定目标元素的显示特征，以及以该显示特征将视频信息和目标元素进行合成显示，从而丰富实时视频的形式，提高了用户的体验。

Description

视频处理方法、装置、电子设备以及存储介质

技术领域

本申请涉及视频技术领域，更具体地，涉及一种视频处理方法、装置、电子设备以及存储介质。

背景技术

随着科学技术的发展，电子设备的使用越来越广泛，功能越来越多，已经成为人们日常生活中的必备之一。目前，为了将现场的新闻事实、体育赛事、文艺演出、知识竞赛、会议内容等活动分享到远端，电子设备可以被用于进行实时视频，以通过实时视频的形式进行分享。但是，在实时视频的过程中，视频内容的显示形式固定，造成用户的体验不佳。

发明内容

鉴于上述问题，本申请提出了一种视频处理方法、装置、电子设备以及存储介质，以解决上述问题。

第一方面，本申请实施例提供了一种视频处理方法，应用于实时视频的发送端，所述发送端用于与所述实时视频的接收端连接，所述方法包括：采集目标对象的视频信息，并对所述视频信息进行识别，获得所述目标对象的行为信息；从多个预设元素中，确定与所述行为信息对应的预设元素作为目标元素；获取所述实时视频对应的视频场景，并基于所述视频场景确定所述目标元素的显示特征；基于所述显示特征将所述视频信息和所述目标元素进行合成处理，获得待显示视频；将所述待显示视频发送至所述接收端，以指示所述接收端显示所述待显示视频。

第二方面，本申请实施例提供了一种视频处理装置，应用于实时视频的发送端，所述发送端用于与所述实时视频的接收端连接，所述装置包括：行为信息获得模块，用于采集目标对象的视频信息，并对所述视频信息进行识别，获得所述目标对象的行为信息；目标元素确定模块，用于从多个预设元素中，确定与所述行为信息对应的预设元素作为目标元素；显示特征确定模块，用于获取所述实时视频对应的视频场景，并基于所述视频场景确定所述目标元素的显示特征；待显示视频获得模块，用于基于所述显示特征将所述视频信息和所述目标元素进行合成处理，获得待显示视频；待显示视频发送模块，用于将所述待显示视频发送至所述接收端，以指示所述接收端显示所述待显示视频。

第三方面，本申请实施例提供了一种电子设备，包括存储器和处理器，所述存储器耦接到所述处理器，所述存储器存储指令，当所述指令由所述处理器执行时所述处理器执行上述方法。

第四方面，本申请实施例提供了一种计算机可读取存储介质，所述计算机可读取存储介质中存储有程序代码，所述程序代码可被处理器调用执行上述方法。

本申请实施例提供的视频处理方法、装置、电子设备以及存储介质，采集目标对象的视频信息，并对视频信息进行识别，获得目标对象的行为信息，从多个预设元素中，确定与行为信息对应的预设元素作为目标元素，获取实时视频对应的视频场景，并基于视频场景确定目标元素的显示特征，基于显示特征将视频信息和目标元素进行合成处理，获得待显示视频，将待显示视频发送至接收端，以指示接收端显示待显示视频，从而通过目标对象的行为信息确定对应的目标元素，并根据实时视频的视频场景确定目标元素的显示特征，以及以该显示特征将视频信息和目标元素进行合成显示，从而丰富实时视频的形式，提高了用户的体验。

附图说明

为了更清楚地说明本申请实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其它的附图。

图1示出了可用于本申请实施例提供的视频处理方法的一个应用环境示意图；

图2示出了可用于本申请实施例提供的视频处理方法的又一种应用环境示意图；

图3示出了本申请实施例提供的视频处理方法的时序图；

图4示出了本申请实施例提供的接收端的界面示意图；

图5示出了本申请一个实施例提供的视频处理方法的流程示意图；

图6示出了本申请又一个实施例提供的视频处理方法的流程示意图；

图7示出了本申请再一个实施例提供的视频处理方法的流程示意图；

图8示出了本申请另一个实施例提供的视频处理方法的流程示意图；

图9示出了本申请又再一个实施例提供的视频处理方法的流程示意图；

图10示出了本申请又另一个实施例提供的视频处理方法的流程示意图；

图11示出了本申请实施例提供的视频处理装置的模块框图；

图12示出了本申请实施例用于执行根据本申请实施例的视频处理方法的电子设备的框图；

图13示出了本申请实施例的用于保存或者携带实现根据本申请实施例的视频处理方法的程序代码的存储单元。

具体实施方式

为了使本技术领域的人员更好地理解本申请方案，下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述。

用户为了将现场的新闻事实、体育赛事、文艺演出、知识竞赛、会议内容等活动分享到远端，因此，诞生了视频会议、视频直播、视频通话等实时视频的形式。目前，电子设备可以被用于进行实时视频以从一端分享视频内容至一个或多个另一端，但是，在实时视频的过程中，视频内容的显示形式固定，例如，视频通话的过程中，视频内容始终为视频用户的图像信息，造成用户的体验不佳。

针对上述问题，发明人经过长期的研究发现，并提出了本申请实施例提供的视频处理方法、装置、电子设备以及存储介质，通过目标对象的行为信息确定对应的目标元素，并根据实时视频的视频场景确定目标元素的显示特征，以及以该显示特征将视频信息和目标元素进行合成显示，从而丰富实时视频的形式，提高了用户的体验。其中，具体的视频处理方法在后续的实施例中进行详细的说明。

下面将可用于本申请实施例提供的视频处理方法的应用环境进行描述。

请参阅图1，图1示出了可用于本申请实施例提供的视频处理方法的一个应用环境示意图。如图1所示，该应用环境包括实时视频的发送端100和实时视频的接收端200，其中，发送端100和接收端200连接，例如，发送端100和接收端200可以通过短距离近场通信的方式连接，如发送端100和接收端200可以通过蓝牙连接，可以通过NFC连接。

请参阅图2，图2示出了可用于本申请实施例提供的视频处理方法的又一种应用环境示意图。如图2所示，该应用环境包括实时视频的发送端100、实时视频的接收端200以及用于连接发送端100和接收端200的服务器300，发送端100和服务器300连接，接收端200和服务器300连接，以实现发送端100和接收端200之间的数据交互。

其中，发送端100可以包括智能手机、平板电脑、台式电脑、穿戴式电子设备等，接收端200可以包括智能手机、平板电脑、台式电脑、穿戴式电子设备等。服务器300可以报考传统服务器、云服务器等。

其中，发送端100的数量可以为一个或多个，接收端的数量可以为一个或多个，作为一种方式，当发送端100和接收端200之间的实时视频为视频通话时，则发送端100的数量可以为一个，且接收端200的数量可以为一个；作为又一种方式，当发送端100和接收端200之间的实时视频为视频会议时，则发送端100的数量可以为多个，且接收端200的数量可以为多个；作为再一种方式，当发送端100和接收端200之间的实时视频为直播时，则发送端100的数量可以为一个，且接收端200的数量可以为多个。

请参阅图3，图3示出了本申请实施例提供的视频处理方法的时序图。所述视频处理方法用于通过目标对象的行为信息确定对应的目标元素，并根据实时视频的视频场景确定目标元素的显示特征，以及以该显示特征将视频信息和目标元素进行合成显示，从而丰富实时视频的形式，提高了用户的体验。下面将针对图3所示的流程进行详细的阐述，所述视频处理方法具体可以包括以下步骤：

步骤S110：发送端采集目标对象的视频信息，并对所述视频信息进行识别，获得所述目标对象的行为信息。

在本实施例中，实时视频可以包括视频通话、视频会议、视频教学、视频直播等，在此不做限定。

在一些实施方式中，发送端可以包括音视频传感器，则在实时视频的过程中，发送端可以通过音视频传感器采集目标对象的视频信息。例如，该音视频传感器可以包括摄像头，则在实时视频的过程中，发送端可以通过摄像头采集目标对象的视频信息。作为一种方式，该目标对象可以为发送端对应的对象，例如，可以为发送端对应的直播对象，该目标对象可以包括“人”，也可以包括“动物”。

在本实施例中，发送端在采集获得目标对象的视频信息后，可以对视频信息进行识别，以识别获得该目标对象的行为信息。作为一种方式，发送端在采集获得目标对象的视频信息后，可以将目标对象的视频信息输入已训练的行为识别模型，获得该已训练的行为识别模型输出的目标对象的行为信息。

在一些实施方式中，该目标对象的视频信息可以包括目标对象的图像信息和目标对象的音频信息。作为一种方式，发送端在采集获得目标对象的视频信息后，可以提取视频信息中的图像信息，并对该图像信息进行识别，以识别获得该目标对象的行为信息。作为又一种方式，发送端在采集获得目标对象的视频信息后，可以提取视频信息中的音频信息，并对该音频信息进行识别，以识别获得该目标对象的行为信息。作为再一种方式，发送端在采集获得目标对虾干的视频信息后，可以提取该视频信息中的图像信息和音频信息，并对该图像信息和音频信息进行识别，以识别获得该目标对象的行为信息。

在一些实施方式中，该目标对象的行为信息可以包括目标对象的手势信息、目标对象的语音信息、目标对象的动作信息、目标对象的表情信息等，在此不做限定。

步骤S120：发送端从多个预设元素中，确定与所述行为信息对应的预设元素作为目标元素。

在一些实施方式中，发送端可与预先设置并存储有多个预设元素，则在获得目标对象的行为信息后，可以从多个预设元素中，确定与该行为信息对应的预设元素作为目标元素。作为一种方式，发送端可以预先设置并存储有多个预设元素、多个预设行为信息以及多个预设元素与多个预设行为信息之间的映射关系，则在获得目标对象的行为信息后，可以将目标对象的行为信息与多个预设行为信息进行匹配，以从多个预设行为信息中确定与目标对象的行为信息匹配的预设行为信息，再基于多个预设元素与多个预设行为信息之间的映射关系，从多个预设元素中确定与目标对象的行为信息匹配的预设行为信息存在映射关系的预设元素，作为目标元素。

在一些实施方式中，该预设元素可以包括预设文本、预设图像、预设视频、预设虚拟效果等可视元素，在此不做限定。

步骤S130：发送端获取所述实时视频对应的视频场景，并基于所述视频场景确定所述目标元素的显示特征。

在一些实施方式中，发送端在获取目标元素后，可以获取实时视频对应的视频场景，并基于该视频场景确定该目标元素的显示特征。作为一种方式，该显示特征可以包括显示位置和/或显示时长，则发送端在获取目标元素后，可以获取实时视频对应的视频场景，并基于该视频场景确定该目标元素的显示位置和/或显示时长。其中，基于不同视频场景确定的目标元素的显示特征可以相同或不同。

在一些实施方式中，该实时视频包括视频通话、视频教学、视频会议、视频直播，该视频场景包括视频通话场景、视频教学场景、视频会议场景、视频直播场景。则，当实时视频为视频通话时，则可以确定该实时视频对应的视频场景为视频通话场景；当实时视频为视频教学时，则可以确定该实时视频对应的视频场景为视频教学场景；当实时视频为视频会议时，则可以确定该实时视频对应的视频场景为视频会议场景；当实时视频为视频直播时，则可以确定该实时视频对应的视频场景为视频直播场景。

步骤S140：发送端基于所述显示特征将所述视频信息和所述目标元素进行合成处理，获得待显示视频。

在一些实施方式中，发送端在确定目标元素的显示特征后，可以基于该显示特征将视频信息和目标元素进行合成处理，获得待显示视频，其中，在待显示视频中，该目标元素可以作为视频信息的前景图像进行合成，可以作为视频信息的背景图像进行合成，可以作为视频信息的替换元素进行合成，在此不做限定。作为一种方式，当该显示特征为显示时长时，则发送端可以按该显示时长将视频信息和目标元素进行合成处理，获得待显示时长，以及在该显示时长后停止将视频信息和目标元素进行合成处理。作为又一种方式，当该显示特征为显示位置时，则发送端可以将目标元素按该显示位置与视频信息进行合成处理，获得待显示视频，以使待显示视频在呈现时，其所包含的目标元素可以按该显示位置显示于其所包含的视频信息中。

步骤S150：发送端将所述待显示视频发送至所述接收端。

在一些实施方式中，发送端在获得待显示视频后，可以将该待显示视频发送至接收端。作为一种方式，当发送端和接收端通过短距离近场通信连接时，则发送端可以通过短距离近场通信的方式(如蓝牙、NFC)的方式将待显示视频发送至接收端。作为又一种方式，当发送端和接收端通过服务器连接时，则发送端可以将待显示视频发送至服务器，并通过服务器将待显示视频转发至接收端。

步骤S160：接收端显示所述待显示视频。

在一些实施方式中，接收端接收到发送端发送的待显示视频后，可以显示该待显示视频，其中，在接收端显示的待显示视频包括视频信息和以独特的显示特征显示的目标元素，从而可以丰富实时视频的形式，提高了用户的体验。

请参阅图4，图4示出了本申请实施例提供的接收端的界面示意图。如图4所示，以实时视频为直播视频为例，待显示视频可以包括视频信息A和目标元素B，视频信息A和目标元素B以待显示视频的形式共同显示在接收端200。

本申请实施例提供的视频处理方法，发送端采集目标对象的视频信息，并对视频信息进行识别，获得目标对象的行为信息，从多个预设元素中，确定与行为信息对应的预设元素作为目标元素，获取实时视频对应的视频场景，并基于视频场景确定目标元素的显示特征，基于显示特征将视频信息和目标元素进行合成处理，获得待显示视频，将待显示视频发送至接收端，接收端显示待显示视频，从而通过目标对象的行为信息确定对应的目标元素，并根据实时视频的视频场景确定目标元素的显示特征，以及以该显示特征将视频信息和目标元素进行合成显示，从而丰富实时视频的形式，提高了用户的体验。

请参阅图5，图5示出了本申请一个实施例提供的视频处理方法的流程示意图。所述视频处理方法用于通过目标对象的行为信息确定对应的目标元素，并根据实时视频的视频场景确定目标元素的显示特征，以及以该显示特征将视频信息和目标元素进行合成显示，从而丰富实时视频的形式，提高了用户的体验。在具体的实施例中，所述视频处理方法应用于如图11所示的视频处理装置400以及配置有视频处理装置400的电子设备100(图12)。下面将以实时视频的发送端为例，说明本实施例的具体流程，该发送端用于与实时视频的接收端连接，可以理解的，本实施例所应用的发送端可以包括智能手机、平板电脑、台式电脑、穿戴式电子设备等，在此不做限定。下面将针对图5所示的流程进行详细的阐述，所述视频处理方法具体可以包括以下步骤：

步骤S210：采集目标对象的视频信息，并对所述视频信息进行识别，获得所述目标对象的行为信息。

步骤S220：从多个预设元素中，确定与所述行为信息对应的预设元素作为目标元素。

步骤S230：获取所述实时视频对应的视频场景，并基于所述视频场景确定所述目标元素的显示特征。

步骤S240：基于所述显示特征将所述视频信息和所述目标元素进行合成处理，获得待显示视频。

步骤S250：将所述待显示视频发送至所述接收端，以指示所述接收端显示所述待显示视频。

其中，步骤S210-步骤S250的具体描述请参阅步骤S110-步骤S160，在此不再赘述。

本申请一个实施例提供的视频处理方法，采集目标对象的视频信息，并对视频信息进行识别，获得目标对象的行为信息，从多个预设元素中，确定与行为信息对应的预设元素作为目标元素，获取实时视频对应的视频场景，并基于视频场景确定目标元素的显示特征，基于显示特征将视频信息和目标元素进行合成处理，获得待显示视频，将待显示视频发送至接收端，以指示接收端显示待显示视频，从而通过目标对象的行为信息确定对应的目标元素，并根据实时视频的视频场景确定目标元素的显示特征，以及以该显示特征将视频信息和目标元素进行合成显示，从而丰富实时视频的形式，提高了用户的体验。

请参阅图6，图6示出了本申请又一个实施例提供的视频处理方法的流程示意图。该方法应用于上述实时视频的发送端，该发送端用于与实时视频的接收端连接，在本实施例中，该显示特征包括显示位置，下面将针对图6所示的流程进行详细的阐述，所述视频处理方法具体可以包括以下步骤：

步骤S310：采集目标对象的视频信息，并对所述视频信息进行识别，获得所述目标对象的行为信息。

步骤S320：从多个预设元素中，确定与所述行为信息对应的预设元素作为目标元素。

其中，步骤S310-步骤S320的具体描述请参阅步骤S110-步骤S120，在此不再赘述。

步骤S330：获取所述实时视频对应的视频场景，并基于所述视频场景确定所述目标元素的显示位置。

在本实施例中，该显示特征包括显示位置。作为一种方式，显示位置可以包括固定显示位置和相对显示位置，其中，固定显示位置表征该目标元素在接收端的显示屏上的显示位置保持不变，即该目标元素不会随视频信息中的其他对象的移动而移动；相对显示位置表征该目标元素在接收端的显示屏上与所显示的视频信息中的某个对象的相对位置保持不变，即该目标元素会随视频信息中的其他对象的移动而移动，例如，该目标元素在接收端的显示屏上与所显示的视频信息中的用户的某个部位(如头部、手部等)的相对位置保持不变，即目标元素会随该用户的某个部位的移动而移动。

在一些实施方式中，发送端在获取目标元素后，可以获取实时视频对应的视频场景，并基于该视频场景确定该目标元素的显示位置。其中，基于不同视频场景确定的目标元素的显示位置可以相同或不同。例如，当视频场景为视频通话场景时，则可以确定该目标元素的显示位置为相对显示位置，则在视频通话的过程中，该目标元素的显示位置会随着用户脸部的移动而移动，以避免对用户脸部的遮挡，保证视频通话的体验；当视频场景为视频直播场景时，则可以确定该目标元素的显示位置为固定显示位置，则在视频直播的过程中，该目标元素的显示位置不会随着用户的移动而移动，而是可以始终保持在显示框周围，以对显示框进行装饰，提升视频直播的体验。

步骤S340：将所述目标元素按所述显示位置与所述视频信息进行合成处理，获得所述待显示视频。

在一些实施方式中，发送端在确定目标元素的显示位置后，可以将该目标元素按该显示位置与视频信息进行合成处理，获得待显示视频。

步骤S350：将所述待显示视频发送至所述接收端，以指示所述接收端显示所述待显示视频。

其中，步骤S350的具体描述请参阅步骤S150-步骤S160，在此不再赘述。

本申请又一个实施例提供的视频处理方法，采集目标对象的视频信息，并对视频信息进行识别，获得目标对象的行为信息，从多个预设元素中，确定与行为信息对应的预设元素作为目标元素，获取实时视频对应的视频场景，并基于视频场景确定目标元素的显示位置，将目标元素按显示位置与视频信息进行合成处理，获得待显示视频，将待显示视频发送至接收端，以指示接收端显示待显示视频。相较于图5所示的视频处理方法，本实施例的显示特征包括显示位置，并将目标元素按该显示位置与视频信息进行合成处理，提升待显示视频的显示效果。

请参阅图7，图7示出了本申请再一个实施例提供的视频处理方法的流程示意图。该方法应用于上述实时视频的发送端，该发送端用于与实时视频的接收端连接，在本实施例中，该显示特征包括显示时长，下面将针对图7所示的流程进行详细的阐述，所述视频处理方法具体可以包括以下步骤：

步骤S410：采集目标对象的视频信息，并对所述视频信息进行识别，获得所述目标对象的行为信息。

步骤S420：从多个预设元素中，确定与所述行为信息对应的预设元素作为目标元素。

其中，步骤S410-步骤S420的具体描述请参阅步骤S110-步骤S120，在此不再赘述。

步骤S430：获取所述实时视频对应的视频场景，并基于所述视频场景确定所述目标元素的显示时长。

在本实施例中，该显示特征包括显示时长。作为一种方式，显示位置可以包括固定显示时长和指定显示位置，其中，固定显示时长表征该目标元素在接收端的显示屏上的显示时长与视频信息的显示时长一致，即该目标元素在视频信息的显示过程中会始终保持显示，且在视频信息结束显示时对应结束显示；指定显示显示表征该目标元素在接收端的显示屏上的显示时长可以预先设置，即该目标元素仅随视频信息显示指定时长，并在显示的时长达到指定时长时结束显示，此时，则待显示视频中仅包括视频信息。

在一些实施方式中，发送端在获取目标元素后，可以获取实时视频对应的视频场景，并基于该视频场景确定该目标元素的显示时长。其中，基于不同视频场景确定的目标元素的显示时长可以相同或不同。例如，当视频场景为视频通话场景时，则可以确定该目标元素的显示时长为固定显示时长，则在视频通话的过程中，该目标元素始终保持显示，提升视频通话的体验；当视频场景为视频直播场景时，则可以确定该目标元素的显示时长为指定显示时长，则在视频直播的过程中，该目标元素仅在直播间显示指定时长，以及在后续可以显示其他元素，以保持直播间所显示的元素的新鲜感，提升视频直播的体验，作为一种方式，当视频场景为视频直播场景时，还可以获取目标元素获得的点赞数，基于该点赞数确定该目标元素的显示时长，其中，点赞数越多，则该目标元素的显示时长越长，点赞数越少，则该目标元素的显示时长越短。

步骤S440：在所述显示时长内将所述目标元素和所述视频信息进行合成处理，获得所述待显示视频。

在一些实施方式中，发送端在确定目标元素的显示时长后，可以在该显示内将该目标元素和视频信息进行合成处理，获得该待显示视频。

步骤S450：将所述待显示视频发送至所述接收端，以指示所述接收端显示所述待显示视频。

其中，步骤S450的具体描述请参阅步骤S150-步骤S160，在此不再赘述。

步骤S460：若在所述显示时长内识别到所述目标对象的行为信息发生变化时，获取变化后的行为信息。

在一些实施方式中，发送端在将待显示视频发送至接收端并在接收端进行显示的显示时长内，可以继续采集目标对象的视频信息并对视频信息进行识别，获得目标对象的行为信息，以及通过判断新获得行为信息是否与之前获得的行为信息是否相同的方式，判断该目标对象的行为信息是否发生变化，其中，当判断结果表征新获得的行为信息与之前获得的行为信息不同时，可以确定目标对象的行为信息发生变化，则可以获取变化后的行为信息。

步骤S470：从所述多个预设元素中，确定与所述变化后的行为信息对应的预设元素作为变化后的元素。

在一些实施方式中，发送端可与预先设置并存储有多个预设元素，则在获得目标对象的变化后的行为信息后，可以从多个预设元素中，确定与该变化后的行为信息对应的预设元素作为变化后的元素。作为一种方式，发送端可以预先设置并存储有多个预设元素、多个预设行为信息以及多个预设元素与多个预设行为信息之间的映射关系，则在获得目标对象的变化后的行为信息后，可以将目标对象的变化后的行为信息与多个预设行为信息进行匹配，以从多个预设行为信息中确定与目标对象的行为信息匹配的预设行为信息，再基于多个预设元素与多个预设行为信息之间的映射关系，从多个预设元素中确定与目标对象的变化后的行为信息匹配的预设行为信息存在映射关系的预设元素，作为变化后的元素。

步骤S480：当所述变化后的元素的优先级高于所述目标元素的优先级时，基于所述显示特征将所述视频信息和所述变化后的元素进行合成处理，获得变化后的待显示视频，并将所述变化后的待显示视频发送至所述接收端，以指示所述接收端显示所述变化后的待显示视频。

在一些实施方式中，发送端可以预先设置并存储有多个预设元素，并存储有多个预设元素中的每个预设元素各自对应的优先级，或者存储有多个预设元素的优先级高低关系。因此，作为一种方式，在获取变化后的元素后，可以从电子设备的本地获取该变化后的元素的优先级和目标元素的优先级，并将变化后的元素的优先级和目标元素的优先级进行比较，以判断变化后的优先级是否高于目标元素的优先级。作为又一种方式，在获取变化后的元素后，可以从电子设备的本地获取该变化后的元素的优先级和目标元素的优先级的高低关系，基于该高低关系判断变化后的优先级是否高于目标元素的优先级。

在一些实施方式中，当判断结果表征变化后的元素的优先级高于目标元素的优先级时，可以确定在同时存在变化后的元素和目标元素且变化后的元素和目标元素存在现实矛盾时，则优先显示变化后的元素，因此，可以基于显示特征将视频信息和变化后的元素进行合成处理，获得变化后的待显示视频，并将变化后的待显示视频发送至接收端，以指示接收端显示变化后的待显示视频。

步骤S490：当所述变化后的元素的优先级低于或等于所述目标元素的优先级时，在所述显示时长内将所述目标元素和所述视频信息进行合成处理，获得所述待显示视频，并将所述待显示视频发送至所述接收端，以指示所述接收端显示所述待显示视频。

在一些实施方式中，当判断结果表征变化后的元素的优先级低于或等于目标元素的优先级时，可以确定在同时存在变化后的元素和目标元素且变化后的元素和目标元素存在现实矛盾时，则优先显示目标元素，因此，可以继续保持显示待显示视频，即，在显示时长内将目标元素和视频信息进行合成处理，获得待显示视频，并将待显示视频发送至接收端，以指示接收端显示该待显示视频。

本申请再一个实施例提供的视频处理方法，采集目标对象的视频信息，并对视频信息进行识别，获得目标对象的行为信息，从多个预设元素中，确定与行为信息对应的预设元素作为目标元素，获取实时视频对应的视频场景，并基于视频场景确定目标元素的显示时长，在该显示时长内将目标元素和视频信息进行合成处理，获得待显示视频，将待显示视频发送至接收端，以指示接收端显示待显示视频，若在显示时长内识别到目标对象的行为信息发生变化时，获取变化后的行为信息，从多个预设元素中，确定与变化后的行为信息对应的预设元素作为变化后的元素，当变化后的元素的优先级高于目标元素的优先级时，基于现实特征将视频信息和变化后的元素进行合成处理，获得变化后的待显示视频，并将变化后的待显示视频发送至接收端，以指示接收端显示变化后的待显示视频，当变化后的元素的优先级低于或等于目标元素的优先级时，在显示时长内将目标元素和视频信息进行合成处理，获得待显示视频，并将待显示视频发送至接收端，以指示接收端显示待显示视频。相较于图5所示的视频处理方法，本实施例的显示特征包括显示时长，并在显示时长内将目标元素与视频信息进行合成处理，提升待显示视频的显示效果。另外，在显示时长内若目标对象的行为信息发生变化，则根据变化后的元素和目标元素的优先级确定进行合成的元素，从而提升视频的合成显示效果。

请参阅图8，图8示出了本申请另一个实施例提供的视频处理方法的流程示意图。该方法应用于上述实时视频的发送端，该发送端用于与实时视频的接收端连接，在本实施例中，该行为信息包括语音信息，下面将针对图8所示的流程进行详细的阐述，所述视频处理方法具体可以包括以下步骤：

步骤S510：采集目标对象的视频信息，并对所述视频信息进行识别，获得所述目标对象的语音信息。

在本实施例中，该行为信息包括语音信息。

在本实施例中，发送端在采集获得目标对象的视频信息后，可以对视频信息进行识别，以识别获得该目标对象的语音信息。作为一种方式，发送端可以包括已训练的语音识别模型，发送端在采集获得目标对象的视频信息后，可以将目标对象的视频信息输入已训练的语音识别模型，获得该已训练的语音识别模型输出的目标对象的语音信息。

步骤S520：对所述语音信息进行识别，获得所述语音信息中的关键词。

进一步地，获得目标对象的语音信息后，对该语音信息中的关键词进行提取。作为一种方式，首先将该语音信息对应的语句进行分词，获得多个词组，然后分别判断所述多个词组中是否包含有指示添加元素的关键词，对关键词进行提取；作为另一种方式，直接对该语音信息对应的语句进行识别，以判断该语句中是否包含有指示添加元素的关键词，对关键词进行提取。

步骤S530：从所述多个预设元素中，确定与所述关键词对应的预设元素作为所述目标元素。

在一些实施方式中，发送端可与预先设置并存储有多个预设元素，则在获得目标对象的关键词后，可以从多个预设元素中，确定与该关键词对应的预设元素作为目标元素。作为一种方式，发送端可以预先设置并存储有多个预设元素、多个预设关键词以及多个预设元素与多个预设关键词之间的映射关系，则在获得目标对象的关键词后，可以将目标对象的关键词与多个预设关键词进行匹配，以从多个预设关键词中确定与目标对象的关键词匹配的预设关键词，再基于多个预设元素与多个预设关键词之间的映射关系，从多个预设元素中确定与目标对象的关键词匹配的预设关键词存在映射关系的预设元素，作为目标元素。

步骤S540：获取所述实时视频对应的视频场景，并基于所述视频场景确定所述目标元素的显示特征。

步骤S550：基于所述显示特征将所述视频信息和所述目标元素进行合成处理，获得待显示视频。

步骤S560：将所述待显示视频发送至所述接收端，以指示所述接收端显示所述待显示视频。

其中，步骤S540-步骤S560的具体描述请参阅步骤S130-步骤S160，在此不再赘述。

本申请另一个实施例提供的视频处理方法，采集目标对象的视频信息，并对视频信息进行识别，获得目标对象的语音信息，对语音信息进行识别，获得语音信息中的关键词，从多个预设元素中，确定关键词对应的预设元素作为目标元素，获取实时视频对应的视频场景，并基于视频场景确定目标元素的显示特征，基于显示特征将视频信息和目标元素进行合成处理，获得待显示视频，将待显示视频发送至接收端，以指示接收端显示待显示视频。相较于图5所示的视频处理方法，本实施例的行为信息包括语音信息，并基于对语音信息进行识别获得的关键词确定目标元素，从而提升所确定的目标元素的准确性。

请参阅图9，图9示出了本申请又再一个实施例提供的视频处理方法的流程示意图。该方法应用于上述实时视频的发送端，该发送端用于与实时视频的接收端连接，在本实施例中，该行为信息包括手势信息，下面将针对图9所示的流程进行详细的阐述，所述视频处理方法具体可以包括以下步骤：

步骤S610：采集目标对象的视频信息，并对所述视频信息进行识别，获得所述目标对象的手势信息。

在本实施例中，该行为信息包括手势信息。

在本实施例中，发送端在采集获得目标对象的视频信息后，可以对视频信息进行识别，以识别获得该目标对象的手势信息。作为一种方式，发送端可以包括已训练的手势识别模型，发送端在采集获得目标对象的视频信息后，可以将目标对象的视频信息输入已训练的手势识别模型，获得该已训练的手势识别模型输出的目标对象的手势信息。

步骤S620：从所述多个预设元素中，确定与所述手势信息对应的预设元素作为所述目标元素。

在一些实施方式中，发送端可与预先设置并存储有多个预设元素，则在获得目标对象的手势信息后，可以从多个预设元素中，确定与该手势信息对应的预设元素作为目标元素。作为一种方式，发送端可以预先设置并存储有多个预设元素、多个预设手势信息以及多个预设元素与多个预设手势信息之间的映射关系，则在获得目标对象的手势信息后，可以将目标对象的手势信息与多个预设手势信息进行匹配，以从多个预设手势信息中确定与目标对象的手势信息匹配的预设手势信息，再基于多个预设元素与多个预设手势信息之间的映射关系，从多个预设元素中确定与目标对象的手势信息匹配的预设手势信息存在映射关系的预设元素，作为目标元素。

步骤S630：获取所述实时视频对应的视频场景，并基于所述视频场景确定所述目标元素的显示特征。

步骤S640：基于所述显示特征将所述视频信息和所述目标元素进行合成处理，获得待显示视频。

步骤S650：将所述待显示视频发送至所述接收端，以指示所述接收端显示所述待显示视频。

其中，步骤S630-步骤S650的具体描述请参阅步骤S130-步骤S160，在此不再赘述。

本申请另一个实施例提供的视频处理方法，采集目标对象的视频信息，并对视频信息进行识别，获得目标对象的手势信息，从多个预设元素中，确定手势信息对应的预设元素作为目标元素，获取实时视频对应的视频场景，并基于视频场景确定目标元素的显示特征，基于显示特征将视频信息和目标元素进行合成处理，获得待显示视频，将待显示视频发送至接收端，以指示接收端显示待显示视频。相较于图5所示的视频处理方法，本实施例的行为信息包括手势信息，并基于手势信息确定目标元素，从而提升所确定的目标元素的准确性。

请参阅图10，图10示出了本申请又另一个实施例提供的视频处理方法的流程示意图。该方法应用于上述实时视频的发送端，该发送端用于与实时视频的接收端连接，在本实施例中，该视频信息包括第一图像信息和第一音频信息，目标元素包括第二图像元素和第二音频元素，下面将针对图10所示的流程进行详细的阐述，所述视频处理方法具体可以包括以下步骤：

步骤S710：采集目标对象的视频信息，并对所述视频信息进行识别，获得所述目标对象的行为信息。

步骤S720：从多个预设元素中，确定与所述行为信息对应的预设元素作为目标元素。

步骤S730：获取所述实时视频对应的视频场景，并基于所述视频场景确定所述目标元素的显示特征。

其中，步骤S710-步骤S730的具体描述请参阅步骤S110-步骤S130，在此不再赘述。

步骤S740：基于所述显示特征将所述第一图像信息和所述第二图像信息进行合成处理，获得待显示图像。

在本实施例中，该视频信息包括第一图像信息和第一音频信息，该目标元素包括第二图像信息和第二音频信息。

在一些实施方式中，发送端在确定目标元素的显示特征后，可以基于该显示特征将第一图像信息和第二图像信息进行合成处理，获得待显示图像，其中，在待显示图像中，该第一图像信息可以作为第二图像信息的前景图像进行合成，可以作为第二图像信息的背景图像进行合成，可以作为第二图像信息的替换元素进行合成，在此不做限定。

步骤S750：基于预设音量权重比将所述第一音频信息和所述第二音频信息进行混音处理，获得待输出音频。

在一些实施方式中，发送端可以预先设置视频信息和目标元素之间在进行合成时，所对应的音量权重比作为预设音量权重比，该预设音量权重比用于作为视频信息所包含的第一音频信息和目标元素所包含的第二音频信息的混音依据，例如，该预设音量权重比可以包括：第一音频信息/第二音频信息＝0.8/0.2。因此，发送端可以基于预设音量权重比将第一音频信息和第二音频信息进行混音处理，获得待输出音频，其中，在待输出音频中，同时包括第一音频信息和第二音频信息，且第一音频信息对应的音量与第二音频信息对应的音量不同，可选地，第一音频信息对应的音量大于第二音频信息对应的音量。

步骤S760：基于所述待显示图像和所述待输出音频，获得所述待显示视频。

在一些实施方式中，在获得待显示图像和待输出音频后，可以基于待显示图像和待输出音频，获得待显示视频。

步骤S770：将所述待显示视频发送至所述接收端，以指示所述接收端显示所述待显示视频。

其中，步骤S770的具体描述请参阅步骤S150-步骤S160，在此不再赘述。

本申请又另一个实施例提供的视频处理方法，采集目标对象的视频信息，并对视频信息进行识别，获得目标对象的行为信息，从多个预设元素中，确定与行为信息对应的预设元素作为目标元素，获取实时视频对应的视频场景，并基于视频场景确定目标元素的显示特征，基于显示特征将第一图像信息和第二图像信息进行合成处理，获得待显示图像，基于预设音量权重比将第一音频信息和第二音频信息进行混音处理，获得待输出音频，基于待显示图像和待输出音频，获得待显示视频，将待显示视频发送至接收端，以指示接收端显示待显示视频。相较于图5所示的视频处理方法，本实施例还对视频信息和目标元素分别进行图像合成和音频混合，以提升所生成的待显示视频的显示效果。

请参阅图11，图11示出了本申请实施例提供的视频处理装置的模块框图。该视频处理装置400应用于实时视频的发送端，该发送端用于与实时视频的接收端连接，该视频处理装置400包括：行为信息获得模块410、目标元素确定模块420、显示特征确定模块430、待显示视频获得模块440以及待显示视频发送模块450，其中：

行为信息获得模块410，用于采集目标对象的视频信息，并对所述视频信息进行识别，获得所述目标对象的行为信息。

目标元素确定模块420，用于从多个预设元素中，确定与所述行为信息对应的预设元素作为目标元素。

进一步地，所述行为信息包括语音信息，所述目标元素确定模块420包括：关键词获得子模块和第一目标元素确定子模块，其中：

关键词获得子模块，用于对所述语音信息进行识别，获得所述语音信息中的关键词。

第一目标元素确定子模块，用于从所述多个预设元素中，确定与所述关键词对应的预设元素作为所述目标元素。

进一步地，所述行为信息包括手势信息，所述目标元素确定模块420包括：第二目标元素确定子模块，其中：

第二目标元素确定子模块，用于从所述多个预设元素中，确定与所述手势信息对应的预设元素作为所述目标元素。

显示特征确定模块430，用于获取所述实时视频对应的视频场景，并基于所述视频场景确定所述目标元素的显示特征。

待显示视频获得模块440，用于基于所述显示特征将所述视频信息和所述目标元素进行合成处理，获得待显示视频。

进一步地，所述视频信息包括第一图像信息和第一音频信息，所述目标元素包括第二图像元素和第二音频元素，所述待显示视频获得模块440包括：待显示图像获得子模块、待输出音频获得子模块以及待显示视频获得子模块，其中：

待显示图像获得子模块，用于基于所述显示特征将所述第一图像信息和所述第二图像信息进行合成处理，获得待显示图像。

待输出音频获得子模块，用于基于预设音量权重比将所述第一音频信息和所述第二音频信息进行混音处理，获得待输出音频。

待显示视频获得子模块，用于基于所述待显示图像和所述待输出音频，获得所述待显示视频。

进一步地，所述显示特征包括显示位置，所述待显示视频获得模块240包括：第一待显示视频获得子模块，其中：

第一待显示视频获得子模块，用于将所述目标元素按所述显示位置与所述视频信息进行合成处理，获得所述待显示视频。

进一步地，所述显示特征包括显示时长，所述待显示视频获得模块440包括：第二待显示视频获得子模块，其中：

第二待显示视频获得子模块，用于在所述显示时长内将所述目标元素和所述视频信息进行合成处理，获得所述待显示视频。

待显示视频发送模块450，用于将所述待显示视频发送至所述接收端，以指示所述接收端显示所述待显示视频。

进一步地，所述视频处理装置400还包括：行为信息获取模块、元素确定模块、第一待显示视频发送模块以及第二待显示视频发送模块，其中：

行为信息获取模块，用于若在所述显示时长内识别到所述目标对象的行为信息发生变化时，获取变化后的行为信息。

元素确定模块，用于从所述多个预设元素中，确定与所述变化后的行为信息对应的预设元素作为变化后的元素。

第一待显示视频发送模块，用于当所述变化后的元素的优先级高于所述目标元素的优先级时，基于所述显示特征将所述视频信息和所述变化后的元素进行合成处理，获得变化后的待显示视频，并将所述变化后的待显示视频发送至所述接收端，以指示所述接收端显示所述变化后的待显示视频。

第二待显示视频发送模块，用于当所述变化后的元素的优先级低于或等于所述目标元素的优先级时，在所述显示时长内将所述目标元素和所述视频信息进行合成处理，获得所述待显示视频，并将所述待显示视频发送至所述接收端，以指示所述接收端显示所述待显示视频。

所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述装置和模块的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

在本申请所提供的几个实施例中，模块相互之间的耦合可以是电性，机械或其它形式的耦合。

另外，在本申请各个实施例中的各功能模块可以集成在一个处理模块中，也可以是各个模块单独物理存在，也可以两个或两个以上模块集成在一个模块中。上述集成的模块既可以采用硬件的形式实现，也可以采用软件功能模块的形式实现。

请参阅图12，其示出了本申请实施例提供的一种电子设备(发送端)100的结构框图。该电子设备100可以是智能手机、平板电脑、电子书等能够运行应用程序的电子设备。本申请中的电子设备100可以包括一个或多个如下部件：处理器110、存储器120以及一个或多个应用程序，其中一个或多个应用程序可以被存储在存储器120中并被配置为由一个或多个处理器110执行，一个或多个程序配置用于执行如前述方法实施例所描述的方法。

其中，处理器110可以包括一个或者多个处理核。处理器110利用各种接口和线路连接整个电子设备100内的各个部分，通过运行或执行存储在存储器120内的指令、程序、代码集或指令集，以及调用存储在存储器120内的数据，执行电子设备100的各种功能和处理数据。可选地，处理器110可以采用数字信号处理(Digital Signal Processing，DSP)、现场可编程门阵列(Field－Programmable Gate Array，FPGA)、可编程逻辑阵列(ProgrammableLogic Array，PLA)中的至少一种硬件形式来实现。处理器110可集成中央处理器(CentralProcessing Unit，CPU)、图形处理器(Graphics Processing Unit，GPU)和调制解调器等中的一种或几种的组合。其中，CPU主要处理操作系统、用户界面和应用程序等；GPU用于负责待显示内容的渲染和绘制；调制解调器用于处理无线通信。可以理解的是，上述调制解调器也可以不集成到处理器110中，单独通过一块通信芯片进行实现。

存储器120可以包括随机存储器(Random Access Memory，RAM)，也可以包括只读存储器(Read-Only Memory)。存储器120可用于存储指令、程序、代码、代码集或指令集。存储器120可包括存储程序区和存储数据区，其中，存储程序区可存储用于实现操作系统的指令、用于实现至少一个功能的指令(比如触控功能、声音播放功能、图像播放功能等)、用于实现下述各个方法实施例的指令等。存储数据区还可以存储电子设备100在使用中所创建的数据(比如电话本、音视频数据、聊天记录数据)等。

请参阅图13，其示出了本申请实施例提供的一种计算机可读存储介质的结构框图。该计算机可读介质500中存储有程序代码，所述程序代码可被处理器调用执行上述方法实施例中所描述的方法。

计算机可读存储介质500可以是诸如闪存、EEPROM(电可擦除可编程只读存储器)、EPROM、硬盘或者ROM之类的电子存储器。可选地，计算机可读存储介质500包括非易失性计算机可读介质(non-transitory computer-readable storage medium)。计算机可读存储介质500具有执行上述方法中的任何方法步骤的程序代码510的存储空间。这些程序代码可以从一个或者多个计算机程序产品中读出或者写入到这一个或者多个计算机程序产品中。程序代码510可以例如以适当形式进行压缩。

综上所述，本申请实施例提供的视频处理方法、装置、电子设备以及存储介质，采集目标对象的视频信息，并对视频信息进行识别，获得目标对象的行为信息，从多个预设元素中，确定与行为信息对应的预设元素作为目标元素，获取实时视频对应的视频场景，并基于视频场景确定目标元素的显示特征，基于显示特征将视频信息和目标元素进行合成处理，获得待显示视频，将待显示视频发送至接收端，以指示接收端显示待显示视频，从而通过目标对象的行为信息确定对应的目标元素，并根据实时视频的视频场景确定目标元素的显示特征，以及以该显示特征将视频信息和目标元素进行合成显示，从而丰富实时视频的形式，提高了用户的体验。

最后应说明的是：以上实施例仅用以说明本申请的技术方案，而非对其限制；尽管参照前述实施例对本申请进行了详细的说明，本领域的普通技术人员当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不驱使相应技术方案的本质脱离本申请各实施例技术方案的精神和范围。

Claims

1.一种视频处理方法，其特征在于，应用于实时视频的发送端，所述发送端用于与所述实时视频的接收端连接，所述方法包括：

采集目标对象的视频信息，并对所述视频信息进行识别，获得所述目标对象的行为信息；

从多个预设元素中，确定与所述行为信息对应的预设元素作为目标元素；

获取所述实时视频对应的视频场景，并基于所述视频场景确定所述目标元素的显示特征；

基于所述显示特征将所述视频信息和所述目标元素进行合成处理，获得待显示视频；

将所述待显示视频发送至所述接收端，以指示所述接收端显示所述待显示视频。

2.根据权利要求1所述的方法，其特征在于，所述显示特征包括显示位置，所述基于所述显示特征将所述视频信息和所述目标元素进行合成处理，获得待显示视频；

将所述目标元素按所述显示位置与所述视频信息进行合成处理，获得所述待显示视频。

3.根据权利要求1所述的方法，其特征在于，所述显示特征包括显示时长，所述基于所述显示特征将所述视频信息和所述目标元素进行合成处理，获得待显示视频，包括：

在所述显示时长内将所述目标元素和所述视频信息进行合成处理，获得所述待显示视频。

4.根据权利要求3所述的方法，其特征在于，所述将所述待显示视频发送至所述接收端，以指示所述接收端显示所述待显示视频之后，还包括：

若在所述显示时长内识别到所述目标对象的行为信息发生变化时，获取变化后的行为信息；

从所述多个预设元素中，确定与所述变化后的行为信息对应的预设元素作为变化后的元素；

当所述变化后的元素的优先级高于所述目标元素的优先级时，基于所述显示特征将所述视频信息和所述变化后的元素进行合成处理，获得变化后的待显示视频，并将所述变化后的待显示视频发送至所述接收端，以指示所述接收端显示所述变化后的待显示视频；

当所述变化后的元素的优先级低于或等于所述目标元素的优先级时，在所述显示时长内将所述目标元素和所述视频信息进行合成处理，获得所述待显示视频，并将所述待显示视频发送至所述接收端，以指示所述接收端显示所述待显示视频。

5.根据权利要求1所述的方法，其特征在于，所述行为信息包括语音信息，所述从多个预设元素中，确定与所述行为信息对应的预设元素作为目标元素，包括：

对所述语音信息进行识别，获得所述语音信息中的关键词；

从所述多个预设元素中，确定与所述关键词对应的预设元素作为所述目标元素。

6.根据权利要求1所述的方法，其特征在于，所述行为信息包括手势信息，所述从多个预设元素中，确定与所述行为信息对应的预设元素作为目标元素，包括：

从所述多个预设元素中，确定与所述手势信息对应的预设元素作为所述目标元素。

7.根据权利要求1-6任一项所述的方法，其特征在于，所述视频信息包括第一图像信息和第一音频信息，所述目标元素包括第二图像元素和第二音频元素，所述基于所述显示特征将所述视频信息和所述目标元素进行合成处理，获得待显示视频，包括：

基于所述显示特征将所述第一图像信息和所述第二图像信息进行合成处理，获得待显示图像；

基于预设音量权重比将所述第一音频信息和所述第二音频信息进行混音处理，获得待输出音频；

基于所述待显示图像和所述待输出音频，获得所述待显示视频。

8.根据权利要求1-6任一项所述的方法，其特征在于，所述实时视频对应的视频场景包括视频教学场景、视频通话场景、视频会议场景以及视频直播场景。

9.一种视频处理装置，其特征在于，应用于实时视频的发送端，所述发送端用于与所述实时视频的接收端连接，所述装置包括：

行为信息获得模块，用于采集目标对象的视频信息，并对所述视频信息进行识别，获得所述目标对象的行为信息；

目标元素确定模块，用于从多个预设元素中，确定与所述行为信息对应的预设元素作为目标元素；

显示特征确定模块，用于获取所述实时视频对应的视频场景，并基于所述视频场景确定所述目标元素的显示特征；

待显示视频获得模块，用于基于所述显示特征将所述视频信息和所述目标元素进行合成处理，获得待显示视频；

待显示视频发送模块，用于将所述待显示视频发送至所述接收端，以指示所述接收端显示所述待显示视频。

10.一种电子设备，其特征在于，包括存储器和处理器，所述存储器耦接到所述处理器，所述存储器存储指令，当所述指令由所述处理器执行时所述处理器执行如权利要求1-8任一项所述的方法。

11.一种计算机可读取存储介质，其特征在于，所述计算机可读取存储介质中存储有程序代码，所述程序代码可被处理器调用执行如权利要求1-8任一项所述的方法。