CN108255304B

CN108255304B - 基于增强现实的视频数据处理方法、装置和存储介质

Info

Publication number: CN108255304B
Application number: CN201810079019.8A
Authority: CN
Inventors: 邬振海
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2018-01-26
Filing date: 2018-01-26
Publication date: 2022-10-04
Anticipated expiration: 2038-01-26
Also published as: CN108255304A

Abstract

本发明实施例公开了一种基于增强现实的视频数据处理方法、装置和存储介质；本发明实施例可以在接收到关于增强现实场景的互动请求时，对用户进行视频数据采集，并根据互动请求获取增强现实场景下的虚拟物品标识和目标对象标识，然后，根据该虚拟物品标识获取虚拟物品，并根据目标对象标识从视频数据中提取目标对象，此后，通过确定该虚拟物品和目标对象之间的当前互动状态，来执行相应的操作内容，以及基于操作内容的执行过程生成互动效果视频；该方案可以提高增强现实场景下，视频数据处理的互动性和灵活性，为用户提供更个性化的视频动态效果。

Description

基于增强现实的视频数据处理方法、装置和存储介质

技术领域

本发明涉及通信技术领域，具体涉及一种基于增强现实的视频数据处理方法、装置和存储介质。

背景技术

随着增强现实(AR，Augmented Reality)技术的发展，越来越多的AR应用也应运而生。所谓增强现实技术，指的是通过电脑技术，将虚拟的信息应用到真实世界，使得真实的环境和虚拟的物体实时地叠加到了同一个画面或空间同时存在的技术。

现有的增强现实应用，比如增强现实相机，一般都会通过直接将真实环境和虚拟物体进行画面叠加，来营造真实环境和虚拟物体位于同一空间的视觉。比如，具体可以采集包含真实环境的图像、以及采集包含虚拟物体的图像，然后，将该包含真实环境的图像和包含虚拟物体的图像直接进行叠加，并将叠加后画面进行显示，等等。

但是，在对现有技术的研究和实践过程中，本发明的发明人发现，现有方案只能将包含真实环境的图像和包含虚拟物体的图像进行简单地叠加，互动性和灵活性均较差，且效果单一。

发明内容

本发明实施例提供一种基于增强现实的视频数据处理方法、装置和存储介质，可以提高增强现实场景下，视频数据处理的互动性和灵活性，为用户提供更个性化的视频动态效果。

本发明实施例提供一种基于增强现实的视频数据处理方法，包括：

在接收到关于增强现实场景的互动请求时，对用户进行视频数据采集；

根据所述互动请求获取增强现实场景下的虚拟物品标识和目标对象标识；

根据所述虚拟物品标识获取虚拟物品，并根据所述目标对象标识从所述视频数据中提取目标对象；

确定所述虚拟物品和目标对象之间的互动状态，得到当前互动状态；

获取当前互动状态对应的操作内容，并执行所述操作内容；

基于所述操作内容的执行过程生成互动效果视频。

本发明实施例还提供一种基于增强现实的视频数据处理装置，包括：

采集单元，用于在接收到关于增强现实场景的互动请求时，对用户进行视频数据采集；

获取单元，用于根据所述互动请求获取增强现实场景下的虚拟物品标识和目标对象标识；

提取单元，用于根据所述虚拟物品标识获取虚拟物品，并根据所述目标对象标识从所述视频数据中提取目标对象；

确定单元，用于确定所述虚拟物品和目标对象之间的互动状态，得到当前互动状态；

执行单元，用于获取当前互动状态对应的操作内容，并执行所述操作内容；

生成单元，用于基于所述操作内容的执行过程生成互动效果视频。

可选的，在一些实施例中，所述提取单元可以包括获取子单元、选取子单元和提取子单元，如下：

所述获取子单元，用于根据所述虚拟物品标识获取虚拟物品，并获取所述目标对象标识对应的特征信息；

所述选取子单元，用于从所述视频数据中选取包含所述特征信息的帧，得到候选帧；

所述提取子单元，用于根据所述特征信息从所述候选帧中提取目标对象。

可选的，在一些实施例中，所述提取子单元，具体用于采用预设的人像分割算法分别对所述候选帧进行分割，得到背景区域和人像区域，根据所述特征信息从所述人像区域中提取目标对象。

可选的，在一些实施例中，所述提取子单元，具体用于将所述候选帧的尺寸按照预设策略进行缩小，采用预设的人像分割算法分别对缩小后的候选帧进行分割，将分割后的候选帧的尺寸恢复为原帧大小，得到背景区域和人像区域。

可选的，在一些实施例中，所述确定单元可以包括叠加子单元和确定子单元，如下：

所述叠加子单元，用于将虚拟物品叠加至所述目标对象所在的帧的背景区域，得到叠加结果；

所述确定子单元，用于根据叠加结果确定所述虚拟物品与目标对象的互动状态，得到当前互动状态。

可选的，在一些实施例中，所述确定子单元，具体用于根据叠加结果确定所述虚拟物品与目标对象之间的位置关系和/或形状关系，根据所述位置关系和/或形状关系确定所述虚拟物品与目标对象的互动状态，得到当前互动状态。

可选的，在一些实施例中，所述确定子单元，具体用于根据叠加结果分别获取虚拟物品的坐标与目标对象的坐标，根据虚拟物品的坐标与目标对象的坐标确定所述虚拟物品与目标对象之间的位置关系；和/或，根据叠加结果分别对虚拟物品的形状和目标对象的形状进行识别，根据虚拟物品的形状和目标对象的形状确定所述虚拟物品与目标对象之间的形状关系。

可选的，在一些实施例中，所述叠加子单元，具体用于对所述目标对象所在的帧的背景区域进行预设滤镜处理，将虚拟物品叠加至滤镜处理后的背景区域中，得到叠加结果。

可选的，在一些实施例中，该装置还可以包括检测单元，如下：

所述检测单元，用于通过摄像进程检测并跟踪用户的手势，并在所述手势符合预设条件时，触发提取单元执行根据所述目标对象标识从所述视频数据中提取目标对象的操作。

可选的，在一些实施例中，所述执行单元，具体用于获取当前互动状态对应的操作内容，所述操作内容包括动效指令和控制指令；若所述控制指令指示继续执行，则在根据动效指令显示相应的动效后，返回执行根据所述目标对象标识从所述视频数据中提取目标对象的操作；若所述控制指令指示结束执行，则在根据动效指令显示相应的动效后，显示预设的结束提示信息。

可选的，在一些实施例中，所述生成单元，具体用于对动效的显示过程进行录制，以生成互动效果视频。

此外，本发明实施例还提供一种存储介质，所述存储介质存储有多条指令，所述指令适于处理器进行加载，以执行本发明实施例提供的任一种基于增强现实的视频数据处理方法中的步骤。

本发明实施例可以在接收到关于增强现实场景的互动请求时，对用户进行视频数据采集，并根据互动请求获取增强现实场景下的虚拟物品标识和目标对象标识，然后，根据该虚拟物品标识获取虚拟物品，并根据目标对象标识从视频数据中提取目标对象，此后，便可以通过确定该虚拟物品和目标对象之间的当前互动状态，来执行相应的操作内容，以及基于操作内容的执行过程生成互动效果视频，以达到在增强现实场景下，虚拟物品与用户互动的动态效果；由于该方案中的互动可以根据实际应用的需求进行灵活设置，且包括多种互动状态和操作内容，因此，相对现有只是在用户原始图像上叠加简单元素的方案而言，可以大大提高增强现实场景下，视频数据处理的互动性和灵活性，此外，由于该方案还可以根据用户的不同反映选择不同的互动状态、以及执行不同的操作内容，因此，相对于现有只能提供单一处理效果的方案而言，该方案还可以为用户提供更个性化的处理效果。

附图说明

为了更清楚地说明本发明实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1a是本发明实施例提供的视频数据处理方法的场景示意图；

图1b是本发明实施例提供的视频数据处理方法的流程示意图；

图2a是本发明实施例提供的视频数据处理方法的另一流程示意图；

图2b是本发明实施例提供的视频数据处理方法中触发用户图像采集的流程示意图；

图2c是本发明实施例提供的视频数据处理方法中触发用户图像采集的场景示意图；

图2d是本发明实施例提供的视频数据处理方法中“猜拳”的场景示意图；

图2e是本发明实施例提供的视频数据处理方法中“躲避便便”的场景示意图；

图3a是本发明实施例提供的视频数据处理装置的结构示意图；

图3b是本发明实施例提供的视频数据处理装置的另一结构示意图；

图4是本发明实施例提供的终端的结构示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

本发明实施例提供一种基于增强现实的视频数据处理方法、装置和存储介质。

其中，该基于增强现实的视频数据处理装置(简称视频数据处理装置)具体可以集成在终端等设备中，该终端可以包括手机、平板电脑、笔记本电脑、和/或穿戴式智能设备等。

例如，以该视频数据处理装置具体集成在终端中为例进行说明。参见图1a，当接收到关于增强现实场景的互动请求时，终端可以对用户进行视频数据采集并根据该互动请求获取增强现实场景下的虚拟物品标识和目标对象标识，然后，根据该虚拟物品标识获取虚拟物品，并根据该目标对象标识从视频数据中提取目标对象；比如，如果该虚拟物品为掉落的石头，则此时用户可以通过移动自己头部，使得该终端所采集的视频图像中的用户头部可以避开该掉落的石头，那么此时目标对象即为视频数据中用户的头部；又比如，如果该虚拟物品为某种手势，比如“剪刀”，则用户可以作出“石头”或“布”等手势，使得该终端所采集的视频图像中用户的手势与该虚拟物品能够形成互动，则此时目标对象即为视频数据中用户的手势，等等。此后，终端可以确定该虚拟物品和目标对象之间的互动状态(即当前互动状态)，并执行该当前互动状态对应的操作内容，以达到在增强现实场景下，虚拟物品与用户互动的动态效果。可选的，还可以基于该操作内容的执行过程生成互动效果视频。

本发明实施例可以提高增强现实场景下，视频数据处理的互动性和灵活性，为用户提供更个性化的视频动态效果。

此外，需说明的是，本发明实施例相对于一般的二维或三维互动场景而言，也具有较大的互动性和灵活性，这是因为，在二维或三维互动方案中，进行互动的均为虚拟元素(二维互动场景为二维的虚拟元素，而三维互动场景则为三维的虚拟元素)，不同虚拟元素之间的互动均取决于控制指令，即只有在接收到控制指令之后，虚拟元素之间才会根据控制指令来进行相应的互动，所以，其所能进行的互动较为被动，且互动内容十分有限，而本发明实施例所提供的方案是基于增强现实场景的，因此，本发明实施例中的互动指的是虚拟物品与现实中的目标对象(比如用户)之间的互动，在该方案中，目标对象的动作并不需要由控制指令来触发，而是主动、随机且不可控的，该目标对象的动作需要视频数据处理装置通过采集视频数据来进行识别，所以，其互动效果相对于二维或三维互动场景而言，可以更加灵活。

以下分别进行详细说明。需说明的是，以下实施例的先后顺序不作为对实施例的优选顺序的限定。

本实施例将从视频数据处理装置的角度进行描述，该视频数据处理装置具体可以集成在终端等设备中，该终端可以包括手机、平板电脑、笔记本电脑、和/或穿戴式智能设备等。

一种基于增强现实的视频数据处理方法，包括：在接收到关于增强现实场景的互动请求时，对用户进行视频数据采集，根据该互动请求获取增强现实场景下的虚拟物品标识和目标对象标识，根据该虚拟物品标识获取虚拟物品，并根据该目标对象标识从该视频数据中提取目标对象，确定该虚拟物品和目标对象之间的互动状态，得到当前互动状态，获取当前互动状态对应的操作内容，并执行该操作内容，基于该操作内容的执行过程生成互动效果视频。

如图1b所示，该基于增强现实的视频数据处理方法的具体流程可以如下：

101、在接收到关于增强现实场景的互动请求时，对用户进行视频数据采集。

其中，该增强现实场景的互动请求可以指示互动类别，比如，如果该互动类别指示“猜拳”，则进入“猜拳”对应的互动界面，并对用户进行视频数据采集；而如果该互动类别指示“躲避石头”，则计入“躲避石头”对应的互动界面，并对用户进行视频数据采集等等。

其中，对用户进行视频数据采集的方式可以有多种，例如，具体可以通过启动本地(即该视频数据处理装置所在设备，比如终端)摄像进程，比如开启终端的前置摄像头来对用户进行视频数据采集，等等。

可选的，在采集视频数据时，可以在终端界面上实时对采集的视频数据进行显示，以便用户可以及时调整自己的状态。

102、根据该互动请求获取增强现实场景下的虚拟物品标识和目标对象标识。

例如，若该增强现实场景的互动请求指示了互动类别，则此时，可以根据该增强现实场景的互动请求获取该互动类别对应的互动规则，从互动规则中获取增强现实场景下的虚拟物品标识和目标对象标识。

比如，如果该互动类别指示“猜拳”，则获取“猜拳”对应的互动规则，从“猜拳”对应的互动规则中获取增强现实场景下的虚拟物品标识和目标对象标识，而如果该互动类别指示“躲避石头”，则获取“躲避石头”对应的互动规则，从“躲避石头”对应的互动规则中获取增强现实场景下的虚拟物品标识和目标对象标识，等等。

其中，该互动规则除了可以包括虚拟物品标识和目标对象标识之外，还可以包括其他的信息，比如虚拟物品和目标对象之间的多种互动状态、以及每种互动状态对应的操作内容等。

虚拟物品标识可以包括虚拟物品的名称和/或编号等信息，比如“石头”、“便便”、“鲜花”或“手”，等等；目标对象标识可以包括目标对象的名称和/或编号等信息，比如用户的“头部”或“手”等；每个虚拟物品可以包括该虚拟物品的多种状态，比如，以“猜拳”为例，则该虚拟物品“手”可以包括：手势为“石头”的状态、手势为“剪刀”的状态、以及手势为“布”的状态；同理，每个目标对象也可以包括该目标对象的多种状态，而虚拟物品和目标对象之间的互动状态则指的是虚拟物品的多种状态与目标对象的多种状态进行两两组合后，每一个组合所对应的状态。比如，以虚拟物品为动漫形式的“手”(简称虚拟手势)，目标对象为所采集的用户的“手”的图像(简称用户手势)，且按照“猜拳”的规则来定义各个状态为例，则该互动状态可以包括：虚拟手势“石头”对应用户手势“石头”、虚拟手势“石头”，对应用户手势“剪刀”、虚拟手势“石头”对应用户手势“布”、以及虚拟手势“剪刀”对应用户手势“石头”，……，等等。

其中，虚拟物品的多个状态、目标对象的多个状态、以及虚拟物品和目标对象之间的互动状态均可以根据实际应用的需求进行设置。

此外，每种互动状态对应的操作内容也可以根据实际应用的需求而定，该操作内容可以包括动效指令和控制指令；动效指令用于指示互动状态和动作效果内容(简称动效)的对应关系，即在哪种互动状态下，可以在用户界面上显示何种动作效果内容；而控制指令则用于指示下一步的执行步骤，比如是“继续执行”还是“结束执行”，若为继续执行，则在根据动效指令显示相应的动效后，执行对用户基于该虚拟物品所作出的动作进行图像采集的步骤，若为“结束执行”，则在根据动效指令显示相应的动效后，显示预设的结束提示信息，等等。

103、根据该虚拟物品标识获取虚拟物品。

例如，具体可以根据该虚拟物品标识，从预设素材库中获取该虚拟物品。

其中，该素材库保存有虚拟物品标识和虚拟物品的映射关系。该素材库可以由运维人员预先进行建立，也可以由该视频数据处理装置进行建立，即在步骤“根据该虚拟物品标识获取虚拟物品”之前，该视频数据处理方法还可以包括：

获取素材库设置请求，该素材库设置请求携带虚拟物品标识，根据该素材库设置请求采集包含虚拟物品的图像，从采集到的图像中提取虚拟物品，建立虚拟物品标识和提取到的虚拟物品之间的映射关系，并将该映射关系保存至素材库中。

104、根据该目标对象标识从该视频数据中提取目标对象。例如，具体可以如下：

(1)获取该目标对象标识对应的特征信息。

比如，若该目标对象标识指示的目标对象为“手”，则该特征信息可以为手形特征点，而若该目标对象标识指示的目标对象为“人脸”，则该特征信息可以为人脸特征点，以此类推。

(2)从该视频数据中选取包含该特征信息的帧，得到候选帧。

比如，若该特征信息为手形特征点，则此时可以根据该手形特征点对视频数据进行筛选，从中选取包含该手形特征点的帧，得到候选帧。

又比如，若该特征信息为人脸特征点，则此时可以根据该人脸特征点对视频数据进行筛选，从中选取包含该人脸特征点的帧，得到候选帧。

(3)根据该特征信息从该候选帧中提取目标对象。

例如，具体可以采用预设的人像分割算法分别对该候选帧进行分割，得到背景区域和人像区域，然后，根据该特征信息从该人像区域中提取目标对象。

比如，根据手形特征点从该人像区域中提取目标对象，或者，根据人脸特征点从该人像区域中提取目标对象，等等。

可选的，为了节约计算资源，提高运算效率，在对候选帧进行分割钱，可以预先对候选帧的尺寸进行缩小，即在步骤“采用预设的人像分割算法分别对该候选帧进行分割，得到背景区域和人像区域”之前，该视频数据处理方法还可以包括：

将该候选帧的尺寸按照预设策略进行缩小。

则此时，步骤“采用预设的人像分割算法分别对该候选帧进行分割，得到背景区域和人像区域”，具体为：采用预设的人像分割算法分别对缩小后的候选帧进行分割，将分割后的候选帧的尺寸恢复为原帧大小，得到背景区域和人像区域。

其中，该预设策略可以根据实际应用的需求而定，在此不再赘述。

可选的，除了可以直接触发从该视频数据中提取目标对象之外，还可以设置在接收到“启动”指令后，才执行该提取目标对象操作。其中，该“启动”指令可以通过多种方式来触发，比如，可以在用户点击“开始”触发键时，触发该“启动”指令，或者，也可以在检测到用户作出某种手势时，触发该“启动”指令，等等。

例如，以在检测到用户作出某种手势时，触发该“启动”指令为例，则在步骤“根据该目标对象标识从该视频数据中提取目标对象”之前，该视频数据的处理方法还可以包括：

通过摄像进程检测并跟踪用户的手势，若该手势符合预设条件，则执行根据该目标对象标识从该视频数据中提取目标对象的步骤。

比如，可以通过调用摄像进程，比如启动终端的摄像头来采集用户的图像，当检测到图像中存在手部特征时，启动实时跟踪算法对该手部特征进行跟踪，并以预设频率对该手部特征进行识别，若手势符合预设条件，比如，若该手势为“ok”状，则执行根据该目标对象标识从该视频数据中提取目标对象的步骤；否则，若手势不符合预设条件，则返回执行通过摄像进程检测并跟踪用户的手势的步骤。

其中，该预设条件可以根据实际应用的需求进行设置，在此不再赘述。

105、确定该虚拟物品和目标对象之间的互动状态，得到当前互动状态；例如，具体可以如下：

(1)将虚拟物品叠加至该目标对象所在的帧的背景区域，得到叠加结果。

例如，以虚拟物品为多个卡通版的“石头”为例，则可以将该多个卡通版的“石头”叠加至该目标对象所在的帧的背景区域，在画面上形成石头掉落的场景。

可选的，为了改善叠加效果，在将虚拟物品叠加至该目标对象所在的帧的背景区域之前，还可以对该目标对象所在的帧的背景区域进行预设滤镜处理，比如将背景区域的颜色调整为“黑色”(人像区域可以调整为“白色”)，或者，将背景区域的透明度调整为“100％”，等等。该预设滤镜处理可以根据实际应用的需求进行设置，在此不再赘述。

若背景区域进行预设滤镜处理，则步骤“将虚拟物品叠加至该目标对象所在的帧的背景区域，得到叠加结果”，具体可以为：将虚拟物品叠加至滤镜处理后的背景区域中，得到叠加结果。

(2)根据叠加结果确定该虚拟物品与目标对象的互动状态，得到当前互动状态。

例如，具体可以根据叠加结果确定该虚拟物品与目标对象之间的位置关系和/或形状关系，根据该位置关系和/或形状关系确定该虚拟物品与目标对象的互动状态，得到当前互动状态。

比如，可以根据叠加结果分别获取虚拟物品的坐标与目标对象的坐标，根据虚拟物品的坐标与目标对象的坐标确定该虚拟物品与目标对象之间的位置关系；和/或，根据叠加结果分别对虚拟物品的形状和目标对象的形状进行识别，根据虚拟物品的形状和目标对象的形状确定该虚拟物品与目标对象之间的形状关系。

其中，该位置关系和形状关系可以根据实际应用的需求而定，比如，可以设置当虚拟物品和目标对象位置不重叠时为“位置关系1”，当虚拟物品和目标对象位置重叠时为“位置关系2”，或者，也可以设置当虚拟物品如虚拟手势为“石头”，且用户手势为“石头”时，对应“形状关系1”，当虚拟物品如虚拟手势为“石头”，且用户手势为“剪刀”时，对应“形状关系2”，以此类推，等等。

在确定了虚拟物品与目标对象之间的位置关系和/或形状关系之后，便可以根据该位置关系和/或形状关系确定该虚拟物品与目标对象的互动状态，比如，如果是“位置关系1”，则对应的互动状态为“互动状态1”，如果是“位置关系2”，则对应的互动状态为“互动状态2”，或者，如果是“形状关系3”，则对应的互动状态为“互动状态3”，如果是“形状关系4”，则对应的互动状态为“互动状态4”，等等，在此不再列举。

106、获取当前互动状态对应的操作内容，并执行该当前互动状态对应的操作内容。例如，具体可以如下：

(1)获取当前互动状态对应的操作内容，该操作内容包括动效指令和控制指令等信息。

(2)若该控制指令指示继续执行，则在根据动效指令显示相应的动效后，返回执行根据该目标对象标识从该视频数据中提取目标对象的步骤。

比如，若“石头”砸到“头部”，则显示“头冒金星”的动效，此外，还可以播放“哎呀”等声效，等等。

(3)若该控制指令指示结束执行，则在根据动效指令显示相应的动效后，显示预设的结束提示信息。

其中，该结束提示信息的具体内容可以根据实际应用的需求进行设置，在此不再赘述。

可选的，还可以基于该操作内容的执行过程生成相应的视频，以便用户进行回看、保存和/或分享，即该基于增强现实的视频数据处理方法还可以包括步骤107，如下：

107、基于该操作内容的执行过程生成视频，为了描述方便，在本发明实施例中，将该视频称为互动效果视频。

比如，具体可以对动效的显示过程进行录制，以生成互动效果视频，等等。

由上可知，本发明实施例可以在接收到关于增强现实场景的互动请求时，对用户进行视频数据采集，并根据互动请求获取增强现实场景下的虚拟物品标识和目标对象标识，然后，根据该虚拟物品标识获取虚拟物品，并根据目标对象标识从视频数据中提取目标对象，此后，便可以通过确定该虚拟物品和目标对象之间的当前互动状态，来执行相应的操作内容，以及基于操作内容的执行过程生成互动效果视频，以达到在增强现实场景下，虚拟物品与用户互动的动态效果；由于该方案中的互动可以根据实际应用的需求进行灵活设置，且包括多种互动状态和操作内容，因此，相对现有只是在用户原始图像上叠加简单元素的方案而言，可以大大提高增强现实场景下，视频数据处理的互动性和灵活性，此外，由于该方案还可以根据用户的不同反映选择不同的互动状态、以及执行不同的操作内容，因此，相对于现有只能提供单一处理效果的方案而言，该方案还可以为用户提供更个性化的处理效果。

根据上一个实施例所描述的方法，以下将举例作进一步详细说明。

在本实施例中，将以该视频数据处理装置具体集成在终端中为例进行说明。

如图2a所示，一种基于增强现实的视频数据处理方法，具体流程可以如下：

201、终端接收到用户触发的增强现实互动请求时，对用户进行视频数据采集。

其中，该增强现实互动请求指示互动类别等信息。该互动类别用于指示互动规则的类型，比如，若该互动类别指示“猜拳”，则表明需要获取的互动规则为“猜拳”对应的互动规则，若该互动类别指示“躲避便便”，则表明需要获取的互动规则为“躲避便便”对应的互动规则，以此类推，等等。该互动类别具体可以根据实际应用的需求进行设置，在此不再赘述。

可选的，用户在触发该增强现实互动请求时，可以根据自身的喜好选择相应的互动类别，比如“猜拳”或“躲避便便”等。

进一步的，每种互动类别下还可以包括多种样式的“虚拟物品”(如动态元素)，因此，用户在选择互动类别时，还可以选定互动类别下的某种特定样式的“虚拟物品”，比如，参见图2d，可以在“躲避便便”的互动界面下方，提供多种虚拟物品，如“石头”或“礼物盒”供用户选择或切换，在此不再赘述。

202、终端根据该增强现实互动请求获取该互动类别对应的互动规则，从互动规则中获取增强现实场景下的虚拟物品标识和目标对象标识。

比如，如果该互动类别指示“猜拳”，则获取“猜拳”对应的互动规则，从“猜拳”对应的互动规则中获取增强现实场景下的虚拟物品标识和目标对象标识，而如果该互动类别指示“躲避便便”，则获取“躲避便便”对应的互动规则，从“躲避石头”对应的互动规则中获取增强现实场景下的虚拟物品标识和目标对象标识，等等。

其中，该互动规则除了可以包括虚拟物品标识和目标对象标识之外，还可以包括其他的信息，比如虚拟物品和目标对象之间的多种互动状态、以及每种互动状态对应的操作内容等信息。

虚拟物品标识可以包括虚拟物品的名称和/或编号等信息，比如“石头”、“便便”、“礼物盒”、“鲜花”或“手”，等等；目标对象标识可以包括目标对象的名称和/或编号等信息，比如用户的“头部”或“手”等；每个虚拟物品可以包括该虚拟物品的多种状态，比如，以“猜拳”为例，则该虚拟物品“手”可以包括：手势为“石头”的状态、手势为“剪刀”的状态、以及手势为“布”的状态；同理，每个目标对象也可以包括该目标对象的多种状态，而虚拟物品和目标对象之间的互动状态则指的是虚拟物品的多种状态与目标对象的多种状态进行两两组合后，每一个组合所对应的状态。

比如，以虚拟物品为虚拟手势，目标对象为用户手势，且按照“猜拳”的规则来定义各个状态为例，则该互动状态可以包括：

状态1：虚拟手势为“石头”，用户手势为“石头”；

状态2：虚拟手势为“石头”，用户手势为“剪刀”；

状态3：虚拟手势为“石头”，用户手势为“布”；

状态4：虚拟手势为“剪刀”，用户手势为“石头”；

状态5：虚拟手势为“剪刀”，用户手势为“剪刀”；

状态6：虚拟手势为“剪刀”，用户手势为“布”；

状态7：虚拟手势为“布”，用户手势为“石头”；

状态8：虚拟手势为“布”，用户手势为“剪刀”；

状态9：虚拟手势为“布”，用户手势为“布”。

又比如，以虚拟物品为“便便”，目标对象为采集的图像中用户的“头部”，且按照“躲避便便”的规则来定义各个状态为例，则该互动状态可以包括：

状态1：“便便”与“头部”不重叠；

状态2：“便便”与“头部”部分重叠；

状态3：“便便”与“头部”全部重叠。

此外，每种互动状态对应的操作内容也可以根据实际应用的需求而定，该操作内容可以包括动效指令和控制指令等信息。

其中，动效指令用于指示互动状态和动作效果内容(简称动效)的对应关系，即在哪种互动状态下，可以在用户界面上显示何种动作效果内容，该动作效果内容可以根据需求进行设置，比如当虚拟手势为“石头”，用户手势为“石头”时，可以显示“平局”字样；当虚拟手势为“剪刀”，用户手势为“石头”时，可以显示“哈哈，你输了”字样；而当虚拟手势为“布”，用户手势为“石头”时，则可以显示“哇～，你赢了”字样，等等。同理，当“便便”与“头部”全部重叠或部分重叠时，可以显示“便便”炸开了的图像效果，并在图像中用户“头部”的旁边，显示“哎呀”字样，而“便便”与“头部”不重叠时，则可以不显示动效，或可以显示相应的表示“安全通过”的声效，等等。

而控制指令则用于指示下一步的执行步骤，比如是“继续执行”还是“结束执行”，若为继续执行，则在根据动效指令显示相应的动效后，执行对用户基于该虚拟物品所作出的动作进行图像采集的步骤，若为“结束执行”，则在根据动效指令显示相应的动效后，显示预设的结束提示信息，等等。

203、终端根据该虚拟物品标识，从预设素材库中获取该虚拟物品。

其中，该素材库保存有虚拟物品标识和虚拟物品的映射关系。该素材库可以由运维人员预先进行建立，也可以由该终端进行建立，即在步骤“终端根据该虚拟物品标识，从预设素材库中获取该虚拟物品”之前，该视频数据处理方法还可以包括：

终端获取素材库设置请求，该素材库设置请求携带虚拟物品标识，根据该素材库设置请求采集包含虚拟物品的图像，从采集到的图像中提取虚拟物品，建立虚拟物品标识和提取到的虚拟物品之间的映射关系，并将该映射关系保存至素材库中。

204、终端获取该目标对象标识对应的特征信息，并从该视频数据中选取包含该特征信息的帧，得到候选帧。

例如，若该目标对象标识指示的目标对象为“手”，则该特征信息可以为手形特征点，而若该目标对象标识指示的目标对象为“人脸”，则该特征信息可以为人脸特征点，以此类推。

比如，以该特征信息为手形特征点，则此时终端可以根据该手形特征点对视频数据进行筛选，从中选取包含该手形特征点的帧，得到候选帧。

又比如，若该特征信息为人脸特征点，则此时终端可以根据该人脸特征点对视频数据进行筛选，从中选取包含该人脸特征点的帧，得到候选帧，以此类推，等等。

205、终端采用预设的人像分割算法分别对该候选帧进行分割，得到背景区域和人像区域，然后，根据该特征信息从该人像区域中提取目标对象。

比如，在得到背景区域和人像区域之后，终端可以根据手形特征点从该人像区域中提取目标对象“用户手势”，或者，根据人脸特征点从该人像区域中提取目标对象“人脸”，等等。

其中，该人像分割算法可以根据实际应用的需求进行设置，比如，具体可以是coreImage(IOS系统的一种图像处理框架)或openCv(一种计算机开源视觉库)边缘检测等算法，或者，也可以通过训练一深度网络模型，来对图像进行分割(即抠图)，以便将人像和背景区域区分开来，在此不作赘述。

可选的，为了节约计算资源，提高运算效率，在对候选帧进行分割钱，终端还可以将该候选帧的尺寸按照预设策略进行缩小，然后，再采用预设的人像分割算法分别对缩小后的候选帧进行分割，并将分割后的候选帧的尺寸恢复为原帧大小，得到背景区域和人像区域。

可选的，除了可以直接触发从该视频数据中提取目标对象(包括步骤204和205)的操作之外，还可以设置在接收到“启动”指令后，才执行该提取目标对象操作。其中，该“启动”指令可以通过多种方式来触发，比如，可以在用户点击预设触发键，如“开始游戏”触发键时，触发该“启动”指令，或者，也可以在检测到用户作出某种手势时，触发该“启动”指令，等等。以下将以在检测到用户作出某种手势时，触发该“启动”指令为例，进行详细说明。

如图2b所示，在对该视频数据中提取目标对象之前，终端可以通过摄像进程检测并跟踪用户的手势，比如，可以通过调用摄像进程，如启动终端的摄像头采集用户的图像，当检测到图像中存在手部特征时，启动实时跟踪算法对该手部特征进行跟踪，并以预设频率对该手部特征进行识别，若手势符合预设条件，比如，参见图2c，若该手势为“OK”状，则执行步骤204和205(为了描述方便，在图2b中称为“互动图像采集”)；否则，若手势不符合预设条件，则返回执行终端通过摄像进程检测并跟踪用户的手势的步骤(如具体可以返回执行检测图像中是否存在手部特征的步骤)。

其中，该预设频率和设条件可以根据实际应用的需求进行设置，在此不再赘述。

可选的，在开始对用户基于该虚拟物品所作出的动作进行图像采集时，还可以生成并显示相应的提示信息，比如，可以显示“互动开始”或“游戏开始”字样，可选的，也可以播放相应的音效，具体可根据实际应用的需求而定，在此不再赘述。

可选的，在互动图像采集的过程中，还可以在终端界面上显示预设的操作提示信息和/或动效，譬如，如图2e所示，可以在互动开始时，显示“请出拳”等操作提示信息，并进行倒计时，在倒计时结束时，才显示出最终的互动结果，其中，互动结果可参见步骤208中的描述，在此不作赘述。

206、终端将虚拟物品叠加至该目标对象所在的帧的背景区域，得到叠加结果。

例如，以虚拟物品为多个卡通版的“便便”为例，则参见图2d，可以将该多个卡通版的“便便”叠加至该目标对象所在的帧的背景区域，在画面上形成便便掉落的场景。

可选的，为了改善叠加效果，在将虚拟物品叠加至该目标对象所在的帧的背景区域之前，还可以对该目标对象所在的帧的背景区域进行预设滤镜处理，比如将背景区域的颜色调整为“黑色”(人像区域可以调整为“白色”)，或者，将背景区域的透明度调整为“100％”，等等，然后，再将虚拟物品叠加至滤镜处理后的背景区域中，得到叠加结果。

其中，该预设滤镜处理可以根据实际应用的需求进行设置，在此不再赘述。

207、终端根据叠加结果确定该虚拟物品与目标对象之间的位置关系和/或形状关系，并根据该位置关系和/或形状关系确定该虚拟物品与目标对象的互动状态，得到当前互动状态。

例如，终端可以根据叠加结果分别获取虚拟物品的坐标与目标对象的坐标，根据虚拟物品的坐标与目标对象的坐标确定该虚拟物品与目标对象之间的位置关系；和/或，终端根据叠加结果分别对虚拟物品的形状和目标对象的形状进行识别，根据虚拟物品的形状和目标对象的形状确定该虚拟物品与目标对象之间的形状关系。

其中，该位置关系和形状关系可以根据实际应用的需求而定，例如，具体可以如下：

(1)位置关系；

以“躲避便便”为例，其中，虚拟物品为“便便”，目标对象为采集的图像中用户的“头部”，则“便便”和“头部”的位置关系可以如下：

位置关系1：“便便”和“头部”位置不重叠；

位置关系2：“便便”和“头部”位置部分重叠；

位置关系1：“便便”和“头部”位置全部重叠。

根据步骤202中的例子可知，“便便”和“头部”位置不重叠时，对应的互动状态为“躲避便便”中的“状态1”，因此，位置关系1对应的互动状态为“躲避便便”场景中的“状态1”，同理可以推出，位置关系2对应的互动状态为“躲避便便”场景中的“状态2”，位置关系3对应的互动状态为“躲避便便”场景中的“状态3”。

也就是说，在确定了“便便”与“头部”之间的位置关系后，便可以根据该位置关系确定该“便便”与“头部”之间的互动状态。比如，如果位置关系为“位置关系1”，则其互动状态为“躲避便便”中的“状态1”；如果位置关系为“位置关系2”，则其互动状态为“躲避便便”中的“状态2”，如果位置关系为“位置关系3”，则其互动状态为“躲避便便”中的“状态3”，等等。

(1)形状关系；

以“猜拳”为例，其中，虚拟物品为“虚拟手势”，目标对象为采集的图像中的“用户手势”，则“虚拟手势”和“用户手势”的形状关系可以如下：

形状关系1：虚拟手势为“石头”，用户手势为“石头”；

形状关系2：虚拟手势为“石头”，用户手势为“剪刀”；

形状关系3：虚拟手势为“石头”，用户手势为“布”；

形状关系4：虚拟手势为“剪刀”，用户手势为“石头”；

形状关系5：虚拟手势为“剪刀”，用户手势为“剪刀”；

形状关系6：虚拟手势为“剪刀”，用户手势为“布”；

形状关系7：虚拟手势为“布”，用户手势为“石头”；

形状关系8：虚拟手势为“布”，用户手势为“剪刀”；

形状关系9：虚拟手势为“布”，用户手势为“布”。

根据步骤202中的例子可知，当虚拟手势为“石头”，用户手势为“石头”时，对应的互动状态为“猜拳”场景中的“状态1”，因此，形状关系1可以对应的互动状态为“猜拳”场景中的“状态1”，以此类推，可以得出，形状关系2对应的互动状态为“猜拳”场景中的“状态2”，形状关系3对应的互动状态为“猜拳”场景中的“状态3”，形状关系4对应的互动状态为“猜拳”场景中的“状态4”，形状关系5对应的互动状态为“猜拳”场景中的“状态5”，形状关系6对应的互动状态为“猜拳”场景中的“状态6”，形状关系7对应的互动状态为“猜拳”场景中的“状态7”，形状关系8对应的互动状态为“猜拳”场景中的“状态8”，形状关系9对应的互动状态为“猜拳”场景中的“状态9”，等等。

也就是说，在确定虚拟手势和用户手势之间的形状关系后，便可以根据该形状关系确定该虚拟手势和用户手势之间的互动状态，比如，如果形状关系为“形状关系1”，则其互动状态为“猜拳”场景中的“状态1”；如果形状关系为“形状关系2”，则其互动状态为“猜拳”场景中的“状态2”；如果形状关系为“形状关系3”，则其互动状态为“猜拳”场景中的“状态3”，如果形状关系为“形状关系4”，则其互动状态为“猜拳”场景中的“状态4”以此类推，等等，在此不再列举。

208、终端获取当前互动状态对应的操作内容，并执行该当前互动状态对应的操作内容。例如，具体可以如下：

终端根据该互动规则获取当前互动状态对应的操作内容，该操作内容包括动效指令和控制指令等信息，若该控制指令指示继续执行，则在根据动效指令显示相应的动效后，返回执行“终端获取该目标对象标识对应的特征信息”的步骤(即步骤204)；若该控制指令指示结束执行，则在根据动效指令显示相应的动效后，显示预设的结束提示信息。

例如，以当前互动状态为“躲避便便”中的“状态3”为例，则终端可以获取“躲避便便”中“状态3”对应的操作内容，包括动效指令和控制指令等，根据该动效指令和控制指令来执行相应的操作。

比如，如果该“状态3”对应的动效指令为：“显示便便炸开了的动效，并在图像中用户‘头部’的旁边显示‘哎呀’字样”，对应的控制指令为“结束执行”，则如图2d所示，终端可以显示“便便炸开了”的动效，并在图像中用户‘头部’的旁边显示‘哎呀！！’字样，然后，显示预设的结束提示信息，比如显示“互动结束”或“游戏结束”等提示信息。

又例如，以当前互动状态为“猜拳”中的“状态4”为例，则终端可以获取“猜拳”中“状态4”对应的操作内容，包括动效指令和控制指令等，根据该动效指令和控制指令来执行相应的操作。

比如，如果该“状态4”对应的动效指令为：“哇～，你赢了”字样，对应的控制指令为“继续执行”，则如图2e所示，终端可以在显示“哇～，你赢了”的动效后，返回执行“终端获取该目标对象标识对应的特征信息”的步骤(即步骤204)。

可选的，在根据动效指令显示相应的动效时，还可以对动效的显示过程进行录制，以便用户进行回看、保存和/或分享，即该基于增强现实的视频数据处理方法还可以包括步骤209，如下：

209、终端对动效的显示过程进行录制，以生成互动效果视频。

由上可知，本发明实施例可以在接收到关于增强现实场景的互动请求时，对用户进行视频数据采集，并根据互动请求获取增强现实场景下的虚拟物品标识和目标对象标识，然后，根据该虚拟物品标识获取虚拟物品，并根据目标对象标识从视频数据中提取目标对象，此后，便可以通过确定该虚拟物品和目标对象之间的当前互动状态，来执行相应的操作内容，以及基于操作内容的执行过程生成互动效果视频，以达到在增强现实场景下，虚拟物品与用户互动的动态效果；由于该方案中的互动规则可以根据实际应用的需求进行灵活设置，且包括多种互动状态和操作内容，因此，相对现有只是在用户原始图像上叠加简单元素的方案而言，可以大大提高增强现实场景下，视频数据处理的互动性和灵活性，此外，由于该方案还可以根据用户的不同反映选择不同的互动状态、以及执行不同的操作内容，因此，相对于现有只能提供单一处理效果的方案而言，该方案还可以为用户提供更个性化的处理效果。

为了更好地实施以上方法，本发明实施例还提供一种基于增强现实的视频数据处理装置，简称视频数据处理装置，该视频数据处理装置具体可以集成在终端等设备中，该终端可以包括手机、平板电脑、笔记本电脑、和/或穿戴式智能设备等。

如图3a所示，该视频数据处理装置可以包括规则采集单元301、获取单元302、提取单元303、确定单元304、执行单元305和生成单元306，如下：

(1)采集单元301；

采集单元301，用于在接收到关于增强现实场景的互动请求时，对用户进行视频数据采集。

其中，对用户进行视频数据采集的方式可以有多种，例如，该采集单元301，具体可以用于通过启动本地(即该视频数据处理装置所在设备，比如终端)摄像进程，比如开启终端的前置摄像头来对用户进行视频数据采集，等等。

可选的，在采集视频数据时，采集单元301还可以在终端界面上实时对采集的视频数据进行显示，以便用户可以及时调整自己的状态。

(2)获取单元302；

获取单元302，用于根据该互动请求获取增强现实场景下的虚拟物品标识和目标对象标识。

例如，若该增强现实场景的互动请求指示了互动类别，则此时，获取单元302可以根据该增强现实场景的互动请求获取该互动类别对应的互动规则，从互动规则中获取增强现实场景下的虚拟物品标识和目标对象标识。

比如，如果该互动类别指示“猜拳”，则获取单元302可以获取“猜拳”对应的动规则，从“猜拳”对应的互动规则中获取增强现实场景下的虚拟物品标识和目标对象标识，而如果该互动类别指示“躲避石头”，则获取单元302可以获取“躲避石头”对应的动规则，从“躲避石头”对应的互动规则中获取增强现实场景下的虚拟物品标识和目标对象标识，等等。

其中，，该互动规则除了可以包括虚拟物品标识和目标对象标识之外，还可以包括其他的信息，比如虚拟物品和目标对象之间的多种互动状态、以及每种互动状态对应的操作内容等信息，具体可参见前面的方法实施例，在此不再赘述。

(3)提取单元303；

提取单元303，用于根据该虚拟物品标识获取虚拟物品，并根据该目标对象标识从所述视频数据中提取目标对象。

例如，该提取单元303可以包括获取子单元、选取子单元和提取子单元，如下：

获取子单元，可以用于根据该虚拟物品标识获取虚拟物品，并获取该目标对象标识对应的特征信息。

选取子单元，可以用于从该视频数据中选取包含该特征信息的帧，得到候选帧。

比如，若该特征信息为手形特征点，则选取子单元可以根据该手形特征点对视频数据进行筛选，从中选取包含该手形特征点的帧，得到候选帧；若该特征信息为人脸特征点，则选取子单元可以根据该人脸特征点对视频数据进行筛选，从中选取包含该人脸特征点的帧，得到候选帧，等等。

提取子单元，可以用于根据该特征信息从该候选帧中提取目标对象。

例如，该提取子单元，具体可以用于采用预设的人像分割算法分别对该候选帧进行分割，得到背景区域和人像区域，根据该特征信息从该人像区域中提取目标对象，等等。

可选的，为了节约计算资源，提高运算效率，在对候选帧进行分割钱，可以预先对候选帧的尺寸进行缩小，即：

该提取子单元，具体可以用于将该候选帧的尺寸按照预设策略进行缩小，采用预设的人像分割算法分别对缩小后的候选帧进行分割，将分割后的候选帧的尺寸恢复为原帧大小，得到背景区域和人像区域。

其中，获取子单元根据虚拟物品标识获取虚拟物品的方式也可以有多种，例如，具体可以根据该虚拟物品标识，从预设素材库中获取该虚拟物品，即：

获取子单元，可以用于根据该虚拟物品标识，从预设素材库中获取该虚拟物品，并获取该目标对象标识对应的特征信息。

其中，该素材库保存有虚拟物品标识和虚拟物品的映射关系。该素材库可以由运维人员预先进行建立，也可以由该视频数据处理装置进行建立，即该视频数据处理装置还可以包括素材库建立单元，如下：

素材库建立单元，可以用于获取素材库设置请求，该素材库设置请求携带虚拟物品标识，根据该素材库设置请求采集包含虚拟物品的图像，从采集到的图像中提取虚拟物品，建立虚拟物品标识和提取到的虚拟物品之间的映射关系，并将该映射关系保存至素材库中。

可选的，除了可以直接触发从该视频数据中提取目标对象操作之外，还可以设置在接收到“启动”指令后，才执行该从该视频数据中提取目标对象操作。其中，该“启动”指令可以通过多种方式来触发，比如，可以在用户点击“开始”触发键时，触发该“启动”指令，或者，也可以在检测到用户作出某种手势时，触发该“启动”指令，等等。即如图3b所示，该视频数据处理装置还可以包括检测单元307，如下：

该检测单元307，可以用于通过摄像进程检测并跟踪用户的手势，并在该手势符合预设条件时，触发提取单元303执行根据该目标对象标识从该视频数据中提取目标对象的操作。

例如，检测单元307可以调用摄像进程，比如启动终端的摄像头来采集用户的图像，当检测到图像中存在手部特征时，启动实时跟踪算法对该手部特征进行跟踪，并以预设频率对该手部特征进行识别，若手势符合预设条件，比如，若该手势为“ok”状，则执行根据该目标对象标识从该视频数据中提取目标对象的操作；否则，若手势不符合预设条件，则返回执行通过摄像进程检测并跟踪用户的手势的操作。

(4)确定单元304；

确定单元304，用于确定该虚拟物品和目标对象之间的互动状态，得到当前互动状态。

例如，该确定单元304可以包括叠加子单元和确定子单元，如下：

该叠加子单元，可以用于将虚拟物品叠加至该目标对象所在的帧的背景区域，得到叠加结果。

该确定子单元，可以用于根据叠加结果确定该虚拟物品与目标对象的互动状态，得到当前互动状态。

比如，该确定子单元，具体可以用于根据叠加结果确定该虚拟物品与目标对象之间的位置关系和/或形状关系，根据该位置关系和/或形状关系确定该虚拟物品与目标对象的互动状态，得到当前互动状态；譬如，具体可以如下：

该确定子单元，具体可以用于根据叠加结果分别获取虚拟物品的坐标与目标对象的坐标，根据虚拟物品的坐标与目标对象的坐标确定该虚拟物品与目标对象之间的位置关系；和/或，根据叠加结果分别对虚拟物品的形状和目标对象的形状进行识别，根据虚拟物品的形状和目标对象的形状确定该虚拟物品与目标对象之间的形状关系。

其中，该位置关系和形状关系可以根据实际应用的需求而定，具体可参见前面的方法实施例，在此不再赘述。

可选的，为了改善叠加效果，在将虚拟物品叠加至该目标对象所在的帧的背景区域之前，还可以对该目标对象所在的帧的背景区域进行预设滤镜处理，比如将背景区域的颜色调整为“黑色”(人像区域可以调整为“白色”)，或者，将背景区域的透明度调整为“100％”，等等，即：

该叠加子单元，具体可以用于对该目标对象所在的帧的背景区域进行预设滤镜处理，将虚拟物品叠加至滤镜处理后的背景区域中，得到叠加结果。

(5)执行单元305；

执行单元305，用于获取当前互动状态对应的操作内容，并执行当前互动状态对应的操作内容。

例如，该执行单元305，具体可以用于获取当前互动状态对应的操作内容，该操作内容包括动效指令和控制指令等信息，若该控制指令指示继续执行，则在根据动效指令显示相应的动效后，返回执行根据该目标对象标识从该视频数据中提取目标对象的操作；若该控制指令指示结束执行，则在根据动效指令显示相应的动效后，显示预设的结束提示信息。

(6)生成单元306；

该生成单元306，可以用于基于该操作内容的执行过程生成互动效果视频。

例如，该生成单元306，具体可以用于对动效的显示过程进行录制，以生成互动效果视频。

具体实施时，以上各个单元可以作为独立的实体来实现，也可以进行任意组合，作为同一或若干个实体来实现，以上各个单元的具体实施可参见前面的方法实施例，在此不再赘述。

由上可知，本发明实施例的视频数据处理装置可以在接收到关于增强现实场景的互动请求时，由采集单元301对用户进行视频数据采集，并由获取单元302根据互动请求获取增强现实场景下的虚拟物品标识和目标对象标识，然后，由提取单元303根据该虚拟物品标识获取虚拟物品，并根据目标对象标识从视频数据中提取目标对象，此后，便可以由确定单元304和执行单元305通过确定该虚拟物品和目标对象之间的当前互动状态，来执行相应的操作内容，以及由生成单元306基于操作内容的执行过程生成互动效果视频，以达到在增强现实场景下，虚拟物品与用户互动的动态效果；由于该方案中的互动规则可以根据实际应用的需求进行灵活设置，且包括多种互动状态和操作内容，因此，相对现有只是在用户原始图像上叠加简单元素的方案而言，可以大大提高增强现实场景下，视频数据处理的互动性和灵活性，此外，由于该方案还可以根据用户的不同反映选择不同的互动状态、以及执行不同的操作内容，因此，相对于现有只能提供单一处理效果的方案而言，该方案还可以为用户提供更个性化的处理效果。

相应的，本发明实施例还提供一种终端，如图4所示，该终端可以包括射频(RF，Radio Frequency)电路401、包括有一个或一个以上计算机可读存储介质的存储器402、输入单元403、显示单元404、传感器405、音频电路406、无线保真(WiFi，Wireless Fidelity)模块407、包括有一个或者一个以上处理核心的处理器408、以及电源409等部件。本领域技术人员可以理解，图4中示出的终端结构并不构成对终端的限定，可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件布置。其中：

RF电路401可用于收发信息或通话过程中，信号的接收和发送，特别地，将基站的下行信息接收后，交由一个或者一个以上处理器408处理；另外，将涉及上行的数据发送给基站。通常，RF电路401包括但不限于天线、至少一个放大器、调谐器、一个或多个振荡器、用户身份模块(SIM，Subscriber Identity Module)卡、收发信机、耦合器、低噪声放大器(LNA，Low Noise Amplifier)、双工器等。此外，RF电路401还可以通过无线通信与网络和其他设备通信。所述无线通信可以使用任一通信标准或协议，包括但不限于全球移动通讯系统(GSM，Global System of Mobile communication)、通用分组无线服务(GPRS，GeneralPacket Radio Service)、码分多址(CDMA，Code Division Multiple Access)、宽带码分多址(WCDMA，Wideband Code Division Multiple Access)、长期演进(LTE，Long TermEvolution)、电子邮件、短消息服务(SMS，Short Messaging Service)等。

存储器402可用于存储软件程序以及模块，处理器408通过运行存储在存储器402的软件程序以及模块，从而执行各种功能应用以及数据处理。存储器402可主要包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需的应用程序(比如声音播放功能、图像播放功能等)等；存储数据区可存储根据终端的使用所创建的数据(比如音频数据、电话本等)等。此外，存储器402可以包括高速随机存取存储器，还可以包括非易失性存储器，例如至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。相应地，存储器402还可以包括存储器控制器，以提供处理器408和输入单元403对存储器402的访问。

输入单元403可用于接收输入的数字或字符信息，以及产生与用户设置以及功能控制有关的键盘、鼠标、操作杆、光学或者轨迹球信号输入。具体地，在一个具体的实施例中，输入单元403可包括触敏表面以及其他输入设备。触敏表面，也称为触摸显示屏或者触控板，可收集用户在其上或附近的触摸操作(比如用户使用手指、触笔等任何适合的物体或附件在触敏表面上或在触敏表面附近的操作)，并根据预先设定的程式驱动相应的连接装置。可选的，触敏表面可包括触摸检测装置和触摸控制器两个部分。其中，触摸检测装置检测用户的触摸方位，并检测触摸操作带来的信号，将信号传送给触摸控制器；触摸控制器从触摸检测装置上接收触摸信息，并将它转换成触点坐标，再送给处理器408，并能接收处理器408发来的命令并加以执行。此外，可以采用电阻式、电容式、红外线以及表面声波等多种类型实现触敏表面。除了触敏表面，输入单元403还可以包括其他输入设备。具体地，其他输入设备可以包括但不限于物理键盘、功能键(比如音量控制按键、开关按键等)、轨迹球、鼠标、操作杆等中的一种或多种。

显示单元404可用于显示由用户输入的信息或提供给用户的信息以及终端的各种图形用户接口，这些图形用户接口可以由图形、文本、图标、视频和其任意组合来构成。显示单元404可包括显示面板，可选的，可以采用液晶显示器(LCD，Liquid Crystal Display)、有机发光二极管(OLED，Organic Light-Emitting Diode)等形式来配置显示面板。进一步的，触敏表面可覆盖显示面板，当触敏表面检测到在其上或附近的触摸操作后，传送给处理器408以确定触摸事件的类型，随后处理器408根据触摸事件的类型在显示面板上提供相应的视觉输出。虽然在图4中，触敏表面与显示面板是作为两个独立的部件来实现输入和输入功能，但是在某些实施例中，可以将触敏表面与显示面板集成而实现输入和输出功能。

终端还可包括至少一种传感器405，比如光传感器、运动传感器以及其他传感器。具体地，光传感器可包括环境光传感器及接近传感器，其中，环境光传感器可根据环境光线的明暗来调节显示面板的亮度，接近传感器可在终端移动到耳边时，关闭显示面板和/或背光。作为运动传感器的一种，重力加速度传感器可检测各个方向上(一般为三轴)加速度的大小，静止时可检测出重力的大小及方向，可用于识别手机姿态的应用(比如横竖屏切换、相关游戏、磁力计姿态校准)、振动识别相关功能(比如计步器、敲击)等；至于终端还可配置的陀螺仪、气压计、湿度计、温度计、红外线传感器等其他传感器，在此不再赘述。

音频电路406、扬声器，传声器可提供用户与终端之间的音频接口。音频电路406可将接收到的音频数据转换后的电信号，传输到扬声器，由扬声器转换为声音信号输出；另一方面，传声器将收集的声音信号转换为电信号，由音频电路406接收后转换为音频数据，再将音频数据输出处理器408处理后，经RF电路401以发送给比如另一终端，或者将音频数据输出至存储器402以便进一步处理。音频电路406还可能包括耳塞插孔，以提供外设耳机与终端的通信。

WiFi属于短距离无线传输技术，终端通过WiFi模块407可以帮助用户收发电子邮件、浏览网页和访问流式媒体等，它为用户提供了无线的宽带互联网访问。虽然图4示出了WiFi模块407，但是可以理解的是，其并不属于终端的必须构成，完全可以根据需要在不改变发明的本质的范围内而省略。

处理器408是终端的控制中心，利用各种接口和线路连接整个手机的各个部分，通过运行或执行存储在存储器402内的软件程序和/或模块，以及调用存储在存储器402内的数据，执行终端的各种功能和处理数据，从而对手机进行整体监控。可选的，处理器408可包括一个或多个处理核心；优选的，处理器408可集成应用处理器和调制解调处理器，其中，应用处理器主要处理操作系统、用户界面和应用程序等，调制解调处理器主要处理无线通信。可以理解的是，上述调制解调处理器也可以不集成到处理器408中。

终端还包括给各个部件供电的电源409(比如电池)，优选的，电源可以通过电源管理系统与处理器408逻辑相连，从而通过电源管理系统实现管理充电、放电、以及功耗管理等功能。电源409还可以包括一个或一个以上的直流或交流电源、再充电系统、电源故障检测电路、电源转换器或者逆变器、电源状态指示器等任意组件。

尽管未示出，终端还可以包括摄像头、蓝牙模块等，在此不再赘述。具体在本实施例中，终端中的处理器408会按照如下的指令，将一个或一个以上的应用程序的进程对应的可执行文件加载到存储器402中，并由处理器408来运行存储在存储器402中的应用程序，从而实现各种功能：

在接收到关于增强现实场景的互动请求时，对用户进行视频数据采集，根据该互动请求获取增强现实场景下的虚拟物品标识和目标对象标识，根据该虚拟物品标识获取虚拟物品，并根据该目标对象标识从该视频数据中提取目标对象，确定该虚拟物品和目标对象之间的互动状态，得到当前互动状态，获取当前互动状态对应的操作内容，并执行该操作内容，基于该操作内容的执行过程生成互动效果视频。

其中，每个虚拟物品可以包括该虚拟物品的多种状态，每个目标对象也可以包括该目标对象的多种状态；虚拟物品的多个状态、目标对象的多个状态、以及虚拟物品和目标对象之间的互动状态均可以根据实际应用的需求进行设置。

此外，每种互动状态对应的操作内容也可以根据实际应用的需求而定，该操作内容可以包括动效指令和控制指令；动效指令用于指示互动状态和动作效果内容(简称动效)的对应关系；而控制指令则用于指示下一步的执行步骤，比如是“继续执行”还是“结束执行”，若为继续执行，则在根据动效指令显示相应的动效后，执行根据该目标对象标识从该视频数据中提取目标对象的步骤，若为“结束执行”，则在根据动效指令显示相应的动效后，显示预设的结束提示信息，等等。

可选的，除了可以直接触发从视频数据中提取目标对象操作之外，还可以设置在接收到“启动”指令后，才执行该从视频数据中提取目标对象操作，即处理器408还可以运行存储在存储器402中的应用程序，从而实现以下功能：

通过摄像进程检测并跟踪用户的手势，若该手势符合预设条件，则执行根据该目标对象标识从该视频数据中提取目标对象的操作。

以上各个操作的具体实施可参见前面的实施例，在此不再赘述。

由上可知，本发明实施例的终端可以获取增强现实场景的互动规则，比如虚拟物品标识、目标对象标识、虚拟物品和目标对象之间的多种互动状态、以及每种互动状态对应的操作内容等，然后，根据该虚拟物品标识获取虚拟物品，并对用户基于该虚拟物品所作出的动作进行图像采集，以提取目标对象，此后，便可以通过确定该虚拟物品和目标对象之间的当前互动状态，来执行相应的操作内容，以达到在增强现实场景下，虚拟物品与用户互动的动态效果；由于该方案中的互动规则可以根据实际应用的需求进行灵活设置，且包括多种互动状态和操作内容，因此，相对现有只是在用户原始图像上叠加简单元素的方案而言，可以大大提高增强现实场景下，视频数据处理的互动性和灵活性，此外，由于该方案还可以根据用户的不同反映选择不同的互动状态、以及执行不同的操作内容，因此，相对于现有只能提供单一处理效果的方案而言，该方案还可以为用户提供更个性化的处理效果。

本领域普通技术人员可以理解，上述实施例的各种方法中的全部或部分步骤可以通过指令来完成，或通过指令控制相关的硬件来完成，该指令可以存储于一计算机可读存储介质中，并由处理器进行加载和执行。

为此，本发明实施例提供一种存储介质，其中存储有多条指令，该指令能够被处理器进行加载，以执行本发明实施例所提供的任一种虚拟资源的转移方法中的步骤。例如，该指令可以执行如下步骤：

其中，每个虚拟物品可以包括该虚拟物品的多种状态，每个目标对象也可以包括该目标对象的多种状态；虚拟物品的多个状态、目标对象的多个状态、虚拟物品和目标对象之间的互动状态、以及每种互动状态对应的操作内容均可以根据实际应用的需求进行设置，详见前面的实施例，在此不再赘述。

可选的，除了可以直接触发从视频数据中提取目标对象之外，还可以设置在接收到“启动”指令后，才执行该从视频数据中提取目标对象操作，即该指令还可以执行如下步骤：

其中，该存储介质可以包括：只读存储器(ROM，Read Only Memory)、随机存取记忆体(RAM，Random Access Memory)、磁盘或光盘等。

由于该存储介质中所存储的指令，可以执行本发明实施例所提供的任一种基于增强现实的视频数据处理方法中的步骤，因此，可以实现本发明实施例所提供的任一种基于增强现实的视频数据处理方法所能实现的有益效果，详见前面的实施例，在此不再赘述。

以上对本发明实施例所提供的一种基于增强现实的视频数据处理方法、装置和存储介质进行了详细介绍，本文中应用了具体个例对本发明的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本发明的方法及其核心思想；同时，对于本领域的技术人员，依据本发明的思想，在具体实施方式及应用范围上均会有改变之处，综上所述，本说明书内容不应理解为对本发明的限制。

Claims

1.一种基于增强现实的视频数据处理方法，其特征在于，包括：

根据所述虚拟物品标识获取虚拟物品，并通过摄像进程检测并跟踪用户的手势作为启动指令；若所述手势符合预设条件，根据所述目标对象标识从所述视频数据中提取目标对象；

获取当前互动状态对应的操作内容，并执行所述操作内容；

基于所述操作内容的执行过程生成互动效果视频；

其中所述获取当前互动状态对应的操作内容，并执行所述操作内容，包括：

获取当前互动状态对应的操作内容，所述操作内容包括动效指令和控制指令；其中动效指令用于指示互动状态和动作效果内容的对应关系；控制指令用于指示下一步的执行步骤；

若所述控制指令指示继续执行，则在根据动效指令显示相应的动效后，返回执行根据所述目标对象标识从所述视频数据中提取目标对象的操作，并执行对用户基于虚拟物品所作出的动作进行图像采集；

若所述控制指令指示结束执行，则在根据动效指令显示相应的动效后，显示预设的结束提示信息。

2.根据权利要求1所述的方法，其特征在于，所述根据所述目标对象标识从所述视频数据中提取目标对象，包括：

获取所述目标对象标识对应的特征信息；

从所述视频数据中选取包含所述特征信息的帧，得到候选帧；

根据所述特征信息从所述候选帧中提取目标对象。

3.根据权利要求2所述的方法，其特征在于，所述根据所述特征信息从所述候选帧中提取目标对象，包括：

采用预设的人像分割算法分别对所述候选帧进行分割，得到背景区域和人像区域；

根据所述特征信息从所述人像区域中提取目标对象。

4.根据权利要求3所述的方法，其特征在于，所述采用预设的人像分割算法分别对所述候选帧进行分割，得到背景区域和人像区域之前，还包括：

将所述候选帧的尺寸按照预设策略进行缩小；

所述采用预设的人像分割算法分别对所述候选帧进行分割，得到背景区域和人像区域，具体为：采用预设的人像分割算法分别对缩小后的候选帧进行分割，将分割后的候选帧的尺寸恢复为原帧大小，得到背景区域和人像区域。

5.根据权利要求3或4所述的方法，其特征在于，所述确定所述虚拟物品和目标对象之间的互动状态，得到当前互动状态，包括：

将虚拟物品叠加至所述目标对象所在的帧的背景区域，得到叠加结果；

根据叠加结果确定所述虚拟物品与目标对象的互动状态，得到当前互动状态。

6.根据权利要求5所述的方法，其特征在于，所述根据叠加结果确定所述虚拟物品与目标对象的互动状态，得到当前互动状态，包括：

根据叠加结果确定所述虚拟物品与目标对象之间的位置关系和/或形状关系；

根据所述位置关系和/或形状关系确定所述虚拟物品与目标对象的互动状态，得到当前互动状态。

7.根据权利要求6所述的方法，其特征在于，所述根据叠加结果确定所述虚拟物品与目标对象之间的位置关系和/或形状关系，包括：

根据叠加结果分别获取虚拟物品的坐标与目标对象的坐标，根据虚拟物品的坐标与目标对象的坐标确定所述虚拟物品与目标对象之间的位置关系；和/或，

根据叠加结果分别对虚拟物品的形状和目标对象的形状进行识别，根据虚拟物品的形状和目标对象的形状确定所述虚拟物品与目标对象之间的形状关系。

8.根据权利要求5所述的方法，其特征在于，所述将虚拟物品叠加至所述目标对象所在的帧的背景区域之前，还包括：

对所述目标对象所在的帧的背景区域进行预设滤镜处理；

所述将虚拟物品叠加至所述目标对象所在的帧的背景区域，得到叠加结果具体为：将虚拟物品叠加至滤镜处理后的背景区域中，得到叠加结果。

9.根据权利要求1至4任一项所述的方法，其特征在于，所述根据所述目标对象标识从所述视频数据中提取目标对象之前，还包括：

通过摄像进程检测并跟踪用户的手势；

若所述手势符合预设条件，则执行根据所述目标对象标识从所述视频数据中提取目标对象的步骤。

10.根据权利要求1所述的方法，其特征在于，所述基于所述操作内容的执行过程生成互动效果视频，包括：

对动效的显示过程进行录制，以生成互动效果视频。

11.一种基于增强现实的视频数据处理装置，其特征在于，包括：

提取单元，用于根据所述虚拟物品标识获取虚拟物品，并通过摄像进程检测并跟踪用户的手势作为启动指令；若所述手势符合预设条件，根据所述目标对象标识从所述视频数据中提取目标对象；

生成单元，用于基于所述操作内容的执行过程生成互动效果视频；

所述执行单元具体用于：

12.根据权利要求11所述的装置，其特征在于，所述提取单元包括第一获取子单元、选取子单元和提取子单元；

13.根据权利要求12所述的装置，其特征在于，

所述提取子单元，具体用于采用预设的人像分割算法分别对所述候选帧进行分割，得到背景区域和人像区域，根据所述特征信息从所述人像区域中提取目标对象。

14.根据权利要求13所述的装置，其特征在于，所述确定单元包括叠加子单元和确定子单元；

15.根据权利要求14所述的装置，其特征在于，

所述确定子单元，具体用于根据叠加结果确定所述虚拟物品与目标对象之间的位置关系和/或形状关系，根据所述位置关系和/或形状关系确定所述虚拟物品与目标对象的互动状态，得到当前互动状态。

16.根据权利要求11至15任一项所述的装置，其特征在于，还包括检测单元；

17.一种存储介质，其特征在于，所述存储介质存储有多条指令，所述指令适于处理器进行加载，以执行权利要求1至10任一项所述的基于增强现实的视频数据处理方法中的步骤。