CN112132017A

CN112132017A - 图像处理方法、装置及电子设备

Info

Publication number: CN112132017A
Application number: CN202011003274.8A
Authority: CN
Inventors: 张波; 王雷
Original assignee: Guangzhou Huaduo Network Technology Co Ltd
Current assignee: Guangzhou Cubesili Information Technology Co Ltd
Priority date: 2020-09-22
Filing date: 2020-09-22
Publication date: 2020-12-25
Anticipated expiration: 2040-09-22
Also published as: CN112132017B

Abstract

本申请公开一种图像处理方法、装置、电子设备以及存储介质，通过获取包括人手姿势的视频帧样本图像，获取与视频帧样本图像对应的对偶样本图像，将视频帧样本图像以及对偶样本图像分别输入预设手势跟踪模型，输出得到与视频帧样本图像对应的第一跟踪位置坐标以及与对偶样本图像对应的第二跟踪位置坐标，对第一跟踪位置坐标进行仿射变换，得到与视频帧样本图像对应的第三跟踪位置坐标，基于第二跟踪位置坐标以及第三跟踪位置坐标获取目标损失函数，将目标损失函数收敛时的预设手势跟踪模型作为目标手势跟踪模型。本方法提升了目标手势跟踪模型对人手姿势的跟踪位置进行预测的准确性。

Description

图像处理方法、装置及电子设备

技术领域

本申请涉及图像处理技术领域，更具体地，涉及一种图像处理方法、装置、电子设备以及存储介质。

背景技术

短视频即短片视频，是一种互联网内容传播方式，一般是在互联网新媒体上传播的时长在5分钟以内的视频；随着移动终端普及和网络的提速，短平快的大流量传播内容逐渐获得各大平台、粉丝和资本的青睐。为了提升短视频的趣味性，可以在短视频拍摄的过程中添加特效，例如通过手势控制的特效。作为一种方式，为了确保用户可以通过手势准确操控特效，在拍摄的过程中需要对用户的手势及其变化进行跟踪。然而，用户的手势可能会发生抖动，使得跟踪得到的跟踪框位置缺乏时序上的稳定性，从而影响特效的效果。

发明内容

鉴于上述问题，本申请提出了一种图像处理方法、装置、电子设备及存储介质，以改善上述问题。

第一方面，本申请实施例提供了一种图像处理方法，应用于电子设备，该方法包括：获取包括人手姿势的视频帧样本图像；获取与所述视频帧样本图像对应的对偶样本图像；将所述视频帧样本图像以及所述对偶样本图像分别输入预设手势跟踪模型，获取所述预设手势跟踪模型输出的与所述视频帧样本图像对应的第一跟踪位置坐标以及与所述对偶样本图像对应的第二跟踪位置坐标；对所述第一跟踪位置坐标进行仿射变换，得到与所述视频帧样本图像对应的第三跟踪位置坐标；基于所述第二跟踪位置坐标以及所述第三跟踪位置坐标获取目标损失函数；将所述目标损失函数收敛时的所述预设手势跟踪模型作为目标手势跟踪模型。

第二方面，本申请实施例提供了一种图像处理方法，应用于电子设备，该方法包括：基于目标人手跟踪区域确定待处理视频数据的手势图像区域；获取所述手势图像区域对应的感知哈希数值；将所述感知哈希数值和与所述目标人手跟踪区域对应的目标感知哈希数值进行比较，以获取所述待处理视频数据和与所述目标人手跟踪区域对应的视频数据的内容相似度；若所述内容相似度小于预设阈值，基于如上述第一方面所述的目标手势跟踪模型获取与所述待处理视频数据对应的手势跟踪位置。

第三方面，本申请实施例提供了一种图像处理装置，运行于电子设备，该装置包括：第一获取模块，用于获取包括人手姿势的视频帧样本图像；第二获取模块，用于获取与所述视频帧样本图像对应的对偶样本图像；预测模块，用于将所述视频帧样本图像以及所述对偶样本图像分别输入预设手势跟踪模型，输出得到与所述视频帧样本图像对应的第一跟踪位置坐标以及与所述对偶样本图像对应的第二跟踪位置坐标；第三获取模块，用于对所述第一跟踪位置坐标进行仿射变换，得到与所述视频帧样本图像对应的第三跟踪位置坐标；第四获取模块，用于基于所述第二跟踪位置坐标以及所述第三跟踪位置坐标获取目标损失函数；处理模块，用于将所述目标损失函数收敛时的所述预设手势跟踪模型作为目标手势跟踪模型。

第四方面，本申请实施例提供了一种图像处理装置，运行于电子设备，该装置包括：确定单元，用于基于目标人手跟踪区域确定待处理视频数据的手势图像区域；获取单元，用于获取所述手势图像区域对应的感知哈希数值；比较单元，用于将所述感知哈希数值和与所述目标人手跟踪区域对应的目标感知哈希数值进行比较，以获取所述待处理视频数据和与所述目标人手跟踪区域对应的视频数据的内容相似度；处理单元，用于若所述内容相似度小于预设阈值，基于上述第一方面所述的方法中所述的目标手势跟踪模型获取与所述待处理视频数据对应的手势跟踪位置。

第五方面，本申请实施例提供了一种电子设备，包括存储器以及一个或多个处理器；一个或多个程序被存储在存储器中并被配置为由一个或多个处理器执行，一个或多个程序配置用于执行上述第一方面或第二方面所述的方法。

第六方面，本申请实施例提供了一种计算机可读存储介质，计算机可读存储介质中存储有程序代码，其中，在程序代码被处理器运行时执行上述第一方面或第二方面所述的方法。

本申请实施例提供的一种图像处理方法、装置、电子设备以及存储介质，通过获取包括人手姿势的视频帧样本图像，继而获取与视频帧样本图像对应的对偶样本图像，再将视频帧样本图像以及对偶样本图像分别输入预设手势跟踪模型，输出得到与视频帧样本图像对应的第一跟踪位置坐标以及与对偶样本图像对应的第二跟踪位置坐标，再对第一跟踪位置坐标进行仿射变换，得到与视频帧样本图像对应的第三跟踪位置坐标，然后基于第二跟踪位置坐标以及第三跟踪位置坐标获取目标损失函数，最后将目标损失函数收敛时的预设手势跟踪模型作为目标手势跟踪模型。从而通过上述方式实现了可以将包括有人手姿势的视频帧样本图像以及与视频帧样本图像对应的对偶样本图像分别输入预设手势跟踪模型，输出得到与视频帧样本图像对应的第一跟踪位置坐标以及与对偶样本图像对应的第二跟踪位置坐标，继而可以对第一跟踪位置坐标进行仿射变换，得到与视频帧样本图像对应的第三跟踪位置坐标，然后基于第二跟踪位置坐标以及第三跟踪位置坐标获取目标损失函数，使得可以将目标损失函数收敛时的预设手势跟踪模型作为目标手势跟踪模型，从而可以基于目标手势跟踪模型对人手姿势的跟踪位置进行更准确的预测，进而可以提升通过手势控制特效的准确性，提升特效的整体显示效果。

附图说明

为了更清楚地说明本申请实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其它的附图。

图1示出了本申请实施例提供的一种应用环境示意图。

图2示出了本申请一实施例提供的一种图像处理方法的方法流程图。

图3示出了本申请另一实施例提供的一种图像处理方法的方法流程图。

图4示出了本申请一实施例提供的一种图像处理方法的方法流程图。

图5示出了本申请另一实施例提供的一种图像处理方法的方法流程图。

图6示出了本申请一实施例提供的一种图像处理装置的结构框图。

图7示出了本申请一实施例提供的一种图像处理装置的结构框图。

图8示出了本申请实施例提供的一种电子设备的结构框图。

图9示出了本申请实施例的用于保存或者携带实现根据本申请实施例的图像处理方法的程序代码的存储单元。

具体实施方式

为了使本技术领域的人员更好地理解本申请方案，下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述。

近年来，随着网络技术的迅猛发展，网络直播备受用户青睐。用户可以通过拍摄短视频发布到网络直播平台而分享自己的生活、工作以及旅行趣事等，为了提升用户直播的积极性，可以有多种智能的拍摄特效供用户选择，例如用户可以添加通过手势控制的特效进行短视频拍摄，实现了增加拍摄过程中的互动，从而提升了用户使用体验。

然而，当连续视频帧手势前景或背景发生轻微的变化，包括平移、尺度、旋转或光照等变化，以及没有发生任何变化时，连续视频帧通过手势跟踪模型输出得到的矩形框位置区域会发生明显抖动，缺乏时序上的稳定性和一致性，从而影响特效的效果。并且现有手势跟踪方案关于如何消除连续视频帧之间手势跟踪框的抖动问题，缺乏比较鲁棒的系统性方法。

针对上述的问题，发明人经过长期的研究发现，可以通过获取包括人手姿势的视频帧样本图像，继而获取与视频帧样本图像对应的对偶样本图像，再将视频帧样本图像以及对偶样本图像分别输入预设手势跟踪模型，输出得到与视频帧样本图像对应的第一跟踪位置坐标以及与对偶样本图像对应的第二跟踪位置坐标，再对第一跟踪位置坐标进行仿射变换，得到与视频帧样本图像对应的第三跟踪位置坐标，然后基于第二跟踪位置坐标以及第三跟踪位置坐标获取目标损失函数，最后将目标损失函数收敛时的预设手势跟踪模型作为目标手势跟踪模型。从而通过上述方式实现了可以将包括有人手姿势的视频帧样本图像以及与视频帧样本图像对应的对偶样本图像分别输入预设手势跟踪模型，输出得到与视频帧样本图像对应的第一跟踪位置坐标以及与对偶样本图像对应的第二跟踪位置坐标，继而可以对第一跟踪位置坐标进行仿射变换，得到与视频帧样本图像对应的第三跟踪位置坐标，然后基于第二跟踪位置坐标以及第三跟踪位置坐标获取目标损失函数，使得可以将目标损失函数收敛时的预设手势跟踪模型作为目标手势跟踪模型，从而可以基于目标手势跟踪模型对人手姿势的跟踪位置进行更准确的预测，进而可以提升通过手势控制特效的准确性，提升特效的整体显示效果。因此，提出了本申请实施例提供的一种图像处理方法、装置、电子设备以及存储介质。

为了便于详细说明本申请方案，下面先结合附图对本申请实施例中的一种应用环境进行介绍。

请参阅图1，为本申请实施例提供的一种图像处理方法的应用环境示意图，如图1所示，该应用环境可以理解为本申请实施例的提供的一种网络系统10，该网络系统10包括：用户终端11以及服务器12，可选的，用户终端11可以是任何具备通信和存储功能的设备，包括但不限于PC(Personal Computer，个人计算机)、PDA(平板电脑)、智能电视、智能手机、智能可穿戴设备或其他具有网络连接功能的智能通信设备，服务器12可以是一台服务器(网络接入服务器)，也可以是由若干台服务器组成的服务器集群(云服务器)，或者可以是一个云计算中心(数据库服务器)。

本实施例中，用户终端11可以用于录制或拍摄短视频，并对视频录制或拍摄过程中的用户人手或者人脸进行跟踪，为了提升对与用户人手或者人脸对应的跟踪位置的计算速率，用户终端11可以将跟踪结果通过网络发送至服务器12进行存储，以便于可以减少对用户终端11的存储空间的占用，进而提升对目标物的跟踪位置的计算速度，使得可以在计算性能较弱的设备中实施本申请的图像处理方法。

下面将结合附图具体描述本申请的各实施例。

请参阅图2，示出了本申请一实施例提供的一种图像处理方法的流程图，本实施例提供一种图像处理方法，可应用于电子设备，该方法包括：

步骤S110：获取包括人手姿势的视频帧样本图像。

可选的，视频帧样本图像包括人的手部姿势，例如，可以包括一个人的双手的手部姿势，也可以是包括多个人的单手或者双手组成的手部姿势。可选的，视频帧样本图像可以来源于存储至本地的视频图像，也可以来源于从网络下载的视频图像，具体可以不作限定。获取的视频帧样本图像可以用于训练手势跟踪模型，以实现提升通过训练得到的目标手势跟踪模型预测人手姿势的跟踪位置的准确性。

步骤S120：获取与所述视频帧样本图像对应的对偶样本图像。

作为一种方式，在训练手势跟踪模型时，在数据增强预处理过程中可以按照指定仿射变换规则对视频帧样本图像进行仿射变换处理，得到与视频帧样本图像对应的对偶样本图像。可选的，指定仿射变换规则可以为基于仿射变换矩阵

对视频帧样本图像进行平移、缩放以及旋转等处理。其中，关于仿射变换的具体变换原理以及变换过程可以参考相关技术，在此不再赘述。

例如，在一个具体的实施方式中，可以对视频帧样本图像(可以用I_a表示)进行仿射变换处理，得到其对偶样本图像(可以用I_b表示)。通过对视频帧样本图像进行仿射变换处理，产生成对样本图像，可以模拟人手的平移、缩放或旋转等小幅度范围内的抖动，从而可以实现更为准确的预测人手姿势的跟踪位置。

步骤S130：将所述视频帧样本图像以及所述对偶样本图像分别输入预设手势跟踪模型，获取所述预设手势跟踪模型输出的与所述视频帧样本图像对应的第一跟踪位置坐标以及与所述对偶样本图像对应的第二跟踪位置坐标。

可选的，预设手势跟踪模型可以包括mesh model或polygonal model等模型，或者可以包括更多其他种类模型，具体可以不作限定。预设手势跟踪模型可以对视频帧图像中的人手姿势的跟踪位置进行预测，例如预测当前帧图像相对于上一帧图像中的人手姿势的跟踪位置，或者预测下一帧图像相对于当前帧图像中的人手姿势的跟踪位置。作为一种方式，可以将视频帧样本图像以及对偶样本图像分别输入预设手势跟踪模型，以实现基于预设手势跟踪模型对手势跟踪框进行预测，继而可以获取预设手势跟踪模型输出的与视频帧样本图像对应的第一跟踪位置坐标以及与对偶样本图像对应的第二跟踪位置坐标。其中，第一跟踪位置坐标为预测得到的与视频帧样本图像对应的手势跟踪框的四个顶点的位置坐标，第二跟踪位置坐标为预测得到的与对偶样本图像对应的手势跟踪框的四个顶点的位置坐标。

例如，作为一种实施方式，可以将前述视频帧样本图像I_a输入预设手势跟踪模型，继而获取预设手势跟踪模型输出的(即预测的)与视频帧样本图像对应的第一跟踪位置坐标

以及将对偶样本图像I_b输入预设手势跟踪模型，继而获取预设手势跟踪模型输出的(即预测的)与对偶样本图像对应的第二跟踪位置坐标

步骤S140：对所述第一跟踪位置坐标进行仿射变换，得到与所述视频帧样本图像对应的第三跟踪位置坐标。

作为一种方式，为了验证预设手势跟踪模型对手势跟踪框位置预测的误差(可选的，本实施例中可以用仿射变换一致性损失函数来表示该误差)，可以对第一跟踪位置坐标进行仿射变换处理，继而可以得到与视频帧样本图像对应的第三跟踪位置坐标，以便于可以借助第三跟踪框位置坐标计算仿射变换一致性损失函数。其中，假设第一跟踪位置对应的坐标表示为(x,y)，第三跟踪位置对应的坐标表示为(x',y')，对第一跟踪位置坐标进行仿射变换的原理可以表示如下：

示例性的，可以依据上述仿射变换的原理对上述第一跟踪位置坐标

进行仿射变换，得到与视频帧样本图像对应的第三跟踪位置坐标(x′_b1,y′_b1),(x′_b2,y′_b1),(x′_b1,y′_b2),(x′_b2,y′_b2)。

步骤S150：基于所述第二跟踪位置坐标以及所述第三跟踪位置坐标获取目标损失函数。

作为一种方式，以上述示例为例，可以基于第二跟踪位置坐标

以及第三跟踪位置坐标(x′_b1,y′_b1),(x′_b2,y′_b1),(x′_b1,y′_b2),(x′_b2,y′_b2)获取仿射变换一致性损失函数，进而可以基于仿射变换一致性损失函数快速的获取目标损失函数(loss_total)。其中，仿射变换一致性损失函数(loss_affine)的计算规则可以表示为：

其中，N表示跟踪框的顶点个数。

本实施例中的目标损失函数的计算规则可以表示为：

loss_total＝λ_a*loss_affine+loss_a+loss_b。

其中，loss_a表征与视频帧样本图像对应的欧式距离损失函数，所述loss_b表征与对偶样本图像对应的欧式距离损失函数，所述loss_affine表征仿射变换一致性损失函数，所述λ_a表征仿射变换一致性损失函数的权重，可选的，λ_a的取值范围可以为1-10，具体数值可以不作限定。

步骤S160：将所述目标损失函数收敛时的所述预设手势跟踪模型作为目标手势跟踪模型。

作为一种方式，本实施例可以将目标损失函数收敛时的预设手势跟踪模型作为目标手势跟踪模型，以实现基于目标手势跟踪模型对视频图像中的人手姿势的跟踪位置进行更加准确的预测。

本实施例提供的图像处理方法，通过获取包括人手姿势的视频帧样本图像，继而获取与视频帧样本图像对应的对偶样本图像，再将视频帧样本图像以及对偶样本图像分别输入预设手势跟踪模型，输出得到与视频帧样本图像对应的第一跟踪位置坐标以及与对偶样本图像对应的第二跟踪位置坐标，再对第一跟踪位置坐标进行仿射变换，得到与视频帧样本图像对应的第三跟踪位置坐标，然后基于第二跟踪位置坐标以及第三跟踪位置坐标获取目标损失函数，最后将目标损失函数收敛时的预设手势跟踪模型作为目标手势跟踪模型。从而通过上述方式实现了可以将包括有人手姿势的视频帧样本图像以及与视频帧样本图像对应的对偶样本图像分别输入预设手势跟踪模型，输出得到与视频帧样本图像对应的第一跟踪位置坐标以及与对偶样本图像对应的第二跟踪位置坐标，继而可以对第一跟踪位置坐标进行仿射变换，得到与视频帧样本图像对应的第三跟踪位置坐标，然后基于第二跟踪位置坐标以及第三跟踪位置坐标获取目标损失函数，使得可以将目标损失函数收敛时的预设手势跟踪模型作为目标手势跟踪模型，从而可以基于目标手势跟踪模型对人手姿势的跟踪位置进行更准确的预测，进而可以提升通过手势控制特效的准确性，提升特效的整体显示效果。

请参阅图3，示出了本申请另一实施例提供的一种图像处理方法的流程图，本实施例提供一种图像处理方法，可应用于电子设备，该方法包括：

步骤S210：获取包括人手姿势的视频帧样本图像。

步骤S220：获取与所述视频帧样本图像对应的对偶样本图像。

步骤S230：获取与所述视频帧样本图像对应的第一标定位置坐标。

作为一种方式，可以在将视频帧样本图像输入预设手势跟踪框模型进行手势跟踪框预测之前，预先对视频帧样本图像中的手势进行矩形框标定，然后将所标定的矩形框的位置坐标作为与视频帧样本图像对应的第一标定位置坐标。例如，在一个具体的实施方式中，可以对视频帧样本图像(可以用I_a表示)中的手势位置进行矩形框标定，得到标定的矩形框位置坐标(即第一标定位置坐标)为

步骤S240：获取与所述对偶样本图像对应的第二标定位置坐标。

类似的，可以对对偶样本图像中的手势进行矩形框标定，然后将所标定的矩形框的位置坐标作为与对偶样本图像对应的第二标定位置坐标。例如，在一个具体的实施方式中，可以对对偶样本图像(可以用I_b表示)中的手势位置进行矩形框标定，得到标定的矩形框位置坐标(即第二标定位置坐标)为

步骤S250：将所述视频帧样本图像以及所述对偶样本图像分别输入预设手势跟踪模型，获取所述预设手势跟踪模型输出的与所述视频帧样本图像对应的第一跟踪位置坐标以及与所述对偶样本图像对应的第二跟踪位置坐标。

步骤S260：对所述第一跟踪位置坐标进行仿射变换，得到与所述视频帧样本图像对应的第三跟踪位置坐标。

步骤S270：基于所述第一标定位置坐标以及所述第一跟踪位置坐标获取与所述视频帧样本图像对应的第一损失函数。

在一种实现方式中，可以基于前述的第一标定位置坐标

以及第一跟踪位置坐标

计算与视频帧样本图像对应的第一损失函数，可选的，该第一损失函数可以理解为前述实施例中与视频帧样本图像对应的欧式距离损失函数，具体可以理解为视频帧样本图像的人手标定矩形框位置坐标(可以理解为前述的第一标定位置坐标)和预测跟踪框位置坐标(可以理解为前述的第一跟踪位置坐标)的欧式距离损失函数，关于欧式距离损失函数的具体计算原理以及计算过程可以参考相关技术，在此不再赘述。

步骤S280：基于所述第二标定位置坐标以及所述第二跟踪位置坐标获取与所述对偶样本图像对应的第二损失函数。

在一种实现方式中，可以基于前述的第二标定位置坐标

以及第二跟踪位置坐标

计算与对偶样本图像对应的第二损失函数，可选的，该第二损失函数可以理解为对偶样本图像的人手标定矩形框位置坐标(可以理解为前述的第二标定位置坐标)和预测跟踪框位置坐标(可以理解为前述的第二跟踪位置坐标)的欧式距离损失函数，关于欧式距离损失函数的具体计算原理以及计算过程可以参考相关技术，在此不再赘述。

步骤S290：基于所述第二跟踪位置坐标以及所述第三跟踪位置坐标确定与所述视频帧样本图像对应的第三损失函数。

可选的，本实施例中的第三损失函数可以理解为前述的仿射变换一致性损失函数(loss_affine)具体计算原理可以参照前述实施例中的描述，在此不再赘述。。

步骤S291：基于所述第一损失函数、所述第二损失函数以及所述第三损失函数按照指定的损失函数计算规则获取目标损失函数。

可选的，本实施例中指定的损失函数计算规则为：

loss_total＝λ_a*loss_affine+loss_a+loss_b。

其中，loss_total表征目标损失函数，loss_a表征与视频帧样本图像对应的欧式距离损失函数，所述loss_b表征与对偶样本图像对应的欧式距离损失函数，所述loss_affine表征仿射变换一致性损失函数，所述λ_a表征仿射变换一致性损失函数的权重，可选的，λ_a的取值范围可以为1-10，具体数值可以不作限定。

步骤S292：将所述目标损失函数收敛时的所述预设手势跟踪模型作为目标手势跟踪模型。

本实施例提供的图像处理方法，实现了可以将目标损失函数收敛时的预设手势跟踪模型作为目标手势跟踪模型，从而可以基于目标手势跟踪模型对人手姿势的跟踪位置进行更准确的预测，进而可以提升通过手势控制特效的准确性，提升特效的整体显示效果。

请参阅图4，示出了本申请一实施例提供的一种图像处理方法的流程图，本实施例提供一种图像处理方法，可应用于电子设备，电子设备配置有具备录制以及分享短视频等功能的客户端，该方法包括：

步骤S310：基于目标人手跟踪区域确定待处理视频数据的手势图像区域。

可选的，在用户通过电子设备的客户端录制短视频时，可以增加一些特效以丰富视频内容，例如，可以增加通过手势控制的特效。在一种实现方式中，在短视频录制的过程中，用户可以利用手掌控制雨滴，使雨滴随着手掌的移动而移动，然而值得注意的是，用户的手掌在缓慢的移动的过程中，手掌会发生抖动，使得与手掌对应的手势跟踪框也会发生抖动(包括明显的抖动与不明显的抖动)，从而导致特效“雨滴”会存在不连贯的视觉效果，以致于影响用户体验。

作为一种改善上述问题的方式，可以在录制视频的过程中，对录制的特效视频图像中的手势跟踪框进行检测，以实现避免因手势跟踪过程中的抖动导致的特效不连贯的问题。具体的，可以先基于目标人手跟踪区域确定待处理视频数据的手势图像区域。其中，待处理视频数据为需要进行手势跟踪框预测的视频图像数据，待处理视频数据可以包括多帧视频图像，可选的，为了便于计算，可以将当前帧视频图像作为待处理视频数据，可以理解的是，随着处理过程的延长，当前帧视频图像的内容可以变化，例如，开始以视频图像的第二帧作为当前帧视频图像，后面可以以视频图像的第三帧作为当前帧视频图像，再后面可以以视频图像的第四帧作为当前帧视频图像，以此类推。

目标人手跟踪区域可以为上一帧视频图像中的人手跟踪框所在的位置，可以基于上一帧视频图像中的人手跟踪框所在的位置，对当前帧视频图像中的人手跟踪框位置进行标定，具体的，可以确定上一帧视频图像中的人手跟踪框在当前帧视频图像中的位置，然后将该位置标记为当前帧视频图像中的人手跟踪框位置(即手势图像区域)。

可选的，为了便于减小计算量，可以将标记后的当前帧视频图像进行缩放，例如，可以缩放至32*32大小，然后再将缩放后的当前帧视频图像进行灰度化处理。

步骤S320：获取所述手势图像区域对应的感知哈希数值。

作为一种方式，可以对上述灰度化处理后的图像进行离散余弦变换，使之转换到频域，可选的，可以取频域的左上角8*8大小的数值矩阵，再计算8*8数值矩阵的平均值，并根据平均值二值化，生成当前帧视频图像的手势图像区域对应的感知哈希数值，具体计算过程可以参考相关技术，在此不再赘述。

步骤S330：将所述感知哈希数值和与所述目标人手跟踪区域对应的目标感知哈希数值进行比较，以获取所述待处理视频数据和与所述目标人手跟踪区域对应的视频数据的内容相似度。

可选的，可以按照上述方式预先计算与目标人手跟踪区域对应的目标感知哈希数值，以便于可以将当前帧视频图像的手势图像区域对应的感知哈希数值，和与目标人手跟踪区域对应的目标感知哈希数值进行比较，以获取待处理视频数据和与目标人手跟踪区域对应的视频图像的内容相似度，其中，上述感知哈希数值与目标感知哈希数值的差异越小表征内容相似度越大，或者可以理解为内容相似度的值越大表征越相似。

步骤S340：若所述内容相似度小于预设阈值，基于如前述实施例所述的目标手势跟踪模型获取与所述待处理视频数据对应的手势跟踪位置。

作为一种方式，若内容相似度小于预设阈值(具体数值可以根据实际情况进行设定)，可以基于如前述实施例所述的目标手势跟踪模型获取与待处理视频数据对应的手势跟踪位置，以实现可以根据基于目标损失函数训练得到的手势跟踪模型对待处理视频数据中的各帧视频图像进行逐帧检测，使得上述示例中的手掌缓慢移动的过程中，连续视频帧的手势跟踪框不会发生明显的抖动，特别当手掌在视频中保持静止不动时，“雨滴”特效也能够保持静止不动，实现稳定的跟踪效果。

本实施例提供的图像处理方法，通过基于目标人手跟踪区域确定待处理视频数据的手势图像区域，继而获取手势图像区域对应的感知哈希数值，再将感知哈希数值和与目标人手跟踪区域对应的目标感知哈希数值进行比较，以获取待处理视频数据和与目标人手跟踪区域对应的视频数据的内容相似度，然后若内容相似度小于预设阈值，基于如前述实施例所述的目标手势跟踪模型获取与待处理视频数据对应的手势跟踪位置。通过对当前帧视频图像的人手跟踪框与上一帧视频图像的目标人手跟踪框分别所对应的图像内容的相似度进行判断，使得在内容相似度小于预设阈值的情况下，可以根据基于目标损失函数训练得到的目标手势跟踪模型对当前帧视频图像中的人手跟踪框进行准确的预测，从而可以提升通过手势操控“雨滴”等特效的稳定性以及灵活性。

请参阅图5，示出了本申请另一实施例提供的一种图像处理方法的流程图，本实施例提供一种图像处理方法，可应用于电子设备，该方法包括：

步骤S410：基于目标人手跟踪区域确定待处理视频数据的手势图像区域。

步骤S420：获取所述手势图像区域对应的感知哈希数值。

步骤S430：将所述感知哈希数值和与所述目标人手跟踪区域对应的目标感知哈希数值进行比较，以获取所述待处理视频数据和与所述目标人手跟踪区域对应的视频数据的内容相似度。

步骤S440：判断所述内容相似度是否小于预设阈值。

步骤S450：基于如前述实施例所述的目标手势跟踪模型获取与所述待处理视频数据对应的手势跟踪位置。

作为一种方式，若内容相似度小于预设阈值，可以基于如前述实施例所述的目标手势跟踪模型获取与待处理视频数据对应的手势跟踪位置。

步骤S460：获取与所述目标人手跟踪区域对应的目标手势跟踪位置。

作为另一种方式，若内容相似度不小于预设阈值，则可以直接获取与目标人手跟踪区域对应的目标手势跟踪位置。进而执行步骤S470所述的直接将目标手势跟踪位置作为与所述待处理视频数据对应的手势跟踪位置。

步骤S470：将所述目标手势跟踪位置作为与所述待处理视频数据对应的手势跟踪位置。

本实施例提供的图像处理方法，通过基于目标人手跟踪区域确定待处理视频数据的手势图像区域，继而获取手势图像区域对应的感知哈希数值，再将感知哈希数值和与目标人手跟踪区域对应的目标感知哈希数值进行比较，以获取待处理视频数据和与目标人手跟踪区域对应的视频数据的内容相似度，然后若内容相似度小于预设阈值，基于如前述实施例所述的目标手势跟踪模型获取与待处理视频数据对应的手势跟踪位置。通过对当前帧视频图像的人手跟踪框与上一帧视频图像的目标人手跟踪框分别所对应的图像内容的相似度进行判断，实现了基于不同的判断结果对当前帧视频图像的人手跟踪框进行准确的预测，提升了用户利用手势操控视频录制特效的使用体验。

请参阅图6，为本申请一实施例提供的一种图像处理装置的结构框图，本实施例提供一种图像处理装置500，可以运行于电子设备，所述装置500包括：第一获取模块510、第二获取模块520、预测模块530、第三获取模块540、第四获取模块550以及处理模块560：

第一获取模块510，用于获取包括人手姿势的视频帧样本图像。

第二获取模块520，用于获取与所述视频帧样本图像对应的对偶样本图像。

作为一种方式，第二获取模块520可以用于按照指定仿射变换规则对所述视频帧样本图像进行仿射变换处理，得到与所述视频帧样本图像对应的对偶样本图像。

可选的，装置500还可以包括位置坐标获取模块，可以用于获取与所述视频帧样本图像对应的第一标定位置坐标；以及可以用于获取与所述对偶样本图像对应的第二标定位置坐标。

预测模块530，用于将所述视频帧样本图像以及所述对偶样本图像分别输入预设手势跟踪模型，输出得到与所述视频帧样本图像对应的第一跟踪位置坐标以及与所述对偶样本图像对应的第二跟踪位置坐标。

第三获取模块540，用于对所述第一跟踪位置坐标进行仿射变换，得到与所述视频帧样本图像对应的第三跟踪位置坐标。

第四获取模块550，用于基于所述第二跟踪位置坐标以及所述第三跟踪位置坐标获取目标损失函数。

可选的，装置500还可以包括损失函数计算模块，可以用于基于所述第一标定位置坐标以及所述第一跟踪位置坐标获取与所述视频帧样本图像对应的第一损失函数；以及可以用于基于所述第二标定位置坐标以及所述第二跟踪位置坐标获取与所述对偶样本图像对应的第二损失函数。

在这种方式下，第四获取模块550可以用于基于所述第二跟踪位置坐标以及所述第三跟踪位置坐标确定与所述视频帧样本图像对应的第三损失函数，再基于所述第一损失函数、所述第二损失函数以及所述第三损失函数按照指定的损失函数计算规则获取目标损失函数。其中，指定的损失函数计算规则可以包括：

loss_total＝λ_a*loss_affine+loss_a+loss_b。

其中，所述loss_a可以表征所述第一损失函数，所述loss_b可以表征所述第二损失函数，所述loss_affine可以表征所述第三损失函数，所述λ_a可以表征所述第三损失函数的权重。

处理模块560，用于将所述目标损失函数收敛时的所述预设手势跟踪模型作为目标手势跟踪模型。

请参阅图7，为本申请一实施例提供的一种图像处理装置的结构框图，本实施例提供一种图像处理装置600，可以运行于电子设备，所述装置600包括：确定单元610、获取单元620、比较单元630以及处理单元640：

确定单元610，用于基于目标人手跟踪区域确定待处理视频数据的手势图像区域。

获取单元620，用于获取所述手势图像区域对应的感知哈希数值。

比较单元630，用于将所述感知哈希数值和与所述目标人手跟踪区域对应的目标感知哈希数值进行比较，以获取所述待处理视频数据和与所述目标人手跟踪区域对应的视频数据的内容相似度。

处理单元640，用于若所述内容相似度小于预设阈值，基于如前述实施例所述的目标手势跟踪模型获取与所述待处理视频数据对应的手势跟踪位置。

可选的，处理单元640可以用于若所述内容相似度不小于预设阈值，获取与所述目标人手跟踪区域对应的目标手势跟踪位置；将所述目标手势跟踪位置作为与所述待处理视频数据对应的手势跟踪位置。

所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述装置和模块的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

在本申请所提供的几个实施例中，所显示或讨论的模块相互之间的耦合或直接耦合或通信连接可以是通过一些接口，装置或模块的间接耦合或通信连接，可以是电性，机械或其它的形式。

另外，在本申请各个实施例中的各功能模块可以集成在一个处理模块中，也可以是各个模块单独物理存在，也可以两个或两个以上模块集成在一个模块中。上述集成的模块既可以采用硬件的形式实现，也可以采用软件功能模块的形式实现。

请参阅图8，基于上述的图像处理方法及装置，本申请实施例还提供了一种可以执行前述图像处理方法的电子设备100。电子设备100包括存储器102以及相互耦合的一个或多个(图中仅示出一个)处理器104，存储器102以及处理器104之间通信线路连接。存储器102中存储有可以执行前述实施例中内容的程序，而处理器104可以执行存储器102中存储的程序。

其中，处理器104可以包括一个或者多个处理核。处理器104利用各种接口和线路连接整个电子设备100内的各个部分，通过运行或执行存储在存储器102内的指令、程序、代码集或指令集，以及调用存储在存储器102内的数据，执行电子设备100的各种功能和处理数据。可选地，处理器104可以采用数字信号处理(Digital Signal Processing，DSP)、现场可编程门阵列(Field－Programmable Gate Array，FPGA)、可编程逻辑阵列(ProgrammableLogic Array，PLA)中的至少一种硬件形式来实现。处理器104可集成中央处理器(CentralProcessing Unit，CPU)、图像处理器(Graphics Processing Unit，GPU)和调制解调器等中的一种或几种的组合。其中，CPU主要处理操作系统、用户界面和应用程序等；GPU用于负责显示内容的渲染和绘制；调制解调器用于处理无线通信。可以理解的是，上述调制解调器也可以不集成到处理器104中，单独通过一块通信芯片进行实现。

存储器102可以包括随机存储器(Random Access Memory，RAM)，也可以包括只读存储器(Read-Only Memory)。存储器102可用于存储指令、程序、代码、代码集或指令集。存储器102可包括存储程序区和存储数据区，其中，存储程序区可存储用于实现操作系统的指令、用于实现至少一个功能的指令(比如触控功能、声音播放功能、图像播放功能等)、用于实现前述各个实施例的指令等。存储数据区还可以存储电子设备100在使用中所创建的数据(比如电话本、音视频数据、聊天记录数据)等。

请参考图9，其示出了本申请实施例提供的一种计算机可读存储介质的结构框图。该计算机可读存储介质700中存储有程序代码，所述程序代码可被处理器调用执行上述方法实施例中所描述的方法。

计算机可读存储介质700可以是诸如闪存、EEPROM(电可擦除可编程只读存储器)、EPROM、硬盘或者ROM之类的电子存储器。可选地，计算机可读存储介质700包括非瞬时性计算机可读介质(non-transitory computer-readable storage medium)。计算机可读存储介质700具有执行上述方法中的任何方法步骤的程序代码710的存储空间。这些程序代码可以从一个或者多个计算机程序产品中读出或者写入到这一个或者多个计算机程序产品中。程序代码710可以例如以适当形式进行压缩。

综上所述，本申请实施例提供的一种图像处理方法、装置、电子设备以及存储介质，通过获取包括人手姿势的视频帧样本图像，继而获取与视频帧样本图像对应的对偶样本图像，再将视频帧样本图像以及对偶样本图像分别输入预设手势跟踪模型，输出得到与视频帧样本图像对应的第一跟踪位置坐标以及与对偶样本图像对应的第二跟踪位置坐标，再对第一跟踪位置坐标进行仿射变换，得到与视频帧样本图像对应的第三跟踪位置坐标，然后基于第二跟踪位置坐标以及第三跟踪位置坐标获取目标损失函数，最后将目标损失函数收敛时的预设手势跟踪模型作为目标手势跟踪模型。从而通过上述方式实现了可以将包括有人手姿势的视频帧样本图像以及与视频帧样本图像对应的对偶样本图像分别输入预设手势跟踪模型，输出得到与视频帧样本图像对应的第一跟踪位置坐标以及与对偶样本图像对应的第二跟踪位置坐标，继而可以对第一跟踪位置坐标进行仿射变换，得到与视频帧样本图像对应的第三跟踪位置坐标，然后基于第二跟踪位置坐标以及第三跟踪位置坐标获取目标损失函数，使得可以将目标损失函数收敛时的预设手势跟踪模型作为目标手势跟踪模型，从而可以基于目标手势跟踪模型对人手姿势的跟踪位置进行更准确的预测，进而可以提升通过手势控制特效的准确性，提升特效的整体显示效果。

最后应说明的是：以上实施例仅用以说明本申请的技术方案，而非对其限制；尽管参照前述实施例对本申请进行了详细的说明，本领域的普通技术人员当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不驱使相应技术方案的本质脱离本申请各实施例技术方案的精神和范围。

Claims

1.一种图像处理方法，其特征在于，所述方法包括：

获取包括人手姿势的视频帧样本图像；

获取与所述视频帧样本图像对应的对偶样本图像；

将所述视频帧样本图像以及所述对偶样本图像分别输入预设手势跟踪模型，获取所述预设手势跟踪模型输出的与所述视频帧样本图像对应的第一跟踪位置坐标以及与所述对偶样本图像对应的第二跟踪位置坐标；

对所述第一跟踪位置坐标进行仿射变换，得到与所述视频帧样本图像对应的第三跟踪位置坐标；

基于所述第二跟踪位置坐标以及所述第三跟踪位置坐标获取目标损失函数；

将所述目标损失函数收敛时的所述预设手势跟踪模型作为目标手势跟踪模型。

2.根据权利要求1所述的方法，其特征在于，所述方法还包括：

获取与所述视频帧样本图像对应的第一标定位置坐标；

获取与所述对偶样本图像对应的第二标定位置坐标；

基于所述第一标定位置坐标以及所述第一跟踪位置坐标获取与所述视频帧样本图像对应的第一损失函数；

基于所述第二标定位置坐标以及所述第二跟踪位置坐标获取与所述对偶样本图像对应的第二损失函数；

所述基于所述第二跟踪位置坐标以及所述第三跟踪位置坐标获取目标损失函数，包括：

基于所述第二跟踪位置坐标以及所述第三跟踪位置坐标确定与所述视频帧样本图像对应的第三损失函数；

基于所述第一损失函数、所述第二损失函数以及所述第三损失函数按照指定的损失函数计算规则获取目标损失函数。

3.根据权利要求2所述的方法，其特征在于，所述指定的损失函数计算规则包括：

loss_total＝λ_a*loss_affine+loss_a+loss_b；

所述loss_a表征所述第一损失函数，所述loss_b表征所述第二损失函数，所述loss_affine表征所述第三损失函数，所述λ_a表征所述第三损失函数的权重。

4.根据权利要求1所述的方法，其特征在于，所述获取与所述视频帧样本图像对应的对偶样本图像，包括：

按照指定仿射变换规则对所述视频帧样本图像进行仿射变换处理，得到与所述视频帧样本图像对应的对偶样本图像。

5.一种图像处理方法，其特征在于，所述方法包括：

基于目标人手跟踪区域确定待处理视频数据的手势图像区域；

获取所述手势图像区域对应的感知哈希数值；

将所述感知哈希数值和与所述目标人手跟踪区域对应的目标感知哈希数值进行比较，以获取所述待处理视频数据和与所述目标人手跟踪区域对应的视频数据的内容相似度；

若所述内容相似度小于预设阈值，基于如前述权利要求1-4所述的目标手势跟踪模型获取与所述待处理视频数据对应的手势跟踪位置。

6.根据权利要求5所述的方法，其特征在于，所述方法还包括：

若所述内容相似度不小于预设阈值，获取与所述目标人手跟踪区域对应的目标手势跟踪位置；

将所述目标手势跟踪位置作为与所述待处理视频数据对应的手势跟踪位置。

7.一种图像处理装置，其特征在于，所述装置包括：

第一获取模块，用于获取包括人手姿势的视频帧样本图像；

第二获取模块，用于获取与所述视频帧样本图像对应的对偶样本图像；

预测模块，用于将所述视频帧样本图像以及所述对偶样本图像分别输入预设手势跟踪模型，输出得到与所述视频帧样本图像对应的第一跟踪位置坐标以及与所述对偶样本图像对应的第二跟踪位置坐标；

第三获取模块，用于对所述第一跟踪位置坐标进行仿射变换，得到与所述视频帧样本图像对应的第三跟踪位置坐标；

第四获取模块，用于基于所述第二跟踪位置坐标以及所述第三跟踪位置坐标获取目标损失函数；

处理模块，用于将所述目标损失函数收敛时的所述预设手势跟踪模型作为目标手势跟踪模型。

8.一种图像处理装置，其特征在于，所述装置包括：

确定单元，用于基于目标人手跟踪区域确定待处理视频数据的手势图像区域；

获取单元，用于获取所述手势图像区域对应的感知哈希数值；

比较单元，用于将所述感知哈希数值和与所述目标人手跟踪区域对应的目标感知哈希数值进行比较，以获取所述待处理视频数据和与所述目标人手跟踪区域对应的视频数据的内容相似度；

处理单元，用于若所述内容相似度小于预设阈值，基于如前述权利要求1-5所述的目标手势跟踪模型获取与所述待处理视频数据对应的手势跟踪位置。

9.一种电子设备，其特征在于，包括一个或多个处理器以及存储器；

一个或多个程序被存储在所述存储器中并被配置为由所述一个或多个处理器执行，所述一个或多个程序配置用于执行权利要求1-4或5-6任一所述的方法。

10.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质中存储有程序代码，其中，在所述程序代码被处理器运行时执行权利要求1-4或5-6任一所述的方法。