CN116258655B

CN116258655B - 基于手势交互的实时图像增强方法及系统

Info

Publication number: CN116258655B
Application number: CN202211593364.6A
Authority: CN
Inventors: 郝世杰; 高仁
Original assignee: Hefei University of Technology
Current assignee: Hefei University of Technology
Priority date: 2022-12-13
Filing date: 2022-12-13
Publication date: 2024-03-12
Anticipated expiration: 2042-12-13
Also published as: CN116258655A

Abstract

本发明公开了一种基于手势交互的实时图像增强方法及系统，应用于图像处理技术领域，从单一帧的图像中获取手部的若干个3D特征点；通过对相应的3D特征点位置的识别判断识别相应手势，并将不同手势与对应的图像增强指令相映射；其中，通过判断各个手指的特征点的之间二维向量的角度大小来定义不同的手势。本发明在人机交互的框架之下，用户只需手势操作便可以实现对图像各个属性的增强。在使用上避免了繁琐的操作步骤，在交互上仅使用摄像头作为硬件设备，做到了非接触式交互，拓展了多媒体交互的方式。另外，将图像增强算法与动态手势识别进行结合，能动态地调整图像增强的幅度，使用户直观地观察到图像的增强效果，提升了用户的使用体验。

Description

基于手势交互的实时图像增强方法及系统

技术领域

本发明涉及图像增强技术领域，更具体的说是涉及基于手势交互的实时图像增强方法及系统。

背景技术

目前，图像美化类软件(如美图秀秀)和艺术创作类软件(如Adobe Photoshop)，此类软件均能提供诸如暗光增强、色彩增强等图像增强功能，但均需要用户采用接触式操作的方式对图像进行处理，功能实现较为复杂，操作流程并不简便，且处理结果的变化过程不易直观显现。

随着人机交互的发展，手势控制是非常方便的一种方法，手势控制具有非接触、快速方便的特点，解决在图像增强处理过程中复杂的操作；进一步，手势识别一般是基于图像来实现的，其具有识别距离远、成本低等优点。

但是，如何提供一种将手势交互与图像增强有效结合的处理方法及系统成为本领域技术人员亟需解决的问题。

发明内容

有鉴于此，本发明提供了一种基于手势交互的实时图像增强方法及系统，以解决背景技术中的问题。

为了实现上述目的，本发明采用如下技术方案：

一方面，本发明公开了一种基于手势交互的实时图像增强方法，包括如下具体步骤：

从单一帧的图像中获取手部的若干个3D特征点；

通过对相应的3D特征点位置的识别判断识别相应手势，并将不同手势与对应的图像增强指令相映射；其中，通过判断各个手指的特征点的之间二维向量的角度大小来定义不同的手势。

优选的，在上述一种基于手势交互的实时图像增强方法中，所述图像增强指令至少包括：色彩增强、细节增强、光照增强、综合增强。

优选的，在上述一种基于手势交互的实时图像增强方法中，在进行图像增强处理之前，对待处理图像依次进行maxRGB操作、二值化处理、形态学处理，形成粗略的区域层级的亮度感知；对亮度感知得到的图像进行细化处理，利用基于联合引导滤波的抠图技术，以maxRGB操作后的图片为引导图，将经过形态学处理的中间结果作为输入图片，最终所得到滤波结果，作为亮度+结构感知的分布估计结果。

优选的，在上述一种基于手势交互的实时图像增强方法中，所述综合增强具体步骤包括：

在输入一张待处理图像后，对其进行颜色空间变换，对色调、饱和度通道进行色彩增强处理，得到第一综合增强图；

对灰度空间通道进行纹理增强及光照增强并融合，得到第二综合增强图，其中，融合即直接进行图像像素级别的乘积；

分别对所述第一综合增强图和所述第二综合增强图进行颜色空间逆变换，得到综合增强图。

优选的，在上述一种基于手势交互的实时图像增强方法中，所述色彩增强具体步骤包括：

在输入一张待处理图像以后，对其进行色彩空间的变换，将其从RGB空间转换到HSV空间，对其色彩饱和度S通道进行非线性伽马矫正，保持色调通道H和灰度通道V不变，将增强后的饱和度通道与原有H和V通道进行融合，其中，融合即将增强后的饱和通道与H通道、V通道(三者共同相乘)进行像素级乘积。

优选的，在上述一种基于手势交互的实时图像增强方法中，所述细节增强具体步骤包括：

通过快速引导滤波器，对原图进行显著边缘保持的滤波，使其分解基本结构层和细节层；

细节层信号进行统一的放大，再将放大后的细节层与基本结构层重新线性合成。

优选的，在上述一种基于手势交互的实时图像增强方法中，所述光照增强具体步骤包括：

将待处理图像基于简化Retinex模型处理进行光照增强，得到第一光照增强图；

简化Retinex模型如公式I_E＝I/(T_S+∈)；

其中I即为待增强图像，T_S即为对I进行边缘保持滤波结果，模拟和估计图像场景中的光场强度分布，∈为标量值；

将亮度+结构感知的分布估计结果与待处理图像融合，得到第二光照增强图；

将亮度+结构感知的分布估计结果取反与第一增强图融合，得到第三光照增强图；其中，取反即为：反转图像的像素强度，使图像中的前景变为背景，背景变为前景，例如即像素值0变为255，1变为254…254变为1,255变为0。

所述第二光照增强图和所述第三增强图融合得到光照增强图。

优选的，在上述一种基于手势交互的实时图像增强方法中，通过判断各个手指的特征点的之间二维向量的角度大小来定义不同的手势具体步骤包括：

定义坐标中心，得到若干个3D特征点的坐标；

根据所述3D特征点的坐标计算大拇指、食指、中指、无名指、小拇指五个手指的角度；

每根手指的角度与预设阈值比较，确定不同手势。

优选的，在上述一种基于手势交互的实时图像增强方法中，还包括对于动态增强的处理具体步骤包括：

构建食指与大拇指的连线，将构成的线段长度与图像增强算法中的参数相关联；

识别食指与拇指距离为dis，细节增强算法参数为k-para，光照增强算法参数为epsilon-para，色彩增强算法参数为color-para，则距离与参数的函数关系如式(1)、(2)、(3)所示：

k-para＝0.1+2.9*dis/400 (1)；

epsilon-para＝1.0-0.9*dis/400 (2)；

color-para＝1.0-0.9*dis/400 (3)；

其中dis的取值范围为[0，400]；

当系统识别线段时，计算食指与拇指之间的距离，随着用户动态调整食指与拇指之间的距离，控制参数的线性动态变化，实时更新相应的处理结果，实现图像的动态增强。

另一方面，本发明公开了一种基于手势交互的实时图像增强系统，包括：

图像获取模块，用于获取待处理图像；

手势追踪识别模块，定义不同手势与对应的图像增强指令映射关系，同时识别不同手势；

图像增强模块，用于识别不同手势，调用对应的图像增强指令；

图像展示界面，实时显示图像增强处理后的图像。

经由上述的技术方案可知，与现有技术相比，本发明公开提供了一种基于手势交互的实时图像增强方法及系统，在人机交互的框架之下，用户只需手势操作便可以实现对图像各个属性的增强。在使用上避免了繁琐的操作步骤，在交互上仅使用摄像头作为硬件设备，做到了非接触式交互，创新性地拓展了多媒体交互的方式。另外本发明将图像增强算法与动态手势识别进行结合，能动态地调整图像增强的幅度，使用户直观地观察到图像的增强效果，提升了用户的使用体验。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据提供的附图获得其他的附图。

图1为本发明提供的流程图。

图2为本发明的亮度和结构分布估计方法流程图；

图3为本发明的色彩增强流程示意图；

图4为本发明的细节增强流程示意图；

图5为本发明的光照增强流程示意图；

图6为本发明的综合增强流程示意图；

图7为本发明的MediaPipe Hands单帧特征点对应图；

图8为本发明的手势-功能对应图；

图9为本发明的光照增强算法在不同参数下的处理结果；

图10(a)-图10(c)为本发明的增强效果图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

本发明实施例采用多线程编程的思路，其中摄像头和UI主界面作为主线程，图像增强部分作为子线程。为了实时展示摄像头视频，本发明实施例通过OpenCV获取摄像头的视频帧，每30ms更新一次，使用Qtimer定时调用显示摄像头的函数gesture_control,同时这个函数里，还有识别手势的函数，识别出手势之后，将手势传给logic_analysis函数，这个函数来判断识别的手势在当前状态下是否合理可行。可行后，通过Pyqt5的信号槽机制，传递给子线程进行图像增强。即两部分分开进行运算，通过信号槽机制互相发送信号。图像获取主线程向图像增强子线程发送指令和参数，子线程向主线程发送增强后的图片。本发明的具体逻辑结构如图1所示。

本发明的实施例中公开的图像增强操作，采用了基于图像融合思想的图像增强方法。其功能包括色彩增强、细节增强、光照增强以综合增强。

本实施例公开了一种能精确估计图片中亮度和结构分布的技术，在此首先加以具体描述：

首先对待处理图片应用maxRGB技术，即

需要了解的是：如果T₀中的像素值很小，那即表明该点处的亮度将会很低，但亮度分布往往是以区域为单位，而T₀中元素取值仍是以像素为基本空间单位。因此，接下来对T₀其进行二值化处理，并进一步对其进行形态学处理，形成粗略的区域层级的亮度感知(取1为“亮”、取0为“暗”)。

但需注意到，此时的结果与原图片中各物体结构之间已有较大偏差，无法直接用于“无缝融合多种增强结果”的任务。

因此，对其进行具有结构感知的细化处理。具体做法是利用基于联合引导滤波(Joint Guided Filtering)的抠图(Image Matting)技术，以T₀为引导图，将经过形态学处理的中间结果作为输入图片，最终所得到滤波结果，作为亮度+结构感知的分布估计结果。从图2中最右边结果来看，本实施例提出技术方案较好地把图片中各种细节勾勒地较为清楚。

为了进一步优化上述技术方案，基于上述理论，由于本算法需要考虑图像处理的实时性，因此在图像增强算法模块提出了色彩增强方法，即在HSV空间对图像色彩饱和度通道进行非线性的伽马校正(Gamma Correction)。具体做法是：在输入一张待处理的图像以后，对其进行色彩空间的变换，将其从RGB空间转换到HSV空间，对其色彩饱和度S通道进行非线性伽马矫正，保持色调通道H和灰度通道V不变，将增强后的饱和度通道与原有H和V通道进行融合，以图3中所示的例子可以看到，本方法能够使增强后的图片色彩更为饱满，且由于本方法复杂度很低(o(N),N为图像像素数)，非常适合实时处理。

为了进一步优化上述技术方案，在纹理增强部分，本实施例采取了一种基于图像分解的线性细节增强模型，过程如下：

首先，本实施例使用快速引导滤波器(Fast Guided Filter)，对原图进行显著边缘保持的滤波，使其分解基本结构层(可近似认为是图像的显著轮廓和低频成分)和细节层(可近似认为是图像的高频细节成分)。将细节层信号进行统一的放大，再将放大后的细节层与基本结构层重新线性合成，即可以最终获得一张细节得到较好增强的图片。图4中所示的结果验证了本实施例的有效性。此外，由于使用引导滤波，本方法复杂度仍保持在o(N)水平。

为了进一步优化上述技术方案，在光照增强中，采用基于简化Retinex模型处理(Simplified Retinex Model)进行光照增强。简化Retinex模型如公式I_E＝I/(T_s+∈)所示。

该模型是对传统Retinex模型的的简化，具有良好的计算效率。其中I即为待增强图像，T_s即为对I进行边缘保持滤波结果，其作用是模拟和估计图像场景中的光场强度分布，∈为一很小标量值，一般取0.2。

直接对一张图片进行简化Retinex模型处理，容易使结果失去自然之感。当单独展示光照增强效果时，将亮度+结构估计方法利用起来，使原图和基于简化Retinex增强结果加以融合(如图5所示)。这样本方法既可以保持原来图像中明亮的部分、避免其失真，也可以有效地增强原图中昏暗部分，使其细节重新得到显现。

为了进一步优化上述技术方案，综合增强在在功能层面中对于景物照处理时，采用的是通过精确、自动地感知场景光照和结构，进而将光照增强、纹理增强和色彩增强等多个人物融于统一的处理框架下，具体的实现途径及思想如下：

在输入一张待处理图片后，对其进行颜色空间变换，对色调(H)、饱和度(S)通道进行色彩增强处理，对灰度空间(V)通道进行纹理增强及光照增强并融合，最终将上述所得的图片进行颜色空间逆变换。三个功能便可统一于一张图片下。通过上述流程便可实现在HSV空间下光照、纹理、色彩的统一增强。其具体实现流程如下：

进一步，为了实现准确且快速的手势识别，本发明使用了谷歌推出的MediaPipeHands。MediaPipe Hands是一个高保真的手和手指跟踪识别解决方案。它使用机器学习从单一帧的图像中推断出手部的21个3D特征点，具体如图7所示。MediaPipe Hands由多个协同工作的模型组成：一个是手掌检测模型(BlazePalm Detector)，对整个图像进行操作并返回一个定向的手部边界框。另一个是手部坐标模型(Hand Landmark Model)，该模型对手掌检测器定义的裁剪图像区域进行操作，并返回高保真3D手部关键点。

本发明的手势识别模块即是通过对相应特征点位置的识别判断识别相应手势，并将不同手势与对应的图像处理功能相映射，达到手势控制图像处理的目的。

MediaPipe手部跟踪解决方案可以很容易地用于许多应用，如手势识别和增强现实效果。在预测的手骨架之上，使用一个简单的算法来计算手势。首先，每个手指的状态，例如弯曲或直，是通过关节的累积角度来确定的。然后，将手指状态集映射到一组预定义的手势。这种简单而有效的技术可以以合理的质量评估基本的手势。

基于上述思路，本发明以判断各个手指的特征点的之间二维向量的角度大小来定义不同的手势。

本发明定义了三个固定角度值，分别为65度、53度、49度，同时定义了大拇指、食指、中指、无名指、小拇指五个手指的角度，通过排列组合与逻辑判断，实现不同手势的识别。以“握拳”手势为例，当摄像头捕捉的单帧大拇指角度大于53度且其余四个手指的角度均大于65度，则手势识别模块判定五根手指均处于闭合状态，继而判定该手势符合“握拳”手势。

完成相应的手势定义与识别后，只需将各个手势与对应的功能或图像算法相会映射，即可实现手势与功能的结合。如图8所示，即为本发明的手势-功能对应图。

为了进一步优化上述技术方案，本发明采取的图像算法基于图像融合，不需要采取事先的模型训练，处理过程也不需要迭代，实现速度较快。另外，本发明中涉及的光照增强、色彩增强与细节增强，其图像增强的程度与最终的处理效果，在很大程度上由算法中的某一参数控制。

以1.3中的光照增强算法为例，其最终的增强结果受标量∈影响，如图9所示，当标量参数∈取值不同时，其光照增强效果也不同。当∈越趋近于0时，其对原图像中暗处区域的光照增强效果越明显。

基于上述图像处理算法的原理，为实现本发明提出的实时动态地增强图像的目的，本发明构建了食指与大拇指的连线，采用OpenCV中的相关函数将两者画圈连线，继而将构成的线段长度与图像增强算法中的参数相关联。

假设系统识别食指与拇指距离为dis，细节增强算法参数为k-para,光照增强算法参数为epsilon-para,色彩增强算法参数为color-para，则距离与参数的函数关系如式(1)、(2)、(3)所示：

k-para＝0.1+2.9*dis/400 (1)；

epsilon-para＝1.0-0.9*dis/400 (2)；

color-para＝1.0-0.9*dis/400 (3)；

其中dis的取值范围为[0,400]。

当系统识别线段时，会计算食指与拇指之间的距离，随着用户动态调整食指与拇指之间的距离，控制参数的线性动态变化，系统主界面实时更新相应的处理结果，实现图像的动态增强。

本发明的主要目的就是提供一个人机交互的框架，让用户使用手势交互这一自然简单的交互方式进行实时的动态图像增强处理。其技术效果展示如图10(a)-(c)所示，分别表示光照增强效果图、细节增强效果图；色彩增强效果图。

系统具体操作流程如下：

1.打开系统，用户向摄像头展示手势“1”，图像展示窗口自动切换本地保存的图片，供用户选择。

2.选择待处理的图片完毕，用户向摄像头展示手势“5”，进入图像增强模式选择阶段。

3.向摄像头展示相应手势以选择相应增强模式(此处以光照增强为例)，系统识别手势，进入图像光照增强阶段。

4.进入图像增强阶段后，用户通过调节食指与拇指之间的距离，实时动态地对所选图像进行光照增强处理，处理结果在图像左侧图像展示窗口实时显示，供用户观察。

5.待用户处理完毕，即可使用“握拳”手势将处理结果保存在本地。

6.用户继续向摄像头展示“1”手势，切换图片进行新一轮处理。

本说明书中各个实施例采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似部分互相参见即可。对于实施例公开的装置而言，由于其与实施例公开的方法相对应，所以描述的比较简单，相关之处参见方法部分说明即可。

对所公开的实施例的上述说明，使本领域专业技术人员能够实现或使用本发明。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的，本文中所定义的一般原理可以在不脱离本发明的精神或范围的情况下，在其它实施例中实现。因此，本发明将不会被限制于本文所示的这些实施例，而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

Claims

1.一种基于手势交互的实时图像增强方法，其特征在于，包括如下具体步骤：

从单一帧的图像中获取手部的若干个3D特征点；

通过对相应的3D特征点位置的识别判断识别相应手势，并将不同手势与对应的图像增强指令相映射；其中，通过判断各个手指的特征点的之间二维向量的角度大小来定义不同的手势；所述图像增强指令至少包括：色彩增强、细节增强、光照增强、综合增强；

所述综合增强具体步骤包括：

对灰度空间通道进行纹理增强及光照增强并融合，得到第二综合增强图；

分别对所述第一综合增强图和所述第二综合增强图进行颜色空间逆变换，得到综合增强图；

所述色彩增强具体步骤包括：

在输入一张待处理图像以后，对其进行色彩空间的变换，将其从RGB空间转换到HSV空间，对其色彩饱和度S通道进行非线性伽马矫正，保持色调通道H和灰度通道V不变，将增强后的饱和度通道与原有H和V通道进行融合；

所述细节增强具体步骤包括：

细节层信号进行统一的放大，再将放大后的细节层与基本结构层重新线性合成；

所述光照增强具体步骤包括：

简化Retinex模型如公式I_E＝I/(T_S+∈)；

将亮度+结构感知的分布估计结果取反与第一光照增强图融合，得到第三光照增强图；

所述第二光照增强图和所述第三光照增强图融合得到光照增强图。

2.根据权利要求1所述的一种基于手势交互的实时图像增强方法，其特征在于，在进行图像增强处理之前，对待处理图像依次进行maxRGB操作、二值化处理、形态学处理，形成粗略的区域层级的亮度感知；对亮度感知得到的图像进行细化处理，利用基于联合引导滤波的抠图技术，以maxRGB操作后的图片为引导图，将经过形态学处理的中间结果作为输入图片，最终所得到滤波结果，作为亮度+结构感知的分布估计结果。

3.根据权利要求1所述的一种基于手势交互的实时图像增强方法，其特征在于，通过判断各个手指的特征点的之间二维向量的角度大小来定义不同的手势具体步骤包括：

定义坐标中心，得到若干个3D特征点的坐标；

每根手指的角度与预设阈值比较，确定不同手势。

4.根据权利要求1所述的一种基于手势交互的实时图像增强方法，其特征在于，还包括对于动态增强的处理具体步骤包括：

k-para＝0.1+2.9*dis/400 (1)；

epsilon-para＝1.0-0.9*dis/400 (2)；

color-para＝1.0-0.9*dis/400 (3)；

其中dis的取值范围为[0，400]；

5.一种用于实现权利要求1-4任一项的所述方法的基于手势交互的实时图像增强系统，其特征在于，包括：

图像获取模块，用于获取待处理图像；

图像展示界面，实时显示图像增强处理后的图像。