CN110879957B - 用于进行手分割的系统和方法 - Google Patents

用于进行手分割的系统和方法 Download PDF

Info

Publication number
CN110879957B
CN110879957B CN201910779736.6A CN201910779736A CN110879957B CN 110879957 B CN110879957 B CN 110879957B CN 201910779736 A CN201910779736 A CN 201910779736A CN 110879957 B CN110879957 B CN 110879957B
Authority
CN
China
Prior art keywords
image
hand
momf
edges
resulting
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201910779736.6A
Other languages
English (en)
Other versions
CN110879957A (zh
Inventor
奇滕德尔·库马尔·莫尔亚
拉米亚·赫巴拉古佩
普尼特·古普塔
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tata Consultancy Services Ltd
Original Assignee
Tata Consultancy Services Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tata Consultancy Services Ltd filed Critical Tata Consultancy Services Ltd
Publication of CN110879957A publication Critical patent/CN110879957A/zh
Application granted granted Critical
Publication of CN110879957B publication Critical patent/CN110879957B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/01Input arrangements or combined input and output arrangements for interaction between user and computer
    • G06F3/017Gesture based interaction, e.g. based on a set of recognized hand gestures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/10Segmentation; Edge detection
    • G06T7/12Edge-based segmentation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/107Static hand or arm
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/002Specific input/output arrangements not covered by G06F3/01 - G06F3/16
    • G06F3/005Input arrangements through a video camera
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T5/00Image enhancement or restoration
    • G06T5/20Image enhancement or restoration by the use of local operators
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T5/00Image enhancement or restoration
    • G06T5/20Image enhancement or restoration by the use of local operators
    • G06T5/30Erosion or dilatation, e.g. thinning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T5/00Image enhancement or restoration
    • G06T5/40Image enhancement or restoration by the use of histogram techniques
    • G06T5/70
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/10Segmentation; Edge detection
    • G06T7/11Region-based segmentation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/10Segmentation; Edge detection
    • G06T7/155Segmentation; Edge detection involving morphological operators
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/26Segmentation of patterns in the image field; Cutting or merging of image elements to establish the pattern region, e.g. clustering-based techniques; Detection of occlusion
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/30Noise filtering
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/20Movements or behaviour, e.g. gesture recognition
    • G06V40/28Recognition of hand or arm movements, e.g. recognition of deaf sign language
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/10Image acquisition modality
    • G06T2207/10024Color image
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20036Morphological image processing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20172Image enhancement details
    • G06T2207/20182Noise reduction or smoothing in the temporal domain; Spatio-temporal filtering
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/30Subject of image; Context of image processing
    • G06T2207/30196Human being; Person

Abstract

本发明公开了一种用于进行手分割的系统和方法。因为不同的照明条件、设备的计算能力、来自不同种族的用户的不同肤色以及肤色背景的存在,可穿戴设备上的手分割是具有复杂背景的挑战性的计算机视觉问题。本公开的实施方式提供了用于通过预处理输入图像以改善对比度并去除噪声/伪像来实时地进行手分割的系统和方法。通过在各种方向上旋转多方向匹配滤波器(MOMF)来实现MOMF并将其应用于预处理图像,以形成包括强边缘和弱边缘的边缘图像。使用形态学操作进一步去除弱边缘。然后将边缘图像添加到输入图像(或预处理图像)以分离图像中的不同纹理区域。然后提取最大的肤色斑点,这被认为是正确的分割手。

Description

用于进行手分割的系统和方法
相关申请的交叉引用
本专利申请要求2018年9月6日提交的印度专利申请201821033598的优先权,其全部内容通过引用结合于此。
技术领域
本文的公开内容一般涉及图像处理技术,并且更具体地,涉及用于在用于手势界面的廉价(frugal)头戴式设备上进行实时手分割的系统和方法。
背景技术
随着头戴式显示器(HMD)的复苏,空中手势形成自然且直观的交流交互模式。诸如Hololens、Daqri智能眼镜等的HMD具有带有附加传感器的板载处理器,使得该设备昂贵。增强现实(AR)设备,例如,Meta Glass和Microsoft Hololens,举例说明了将手势用作计算机、可穿戴设备、机器人和人类之间的流行交互方式。智能手机技术的进步引入了一些低成本的视频透视设备,如Google Cardboard和Wearality1,可为虚拟现实(VR)智能手机提供沉浸式体验。使用相机馈送的立体渲染并在智能手机屏幕上覆盖相关信息,这些设备可扩展到AR和人机交互(HCI)。
随着上述手势识别设备的出现,用户交互看到来自诸如触摸屏、鼠标和键盘的原始交互方法到手势、语音和眼睛注视的演变。廉价的谷歌纸板(Google cardboard)具有有限的交互方法,即磁性和导电杠杆,经常受到磨损。而且,这些基于杠杆的界面不能直观地与之交互。还应注意,基于语音的命令在诸如石油钻井平台、建筑业和汽车工业的嘈杂环境中以及由于不同的重音而失败。本能和直观的人机交流仍然是一项具有挑战性的任务。
发明内容
本公开的实施方式呈现技术改进作为本发明人在传统系统中认识到的一个或多个上述技术问题的解决方案。例如,在一个方面,提供了一种处理器实现的方法,用于进行手分割和识别分割的手。该方法包括获得至少描绘手和背景的输入图像;以及预处理输入图像以获得包括预处理手和预处理背景的预处理图像。在实施方式中,预处理图像的步骤包括对图像进行下采样以获得下采样图像并对下采样图像应用对比度受限局部直方图均衡(CLAHE)技术,以获得预处理图像。通过在输入图像上应用高斯平滑技术,在输入图像的预处理期间对多个弱边缘进行滤波。一旦获得预处理图像,在预处理图像上应用多方向匹配滤波器(MOMF)以获得多个滤波器响应。该方法还包括合并多个滤波器响应以获得包括多个强边缘和一个或多个弱边缘的合并滤波器响应;从合并滤波器响应中滤波形成为一个或多个隔离的斑点的一个或多个弱边缘,以获得结果边缘图;将结果边缘图添加到输入图像(或预处理图像)以获得结果图像,其中,结果图像包括彼此隔离的不同纹理区域;使用一个或多个色度通道从结果图像中检测多个皮肤像素;从结果图像中识别出最大的皮肤像素斑点,其中,最大的皮肤像素斑点是分割手。
在实施方式中,通过在一个或多个预定义方向上旋转多方向匹配滤波器(MOMF)将MOMF应用于预处理图像,以检测一个或多个强边缘。在实施方式中,通过对合并滤波器响应应用形态学侵蚀技术来滤波形成为一个或多个隔离的斑点的一个或多个弱边缘。
在另一方面,提供了一种用于执进行手分割和识别正确的分割手的系统。该系统包括存储指令的存储器;一个或多个通信接口;经由一个或多个通信接口耦接到存储器的一个或多个硬件处理器,其中,一个或多个硬件处理器由指令配置为:获得至少描绘手和背景的输入图像;预处理输入图像以获得包括预处理手和预处理背景的预处理图像。在实施方式中,通过对图像进行下采样来预处理输入图像以获得下采样图像;和对下采样图像应用对比度受限局部直方图均衡(CLAHE)技术,以获得预处理图像。在实施方式中,在输入图像的预处理期间,通过在输入图像上应用高斯平滑技术来对多个弱边缘滤波。硬件处理器还由指令配置,以在预处理图像上应用多方向匹配滤波器(MOMF)以获得多个滤波器响应;合并多个滤波器响应以获得包括多个强边缘和一个或多个弱边缘的合并滤波器响应;并且从合并滤波器响应中滤波形成为一个或多个隔离的斑点的一个或多个弱边缘,以获得结果边缘图。在实施方式中,通过在一个或多个预定义方向上旋转多方向匹配滤波器(MOMF)来将MOMF应用于预处理图像,以检测一个或多个强边缘。在实施方式中,通过对合并滤波器响应应用形态学侵蚀技术来滤波形成为一个或多个隔离的斑点的多个弱边缘。将结果边缘图添加到输入图像(或预处理图像)以获得结果图像,其中,结果图像包括彼此隔离的不同纹理区域;和使用一个或多个色度通道从结果图像中检测多个皮肤像素。从结果图像中识别的最大的皮肤像素斑点是分割手。
在又一方面,提供了一种或多种非暂时性机器可读信息存储介质,其包括一个或多个指令,当由一个或多个硬件处理器执行时,该指令产生用于执行手分割和识别正确的分割手的方法。该指令使得获得至少描绘手和背景的输入图像;并预处理输入图像以获得包括预处理手和预处理背景的预处理图像。在实施方式中,预处理图像的步骤包括对图像进行下采样以获得下采样图像并在下采样图像上应用对比度受限局部直方图均衡(CLAHE)技术以获得预处理图像。通过在输入图像上应用高斯平滑技术,在输入图像的预处理期间对多个弱边缘进行滤波。一旦获得预处理图像,在预处理图像上应用多方向匹配滤波器(MOMF)以获得多个滤波器响应。该指令还使得合并多个滤波器响应以获得包括多个强边缘和一个或多个弱边缘的合并滤波器响应;从合并滤波器响应中滤波形成为一个或多个隔离的斑点的一个或多个弱边缘,以获得结果边缘图;将结果边缘图添加到输入图像(或预处理图像)以获得结果图像,其中,结果图像包括彼此隔离的不同纹理区域;使用一个或多个色度通道从结果图像中检测多个皮肤像素;从结果图像中识别出最大的皮肤像素斑点,其中最大的皮肤像素斑点是分割手。
在实施方式中,通过在一个或多个预定义方向上旋转多方向匹配滤波器(MOMF)来将MOMF应用于预处理图像,以检测一个或多个强边缘。在实施方式中,通过对合并滤波器响应应用形态学侵蚀技术来滤波形成为一个或多个隔离的斑点的一个或多个弱边缘。
应当理解,前面的一般性描述和下面的详细描述都只是示例性和说明性的,并不是对要求保护的本发明的限制。
附图说明
包含在本公开中并构成本公开的一部分的附图示出了示例性实施方式,并且与说明书一起用于解释所公开的原理:
图1示出了根据本公开的实施方式的用于执行手分割和识别正确的分割手的系统的示例性框图。
图2示出了根据本公开的示例实施方式的图1的手分割系统的示例性框图。
图3示出了使用根据本公开的实施方式的图1和图2的手分割系统的组件执行手分割和识别分割的手的方法的示例性流程图。
图4A描绘了根据本公开的实施方式的具有多个强边缘和多个弱边缘的手。
图4B描绘了示出根据本公开的实施方式的多个强边缘和多个弱边缘的轮廓的图形表示。
图5A描绘了根据本公开的示例实施方式的0度的多方向匹配滤波器方向。
图5B描绘了根据本公开的示例实施方式的30度的多方向匹配滤波器方向。
图5C描绘了根据本公开的示例实施方式的90度的多方向匹配滤波器方向。
图6A至图6B描绘了根据本公开的实例实施方式的类皮肤背景上的多方向匹配滤波器(MOMF)响应。
图6C描绘了对应于包括在根据本公开的实施方式的图6A中描绘的输入图像中的手的正确分割手。
图7描绘了与根据本公开的实例实施方式的传统技术提出的YCbCr对比的本公开的手分割的结果。
具体实施方式
参考附图描述示例性实施方式。在附图中,参考标号的最左边的数字标识首次出现参考标号的图。在任何方便的地方,在整个附图中使用相同的附图标记来表示相同或相似的部分。虽然本文描述了所公开原理的实例和特征,但是在不脱离所公开实施方式的精神和范围的情况下,修改、改编和其他实现是可能的。旨在将以下详细描述视为仅是示例性的,其真实范围和精神由所附权利要求所示。
当前存在的方法使用基于深度学习的方法来执行手分割,这需要额外的资源,例如服务器。虽然很少有其他方法使用深度发送和基于RGB的技术执行手分割,当存在类皮肤背景时这些技术不准确。
手分割是说明空中手势的必要步骤。由于其经济可行性、便携性和大众市场的可扩展性,智能手机可使用这些廉价耳机用于AR应用。
研究中提出的许多应用包括额外的可穿戴传感器,并且可能需要对用户进行特定培训。还注意到,使用智能手机在谷歌纸板上进行手分割的尝试非常少。可能的应用是:(a)HMD中的手势识别(b)AR/VR模式中的视频游戏(c)手姿势检测。然而,先前的研究和工作未能准确地执行手分割,这可能是由于手势的不准确捕获、外部因素(例如环境的性质)等。
手空中手势形成HCI的主要输入模式,并且示出它们通常优于基于触摸的系统。手势识别最广泛接受的实例之一是数据手套。由于其自然性,增强手分割已经取代了数据手套的作用以露出手。可穿戴设备上的手分割是具有复杂背景的挑战性的计算机视觉问题,由于以下原因:(a)不同的照明条件,(b)设备的计算能力,(c)来自不同种族的用户的不同肤色,以及(d)肤色背景的存在。很少有研究使用相机和IR LED来检测手,有些人提出使用体戴式相机和漫射IR照明,以及用于手分割的深度信息。上面讨论的方法需要额外的硬件、体戴式相机、用户仪器或外部跟踪,以及通常的离板处理。很少有其他工作利用随机森林分类器和高斯混合模型进行手分割。但是,这些方法需要花费大量时间来处理每个帧,并为用户采用带来严重障碍。本公开的实施方式设计并实现用于在野外进行有效手分割的滤波器,并使用与直方图均衡化、高斯模糊的组合来演示。本公开避免了如上所述的手分割的缺点,并且还处理由于可穿戴设备引起的第一人称视角(FPV)约束。
现在参考附图,更具体地参考图1至图7,其中类似的附图标记在整个附图中始终表示相应的特征,示出了优选实施方式,并且这些实施方式在以下示例性系统和/或方法的上下文中描述。
图1示出了根据本公开的实施方式的用于执行手分割和识别正确的分割手的系统100的示例性框图。系统100还可称为“手分割系统”或“分割系统”,并且在下文中可互换使用。在实施方式中,系统100包括一个或多个处理器104、通信接口设备或输入/输出(I/O)接口106以及可操作地耦接到一个或多个处理器104的一个或多个数据存储设备或存储器102。一个或多个处理器104可以是一个或多个软件处理模块和/或硬件处理器。在实施方式中,硬件处理器可实现为一个或多个微处理器、微计算机、微控制器、数字信号处理器、中央处理单元、状态机、逻辑电路和/或基于操作指令操纵信号的任何设备。在其他能力中,处理器被配置为获取并执行存储在存储器中的计算机可读指令。在实施方式中,设备100可在各种计算系统中实现,例如膝上型计算机、笔记本、手持设备、工作站、大型计算机、服务器、网络云等。
I/O接口设备106可包括各种软件和硬件接口,例如,web接口、图形用户接口等,并且可促进各种网络N/W和协议类型内的多个通信,包括有线网络,例如LAN、电缆等,以及无线网络,诸如WLAN、蜂窝或卫星。在实施方式中,I/O接口设备可包括一个或多个端口,用于将多个设备彼此连接或连接到另一服务器。
存储器102可包括本领域中已知的任何计算机可读介质,包括例如易失性存储器,诸如静态随机存取存储器(SRAM)和动态随机存取存储器(DRAM),和/或非易失性存储器,诸如只读存储器(ROM)、可擦除可编程ROM、闪存、硬盘、光盘和磁带。在实施方式中,数据库108可存储在存储器102中,其中数据库108可包括但不限于信息手和背景、缩小输出、滤波输出、正确的分割手输出等。更具体地,关于包括手、类皮肤背景等的输入图像的信息。在实施方式中,存储器102可存储一个或多个技术(例如,滤波技术、一个或多个滤波器),其在由一个或多个硬件处理器104执行时执行本文描述的方法。存储器102还可包括与由本公开的系统和方法执行的每个步骤的输入/输出有关的信息。
参考图1,图2示出了根据本公开的示例实施方式的图1的手分割系统100的示例性框图。手分割系统100包括预处理块202、多方向匹配滤波(MOMF)块204和皮肤分割块206。
参考图1至图2,图3示出了使用根据本公开的实施方式的图1至图2的系统100和手分割系统的组件来执行手分割和识别正确的分割手的方法的示例性流程图。在实施方式中,系统100包括可操作地耦接到一个或多个硬件处理器104的一个或多个数据存储设备或存储器102,并且被配置为存储用于由一个或多个处理器104执行该方法的步骤的指令。现在将参考图1描绘的系统100的组件和图2描绘的框图来解释本公开的方法的步骤。在本公开的实施方式中,在步骤302处,一个或多个硬件处理器104获得至少描绘手和背景的输入图像。在实施方式中,背景可包括类皮肤背景。在本公开的实施方式中,在步骤304处,一个或多个硬件处理器104对输入图像预处理以获得包括预处理手和预处理背景的预处理图像。在实施方式中,输入图像通过首先对其进行下采样来预处理以获得下采样图像,并且然后对下采样图像应用对比度受限局部直方图均衡(CLAHE)技术以获得预处理图像。预处理的目的是改善对比度并消除噪音。例如,在本公开中,输入图像(或输入图像帧)是从图像捕获设备(例如,智能手机后置相机)获得的,然后将其缩小或下采样到640×480的分辨率,为了减少处理时间,也不会对图像质量造成太大损坏。随后,将对比度受限局部直方图均衡(CLAHE)技术应用于下采样图像,以改善全局对比度并减轻照明伪影。在本公开的实施方式中,输入图像在预处理块202中被预处理,如图2所示。
参考图1至图3,图4A描绘了根据本公开的实施方式的具有多个强边缘和多个弱边缘的手。参考图1至图3,图4B描绘了示出根据本公开的实施方式的多个强边缘和多个弱边缘的轮廓的图形表示。本公开考虑手图像中的两种边缘,即弱边缘和强边缘。由于表面颜色不连续而产生弱边缘,因此这些边缘由均匀的纹理组成。相反,深度不连续性产生强边缘,因此这些边缘包含显著的纹理和颜色变化。用于可视化(如图4A中所示)。为了减轻弱边缘,将高斯平滑技术应用于直方图均衡图像。换句话说,通过在输入图像上应用高斯平滑技术,在输入图像的预处理期间对多个弱边缘进行滤波。观察到平滑可轻微地影响强边缘,但是大多数强度变化被保留。
在本公开的实施方式中,在步骤306处,一个或多个硬件处理器104在预处理图像上应用多方向匹配滤波器(MOMF)以获得多个滤波器响应并合并多个滤波器响应,以在步骤308处获得合并滤波器响应。在实施方式中,合并滤波器响应包括多个强边缘和一个或多个弱边缘。更具体地,通过在一个或多个预定义方向上旋转多方向匹配滤波器(MOMF)来将MOMF应用于预处理图像,以检测一个或多个强边缘。MOMF方向可在图5A至图5C中可视化。下面描述由本公开执行的MOMF的设计和实现:
多方向匹配滤波器(MOMF):
如上所述,基于颜色的手分割通常不能正确地将手与包含类皮肤像素强度的背景区分开。因此,为了检测强边缘,本公开实现并执行MOMF以用于正确的手分割。描绘弱边缘和强边缘的行为的实例在如上所述的图4B中示出。从图4B中可看出,由强边缘形成的图案在横截面轮廓中非常类似于S形函数,而在切向轮廓中具有线形图案。因此,设计MOMF,其近似于横截面轮廓中的S形函数,同时在切线轮廓中为线形。这种尺寸为(2n+1)×(2m+1)的滤波器Gθ由下式给出:
其中,Gθ(x,y)表示位置(x,y)的滤波器Gθ的值;θ表示滤波器的方向;c提供滤波器缩放;而p表示处理方向,并由下式给出:
p=xcosθ+ysinθ (2)
-n≤x≤n,-m≤y≤m
不同方向的MOMF,θ可从图5A至图5C中可视化。更具体地,图5A描绘了根据本公开的实例实施方式的0度的多方向匹配滤波器方向。图5B描绘了根据本公开的实例实施方式的30度的多方向匹配滤波器方向。图5C描绘了根据本公开的实例实施方式的90度的多方向匹配滤波器方向。可观察到,本公开的MOMF被定义为使得其均值为零,因此它只能提供在方向θ上取向的强边缘信息。由于强边缘存在于多个方向,因此本公开的MOMF以不同的固定方向应用。因此,滤波器被称为MOMF。通过在预处理图像上应用定向匹配滤波器获得多个滤波器响应,并且通过最大滤波器响应给出像素处的最终响应。在数学上,最终的滤波器响应R由下式给出:
其中,和Θ分别表示卷积运算符和方向集。为了可视化,考虑图6A至6B,其分别描绘了输入图像和相应的R。可看出,R在强边缘处包含高值,而在背景和弱边缘处包含低值。更具体地,参考图1至图5C,图6A至图6B描绘了根据本公开的实例实施方式的在类皮肤背景上的多方向匹配滤波器(MOMF)响应。步骤306和308在图2的MOMF块204中执行。
从图6A至图6B中可看出,尽管通过在预处理阶段在输入图像上应用高斯平滑技术来去除弱边缘,但是一些弱边缘仍然以隔离斑点的形式存在于最终滤波器响应(也称为合并滤波器响应)中。为了对剩余的弱边缘滤波,本公开采用形态侵蚀技术。更具体地,在本公开的实施方式中,在步骤310处,一个或多个硬件处理器104从合并滤波器响应中滤波形成为一个或多个隔离的斑点的一个或多个弱边缘,以获得结果边缘图。通过对合并滤波器响应应用形态学侵蚀技术,滤波或去除形成为一个或多个隔离的斑点的一个或多个弱边缘。
在本公开的实施方式中,在步骤312处,一个或多个硬件处理器104将结果边缘图添加到预处理图像以获得结果图像。在一个实例实施方式中,结果图像包括彼此隔离的不同纹理区域。换句话说,使用以下方法将结果边缘图添加到原始图像(或预处理图像)I:
其中和max分别表示像素方式加法和最大值运算符。由于像素方式加法,结果图像/>在强边缘的位置处包含较高值,并且它们位于肤色范围之外。使用本领域已知的颜色分割技术从/>中检测皮肤像素。更具体地,在步骤314处,一个或多个硬件处理器104使用一个或多个色度通道从结果图像中检测多个皮肤像素。换句话说,系统100仅利用色度通道(Cb和Cr)进行检测,因为它们表现出更好的皮肤像素聚类和单模态分布。在一个实例实施方式中,色度通道的阈值是:77<Cb<127且133<Cr<173。
已经观察到,当背景中存在类皮肤像素时,皮肤滤波器(例如,本领域中已知的颜色分割技术)可引入嘈杂的斑点。为了解决将这些类皮肤背景斑点误解为手像素的问题,本公开仅保留最大的斑点。它基于以下假设:当在HMD上执行手势时,手区域将是FPV中最突出的对象。使用轮廓追踪技术(例如,本领域已知的技术)确定最大的斑点。更具体地,在步骤316处,一个或多个硬件处理器104从结果图像中识别最大的皮肤像素斑点。这个最大的皮肤像素斑点是分割手(也称为“正确的分割手”)。在一个实例实施方式中,步骤310和316在图2的皮肤分割块206中执行。在本公开的实施方式中,表达“皮肤分割块206”也可称为“手分割块206”,并且可在本文中互换使用。手分割的实例如图6C所示。更具体地,参考图1至图6B,图6C描绘了对应于包括在根据本公开的实施方式的图6A描绘的输入图像中的手的正确分割手。
结果
实验设置:
实验在XIAOMI REDMI Note 3上进行,配备有高通MSM8956骁龙650芯片组,六核CPU(4×1.4GHz Cortex-A53和2×1.8GHz Cortex-A72),Adreno 510GPU并运行Android5.1.1。在不同的照明条件下从该安卓机获得了总共484个手图像。这些属于31个不同的对象--18名男性和13名女性。为了测试本公开的方法的功效,数据集中的图像包含挑战性的背景,即,考虑了背景包含类皮肤强度。为了更严格的性能评估,本公开的方法在两个公开可用的数据集上测试,即G1至G7(例如,参考Jie Song、G′abor S¨or¨os、Fabrizio Pece、Sean Ryan Fanello、Shahram Izadi、Cem Keskin和Otmar Hilliges在第27届年度ACM用户界面软件和技术研讨会论文集.ACM,2014,pp.319-329中的“In-air gestures aroundunmodified mobile devices”)和以自我为中心手分割数据集(例如,参考LorenzoBaraldi、Francesco Paci、Giuseppe Serra、Luca Benini和Rita Cucchiara在IEEE计算机视觉会议论文集模式识别研讨会,2014,pp.688-693上的“Gesture recognition in ego-centric videos using dense trajectories and hand segmentation”)。
实施细节:
滤波器(MOMF)响应包含少量弱边缘,如果滤波器尺寸和方向数量足够大则减少这些弱边缘。但是大尺寸的滤波器导致较差的手定位,而大量的方向导致计算的增加。在实验之后,发现滤波器尺寸和方向数量Θ应分别设置为15×15和16,以进行正确的手分割。Θ设定为π/16的倍数。
手分割准确度:
本公开采用Jaccard指数来评估手分割准确度,使用:
其中,S是分割图像,并且G是地面真实图像。正确分割是指Jaccard指数J大于0.95的情况。因为在AR中手势识别通常需要手的大部分,所以在J上选择较高的阈值。观察到本公开的方法可正确地分割444个图像报告,而传统技术1(例如,Morerio等人-参考PietroMorerio、Lucio Marcenaro和Carlo S Regazzoni在信息融合(FUSION),2013年第16届国际会议上.IEEE,2013,pp.1502-1507上的,“Hand detection in first person vision”)可正确地分割326个图像。此外,本公开方法的平均Jaccard指数明显优于上述传统技术1(例如,Morerio等人)。
在公开可用的数据集上进行的实验结果显示在下表(例如,表1)和图7中。更具体地,参考图1至图6C,图7描绘了与通过传统技术1(图7的(c)中描绘的)和传统技术2(例如,图7的(d)描绘的参考Vijay Badrinarayanan、Alex Kendall和Roberto Cipolla在IEEETransactions on Pattern Analysis and Machine Intelligence,2017上的,“Segnet:Adeep convolutional encoder decoder architecture for image segmentation”)提出的YCbCr相比较的本公开的手分割结果。图7还分别包括图7的(a)中描绘的输入图像,和(b)中描绘的地面真实。
该表(例如,表1)使用Jaccard索引度量来描绘性能评估。还将本公开的方法与传统技术2进行比较,传统技术2基于深度学习并且广泛用于像素分割。
表1
从表1可看出,传统技术2可以比本公开的系统更好地执行,因为它采用了深度特征。不幸的是,其适用性受限于廉价HMD上的手势交互,因为这种交互需要实时处理,这是传统技术2所不能实现的。此外,传统技术2仅在训练和测试分布相同时才能准确地执行并且在不同的数据集上重新训练传统技术2是非常耗时的。从表1可观察到,传统技术2也花费更多时间来处理数据(例如,19000毫秒)。显然,与传统技术2所花费的时间相比,本公开的方法花费更少的时间(例如,36毫秒)。从表1还可观察到,本公开的方法需要比传统技术1和传统技术3更多的时间计算(例如,参考Shreyash Mohatta、Ramakrishna Perla、GauravGupta、Ehtesham Hassan和Ramya Hebbalaguppe在计算机视觉应用(WACV)中,2017IEEE冬季会议.IEEE,2017,pp.330-335“Robust hand gestural interaction for smartphonebased AR/VR applications”),但在正确的手分割方面表现优异(例如,参考表1中与传统技术1、传统技术3和本公开的方法相关的G1至G7的结果)。这是因为本公开的MOMF最终导致更好的手分割。
本公开呈现了廉价HMD(例如,具有智能电话的Google Cardboard)的手分割。通过本公开的系统和方法实现该特征的根本原因是使得廉价耳机能够用于AR应用,例如工业检查和旅游业。本公开的手分割方法实时地在设备上正确地执行,并且也不使用诸如深度和IR传感器的任何附加硬件。它是使用CLAHE、高斯模糊和本公开的MOMF设计的。为了评估本公开的用于手分割的方法,使用Jaccard Index将本公开的方法的结果与传统技术1和2进行比较。观察到传统技术2对于实时手分割是无用的,即使它提供比本公开的方法更好的手分割。此外,由于本公开的MOMF,本公开的方法比传统技术1执行明显更好的手分割。
书面描述描述了本文的主题,以使得本领域技术人员能够制造和使用这些实施方式。主题实施方式的范围由权利要求限定,并且可包括本领域技术人员想到的其他修改。如果这些其他修改具有与权利要求的字面语言没有不同的相似元素,或者如果它们包括与权利要求的字面语言无实质差别的等效元素,则这些其他修改旨在落入权利要求的范围内。
应当理解,保护范围扩展到这样的程序,并且除了其中具有消息的计算机可读装置之外;当程序在服务器或移动设备或任何合适的可编程设备上运行时,这种计算机可读存储装置包含用于实现该方法的一个或多个步骤的程序代码装置。硬件设备可以是任何类型的可编程的设备,包括例如任何类型的计算机,如服务器或个人计算机等,或其任何组合。该设备还可包括可以是例如硬件装置的装置,像例如专用集成电路(ASIC)、现场可编程门阵列(FPGA)或硬件和软件装置的组合,例如,ASIC和FPGA,或具有位于其中的软件模块的至少一个微处理器和至少一个存储器。因此,该装置可包括硬件装置和软件装置。本文描述的方法实施方式可用硬件和软件实现。该设备还可包括软件装置。可选地,实施方式可在不同的硬件设备上实现,例如,使用多个CPU。
本文的实施方式可包括硬件和软件元件。以软件实现的实施方式包括但不限于固件、驻留软件、微代码等。由本文描述的各种模块执行的功能可在其他模块或其他模块的组合中实现。出于本说明书的目的,计算机可用或计算机可读介质可以是能够包括、存储、通信、传播或传输程序以供指令执行系统、装置或设备使用或与之结合使用的任何装置。
所阐述的步骤被阐述以解释所示的示例性实施方式,并且应该预期正在进行的技术开发将改变执行特定功能的方式。出于说明而非限制的目的,本文提供了这些实例。此外,为了便于描述,本文任意地定义了功能构建块的边界。可定义替代边界,只要适当地执行指定的功能及其关系即可。基于本文包含的教导,相关领域的技术人员将清楚替代方案(包括本文描述的那些的等同物、扩展、变化、偏差等)。这些替代方案落入所公开实施方式的范围和精神内。此外,词语“包含”、“具有”、“含有”和“包括”以及其他类似形式在意义上是等同的并且是开放式的,因为在这些词中的任何一个之后的一个或多个项目不是意味着是这些项的详尽清单,或仅限于列出的项。还必须注意,如本文和所附权利要求中所使用的,单数形式“一”、“一个”和“该”包括复数指代,除非上下文另有明确说明。
此外,一个或多个计算机可读存储介质可用于实现与本公开一致的实施方式。计算机可读存储介质指的是可存储处理器可读的信息或数据的任何类型的物理存储器。因此,计算机可读存储介质可存储用于由一个或多个处理器执行的指令,包括用于使处理器执行与本文描述的实施方式一致的步骤或阶段的指令。术语“计算机可读介质”应该被理解为包括有形项并且不包括载波和瞬态信号,即,是非暂时的。实例包括随机存取存储器(RAM)、只读存储器(ROM)、易失性存储器、非易失性存储器、硬盘驱动器、CD ROM、DVD、闪存驱动器、磁盘和任何其他已知的物理存储介质。
旨在本公开和实例仅被视为示例性的,所公开的实施方式的真实范围和精神由所附权利要求示出。

Claims (12)

1.一种用于进行手分割的处理器实现的方法(300),包括:
获得至少包括手和背景的输入图像(302);
预处理所述输入图像以获得包括预处理手和预处理背景的预处理图像(304);
在所述预处理图像上应用多方向匹配滤波器(MOMF)以获得多个滤波器响应(306),其中,通过在一个或多个预定义的方向上旋转MOMF来将所述MOMF应用于所述预处理图像,以检测多个强边缘,并且其中,所述MOMF被设计成检测在手的横截面轮廓中非常类似于S形函数的所述多个强边缘,同时所述MOMF检测在所述手的切向轮廓中类似于线形图案的所述多个强边缘;
合并所述多个滤波器响应以获得包括所述多个强边缘和一个或多个弱边缘的合并滤波器响应(308);
从所述合并滤波器响应中滤波形成为一个或多个隔离的斑点的所述一个或多个弱边缘,以获得结果边缘图(310);
将所述结果边缘图添加到所述预处理图像以获得结果图像,其中,所述结果图像包括彼此隔离的纹理区域(312),其中,所述结果图像在所述多个强边缘的位置处包含较高的像素值,并且所述较高的像素值位于肤色范围之外;
使用一个或多个色度通道从所述结果图像中检测多个皮肤像素(314);和
从所述结果图像中识别最大的皮肤像素斑点,其中,所述最大的皮肤像素斑点是分割手(316)。
2.根据权利要求1所述的用于进行手分割的处理器实现的方法(300),其中,预处理所述输入图像的步骤包括对所述输入图像进行下采样以获得下采样图像并对所述下采样图像应用对比度受限局部直方图均衡(CLAHE)技术,以获得所述预处理图像。
3.根据权利要求1所述的用于进行手分割的处理器实现的方法(300),其中,通过在所述输入图像上应用高斯平滑技术,在所述输入图像的预处理期间对多个弱边缘滤波。
4.根据权利要求1所述的用于进行手分割的处理器实现的方法(300),其中,通过对所述合并滤波器响应应用形态学侵蚀技术来滤波形成为一个或多个隔离的斑点的所述一个或多个弱边缘。
5.一种用于进行手分割的系统(100),包括:
存储指令的存储器(102);
一个或多个通信接口(106);和
经由所述一个或多个通信接口(106)耦接到所述存储器(102)的一个或多个硬件处理器(104),其中,所述一个或多个硬件处理器(104)由所述指令配置为:
获得至少包括手和背景的输入图像;
预处理所述输入图像以获得包括预处理手和预处理背景的预处理图像;
在所述预处理图像上应用多方向匹配滤波器(MOMF)以获得多个滤波器响应,其中,通过在一个或多个预定义的方向上旋转MOMF来将所述MOMF应用于所述预处理图像,以检测多个强边缘,并且其中,所述MOMF被设计成检测在手的横截面轮廓中非常类似于S形函数的所述多个强边缘,同时所述MOMF检测在所述手的切向轮廓中类似于线形图案的所述多个强边缘;
合并所述多个滤波器响应以获得包括所述多个强边缘和一个或多个弱边缘的合并滤波器响应;
从所述合并滤波器响应中滤波形成为一个或多个隔离的斑点的所述一个或多个弱边缘,以获得结果边缘图;
将所述结果边缘图添加到所述预处理图像以获得结果图像,其中,所述结果图像包括彼此隔离的纹理区域,其中,所述结果图像在所述多个强边缘的位置处包含较高的像素值,并且所述较高的像素值位于肤色范围之外;
使用一个或多个色度通道从所述结果图像中检测多个皮肤像素;和
从所述图像中识别最大的皮肤像素斑点,其中,所述最大的皮肤像素斑点是分割手。
6. 根据权利要求5所述的用于进行手分割的系统,其中,所述图像通过以下方式预处理:
对所述图像进行下采样以获得下采样图像;和
在所述下采样图像上应用对比度受限局部直方图均衡(CLAHE)技术以获得所述预处理图像。
7.根据权利要求5所述的用于进行手分割的系统,其中,通过在所述输入图像上应用高斯平滑技术,在所述输入图像的预处理期间对多个弱边缘滤波。
8.根据权利要求5所述的用于进行手分割的系统,其中,通过对所述合并滤波器响应应用形态学侵蚀技术来滤波形成为一个或多个隔离的斑点的所述一个或多个弱边缘。
9.一种或多种非暂时性机器可读信息存储介质,包括一个或多个指令,当由一个或多个硬件处理器执行时,所述指令使得:
获得至少包括手和背景的输入图像;
预处理所述输入图像以获得包括预处理手和预处理背景的预处理图像;
在所述预处理图像上应用多方向匹配滤波器(MOMF)以获得多个滤波器响应,其中,通过在一个或多个预定义的方向上旋转MOMF来将所述MOMF应用于所述预处理图像,以检测多个强边缘,并且其中,所述MOMF被设计成检测在手的横截面轮廓中非常类似于S形函数的所述多个强边缘,同时所述MOMF检测在所述手的切向轮廓中类似于线形图案的所述多个强边缘;
合并所述多个滤波器响应以获得包括所述多个强边缘和一个或多个弱边缘的合并滤波器响应;
从所述合并滤波器响应中滤波形成为一个或多个隔离的斑点的所述一个或多个弱边缘,以获得结果边缘图;
将所述结果边缘图添加到所述预处理图像以获得结果图像,其中,所述结果图像包括彼此隔离的纹理区域,其中,所述结果图像在所述多个强边缘的位置处包含较高的像素值,并且所述较高的像素值位于肤色范围之外;
使用一个或多个色度通道从所述结果图像中检测多个皮肤像素;和
从所述结果图像中识别最大的皮肤像素斑点,其中,所述最大的皮肤像素斑点是分割手。
10.根据权利要求9所述的一种或多种非暂时性机器可读信息存储介质,其中,预处理图像的步骤包括对所述图像进行下采样以获得下采样图像并对所述下采样图像应用对比度受限局部直方图均衡(CLAHE)技术以获得所述预处理图像。
11.根据权利要求9所述的一种或多种非暂时性机器可读信息存储介质,其中,通过在所述输入图像上应用高斯平滑技术,在所述输入图像的预处理期间对多个弱边缘滤波。
12.根据权利要求9所述的一种或多种非暂时性机器可读信息存储介质,其中,通过对所述合并滤波器响应应用形态学侵蚀技术来滤波形成为一个或多个隔离的斑点的所述一个或多个弱边缘。
CN201910779736.6A 2018-09-06 2019-08-22 用于进行手分割的系统和方法 Active CN110879957B (zh)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
IN201821033598 2018-09-06
IN201821033598 2018-09-06

Publications (2)

Publication Number Publication Date
CN110879957A CN110879957A (zh) 2020-03-13
CN110879957B true CN110879957B (zh) 2023-08-04

Family

ID=67544055

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910779736.6A Active CN110879957B (zh) 2018-09-06 2019-08-22 用于进行手分割的系统和方法

Country Status (7)

Country Link
US (1) US11069067B2 (zh)
EP (1) EP3621031B1 (zh)
JP (1) JP7277312B2 (zh)
KR (1) KR102363973B1 (zh)
CN (1) CN110879957B (zh)
AU (1) AU2019219714B2 (zh)
CA (1) CA3053340C (zh)

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102893327A (zh) * 2010-03-19 2013-01-23 数字标记公司 直觉计算方法和系统
CN105069803A (zh) * 2015-08-19 2015-11-18 西安交通大学 一种基于彩色图像的糖尿病病变体微血管瘤的分类装置
CN106663314A (zh) * 2014-09-19 2017-05-10 英特尔公司 实时皮肤平滑图像增强滤波器
CN107368792A (zh) * 2017-06-29 2017-11-21 广州智慧城市发展研究院 一种基于滤波器以及主干边缘的指静脉识别方法及系统
CN107430680A (zh) * 2015-03-24 2017-12-01 英特尔公司 多层皮肤检测和融合手势匹配

Family Cites Families (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7356183B2 (en) * 2002-07-01 2008-04-08 Xerox Corporation Segmentation method and system for multiple raster content (MRC) representation of documents
US8823745B2 (en) * 2011-06-02 2014-09-02 Yoostar Entertainment Group, Inc. Image processing based on depth information and color data of a scene
JP5971108B2 (ja) 2012-12-18 2016-08-17 富士通株式会社 画像処理装置、画像処理方法および画像処理プログラム
RU2013106513A (ru) * 2013-02-14 2014-08-20 ЭлЭсАй Корпорейшн Способ и устройство для улучшения изображения и подтверждения границ с использованием по меньшей мере одного дополнительного изображения
US9390327B2 (en) 2013-09-16 2016-07-12 Eyeverify, Llc Feature extraction and matching for biometric authentication
JP6737108B2 (ja) 2016-09-27 2020-08-05 富士通株式会社 画像補正装置、画像補正方法及び画像補正用コンピュータプログラム

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102893327A (zh) * 2010-03-19 2013-01-23 数字标记公司 直觉计算方法和系统
CN106663314A (zh) * 2014-09-19 2017-05-10 英特尔公司 实时皮肤平滑图像增强滤波器
CN107430680A (zh) * 2015-03-24 2017-12-01 英特尔公司 多层皮肤检测和融合手势匹配
CN105069803A (zh) * 2015-08-19 2015-11-18 西安交通大学 一种基于彩色图像的糖尿病病变体微血管瘤的分类装置
CN107368792A (zh) * 2017-06-29 2017-11-21 广州智慧城市发展研究院 一种基于滤波器以及主干边缘的指静脉识别方法及系统

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
HAND SEGMENTATION IN COMPLEX ENVIRONMENT BASED ON SKIN COLOR MODEL AND BOUNDARY CUTTING;XIN CUl等;《网页在线公开:https://ieeexplore.ieee.org/stamp/stamp.jsp?tp=&arnumber=6359508&tag=1》;20120715;摘要、3.1-3.2节及图1-6 *

Also Published As

Publication number Publication date
AU2019219714A1 (en) 2020-03-26
EP3621031B1 (en) 2021-06-30
CN110879957A (zh) 2020-03-13
KR20200028316A (ko) 2020-03-16
EP3621031A1 (en) 2020-03-11
US20200082538A1 (en) 2020-03-12
AU2019219714B2 (en) 2023-11-30
CA3053340C (en) 2023-08-22
JP7277312B2 (ja) 2023-05-18
US11069067B2 (en) 2021-07-20
CA3053340A1 (en) 2020-03-06
KR102363973B1 (ko) 2022-02-15
JP2020042798A (ja) 2020-03-19

Similar Documents

Publication Publication Date Title
JP7110502B2 (ja) 深度を利用した映像背景減算法
US11182909B2 (en) Scalable real-time hand tracking
CN111488791A (zh) 将指尖运动模式实时地设备上分类为手势
US20170213112A1 (en) Utilizing deep learning for automatic digital image segmentation and stylization
AU2013206597A1 (en) Depth constrained superpixel-based depth map refinement
US11321822B2 (en) Determining image defects using image comparisons
US20180253852A1 (en) Method and device for locating image edge in natural background
CN111652796A (zh) 图像处理方法、电子设备及计算机可读存储介质
Beyeler OpenCV with Python blueprints
US9355332B2 (en) Pattern recognition based on information integration
US10586335B2 (en) Hand segmentation in a 3-dimensional image
CN109948450A (zh) 一种基于图像的用户行为检测方法、装置和存储介质
Joshi OpenCV with Python by example
CN112990204A (zh) 目标检测方法、装置、电子设备及存储介质
CN112380566A (zh) 用于对文档图像进行脱敏的方法、装置、电子设备及介质
CN115761826A (zh) 掌静脉有效区域提取方法、系统、介质及电子设备
CN110879957B (zh) 用于进行手分割的系统和方法
CN110427909B (zh) 一种移动端驾驶证检测方法、系统及电子设备和存储介质
WO2020155984A1 (zh) 人脸表情图像处理方法、装置和电子设备
Maurya et al. Real time hand segmentation on frugal headmounted device for gestural interface
CN114387315A (zh) 图像处理模型训练、图像处理方法、装置、设备及介质
Sintunata et al. Skeleton extraction in cluttered image based on Delaunay triangulation
Tian et al. Improving arm segmentation in sign language recognition systems using image processing
KR20210026176A (ko) 딥 러닝을 위한 라벨링 이미지 생성 방법
Liu et al. Light direction estimation and hand touchable interaction for augmented reality

Legal Events

Date Code Title Description
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant