CN102411705B - 识别用户的动态器官姿态的方法和接口以及电子利用装置 - Google Patents

识别用户的动态器官姿态的方法和接口以及电子利用装置 Download PDF

Info

Publication number
CN102411705B
CN102411705B CN201110263728.XA CN201110263728A CN102411705B CN 102411705 B CN102411705 B CN 102411705B CN 201110263728 A CN201110263728 A CN 201110263728A CN 102411705 B CN102411705 B CN 102411705B
Authority
CN
China
Prior art keywords
region
target image
hog descriptor
similar value
rho
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
CN201110263728.XA
Other languages
English (en)
Other versions
CN102411705A (zh
Inventor
具亨埈
李承启
南铉贞
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
LG Display Co Ltd
Original Assignee
LG Display Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by LG Display Co Ltd filed Critical LG Display Co Ltd
Publication of CN102411705A publication Critical patent/CN102411705A/zh
Application granted granted Critical
Publication of CN102411705B publication Critical patent/CN102411705B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/107Static hand or arm
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/50Extraction of image or video features by performing operations within image blocks; by using histograms, e.g. histogram of oriented gradients [HoG]; by summing image-intensity values; Projection analysis

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Theoretical Computer Science (AREA)
  • Human Computer Interaction (AREA)
  • Image Analysis (AREA)

Abstract

本发明涉及识别用户的动态器官姿态的方法和接口以及使用该接口的电子利用装置。在电子利用装置中使用的识别用户的动态器官的方法包括以下步骤:对通过成像部件所输入的背景图像和目标图像进行比较,以检测备选区域,其中,所述备选区域包括目标图像的、该目标图像与背景图像之间的差异的部分;利用窗口来扫描备选区域;当判断扫描的区域包括动态器官时,生成扫描的目标图像的区域的HOG(方向梯度直方图)描述符;针对动态器官的姿态测量扫描的区域的HOG描述符和查询模板的HOG描述符之间的相似值;以及当相似值满足预定条件时,判断扫描区域包括动态器官的姿态。

Description

识别用户的动态器官姿态的方法和接口以及电子利用装置
技术领域
本发明涉及识别用户的动态器官姿态的方法,并且更具体地涉及识别用户的动态器官姿态的方法和接口以及使用该接口的电子利用装置。
背景技术
随着基于图像信息对各种多媒体系统的开发,增加了对理解图像中所包括的信息并将信息应用于各种领域的需要。具体地说,通过识别图像中的人的姿态(诸如手部运动)建立更简单的接口环境受到了许多关注。
但是,在相关技术中,当背景复杂或者存在除了手之外的皮肤颜色区域时,难以精确地对手进行识别。
下面简要地说明相关技术中识别手姿态的方法。利用多个数据组在归一化的RGB颜色空间中执行基于高斯混合模型的学习。利用与通过学习所产生的模型的相似度,在帧图像中检测皮肤颜色图像。此外,利用帧图像之间的亮度差异产生手运动图像。通过将手运动图像应用至检测到的皮肤颜色图像,生成手似然(likelihood)图像。利用完整的图像特征,从手似然图像检测出手备选区域。利用手备选区域的中心坐标和光流分量,最终判断手姿态。
上述的相关技术方法具有以下问题。当在图像中除了手区域以外还存在皮肤颜色区域时,难以区分二者。此外,当在背景中存在类似于人的运动时,难以检测手运动。此外,需要大量的数据组,并且需要许多时间和努力来基于数据组做出可靠的模型。此外,该方法易于受到室内照明的变化的影响,并且由于用于拍摄图像的相机的噪声,常常出现手运动的错误检测。
如上所述,相关技术方法导致效率和可靠性的降低。
发明内容
因此,本发明致力于基本上消除了由于相关技术的限制和缺点所导致的一个或更多个问题的一种识别用户的动态器官姿态的方法和接口以及利用该接口的电子利用装置。
本发明的优点是提供一种可以提高效率和可靠性的识别用户的动态器官姿态的方法和接口以及利用该接口的电子利用装置。
本发明的其它特征和优点将在随后的说明中进行阐述,并且部分地根据描述将变得清楚,或者可以通过本发明的实践而获知。本发明的这些优点和其它优点可以通过在说明书及其权利要求书以及附图中所具体指出的结构而获得并实现。
为了实现这些优点和其它优点,并且根据本文中所具体体现和广泛描述的本发明的目的,本发明提供了一种在电子利用装置中使用的识别用户的动态器官的方法,该方法包括以下步骤:对通过成像部件所输入的背景图像和目标图像进行比较,以检测备选区域,其中,所述备选区域包括目标图像的、目标图像和背景图像之间差异的部分;利用窗口来扫描备选区域;当判断扫描的区域包括动态器官时,生成扫描的目标图像的区域的HOG(方向梯度直方图)描述符;测量扫描的区域的HOG描述符和针对动态器官的姿态的查询模板的HOG描述符之间的相似值;以及当相似值满足预定条件时,判断扫描区域包括动态器官的姿态。
在另一方面,一种在电子利用装置中使用的接口包括:成像部件;以及动态器官姿态识别部。动态器官姿态识别部对通过成像部件所输入的背景图像和目标图像进行比较,以检测备选区域,其中,所述备选区域包括目标图像的、该目标图像和背景图像之间差异的部分;利用窗口来扫描备选区域;当判断出扫描的区域包括动态器官时,生成扫描的目标图像的区域的HOG(方向梯度直方图)描述符;测量扫描区域的HOG描述符和针对动态器官的姿态的查询模板的HOG描述符之间的相似值;并且当相似值满足预定条件时,判断扫描区域包括动态器官的姿态。
在另一方面,一种电子利用装置包括接口和控制电路。该接口包括动态器官姿态识别部,该动态器官姿态识别部对通过成像部件所输入的背景图像和目标图像进行比较,以检测备选区域,其中,所述备选区域包括目标图像的、该目标图像与背景图像之间差异的部分;利用窗口来扫描备选区域;当判断扫描的区域包括动态器官时,生成扫描的目标图像的区域的HOG(方向梯度直方图)描述符;测量扫描区域的HOG描述符和针对动态器官的姿态的查询模板的HOG描述符之间的相似值;并且当相似值满足预定条件时,判断扫描区域包括动态器官的姿态。该控制电路根据来自所述接口的所述动态器官的姿态的识别结果来控制所述电子利用装置的操作。
应当理解,上文对本发明的概述与下文对本发明的详述都是示例性和说明性的,旨在对如权利要求所保护的本发明提供进一步的解释。
附图说明
附图被包括进来以提供对本发明的进一步的理解,并被并入且构成本说明书的一部分,附图例示了本发明的实施方式,并且与说明书一起用于解释本发明的原理。
在附图中:
图1是例示根据本发明的实施方式的包括识别手姿态的接口的装置的示意图;
图2是例示根据本发明的实施方式的识别手姿态的方法的示意图;
图3是例示没有出现噪声的目标图像的示例的图片;
图4是例示在图3的目标图像中出现噪声的图片;
图5是例示针对图4的目标图像的边缘幅值图的图片;
图6是例示根据本发明的实施方式针对图4的目标图像所生成的HOS图的图片;
图7是例示根据本发明的实施方式的生成HOG描述符的处理的示例的视图;
图8是例示根据本发明的实施方式利用目标图像和背景图像之间的相似度检测备选区域的示例的视图;
图9是例示根据本发明的实施方式的窗口扫描的示例的视图;以及
图10至图13是示出了根据本发明的实施方式在各种环境下的手姿态识别的结果的图片。
具体实施方式
下面将具体地描述本发明的例示的实施方式,在附图中示出了这些实施方式。
图1是例示根据本发明的实施方式的包括识别手姿态的接口的装置的示意图,并且图2是例示根据本发明的实施方式的识别手姿态的方法的示意图。
参照图1,装置10可以包括接口100和控制电路200。
可以将装置10定义为基于通过接口100输入的信息进行控制和操作并在操作中利用电力的所有类型的装置之一。例如,诸如等离子体显示板、液晶显示器或者有机发光二极管的显示装置、洗衣机、电冰箱、空调机、工业设备等各种设备可以用作根据该实施方式的装置10。因此,可以将装置10称为电子利用装置10。
接口100可以包括成像部件110和手姿态识别部120。
相机可以用作成像部件110。成像部件110拍摄在其前面的图像,并且通过帧将拍摄的图像输入到手姿态识别部120。
根据所输入的图像,手姿态识别部120检测并识别手姿态。
将手姿态的识别结果传送到控制电路200。控制电路200生成并输出与手姿态的识别结果相对应的控制指令。
根据控制指令,控制并操作电子利用装置10。例如,当将显示装置用作装置10时,可以执行诸如关闭电源、改变频道和调整音量等的各种指令。
进一步参照图2至图9说明根据本发明的实施方式的识别手姿态的方法。
预先通过成像部件110拍摄背景并存储在存储部件中。为了方便说明,可以将所拍摄的背景的图像称为背景图像。
接着,执行第一步骤ST1,在背景上存在用户的状态下通过成像部件110拍摄图像,并且将图像输入到手姿态识别部120。为了方便说明,可以将作为针对当前帧所输入的、用于识别手姿势的图像的帧图像称为目标图像。
接着,执行第二步骤ST2,针对目标图像生成HOS图。
利用HOS(高阶统计量)信息来生成HOS图。换言之,找到针对目标图像的像素的亮度的HOS信息,并且因而改变特征空间。
为了找到针对各像素的HOS信息,利用下面的第一表达式: m ( 2 ) ( x , y , n ) = 1 N B Σ ( x , y ) ∈ B ( x , y ) ( I ( x , y , n ) - m ^ ( x , y , n ) ) 2 来计算二阶矩。在第一表达式中,B(x,y)是在坐标(x,y)处的像素和周围像素的集合,并且NB是B(x,y)的幅值。I(x,y,n)是在第n帧中的坐标(x,y)处的像素的亮度,并且
Figure BDA0000089635660000042
是在第n帧中的B(x,y)的平均亮度。关于第一表达式,由于二阶矩的范围可以大大超过图像亮度的最大值,所以可以将范围的最高值限制为预定值,例如图像亮度的最大值。例如,当最高值限制为“255”时,通过下面的第二表达式: HOS ( x , y , n ) = MIN ( 255 , m ( 2 ) ( x , y ) DSF ) 来找到HOS信息。DSF是缩小比例因子,并且,在本实施方式中,例如将“10”赋予给DSF。
利用通过上述第一和第二表达式获得的HOS信息,可以生成针对目标图像的HOS图。
如上所述,由于利用HOS信息生成了HOS图,所以即使因为成像部件110等在目标图像中出现噪声,也可以进行手姿态的鲁棒(robust)的识别。这参照图3至图6来说明。
图3示出了没有出现噪声的目标图像的示例,图4示出了在图3的目标图像中出现了噪声,图5示出了针对图4的目标图像的边缘幅值图,并且图6示出了根据本发明的实施方式针对图4的目标图像所生成的HOS图。
比较图5的边缘幅值图和图6的HOS图,在目标图像中存在噪声的情况下,与在边缘幅值图中相比,在HOS图中更好地保存了手的边界。
同样,由于采用HOS图,不仅当没有噪声地输入原始图像本身作为目标图像时可以保证手姿态识别的可靠性,而且当目标图像具有噪声时,也可以保证手姿态识别的可靠性。
针对背景图像生成了HOS图,并且这可以在生成针对目标图像的HOS图的处理中执行,或者可以在生成针对目标图像的HOS图的处理之前执行,并且针对背景图像的HOS图可以存储在存储部件中。
可以利用上述的第一表达式和第二表达式来生成背景图像的HOS图。
接着执行第三步骤ST3,将目标图像的HOS图分为尺寸相同的区域,并且将背景图像的HOS图分为尺寸相同的区域。因此,目标图像的划分出的区域被配置为分别对应于背景图像的划分出的区域。
接着,执行第四步骤ST4,基于目标图像的HOS图生成针对目标图像的各个划分出的区域的HOG(方向梯度直方图)描述符,并且基于背景图像的HOS图生成针对背景图像的各个划分出的区域的HOG描述符。
在生成HOG描述符时,针对目标图像的各个划分出的区域和背景图像的各个划分出的区域,利用亮度梯度的幅值和方向逐块来生成直方图。块被配置为具有比划分出的区域的尺寸更小的尺寸。例如,块具有W/4*H/4的尺寸,并且W和H分别是划分出的区域的宽度和高度。
通过连接针对划分出的区域中的全部块的直方图,可以生成目标图像的划分出的区域和背景图像的划分出的区域各自的HOG描述符。通过下面的第三和第四表达式可以找到针对块的直方图。
第三表达式为 H r , i b = ( h r , i , 1 b , h r , i , 2 b , . . . , h r , i , K b ) ,
其中 h r , i , j b = E r , i , j Σ l = 1 K ( E r , i , l ) 2 + ϵ 并且 E r , i , j = Σ ( x , y ) ∈ B r , i θ ( x , y ) ∈ j m ( x , y ) .
第四表达式为 H r , i t ( n ) = ( h r , i , 1 t ( n ) , h r , i , 2 t ( n ) , . . . , h r , i , K t ( n ) ) ,
其中 h r , i , j t ( n ) = E r , i , j Σ l = 1 K ( E r , i , l ) 2 + ϵ 并且 E r , i , j = Σ ( x , y ) ∈ B r , i θ ( x , y ) ∈ j m ( x , y ) .
该i是块的索引,并且K是针对方向的量化级别。m(x,y)是在坐标(x,y)处的像素的亮度梯度的幅值,并且θ(x,y)是被量化的方向。r和n分别是划分出的区域和帧编号的索引。该ε是小的正实数,例如0.00001,并且它设置为使得分母不为零。块的索引是指示块的位置的因子,并且划分出的区域的索引是指示划分出的区域的位置的因子。
通过连接通过第三和第四表达式获得的直方图,可以生成针对目标图像的划分出的区域和背景图像的划分出的区域的HOG描述符。针对目标图像的划分出的区域和背景图像的划分出的区域的HOG描述符可以分别表达为
Figure BDA0000089635660000066
Figure BDA0000089635660000067
沿x方向和y方向相邻的块可以被布置为彼此交叠。例如,沿x方向相邻的块可以彼此交叠达半个块的宽度,并且沿y方向相邻的块可以彼此交叠达半个块的高度。但是,应该理解,交叠宽度和高度可以变化。
图7示出了根据本发明的实施方式的生成HOG描述符的处理的示例。在图7中示出了针对左边的目标图像的划分出的矩形区域生成HOG描述符。
参照图7,通过箭头表示针对划分出的区域中的各个像素的亮度梯度的幅值和方向。箭头的长度是亮度梯度的大小。
针对划分出的区域,逐块生成直方图,并且连接直方图以最终生成HOG描述符。在图7中,示出了利用5-bin(小区间)边缘方向直方图生成HOG描述符。在这种情况下,5个小区间可以包括4个小区间和一个附加小区间,其中,4个小区间(从左到右顺序地示出)对应于4个量化级别(分别赋予从0度以上到45度的范围、从45度以上到90度的范围、从90度以上到135度的范围、以及从135度以上到180度的范围)。附加的小区间是针对0度的方向。
接着,为了从目标图像删除围绕用户的背景,要确定目标图像和背景图像是否匹配。
为此,例如执行第五步骤ST5,该步骤测量目标图像和背景图像的对应的划分出的区域的HOG描述符之间的相似值。该相似值可以称为第一相似值。
为了测量第一相似值,可以利用余弦相似度。借助余弦相似度的第一相似值在下面的第五表达式中进行测量:
f ( ρ r ) = ρ r 1 - ρ r , 其中 ρ r ( H r b , H r t ) = ( H r b ) T H r t | | H r b | | | | H r t | | .
Figure BDA0000089635660000073
Figure BDA0000089635660000074
的置换矩阵,ρr是余弦相似度,并且f(ρr)是相似值测量函数。
接着,执行第六步骤ST6,判断通过第五表达式测出的第一相似值是否大于第一临界值TH1。
当第一相似值是第一临界值TH1或更小时,判断目标图像的划分出的区域基本不等于背景图像的划分出的区域。在该情况下,执行第七步骤ST7,将目标图像的划分出的区域添加到备选区域。
当第一相似值大于第一临界值TH1时,判断目标图像的划分出的区域基本等于背景图像的划分出的区域。
当第一相似值等于第一临界值TH1或更小时,判断目标图像的划分出的区域基本不同于背景图像的划分出的区域。
如上所述,通过在目标图像的划分出的区域的HOG描述符和背景图像的划分出的区域的HOG描述符之间的相似度是否满足预定条件,可以判断在目标图像的划分出的区域中是否存在背景。
接着,执行第八步骤ST8,判断该划分出的区域是否为最后划分出的区域。例如,这可以通过划分出的区域的索引来确认。该步骤的执行与目标图像和背景图像的划分出的区域的HOG描述符之间的相似度无关。
当该划分出的区域不是最后划分出的区域时,返回到第六步骤ST6,并针对下一个划分出的区域重复上述的第六步骤ST6之后的步骤。
当划分出的区域是最后划分出的区域时,最终确定备选区域并执行下一个步骤。
参照图8描述上述检测备选区域的方法。图8示出了根据本发明的实施方式的利用目标图像和背景图像之间的相似度来检测备选区域的示例。在图8中,虚线围绕的区域表示划分的区域。
参照图8,从目标图像排除包括背景的划分出的区域,同时保留包括用户图像的划分出的区域,以最终构成备选的区域。
如上所述,通过目标图像的划分出的区域是否包括用户的图像,可以从目标图像检测备选区域。因此,对于不包括用户图像的区域不再需要后续的步骤。因而,手姿态识别的速率可以是快速的。
在确定了备选区域后,执行第九步骤ST9,通过窗口WD扫描备选区域。
参照图9说明窗口扫描,图9是例示了根据本发明的实施方式的窗口扫描的示例的视图。
参照图9,具有宽度W和高度H的窗口WD沿着例如行的方向(即,x方向)移动,并执行扫描。完全扫描了一行(即扫描行),并接着执行下一个扫描行的扫描。
窗口WD通过扫描所移动的距离D、即沿行方向的相邻窗口扫描之间的距离可以小于窗口WD的宽度W。例如,扫描当前的扫描区域,接着窗口WD移动达小于与宽度W相对应的像素数量的像素数量,并接着扫描下一个扫描区域。因此,沿行方向的相邻扫描区域可以彼此交叠。
此外,沿列方向(即,y方向)的相邻扫描区域可以彼此交叠。例如,完全执行了对扫描行的扫描,接着窗口WD移位达小于与高度H相对应的像素数量的像素数量,并接着扫描下一个扫描行。因此,沿列方向的相邻扫描区域可以彼此交叠。
可以将窗口WD的尺寸设置为与上述划分的区域的尺寸相同。但是,应该理解,窗口WD的尺寸可以变化。
此外,优选的是,窗口WD的尺寸被配置为与针对手姿态的查询模板的尺寸相同。针对手姿态的查询模板是用以在目标图像中识别相应的手姿态的特定的手形模板。
接着,为了判断扫描区域是否包括查询模板的手姿态,执行模板匹配。
为此,例如执行第十步骤ST10,测量在查询模板的HOG描述符和扫描区域的HOG描述符之间的相似值。可以将该相似值称为第二相似值。
查询模板的HOG描述符和扫描区域的HOG描述符可以分别指如上所述的背景图像的划分出的区域的HOG描述符和目标图像的划分出的区域的HOG描述符。
例如,通过连接经由下面的第六表达式所获得的查询模板的块的直方图,可以生成查询模板的HOG描述符。此外,通过连接经由下面的第七表达式所获得的扫描区域的块的直方图,可以生成扫描区域的HOG描述符。基于如上所述的HOS图可以生成扫描区域的HOG描述符。为了方便说明,将第七表达式相同地表示为第四表达式。
第六表达式是 H i q = ( h i , 1 q , h i , 2 q , . . . , h i , K q ) ,
其中 h i , j q = E i , j Σ l = 1 K ( E i , l ) 2 + ϵ 并且 E i , j = Σ ( x , y ) ∈ B i θ ( x , y ) ∈ j m ( x , y ) .
第七表达式是 H r , i t ( n ) = ( h r , i , 1 t ( n ) , h r , i , 2 t ( n ) , . . . , h r , i , K t ( n ) ) ,
其中 h r , i , j t ( n ) = E r , i , j Σ l = 1 K ( E r , i , l ) 2 + ϵ 并且 E r , i , j = Σ ( x , y ) ∈ B r , i θ ( x , y ) ∈ j m ( x , y ) .
通过第六和第七表达式所获得的查询模板的HOG描述符和扫描区域的HOG描述符可以分别表示为Hq
Figure BDA0000089635660000097
当执行窗口扫描时,可以生成扫描区域的HOG描述符。当生成扫描区域的HOG描述符时可以生成查询模板的HOG描述符,或者可以在生成扫描区域的HOG描述符之前生成查询模板的HOG描述符并存储在存储装置中。针对查询模板和扫描区域的块可以是(但不限于)与针对背景图像和目标图像的块尺寸上相同并且/或者交叠地布置的块。
为了测量在查询模板的HOG描述符和扫描区域的HOG描述符之间的第二相似值,可以利用余弦相似度。
测量第二相似值可以指测量上述第一相似值。
例如,在下面的第八表达式中测量第二相似值: f ( ρ r ) = ρ r 1 - ρ r , 其中 ρ r ( H q , H r t ( n ) ) = ( H q ) T H r t ( n ) | | H q | | | | H r t ( n ) | | .
(Hq)T是Hq的置换矩阵,ρr是余弦相似度,并且f(ρr)是相似值测量函数。
接着执行第十一步骤ST11,判断通过第八表达式所测量的第二相似值是否大于第二临界值TH2。
当第二相似值大于第二临界值TH2时,判断扫描区域包括查询模板的手姿态。因此,手姿态被识别。
当第二相似值是第二临界值TH2或更小时,判断扫描区域不包括查询模板的手姿态。
如上所述,通过判断查询模板的HOG描述符和扫描区域的HOG描述符之间的相似度是否满足预定条件,可以判断在扫描区域中是否存在查询模板的手姿态。
可以准备分别对应于多个控制指令的多个查询模板。在这种情况下,可以将优先级编号赋予多个查询模板。因此,当与具有优先级编号的查询模板的相似度不能满足预定条件时,执行对与具有下一个较低优先级编号的查询模板的相似度是否满足预定条件进行判断的处理。
当第二相似值是第二临界值TH2或更小时,执行第十二步骤ST12,即判断是否完成了全部备选区域的扫描。
当未完成全部扫描时,返回到第九步骤ST9并重复如上所述的后续步骤。
当完成全部扫描时,最终确定目标图像不包括查询模板的手姿态。换言之,未识别出手姿态。
另选地,当确定出扫描区域包括手姿态时,可以执行判断全部备选区域的扫描是否完成的步骤。在这种情况下,当没有进行完整的扫描时,返回到第九步骤ST9。这对于使用两只手时的多姿态识别可能是有用的。
当根据上述方法识别出手姿态时,做出相应的控制指令,并且电子利用装置10根据控制指令进行操作。
当未识别出手姿态时,例如可以保持前面的控制指令,并且可以没有变化地保持电子利用装置10的操作。
如上所述,在本发明的实施方式中,为了识别手姿态,比较背景图像和目标图像以检测具有它们之间的差异图像的备选区域,接着针对备选区域执行窗口扫描,接着基于HOS图生成扫描区域的HOG描述符,并接着判断扫描区域的HOG描述符和查询模板的HOG描述符之间的相似度。
同样,由于针对备选区域执行后续步骤,手姿态识别的速率可以非常快。
此外,虽然在输入的目标图像中包含噪声,但是包括了生成HOS图以去除噪声的步骤。因此,可以提高手姿态识别的精确度和可靠性。
此外,将查询模板用于手姿态识别。因此,与利用许多数据组的基于学习的相关技术方法相比,可以减少时间并降低成本。
此外,由于利用基于HOS图的HOG描述符对手的形状进行了有效建模,所以实施方式的方法对于照明的变化是鲁棒的,并且即使当存在皮肤颜色背景或发生与其它身体部位的交叠时,也可以精确地识别手区域。
因此,根据本发明的实施方式,可以提高手姿态识别的可靠性和效率。
图10至图13是例示了根据本发明的实施方式在各种环境下的手姿态识别的结果的图片。
图10至图13分别示出在背景中存在移动的环境下的结果、在背景中存在复杂的配置的环境下的结果、在手和脸交叠的环境下的结果、以及在广泛存在皮肤颜色背景的环境下的结果。
参照图10至图13,即使在各种环境下也能精确地识别手形状。
在上述实施方式中,将识别手姿态的方法作为示例进行了说明。但是,应该理解,该方法可以应用于器官(诸如脚、手臂、腿和头等)的、能够在视觉上表达用户的意图的姿态(即,动态器官)的识别。
对于本领域的技术人员明显的是,在不脱离本发明的精神和范围的情况下,可以对本发明进行各种修改和变型。因而,本发明旨在涵盖落入所附权利要求及其等同物的范围内的所有修改和变型。
本发明要求2010年9月17日提交的韩国专利申请第10-2010-0091743号的优先权,针对所有目的通过引用将其并入本文,如同在此进行了完整阐述一样。

Claims (21)

1.一种在电子利用装置中使用的识别用户的动态器官的方法,所述方法包括以下步骤:
对通过成像部件所输入的背景图像和目标图像进行比较,以检测备选区域,其中,所述备选区域包括所述目标图像的、所述目标图像和所述背景图像之间的差异的部分;
利用窗口来扫描所述备选区域;
当判断所扫描的区域包括动态器官时,生成所扫描的所述目标图像的区域的方向梯度直方图HOG描述符;
测量所扫描的所述区域的HOG描述符和针对所述动态器官的姿态的查询模板的HOG描述符之间的相似值;以及
当所述相似值满足预定条件时,判断所扫描的所述区域包括所述动态器官的所述姿态,
其中,检测所述备选区域的步骤包括以下步骤:
将所述背景图像和所述目标图像各自划分为多个区域;
测量所述背景图像和所述目标图像的对应的划分出的区域之间的另一相似值;以及
当所述另一相似值满足另一预定条件时,将所述目标图像的所划分出的区域添加到所述备选区域,
其中,所述另一相似值是所述背景图像和所述目标图像的对应的划分出的区域的HOG描述符之间的相似值,并且其中,基于利用针对所述背景图像和所述目标图像的亮度的高阶统计量HOS信息而生成的HOS图,分别生成所述背景图像和所述目标图像的对应的划分出的区域的所述HOG描述符,
其中,通过第三表达式和第四表达式来找到所述HOS信息,
其中,所述第三表达式为 m ( 2 ) ( x , y ) = 1 N B Σ ( x , y ) ∈ B ( x , y ) ( I ( x , y ) - m ^ ( x , y ) ) 2 , 其中B(x,y)是在坐标(x,y)处的像素和周围的像素的集合,并且NB是B(x,y)的幅值,I(x,y)是在坐标(x,y)处的所述像素的亮度,
Figure FDA0000422486260000012
是B(x,y)的平均亮度,并且m(2)(x,y)是二阶矩,并且
其中,所述第四表达式为 HOS ( x , y ) = MIN ( UL , m ( 2 ) ( x , y ) DSF ) , 其中UL是最高限制值,并且DSF是缩小比例因子。
2.根据权利要求1所述的方法,其中,基于所述目标图像的所述HOS图生成所扫描的所述区域的所述HOG描述符。
3.根据权利要求2所述的方法,其中,基于所述HOS图来生成所划分出的所述区域或所扫描的所述区域的HOG描述符包括以下步骤:
利用所划分出的所述区域或所扫描的所述区域的像素的亮度梯度的幅值和方向来生成针对各个块的直方图;以及
通过连接所述直方图来生成所划分出的所述区域或所扫描的所述区域的所述HOG描述符,
其中,所述块具有小于所述窗口的尺寸的尺寸,并且相邻块彼此交叠。
4.根据权利要求1所述的方法,其中,利用所述背景图像和所述目标图像的所划分出的所述区域的所述HOG描述符之间的余弦相似度、通过第一表达式来测量所述相似值,并且
其中,所述第一表达式为 f ( ρ r ) = ρ r 1 - ρ r , 其中 ρ r ( H r b , H r t ) = ( H r b ) T H r t | | H r b | | | | H r t | |
其中
Figure FDA0000422486260000026
Figure FDA0000422486260000027
分别是所述背景图像和所述目标图像的所述对应的划分出的区域的所述HOG描述符,
Figure FDA0000422486260000028
Figure FDA0000422486260000029
的置换矩阵,ρr是所述余弦相似度,并且f(ρr)是相似值测量函数。
5.根据权利要求1所述的方法,其中,利用所扫描的所述区域的所述HOG描述符和所述查询模板的所述HOG描述符之间的余弦相似度、通过第二表达式来测量所述另一相似值,并且
其中,所述第二表达式为 f ( ρ r ) = ρ r 1 - ρ r 其中 ρ r ( H q , H r t ) = ( H q ) T H r t | | H q | | | | H r t | |
其中Hq是所述查询模板的所述HOG描述符,是所扫描的所述区域的所述HOG描述符,(Hq)T是Hq的置换矩阵,ρr是余弦相似度,并且f(ρr)是相似值测量函数。
6.根据权利要求1所述的方法,其中,在通过所述窗口扫描的所述备选区域的多个区域中,沿所述窗口的宽度方向的相邻区域彼此交叠,并且沿所述窗口的长度方向的相邻区域彼此交叠。
7.根据权利要求1所述的方法,其中,所述动态器官是手、脚、头、手臂和腿中的一个。
8.一种在电子利用装置中使用的接口,所述接口包括:
成像部件;以及
动态器官姿态识别部,所述动态器官姿态识别部对通过所述成像部件所输入的背景图像和目标图像进行比较,以检测备选区域,其中,所述备选区域包括所述目标图像的、所述目标图像和所述背景图像之间差异的部分;利用窗口来扫描所述备选区域;当判断出所扫描的区域包括动态器官时,生成所扫描的所述目标图像的区域的方向梯度直方图HOG描述符;测量所扫描的所述区域的所述HOG描述符和针对所述动态器官的姿态的查询模板的HOG描述符之间的相似值;并且当所述相似值满足预定条件时,判断所扫描的所述区域包括所述动态器官的所述姿态,
其中,所述动态器官姿态识别部通过以下过程来检测所述备选区域:将所述背景图像和所述目标图像各自划分为多个区域;测量所述背景图像和所述目标图像的对应的划分出的区域之间的另一相似值;以及当所述另一相似值满足另一预定条件时,将所述目标图像的所划分出的区域添加到所述备选区域,
其中,所述另一相似值是所述背景图像和所述目标图像的对应的划分出的区域的HOG描述符之间的相似值,并且其中,基于利用针对所述背景图像和所述目标图像的亮度的高阶统计量HOS信息所生成的HOS图,分别生成所述背景图像和所述目标图像的对应的划分出的区域的所述HOG描述符,
通过第三表达式和第四表达式来找到所述HOS信息,
其中,所述第三表达式为 m ( 2 ) ( x , y ) = 1 N B Σ ( x , y ) ∈ B ( x , y ) ( I ( x , y ) - m ^ ( x , y ) ) 2 , 其中B(x,y)是在坐标(x,y)处的像素和周围的像素的集合,并且NB是B(x,y)的幅值,I(x,y)是在坐标(x,y)处的所述像素的亮度,
Figure FDA0000422486260000032
是B(x,y)的平均亮度,并且m(2)(x,y)是二阶矩,并且
其中,所述第四表达式为 HOS ( x , y ) = MIN ( UL , m ( 2 ) ( x , y ) DSF ) , 其中UL是最高限制值,并且DSF是缩小比例因子。
9.根据权利要求8所述的接口,其中,所述动态器官姿态识别部基于所述目标图像的所述HOS图来生成所扫描的所述区域的所述HOG描述符。
10.根据权利要求9所述的接口,其中,所述动态器官姿态识别部利用所划分出的所述区域或所扫描的所述区域的像素的亮度梯度的幅值和方向来生成针对各个块的直方图,并且通过连接所述直方图来生成所划分出的所述区域或所扫描的所述区域的所述HOG描述符,
其中,所述块具有小于所述窗口的尺寸的尺寸,并且相邻块彼此交叠。
11.根据权利要求8所述的接口,其中,利用所述背景图像和所述目标图像的所划分出的所述区域的所述HOG描述符之间的余弦相似度,通过第一表达式来测量所述相似值,并且
其中,所述第一表达式为 f ( ρ r ) = ρ r 1 - ρ r , 其中 ρ r ( H r b , H r t ) = ( H r b ) T H r t | | H r b | | | | H r t | |
其中
Figure FDA0000422486260000045
Figure FDA0000422486260000046
分别是所述背景图像和所述目标图像的所述对应的划分出的区域的所述HOG描述符,
Figure FDA0000422486260000047
Figure FDA0000422486260000048
的置换矩阵,ρr是所述余弦相似度,并且f(ρr)是相似值测量函数。
12.根据权利要求8所述的接口,其中,利用所扫描的所述区域的所述HOG描述符和所述查询模板的所述HOG描述符之间的余弦相似度、通过第二表达式来测量所述另一相似值,并且
其中,所述第二表达式为 f ( ρ r ) = ρ r 1 - ρ r 其中 ρ r ( H q , H r t ) = ( H q ) T H r t | | H q | | | | H r t | |
其中Hq是所述查询模板的所述HOG描述符,
Figure FDA0000422486260000049
是所扫描的所述区域的所述HOG描述符,(Hq)T是Hq的置换矩阵,ρr是余弦相似度,并且f(ρr)是相似值测量函数。
13.根据权利要求8所述的接口,其中,在通过所述窗口扫描的所述备选区域的多个区域中,沿所述窗口的宽度方向的相邻区域彼此交叠,并且沿所述窗口的长度方向的相邻区域彼此交叠。
14.根据权利要求8所述的接口,其中,所述动态器官是手、脚、头、手臂和腿中的一个。
15.一种电子利用装置,所述装置包括:
接口,所述接口包括动态器官姿态识别部,所述动态器官姿态识别部对通过成像部件所输入的背景图像和目标图像进行比较,以检测备选区域,其中,所述备选区域包括所述目标图像的、所述目标图像和所述背景图像之间的差异的部分;利用窗口来扫描所述备选区域;当判断出所扫描的区域包括动态器官时,生成所扫描的所述目标图像的区域的方向梯度直方图HOG描述符;测量所扫描的所述区域的所述HOG描述符和针对所述动态器官的姿态的查询模板的HOG描述符之间的相似值;并且当所述相似值满足预定条件时,判断所扫描的所述区域包括所述动态器官的所述姿态;以及
控制电路,根据来自所述接口的所述动态器官的所述姿态的识别结果来控制所述电子利用装置的操作,
其中,所述动态器官姿态识别部通过以下过程来检测所述备选区域:将所述背景图像和所述目标图像各自划分为多个区域;测量所述背景图像和所述目标图像的对应的划分出的区域之间的另一相似值;以及当所述另一相似值满足另一预定条件时,将所述目标图像的所划分出的区域添加到所述备选区域,
其中,所述另一相似值是所述背景图像和所述目标图像的对应的划分的区域的HOG描述符之间的相似值,并且其中,基于利用针对所述背景图像和所述目标图像的亮度的高阶统计量HOS信息所生成的HOS图,分别生成所述背景图像和所述目标图像的对应的划分出的区域的所述HOG描述符,
其中,通过第三表达式和第四表达式来找到所述HOS信息,
其中,所述第三表达式为 m ( 2 ) ( x , y ) = 1 N B Σ ( x , y ) ∈ B ( x , y ) ( I ( x , y ) - m ^ ( x , y ) ) 2 (其中B(x,y)是在坐标(x,y)处的像素和周围的像素的集合,并且NB是B(x,y)的幅值,I(x,y)是在坐标(x,y)处的所述像素的亮度,
Figure FDA0000422486260000052
是B(x,y)的平均亮度,并且m(2)(x,y)是二阶矩,并且
其中,所述第四表达式为 HOS ( x , y ) = MIN ( UL , m ( 2 ) ( x , y ) DSF ) , 其中UL是最高限制值,并且DSF是缩小比例因子。
16.根据权利要求15所述的装置,其中,所述动态器官姿态识别部基于所述目标图像的所述HOS图来生成所扫描的所述区域的所述HOG描述符。
17.根据权利要求16所述的装置,其中,所述动态器官姿态识别部利用所划分出的所述区域或所扫描的所述区域的像素的亮度梯度的幅值和方向来生成针对各个块的直方图,并且通过连接所述直方图来生成所划分出的所述区域或所扫描的所述区域的所述HOG描述符,
其中,所述块具有小于所述窗口的尺寸的尺寸,并且相邻块彼此交叠。
18.根据权利要求15所述的装置,其中,利用所述背景图像和所述目标图像的所划分出的所述区域的所述HOG描述符之间的余弦相似度、通过第一表达式来测量所述相似值,并且
其中,所述第一表达式为 f ( ρ r ) = ρ r 1 - ρ r , 其中 ρ r ( H r b , H r t ) = ( H r b ) T H r t | | H r b | | | | H r t | |
其中,分别是所述背景图像和所述目标图像的所述对应的划分出的区域的所述HOG描述符,
Figure FDA0000422486260000067
Figure FDA0000422486260000068
的置换矩阵,ρr是所述余弦相似度,并且f(ρr)是相似值测量函数。
19.根据权利要求15所述的装置,其中,利用所扫描的所述区域的所述HOG描述符和所述查询模板的所述HOG描述符之间的余弦相似度、通过第二表达式来测量所述另一相似值,并且
其中,所述第二表达式为 f ( ρ r ) = ρ r 1 - ρ r 其中 ρ r ( H q , H r t ) = ( H q ) T H r t | | H q | | | | H r t | |
其中,Hq是所述查询模板的所述HOG描述符,
Figure FDA0000422486260000069
是所扫描的所述区域的所述HOG描述符,(Hq)T是Hq的置换矩阵,ρr是余弦相似度,并且f(ρr)是相似值测量函数。
20.根据权利要求15所述的装置,其中,在通过所述窗口扫描的所述备选区域的多个区域中,沿所述窗口的宽度方向的相邻区域彼此交叠,并且沿所述窗口的长度方向的相邻区域彼此交叠。
21.根据权利要求15所述的装置,其中,所述动态器官是手、脚、头、手臂和腿中的一个。
CN201110263728.XA 2010-09-17 2011-09-07 识别用户的动态器官姿态的方法和接口以及电子利用装置 Expired - Fee Related CN102411705B (zh)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
KR1020100091743A KR101298023B1 (ko) 2010-09-17 2010-09-17 사용자 동적 기관 제스처 인식 방법 및 인터페이스와, 이를 사용하는 전기 사용 장치
KR10-2010-0091743 2010-09-17

Publications (2)

Publication Number Publication Date
CN102411705A CN102411705A (zh) 2012-04-11
CN102411705B true CN102411705B (zh) 2014-03-19

Family

ID=45817805

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201110263728.XA Expired - Fee Related CN102411705B (zh) 2010-09-17 2011-09-07 识别用户的动态器官姿态的方法和接口以及电子利用装置

Country Status (3)

Country Link
US (1) US8548196B2 (zh)
KR (1) KR101298023B1 (zh)
CN (1) CN102411705B (zh)

Families Citing this family (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20120328160A1 (en) * 2011-06-27 2012-12-27 Office of Research Cooperation Foundation of Yeungnam University Method for detecting and recognizing objects of an image using haar-like features
US9646200B2 (en) * 2012-06-08 2017-05-09 Qualcomm Incorporated Fast pose detector
WO2013186625A1 (en) * 2012-06-11 2013-12-19 Hi-Tech Solutions Ltd. System and method for detection cargo container seals
US9305233B2 (en) * 2013-09-12 2016-04-05 The Boeing Company Isotropic feature matching
CN104063712B (zh) * 2014-06-27 2018-06-22 杭州科度科技有限公司 一种车辆信息提取方法和系统
CN104392432A (zh) * 2014-11-03 2015-03-04 深圳市华星光电技术有限公司 基于方向梯度直方图的显示面板缺陷检测方法
US20170323149A1 (en) * 2016-05-05 2017-11-09 International Business Machines Corporation Rotation invariant object detection
CN107133562B (zh) * 2017-03-17 2021-05-14 华南理工大学 一种基于极限学习机的手势识别方法
CN110197137A (zh) * 2019-05-14 2019-09-03 苏州沃柯雷克智能系统有限公司 一种确定手掌姿势的方法、装置、设备及存储介质

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1860501A (zh) * 2004-03-24 2006-11-08 三菱电机株式会社 特定部分姿势推测装置、特定部分姿势推测方法及特定部分姿势推测程序
WO2009035705A1 (en) * 2007-09-14 2009-03-19 Reactrix Systems, Inc. Processing of gesture-based user interactions
CN101408929A (zh) * 2007-10-10 2009-04-15 三星电子株式会社 一种用于人脸识别系统的多模板人脸注册方法和装置
CN101510257A (zh) * 2009-03-31 2009-08-19 华为技术有限公司 一种人脸相似度匹配方法及装置
CN101763515A (zh) * 2009-09-23 2010-06-30 中国科学院自动化研究所 一种基于计算机视觉的实时手势交互方法

Family Cites Families (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
DE68921840T2 (de) * 1988-10-27 1995-09-07 Canon Kk Bildaufnahme- und Verarbeitungseinrichtung.
US5150432A (en) * 1990-03-26 1992-09-22 Kabushiki Kaisha Toshiba Apparatus for encoding/decoding video signals to improve quality of a specific region
JP4481663B2 (ja) * 2004-01-15 2010-06-16 キヤノン株式会社 動作認識装置、動作認識方法、機器制御装置及びコンピュータプログラム
US20070237387A1 (en) * 2006-04-11 2007-10-11 Shmuel Avidan Method for detecting humans in images
CN101231755B (zh) * 2007-01-25 2013-03-06 上海遥薇(集团)有限公司 运动目标跟踪及数量统计方法
KR100916836B1 (ko) 2008-05-29 2009-09-14 고려대학교 산학협력단 지시형 제스처를 인식하는 방법 및 장치
US8243991B2 (en) * 2008-06-17 2012-08-14 Sri International Method and apparatus for detecting targets through temporal scene changes
JP4626692B2 (ja) 2008-09-12 2011-02-09 ソニー株式会社 物体検出装置、撮像装置、物体検出方法およびプログラム
JP2010079651A (ja) 2008-09-26 2010-04-08 Toshiba Corp 動作認識装置、方法及びプログラム
US8559671B2 (en) * 2008-12-18 2013-10-15 The Regents Of The University Of California Training-free generic object detection in 2-D and 3-D using locally adaptive regression kernels
CN101872477B (zh) * 2009-04-24 2014-07-16 索尼株式会社 检测图像中的对象的方法、装置,及包括该装置的系统
WO2010140613A1 (ja) * 2009-06-03 2010-12-09 学校法人中部大学 物体検出装置
JP5437855B2 (ja) * 2010-03-02 2014-03-12 パナソニック株式会社 障害物検知装置およびそれを備えた障害物検知システム、並びに障害物検知方法
US8509526B2 (en) * 2010-04-13 2013-08-13 International Business Machines Corporation Detection of objects in digital images
US8768006B2 (en) * 2010-10-19 2014-07-01 Hewlett-Packard Development Company, L.P. Hand gesture recognition
US9111138B2 (en) * 2010-11-30 2015-08-18 Cisco Technology, Inc. System and method for gesture interface control

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1860501A (zh) * 2004-03-24 2006-11-08 三菱电机株式会社 特定部分姿势推测装置、特定部分姿势推测方法及特定部分姿势推测程序
WO2009035705A1 (en) * 2007-09-14 2009-03-19 Reactrix Systems, Inc. Processing of gesture-based user interactions
CN101408929A (zh) * 2007-10-10 2009-04-15 三星电子株式会社 一种用于人脸识别系统的多模板人脸注册方法和装置
CN101510257A (zh) * 2009-03-31 2009-08-19 华为技术有限公司 一种人脸相似度匹配方法及装置
CN101763515A (zh) * 2009-09-23 2010-06-30 中国科学院自动化研究所 一种基于计算机视觉的实时手势交互方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
基于感兴趣区梯度方向直方图的行人检测;曾春等;《计算机工程》;20091231;第35卷(第24期);第182-184页 *
曾春等.基于感兴趣区梯度方向直方图的行人检测.《计算机工程》.2009,第35卷(第24期),第182-184页.

Also Published As

Publication number Publication date
KR101298023B1 (ko) 2013-08-26
US20120070035A1 (en) 2012-03-22
CN102411705A (zh) 2012-04-11
KR20120029736A (ko) 2012-03-27
US8548196B2 (en) 2013-10-01

Similar Documents

Publication Publication Date Title
CN102411705B (zh) 识别用户的动态器官姿态的方法和接口以及电子利用装置
CN102411706B (zh) 识别用户的动态器官姿势的方法和接口以及用电装置
US9111135B2 (en) Systems and methods for tracking human hands using parts based template matching using corresponding pixels in bounded regions of a sequence of frames that are a specified distance interval from a reference camera
US9098739B2 (en) Systems and methods for tracking human hands using parts based template matching
US10254845B2 (en) Hand gesture recognition for cursor control
Gorelick et al. Actions as space-time shapes
US8605987B2 (en) Object-based 3-dimensional stereo information generation apparatus and method, and interactive system using the same
CN103376890B (zh) 基于视觉的手势遥控系统
US20130279756A1 (en) Computer vision based hand identification
US8649559B2 (en) Method and interface of recognizing user's dynamic organ gesture and electric-using apparatus using the interface
CN110503686A (zh) 基于深度学习的物体位姿估计方法及电子设备
CN106485651B (zh) 快速鲁棒性尺度不变的图像匹配方法
CN103514432A (zh) 人脸特征提取方法、设备和计算机程序产品
do Nascimento et al. On the development of a robust, fast and lightweight keypoint descriptor
CN108805016A (zh) 一种头肩区域检测方法及装置
CN103793926A (zh) 基于样本重选择的目标跟踪方法
Paral et al. OPTICS-based template matching for vision sensor-based shoe detection in human–robot coexisting environments
CN108830179A (zh) 融合彩色图像边缘和深度方向直方图的行人检测算法
CN102148919B (zh) 一种球类检测的方法及系统
Cicirelli et al. Target recognition by components for mobile robot navigation
Abdellaoui et al. Template matching approach for automatic human body tracking in video
Huang et al. Stereo object proposals
Chen et al. [Retracted] Research on Real‐Time Detection of Sprint Error Based on Visual Features and Internet of Things
Fujita Real-time and Continuous Floor Fingerprint Identification
Hong et al. Visual understanding with RGB-D sensors: An introduction to the special issue

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20140319

Termination date: 20180907

CF01 Termination of patent right due to non-payment of annual fee