CN102411706A - 识别用户的动态器官姿势的方法和接口以及用电装置 - Google Patents

识别用户的动态器官姿势的方法和接口以及用电装置 Download PDF

Info

Publication number
CN102411706A
CN102411706A CN2011102733520A CN201110273352A CN102411706A CN 102411706 A CN102411706 A CN 102411706A CN 2011102733520 A CN2011102733520 A CN 2011102733520A CN 201110273352 A CN201110273352 A CN 201110273352A CN 102411706 A CN102411706 A CN 102411706A
Authority
CN
China
Prior art keywords
scanning area
dynamic organ
hog descriptor
window
image
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN2011102733520A
Other languages
English (en)
Other versions
CN102411706B (zh
Inventor
李承启
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
LG Display Co Ltd
Original Assignee
LG Display Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by LG Display Co Ltd filed Critical LG Display Co Ltd
Publication of CN102411706A publication Critical patent/CN102411706A/zh
Application granted granted Critical
Publication of CN102411706B publication Critical patent/CN102411706B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/01Input arrangements or combined input and output arrangements for interaction between user and computer
    • G06F3/011Arrangements for interaction with the human body, e.g. for user immersion in virtual reality
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/01Input arrangements or combined input and output arrangements for interaction between user and computer
    • G06F3/017Gesture based interaction, e.g. based on a set of recognized hand gestures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/01Input arrangements or combined input and output arrangements for interaction between user and computer
    • G06F3/03Arrangements for converting the position or the displacement of a member into a coded form
    • G06F3/0304Detection arrangements using opto-electronic means
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/50Extraction of image or video features by performing operations within image blocks; by using histograms, e.g. histogram of oriented gradients [HoG]; by summing image-intensity values; Projection analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/50Extraction of image or video features by performing operations within image blocks; by using histograms, e.g. histogram of oriented gradients [HoG]; by summing image-intensity values; Projection analysis
    • G06V10/507Summing image-intensity values; Histogram projection analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/107Static hand or arm

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Human Computer Interaction (AREA)
  • Multimedia (AREA)
  • Image Analysis (AREA)

Abstract

本发明涉及识别用户的动态器官姿势的方法和接口以及使用该接口的用电装置。一种用于在用电装置中使用的识别用户的动态器官的方法,包括:利用窗口扫描差异图像,该差异图像反映了通过成像元件输入的目标图像与比较图像之间的亮度差异;当判断所述差异图像的被扫描区域包括动态器官时,生成所述被扫描区域的HOG(方向梯度直方图)描述符;测量所述被扫描区域的HOG描述符与针对所述动态器官的姿势的查询模板的HOG描述符之间的相似值;以及当所述相似值满足预定条件时,判断所述被扫描区域包括所述动态器官的所述姿势,其中,所述比较图像是所述目标图像之前的帧图像中的一个帧图像。

Description

识别用户的动态器官姿势的方法和接口以及用电装置
技术领域
本发明涉及识别用户的动态器官(dynamic organ)姿势的方法,更具体地说,涉及识别用户的动态器官姿势的方法和接口以及使用该接口的用电(electric-using)装置。
背景技术
由于各种多媒体系统基于图像信息来开发,因而针对理解图像中所包括的信息并将该信息应用至各种领域的技术的需求增加。具体来说,通过识别图像中人的姿势(如手移动)来建立更容易的接口环境受到了更多关注。
然而,在现有技术中,当背景较复杂或者存在除了手以外的其它肤色区域时,难于准确地识别手。
现有技术中识别手势的方法简要说明如下。利用多个数据集在标准化RGB颜色空间中进行基于高斯混合模型的学习。利用与通过学习而生成的模型的相似度,在帧图像中检测肤色图像。而且,利用多个帧图像之间的亮度差异来生成手移动图像。通过向所检测肤色图像应用手移动图像,生成手似然图像。利用综合图像特征,从手似然图像检测手候选区域。利用手候选区域的中心坐标和光流分量,最终判断手势。
如上所述的现有技术方法具有以下问题。当图像中存在手区域以外的肤色区域时,难于在二者之间进行区分。而且,当背景中存在类似人的移动的某物时,难于检测手移动。而且,需要大量的数据集,并且需要许多时间和努力,以制成基于数据集的可靠模型。而且,该方法对室内光线变化敏感,并且因用于拍摄图像的摄像机的噪声而频繁出现手移动的错误检测。
如上所述,现有技术方法造成效率和可靠性降低。
发明内容
因此,本发明致力于提供一种识别用户的动态器官姿势的方法和接口以及利用该接口的用电装置,其大致上消除了因现有技术的局限性和优点而造成的一个或更多个问题。
本发明的优点是提供一种可以改进效率和可靠性的、识别用户的动态器官姿势的方法和接口以及利用该接口的用电装置。
本发明的附加特征和优点将在下面的描述中加以阐述,并且根据该描述将部分地明显,或者可以通过本发明的实践而获知。本发明的这些和其它优点通过在书面说明及其权利要求书以及附图中具体指出的结构而认识到并获得。
为实现这些和其它优点并且根据本发明的目的,如在此具体实施和广泛描述的,一种用于在用电装置中使用的识别用户的动态器官的方法包括以下步骤:利用窗口扫描差异图像,该差异图像反映了通过成像元件输入的目标图像与比较图像之间的亮度差异;当判断所述差异图像的被扫描区域包括动态器官时,生成所述被扫描区域的HOG(方向梯度直方图)描述符;测量所述被扫描区域的HOG描述符与针对所述动态器官的姿势的查询模板的HOG描述符之间的相似值;以及当所述相似值满足预定条件时,判断所述被扫描区域包括所述动态器官的所述姿势,其中,所述比较图像是所述目标图像之前的帧图像中的一个帧图像。
在另一方面,一种用于在用电装置中使用的接口包括:成像元件;以及动态器官姿势识别部,该动态器官姿势识别部利用窗口扫描差异图像,该差异图像反映了通过所述成像元件输入的目标图像与比较图像之间的亮度差异;当判断所述差异图像的被扫描区域包括动态器官时,生成所述被扫描区域的HOG(方向梯度直方图)描述符;测量所述被扫描区域的HOG描述符与针对所述动态器官的姿势的查询模板的HOG描述符之间的相似值;以及当所述相似值满足预定条件时,判断所述被扫描区域包括所述动态器官的所述姿势,其中,所述比较图像是所述目标图像之前的帧图像中的一个帧图像。
在又一方面,一种用电装置包括:接口,该接口包括动态器官姿势识别部,该动态器官姿势识别部利用窗口扫描差异图像,该差异图像反映了通过成像元件输入的目标图像与比较图像之间的亮度差异;当判断所述差异图像的被扫描区域包括动态器官时,生成所述被扫描区域的HOG(方向梯度直方图)描述符;测量所述被扫描区域的HOG描述符与针对所述动态器官的姿势的查询模板的HOG描述符之间的相似值;以及当所述相似值满足预定条件时,判断所述被扫描区域包括所述动态器官的所述姿势;以及控制电路,该控制电路根据来自所述接口的、所述动态器官的所述姿势的识别结果来控制所述用电装置的操作,其中,所述比较图像是所述目标图像之前的帧图像中的一个帧图像。
应当明白,前面的一般描述和下面的详细描述都是示例性和解释性的,并且旨在提供对如要求保护的本发明的进一步阐释。
附图说明
附图被包括进来以提供对本发明的进一步理解,并且被并入并构成本说明书的一部分,附图例示了本发明的实施方式,并与本描述一起用于说明本发明的原理。
在附图中:
图1是例示根据本发明实施方式的包括用于识别手姿势的接口的装置的示意图;
图2是例示根据本发明实施方式的用于识别手姿势的方法的示意图;
图3是例示根据本发明实施方式生成的差异图像的示例的图片;
图4是例示根据本发明实施方式的针对图3的图片的二值化图的示例的图片;
图5是例示根据本发明实施方式的窗口扫描的示例的视图;
图6是例示其中出现噪声的目标图像的示例的图片;
图7是例示针对图6的目标图像的边缘幅值(magnitude)图的图片;
图8是例示根据本发明实施方式所生成的针对图6的目标图像的HOS图的图片;
图9是例示根据本发明实施方式的生成HOG描述符的过程的示例的视图;以及
图10至13是例示根据本发明实施方式的各种环境下的手姿势识别结果的图片。
具体实施方式
下面,对本发明所示实施方式进行详细说明,这些实施方式在附图中进行了例示。
图1是例示根据本发明实施方式的包括用于识别手姿势的接口的装置的示意图,而图2是例示根据本发明实施方式的用于识别手姿势的方法的示意图。
参照图1,装置10可以包括接口100和控制电路200。
装置10可以限定为基于通过接口100输入的信息控制和操作并且在操作中使用电力的所有类型的装置中的一种。例如,可以将各种类型的装置(例如,显示装置(如等离子显示板、液晶显示器或有机发光二极管)、洗衣机、冰箱、空调、工业设备等)用作根据本实施方式的装置10。因此,装置10可以被称为用电装置10。
接口100可以包括成像元件110和手姿势识别部120。
摄像机可以被用作成像元件110。成像元件110拍摄其前面的图像,并且所拍摄的图像按帧输入到手姿势识别部120中。
手姿势识别部120从所输入的图像中检测并识别手姿势。
手姿势识别结果被传送至控制电路200。控制电路200生成并输出与手姿势识别结果相对应的控制指令。
根据该控制指令,控制并操作用电装置10。例如,当将显示装置用作装置10时,可以传达诸如断开电源、改变频道、调节音量等的各种指令。
进一步参照图2至9说明根据本发明实施方式的识别手姿势的方法。
执行第一步骤ST1:通过成像元件110拍摄图像,并将其输入至手姿势识别部120。为便于说明,假定作为针对当前帧输入以识别手姿势的图像的帧图像可以被称为目标图像。而且,假定作为要与目标图像比较的图像的帧图像可以被称为比较图像,并且该比较图像可以是目标图像之前的帧图像中的一个,例如,紧挨在目标图像之前的帧图像。
接着,执行第二步骤ST2:生成目标图像与比较图像之间的差异图像。该差异图像可以反映目标图像与比较图像之间的亮度差异。图3示出了根据本发明实施方式所生成的差异图像的示例。
参照图3,比较目标图像和比较图像,示出了用户的手等处于运动中。进行运动的地方存在像素值差异,而不进行运动的地方不存在像素值差异。利用这个情况,可以生成本实施方式的差异图像。
接着,执行第三步骤ST3:生成针对差异图像的二值化图。可以通过参照临界值而二值化像素差异来制成二值化图。换句话说,参照临界值将亮度差异分组成两个值。
例如,可以利用下面第一表达式来生成二值化图:|In(x,y)-In-1(x,y)|>TH1。In(x,y)和In-1(x,y)分别是目标图像(即,第n帧图像)与比较图像(即,第(n-1)帧图像)在坐标(x,y)处的像素亮度,并且TH1是第一临界值。
根据第一表达式,当像素亮度差异大于第一临界值TH1时,可以将二进制值中的高值分配给对应像素。
当像素亮度差异是第一临界值TH1或更小时,可以将二进制值中的低值分配给对应像素。
通过将二进制值分配给像素,最终可以生成二值化图。
图4示出了根据本发明实施方式的针对图3的图片的二值化图的示例。在图4中,假定在大于第一临界值TH1(即,>TH1)时将“1”分配为高值,而在等于或小于第一临界值TH1(即,≤TH1)时将“0”分配为低值。
如上所述,通过生成二值化图,可以进一步突出目标图像的因运动而与比较图像不同的部分。这使得更有效地检测手运动,并由此可以提高手姿势识别速率。
接着,执行第四步骤ST4:通过具有预定尺寸的窗口WD来扫描二值化图,并接着执行第五步骤ST5:判断属于通过窗口WD扫描的区域的像素当中的、具有二进制值之一(例如,高值)的像素的数量是否大于第二临界值TH2。
参照图5对窗口扫描进行说明,图5是例示根据本发明实施方式的窗口扫描的示例的视图。
参照图5,具有宽度W和高度H的窗口WD沿一方向(例如,行方向(即,x方向))移动,并且执行扫描。完成一行(即,扫描了一扫描行),接着执行扫描下一扫描行。
窗口WD由于扫描的移动距离D(即,沿行方向的相邻窗口扫描之间的距离)可以小于窗口WD的宽度W。例如,扫描当前扫描区域,接着,窗口WD移动小于与宽度W相对应的像素数的像素数,并接着扫描下一个扫描区域。因此,沿行方向的相邻扫描区域可以彼此交叠。
而且,沿列方向(即,y方向)的相邻扫描区域可以彼此交叠。例如,完成扫描一扫描行,接着,窗口WD移位小于与高度H相对应的像素数的像素数,接着扫描下一扫描行。因此,沿列方向的相邻扫描区域可以彼此交叠。
优选的是,窗口WD的尺寸被设置成与针对手姿势的查询模板的尺寸相同。针对手姿势的查询模板是特定的手形状模型,以识别目标图像中的对应手姿势。
如上所述,针对扫描区域,判断属于扫描区域的像素当中的、具有高值的像素的数量是否大于第二临界值TH2。
当具有高值的像素的数量大于第二临界值TH2时,执行作为下一步骤的第六步骤ST6:生成HOS(高阶统计)图。
然而,当具有高值的像素的数量为第二临界值TH2或更小时,不移动到第六步骤ST6,而是返回至第四步骤ST4。在这种情况下,窗口WD移动并且扫描下一个扫描区域。
如上所述,第二临界值TH2被视为初步确定扫描区域包括手图像的可能性的基准。具体来说,当像素的数量为第二临界值TH2或更小时,判断扫描区域不包括手图像,因此,返回至先前步骤ST4,而非移动至下一步骤ST6,并且再次执行窗口扫描。
通过具有高值的像素的数量是否满足如上预定条件来初步判断存在手图像,不再针对不包括手图像的区域执行随后的步骤。因此,能够加快手姿势识别速率。
接着,执行第六步骤ST6:当扫描区域中具有高值的像素的数量大于第二临界值TH2时,生成针对扫描区域的HOS图。
利用HOS(高阶统计)信息来生成HOS图。换句话说,找出针对属于目标图像的整个区域当中的扫描区域的像素的亮度的HOS信息,并由此改变特征空间。
为了找出针对每一个像素的HOS信息,利用下面的第二表达式来计算二阶矩: m ( 2 ) ( x , y , n ) = 1 N B Σ ( x , y ) ∈ B ( x , y ) ( I ( x , y , n ) - m ^ ( x , y , n ) ) 2 . 在第二表达式中,B(x,y)是坐标(x,y)处的像素及其周围像素的集合,而NB是B(x,y)的幅值。I(x,y,n)是第n帧中坐标(x,y)处的像素的亮度,而
Figure BDA0000091494190000062
是第n帧中B(x,y)的平均亮度。关于第一表达式,因为二阶矩的范围可能大大超过图像亮度的最大值,所以可以将该范围的上限值限制成预定值,例如,图像亮度的最大值。例如,当将该上限值限制成“255”时,通过下面的第三表达式找出HOS信息:
Figure BDA0000091494190000063
DSF是缩小因子,并且在本实施方式中,例如,将“10”分配给DSF。
利用通过如上所述第二和第三表达式获得的HOS信息,可以生成针对扫描区域的HOS图。
如上所述,因为利用HOS信息生成HOS图,所以即使目标图像中因成像元件110等而出现噪声,也可以进行手姿势的鲁棒识别。参照图6至8来对此进行说明。
图6示出了其中出现噪声的目标图像的示例,图7示出了针对图6的目标图像的边缘幅值图,而图8示出了根据本发明实施方式所生成的针对图6的目标图像的HOS图。
比较图7的边缘幅值图和图8的HOS图,在目标图像中存在噪声的情况下,HOS图比边缘幅值图更好地保留了手的边界。
如此,因为采用了HOS图,所以不仅当将原始图像本身输入为目标图像而没有噪声时、而且当目标图像具有噪声时都可以保证手姿势识别的可靠性。
接着,执行第七步骤ST7:生成基于HOS图的针对扫描区域的HOG(方向梯度直方图)描述符。
可以生成针对查询模板的HOG描述符,这可以在第七步骤ST7中执行,或者可以在第七步骤ST7之前执行,并且可以将HOG描述符存储在存储装置中。生成针对查询模板的HOG描述符意指模型化模板手姿势。
在生成HOG描述符时,针对扫描区域和查询模板中的每一个,利用亮度梯度的幅值和方向通过块生成直方图。该块被配置成具有小于窗口WD和查询模板的尺寸的尺寸。例如,该块具有尺寸W/4*H/4,W和H分别是窗口WD的宽度和高度。
通过连接针对扫描区域和查询模板中的每一个中的所有块的直方图,可以生成扫描区域和查询模板中的每一个的HOG描述符。可以通过下面的第四和第五表达式来找出针对查询模板和扫描区域中的每一个的块的直方图。
第四表达式是
Figure BDA0000091494190000071
其中,
Figure BDA0000091494190000072
并且 E i , j = Σ ( x , y ) ∈ B i θ ( x , y ) ∈ j m ( x , y ) .
第五表达式是 H r , i t ( n ) = ( h r , i , 1 t ( n ) , h r , i , 2 t ( n ) , . . . , h r , i , K t ( n ) ) , , 其中, h r , i , j t ( n ) = E r , i , j Σ l = 1 K ( E r , i , l ) 2 + ϵ 并且 E r , i , j = Σ ( x , y ) ∈ B r , i θ ( x , y ) ∈ j m ( x , y ) .
i是块的索引,而K是针对方向的量化电平。m(x,y)是坐标(x,y)处像素的亮度梯度的幅值,而θ(x,y)是量化方向。r和n分别是窗口扫描和帧号的索引。ε是较小正实数,例如,0.00001,并且其被设置成使得分母不为零。块的索引是指示块的位置的因子,而窗口扫描的索引是指示扫描区域位置的因子。
通过连接通过第四和第五表达式获得的直方图,可以生成针对查询模板和扫描区域的HOG描述符。针对查询模板和扫描区域的HOG描述符可以分别表示为Hq H r t ( n ) .
沿x方向和y方向相邻的块可以被配置成彼此交叠。例如,沿x方向的相邻块可以彼此交叠达块宽度的一半,而沿y方向的相邻块可以彼此交叠达块高度的一半。然而,应当明白,交叠宽度和高度可以改变。
图9示出了根据本发明实施方式的生成HOG描述符的过程的示例。在图9中,示出了针对通过矩形窗口扫描的左侧目标图像的区域生成的HOG描述符。
参照图9,通过箭头表示针对扫描区域中每一个像素的亮度梯度的幅值和方向。箭头的长度是亮度梯度的幅值。
针对扫描区域,通过块生成直方图并且连接这些直方图以最终生成HOG描述符。在图9中,示出了利用5区间(bin)边缘方向直方图生成HOG描述符。在这种情况下,5个区间可以包括对应于4个量化电平(分别被分配0度以上至45度的范围、45度以上至90度的范围、90度以上至135度的范围、以及135度以上至180度的范围)的4个区间(从左向右顺序示出)、以及附加区间。附加区间针对0度方向。
接着,为判断扫描区域包括与查询模板相对应的手姿势,执行与模型化手姿势的模板匹配。为做到这一点,例如,执行第八步骤ST8:测量查询模板的HOG描述符与扫描区域的HOG描述符之间的相似值。
为测量相似值,可以使用余弦相似度。在下面的第六表达式中测量通过余弦相似度的相似值: f ( ρ r ) = ρ r 1 - ρ r , 其中, ρ r ( H q , H r t ( n ) ) = ( H q ) T H r t ( n ) | | H q | | | | H r t ( n ) | | .
(Hq)T是Hq的置换矩阵,ρr是余弦相似度,而f(ρr)是相似值测量函数。
接着,执行第九步骤ST9:判断通过第六表达式测量的相似值是否大于第三临界值TH3。
当相似值大于第三临界值TH3时,判断扫描区域包括查询模板的手姿势。因此,识别出手姿势。
当相似值为第三临界值TH3或更小,判断扫描区域不包括查询模板的手姿势。
如上所述,通过查询模板的HOG描述符与扫描区域的HOG描述符之间的相似度是否满足预定条件,可以判断扫描区域中是否存在查询模板的手姿势。
可以准备分别对应于多个控制指令的多个查询模板。在这种情况下,可以将优先级编号分配给所述多个查询模板。因此,当与具有优先级编号的查询模板的相似度无法满足预定条件时,执行判断与具有次低优先级编号的查询模板的相似度是否满足的处理。
当相似值为第三临界值TH3或更小时,执行第十步骤ST10:判断是否完成对整个目标图像的扫描。
当没有完成全部扫描时,返回至第四步骤ST4,并且重复如上所述的随后步骤。
当完成全部扫描时,最终确定目标图像不包括查询模板的手姿势。换句话说,未识别出手姿势。
另选的是,当确定扫描区域包括手姿势时,可以执行判断是否完成扫描整个目标图像的步骤。在这种情况下,当没有完成全部扫描时,可以返回至第四步骤ST4。这可以例如有用地应用至利用双手时的多姿势识别。
当根据上述方法识别出手姿势时,制定对应的控制指令,并且用电装置10根据控制指令操作。
当未识别出手姿势时,例如,可以保持先前的控制指令,并且可以保持用电装置10的操作而不产生变化。
如上所述,在本发明的实施方式中,为了识别手姿势,生成反映目标图像与比较图像之间的亮度差异的差异图像,接着,生成针对差异图像的二值化图,接着,针对二值化图执行窗口扫描,接着,当扫描区域的肤色像素的数量满足预定条件时生成HOS图,接着,基于HOS图来生成扫描区域的HOG描述符,并接着,判断扫描区域的HOG描述符和查询模板的HOG描述符的相似度。
如此,当具有二进制值中的高值的像素的数量满足预定条件时,执行随后的步骤。因此,手姿势识别速率可以显著变快。
而且,甚至在所输入的目标图像中包括噪声时,包括生成HOS图以去除噪声的步骤。因此,可以改进手姿势识别的准确度和可靠性。
而且,将查询模板用于手姿势识别。因此,与现有技术中利用大量数据集的基于学习的方法相比,可以缩减时间和成本。
而且,因为利用基于HOS图的HOG描述符有效地模型化手形状,所以本实施方式的方法对于光线变化具有鲁棒性,而且即使存在肤色背景或者出现与其它身体部位交叠,也可以准确地识别手区域。
因此,根据本发明的实施方式,可以改进手姿势识别的可靠性和效率。
图10至13是例示根据本发明实施方式的在各种环境下的手姿势识别结果的图片。
图10和13分别示出了其中背景中存在移动的环境下的结果、其中背景中存在复杂结构的环境下的结果、其中手和脸交叠的环境下的结果、以及其中肤色背景广泛存在的环境下的结果。
参照图10至13,即使在各种环境下也能准确识别手形状。
在如上所述实施方式中,识别手姿势的方法被说明为示例。然而,应当明白,可以将本方法应用于识别诸如脚、臂、腿、头等能够可视地表达用户意图的器官(即,动态器官)的姿势。
本领域技术人员应当明白,在不脱离本发明的精神或范围的情况下,可以对本发明进行各种修改和变型。因而,本发明旨在覆盖落入所附权利要求书及其等同物的范围内的本发明的修改例和变型例。
本发明要求2010年9月17日在韩国提交的韩国专利申请No.10-2010-0091744的优先权,为了一切目的通过引用将其并入,如同在此进行了全面阐述一样。

Claims (27)

1.一种用于在用电装置中使用的识别用户的动态器官的方法,该方法包括以下步骤:
利用窗口扫描差异图像,该差异图像反映了通过成像元件输入的目标图像与比较图像之间的亮度差异;
当判断所述差异图像的被扫描区域包括动态器官时,生成所述被扫描区域的方向梯度直方图HOG描述符;
测量所述被扫描区域的HOG描述符与针对所述动态器官的姿势的查询模板的HOG描述符之间的相似值;以及
当所述相似值满足预定条件时,判断所述被扫描区域包括所述动态器官的所述姿势,
其中,所述比较图像是所述目标图像之前的帧图像中的其中一幅帧图像。
2.根据权利要求1所述的方法,其中,利用窗口扫描差异图像的步骤包括以下步骤:
通过参照临界值将所述亮度差异二值化为高值和低值来生成针对所述差异图像的二值化图;以及
利用所述窗口扫描所述二值化图。
3.根据权利要求2所述的方法,其中,当属于所述被扫描区域的多个像素之中的、具有所述高值的像素的数量满足预定条件时,判断所述被扫描区域包括所述动态器官。
4.根据权利要求1所述的方法,其中,生成所述被扫描区域的HOG描述符的步骤包括以下步骤:
利用针对所述被扫描区域的亮度的高阶统计HOS信息来生成针对所述被扫描区域的HOS图;以及
基于所述HOS图来生成所述被扫描区域的HOG描述符。
5.根据权利要求4所述的方法,其中,基于所述HOS图来生成所述被扫描区域的HOG描述符的步骤包括以下步骤:
利用所述被扫描区域的像素的亮度梯度的幅值和方向来生成针对各个块的直方图;以及
通过连接这些直方图来生成所述被扫描区域的HOG描述符,
其中,所述块具有比所述窗口的尺寸小的尺寸,并且相邻块彼此交叠。
6.根据权利要求1所述的方法,其中,利用所述被扫描区域的HOG描述符与所述查询模板的HOG描述符之间的余弦相似度,通过第一表达式来测量所述相似值,并且
其中,所述第一表达式是
Figure FDA0000091494180000021
其中其中,Hq是所述查询模板的HOG描述符,是所述被扫描区域的HOG描述符,(Hq)T是Hq的置换矩阵,ρr是余弦相似度,并且f(ρr)是相似值测量函数。
7.根据权利要求4所述的方法,其中,通过第二表达式和第三表达式来求解所述HOS信息,
其中,所述第二表达式是 m ( 2 ) ( x , y ) = 1 N B Σ ( x , y ) ∈ B ( x , y ) ( I ( x , y ) - m ^ ( x , y ) ) 2 , 其中,B(x,y)是坐标(x,y)处的像素和周围像素的集合,NB是B(x,y)的幅值,I(x,y)是坐标(x,y)处的像素的亮度,
Figure FDA0000091494180000025
是B(x,y)的平均亮度,m(2)(x,y)是二阶矩,并且
其中,所述第三表达式是其中,UL是上限值,并且DSF是缩小因子。
8.根据权利要求1所述的方法,其中,在通过所述窗口扫描的所述目标图像的多个区域之中,沿所述窗口的宽度方向的相邻区域彼此交叠,并且沿所述窗口的长度方向的相邻区域彼此交叠。
9.根据权利要求1所述的方法,其中,所述动态器官是手、脚、头、臂以及腿中的一种。
10.一种用于在用电装置中使用的接口,所述接口包括:
成像元件;以及
动态器官姿势识别部,该动态器官姿势识别部利用窗口扫描差异图像,该差异图像反映了通过所述成像元件输入的目标图像与比较图像之间的亮度差异;当判断所述差异图像的被扫描区域包括动态器官时,生成所述被扫描区域的方向梯度直方图HOG描述符;测量所述被扫描区域的HOG描述符与针对所述动态器官的姿势的查询模板的HOG描述符之间的相似值;以及当所述相似值满足预定条件时,判断所述被扫描区域包括所述动态器官的所述姿势,
其中,所述比较图像是所述目标图像之前的帧图像中的其中一幅帧图像。
11.根据权利要求10所述的接口,其中,所述动态器官姿势识别部通过参照临界值将所述亮度差异二值化为高值和低值来生成针对所述差异图像的二值化图,并且利用所述窗口扫描所述二值化图。
12.根据权利要求11所述的接口,其中,当属于所述被扫描区域的多个像素之中的、具有所述高值的像素的数量满足预定条件时,所述动态器官姿势识别部判断所述被扫描区域包括所述动态器官。
13.根据权利要求10所述的接口,其中,所述动态器官姿势识别部利用针对所述被扫描区域的亮度的高阶统计HOS信息来生成针对所述被扫描区域的HOS图,并且基于所述HOS图来生成所述被扫描区域的HOG描述符。
14.根据权利要求13所述的接口,其中,所述动态器官姿势识别部利用所述被扫描区域的像素的亮度梯度的幅值和方向来生成针对各个块的直方图,并且通过连接这些直方图来生成所述被扫描区域的HOG描述符,并且
其中,所述块具有比所述窗口的尺寸小的尺寸,并且相邻块彼此交叠。
15.根据权利要求10所述的接口,其中,利用所述被扫描区域的HOG描述符与所述查询模板的HOG描述符之间的余弦相似度,通过第一表达式来测量所述相似值,并且
其中,所述第一表达式是
Figure FDA0000091494180000031
其中其中,Hq是所述查询模板的HOG描述符,
Figure FDA0000091494180000033
是所述被扫描区域的HOG描述符,(Hq)T是Hq的置换矩阵,ρr是余弦相似度,并且f(ρr)是相似值测量函数。
16.根据权利要求13所述的接口,其中,通过第二表达式和第三表达式来求解所述HOS信息,
其中,所述第二表达式是 m ( 2 ) ( x , y ) = 1 N B Σ ( x , y ) ∈ B ( x , y ) ( I ( x , y ) - m ^ ( x , y ) ) 2 , 其中,B(x,y)是坐标(x,y)处的像素和周围像素的集合,NB是B(x,y)的幅值,I(x,y)是坐标(x,y)处的像素的亮度,
Figure FDA0000091494180000035
是B(x,y)的平均亮度,m(2)(x,y)是二阶矩,并且
其中,所述第三表达式是
Figure FDA0000091494180000036
其中,UL是上限值,并且DSF是缩小因子。
17.根据权利要求10所述的接口,其中,在通过所述窗口扫描的所述目标图像的多个区域之中,沿所述窗口的宽度方向的相邻区域彼此交叠,并且沿所述窗口的长度方向的相邻区域彼此交叠。
18.根据权利要求10所述的接口,其中,所述动态器官是手、脚、头、臂以及腿中的一种。
19.一种用电装置,该用电装置包括:
接口,该接口包括动态器官姿势识别部,该动态器官姿势识别部利用窗口扫描差异图像,该差异图像反映了通过成像元件输入的目标图像与比较图像之间的亮度差异;当判断所述差异图像的被扫描区域包括动态器官时,生成所述被扫描区域的方向梯度直方图HOG描述符;测量所述被扫描区域的HOG描述符与针对所述动态器官的姿势的查询模板的HOG描述符之间的相似值;以及当所述相似值满足预定条件时,判断所述被扫描区域包括所述动态器官的所述姿势;以及
控制电路,该控制电路根据来自所述接口的所述动态器官的所述姿势的识别结果来控制所述用电装置的操作,
其中,所述比较图像是所述目标图像之前的帧图像中的其中一幅帧图像。
20.根据权利要求19所述的装置,其中,所述动态器官姿势识别部通过参照临界值将所述亮度差异二值化为高值和低值来生成针对所述差异图像的二值化图,并且利用所述窗口扫描所述二值化图。
21.根据权利要求20所述的装置,其中,当属于所述被扫描区域的多个像素之中的、具有所述高值的像素的数量满足预定条件时,所述动态器官姿势识别部判断所述被扫描区域包括所述动态器官。
22.根据权利要求19所述的装置,其中,所述动态器官姿势识别部利用针对所述被扫描区域的亮度的高阶统计HOS信息来生成针对所述被扫描区域的HOS图,并且基于所述HOS图来生成所述被扫描区域的HOG描述符。
23.根据权利要求22所述的装置,其中,所述动态器官姿势识别部利用所述被扫描区域的像素的亮度梯度的幅值和方向来生成针对各个块的直方图,并且通过连接这些直方图来生成所述被扫描区域的HOG描述符,并且
其中,所述块具有比所述窗口的尺寸小的尺寸,并且相邻块彼此交叠。
24.根据权利要求19所述的装置,其中,利用所述被扫描区域的HOG描述符与所述查询模板的HOG描述符之间的余弦相似度,通过第一表达式来测量所述相似值,并且
其中,所述第一表达式是
Figure FDA0000091494180000051
其中其中,Hq是所述查询模板的HOG描述符,
Figure FDA0000091494180000053
是所述被扫描区域的HOG描述符,(Hq)T是Hq的置换矩阵,ρr是余弦相似度,并且f(ρr)是相似值测量函数。
25.根据权利要求22所述的装置,其中通过第二表达式和第三表达式来求解所述HOS信息,
其中,所述第二表达式是 m ( 2 ) ( x , y ) = 1 N B Σ ( x , y ) ∈ B ( x , y ) ( I ( x , y ) - m ^ ( x , y ) ) 2 , 其中,B(x,y)是坐标(x,y)处的像素和周围像素的集合,NB是B(x,y)的幅值,I(x,y)是坐标(x,y)处的像素的亮度,
Figure FDA0000091494180000055
是B(x,y)的平均亮度,m(2)(x,y)是二阶矩,并且
其中,所述第三表达式是
Figure FDA0000091494180000056
其中,UL是上限值,并且DSF是缩小因子。
26.根据权利要求19所述的装置,其中,在通过所述窗口扫描的所述目标图像的多个区域之中,沿所述窗口的宽度方向的相邻区域彼此交叠,并且沿所述窗口的长度方向的相邻区域彼此交叠。
27.根据权利要求19所述的装置,其中,所述动态器官是手、脚、头、臂以及腿中的一种。
CN201110273352.0A 2010-09-17 2011-09-15 识别用户的动态器官姿势的方法和接口以及用电装置 Expired - Fee Related CN102411706B (zh)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
KR1020100091744A KR101298024B1 (ko) 2010-09-17 2010-09-17 사용자 동적 기관 제스처 인식 방법 및 인터페이스와, 이를 사용하는 전기 사용 장치
KR10-2010-0091744 2010-09-17

Publications (2)

Publication Number Publication Date
CN102411706A true CN102411706A (zh) 2012-04-11
CN102411706B CN102411706B (zh) 2014-03-19

Family

ID=45817806

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201110273352.0A Expired - Fee Related CN102411706B (zh) 2010-09-17 2011-09-15 识别用户的动态器官姿势的方法和接口以及用电装置

Country Status (3)

Country Link
US (1) US8649560B2 (zh)
KR (1) KR101298024B1 (zh)
CN (1) CN102411706B (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106327537A (zh) * 2015-07-02 2017-01-11 阿里巴巴集团控股有限公司 一种图像预处理方法及装置
CN110197137A (zh) * 2019-05-14 2019-09-03 苏州沃柯雷克智能系统有限公司 一种确定手掌姿势的方法、装置、设备及存储介质

Families Citing this family (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP6316540B2 (ja) * 2012-04-13 2018-04-25 三星電子株式会社Samsung Electronics Co.,Ltd. カメラ装置及びその制御方法
US9128528B2 (en) * 2012-06-22 2015-09-08 Cisco Technology, Inc. Image-based real-time gesture recognition
TWI471814B (zh) * 2012-07-18 2015-02-01 Pixart Imaging Inc 降低背景干擾的手勢判斷方法及其裝置
KR20140099111A (ko) * 2013-02-01 2014-08-11 삼성전자주식회사 카메라 장치의 동작을 제어하는 방법 및 상기 카메라 장치
US9524028B2 (en) * 2013-03-08 2016-12-20 Fastvdo Llc Visual language for human computer interfaces
JP6406005B2 (ja) * 2014-05-29 2018-10-17 三星ダイヤモンド工業株式会社 ツールホルダ及び溝加工装置
CN104392432A (zh) * 2014-11-03 2015-03-04 深圳市华星光电技术有限公司 基于方向梯度直方图的显示面板缺陷检测方法
CN105991188B (zh) * 2015-02-16 2019-09-10 阿里巴巴集团控股有限公司 一种检测共享风险链路组的方法及装置
WO2017003915A1 (en) * 2015-07-02 2017-01-05 Alibaba Group Holding Limited Method and system for preprocessing images
US20170323149A1 (en) * 2016-05-05 2017-11-09 International Business Machines Corporation Rotation invariant object detection
CN109145793A (zh) * 2018-08-09 2019-01-04 东软集团股份有限公司 建立手势识别模型的方法、装置、存储介质及电子设备
TWI710973B (zh) * 2018-08-10 2020-11-21 緯創資通股份有限公司 手勢識別方法、手勢識別模組及手勢識別系統
KR102196167B1 (ko) * 2018-09-17 2020-12-30 한국전자통신연구원 사회 지능 평가 방법 및 이를 위한 장치
CN109960403A (zh) * 2019-01-07 2019-07-02 西南科技大学 沉浸式环境下针对医学图像的可视化呈现和交互方法
US20230178226A1 (en) * 2021-12-06 2023-06-08 Fresenius Kabi Austria Gmbh System and Method for Validating a System and Method for Monitoring Pharmaceutical Operations

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1860501A (zh) * 2004-03-24 2006-11-08 三菱电机株式会社 特定部分姿势推测装置、特定部分姿势推测方法及特定部分姿势推测程序
WO2009035705A1 (en) * 2007-09-14 2009-03-19 Reactrix Systems, Inc. Processing of gesture-based user interactions
CN101408929A (zh) * 2007-10-10 2009-04-15 三星电子株式会社 一种用于人脸识别系统的多模板人脸注册方法和装置
CN101510257A (zh) * 2009-03-31 2009-08-19 华为技术有限公司 一种人脸相似度匹配方法及装置
CN101763515A (zh) * 2009-09-23 2010-06-30 中国科学院自动化研究所 一种基于计算机视觉的实时手势交互方法

Family Cites Families (25)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5150432A (en) * 1990-03-26 1992-09-22 Kabushiki Kaisha Toshiba Apparatus for encoding/decoding video signals to improve quality of a specific region
US6597738B1 (en) * 1999-02-01 2003-07-22 Hyundai Curitel, Inc. Motion descriptor generating apparatus by using accumulated motion histogram and a method therefor
US7035461B2 (en) * 2002-08-22 2006-04-25 Eastman Kodak Company Method for detecting objects in digital images
JP2004299025A (ja) * 2003-04-01 2004-10-28 Honda Motor Co Ltd 移動ロボット制御装置、移動ロボット制御方法及び移動ロボット制御プログラム
KR100687737B1 (ko) * 2005-03-19 2007-02-27 한국전자통신연구원 양손 제스쳐에 기반한 가상 마우스 장치 및 방법
US20070237387A1 (en) * 2006-04-11 2007-10-11 Shmuel Avidan Method for detecting humans in images
GB0611969D0 (en) * 2006-06-16 2006-07-26 Robert Gordon The University Video content prioritisation
KR100776801B1 (ko) * 2006-07-19 2007-11-19 한국전자통신연구원 화상 처리 시스템에서의 제스처 인식 장치 및 방법
US7869631B2 (en) * 2006-12-11 2011-01-11 Arcsoft, Inc. Automatic skin color model face detection and mean-shift face tracking
US8243991B2 (en) * 2008-06-17 2012-08-14 Sri International Method and apparatus for detecting targets through temporal scene changes
JP2010020594A (ja) 2008-07-11 2010-01-28 Kddi Corp 瞳画像認識装置
US20100021056A1 (en) * 2008-07-28 2010-01-28 Fujifilm Corporation Skin color model generation device and method, and skin color detection device and method
JP4626692B2 (ja) * 2008-09-12 2011-02-09 ソニー株式会社 物体検出装置、撮像装置、物体検出方法およびプログラム
WO2010080121A1 (en) * 2008-12-18 2010-07-15 The Regents Of The University Of California, Santa Cruz Training-free generic object detection in 2-d and 3-d using locally adaptive regression kernels
US20100158363A1 (en) * 2008-12-19 2010-06-24 Qualcomm Incorporated System and method to detect skin color in an image
CN101872477B (zh) * 2009-04-24 2014-07-16 索尼株式会社 检测图像中的对象的方法、装置,及包括该装置的系统
CN101872476A (zh) * 2009-04-24 2010-10-27 索尼株式会社 估计图像中对象姿势视角的方法、设备
US8611604B2 (en) * 2009-06-03 2013-12-17 Chubu University Educational Foundation Object detection device
US8787663B2 (en) * 2010-03-01 2014-07-22 Primesense Ltd. Tracking body parts by combined color image and depth processing
US8509526B2 (en) * 2010-04-13 2013-08-13 International Business Machines Corporation Detection of objects in digital images
US8639042B2 (en) * 2010-06-22 2014-01-28 Microsoft Corporation Hierarchical filtered motion field for action recognition
JP5975598B2 (ja) * 2010-08-26 2016-08-23 キヤノン株式会社 画像処理装置、画像処理方法及びプログラム
US8768006B2 (en) * 2010-10-19 2014-07-01 Hewlett-Packard Development Company, L.P. Hand gesture recognition
US8755625B2 (en) * 2010-11-19 2014-06-17 Analog Devices, Inc. Component filtering for low-light noise reduction
US9111138B2 (en) * 2010-11-30 2015-08-18 Cisco Technology, Inc. System and method for gesture interface control

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1860501A (zh) * 2004-03-24 2006-11-08 三菱电机株式会社 特定部分姿势推测装置、特定部分姿势推测方法及特定部分姿势推测程序
WO2009035705A1 (en) * 2007-09-14 2009-03-19 Reactrix Systems, Inc. Processing of gesture-based user interactions
CN101408929A (zh) * 2007-10-10 2009-04-15 三星电子株式会社 一种用于人脸识别系统的多模板人脸注册方法和装置
CN101510257A (zh) * 2009-03-31 2009-08-19 华为技术有限公司 一种人脸相似度匹配方法及装置
CN101763515A (zh) * 2009-09-23 2010-06-30 中国科学院自动化研究所 一种基于计算机视觉的实时手势交互方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
曾春等: "基于感兴趣区梯度方向直方图的行人检测", 《计算机工程》, vol. 35, no. 24, 31 December 2009 (2009-12-31), pages 182 - 184 *

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106327537A (zh) * 2015-07-02 2017-01-11 阿里巴巴集团控股有限公司 一种图像预处理方法及装置
CN106327537B (zh) * 2015-07-02 2019-12-06 阿里巴巴集团控股有限公司 一种图像预处理方法及装置
CN110197137A (zh) * 2019-05-14 2019-09-03 苏州沃柯雷克智能系统有限公司 一种确定手掌姿势的方法、装置、设备及存储介质

Also Published As

Publication number Publication date
CN102411706B (zh) 2014-03-19
US8649560B2 (en) 2014-02-11
KR20120029737A (ko) 2012-03-27
KR101298024B1 (ko) 2013-08-26
US20120070036A1 (en) 2012-03-22

Similar Documents

Publication Publication Date Title
CN102411706A (zh) 识别用户的动态器官姿势的方法和接口以及用电装置
Romero-Ramirez et al. Speeded up detection of squared fiducial markers
CN102411705B (zh) 识别用户的动态器官姿态的方法和接口以及电子利用装置
US20130279756A1 (en) Computer vision based hand identification
CN102789578B (zh) 基于多源目标特征支持的红外遥感图像变化检测方法
TWI448987B (zh) 使用者動態器官姿勢之識別介面及方法與使用該介面之用電設備
CN103530590A (zh) Dpm二维码识别系统
KR101772438B1 (ko) 도로 표지판 인식 시스템에서 막대형 신호를 검출하는 장치 및 방법
US20120106784A1 (en) Apparatus and method for tracking object in image processing system
CN111368682B (zh) 一种基于faster RCNN台标检测与识别的方法及系统
CN110490171B (zh) 一种危险姿态识别方法、装置、计算机设备及存储介质
CN111027526B (zh) 一种提高车辆目标检测识别效率的方法
EP3916355A1 (en) Method and apparatus for indoor localization, electronic device, storage medium and computer program
CN103577792A (zh) 用于估计人体姿势的设备和方法
CN113989944A (zh) 操作动作识别方法、装置及存储介质
KR101842535B1 (ko) 부호의 광학적 검출 방법
JP2019220163A (ja) ビジョンシステムでラインを検出するためのシステム及び方法
Kim et al. An efficient vision-based object detection and tracking using online learning
CN115170651A (zh) 空间位置的识别方法、装置、系统及存储介质
Tybusch et al. Color-based and recursive fiducial marker for augmented reality
CN101945209A (zh) 用于确定平坦区域的运动向量的方法和系统
Choo et al. Scene mapping-based video registration using frame similarity measurement and feature tracking
Funatsu et al. Study of Measurement Method in Inter-Vehicle Distance Using Hu Moment Invariants
CN113887384B (zh) 基于多轨迹融合的行人轨迹分析方法、装置、设备及介质
US20240119620A1 (en) Posture estimation apparatus, posture estimation method, and computer-readable recording medium

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20140319

Termination date: 20180915

CF01 Termination of patent right due to non-payment of annual fee