CN112949512B - 一种动态手势识别方法、手势交互方法及交互系统 - Google Patents
一种动态手势识别方法、手势交互方法及交互系统 Download PDFInfo
- Publication number
- CN112949512B CN112949512B CN202110252206.3A CN202110252206A CN112949512B CN 112949512 B CN112949512 B CN 112949512B CN 202110252206 A CN202110252206 A CN 202110252206A CN 112949512 B CN112949512 B CN 112949512B
- Authority
- CN
- China
- Prior art keywords
- event
- hand
- event data
- initial
- area
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 108
- 230000003993 interaction Effects 0.000 title claims abstract description 38
- 239000013598 vector Substances 0.000 claims abstract description 101
- 238000001514 detection method Methods 0.000 claims abstract description 94
- 230000002452 interceptive effect Effects 0.000 claims abstract description 39
- 238000012545 processing Methods 0.000 claims abstract description 31
- 230000008569 process Effects 0.000 claims abstract description 20
- 238000013528 artificial neural network Methods 0.000 claims abstract description 11
- 230000004044 response Effects 0.000 claims abstract description 11
- 230000001186 cumulative effect Effects 0.000 claims description 78
- 238000009825 accumulation Methods 0.000 claims description 49
- 238000005259 measurement Methods 0.000 claims description 46
- 230000001960 triggered effect Effects 0.000 claims description 25
- 230000000007 visual effect Effects 0.000 claims description 4
- 238000005070 sampling Methods 0.000 claims description 3
- 238000004891 communication Methods 0.000 description 15
- 238000010586 diagram Methods 0.000 description 15
- 238000012360 testing method Methods 0.000 description 13
- 210000004247 hand Anatomy 0.000 description 11
- 210000004027 cell Anatomy 0.000 description 10
- 230000003068 static effect Effects 0.000 description 6
- 238000012549 training Methods 0.000 description 6
- 238000001914 filtration Methods 0.000 description 5
- 230000006870 function Effects 0.000 description 5
- 230000008859 change Effects 0.000 description 4
- 238000009499 grossing Methods 0.000 description 4
- 239000011159 matrix material Substances 0.000 description 4
- 230000002093 peripheral effect Effects 0.000 description 4
- 230000009471 action Effects 0.000 description 3
- 230000008901 benefit Effects 0.000 description 3
- 238000002474 experimental method Methods 0.000 description 3
- 238000005286 illumination Methods 0.000 description 3
- 210000000707 wrist Anatomy 0.000 description 3
- 206010063385 Intellectualisation Diseases 0.000 description 2
- 238000004364 calculation method Methods 0.000 description 2
- 230000000295 complement effect Effects 0.000 description 2
- 238000012937 correction Methods 0.000 description 2
- 238000009434 installation Methods 0.000 description 2
- 241000238558 Eucarida Species 0.000 description 1
- 241001465754 Metazoa Species 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 230000002567 autonomic effect Effects 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000003592 biomimetic effect Effects 0.000 description 1
- 210000005252 bulbus oculi Anatomy 0.000 description 1
- 230000001413 cellular effect Effects 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 230000007613 environmental effect Effects 0.000 description 1
- 238000007667 floating Methods 0.000 description 1
- 239000011521 glass Substances 0.000 description 1
- 238000007726 management method Methods 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 239000000203 mixture Substances 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 210000002569 neuron Anatomy 0.000 description 1
- 238000003672 processing method Methods 0.000 description 1
- 238000011084 recovery Methods 0.000 description 1
- 210000001525 retina Anatomy 0.000 description 1
- 230000007704 transition Effects 0.000 description 1
- 230000007723 transport mechanism Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/20—Movements or behaviour, e.g. gesture recognition
- G06V40/28—Recognition of hand or arm movements, e.g. recognition of deaf sign language
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F3/00—Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
- G06F3/01—Input arrangements or combined input and output arrangements for interaction between user and computer
- G06F3/017—Gesture based interaction, e.g. based on a set of recognized hand gestures
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/20—Image preprocessing
- G06V10/25—Determination of region of interest [ROI] or a volume of interest [VOI]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/74—Image or video pattern matching; Proximity measures in feature spaces
- G06V10/75—Organisation of the matching processes, e.g. simultaneous or sequential comparisons of image or video features; Coarse-fine approaches, e.g. multi-scale approaches; using context analysis; Selection of dictionaries
- G06V10/751—Comparing pixel values or logical combinations thereof, or feature values having positional relevance, e.g. template matching
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/82—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/10—Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/09—Supervised learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V2201/00—Indexing scheme relating to image or video recognition or understanding
- G06V2201/07—Target detection
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Multimedia (AREA)
- Human Computer Interaction (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Evolutionary Computation (AREA)
- Artificial Intelligence (AREA)
- Computing Systems (AREA)
- Software Systems (AREA)
- Psychiatry (AREA)
- Social Psychology (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- Medical Informatics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Evolutionary Biology (AREA)
- Computational Linguistics (AREA)
- Molecular Biology (AREA)
- Biophysics (AREA)
- Mathematical Physics (AREA)
- Biomedical Technology (AREA)
- Bioinformatics & Computational Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- User Interface Of Digital Computer (AREA)
- Image Analysis (AREA)
Abstract
本发明公开了一种动态手势识别方法、手势交互方法及交互系统。其中,交互系统包括:动态视觉传感器,适于基于视场中对象和动态视觉传感器的相对运动而触发事件,并输出事件数据流给手部检测模块;手部检测模块,适于对事件数据流进行处理,以确定手部初始位置;手部跟踪模块,适于基于手部初始位置,在事件数据流中确定出一系列指示手部运动状态的状态向量;手势识别模块,适于基于所获取的状态向量所指向的事件数据,构建事件云,并利用基于点云的神经网络,对事件云进行处理,以识别出手势类别;指令响应模块,适于基于所识别的手势类别,执行相应的操作指令。本发明一并公开相应的计算设备。
Description
技术领域
本发明涉及计算机视觉技术领域,尤其涉及基于动态手势识别的人机交互方法。
背景技术
人机交互系统通过研究人与计算机之间的相互理解与通信,在最大程度上为人们完成信息管理、服务和处理等功能。从最初的基于传统的硬件设备的交互,比如鼠标、键盘,到现如今的基于计算机视觉的人机交互系统,人机交互的发展非常迅速。
其中,基于计算机视觉的人机交互系统,典型的有基于语音识别的人机交互,最具代表性的是苹果公司推出的Siri;基于动作识别的人机交互,最具代表性的是微软的Kinect;和基于眼球的人机交互,最具代表性的是Magic Leap公司的Magic Leap One AR眼镜。在基于动作识别的人机交互技术中,一种广泛应用的方法为,在图像中对人手进行检测和跟踪,并提取手部特征对静态手势进行描述。之后,通过识别出静态手势,来根据手势执行对应的指令。但这种方法受限于数据帧率的影响,响应时间较长,同时,由于步骤多、过程繁琐,这种方法在算法处理时计算负载高、且功耗高。此外,传统的人机交互系统需要与硬件平台集成在一起,安装比较复杂。
基于上述问题,需要一种新的基于动态手势识别的人机交互方案。
发明内容
本发明提供了一种动态手势识别方法、手势交互方法及交互系统,以力图解决或者至少缓解上面存在的至少一个问题。
根据本发明的一个方面,提供了一种动态手势跟踪方法,包括步骤:按照预定时间间隔,对来自动态视觉传感器的事件数据流进行处理,以生成一系列事件累积图;基于事件累积图,确定出手部初始位置;以与手部初始位置对应的事件累积图相邻的下一事件累积图为初始帧,基于手部初始位置,从初始帧中确定出手部测量位置;以及结合手部初始位置和手部测量位置,分别确定出各事件累积图中指示手部运动状态的状态向量。
可选地,在根据本发明的方法中,基于事件累积图,确定出手部初始位置的步骤包括:针对一个事件累积图,确定事件累积图中的高能量密度点;利用目标检测网络,从该事件累积图中确定出至少一个手部检测区域;以高能量密度点为中心,按照手部检测区域的尺寸,对应生成至少一个矩形区域;分别计算矩形区域与手部检测区域的重合率;若重合率大于预设值,则将高能量密度点的位置作为手部初始位置;若重合率不大于预设值,则从下一事件累积图中计算出高能量密度点和手部检测区域、并根据手部检测区域与矩形区域的重合率来确定出手部初始位置。
可选地,在根据本发明的方法中,针对一个事件累积图,确定当前事件累积图中的高能量密度点的步骤包括:利用该事件累积图和与其相邻的至少一个事件累积图,生成能量密度图;将能量密度图分成多个尺寸相同的区域;根据各区域内像素值之和以及像素值为非零的像素的个数,分别确定出对应区域的能量密度;从所有区域中去除能量密度不符合预定条件的区域,得到剩余区域;在剩余区域内,选取能量密度最大的区域,并计算所选区域中像素坐标位置的均值,作为高能量密度点。
可选地,在根据本发明的方法中,以与手部初始位置对应的事件累积图相邻的下一事件累积图为初始帧,基于手部初始位置,从初始帧中确定出手部测量位置的步骤包括:基于手部初始位置,在初始帧中确定出第一搜索区域;通过依次判断初始帧中的事件数据是否处于第一搜索区域,来迭代更新第一搜索区域,得到至少一个新的第一搜索区域;利用第一搜索区域和所有新的第一搜索区域,得到第一搜索区域的集合;根据在第一搜索区域的集合中的所有事件数据的数量及其坐标位置,确定出手部测量位置。
可选地,在根据本发明的方法中,通过依次判断初始帧中的事件数据是否处于第一搜索区域,来迭代更新第一搜索区域,得到至少一个新的第一搜索区域的步骤包括:针对初始帧中的事件数据,按照事件数据输出的先后顺序依次判断事件数据是否在第一搜索区域内,并实时统计在第一搜索区域内的事件数据的数量;当所统计的数量大于更新频率阈值时,更新第一搜索区域,得到新的第一搜索区域及其搜索中心;依序继续判断初始帧中的其他事件数据是否在新的第一搜索区域内,并统计在新的第一搜索区域内的事件数据的数量;重复迭代更新第一搜索区域的步骤和统计在新的第一搜索区域内事件数据的数量的步骤,直到遍历完初始帧内的所有事件数据。
可选地,在根据本发明的方法中,根据在第一搜索区域的集合中的所有事件数据的数量及其坐标位置,确定出手部测量位置的步骤包括:基于在第一搜索区域的集合中的所有事件数据的数量及其坐标位置,确定出事件数据的坐标位置的均值,作为手部测量位置。
可选地,在根据本发明的方法中,基于手部初始位置,在初始帧中确定出第一搜索区域的步骤包括:在初始帧中,以手部初始位置为中心、并将手部检测区域的宽或高放大预定倍数作为边,生成方形区域,作为第一搜索区域。
可选地,在根据本发明的方法中,结合手部初始位置和手部测量位置,分别确定出各事件累积图中指示手部运动状态的状态向量的步骤包括:基于手部初始位置和手部测量位置,确定初始帧的预测状态向量和初始帧的手部测量位置;利用初始帧的手部测量位置矫正初始帧的预测状态向量,得到初始帧的状态向量;以初始帧为起点,根据上一事件累积图的状态向量,分别计算当前事件累积图的预测状态向量和手部测量位置;利用当前事件累积图的手部测量位置矫正当前事件累积图的预测状态向量,确定出当前事件累积图的状态向量;重复迭代确定预测状态向量和手部测量位置的步骤、以及确定状态向量的步骤,以从各事件累积图中分别确定出状态向量。
可选地,在根据本发明的方法中,按照预定时间间隔,对来自动态视觉传感器的事件数据流进行处理,以生成一系列事件累积图的步骤包括:按照预定时间间隔,对来自动态视觉传感器的事件数据流进行分割,得到多个数据段;根据各数据段所包含的事件数据,分别生成各自对应的一系列事件累积图。
可选地,在根据本发明的方法中,事件数据由视场中对象和动态视觉传感器的相对运动触发,且事件数据中包含被触发事件的坐标位置及时间戳;以及根据数据段内所包含的事件数据,生成对应的事件累积图的步骤包括:构建一个预定尺寸的初始图像并将初始图像的像素值赋为零,其中预定尺寸根据动态视觉传感器的像素单元阵列的尺寸确定;针对初始图像的各像素,统计与像素的坐标位置一致的被触发事件,在数据段内被触发的次数;以及用所统计的次数来对应更新各像素的像素值,生成事件累积图。
根据本发明的另一方面,提供了一种动态手势识别方法,包括步骤:通过执行动态手势跟踪方法,来获取一系列指示手部运动状态的状态向量;基于所获取的状态向量所指向的事件数据,构建事件云;利用基于点云的神经网络,对事件云进行处理,以识别出手势类别。
可选地,在根据本发明的方法中,基于所获取的状态向量所指向的事件数据,构建事件云的步骤包括:基于各事件累积图对应的状态向量所指向的事件数据,来分别生成各事件累积图对应的事件向量;由相邻的第一数量个事件向量,组成事件云。
可选地,在根据本发明的方法中,基于事件累积图对应的状态向量所指向的事件数据,来生成其对应的事件向量的步骤包括:以事件累积图对应的状态向量所指向的事件数据为中心,生成第二搜索区域;对第二搜索区域内的事件数据进行采样,得到第二数量个事件数据;利用第二数量个事件数据,生成该事件累积图的事件向量。
根据本发明的另一方面,提供了一种手势交互方法,包括步骤:通过执行动态手势识别方法,来识别用户当前手势类别;基于所识别的手势类别,执行相应的操作指令。
根据本发明的又一方面,提供了一种交互系统,包括:动态视觉传感器,适于基于视场中对象和动态视觉传感器的相对运动而触发事件,并输出事件数据流给手部检测模块;手部检测模块,适于对事件数据流进行处理,以确定手部初始位置;手部跟踪模块,适于基于手部初始位置,利用卡尔曼滤波,在事件数据流中确定出一系列指示手部运动状态的状态向量;手势识别模块,适于基于所获取的状态向量所指向的事件数据,构建事件云,并利用基于点云的神经网络,对事件云进行处理,以识别出手势类别;指令响应模块,适于基于所识别的手势类别,执行相应的操作指令。
可选地,在根据本发明的系统中,手部检测模块还适于基于状态向量,生成检测区域,来检测手部。
可选地,根据本发明的系统还包括:复位模块,适于在手部检测模块在预定时长内未检测到手部时,指示手部检测模块扩大检测区域进行检测,并且在重新检测到手部时,复位手部初始位置。根据本发明的再一方面,提供了一种计算设备,包括:一个或多个处理器;和存储器;一个或多个程序,其中一个或多个程序存储在存储器中并被配置为由一个或多个处理器执行,一个或多个程序包括用于执行如上所述方法中的任一方法的指令。
根据本发明的再一方面,提供了一种存储一个或多个程序的计算机可读存储介质,一个或多个程序包括指令,指令在被计算设备执行时,使得计算设备执行如上所述方法中的任一方法。
根据本发明的再一方面,提供了一种智能设备,包括交互系统。
综上所述,根据本发明的方案,基于动态视觉传感器输出的事件数据流,生成一系列事件累积图,通过对事件累积图进行处理,确定出手部初始位置,快速检测出手部。之后,基于手部初始位置,确定出初始帧,并实现动态手势地跟踪识别,进而实现准确高效地人机交互。整个处理过程简单快捷,没有繁琐的图像处理步骤,能够大大提高动态手势跟踪识别的速度和精度。
附图说明
为了实现上述以及相关目的,本文结合下面的描述和附图来描述某些说明性方面,这些方面指示了可以实践本文所公开的原理的各种方式,并且所有方面及其等效方面旨在落入所要求保护的主题的范围内。通过结合附图阅读下面的详细描述,本公开的上述以及其它目的、特征和优势将变得更加明显。遍及本公开,相同的附图标记通常指代相同的部件或元素。
图1示出了根据本发明一些实施例的交互系统100的示意图;
图2示出了根据本发明一些实施例的计算设备200的示意图;
图3示出了根据本发明一个实施例的动态手势跟踪方法300的流程图;
图4示出了根据本发明一个实施例的初始化结果示意图;
图5示出了根据本发明一个实施例的动态手势识别方法500的流程示意图;
图6示出了根据本发明一个实施例的手势交互方法600的流程示意图;
图7A和图7B示出了根据本发明一个实施例的手势交互的界面示意图;
图8示出了根据本发明一个实施例的测试平台的示意图。
具体实施方式
下面将参照附图更详细地描述本公开的示例性实施例。虽然附图中显示了本公开的示例性实施例,然而应当理解,可以以各种形式实现本公开而不应被这里阐述的实施例所限制。相反,提供这些实施例是为了能够更透彻地理解本公开,并且能够将本公开的范围完整的传达给本领域的技术人员。
近年来,动态视觉传感器(Dynamic Vision Sensor,DVS)在计算机视觉领域中得到了越来越多的关注和应用。DVS是一种模拟基于脉冲触发式神经元的人类视网膜的生物拟态视觉传感器。传感器内部具有由多个像素单元构成的像素单元阵列,其中每个像素单元只有在感应到光强变化时,才会响应并记录光强快速变化的区域。也就是说,DVS内的每一个像素单元能够独立自主地响应并记录光强快速变化的区域。由于DVS采用事件触发的处理机制,像素单元只有在视场中对象相对于动态视觉传感器发生运动时才会被触发,并生成事件数据,故其输出是异步的事件数据流而非图像帧,事件数据流例如是光强变化信息(如,光强变化的时间戳和光强阈值)以及被触发像素单元在像素单元阵列中的坐标位置。
基于以上工作原理特性,动态视觉传感器相比于传统视觉传感器的优越性可归纳为以下几个方面:1)DVS的响应速度不再受传统的曝光时间和帧速率限制,可以侦测到高达万帧/秒速率运动的高速物体;2)DVS具有更大的动态范围,在低光照或者高曝光环境下都能准确感应并输出场景变化;3)DVS功耗更低;4)由于DVS每个像素单元都是独立响应光强变化,因此DVS不会受运动模糊的影响。
根据本发明的实施方式,提出了一种基于动态手势识别的人机交互方案。该方案考虑到现有人机交互方案中存在的响应时间长、计算负载高、功耗高和安装复杂等问题,想到利用DVS数据的特性,通过一定的算法来处理其输出的事件数据流,来实现快速手部检测和动态跟踪识别,进而实现准确高效地人机交互。
图1示出了根据本发明一个实施例的交互系统100的示意图。如图1所示,除期望的配置(如显示屏幕等)外,交互系统100至少还包括相互耦接的动态视觉传感器(DVS)110、手部检测模块120、手部跟踪模块130、手势识别模块140和指令响应模块150。应当了解,图1仅作为示例,本发明实施例对系统100中各部分的数量并不做限制。
动态视觉传感器110实时监测视场中对象(诸如人物、动物、物体等)的运动变化,一旦其监测到视场中有对象(相对于动态视觉传感器110)发生运动(即,视场中的光线发生变化),就会触发像素事件(或,简称为“事件”),输出动态像素(即,亮度发生变化的像素单元)的事件数据。一段时间内输出的若干个事件数据就构成了事件数据流。该事件数据流中每个事件数据至少包括被触发事件(即,亮度发生变化的像素单元)的坐标位置和被触发时刻的时间戳信息。关于动态视觉传感器110的具体组成,此处不做过多阐述。
动态视觉传感器110将输出的事件数据流传送给手部检测模块120。由手部检测模块120对事件数据流进行处理,以确定出手部初始位置。
在一种实施例中,事件数据流中的事件数据是按照被触发时间的先后顺序输出的,手部检测模块120先按照预定时间间隔,对来自动态视觉传感器110的事件数据流进行“切片”处理,得到一系列时间切片;再分别对每个时间切片进行处理,生成表征视场中运动信息的事件累积图,通过对事件累积图的处理,以期从中确定出手部初始位置。
一旦确定出手部初始位置,交互系统100就被激活,进入手部跟踪模式。
根据本发明的交互系统100,不需要通过识别一个静态的手势来锁定操作用户,用户只需在摄像头前做出诸如挥手之类的手部操作,交互系统100即可被激活。对于用户来说,初始化灵敏且便捷。
在确定出手部初始位置后,一方面,交互系统100会在显示屏幕上实时显示手部初始位置(例如,以圆点的形式显示手部初始位置),并基于手部初始位置,在其周围设置可操作区域。当人的位置固定时,只运动手部即可覆盖整个可操作区域,这样,就避免了用户为操作人机交互系统做出夸张的动作,使得操作更加人性化。
另一方面,手部跟踪模块130自与手部初始位置对应的事件累积图相邻的下一事件累积图起,对该手部进行跟踪。在一种实施例中,手部跟踪模块130基于手部初始位置,利用卡尔曼滤波,在后续的一系列事件累积图中确定出一系列指示手部运动状态的状态向量。通常,针对一个事件累积图,会确定出一个状态向量。该状态向量至少包含手部的坐标位置和运动速度。
在手部跟踪模块130跟踪手部运动状态的同时,手势识别模块140识别跟踪到的手部的手势类别。根据一种实施例,手势识别模块140基于所获取的状态向量所指向的事件数据,构建事件云,并利用基于点云的神经网络,对事件云进行处理,以识别出手势类别。手势类别可以在训练上述神经网络时定义,在根据本发明的实施例中,手势类别为一些动态手势,例如,向上、下、左、右、前、后等不同方向挥动手,又或者是变换出不同的手势,如握拳、比划出“OK”“胜利”等手势。
指令响应模块150基于所识别的手势类别,执行相应的操作指令。在一种实施例中,动态手势的类别包括:上下挥手、左右挥手、向左旋转手部和向右旋转手部。这些动态手势对应被用于执行“确定”“返回”“调大音量”“调小音量”等操作。
根据另一些实施方式,由于遮挡或者外部环境的干扰,手部跟踪模块130可能会失效。为了帮助交互系统100自主恢复,当手部丢失时,必须复位或者重新初始化手的位置。
此时,交互系统100还包括复位模块160,与手部检测模块120相耦接,如图1所示。
在跟踪过程中,手部检测模块120还可以基于状态向量,以状态向量中所包含的手部的坐标位置为跟踪中心,生成检测区域,以便在跟踪中心的周围持续地检测可能存在的手部。通常,手部检测模块120可以通过目标检测网络,从检测区域中检测可能存在的手部。当检测到手部时,目标检测网络输出的是一个或多个手部检测框。若没有手被检测到,则认为跟踪失效。
在一种实施例中,设置一个预定时长t1,若丢失的时长大于t1,则交互系统100进入复位模式。
复位模块160在手部检测模块120在预定时长(即t1)内未检测到手部时,指示手部检测模块120扩大检测区域进行检测。可选地,扩大的检测区域可以与上文中的可操作区域保持相同的尺寸。直到手部检测模块120在扩大的检测区域中重新检测到手部时,复位手部初始位置。根据一种实施例,当手部检测模块120检测到手部时,可能检测到不止一个手部,即,有不止一个手部检测框。通常,复位模块160计算上一跟踪结果与手部检测框的中心点的距离,并选取距离最小的手部检测框的中心点,作为复位后的手部初始位置。
此外,还可以设置时间阈值t2,若丢失的时长大于t2,则认为手部完全丢失,重新初始化。如前文所述,由手部检测模块120重新按照预定时间间隔,处理事件数据流,并从中确定出手部初始位置。
根据本发明的交互系统100,通过对来自动态视觉传感器110的事件数据流进行处理,来确定出手部初始位置,即能够快速检测出手部;另外,基于手部初始位置和初始帧,实现动态手势地跟踪识别,进而实现准确高效地人机交互。系统100无需对传统的图像帧进行复杂繁琐的处理,能够大大提高动态手势跟踪识别的速度。
进一步地,交互系统100利用事件数据流所生成的事件累积图,只包含运动对象的轮廓信息而不附带环境背景等无用信息,基于该图像,能够极大地保证动态手势跟踪识别的精度。
根据本发明的实施场景,交互系统100一般应用于基于手势进行交互的智能设备上,以提高用户的使用体验。
这样的智能设备包括专门的智能设备,如移动终端和个人数字终端等,这些设备中包括根据本发明的一个或者多个交互系统100来进行用户交互,或者对设备中的外设进行控制。
这样的智能设备还包括为了实现特定功能而构造的专门设备,例如智能音箱、和智能显示设备等。这些设备中包括根据本发明的系统100来对音箱和显示设备进行控制。
这样的智能设备还包括各种IoT和AIoT设备。这些设备中包括根据本发明的系统100进行交互处理,从而实现了更加密集且更加智能的设备分布。
这样的智能设备还可以在车辆中使用,例如可以实现为车载设备、或者可以嵌入到车辆中,从而为车辆的智能驾驶提供丰富的处理能力。
这样的智能设备还可以用于家庭和娱乐领域,例如可以实现为智能音箱、智能空调、智能冰箱、智能显示设备等。这些设备包括根据本发明的系统100来进行交互处理和控制,从而实现了家庭和娱乐设备的智能化。
另外,这样的智能设备还可以用于工业领域,例如可以实现为工控设备、感测设备、IoT设备,AIoT设备和制动设备等。这些设备中包括根据本发明的系统100来进行交互处理和控制,从而实现了工业设备的智能化。
以上对智能设备的描述仅仅是示意性的,根据本发明的智能设备不受限于此,所有可以利用根据本发明的系统100进行交互处理或数据处理的智能设备都在本发明的保护范围之内。
根据本发明的一种实施例,交互系统100可通过一个或多个计算设备来实现。图2示出了根据本发明一个实施例的计算设备200的示意框图。
如图2所示,在基本的配置202中,计算设备200典型地包括系统存储器206和一个或者多个处理器204。存储器总线208可以用于在处理器204和系统存储器206之间的通信。
取决于期望的配置,处理器204可以是任何类型的处理,包括但不限于:微处理器(μP)、微控制器(μP/μC/DSP)、数字信息处理器(DSP)或者它们的任何组合。处理器204可以包括诸如一级高速缓存210和二级高速缓存212之类的一个或者多个级别的高速缓存、处理器核心214和寄存器216。示例的处理器核心214可以包括运算逻辑单元(ALU)、浮点数单元(FPU)、数字信号处理核心(DSP核心)或者它们的任何组合。示例的存储器控制器218可以与处理器204一起使用,或者在一些实现中,存储器控制器218可以是处理器204的一个内部部分。
取决于期望的配置,系统存储器206可以是任意类型的存储器,包括但不限于:易失性存储器(诸如RAM)、非易失性存储器(诸如ROM、闪存等)或者它们的任何组合。系统存储器206可以包括操作系统220、一个或者多个应用222以及程序数据224。在一些实施方式中,应用222可以布置为在操作系统上由一个或多个处理器204利用程序数据224执行指令。
计算设备200还包括储存设备232,储存设备232包括可移除储存器236和不可移除储存器238,可移除储存器236和不可移除储存器238均与储存接口总线234连接。
计算设备200还可以包括有助于从各种接口设备(例如,输出设备242、外设接口244和通信设备246)到基本配置202经由总线/接口控制器230的通信的接口总线240。示例的输出设备242包括图形处理单元248和音频处理单元250。它们可以被配置为有助于经由一个或者多个A/V端口252与诸如显示器或者扬声器之类的各种外部设备进行通信。示例外设接口244可以包括串行接口控制器254和并行接口控制器256,它们可以被配置为有助于经由一个或者多个I/O端口258和诸如输入设备(例如,键盘、鼠标、笔、语音输入设备、触摸输入设备)或者其他外设(例如打印机、扫描仪等)之类的外部设备进行通信。示例的通信设备246可以包括网络控制器260,其可以被布置为便于经由一个或者多个通信端口264与一个或者多个其他计算设备262通过网络通信链路的通信。
网络通信链路可以是通信介质的一个示例。通信介质通常可以体现为在诸如载波或者其他传输机制之类的调制数据信号中的计算机可读指令、数据结构、程序模块,并且可以包括任何信息递送介质。“调制数据信号”可以是这样的信号,它的数据集中的一个或者多个或者它的改变可以在信号中编码信息的方式进行。作为非限制性的示例,通信介质可以包括诸如有线网络或者专线网络之类的有线介质,以及诸如声音、射频(RF)、微波、红外(IR)或者其它无线介质在内的各种无线介质。这里使用的术语计算机可读介质可以包括存储介质和通信介质二者。
一般地,计算设备200可以实现为小尺寸便携(或者移动)电子设备的一部分,这些电子设备可以是诸如蜂窝电话、数码照相机、个人数字助理(PDA)、个人媒体播放器设备、无线网络浏览设备、个人头戴设备、应用专用设备、或者可以包括上面任何功能的混合设备。在根据本发明的一种实施方式中,计算设备200可以被实现为微型计算模块等。本发明的实施例对此均不做限制。
在根据本发明的实施例中,计算设备200被配置为执行根据本发明的动态手势跟踪方法,和/或,动态手势识别方法,和/或,手势交互方法。其中,计算设备200的应用222中包含执行根据本发明的上述方法的多条程序指令。
图3示出了根据本发明一个实施例的动态手势跟踪方法300的流程图。需要说明的是,篇幅所限,关于方法300和系统100的描述互为补充,重复部分不做赘述。
如图3所示,方法300始于步骤S310。
在步骤S310中,按照预定时间间隔,对来自动态视觉传感器110的事件数据流进行处理,以生成一系列事件累积图。
根据一种实施例,按照预定时间间隔,对来自动态视觉传感器110的事件数据流进行分割,得到多个数据段(即,前文所述的时间切片)。假设在时刻t,像素单元(x,y)的光强变化超出阈值,则触发生成事件数据(x,y,t),其中,(x,y)表示事件数据的坐标位置(即,被触发像素单元的坐标位置),t表示事件数据被触发的时间戳信息。
所有被触发的事件数据就组成了事件数据流。通常,可以设置一个预定时间间隔Δt来对事件数据流进行切片,得到各数据段。假设第一个被触发的事件数据的时间戳为T1,那么,第一个数据段包含的事件数据的时间范围为T1到T1+Δt,对于第i个数据段,其包含的事件数据的时间范围从T1+(i-1)×Δt到T1+i×Δt。
之后,根据各数据段所包含的事件数据,分别生成各自对应的一系列事件累积图。根据一种实施例,根据一个数据段内的事件数据生成一个事件累积图的过程,包括如下三步。
第一步,构建一个预定尺寸的初始图像,并将初始图像的像素值均赋为零,其中预定尺寸根据动态视觉传感器110的像素单元阵列的尺寸确定。例如,像素单元阵列的尺寸为20×30,那么,构建的初始图像的尺寸也是20×30。换言之,初始图像中像素与像素单元阵列中的像素单元一一对应。
第二步,针对初始图像的各像素,统计与像素的坐标位置一致的被触发事件,在该数据段内被触发的次数。换言之,在初始图像的每个像素位置上,统计该数据段内对应的事件数据被触发的次数。接上例,假设在第i个数据段,像素坐标为(x,y),则其对应的事件数据记作e(x,y,tj),其中,tj的范围为从T1+(i-1)×Δt到T1+i×Δt。
第三步,用所统计的次数来对应更新各像素的像素值,生成事件累积图。事件累积图记作IT,可以通过如下公式来表示:
IT(x,y)=a×n
式中,(x,y)表示像素的坐标,IT(x,y)表示(x,y)处的像素值,n表示该坐标所对应的事件数据被触发的次数,a为参数,可根据统计次数和像素值进行设置。在一种实施例中,事件累积图中像素值的最大值为255,最小值为0。
基于上述描述,基于事件数据所生成的事件累积图中,只包含被触发的像素单元信息,因此,不相关的背景信息被过滤,且事件累积图的数据量相比传统图像而言更少,有利于后续处理。
随后在步骤S320中,基于事件累积图,确定出手部初始位置。
根据本发明的一种实施例,从所生成的第一个事件累积图起,对每个事件累积图均执行如下步骤,直到确定出手部初始位置为止。
首先,确定事件累积图中的高能量密度点。具体实现如下:
1)利用该事件累积图和与其相邻的至少一个事件累积图,生成能量密度图。以利用当前事件累积图和与其相邻的之前的4个事件累积图,生成当前的能量密度图为例,所生成能量密度图如下公式所示:
Fi=b1×Fi-4+b2×Fi-3+b3×Fi-2+b4×Fi-1+b5×Fi
式中,参数b1、b2、b3、b4和b5可根据需要设置,Fi为第i个事件累积图。
需要说明的是,此处仅作为示例,本发明并不限制仅采用当前事件累积图与之前的4个事件累积图合并生成能量密度图,可以采用当前事件累积图和与其相邻的前任意数量个事件累积图,不限于此。
2)将能量密度图分成多个尺寸相同的区域。
在一种实施例中,事件累积图和能量密度图的尺寸均为1280×800(即,图像的宽为1280个像素,高为800个像素),将能量密度图等分成40×25个相同大小的区域,则每个区域的宽和高均为32个像素。
应当了解,本发明的实施例并不限制每个区域的尺寸。例如,若能量密度图的尺寸线性变小,则分成的区域个数保持不变,只需将各区域的宽和高按比例线性变小。假设能量密度图的尺寸为640×400,则仍然分成40×25个区域,只是每个区域的宽和高为16个像素。
3)计算各区域的能量密度。对于第j个区域,根据区域内像素值之和(记作,Sj)以及像素值为非零的像素的个数(记作,Nj),确定出该区域的能量密度(记作uj),在一种优选地实施例中,将Sj与Nj的商值,作为能量密度,即,采用如下方式计算:uj=Sj/Nj。
4)设置一个最大能量密度阈值,从所有区域中去除能量密度不符合预定条件(即,能量密度值大于最大能量密度阈值)的区域,得到剩余区域。这样做的好处是,过滤掉能量密度值大于最大能量密度阈值的区域,能够避免高亮区域的干扰。
5)在剩余区域内,选取能量密度最大的区域,并计算所选区域中像素坐标位置的均值,作为高能量密度点。可选地,高能量密度点采用如下方式确定:
x=∑xi/N,y=∑yi/N
式中,x和y分别表示高能量密度点的横坐标位置和纵坐标位置,xi和yi分别表示所选区域内第i个像素的横坐标位置和纵坐标位置,N表示被选区域内像素的个数。
其次,利用目标检测网络,从该事件累积图中确定出至少一个手部检测区域。
根据本发明的实施方式,目标检测网络可以是基于深度学习的神经网络,通过预先训练得到。通常,采集事件累积图构建训练样本集,并对训练样本进行标注,其中标注的标签为手部。利用训练样本集和对应的标签,训练目标检测网络,通过迭代最终获得一个最优的检测器,即为目标检测网络。
将当前的事件累积图像输入到目标检测网络,目标检测网络会输出一个或多个检测框,即手部检测区域,以指向检测出的一个或多个手部。手部检测区域通常为一个矩形区域,由四个参数组成,分别为手部检测区域的左上角的坐标Pl、右下角的坐标Pr、置信度c和标签l。根据左上角的坐标和右下角的坐标,就可以确定出手部检测区域,进而确定出该手部检测区域的宽和高。
经上述两步处理后,得到一个高能量密度点和一个或多个手部检测区域。以高能量密度点为中心,按照各手部检测区域的尺寸,对应生成至少一个矩形区域。即,生成的矩形区域以高能量密度点为中心、且该矩形区域的宽和高与手部检测区域的宽和高保持一致。
当有不止一个手部检测区域时,对应会生成不止一个矩形区域。分别计算各矩形区域与手部检测区域的重合率。应当了解,若只有一个矩形区域时(说明也只有一个手部检测区域),只需计算该矩形区域与手部检测区域的重合率。
在一种实施例中,重合率σ通过如下方式来计算:
式中,area(P)表示手部检测区域的面积,area(Q)表示矩形区域的面积,area(O)表示矩形区域与手部检测区域的重合区域的面积。
若重合率大于预设值,则说明在高能量密度点附近存在手部,将该高能量密度点的位置作为手部初始位置。
若重合率不大于预设值,则对下一事件累积图执行上述步骤,计算出高能量密度点、手部检测区域,并确定出矩形区域,进而根据手部检测区域和矩形区域的重合率来确定手部初始位置。
在确定出手部初始位置后,交互系统100被激活,开始跟踪手部。根据本发明的方案,不需要通过识别一个静态的手势来锁定操作用户,用户只需在摄像头前做出诸如挥手之类的手部操作,交互系统100即可被激活。对于用户来说,初始化灵敏且便捷。
根据另一些实施方式,为使用户操作更加人性化,基于手部初始位置,设置用户可操作区域。图4示出了根据本发明一个实施例的初始化结果示意图。在图4中,圆点表示手部初始位置,在圆点周围的矩形框表示可操作区域。通常可操作区域基于用户手部的大小来设置。在一种优选地实施例中,设定可操作区域的宽为对应手部检测区域的宽的4倍,可操作区域的高为对应手部检测区域的高的3.5倍,不限于此。同时,可操作区域覆盖用户手部且更靠近用户身体一侧,以保证用户的位置固定时,只运动手部即可覆盖整个可操作区域,避免用户为了操作交互系统而做出夸张的动作。应当了解,图4中所示出的可操作区域的大小和位置仅作为示意,以辅助说明,本发明的实施例并不限于此。
基于上述初始化的结果,本发明实施例提供了一种基于事件数据流的手部跟踪方法。具体如下文步骤S330和步骤S340所述。
在随后的步骤S330中,以与手部初始位置对应的事件累积图相邻的下一事件累积图为初始帧,基于手部初始位置,从初始帧中确定出手部测量位置。
具体地,步骤S330可以按照如下几步来执行。
第一步,确定第一搜索区域。
基于手部初始位置,在初始帧中确定出第一搜索区域。根据一种实施例,在初始帧中,以手部初始位置为中心、并将手部检测区域的宽或高放大预定倍数作为边,生成方形区域,作为第一搜索区域。设第一搜索区域为边长为r个像素的方形区域,其中,r取手部检测区域的宽或高二者较大值的预定倍数。若手部检测区域的宽大于高,则r取手部检测区域的宽的预定倍数。预定倍数例如是1.5倍,但不限于此。
第二步,更新第一搜索区域。
通过依次判断初始帧中的事件数据是否处于第一搜索区域,来迭代更新第一搜索区域,得到至少一个新的第一搜索区域。
针对初始帧中的事件数据,按照事件数据输出的先后顺序(即,事件数据中时间戳的先后顺序),依次判断事件数据是否在第一搜索区域内,并实时统计在第一搜索区域内的事件数据的数量nir。
设置一个更新频率阈值f,当所统计的数量大于更新频率阈值时,就更新第一搜索区域,得到新的第一搜索区域。具体地,当事件数据的数量nir刚刚满足nir>f时,对于这些经本次统计的事件数据,计算其横坐标位置之和xir、纵坐标位置之和yir、以及数量nir,并据此确定新的第一搜索区域的搜索中心的坐标位置(x,y)为:
x=xir/nir,y=yir/nir。
基于该搜索中心的坐标位置,生成新的第一搜索区域,新的第一搜索区域的边长与之前的第一搜索区域保持一致即可。
接下来,依序继续判断初始帧中的剩余的其他事件数据(剩余的事件数据,即,还未被用于判断是否在第一搜索区域内的事件数据)是否在新的第一搜索区域内,并实时统计在新的第一搜索区域内的事件数据的数量。同样地,当所统计的数量大于更新频率阈值f时,就更新该新的第一搜索区域。重复迭代上述操作步骤,即统计在新的第一搜索区域内事件数据的数量、更新第一搜索区域并确定其搜索中心,直到遍历完初始帧内的所有事件数据。
之后,将一开始确定的第一搜索区域和所有新的第一搜索区域一起,形成关于第一搜索区域的集合。
第三步,计算手部测量位置。
根据在第一搜索区域的集合中的所有事件数据的数量及其坐标位置,确定出手部测量位置。
更具体地,基于在第一搜索区域的集合中的所有事件数据的数量及其坐标位置,确定出事件数据的坐标位置的均值,作为手部测量位置。经计算,得到在第一搜索区域的集合中的所有事件数据的横坐标位置之和Xa和纵坐标位置之和Ya、以及在第一搜索区域的集合中的所有事件数据的数量Na,参考如下方式来计算手部测量位置z:
z=[x,y]T,
其中,x=Xa/Na,y=Ya/Na,
上式中,x表示手部测量位置的横坐标位置,y表示手部测量位置的纵坐标位置,[]T为转置符号。
随后在步骤S340中,结合手部初始位置和手部测量位置,分别确定出各事件累积图中指示手部运动状态的状态向量。
在手部跟踪时,定义一个状态向量xf=[x,y,vx,vy]T来指示手部运动状态。其中,x,y表示手部坐标位置,vx,vy分别表示手部横坐标方向和纵坐标方向的速度。
根据一种实施方式,使用卡尔曼滤波进行手部跟踪,处理方法如下。
首先,建立以下线性过程模型和测量模型。
xk+1=Fk+wkxk,
其中,Fk表示状态转移矩阵,xk表示在时间k时的状态向量,wk表示服从正态概率分布P(w)~N(0,Q)的过程噪声,Q表示过程噪声的协方差矩阵。
zk=Hxk+vk,
其中,H表示测量矩阵,zk表示在时间k时的测量值(即手部测量位置),vk表示服从正态概率分布P(v)~N(0,R)的测量噪声,R表示测量噪声的协方差矩阵。
之后,按照如下步骤来计算各事件累积图的状态向量。
(a)基于手部初始位置和手部测量位置,确定初始帧的预测状态向量和初始帧的手部测量位置。
根据一种实施例,先基于手部初始位置,设置初始状态向量x0=[x,y,vx,vy]T。其中,x,y的值为手部初始位置,vx,vy的值均为0。
根据本发明的实施例,基于线性过程模型,通过以下公式预测下一时刻的预测状态向量:
xk'←Fxk-1,
Pk'←FPk-1FT+Q,
其中,xk-1表示k-1时刻的状态向量,xk'表示k时刻的预测状态向量,Pk-1表示k-1时刻的最优估计误差协方差,Pk'表示k时刻的预测状态误差协方差。
也就是说,利用初始状态向量x0,按照上式预测出初始帧的预测状态向量x1'。
同时,经步骤S330所确定的手部测量位置,就是初始帧的手部测量位置,记作z1。
(b)利用初始帧的手部测量位置z1,矫正初始帧的预测状态向量x1',得到初始帧的状态向量x1。
根据本发明的实施例,通过以下公式来矫正预测状态向量:
yk←zk-Hxk',
Sk←HPk'HT+R,
Kk←Pk'HTSk -1,
xk←xk'+Kkyk,
Pk←(I-KkH)Pk',
其中,Kk表示k时刻的卡尔曼增益用于最小化估计误差协方差,()-1表示求逆操作。
关于最优估计的更详细地说明,可参考卡尔曼滤波的相关内容,篇幅所限,此处不做展开。
(c)以初始帧为起点,根据上一事件累积图的状态向量,分别计算当前事件累积图的预测状态向量和手部测量位置。
一方面,参考(a)中利用初始状态向量x0计算初始帧的预测状态向量x1'的过程,利用初始帧的状态向量x1,计算当前事件累积图(即,与初始帧相邻的下一事件累积图)的预测状态向量x2'。
另一方面,参考步骤S330描述,在当前事件累积图中,以初始帧的手部测量位置z1为中心,设置第一搜索区域,同样地,基于该下一事件累积图中的事件数据来更新第一搜索区域,并最终确定出手部测量位置,记作z2。
(d)利用当前事件累积图的手部测量位置z2,矫正当前事件累积图的预测状态向量x2',确定出当前事件累积图的状态向量x2。具体实现可参考前文(b)中利用z1矫正x1'来得到x1的过程,此处不再赘述。
(e)重复迭代确定预测状态向量和手部测量位置的步骤、以及确定状态向量的步骤,以从各事件累积图中分别确定出状态向量。即,重复迭代步骤(c)和步骤(d),利用状态向量x2,计算预测状态向量x3',并通过设置和更新第一搜索区域,确定z3;之后,利用z3矫正x3',得到x3;……;依次迭代,最终确定出所有事件累积图中的状态向量。
根据本发明的动态手势跟踪方法300,基于事件数据流生成能量密度图,可以获取手部运动频率的快慢,用于手部位置的快速初始化。同时,不同于传统的基于帧对目标进行跟踪的方案(需要进行目标检测和数据关联),方法300是基于事件数据流的跟踪算法,不依赖于目标检测和对前后台数据进行关联,这样,只需对事件数据流进行简单地计算就可以实现对目标的精确跟踪。
因此,动态手势跟踪方法300能够实现非常短的响应时间和低的计算负载。
根据另一些实施方式,由于遮挡或者外部环境的干扰,跟踪可能会失效。为了帮助自主恢复,当手部跟踪丢失时,需要复位或者重新初始化手部的位置。复位和重新初始化手的位置的实现细节如下:
1)判断手丢失的时间
在跟踪过程中,利用目标检测网络在跟踪中心(跟踪中心由状态向量所指向的事件数据的坐标位置来确定)的周围,持续地检测可能存在的手。如果没有手被检测到,就认为跟踪丢失。设置一个时间阈值t1,如果丢失时长大于t1,进入“复位模式”。
2)复位手的位置
在进入复位模式之后,扩大检测区域。在一种实施例中,将前文所述的可操作区域作为扩大的检测区域,利用目标检测网络在该区域内检测手。如果没有手被检测到,丢失时长继续累积。否则,计算上一跟踪结果与所检测到的手部检测框的中心点的距离,选取距离最小的检测框的中心点,用于复位手的位置。
3)重新初始化
此外,还可以设置时间阈值t2,如果丢失时长大于t2,则认为手完全丢失,“重新初始化模式”被激活,根据方法300重新执行相关步骤,以重新确定出手部初始位置。
图5示出了根据本发明一个实施例的动态手势识别方法500的流程示意图。方法500是在方法300的基础上执行的。需要说明的是,篇幅所限,方法500和系统100、方法300的描述互为补充,重复部分不做赘述。
如图5所示,方法500始于步骤S510。在步骤S510中,通过执行如上文所述的动态手势跟踪方法300,来获取一系列指示手部运动状态的状态向量。
随后,在步骤S520中,基于所获取的状态向量所指向的事件数据,构建事件云。
如前文所述,状态向量xf=[x,y,vx,vy]T用于指示手部运动状态。其中,x,y表示手部坐标位置,该手部坐标位置又指向对应的事件数据e(x,y,t)。因此,基于状态向量,可以确定出其所指向的事件数据。
在一种实施例中,基于各事件累积图对应的状态向量所指向的事件数据,来分别生成各事件累积图对应的事件向量。以下以生成一个事件累积图的事件向量为例,来说明生成事件向量的过程。
以事件累积图对应的状态向量所指向的事件数据为中心,生成第二搜索区域。在一种优选的实施例中,第二搜索区域的宽和高均可以设置为上述第一搜索区域的对应宽和高的2倍,但不限于此。对第二搜索区域内的事件数据进行采样,得到第二数量个事件数据。即,从第二搜索区域中取出第二数量个事件数据。利用这第二数量个(记,第二数量为N)事件数据,生成该事件累积图的事件向量。
由相邻的第一数量个(记,第一数量为M)事件向量,组成事件云。在一种实施例中,利用前M-1个事件累积图中的事件向量与当前事件累积图的事件向量,来组成事件云,该事件云中包含N×M个事件数据。换言之,始终保持着离当前事件累积图最近的M个事件累积图的事件向量,形成事件云。该事件云中的事件数据在三维空间中不规则地排列,三维空间的三轴分别为事件数据的X坐标轴、Y坐标轴、以及时间轴。
由一个手势生成的事件数据被建模成一个三维时空事件云。从这个角度来看,识别一个手势等同于识别手势生成的事件云的几何分布,这类似于通过三维点云来识别物体。
故在随后的步骤S530中,将事件云输入基于点云的神经网络,利用该神经网络,对事件云进行处理,以识别出手势类别。
应当指出,本发明实施例并不限制具体采用何种基于点云的神经网络来实现手势类别的识别。
传统方案是对静态手势进行分类,其往往需要保持一个静态手势几秒钟的时间来进行识别,以减少相似手势产生的干扰。在根据本发明的动态手势识别方法500中,利用所跟踪到的事件数据形成事件云,基于点云的手势识别进行动态手势的分类,能够实现非常快的响应。此外,识别动态手势也可以避免相似手势的干扰。
图6示出了根据本发明一个实施例的手势交互方法600的流程示意图。方法600适于在交互系统100中执行,且方法600是在方法300和方法500的基础上执行的。需要说明的是,篇幅所限,方法600和前文内容互为补充,重复部分不做赘述。
如图6所示,方法600始于步骤S610。在步骤S610中,通过执行动态手势识别方法500,来识别用户当前手势类别。
随后在步骤S620中,基于所识别的手势类别,执行相应的操作指令。
在获得手势识别结果后,可以通过指令控制设备执行对应的操作。在本实施例中,识别四种动态手势:上下挥手、左右挥手、向左旋转手和向右旋转手。这些动态手势被用于执行“确定”、“返回”、“调节音量”等操作。
图7A示出了根据本发明一个实施例的手势交互的界面示意图。当交互系统100被激活后,一个手的光标图像就会显示在界面上,随后,用户可以向操作鼠标一样控制该光标图像的移动。
当用户旋转手腕,交互系统100会提供一个对应的旋转角来控制界面上方的菜单栏滚动,如图7B所示。如果当前菜单被选中,会出现一个新的界面。在用户选中该界面中的具体项目时,利用手腕上下挥动手,当交互系统100识别该手势时,交互系统100会确认当前的手势对应“确定”指令,然后进入该项目。如果用户利用手腕左右挥动手,当交互系统100识别该手势时,交互系统100确认当前的手势对应“返回”指令,于是,返回至上一界面(即,图7B)。
此外,通过识别向左旋转手和向右旋转手,还可以在交互系统100中定义其他额外功能。例如,向右旋转手将唤醒隐藏的菜单栏,向左旋转手将唤醒音量调节,用户可以通过移动手的位置来控制音量的加减。不限于此。
应当了解,上述说明仅作为示例。本发明实施例对手势的种类和数目并没有限制,手势对应的操作指令也可以根据实际应用需求来定,本发明实施例并不限于此。
根据本发明的手势交互方案,通过对DVS输出的事件数据建帧,得到只包含运动信息的事件累积图,数据量少,因此更易于数据的保存和处理。而且相比于传统的CMOS相机,DVS的功耗更低。在后续的算法处理中,基于点云的目标跟踪与手势识别,相比于传统基于帧的方案所需的计算量更小,因此,基于本发明的手势交互方案,功耗更低。
进一步地,为显示基于事件数据的交互系统100的优越性能,根据本发明的一种实施例,设计了交互系统的测试流程,包括模块测试和用户体验反馈。
1)模块测试
在一种实施例中,搭建了一个测试平台用于定量测试跟踪精度和验证跟踪的鲁棒性,测试平台如图8所示。在一个速度可调的滑轨上安装一个手模,来模拟手的正常移动。手模的中心位于摄像图像的中心,手模移动方向平行于相机水平轴。手模的中心位置作为手的位置的真值。在不同的速度下进行实验,得出结论:在高速情况下跟踪的分布更加地发散。
计算真值与手的跟踪结果之间的标准差。实验结果显示,在低速情况下不同方向上的标准差都比较小,跟踪比较稳定。随着滑轨速度的增加,标准差也在增加。即使在高速情况下横轴方向上的标准差比较大,但是在实验过程中并未出现手丢失的情况。
此外,还分析了去噪和平滑操作对跟踪精度的影响。在低速情况下,去噪和平滑操作对横轴方向上的标准差有较小的影响,但是,在高速情况下平滑操作对跟踪精度影响较大。可以认为是,平滑操作使得跟踪结果发生了滞后,导致水平方向的标准差快速增大。在纵轴方向上任何速度下的标准差都比较稳定。通过增加背景和光照干扰,又测试了跟踪的鲁棒性,实验显示,在干扰下,手的位置的标准差有所增加,但是仍在一个合理的范围内。
此外,还邀请不同的人来进行了手势识别精度和鲁棒性测试,收集四种手势的识别结果。通过与真值的对比,本实现中手势的识别精度在95%以上。还进行了在不同背景和光照条件下的手势鲁棒性测试,测试结果显示受外界干扰,手势识别率有所下降,但仍然保持在90%以上。
2)用户体验测试
共邀请五十个用户来体验交互系统100。通过用户反馈,交互系统100的学习代价比较低,用户很快便能掌握使用技巧。并且,交互系统100具有很快的响应时间。
在此处所提供的说明书中,说明了大量具体细节。然而,能够理解,本发明的实施例可以在没有这些具体细节的情况下被实践。在一些实例中,并未详细示出公知的方法、结构和技术,以便不模糊对本说明书的理解。
类似地,应当理解,为了精简本公开并帮助理解各个发明方面中的一个或多个,在上面对本发明的示例性实施例的描述中,本发明的各个特征有时被一起分组到单个实施例、图、或者对其的描述中。然而,并不应将该公开的方法解释成反映如下意图:即所要求保护的本发明要求比在每个权利要求中所明确记载的特征更多特征。更确切地说,如下面的权利要求书所反映的那样,发明方面在于少于前面公开的单个实施例的所有特征。因此,遵循具体实施方式的权利要求书由此明确地并入该具体实施方式,其中每个权利要求本身都作为本发明的单独实施例。
本领域那些技术人员应当理解在本文所公开的示例中的设备的模块或单元或组件可以布置在如该实施例中所描述的设备中,或者可替换地可以定位在与该示例中的设备不同的一个或多个设备中。前述示例中的模块可以组合为一个模块或者此外可以分成多个子模块。
本领域那些技术人员可以理解,可以对实施例中的设备中的模块进行自适应性地改变并且把它们设置在与该实施例不同的一个或多个设备中。可以把实施例中的模块或单元或组件组合成一个模块或单元或组件,以及此外可以把它们分成多个子模块或子单元或子组件。除了这样的特征和/或过程或者单元中的至少一些是相互排斥之外,可以采用任何组合对本说明书(包括伴随的权利要求、摘要和附图)中公开的所有特征以及如此公开的任何方法或者设备的所有过程或单元进行组合。除非另外明确陈述,本说明书(包括伴随的权利要求、摘要和附图)中公开的每个特征可以由提供相同、等同或相似目的的替代特征来代替。
此外,本领域的技术人员能够理解,尽管在此所述的一些实施例包括其它实施例中所包括的某些特征而不是其它特征,但是不同实施例的特征的组合意味着处于本发明的范围之内并且形成不同的实施例。例如,在下面的权利要求书中,所要求保护的实施例的任意之一都可以以任意的组合方式来使用。
此外,所述实施例中的一些在此被描述成可以由计算机系统的处理器或者由执行所述功能的其它装置实施的方法或方法元素的组合。因此,具有用于实施所述方法或方法元素的必要指令的处理器形成用于实施该方法或方法元素的装置。此外,装置实施例的在此所述的元素是如下装置的例子:该装置用于实施由为了实施该发明的目的的元素所执行的功能。
如在此所使用的那样,除非另行规定,使用序数词“第一”、“第二”、“第三”等等来描述普通对象仅仅表示涉及类似对象的不同实例,并且并不意图暗示这样被描述的对象必须具有时间上、空间上、排序方面或者以任意其它方式的给定顺序。
尽管根据有限数量的实施例描述了本发明,但是受益于上面的描述,本技术领域内的技术人员明白,在由此描述的本发明的范围内,可以设想其它实施例。此外,应当注意,本说明书中使用的语言主要是为了可读性和教导的目的而选择的,而不是为了解释或者限定本发明的主题而选择的。因此,在不偏离所附权利要求书的范围和精神的情况下,对于本技术领域的普通技术人员来说许多修改和变更都是显而易见的。对于本发明的范围,对本发明所做的公开是说明性的,而非限制性的,本发明的范围由所附权利要求书限定。
Claims (19)
1.一种动态手势跟踪方法,包括步骤:
按照预定时间间隔,对来自动态视觉传感器的事件数据流进行处理,以生成一系列事件累积图;
基于所述事件累积图,确定出手部初始位置;
以与所述手部初始位置对应的事件累积图相邻的下一事件累积图为初始帧,基于所述手部初始位置,从所述初始帧中确定出手部测量位置;以及
结合所述手部初始位置和手部测量位置,分别确定出各事件累积图中指示手部运动状态的状态向量,
其中,所述基于事件累积图,确定出手部初始位置的步骤包括:
针对一个事件累积图,确定所述事件累积图中的高能量密度点;
利用目标检测网络,从该事件累积图中确定出至少一个手部检测区域;
以所述高能量密度点为中心,按照所述手部检测区域的尺寸,对应生成至少一个矩形区域;
分别计算所述矩形区域与所述手部检测区域的重合率;
若所述重合率大于预设值,则将所述高能量密度点的位置作为手部初始位置;
若所述重合率不大于预设值,则从下一事件累积图中计算出高能量密度点和手部检测区域、并根据手部检测区域与矩形区域的重合率来确定出手部初始位置,其中,能量密度根据区域内像素值之和以及像素值为非零的像素的个数来确定。
2.如权利要求1所述的方法,其中,所述针对一个事件累积图,确定当前事件累积图中的高能量密度点的步骤包括:
利用该事件累积图和与其相邻的至少一个事件累积图,生成能量密度图;
将所述能量密度图分成多个尺寸相同的区域;
根据各区域内像素值之和以及像素值为非零的像素的个数,分别确定出对应区域的能量密度;
从所有区域中去除能量密度不符合预定条件的区域,得到剩余区域;
在所述剩余区域内,选取能量密度最大的区域,并计算所选区域中像素坐标位置的均值,作为所述高能量密度点。
3.如权利要求1所述的方法,其中,所述以与手部初始位置对应的事件累积图相邻的下一事件累积图为初始帧,基于手部初始位置,从初始帧中确定出手部测量位置的步骤包括:
基于所述手部初始位置,在所述初始帧中确定出第一搜索区域;
通过依次判断所述初始帧中的事件数据是否处于第一搜索区域,来迭代更新所述第一搜索区域,得到至少一个新的第一搜索区域;
利用所述第一搜索区域和所有新的第一搜索区域,得到第一搜索区域的集合;
根据在所述第一搜索区域的集合中的所有事件数据的数量及其坐标位置,确定出手部测量位置。
4.如权利要求3所述的方法,其中,所述通过依次判断初始帧中的事件数据是否处于第一搜索区域,来迭代更新第一搜索区域,得到至少一个新的第一搜索区域的步骤包括:
针对所述初始帧中的事件数据,按照事件数据输出的先后顺序依次判断所述事件数据是否在所述第一搜索区域内,并实时统计在所述第一搜索区域内的事件数据的数量;
当所统计的数量大于更新频率阈值时,更新所述第一搜索区域,得到新的第一搜索区域及其搜索中心;
依序继续判断所述初始帧中的其他事件数据是否在所述新的第一搜索区域内,并统计在所述新的第一搜索区域内的事件数据的数量;
重复迭代更新第一搜索区域的步骤和统计在新的第一搜索区域内事件数据的数量的步骤,直到遍历完所述初始帧内的所有事件数据。
5.如权利要求3所述的方法,其中,所述根据在第一搜索区域的集合中的所有事件数据的数量及其坐标位置,确定出手部测量位置的步骤包括:
基于在第一搜索区域的集合中的所有事件数据的数量及其坐标位置,确定出事件数据的坐标位置的均值,作为手部测量位置。
6.如权利要求3所述的方法,其中,所述基于手部初始位置,在初始帧中确定出第一搜索区域的步骤包括:
在所述初始帧中,以所述手部初始位置为中心、并将所述手部检测区域的宽或高放大预定倍数作为边,生成方形区域,作为所述第一搜索区域。
7.如权利要求1-6中任一项所述的方法,其中,所述结合手部初始位置和手部测量位置,分别确定出各事件累积图中指示手部运动状态的状态向量的步骤包括:
基于所述手部初始位置和所述手部测量位置,确定所述初始帧的预测状态向量和所述初始帧的手部测量位置;
利用所述初始帧的手部测量位置矫正所述初始帧的预测状态向量,得到所述初始帧的状态向量;
以所述初始帧为起点,根据上一事件累积图的状态向量,分别计算当前事件累积图的预测状态向量和手部测量位置;
利用当前事件累积图的手部测量位置矫正当前事件累积图的预测状态向量,确定出所述当前事件累积图的状态向量;
重复迭代确定预测状态向量和手部测量位置的步骤、以及确定状态向量的步骤,以从各事件累积图中分别确定出状态向量。
8.如权利要求1所述的方法,其中,所述按照预定时间间隔,对来自动态视觉传感器的事件数据流进行处理,以生成一系列事件累积图的步骤包括:
按照预定时间间隔,对来自动态视觉传感器的事件数据流进行分割,得到多个数据段;
根据各数据段所包含的事件数据,分别生成各自对应的一系列事件累积图。
9.如权利要求8所述的方法,其中,
所述事件数据由视场中对象和动态视觉传感器的相对运动触发,且所述事件数据中包含被触发事件的坐标位置及时间戳;以及
根据数据段内所包含的事件数据,生成对应的事件累积图的步骤包括:
构建一个预定尺寸的初始图像并将所述初始图像的像素值赋为零,其中所述预定尺寸根据所述动态视觉传感器的像素单元阵列的尺寸确定;
针对所述初始图像的各像素,统计与像素的坐标位置一致的被触发事件,在所述数据段内被触发的次数;以及
用所统计的次数来对应更新各像素的像素值,生成事件累积图。
10.一种动态手势识别方法,包括步骤:
通过执行如权利要求1-9中任一项所述的动态手势跟踪方法,来获取一系列指示手部运动状态的状态向量;
基于所获取的状态向量所指向的事件数据,构建事件云;
利用基于点云的神经网络,对所述事件云进行处理,以识别出手势类别。
11.如权利要求10所述的方法,其中,所述基于所获取的状态向量所指向的事件数据,构建事件云的步骤包括:
基于各事件累积图对应的状态向量所指向的事件数据,来分别生成各事件累积图对应的事件向量;
由相邻的第一数量个事件向量,组成事件云。
12.如权利要求11所述的方法,其中,基于事件累积图对应的状态向量所指向的事件数据,来生成其对应的事件向量的步骤包括:
以所述事件累积图对应的状态向量所指向的事件数据为中心,生成第二搜索区域;
对所述第二搜索区域内的事件数据进行采样,得到第二数量个事件数据;
利用所述第二数量个事件数据,生成该事件累积图的事件向量。
13.一种手势交互方法,包括步骤:
通过执行如权利要求10-12中任一项所述的动态手势识别方法,来识别用户当前手势类别;
基于所识别的手势类别,执行相应的操作指令。
14.一种交互系统,适于执行如权利要求13所述的方法,包括:
动态视觉传感器,适于基于视场中对象和所述动态视觉传感器的相对运动而触发事件,并输出事件数据流给手部检测模块;
手部检测模块,适于对所述事件数据流进行处理,以确定手部初始位置;
手部跟踪模块,适于基于所述手部初始位置,在所述事件数据流中确定出一系列指示手部运动状态的状态向量;
手势识别模块,适于基于所获取的状态向量所指向的事件数据,构建事件云,并利用基于点云的神经网络,对所述事件云进行处理,以识别出手势类别;
指令响应模块,适于基于所识别的手势类别,执行相应的操作指令。
15.如权利要求14所述的系统,其中,
所述手部检测模块还适于基于所述状态向量,生成检测区域,来检测手部。
16.如权利要求15所述的系统,还包括:
复位模块,适于在所述手部检测模块在预定时长内未检测到手部时,指示所述手部检测模块扩大所述检测区域进行检测,并且在重新检测到手部时,复位手部初始位置。
17.一种计算设备,包括:
一个或多个处理器;和
存储器;
一个或多个程序,其中所述一个或多个程序存储在所述存储器中并被配置为由所述一个或多个处理器执行,所述一个或多个程序包括用于执行根据权利要求1-13所述方法中的任一方法的指令。
18.一种存储一个或多个程序的计算机可读存储介质,所述一个或多个程序包括指令,所述指令在被计算设备执行时,使得所述计算设备执行根据权利要求1-13所述的方法中的任一方法。
19.一种智能设备,包括如权利要求14-16中任一项所述的交互系统。
Priority Applications (4)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110252206.3A CN112949512B (zh) | 2021-03-08 | 2021-03-08 | 一种动态手势识别方法、手势交互方法及交互系统 |
PCT/CN2021/093483 WO2022188259A1 (zh) | 2021-03-08 | 2021-05-13 | 一种动态手势识别方法、手势交互方法及交互系统 |
EP21929730.6A EP4307166A4 (en) | 2021-03-08 | 2021-05-13 | DYNAMIC GESTURE RECOGNITION METHOD, GESTURE INTERACTION METHOD AND INTERACTION SYSTEM |
US18/241,395 US12118153B2 (en) | 2021-03-08 | 2023-09-01 | Dynamic gesture identification method, gesture interaction method and interaction system |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110252206.3A CN112949512B (zh) | 2021-03-08 | 2021-03-08 | 一种动态手势识别方法、手势交互方法及交互系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN112949512A CN112949512A (zh) | 2021-06-11 |
CN112949512B true CN112949512B (zh) | 2022-07-08 |
Family
ID=76230373
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110252206.3A Active CN112949512B (zh) | 2021-03-08 | 2021-03-08 | 一种动态手势识别方法、手势交互方法及交互系统 |
Country Status (4)
Country | Link |
---|---|
US (1) | US12118153B2 (zh) |
EP (1) | EP4307166A4 (zh) |
CN (1) | CN112949512B (zh) |
WO (1) | WO2022188259A1 (zh) |
Families Citing this family (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114785704B (zh) * | 2022-04-24 | 2023-11-07 | 中国电信股份有限公司 | 互联网数据中心设备负载预测方法及装置、设备及介质 |
CN116449947B (zh) * | 2023-03-22 | 2024-02-02 | 江苏北斗星通汽车电子有限公司 | 一种基于tof相机的汽车座舱域手势识别系统及方法 |
CN117218716B (zh) * | 2023-08-10 | 2024-04-09 | 中国矿业大学 | 一种基于dvs的汽车座舱手势识别系统及方法 |
CN116863541B (zh) * | 2023-09-01 | 2023-11-21 | 芯原科技(上海)有限公司 | 动态手势识别方法、装置及相关设备、手写识别方法 |
Family Cites Families (21)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US10742475B2 (en) * | 2012-12-05 | 2020-08-11 | Origin Wireless, Inc. | Method, apparatus, and system for object tracking sensing using broadcasting |
WO2015093330A1 (ja) * | 2013-12-17 | 2015-06-25 | シャープ株式会社 | 認識データ伝送装置 |
CN105844659B (zh) * | 2015-01-14 | 2019-04-26 | 北京三星通信技术研究有限公司 | 运动部件的跟踪方法和装置 |
US11714880B1 (en) * | 2016-02-17 | 2023-08-01 | Ultrahaptics IP Two Limited | Hand pose estimation for machine learning based gesture recognition |
US10354129B2 (en) * | 2017-01-03 | 2019-07-16 | Intel Corporation | Hand gesture recognition for virtual reality and augmented reality devices |
US10638124B2 (en) * | 2017-04-10 | 2020-04-28 | Intel Corporation | Using dynamic vision sensors for motion detection in head mounted displays |
CN109934065B (zh) * | 2017-12-18 | 2021-11-09 | 虹软科技股份有限公司 | 一种用于手势识别的方法和装置 |
CN108961318B (zh) * | 2018-05-04 | 2020-05-15 | 上海芯仑光电科技有限公司 | 一种数据处理方法及计算设备 |
CN108647654A (zh) * | 2018-05-15 | 2018-10-12 | 合肥岚钊岚传媒有限公司 | 基于视觉的手势视频图像识别系统和方法 |
CN109492609B (zh) * | 2018-11-27 | 2020-05-15 | 上海芯仑光电科技有限公司 | 一种检测车道线的方法和车辆、及计算设备 |
CN109544590B (zh) * | 2018-11-27 | 2020-05-15 | 上海芯仑光电科技有限公司 | 一种目标跟踪方法及计算设备 |
US11074704B2 (en) * | 2019-01-04 | 2021-07-27 | Microsoft Technology Licensing, Llc | Error reduction of depth maps |
CN109815876B (zh) * | 2019-01-17 | 2021-01-05 | 西安电子科技大学 | 基于地址事件流特征的手势识别方法 |
CN110232308B (zh) * | 2019-04-17 | 2021-02-09 | 浙江大学 | 基于手部速度与轨迹分布的跟随机器人手势轨迹识别方法 |
US11334212B2 (en) * | 2019-06-07 | 2022-05-17 | Facebook Technologies, Llc | Detecting input in artificial reality systems based on a pinch and pull gesture |
CN110503686A (zh) * | 2019-07-31 | 2019-11-26 | 三星(中国)半导体有限公司 | 基于深度学习的物体位姿估计方法及电子设备 |
US11303853B2 (en) * | 2020-06-26 | 2022-04-12 | Standard Cognition, Corp. | Systems and methods for automated design of camera placement and cameras arrangements for autonomous checkout |
KR20220015964A (ko) * | 2020-07-31 | 2022-02-08 | 삼성전자주식회사 | 시각적 주행 거리 측정 애플리케이션들을 위한 손실된 이미지 특징 복원을 위한 방법 및 시스템 |
US11320896B2 (en) * | 2020-08-03 | 2022-05-03 | Facebook Technologies, Llc. | Systems and methods for object tracking using fused data |
US20220132078A1 (en) * | 2020-10-22 | 2022-04-28 | Bae Systems Information And Electronic Systems Integration Inc. | System and method for using event camera image sensors for optical communications |
EP4050460A1 (en) * | 2021-02-24 | 2022-08-31 | Infineon Technologies AG | Radar-based object tracking using a neural network |
-
2021
- 2021-03-08 CN CN202110252206.3A patent/CN112949512B/zh active Active
- 2021-05-13 WO PCT/CN2021/093483 patent/WO2022188259A1/zh active Application Filing
- 2021-05-13 EP EP21929730.6A patent/EP4307166A4/en active Pending
-
2023
- 2023-09-01 US US18/241,395 patent/US12118153B2/en active Active
Also Published As
Publication number | Publication date |
---|---|
WO2022188259A1 (zh) | 2022-09-15 |
CN112949512A (zh) | 2021-06-11 |
US20230418388A1 (en) | 2023-12-28 |
EP4307166A1 (en) | 2024-01-17 |
EP4307166A4 (en) | 2024-08-21 |
US12118153B2 (en) | 2024-10-15 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN112949512B (zh) | 一种动态手势识别方法、手势交互方法及交互系统 | |
US10055013B2 (en) | Dynamic object tracking for user interfaces | |
Bradski et al. | Motion segmentation and pose recognition with motion history gradients | |
US11640208B2 (en) | Gesture feedback in distributed neural network system | |
CN111709310B (zh) | 一种基于深度学习的手势跟踪与识别方法 | |
WO2018090912A1 (zh) | 目标对象检测方法、装置及系统和神经网络结构 | |
US10572072B2 (en) | Depth-based touch detection | |
US20170024893A1 (en) | Scene analysis for improved eye tracking | |
JP2023509953A (ja) | ターゲット追跡方法、装置、電子機器及び記憶媒体 | |
JP5604256B2 (ja) | 人物動作検出装置およびそのプログラム | |
CN111722706A (zh) | 基于雷达网络的空中书写字符识别的方法和系统 | |
CN105825524A (zh) | 目标跟踪方法和装置 | |
CN104049760B (zh) | 一种人机交互命令的获取方法及系统 | |
CN103514432A (zh) | 人脸特征提取方法、设备和计算机程序产品 | |
Masood et al. | Measuring and reducing observational latency when recognizing actions | |
KR102203810B1 (ko) | 사용자 입력에 대응되는 이벤트를 이용한 유저 인터페이싱 장치 및 방법 | |
KR101956275B1 (ko) | 영상으로부터 신체 골격 및 신체 부위 정보 검출 방법 및 장치 | |
KR102217003B1 (ko) | 객체 추적 방법 및 이를 수행하는 장치 | |
Ahmed et al. | Real-time edge-enhanced dynamic correlation and predictive open-loop car-following control for robust tracking | |
CN108734735B (zh) | 对象形状跟踪装置和方法以及图像处理系统 | |
CN107665495B (zh) | 对象跟踪方法及对象跟踪装置 | |
KR101909326B1 (ko) | 얼굴 모션 변화에 따른 삼각 매쉬 모델을 활용하는 사용자 인터페이스 제어 방법 및 시스템 | |
Yen et al. | Adaptive Indoor People-Counting System Based on Edge AI Computing | |
Fang et al. | An improved moving tracking algorithm with multiple information fusion based on 3d sensors | |
CN114489341A (zh) | 手势的确定方法和装置、电子设备和存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |