CN115061574B - 一种基于视觉核心算法的人机交互系统 - Google Patents

一种基于视觉核心算法的人机交互系统 Download PDF

Info

Publication number
CN115061574B
CN115061574B CN202210790753.1A CN202210790753A CN115061574B CN 115061574 B CN115061574 B CN 115061574B CN 202210790753 A CN202210790753 A CN 202210790753A CN 115061574 B CN115061574 B CN 115061574B
Authority
CN
China
Prior art keywords
target
tracking
time
memory
short
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202210790753.1A
Other languages
English (en)
Other versions
CN115061574A (zh
Inventor
陈伟
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Dalian Houren Technology Co ltd
Original Assignee
Dalian Houren Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Dalian Houren Technology Co ltd filed Critical Dalian Houren Technology Co ltd
Priority to CN202211583231.0A priority Critical patent/CN115712354B/zh
Priority to CN202210790753.1A priority patent/CN115061574B/zh
Publication of CN115061574A publication Critical patent/CN115061574A/zh
Application granted granted Critical
Publication of CN115061574B publication Critical patent/CN115061574B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/01Input arrangements or combined input and output arrangements for interaction between user and computer
    • G06F3/017Gesture based interaction, e.g. based on a set of recognized hand gestures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/25Determination of region of interest [ROI] or a volume of interest [VOI]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/764Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • G06V20/41Higher-level, semantic clustering, classification or understanding of video scenes, e.g. detection, labelling or Markovian modelling of sport events or news items
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • G06V20/46Extracting features or characteristics from the video content, e.g. video fingerprints, representative shots or key frames
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/20Movements or behaviour, e.g. gesture recognition
    • G06V40/28Recognition of hand or arm movements, e.g. recognition of deaf sign language
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Abstract

本发明公开了一种基于视觉核心算法的人机交互系统,包括手势数据采集模块、手势数据标注模块、手势识别算法模块和交互模块;所述手势数据采集模块用于采集手部动作视频;所述手势数据标注模块用于检测出手部位置,并对手部的位置的坐标进行标注;所述手势识别算法模块用于跟踪定位手部并识别手势;所述交互模块用于将识别的手势转换为相对应的指令输出;在所述跟踪定位手部时,利用了设计的目标记忆及时空上下文引导的目标跟踪方法,该跟踪方法设计了一种平衡长短时记忆器评估跟踪结果的可靠性用于更新跟踪模板,提高了跟踪器适应目标外观变化的能力,此外,引入了时空上下文用于提高跟踪的准确性,进一步提高了人机交互系统的可靠性。本发明可在多种领域应用,如虚拟现实、游戏、可穿戴计算机等。

Description

一种基于视觉核心算法的人机交互系统
技术领域
本发明涉及人机交互领域,具体涉及一种基于视觉核心算法的人机交互系统。
背景技术
人机交互是指人与计算机之间相互交流和通信的方式,主要研究的是如何高效便利的实现人与计算机的交互,随着计算机技术的飞速发展,人机交互方式也从最初的语言命令的方式发展为基于鼠标、键盘的交互方式;与此同时,基于鼠标、键盘的交互方式的局限性也越来越突显出来,尤其是在虚拟现实、可穿戴计算机等应用领域之中更加明显;基于视觉的人机交互方式可直接通过人的动作作为人机交互的输入,无需中间媒介即可实现更高效便捷的人机交互,其中基于手势识别的人机交互方式有简便易行、适应性强的有点;基于手势识别的人机交互方式需要对利用计算机视觉对手势进行检测、跟踪与识别等。
在对手部进行跟踪定位时,常见的跟踪方法多是粒子滤波这种传统的跟踪方法,没有从现如今前沿的深度学习技术中收益;目前,基于深度学习的跟踪方法不仅实时性搞,而且具有不错的鲁棒性,因此对于人机交互中的跟踪具有良好的适配性;然而,基于孪生网络的跟踪方法具有一些局限性需要继续改进以更加适应人机交互任务中的跟踪需求,一是基于孪生网络的跟踪方法在跟踪的过程中仅使用了从第一帧提取的目标模板,没有更新目标模板以适应跟踪目标的变化,在人机交互中,要跟踪的目标往往变形较大,因此难以适应目标变化的基于孪生网络的跟踪方法需要改进以更新跟踪模板;二是基于孪生网络的跟踪方法在跟踪的过程各种没有考虑到时空上下文信息辅助跟踪,在要跟踪的目标变形较大时可以通过时空上下文信息辅助定位,这两个局限性与人机交互任务需求有着重要的联系,因此如何高效可靠的更新跟踪所需的目标模板以及引入时空上下文信息已提高跟你中的准确定,进而进一步提高人机交互的高效及可靠性十分重要。
发明内容
本发明针对上述问题,提出了一种基于视觉核心算法的人机交互系统,设计了一种目标记忆及时空上下文引导的目标跟踪方法,通过记忆器评估跟踪结果的可靠性来更新跟踪模板,以提高跟踪器适应外观变化的能力,此外引入了时空上下文以进一步提高跟踪准确性,通过该跟踪方法可以准确高效的定位目标,进而提高了人机交互系统的高效性与可靠性。
本发明可在多种领域应用,如虚拟现实、游戏、可穿戴计算机等。
为了解决上述技术问题,本发明提供如下技术方案:
本发明的一种基于视觉核心算法的人机交互系统,包括手势数据采集模块、手势数据标注模块、手势识别算法模块和交互模块;
手势数据采集模块用于调用设备上的摄像头拍摄手部动作视频数据,并将这些视频传输给手势数据标注模块用于进一步处理;
手势数据标注模块用于将视频数据处理成一帧一帧的按时序排列的图片,然后在第一帧图片上提取感兴趣区域,然后利用提取的感兴趣区域确定手部所在位置,并将手部位置的坐标数据及处理后的视频数据传输给手势识别算法模块;
手势识别算法模块包含图像预处理算法、手势跟踪算法和手势识别算法,图像预处理算法对视频数据进行预处理以便后续算法的运行,手势跟踪算法是在已知手势数据标注模块给出的手部位置数据后,利用设计的目标记忆及时空上下文引导的目标跟踪方法跟踪不断运动的手部,手势识别算法是在手部不再运动后识别出当前手势;
交互模块用于根据识别出的手势找到其相对应的指令进行输出。
进一步地,设计的目标记忆及时空上下文引导的目标跟踪方法的主干网络是带有分类分支与回归分支的孪生网络,即SiamRPN跟踪器的主干网络。
所述设计的目标记忆及时空上下文引导的目标跟踪方法包括离线训练主干网络和更新两个阶段。
进一步地,目标记忆及时空上下文引导的目标跟踪方法的离线训练主干网络阶段,使用的数据集是由手势数据采集模块采集到的数据制成的数据集,将手势数据采集模块采集到的数据分解成一系列图像,人工标注出手部的位置数据并设置标签即完成了数据集的制作,再利用该数据集离线训练主干网络。
进一步地,目标记忆及时空上下文引导的目标跟踪方法的在线跟踪阶段的在线跟踪流程如下:
步骤一:利用手势数据标注模块所给出的手部位置的坐标数据,以及图像预处理算法处理后的一帧一帧的按时序排列的视频图像,在第一帧视频图像中裁剪出目标图像作为目标模板Z1,并学习了一种平衡长短时记忆器;
步骤二:在后续第t帧的视频图像序列中以第t-1帧中目标中心位置为中心裁剪出一个三倍于目标大小的搜索区域图像Xt;将目标模板Z1和搜索区域图像Xt送入主干网络;
步骤三:网络前向运算,网络尾部的分类分支输出初始分类得分图,然后利用设计的空间上下文置信度图与初始分类得分图相结合得到最终的空间上下文约束的分类得分图,将分类得分图与回归得分图相结合找到目标最终位置;
步骤四:利用平衡长短时记忆器评估跟踪结果的可靠性,根据可靠性的大小更新目标模板,获得新的目标模板Zt代替原本的目标模板Z1
进一步地,平衡长短时记忆器由长时记忆器与短时记忆器构成,长时记忆器用于保存跟踪目标长时间跨度的外观信息,短时记忆器用于保存目标当前的外观信息;
进一步地,平衡长短时记忆器的构建过程如下:
步骤一:视频的第一帧提取目标模板Z1的颜色直方图和HOG特征,将颜色直方图和HOG特征融合获得最终的目标模板Z1的特征z1
步骤二:利用目标模板特征与长时记忆器的目标函数求解得到一个相关滤波器Wl即为长时记忆器,同时利用目标模板特征与短时记忆器的目标函数求解得到一个相关滤波器Ws即为短时记忆器,将短时记忆器Ws与长时记忆器Wl加权相加,得到了平衡长短时记忆器Wls
步骤三:在后续跟踪过程中,利用平衡长短时记忆器Wls评估跟踪结果的可靠性,在评估得到跟踪结果的可靠性较高时,分别更新短时记忆器Ws与长时记忆器Wl,将更新后的短时记忆器Ws与长时记忆器Wl加权相加,得到了更新后的平衡长短时记忆器Wls
进一步地,长时记忆器Wl的目标函数定义如下:
Figure BDA0003733832120000031
其中W是要学习的记忆器,λ1和λ2是正则化参数,y是高斯标签,z1是第一帧视频图像中截取出来的目标图像Z1的颜色直方图和HOG融合后的特征,zt是根据经评估后可靠性较高的第t帧跟踪结果截取出来的目标图像Zt的颜色直方图和HOG融合后的特征,通过快速傅里叶变换对算法进行加速计算可求得:
Figure BDA0003733832120000041
其中⊙是元素积,符号F表示傅里叶变换,
Figure BDA0003733832120000042
是Z1的复共轭,/>
Figure BDA0003733832120000043
是Zt的复共轭,经评估第t帧跟踪结果的可靠性较高可以更新长时记忆器,更新采用较小的更新速率。
进一步地,短时记忆器Ws的目标函数定义如下:
Figure BDA0003733832120000044
其中λ3和λ4是正则化参数,通过快速傅里叶变换对算法进行加速计算可求得:
Figure BDA0003733832120000045
其中⊙是元素积,符号F表示傅里叶变换,
Figure BDA0003733832120000046
是Z1的复共轭,/>
Figure BDA0003733832120000047
是Zt的复共轭,经评估第t帧跟踪结果的可靠性较高可以更新短时记忆器,更新采用较大的更新速率。
进一步地,利用平衡长短时记忆器Wls评估跟踪结果的可靠性方式是首先将平衡长短时记忆器Wls与跟踪结果进行互相关得到可靠性图,找到可靠性图的最大值即为跟踪结果的可靠性,设置一个阈值,当可靠性值大于阈值时即跟踪结果的可靠性较高,此时可以更新平衡长短时记忆器Wls
进一步地,设计的空间上下文置信度图由空间上下文模型计算得到,空间上下文模型的构建过程如下:
已知跟踪第t帧跟踪结果,以目标中心位置为中心截取向外拓展两倍于的目标大小的目标上下文区域图像Ωc(x′),空间上下文置信度图定义为:
Figure BDA0003733832120000048
其中x是搜索区域图像上任何一点的位置,x′是已知的目标位置,o表示上下文区域图像Ωc(x′)中出现的目标,
Figure BDA0003733832120000049
是在已知目标位置时设定的空间上下文置信度图,b、α和β是超参数,p(x|o)是利用空间上下文信息计算得到的空间上下文置信度图,定义为:
Figure BDA0003733832120000051
其中Xc是上下文特征,这里使用的是灰度特征,Xc={c(z)=(I(z),z)|z∈Ωc(x′)},c(z)与I(z)表示位置z的图像强度,p(x|c(z),o)表示目标和它的上下文区域的空间关系,由空间上下文模型hsc计算得到:
p(x|c(z),o)=hsc(x-z)
hsc(x-z)是一个关于目标x和局部上下文位置z的相对距离和方向的函数,它编码了目标和它的空间上下文的空间关系;p(c(z)|o)是一个上下文先验概率,定义为:
p(c(z)|o)=I(z)ωσ(z-x′)
ωσ(·)是一个加权函数,定义为:
Figure BDA0003733832120000052
其中a和σ是超参数将p(c(z)|o)的取值范围归一化到0到1;通过上述分析,进一步可将置信度图定义写成:
Figure BDA0003733832120000053
其中
Figure BDA0003733832120000054
是卷积操作,通过在傅里叶域内快速求解学习到空间上下文模型:
Figure BDA0003733832120000055
其中,F-1表示傅里叶逆变换,F表示傅里叶变换,在跟踪过程中,空间上下文模型在每一帧都进行更新。
进一步地,在跟踪过程中通过空间上下文模型计算出空间上下文置信度图:
Figure BDA0003733832120000061
其中,t是帧索引,ct(x)表示通过空间上下文模型计算出的第t帧的空间上下文置信度图,
Figure BDA0003733832120000062
是在第t-1帧更新后的空间上下文模型,It(x)表示第t帧位置x的图像强度,x′t-1是第t-1帧已知的目标位置,在得到空间上下文置信度图之后,将其与初始分类得分图相乘得到最终的空间上下文约束的分类得分图。
本发明的有益效果在于:
提出了一种基于视觉核心算法的人机交互系统,设计了一种目标记忆及时空上下文引导的目标跟踪方法作为手势跟踪算法,目标记忆及时空上下文引导的目标跟踪方法设计了一个平衡长短时记忆器,通过将目标的长期记忆与短期记忆结合来更准确地判断跟踪结果的可靠性,以此来更新跟踪模板,解决了基于孪生网络的跟踪方法难以适应目标变化的问题;此外,设计了一种空间上下文模型,通过目标与其空间上下文之间的关系生成的空间上下文置信度图作用于分类得分图上,提高了跟踪的准确性,进而进一步地提高了基于视觉核心算法的人机交互系统的高效性与准确性。
附图说明
利用附图对发明创造作进一步说明,但附图中的实施例不构成对本发明创造的任何限制,对于本领域的普通技术人员,在不付出创造性劳动的前提下,还可以根据以下附图获得其它的附图。
图1是本发明提供的一种基于视觉核心算法的人机交互系统的结构示意图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明的一部分实施例,而不是全部的实施例;基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
参见图1,一种基于视觉核心算法的人机交互系统,包括手势数据采集模块、手势数据标注模块、手势识别算法模块和交互模块;
手势数据采集模块用于调用设备上的摄像头拍摄手部动作视频数据,并将这些视频传输给手势数据标注模块用于进一步处理;
手势数据标注模块用于将视频数据处理成一帧一帧的按时序排列的图片,然后在第一帧图片上提取感兴趣区域,然后利用提取的感兴趣区域确定手部所在位置,并将手部位置的坐标数据及处理后的视频数据传输给手势识别算法模块;
手势识别算法模块包含图像预处理算法、手势跟踪算法和手势识别算法,图像预处理算法对视频数据进行预处理以便后续算法的运行,手势跟踪算法是在已知手势数据标注模块给出的手部位置数据后,利用设计的目标记忆及时空上下文引导的目标跟踪方法跟踪不断运动的手部,手势识别算法是在手部不再运动后识别出当前手势;
交互模块用于根据识别出的手势找到其相对应的指令进行输出。
优选地,设计的目标记忆及时空上下文引导的目标跟踪方法的主干网络是带有分类分支与回归分支的孪生网络,即SiamRPN跟踪器的主干网络。
优选地,设计的目标记忆及时空上下文引导的目标跟踪方法包括离线训练主干网络和更新两个阶段。
优选地,目标记忆及时空上下文引导的目标跟踪方法的离线训练主干网络阶段,使用的数据集是由手势数据采集模块采集到的数据制成的数据集,将手势数据采集模块采集到的数据分解成一系列图像,人工标注出手部的位置数据并设置标签即完成了数据集的制作,再利用该数据集离线训练主干网络。
优选地,目标记忆及时空上下文引导的目标跟踪方法的在线跟踪阶段的在线跟踪流程如下:
步骤一:利用手势数据标注模块所给出的手部位置的坐标数据,以及图像预处理算法处理后的一帧一帧的按时序排列的视频图像,在第一帧视频图像中裁剪出目标图像作为目标模板Z1,并学习了一种平衡长短时记忆器;
步骤二:在后续第t帧的视频图像序列中以第t-1帧中目标中心位置为中心裁剪出一个三倍于目标大小的搜索区域图像Xt;将目标模板Z1和搜索区域图像Xt送入主干网络;
步骤三:网络前向运算,网络尾部的分类分支输出初始分类得分图,然后利用设计的空间上下文置信度图与初始分类得分图相结合得到最终的空间上下文约束的分类得分图,将分类得分图与回归得分图相结合找到目标最终位置;
步骤四:利用平衡长短时记忆器评估跟踪结果的可靠性,根据可靠性的大小更新目标模板,获得新的目标模板Zt代替原本的目标模板Z1
基于孪生网络的跟踪算法SiamRPN在孪生跟踪框架上引入了区域与建议网络,将跟踪作为一次性检测任务,提高了跟踪的精度的同时提高了跟踪的实时性能,因此适用于基于视觉核心算法的人机交互系统中的跟踪任务的基本要求,但SiamRPN仍然存在传统基于孪生网络的跟踪器的局限性,即无法更新跟踪模板,在基于视觉核心算法的人机交互系统中,所要定位的人的手势往往变化很大,因此直接将无法在线更新跟踪模板的SiamRPN算法作为手势跟踪算法难以适应任务要求,针对这个问题,设计了一个平衡长短时记忆器来评估跟踪结果的可靠性,以便更准确的更新跟踪模板,适应目标变化,具体为:
平衡长短时记忆器由长时记忆器与短时记忆器构成,长时记忆器用于保存跟踪目标长时间跨度的外观信息,短时记忆器用于保存目标当前的外观信息;
优选地,平衡长短时记忆器的构建过程如下:
步骤一:视频的第一帧提取目标模板Z1的颜色直方图和HOG特征,将颜色直方图和HOG特征融合获得最终的目标模板Z1的特征Z1
步骤二:利用目标模板特征与长时记忆器的目标函数求解得到一个相关滤波器Wl即为长时记忆器,同时利用目标模板特征与短时记忆器的目标函数求解得到一个相关滤波器Ws即为短时记忆器,将短时记忆器Ws与长时记忆器Wl加权相加,得到了平衡长短时记忆器Wls
步骤三:在后续跟踪过程中,利用平衡长短时记忆器Wls评估跟踪结果的可靠性,在评估得到跟踪结果的可靠性较高时,分别更新短时记忆器Ws与长时记忆器Wl,将更新后的短时记忆器Ws与长时记忆器Wl加权相加,得到了更新后的平衡长短时记忆器Wls
优选地,长时记忆器Wl的目标函数定义如下:
Figure BDA0003733832120000081
其中W是要学习的记忆器,λ1和λ2是正则化参数,y是高斯标签,z1是第一帧视频图像中截取出来的目标图像Z1的颜色直方图和HOG融合后的特征,zt是根据经评估后可靠性较高的第t帧跟踪结果截取出来的目标图像Zt的颜色直方图和HOG融合后的特征,通过快速傅里叶变换对算法进行加速计算可求得:
Figure BDA0003733832120000082
其中⊙是元素积,符号F表示傅里叶变换,
Figure BDA0003733832120000091
是Z1的复共轭,/>
Figure BDA0003733832120000092
是Zt的复共轭,经评估第t帧跟踪结果的可靠性较高可以更新长时记忆器,更新采用较小的更新速率。
优选地,短时记忆器Ws的目标函数定义如下:
Figure BDA0003733832120000093
其中λ3和λ4是正则化参数,通过快速傅里叶变换对算法进行加速计算可求得:
Figure BDA0003733832120000094
/>
其中⊙是元素积,符号F表示傅里叶变换,
Figure BDA0003733832120000095
是Z1的复共轭,/>
Figure BDA0003733832120000096
是Zt的复共轭,经评估第t帧跟踪结果的可靠性较高可以更新短时记忆器,更新采用较大的更新速率。
优选地,利用平衡长短时记忆器Wls评估跟踪结果的可靠性方式是首先将平衡长短时记忆器Wls与跟踪结果进行互相关得到可靠性图,找到可靠性图的最大值即为跟踪结果的可靠性,设置一个阈值,当可靠性值大于阈值时即跟踪结果的可靠性较高,此时可以更新平衡长短时记忆器Wls
SiamRPN在线跟踪时仅使用了目标模板信息,没有考虑到当目标变时可以通过空间上下文信息辅助跟踪一提高跟踪的鲁棒性,针对这一问题,设计了一个空间上下文模型,该模型通过目标与其空间上下文之间的关系计算一个空间置信度图,将该置信度图与分类得分图相结合以提高跟踪的准确性,具体空间上下文模型的构建过程如下:
已知跟踪第t帧跟踪结果,以目标中心位置为中心截取向外拓展两倍于的目标大小的目标上下文区域图像Ωc(x′),空间上下文置信度图定义为:
Figure BDA0003733832120000097
其中x是搜索区域图像上任何一点的位置,x′是已知的目标位置,o表示上下文区域图像Ωc(x′)中出现的目标,
Figure BDA0003733832120000098
是在已知目标位置时设定的空间上下文置信度图,b、α和β是超参数,p(x|o)是利用空间上下文信息计算得到的空间上下文置信度图,定义为:
Figure BDA0003733832120000101
其中Xc是上下文特征,这里使用的是灰度特征,Xc={c(z)=(I(z),z)|z∈Ωc(x′)},c(z)与I(z)表示位置z的图像强度,p(x|c(z),o)表示目标和它的上下文区域的空间关系,由空间上下文模型hsc计算得到:
p(x|c(z),o)=hsc(x-z)
hsc(x-z)是一个关于目标x和局部上下文位置z的相对距离和方向的函数,它编码了目标和它的空间上下文的空间关系;p(c(z)|o)是一个上下文先验概率,定义为:
p(c(z)|o)=I(z)ωσ(z-x′)
ωσ(·)是一个加权函数,定义为:
Figure BDA0003733832120000102
其中a和σ是超参数将p(c(z)|o)的取值范围归一化到0到1;通过上述分析,进一步可将置信度图定义写成:
Figure BDA0003733832120000103
其中
Figure BDA0003733832120000104
是卷积操作,通过在傅里叶域内快速求解学习到空间上下文模型:/>
Figure BDA0003733832120000105
其中,F-1表示傅里叶逆变换,F表示傅里叶变换,在跟踪过程中,空间上下文模型在每一帧都进行更新。
优选地,在跟踪过程中通过空间上下文模型计算出空间上下文置信度图:
Figure BDA0003733832120000111
其中,t是帧索引,ct(x)表示通过空间上下文模型计算出的第t帧的空间上下文置信度图,
Figure BDA0003733832120000112
是在第t-1帧更新后的空间上下文模型,It(x)表示第t帧位置x的图像强度,x″t-1是第t-1帧已知的目标位置,在得到空间上下文置信度图之后,将其与初始分类得分图相乘得到最终的空间上下文约束的分类得分图。
本优选实例的手势识别算法模块中的手势识别算法采用了设计的目标记忆及时空上下文引导的目标跟踪方法来跟踪手势,通过对及与孪生网络的跟踪方法SiamRPN进行改进提高了跟踪的准确性,进而提高了人机交互系统的高效性与可靠性;目前,基于深度学习的跟踪方法SiamRPN不仅实时性搞,而且具有不错的鲁棒性,然而SiamRPN具有一些局限性需要继续改进以更加适应人机交互任务中的跟踪需求,一是基于孪生网络的跟踪方法在跟踪的过程中仅使用了从第一帧提取的目标模板,没有更新目标模板以适应跟踪目标的变化,在人机交互中,要跟踪的目标往往变形较大,因此难以适应目标变化的基于孪生网络的跟踪方法需要改进以更新跟踪模板,传统的基于记忆器的模板更新方法,往往只关注到了目标的长时记忆,因而无法满足目标变化较大时短时记忆的需求,针对这个问题设计了一个平衡长短时记忆器来评估跟踪结果的可靠性,不同于传统记忆器仅关注目标长时记忆,平衡长短时记忆器将长时记忆与短时记忆相结合以便更准确的更新跟踪模板,适应目标变化,具体地,设计两个目标函数分别学习一个长时记忆器与一个短时记忆器,将短时记忆器与长时记忆器加权结合获得平衡长短时记忆器,利用该记忆器与跟踪结果进行相关操作得到可靠性图,可靠性图的最大值作为跟踪结果的可靠性,当可靠性大于设定的阈值,即可更新记忆器与目标模板,相比于传统仅关注目标长时记忆的记忆器,将目标的长时记忆与短时记忆相结合的平衡长短时记忆器可以更有效地计算跟踪结果的可靠性来评估是否更新目标模板的方式,从而提高了跟踪器适应外观变化的能力;二是基于孪生网络的跟踪方法在跟踪的过程中仅使用了目标模板信息,使用了一个余弦窗惩罚作为时间上下文约束,而没有考虑到空间上下文信息辅助跟踪,因此在面对要跟踪的目标变形较大时会导致跟踪的准确性降低,针对这一问题,设计了一个空间上下文模型,该模型通过目标与其空间上下文之间的关系计算一空间置信度图,将该置信度图与分类得分图相结合以提高跟踪的准确性,具体地,利用目标和它的上下文区域的空间关系与上下文先验概率求解出空间上下文模型,利用空间上下文模型计算出空间上下文置信度图,将空间上下文置信度图与分类得分图相乘获得最终的空间上下文约束的分类得分图,将分类得分图与回归得分图相结合找到目标最终位置,对比于仅考虑目标信息与时间上下文,空间上下文模型可以将空间上下文信息引入辅助跟踪,进而提高了跟踪器的准确性。
最后应当说明的是,以上实施例仅用以说明本发明的技术方案,而非对本发明保护范围的限制,尽管参照较佳实施例对本发明作了详细地说明,本领域的普通技术人员应当理解,可以对本发明的技术方案进行修改或者等同替换,而不脱离本发明技术方案的实质和范围。

Claims (4)

1.一种基于视觉的人机交互系统,其特征在于,包括手势数据采集模块、手势数据标注模块、手势识别算法模块和交互模块;
手势数据采集模块用于调用设备上的摄像头拍摄手部动作视频数据,并将这些视频传输给手势数据标注模块用于进一步处理;
手势数据标注模块用于将视频数据处理成一帧一帧的按时序排列的图片,然后在第一帧图片上提取感兴趣区域,然后利用提取的感兴趣区域确定手部所在位置,并将手部位置的坐标数据及处理后的视频数据传输给手势识别算法模块;
手势识别算法模块包含图像预处理算法、手势跟踪算法和手势识别算法,图像预处理算法对视频数据进行预处理以便后续算法的运行,手势跟踪算法是在已知手势数据标注模块给出的手部位置数据后,利用设计的目标记忆及时空上下文引导的目标跟踪方法跟踪不断运动的手部,手势识别算法是在手部不再运动后识别出当前手势;
交互模块用于根据识别出的手势找到其相对应的指令进行输出;
设计的目标记忆及时空上下文引导的目标跟踪方法的主干网络是带有分类分支与回归分支的孪生网络,即SiamRPN跟踪器的主干网络;
设计的目标记忆及时空上下文引导的目标跟踪方法包括离线训练主干网络和更新两个阶段;
目标记忆及时空上下文引导的目标跟踪方法的在线跟踪阶段的在线跟踪流程如下:
S51:利用手势数据标注模块所给出的手部位置的坐标数据,以及图像预处理算法处理后的一帧一帧的按时序排列的视频图像,在第一帧视频图像中裁剪出目标图像作为目标模板Z1,并学习了一个平衡长短时记忆器;
S52:在后续第t帧的视频图像序列中以第t-1帧中目标中心位置为中心裁剪出一个三倍于目标大小的搜索区域图像Xt;将目标模板Z1和搜索区域图像Xt送入主干网络;
S53:网络前向运算,网络尾部的分类分支输出初始分类得分图,然后利用设计的空间上下文置信度图与初始分类得分图相结合得到最终的空间上下文约束的分类得分图,将分类得分图与回归得分图相结合找到目标最终位置;
S54:利用平衡长短时记忆器评估跟踪结果的可靠性,根据可靠性的大小更新目标模板,获得新的目标模板Zt代替原本的目标模板Z1
所述平衡长短时记忆器由长时记忆器与短时记忆器构成,长时记忆器用于保存跟踪目标长时间跨度的外观信息,短时记忆器用于保存目标当前的外观信息;
所述平衡长短时记忆器的构建过程如下:
S61:视频的第一帧提取目标模板Z1的颜色直方图和HOG特征,将颜色直方图和HOG特征融合获得最终的目标模板Z1的特征z1
S62:利用目标模板特征与长时记忆器的目标函数求解得到一个相关滤波器Wl即为长时记忆器,同时利用目标模板特征与短时记忆器的目标函数求解得到一个相关滤波器Ws即为短时记忆器,将短时记忆器Ws与长时记忆器Wl加权相加,得到了平衡长短时记忆器Wls
S63:在后续跟踪过程中,利用平衡长短时记忆器Wls评估跟踪结果的可靠性,在评估得到跟踪结果的可靠性较高时,分别更新短时记忆器Ws与长时记忆器Wl,将更新后的短时记忆器Ws与长时记忆器Wl加权相加,得到了更新后的平衡长短时记忆器Wls
其中,所述利用平衡长短时记忆器Wls评估跟踪结果的可靠性方式是首先将平衡长短时记忆器Wls与跟踪结果进行互相关得到可靠性图,找到可靠性图的最大值即为跟踪结果的可靠性,设置一个阈值,当可靠性值大于阈值时即跟踪结果的可靠性较高,此时可以更新平衡长短时记忆器Wls
2.根据权利要求1所述的一种基于视觉的人机交互系统,其特征在于,目标记忆及时空上下文引导的目标跟踪方法的离线训练主干网络阶段,使用的数据集是由手势数据采集模块采集到的数据制成的数据集,将手势数据采集模块采集到的数据分解成一系列图像,人工标注出手部的位置数据并设置标签即完成了数据集的制作,再利用该数据集离线训练主干网络。
3.根据权利要求1或2所述的一种基于视觉的人机交互系统,其特征在于,长时记忆器Wl的目标函数定义如下:
Figure FDA0004009180550000031
其中W是要学习的记忆器,λ1和λ2是正则化参数,y是高斯标签,z1是第一帧视频图像中截取出来的目标图像Z1的颜色直方图和HOG融合后的特征,zt是根据经评估后可靠性较高的第t帧跟踪结果截取出来的目标图像Zt的颜色直方图和HOG融合后的特征,通过快速傅里叶变换对算法进行加速计算可求得:
Figure FDA0004009180550000032
其中⊙是元素积,符号F表示傅里叶变换,
Figure FDA0004009180550000033
是Z1的复共轭,/>
Figure FDA0004009180550000034
是Zt的复共轭。
4.根据权利要求3所述的一种基于视觉的人机交互系统,其特征在于,短时记忆器Ws的目标函数定义如下:
Figure FDA0004009180550000035
其中λ3和λ4是正则化参数,通过快速傅里叶变换对算法进行加速计算可求得:
Figure FDA0004009180550000036
其中⊙是元素积,符号F表示傅里叶变换,
Figure FDA0004009180550000037
是Z1的复共轭,/>
Figure FDA0004009180550000038
是Zt的复共轭。/>
CN202210790753.1A 2022-07-06 2022-07-06 一种基于视觉核心算法的人机交互系统 Active CN115061574B (zh)

Priority Applications (2)

Application Number Priority Date Filing Date Title
CN202211583231.0A CN115712354B (zh) 2022-07-06 2022-07-06 一种基于视觉和算法的人机交互系统
CN202210790753.1A CN115061574B (zh) 2022-07-06 2022-07-06 一种基于视觉核心算法的人机交互系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210790753.1A CN115061574B (zh) 2022-07-06 2022-07-06 一种基于视觉核心算法的人机交互系统

Related Child Applications (1)

Application Number Title Priority Date Filing Date
CN202211583231.0A Division CN115712354B (zh) 2022-07-06 2022-07-06 一种基于视觉和算法的人机交互系统

Publications (2)

Publication Number Publication Date
CN115061574A CN115061574A (zh) 2022-09-16
CN115061574B true CN115061574B (zh) 2023-03-31

Family

ID=83203868

Family Applications (2)

Application Number Title Priority Date Filing Date
CN202211583231.0A Active CN115712354B (zh) 2022-07-06 2022-07-06 一种基于视觉和算法的人机交互系统
CN202210790753.1A Active CN115061574B (zh) 2022-07-06 2022-07-06 一种基于视觉核心算法的人机交互系统

Family Applications Before (1)

Application Number Title Priority Date Filing Date
CN202211583231.0A Active CN115712354B (zh) 2022-07-06 2022-07-06 一种基于视觉和算法的人机交互系统

Country Status (1)

Country Link
CN (2) CN115712354B (zh)

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108596046A (zh) * 2018-04-02 2018-09-28 上海交通大学 一种基于深度学习的细胞检测计数方法及系统
CN108734151A (zh) * 2018-06-14 2018-11-02 厦门大学 基于相关滤波以及深度孪生网络的鲁棒长程目标跟踪方法
CN109658440A (zh) * 2018-11-30 2019-04-19 华南理工大学 一种基于目标显著性特征的目标跟踪方法

Family Cites Families (17)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9613273B2 (en) * 2015-05-19 2017-04-04 Toyota Motor Engineering & Manufacturing North America, Inc. Apparatus and method for object tracking
US10489638B2 (en) * 2016-11-09 2019-11-26 Nanjing Avatarmind Robot Technology Co., Ltd. Visual tracking method and robot based on monocular gesture recognition
CN107240120B (zh) * 2017-04-18 2019-12-17 上海体育学院 视频中运动目标的跟踪方法及装置
CN107093189A (zh) * 2017-04-18 2017-08-25 山东大学 基于自适应颜色特征和时空上下文的目标跟踪方法及系统
CN107045726B (zh) * 2017-04-27 2019-12-24 南京航空航天大学 一种基于时空上下文模型的目标跟踪方法
CN107451601A (zh) * 2017-07-04 2017-12-08 昆明理工大学 基于时空上下文全卷积网络的运动工件识别方法
CN107657627B (zh) * 2017-08-24 2021-07-30 北京理工大学 基于人脑记忆机制的时空上下文目标跟踪方法
CN110458059B (zh) * 2019-07-30 2022-02-08 北京科技大学 一种基于计算机视觉的手势识别方法及识别装置
CN110570451B (zh) * 2019-08-05 2022-02-01 武汉大学 基于stc和分块重检测的多线程视觉目标跟踪方法
CN111273779B (zh) * 2020-02-20 2023-09-19 沈阳航空航天大学 基于自适应空间监督的动态手势识别方法
CN111476116A (zh) * 2020-03-24 2020-07-31 南京新一代人工智能研究院有限公司 一种用于车辆检测跟踪的旋翼无人机系统及检测跟踪方法
CN111639531A (zh) * 2020-04-24 2020-09-08 中国人民解放军总医院 一种基于手势识别的医学模型交互可视化方法及系统
CN111860142A (zh) * 2020-06-10 2020-10-30 南京翱翔信息物理融合创新研究院有限公司 一种面向投影增强的基于机器视觉的手势交互方法
CN112132856A (zh) * 2020-09-30 2020-12-25 北京工业大学 一种基于自适应模板更新的孪生网络跟踪方法
CN112489088A (zh) * 2020-12-15 2021-03-12 东北大学 一种基于记忆单元的孪生网络视觉跟踪方法
CN113989331A (zh) * 2021-11-12 2022-01-28 山西大学 基于上下文多线索信息和自适应响应的长时目标跟踪方法
CN113963032A (zh) * 2021-12-01 2022-01-21 浙江工业大学 一种融合目标重识别的孪生网络结构目标跟踪方法

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108596046A (zh) * 2018-04-02 2018-09-28 上海交通大学 一种基于深度学习的细胞检测计数方法及系统
CN108734151A (zh) * 2018-06-14 2018-11-02 厦门大学 基于相关滤波以及深度孪生网络的鲁棒长程目标跟踪方法
CN109658440A (zh) * 2018-11-30 2019-04-19 华南理工大学 一种基于目标显著性特征的目标跟踪方法

Also Published As

Publication number Publication date
CN115712354A (zh) 2023-02-24
CN115061574A (zh) 2022-09-16
CN115712354B (zh) 2023-05-30

Similar Documents

Publication Publication Date Title
Lim et al. Isolated sign language recognition using convolutional neural network hand modelling and hand energy image
CN111709311B (zh) 一种基于多尺度卷积特征融合的行人重识别方法
Lim et al. A feature covariance matrix with serial particle filter for isolated sign language recognition
CN109191497A (zh) 一种基于多种信息融合的实时在线多目标跟踪方法
CN109919977B (zh) 一种基于时间特征的视频运动人物跟踪与身份识别方法
CN109598684B (zh) 结合孪生网络的相关滤波跟踪方法
CN113608663B (zh) 一种基于深度学习和k-曲率法的指尖跟踪方法
CN113158833B (zh) 一种基于人体姿态的无人车控制指挥方法
CN111444488A (zh) 一种基于动态手势的身份认证方法
CN114283355A (zh) 一种基于小样本学习的多目标濒危动物跟踪方法
Munasinghe Dynamic hand gesture recognition using computer vision and neural networks
CN111415370A (zh) 一种基于嵌入式的红外复杂场景目标实时跟踪方法及系统
Zhou et al. A novel micro-expression detection algorithm based on BERT and 3DCNN
Lu et al. Review on automatic lip reading techniques
Pang et al. Analysis of computer vision applied in martial arts
Liang et al. Egocentric hand pose estimation and distance recovery in a single RGB image
CN115798055B (zh) 一种基于cornersort跟踪算法的暴力行为检测方法
CN110516638B (zh) 一种基于轨迹和随机森林的手语识别方法
CN115061574B (zh) 一种基于视觉核心算法的人机交互系统
CN111428609A (zh) 一种基于深度学习的人体姿态识别方法及系统
CN113298136B (zh) 一种基于alpha散度的孪生网络跟踪方法
Memmesheimer et al. Gesture recognition on human pose features of single images
Ren et al. Toward three-dimensional human action recognition using a convolutional neural network with correctness-vigilant regularizer
Sharma et al. Multi-object tracking using TLD framework
CN112580679A (zh) 红外目标跟踪方法、计算机设备及计算机可读存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
TA01 Transfer of patent application right
TA01 Transfer of patent application right

Effective date of registration: 20230314

Address after: Rooms 2401, 2402, 2403, and 2407, Floor 24, Block B, No. 6 Yiyang Road, Qixianling, Dalian High and New Technology Industrial Park, Dalian, Liaoning Province, 116023

Applicant after: Dalian Houren Technology Co.,Ltd.

Address before: No. 3 Qiupo Village, Yongding Town, Mentougou District, Beijing 102300

Applicant before: Chen Wei

GR01 Patent grant
GR01 Patent grant