CN115061574B

CN115061574B - 一种基于视觉核心算法的人机交互系统

Info

Publication number: CN115061574B
Application number: CN202210790753.1A
Authority: CN
Inventors: 陈伟
Original assignee: Dalian Houren Technology Co ltd
Current assignee: Dalian Houren Technology Co ltd
Priority date: 2022-07-06
Filing date: 2022-07-06
Publication date: 2023-03-31
Anticipated expiration: 2042-07-06
Also published as: CN115712354A; CN115061574A; CN115712354B

Abstract

本发明公开了一种基于视觉核心算法的人机交互系统，包括手势数据采集模块、手势数据标注模块、手势识别算法模块和交互模块；所述手势数据采集模块用于采集手部动作视频；所述手势数据标注模块用于检测出手部位置，并对手部的位置的坐标进行标注；所述手势识别算法模块用于跟踪定位手部并识别手势；所述交互模块用于将识别的手势转换为相对应的指令输出；在所述跟踪定位手部时，利用了设计的目标记忆及时空上下文引导的目标跟踪方法，该跟踪方法设计了一种平衡长短时记忆器评估跟踪结果的可靠性用于更新跟踪模板，提高了跟踪器适应目标外观变化的能力，此外，引入了时空上下文用于提高跟踪的准确性，进一步提高了人机交互系统的可靠性。本发明可在多种领域应用，如虚拟现实、游戏、可穿戴计算机等。

Description

一种基于视觉核心算法的人机交互系统

技术领域

本发明涉及人机交互领域，具体涉及一种基于视觉核心算法的人机交互系统。

背景技术

人机交互是指人与计算机之间相互交流和通信的方式，主要研究的是如何高效便利的实现人与计算机的交互，随着计算机技术的飞速发展，人机交互方式也从最初的语言命令的方式发展为基于鼠标、键盘的交互方式；与此同时，基于鼠标、键盘的交互方式的局限性也越来越突显出来，尤其是在虚拟现实、可穿戴计算机等应用领域之中更加明显；基于视觉的人机交互方式可直接通过人的动作作为人机交互的输入，无需中间媒介即可实现更高效便捷的人机交互，其中基于手势识别的人机交互方式有简便易行、适应性强的有点；基于手势识别的人机交互方式需要对利用计算机视觉对手势进行检测、跟踪与识别等。

在对手部进行跟踪定位时，常见的跟踪方法多是粒子滤波这种传统的跟踪方法，没有从现如今前沿的深度学习技术中收益；目前，基于深度学习的跟踪方法不仅实时性搞，而且具有不错的鲁棒性，因此对于人机交互中的跟踪具有良好的适配性；然而，基于孪生网络的跟踪方法具有一些局限性需要继续改进以更加适应人机交互任务中的跟踪需求，一是基于孪生网络的跟踪方法在跟踪的过程中仅使用了从第一帧提取的目标模板，没有更新目标模板以适应跟踪目标的变化，在人机交互中，要跟踪的目标往往变形较大，因此难以适应目标变化的基于孪生网络的跟踪方法需要改进以更新跟踪模板；二是基于孪生网络的跟踪方法在跟踪的过程各种没有考虑到时空上下文信息辅助跟踪，在要跟踪的目标变形较大时可以通过时空上下文信息辅助定位，这两个局限性与人机交互任务需求有着重要的联系，因此如何高效可靠的更新跟踪所需的目标模板以及引入时空上下文信息已提高跟你中的准确定，进而进一步提高人机交互的高效及可靠性十分重要。

发明内容

本发明针对上述问题，提出了一种基于视觉核心算法的人机交互系统，设计了一种目标记忆及时空上下文引导的目标跟踪方法，通过记忆器评估跟踪结果的可靠性来更新跟踪模板，以提高跟踪器适应外观变化的能力，此外引入了时空上下文以进一步提高跟踪准确性，通过该跟踪方法可以准确高效的定位目标，进而提高了人机交互系统的高效性与可靠性。

本发明可在多种领域应用，如虚拟现实、游戏、可穿戴计算机等。

为了解决上述技术问题，本发明提供如下技术方案：

本发明的一种基于视觉核心算法的人机交互系统，包括手势数据采集模块、手势数据标注模块、手势识别算法模块和交互模块；

手势数据采集模块用于调用设备上的摄像头拍摄手部动作视频数据，并将这些视频传输给手势数据标注模块用于进一步处理；

手势数据标注模块用于将视频数据处理成一帧一帧的按时序排列的图片，然后在第一帧图片上提取感兴趣区域，然后利用提取的感兴趣区域确定手部所在位置，并将手部位置的坐标数据及处理后的视频数据传输给手势识别算法模块；

手势识别算法模块包含图像预处理算法、手势跟踪算法和手势识别算法，图像预处理算法对视频数据进行预处理以便后续算法的运行，手势跟踪算法是在已知手势数据标注模块给出的手部位置数据后，利用设计的目标记忆及时空上下文引导的目标跟踪方法跟踪不断运动的手部，手势识别算法是在手部不再运动后识别出当前手势；

交互模块用于根据识别出的手势找到其相对应的指令进行输出。

进一步地，设计的目标记忆及时空上下文引导的目标跟踪方法的主干网络是带有分类分支与回归分支的孪生网络，即SiamRPN跟踪器的主干网络。

所述设计的目标记忆及时空上下文引导的目标跟踪方法包括离线训练主干网络和更新两个阶段。

进一步地，目标记忆及时空上下文引导的目标跟踪方法的离线训练主干网络阶段，使用的数据集是由手势数据采集模块采集到的数据制成的数据集，将手势数据采集模块采集到的数据分解成一系列图像，人工标注出手部的位置数据并设置标签即完成了数据集的制作，再利用该数据集离线训练主干网络。

进一步地，目标记忆及时空上下文引导的目标跟踪方法的在线跟踪阶段的在线跟踪流程如下：

步骤一：利用手势数据标注模块所给出的手部位置的坐标数据，以及图像预处理算法处理后的一帧一帧的按时序排列的视频图像，在第一帧视频图像中裁剪出目标图像作为目标模板Z₁，并学习了一种平衡长短时记忆器；

步骤二：在后续第t帧的视频图像序列中以第t-1帧中目标中心位置为中心裁剪出一个三倍于目标大小的搜索区域图像X_t；将目标模板Z₁和搜索区域图像X_t送入主干网络；

步骤三：网络前向运算，网络尾部的分类分支输出初始分类得分图，然后利用设计的空间上下文置信度图与初始分类得分图相结合得到最终的空间上下文约束的分类得分图，将分类得分图与回归得分图相结合找到目标最终位置；

步骤四：利用平衡长短时记忆器评估跟踪结果的可靠性，根据可靠性的大小更新目标模板，获得新的目标模板Z_t代替原本的目标模板Z₁。

进一步地，平衡长短时记忆器由长时记忆器与短时记忆器构成，长时记忆器用于保存跟踪目标长时间跨度的外观信息，短时记忆器用于保存目标当前的外观信息；

进一步地，平衡长短时记忆器的构建过程如下：

步骤一：视频的第一帧提取目标模板Z₁的颜色直方图和HOG特征，将颜色直方图和HOG特征融合获得最终的目标模板Z₁的特征z₁；

步骤二：利用目标模板特征与长时记忆器的目标函数求解得到一个相关滤波器W_l即为长时记忆器，同时利用目标模板特征与短时记忆器的目标函数求解得到一个相关滤波器W_s即为短时记忆器，将短时记忆器W_s与长时记忆器W_l加权相加，得到了平衡长短时记忆器W_ls；

步骤三：在后续跟踪过程中，利用平衡长短时记忆器W_ls评估跟踪结果的可靠性，在评估得到跟踪结果的可靠性较高时，分别更新短时记忆器W_s与长时记忆器W_l，将更新后的短时记忆器W_s与长时记忆器W_l加权相加，得到了更新后的平衡长短时记忆器W_ls。

进一步地，长时记忆器W_l的目标函数定义如下：

其中W是要学习的记忆器，λ₁和λ₂是正则化参数，y是高斯标签，z₁是第一帧视频图像中截取出来的目标图像Z₁的颜色直方图和HOG融合后的特征，z_t是根据经评估后可靠性较高的第t帧跟踪结果截取出来的目标图像Z_t的颜色直方图和HOG融合后的特征，通过快速傅里叶变换对算法进行加速计算可求得：

其中⊙是元素积，符号F表示傅里叶变换，

是Z₁的复共轭，/>

是Z_t的复共轭，经评估第t帧跟踪结果的可靠性较高可以更新长时记忆器，更新采用较小的更新速率。

进一步地，短时记忆器W_s的目标函数定义如下：

其中λ₃和λ₄是正则化参数，通过快速傅里叶变换对算法进行加速计算可求得：

其中⊙是元素积，符号F表示傅里叶变换，

是Z₁的复共轭，/>

是Z_t的复共轭，经评估第t帧跟踪结果的可靠性较高可以更新短时记忆器，更新采用较大的更新速率。

进一步地，利用平衡长短时记忆器W_ls评估跟踪结果的可靠性方式是首先将平衡长短时记忆器W_ls与跟踪结果进行互相关得到可靠性图，找到可靠性图的最大值即为跟踪结果的可靠性，设置一个阈值，当可靠性值大于阈值时即跟踪结果的可靠性较高，此时可以更新平衡长短时记忆器W_ls。

进一步地，设计的空间上下文置信度图由空间上下文模型计算得到，空间上下文模型的构建过程如下：

已知跟踪第t帧跟踪结果，以目标中心位置为中心截取向外拓展两倍于的目标大小的目标上下文区域图像Ω_c(x′)，空间上下文置信度图定义为：

其中x是搜索区域图像上任何一点的位置，x′是已知的目标位置，o表示上下文区域图像Ω_c(x′)中出现的目标，

是在已知目标位置时设定的空间上下文置信度图，b、α和β是超参数，p(x|o)是利用空间上下文信息计算得到的空间上下文置信度图，定义为：

其中X^c是上下文特征，这里使用的是灰度特征，X^c＝{c(z)＝(I(z)，z)|z∈Ω_c(x′)}，c(z)与I(z)表示位置z的图像强度，p(x|c(z)，o)表示目标和它的上下文区域的空间关系，由空间上下文模型h^sc计算得到：

p(x|c(z)，o)＝h^sc(x-z)

h^sc(x-z)是一个关于目标x和局部上下文位置z的相对距离和方向的函数，它编码了目标和它的空间上下文的空间关系；p(c(z)|o)是一个上下文先验概率，定义为：

p(c(z)|o)＝I(z)ω_σ(z-x′)

ω_σ(·)是一个加权函数，定义为：

其中a和σ是超参数将p(c(z)|o)的取值范围归一化到0到1；通过上述分析，进一步可将置信度图定义写成：

其中

是卷积操作，通过在傅里叶域内快速求解学习到空间上下文模型：

其中，F^-1表示傅里叶逆变换，F表示傅里叶变换，在跟踪过程中，空间上下文模型在每一帧都进行更新。

进一步地，在跟踪过程中通过空间上下文模型计算出空间上下文置信度图：

其中，t是帧索引，c_t(x)表示通过空间上下文模型计算出的第t帧的空间上下文置信度图，

是在第t-1帧更新后的空间上下文模型，I_t(x)表示第t帧位置x的图像强度，x′_t-1是第t-1帧已知的目标位置，在得到空间上下文置信度图之后，将其与初始分类得分图相乘得到最终的空间上下文约束的分类得分图。

本发明的有益效果在于：

提出了一种基于视觉核心算法的人机交互系统，设计了一种目标记忆及时空上下文引导的目标跟踪方法作为手势跟踪算法，目标记忆及时空上下文引导的目标跟踪方法设计了一个平衡长短时记忆器，通过将目标的长期记忆与短期记忆结合来更准确地判断跟踪结果的可靠性，以此来更新跟踪模板，解决了基于孪生网络的跟踪方法难以适应目标变化的问题；此外，设计了一种空间上下文模型，通过目标与其空间上下文之间的关系生成的空间上下文置信度图作用于分类得分图上，提高了跟踪的准确性，进而进一步地提高了基于视觉核心算法的人机交互系统的高效性与准确性。

附图说明

利用附图对发明创造作进一步说明，但附图中的实施例不构成对本发明创造的任何限制，对于本领域的普通技术人员，在不付出创造性劳动的前提下，还可以根据以下附图获得其它的附图。

图1是本发明提供的一种基于视觉核心算法的人机交互系统的结构示意图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明的一部分实施例，而不是全部的实施例；基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

参见图1，一种基于视觉核心算法的人机交互系统，包括手势数据采集模块、手势数据标注模块、手势识别算法模块和交互模块；

优选地，设计的目标记忆及时空上下文引导的目标跟踪方法的主干网络是带有分类分支与回归分支的孪生网络，即SiamRPN跟踪器的主干网络。

优选地，设计的目标记忆及时空上下文引导的目标跟踪方法包括离线训练主干网络和更新两个阶段。

优选地，目标记忆及时空上下文引导的目标跟踪方法的离线训练主干网络阶段，使用的数据集是由手势数据采集模块采集到的数据制成的数据集，将手势数据采集模块采集到的数据分解成一系列图像，人工标注出手部的位置数据并设置标签即完成了数据集的制作，再利用该数据集离线训练主干网络。

优选地，目标记忆及时空上下文引导的目标跟踪方法的在线跟踪阶段的在线跟踪流程如下：

基于孪生网络的跟踪算法SiamRPN在孪生跟踪框架上引入了区域与建议网络，将跟踪作为一次性检测任务，提高了跟踪的精度的同时提高了跟踪的实时性能，因此适用于基于视觉核心算法的人机交互系统中的跟踪任务的基本要求，但SiamRPN仍然存在传统基于孪生网络的跟踪器的局限性，即无法更新跟踪模板，在基于视觉核心算法的人机交互系统中，所要定位的人的手势往往变化很大，因此直接将无法在线更新跟踪模板的SiamRPN算法作为手势跟踪算法难以适应任务要求，针对这个问题，设计了一个平衡长短时记忆器来评估跟踪结果的可靠性，以便更准确的更新跟踪模板，适应目标变化，具体为：

平衡长短时记忆器由长时记忆器与短时记忆器构成，长时记忆器用于保存跟踪目标长时间跨度的外观信息，短时记忆器用于保存目标当前的外观信息；

优选地，平衡长短时记忆器的构建过程如下：

优选地，长时记忆器W_l的目标函数定义如下：

其中⊙是元素积，符号F表示傅里叶变换，

是Z₁的复共轭，/>

优选地，短时记忆器W_s的目标函数定义如下：

/>

其中⊙是元素积，符号F表示傅里叶变换，

是Z₁的复共轭，/>

优选地，利用平衡长短时记忆器W_ls评估跟踪结果的可靠性方式是首先将平衡长短时记忆器W_ls与跟踪结果进行互相关得到可靠性图，找到可靠性图的最大值即为跟踪结果的可靠性，设置一个阈值，当可靠性值大于阈值时即跟踪结果的可靠性较高，此时可以更新平衡长短时记忆器W_ls。

SiamRPN在线跟踪时仅使用了目标模板信息，没有考虑到当目标变时可以通过空间上下文信息辅助跟踪一提高跟踪的鲁棒性，针对这一问题，设计了一个空间上下文模型，该模型通过目标与其空间上下文之间的关系计算一个空间置信度图，将该置信度图与分类得分图相结合以提高跟踪的准确性，具体空间上下文模型的构建过程如下：

p(x|c(z)，o)＝h^sc(x-z)

p(c(z)|o)＝I(z)ω_σ(z-x′)

ω_σ(·)是一个加权函数，定义为：

其中

是卷积操作，通过在傅里叶域内快速求解学习到空间上下文模型：/>

优选地，在跟踪过程中通过空间上下文模型计算出空间上下文置信度图：

是在第t-1帧更新后的空间上下文模型，I_t(x)表示第t帧位置x的图像强度，x″_t-1是第t-1帧已知的目标位置，在得到空间上下文置信度图之后，将其与初始分类得分图相乘得到最终的空间上下文约束的分类得分图。

本优选实例的手势识别算法模块中的手势识别算法采用了设计的目标记忆及时空上下文引导的目标跟踪方法来跟踪手势，通过对及与孪生网络的跟踪方法SiamRPN进行改进提高了跟踪的准确性，进而提高了人机交互系统的高效性与可靠性；目前，基于深度学习的跟踪方法SiamRPN不仅实时性搞，而且具有不错的鲁棒性，然而SiamRPN具有一些局限性需要继续改进以更加适应人机交互任务中的跟踪需求，一是基于孪生网络的跟踪方法在跟踪的过程中仅使用了从第一帧提取的目标模板，没有更新目标模板以适应跟踪目标的变化，在人机交互中，要跟踪的目标往往变形较大，因此难以适应目标变化的基于孪生网络的跟踪方法需要改进以更新跟踪模板，传统的基于记忆器的模板更新方法，往往只关注到了目标的长时记忆，因而无法满足目标变化较大时短时记忆的需求，针对这个问题设计了一个平衡长短时记忆器来评估跟踪结果的可靠性，不同于传统记忆器仅关注目标长时记忆，平衡长短时记忆器将长时记忆与短时记忆相结合以便更准确的更新跟踪模板，适应目标变化，具体地，设计两个目标函数分别学习一个长时记忆器与一个短时记忆器，将短时记忆器与长时记忆器加权结合获得平衡长短时记忆器，利用该记忆器与跟踪结果进行相关操作得到可靠性图，可靠性图的最大值作为跟踪结果的可靠性，当可靠性大于设定的阈值，即可更新记忆器与目标模板，相比于传统仅关注目标长时记忆的记忆器，将目标的长时记忆与短时记忆相结合的平衡长短时记忆器可以更有效地计算跟踪结果的可靠性来评估是否更新目标模板的方式，从而提高了跟踪器适应外观变化的能力；二是基于孪生网络的跟踪方法在跟踪的过程中仅使用了目标模板信息，使用了一个余弦窗惩罚作为时间上下文约束，而没有考虑到空间上下文信息辅助跟踪，因此在面对要跟踪的目标变形较大时会导致跟踪的准确性降低，针对这一问题，设计了一个空间上下文模型，该模型通过目标与其空间上下文之间的关系计算一空间置信度图，将该置信度图与分类得分图相结合以提高跟踪的准确性，具体地，利用目标和它的上下文区域的空间关系与上下文先验概率求解出空间上下文模型，利用空间上下文模型计算出空间上下文置信度图，将空间上下文置信度图与分类得分图相乘获得最终的空间上下文约束的分类得分图，将分类得分图与回归得分图相结合找到目标最终位置，对比于仅考虑目标信息与时间上下文，空间上下文模型可以将空间上下文信息引入辅助跟踪，进而提高了跟踪器的准确性。

最后应当说明的是，以上实施例仅用以说明本发明的技术方案，而非对本发明保护范围的限制，尽管参照较佳实施例对本发明作了详细地说明，本领域的普通技术人员应当理解，可以对本发明的技术方案进行修改或者等同替换，而不脱离本发明技术方案的实质和范围。

Claims

1.一种基于视觉的人机交互系统，其特征在于，包括手势数据采集模块、手势数据标注模块、手势识别算法模块和交互模块；

交互模块用于根据识别出的手势找到其相对应的指令进行输出；

设计的目标记忆及时空上下文引导的目标跟踪方法的主干网络是带有分类分支与回归分支的孪生网络，即SiamRPN跟踪器的主干网络；

设计的目标记忆及时空上下文引导的目标跟踪方法包括离线训练主干网络和更新两个阶段；

目标记忆及时空上下文引导的目标跟踪方法的在线跟踪阶段的在线跟踪流程如下：

S51：利用手势数据标注模块所给出的手部位置的坐标数据，以及图像预处理算法处理后的一帧一帧的按时序排列的视频图像，在第一帧视频图像中裁剪出目标图像作为目标模板Z₁，并学习了一个平衡长短时记忆器；

S52：在后续第t帧的视频图像序列中以第t-1帧中目标中心位置为中心裁剪出一个三倍于目标大小的搜索区域图像X_t；将目标模板Z₁和搜索区域图像X_t送入主干网络；

S53：网络前向运算，网络尾部的分类分支输出初始分类得分图，然后利用设计的空间上下文置信度图与初始分类得分图相结合得到最终的空间上下文约束的分类得分图，将分类得分图与回归得分图相结合找到目标最终位置；

S54：利用平衡长短时记忆器评估跟踪结果的可靠性，根据可靠性的大小更新目标模板，获得新的目标模板Z_t代替原本的目标模板Z₁；

所述平衡长短时记忆器由长时记忆器与短时记忆器构成，长时记忆器用于保存跟踪目标长时间跨度的外观信息，短时记忆器用于保存目标当前的外观信息；

所述平衡长短时记忆器的构建过程如下：

S61：视频的第一帧提取目标模板Z₁的颜色直方图和HOG特征，将颜色直方图和HOG特征融合获得最终的目标模板Z₁的特征z₁；

S62：利用目标模板特征与长时记忆器的目标函数求解得到一个相关滤波器W_l即为长时记忆器，同时利用目标模板特征与短时记忆器的目标函数求解得到一个相关滤波器W_s即为短时记忆器，将短时记忆器W_s与长时记忆器W_l加权相加，得到了平衡长短时记忆器W_ls；

S63：在后续跟踪过程中，利用平衡长短时记忆器W_ls评估跟踪结果的可靠性，在评估得到跟踪结果的可靠性较高时，分别更新短时记忆器W_s与长时记忆器W_l，将更新后的短时记忆器W_s与长时记忆器W_l加权相加，得到了更新后的平衡长短时记忆器W_ls；

其中，所述利用平衡长短时记忆器W_ls评估跟踪结果的可靠性方式是首先将平衡长短时记忆器W_ls与跟踪结果进行互相关得到可靠性图，找到可靠性图的最大值即为跟踪结果的可靠性，设置一个阈值，当可靠性值大于阈值时即跟踪结果的可靠性较高，此时可以更新平衡长短时记忆器W_ls。

2.根据权利要求1所述的一种基于视觉的人机交互系统，其特征在于，目标记忆及时空上下文引导的目标跟踪方法的离线训练主干网络阶段，使用的数据集是由手势数据采集模块采集到的数据制成的数据集，将手势数据采集模块采集到的数据分解成一系列图像，人工标注出手部的位置数据并设置标签即完成了数据集的制作，再利用该数据集离线训练主干网络。

3.根据权利要求1或2所述的一种基于视觉的人机交互系统，其特征在于，长时记忆器W_l的目标函数定义如下：

其中⊙是元素积，符号F表示傅里叶变换，

是Z₁的复共轭，/>

是Z_t的复共轭。

4.根据权利要求3所述的一种基于视觉的人机交互系统，其特征在于，短时记忆器W_s的目标函数定义如下：

其中⊙是元素积，符号F表示傅里叶变换，

是Z₁的复共轭，/>

是Z_t的复共轭。/>