CN115562499B

CN115562499B - 基于智能指环的精准交互控制方法、系统及存储介质

Info

Publication number: CN115562499B
Application number: CN202211437299.8A
Authority: CN
Inventors: 陈小明; 唐永强
Original assignee: Shenzhen Voxelsense Technology Co ltd
Current assignee: Shenzhen Voxelsense Technology Co ltd
Priority date: 2022-11-16
Filing date: 2022-11-16
Publication date: 2023-03-17
Anticipated expiration: 2042-11-16
Also published as: CN115562499A

Abstract

本发明公开了基于智能指环的精准交互控制方法、系统及存储介质，包括：获取交互空间中智能指环的超声波定位特征，构建超声波定位网络，将超声波定位特征输入超声波定位网络，生成第一位置信息；在交互空间中获取目标对象的视频流，根据视频流获取帧图像信息进行预处理提取含有智能指环的关键帧，根据帧图像信息获取第二位置信息；通过智能指环的惯性传感器获取第三位置信息；将不同源位置信息按照时间戳进行匹配同步并进行特征融合，根据融合特征确定智能指环的最终位置坐标；根据目标对象手部运动轨迹结合图像识别进行交互手势识别，完成交互控制。本发明通过多模态数据在交互过程中实现精准交互定位，解决了延时高、精度低、稳定性差的问题。

Description

基于智能指环的精准交互控制方法、系统及存储介质

技术领域

本发明涉及可穿戴智能交互技术领域，更具体的，涉及一种基于智能指环的精准交互控制方法、系统及存储介质。

背景技术

随着人机交互技术的快速发展，利用增强现实技术呈现虚拟场景在教学教育及商业演示等领域的应用越来越广泛，但虚拟技术当前的虚拟运动目标人机交互方法体感特征单一，大多数为虚拟技术设备的交互手柄，而交互手柄无法高精度识别和跟踪目标，不能满足精准空间交互需求。

在传统的交互场景构建中往往选取单一摄像头生成视觉通道的感知技术，而基于超声波的无线感知技术虽受限于低带宽和低感知分辨率,但具有成本低、易部署、不受光照和遮挡影响的优点以及能够有效控制隐私泄露问题，因而受到越来越多的关注和研究。同时，随着穿戴式智能设备的普及，也开始逐渐在虚拟技术的舞台上崭露头角，通过智能指环等穿戴式智能设备实现虚拟交互存在诸多优势，仅通过佩戴手指的空间运动，解决现有三维交互中手势输入易疲劳的问题。同时由于交互动作隐蔽，因此不会引起社会尴尬。

目前的虚拟技术根据视觉通道这一单一的方式实现虚拟交互融合，因而在交互过程中存在着延时高、精度低、稳定性差的问题，无法满足精准交互的要求，亟需一种通过多源数据融合实现精准交互的控制方法。

发明内容

为了解决上述至少一个技术问题，本发明提出了一种基于智能指环的精准交互控制方法、系统及存储介质。

本发明第一方面提供了一种基于智能指环的精准交互控制方法，包括：

获取交互空间中智能指环的超声波定位特征，基于深度学习网络构建超声波定位网络，将超声波定位特征输入超声波定位网络生成对应空间位置概率向量，生成第一位置信息；

在交互空间中获取目标对象的视频流，根据视频流获取帧图像信息进行预处理提取含有智能指环的关键帧，根据帧图像信息获取智能指环的第二位置信息；

通过智能指环的惯性传感器获取智能指环当前姿态矩阵作为第三位置信息；

将所述第一位置信息、第二位置信息及第三位置信息按照时间戳进行匹配同步，根据匹配同步后的位置信息提取特征并进行特征融合，根据融合特征确定智能指环的最终位置坐标；

通过位置时序序列生成目标对象手部运动轨迹，根据手部运行轨迹结合图像识别进行交互手势识别，获取交互手势对应的指令信息，完成交互控制。

本方案中，根据超声波定位特征获取第一位置信息，具体为：

通过智能指环超声波接收器获取交互环境中四个预设方向的接收波，通过经验模态分解对所述接收波进行降噪处理；

根据降噪后的接收波计算信号强度，并获取四个预设方向的超声波发射与智能指环接收波的时间间隔及载波频率生成超声波数据，将超声波数据及信号强度与交互空间中各预设位置点匹配构建定位数据集；

基于深度学习构建超声波定位网络，通过所述定位数据集进行超声波定位网络的初始化训练，将当前接收波的信号强度及超声波数据作为模型输入；

通过超声波定位网络中的softmax激活函数生成交互空间中所有预设位置点的匹配概率，获取最大匹配概率所对应的位置标签，将所述位置标签作为第一位置信息。

本方案中，根据帧图像信息获取智能指环的第二位置信息，具体为：

获取交互空间中的双目系统获取含有智能指环的帧图像信息，对双目系统的相机进行标定，获取双目系统相机的内参与外参，根据所述相机的内参与外参获取帧图像信息中各点在坐标变换中的映射关系；

根据所述映射关系通过逆变换获取畸变矫正后的帧图像信息，通过左右相机获取的图像信息中智能指环所在点结合双目视觉系统的视差获取智能指环所在点的图像坐标，

根据图像坐标根据投影变换获取图像坐标系与世界坐标系的位置映射矩阵，构建图像定位网络，学习帧图像信息与定位标签之间的关系，获取已定位帧图像信息对图像定位网络进行训练；

获取智能指环在交互空间中的像素差异获取图像特征，根据图像特征将所述图像坐标通过位置映射矩阵获取空间坐标，将所述空间坐标作为智能指环的第二位置信息，

本方案中，通过智能指环的惯性传感器获取智能指环当前姿态矩阵作为第三位置信息，具体为：

获取九轴惯性传感器的加速度及角加速度信息，根据空间三轴加速度及角加速度信息通过坐标系变换及积分运算得到姿态矩阵；

通过四元数法对智能指环的姿态矩阵进行实时修正，获取智能指环移动过程中各时间戳的姿态矩阵作为第三位置信息。

本方案中，通过位置时序序列生成目标对象手部运动轨迹，根据手部运行轨迹结合图像识别进行交互手势识别，获取交互手势对应的指令信息，具体为：

基于YOLOv3构建图像识别模型，通过图像识别模型根据帧图像数据进行目标对象手部识别，判断目标对象是否通过智能指环所在手指进行交互；

当确定目标对象使用智能指环所在手指进行交互时，通过OpenPose算法计算目标对象手部骨骼关键点的坐标及置信度，获取目标对象手部姿态信息；

根据手部姿态信息结合手部运动轨迹获取目标对象手势特征，根据目标对象手势特征与预设交互手势进行对比生成相似度；

获取相似度大于相似度阈值的预设交互手势，生成交互手势列表，提取智能指环在交互空间中的当前最终位置坐标，根据当前最终位置坐标所对应的交互项目对手势列表进行筛选；

将筛选后的手势列表根据相似度进行排序，获取相似度最大预设交互手势队形的指令信息进行目标对象的交互。

本方案中，还包括通过设置不同源信息的权重进行特征融合，具体为：

根据第一位置信息、第二位置信息及第三位置信息对应的原始数据进行特征提取，获取特定特征，构建多源特征融合模块；

通过所述多源特征融合模块的注意力机制将特定特征进行池化操作，根据不同源特征的通道数映射生成通道权重，将特定特征与通道权重结合获取不同源的最终特征；

将不同源的最终特征进行特征融合，调整为相同大小的多模态特征，另外在不同源信息输入时进行选择性增强或抑制，生成选择性系数，将所述选择性系数与多模态特征通过点乘进行特征互补；

设置动态权重损失函数对第一位置信息及第二位置信息对应的不同特定位置预测分支的不确定性进行约束，根据损失函数对多源特征融合模块进行训练。

本发明第二方面还提供了一种基于智能指环的精准交互控制系统，该系统包括：存储器、处理器，所述存储器中包括一种基于智能指环的精准交互控制方法程序，所述一种基于智能指环的精准交互控制方法程序被所述处理器执行时实现如下步骤：

本发明第三方面还提供一种计算机可读存储介质，所述计算机可读存储介质中包括一种基于智能指环的精准交互控制方法程序，所述一种基于智能指环的精准交互控制方法程序被处理器执行时，实现如上述任一项所述的一种基于智能指环的精准交互控制方法的步骤。

附图说明

图1示出了本发明一种基于智能指环的精准交互控制方法的流程图；

图2示出了本发明获取交互手势对应的指令信息的方法流程图；

图3示出了本发明通过设置不同源信息的权重进行特征融合的方法流程图；

图4示出了本发明一种基于智能指环的精准交互控制系统的框图。

具体实施方式

为了能够更清楚地理解本发明的上述目的、特征和优点，下面结合附图和具体实施方式对本发明进行进一步的详细描述。需要说明的是，在不冲突的情况下，本申请的实施例及实施例中的特征可以相互组合。

在下面的描述中阐述了很多具体细节以便于充分理解本发明，但是，本发明还可以采用其他不同于在此描述的其他方式来实施，因此，本发明的保护范围并不受下面公开的具体实施例的限制。

图1示出了本发明一种基于智能指环的精准交互控制方法的流程图。

如图1所示，本发明第一方面提供了一种基于智能指环的精准交互控制方法，包括：

S102，获取交互空间中智能指环的超声波定位特征，基于深度学习网络构建超声波定位网络，将超声波定位特征输入超声波定位网络生成对应空间位置概率向量，生成第一位置信息；

S104，在交互空间中获取目标对象的视频流，根据视频流获取帧图像信息进行预处理提取含有智能指环的关键帧，根据帧图像信息获取智能指环的第二位置信息；

S106，通过智能指环的惯性传感器获取智能指环当前姿态矩阵作为第三位置信息；

S108，将所述第一位置信息、第二位置信息及第三位置信息按照时间戳进行匹配同步，根据匹配同步后的位置信息提取特征并进行特征融合，根据融合特征确定智能指环的最终位置坐标；

S110，通过位置时序序列生成目标对象手部运动轨迹，根据手部运行轨迹结合图像识别进行交互手势识别，获取交互手势对应的指令信息，完成交互控制。

需要说明的是，根据超声波定位特征获取第一位置信息，具体为：在交互空间中预设四个或多个方向的超声波发射装置，通过智能指环超声波接收器获取交互环境中四个预设方向的接收波，通过经验模态分解对所述接收波进行降噪处理；根据降噪后的接收波计算信号强度，并获取四个预设方向的超声波发射与智能指环接收波的时间间隔及载波频率，根据超声波在交互空间的传播速度结合时间间隔获取距离信息，并且根据接受到的载波频率获取方向信息，将上述信息生成超声波数据；将超声波数据及信号强度与交互空间中各预设位置点匹配构建定位数据集，例如，基于虚拟技术3D交互屏幕，将屏幕区域划分为若干个足够小的子区域，将每个子区域作为一个预设位置点构建数据集；基于BP神经网络等深度学习方法构建超声波定位网络，通过所述定位数据集进行超声波定位网络的初始化训练，将当前接收波的信号强度及超声波数据作为模型输入；通过超声波定位网络中的softmax激活函数生成交互空间中所有预设位置点的匹配概率，获取最大匹配概率所对应的位置标签，将所述位置标签作为第一位置信息。

需要说明的是，根据帧图像信息获取智能指环的第二位置信息，具体为：获取交互空间中的双目系统获取含有智能指环的帧图像信息，对双目系统的相机进行标定，获取双目系统相机的内参与外参，根据所述相机的内参与外参获取帧图像信息中各点在坐标变换中的映射关系；根据所述映射关系通过逆变换获取畸变矫正后的帧图像信息，通过左右相机获取的图像信息中智能指环所在点结合双目视觉系统的视差获取智能指环所在点的图像坐标，根据图像坐标根据投影变换获取图像坐标系与世界坐标系的位置映射矩阵，构建图像定位网络，学习帧图像信息与定位标签之间的关系，获取已定位帧图像信息对图像定位网络进行训练；获取智能指环在交互空间中的像素差异获取图像特征，根据图像特征将所述图像坐标通过位置映射矩阵获取空间坐标，将所述空间坐标作为智能指环的第二位置信息，

需要说明的是，通过智能指环的惯性传感器获取智能指环当前姿态矩阵作为第三位置信息，具体为：获取九轴惯性传感器的加速度及角加速度信息，根据空间三轴加速度及角加速度信息通过坐标系变换及积分运算得到姿态矩阵；通过四元数法对智能指环的姿态矩阵进行实时修正，获取智能指环移动过程中各时间戳的姿态矩阵作为第三位置信息。

根据本发明实施例，通过位置时序序列生成目标对象手部运动轨迹，根据手部运行轨迹结合图像识别进行交互手势识别，获取交互手势对应的指令信息，具体为：

S202，基于YOLOv3构建图像识别模型，通过图像识别模型根据帧图像数据进行目标对象手部识别，判断目标对象是否通过智能指环所在手指进行交互；

S204，当确定目标对象使用智能指环所在手指进行交互时，通过OpenPose算法计算目标对象手部骨骼关键点的坐标及置信度，获取目标对象手部姿态信息；

S206，根据手部姿态信息结合手部运动轨迹获取目标对象手势特征，根据目标对象手势特征与预设交互手势进行对比生成相似度；

S208，获取相似度大于相似度阈值的预设交互手势，生成交互手势列表，提取智能指环在交互空间中的当前最终位置坐标，根据当前最终位置坐标所对应的交互项目对手势列表进行筛选；

S210，将筛选后的手势列表根据相似度进行排序，获取相似度最大预设交互手势队形的指令信息进行目标对象的交互。

通过视频流信息获取帧图像数据，对目标对象进行目标识别并根据OpenPose算法进行目标对象骨骼关键点检测，所述OpenPose算法通过卷积神经网络提取图像特征，预测身体部位检测的置信度和用于部位关联的部分亲和域，检测出骨骼点之后，再基于亲和度对其进行高准确性聚类。

根据本发明实施例，还包括通过设置不同源信息的权重进行特征融合，具体为：

S302，根据第一位置信息、第二位置信息及第三位置信息对应的原始数据进行特征提取，获取特定特征，构建多源特征融合模块；

S304，通过所述多源特征融合模块的注意力机制将特定特征进行池化操作，根据不同源特征的通道数映射生成通道权重，将特定特征与通道权重结合获取不同源的最终特征；

S306，将不同源的最终特征进行特征融合，调整为相同大小的多模态特征，另外在不同源信息输入时进行选择性增强或抑制，生成选择性系数，将所述选择性系数与多模态特征通过点乘进行特征互补；

S308，设置动态权重损失函数对第一位置信息及第二位置信息对应的不同特定位置预测分支的不确定性进行约束，根据损失函数对多源特征融合模块进行训练。

基于VGG网络提取超声波定位网络分支及图像定位分支及惯性传感器对应的原始样本数据的特定特征，通过注意力机制进行特征的融合及互补，并将融合互补后的特征进行降维，选取高斯采样方法获取智能指环所在点处于预设点位的概率，选取正得分最高的预设点位作为最终位置点，并通过第三位置信息对最终位置点进行修正；

通过二分类损失函数对融合识别模型进行训练，其中二分类损失函数

为：

其中，

表示融合分支预测样本为正样本的概率，

表示预测样本标签，包括正样本及负样本；

所述动态权重损失函数

为：

其中，

表示最终位置坐标的预测结果的损失函数，

表示超声波定位网络分支的损失函数，

表示图像定位网络分支的损失函数，

表示超声波定位网络分支的预测结果，

表示图像定位网络分支的预测结果，

表示自适应权重，取值范围0-1,。

根据本发明实施例，当交互空间中存在多名目标对象时，通过获取多名目标对象的个性化数据减少交互手势误判，具体为：

在交互开始前根据目标对象试戴智能指环操作指定动作，选取目标对象的所做动作中符合与规范指定动作相似度标准的动作及对应动作轨迹进行特征提取，通过数据增强获取目标对象的个性化动作数据集；

当交互空间中存在多名目标对象时，获取到多个交互手势视频流，则根据交互收拾识别特征匹配对应目标对象的个性化动作数据集进行识别判断，并生成相应的交互指令；

根据目标对象的反馈获取交互指令的正确率，当交互指令的正确率小于预设阈值时，则获取正确交互指令对应的历史交互动作进行重点训练；

同时，若对于目标对象的交互动作存在多项候选指令，则根据目标对象的反馈设置交互动作的偏好标签，根据所述偏好标签及历史交互动作数据对个性化动作数据集进行更新。

本发明第二方面还提供了一种基于智能指环的精准交互控制系统4，该系统包括：存储器41、处理器42，所述存储器中包括一种基于智能指环的精准交互控制方法程序，所述一种基于智能指环的精准交互控制方法程序被所述处理器执行时实现如下步骤：

为：

其中，

表示融合分支预测样本为正样本的概率，

表示预测样本标签，包括正样本及负样本；

所述动态权重损失函数

为：

其中，

表示最终位置坐标的预测结果的损失函数，

表示超声波定位网络分支的损失函数，

表示图像定位网络分支的损失函数，

表示超声波定位网络分支的预测结果，

表示图像定位网络分支的预测结果，

表示自适应权重，取值范围0-1,。

在本申请所提供的几个实施例中，应该理解到，所揭露的设备和方法，可以通过其它的方式实现。以上所描述的设备实施例仅仅是示意性的，例如，所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，如：多个单元或组件可以结合，或可以集成到另一个系统，或一些特征可以忽略，或不执行。另外，所显示或讨论的各组成部分相互之间的耦合、或直接耦合、或通信连接可以是通过一些接口，设备或单元的间接耦合或通信连接，可以是电性的、机械的或其它形式的。

上述作为分离部件说明的单元可以是、或也可以不是物理上分开的，作为单元显示的部件可以是、或也可以不是物理单元；既可以位于一个地方，也可以分布到多个网络单元上；可以根据实际的需要选择其中的部分或全部单元来实现本实施例方案的目的。

另外，在本发明各实施例中的各功能单元可以全部集成在一个处理单元中，也可以是各单元分别单独作为一个单元，也可以两个或两个以上单元集成在一个单元中；上述集成的单元既可以采用硬件的形式实现，也可以采用硬件加软件功能单元的形式实现。

本领域普通技术人员可以理解：实现上述方法实施例的全部或部分步骤可以通过程序指令相关的硬件来完成，前述的程序可以存储于计算机可读取存储介质中，该程序在执行时，执行包括上述方法实施例的步骤；而前述的存储介质包括：移动存储设备、只读存储器（ROM，Read-Only Memory）、随机存取存储器（RAM，Random Access Memory）、磁碟或者光盘等各种可以存储程序代码的介质。

或者，本发明上述集成的单元如果以软件功能模块的形式实现并作为独立的产品销售或使用时，也可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明实施例的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备（可以是个人计算机、服务器、或者网络设备等）执行本发明各个实施例所述方法的全部或部分。而前述的存储介质包括：移动存储设备、ROM、RAM、磁碟或者光盘等各种可以存储程序代码的介质。

以上所述，仅为本发明的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，可轻易想到变化或替换，都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应以所述权利要求的保护范围为准。