CN115840507A

CN115840507A - 一种基于3d图像控制的大屏设备交互方法

Info

Publication number: CN115840507A
Application number: CN202211642435.7A
Authority: CN
Inventors: 杜占鹏; 柴蒙蒙
Original assignee: Beijing Bangweike Technology Co ltd
Current assignee: Beijing Bangweike Technology Co ltd
Priority date: 2022-12-20
Filing date: 2022-12-20
Publication date: 2023-03-24
Anticipated expiration: 2042-12-20
Also published as: CN115840507B

Abstract

本申请公开了一种基于3D图像控制的大屏设备交互方法，包括如下步骤：对于任意手指，采集任意手指的三维数据信息；预先构建神经网络模型，利用训练数据集输入神经网络模型，训练神经网络模型；将手部的三维模型转换为手部三维点云，以及构建虚拟目标的目标三维点云，利用预设双边滤波器，去除目标三维点云中的异常值，以及利用改进的高斯加权函数对邻近点进行加权；计算手部三维点云、以及目标三维点云的各点的法向量；采样各点的法向量，以获得关键点，以估计两个点云之间的对应关系，实现手部与虚拟目标之间的匹配，实现手势交互。本申请实施例的方法能够实现演示过程中一并将手部与虚拟目标之间的交互过程进行展示，提高交互过程的直观性。

Description

一种基于3D图像控制的大屏设备交互方法

技术领域

本申请涉及数据建模技术领域，尤其涉及一种基于3D图像控制的大屏设备交互方法。

背景技术

为突破平面显示的局限性，近年3D显示技术有了显著的发展，同时也诞生了各种各样的3D交互方案。但这些方案大多只是将显示画面由传统的平面显示转换为3D显示，并未完全考虑到3D显示状态下的交互问题。

一种示例性的演示场景下，演示文稿指的是把静态文件制作成动态文件浏览，把复杂的问题变的通俗易懂，使之更会生动，给人留下更为深刻印象的幻灯片。一套完整的演示文稿文件一般包含:片头动画、PPT封面、前言、目录、过渡页、图表页、图片页、文字页、封底、片尾动画等。“微软powerpoint演示文稿”、”wps演示文稿”是常用的演示文稿软件,其编辑生成的文档叫演示文稿，每一页叫幻灯片。基本的原理都是在每一页的多个窗口中添加需要的文字、图片、图像等元素，辅以简单的动画来完成文稿演示。它们是目前使用较广的文档演示软件，但通常只支持2D图形图像元素及2D动画。“微软powerpoint演示文稿”、“wps演示”多用于会议演示、产品演示等，但通常只支持2D图形图像元素和2D动画或简单的三维模型三维动画，其内部的数据只能实时编辑，无法实现无编程外部数据的实时接入及社交媒体信息实时融合，更加无法实现无编程虚拟仿真、交互。因此可视化的效果不佳，且若需要实现虚拟仿真及数据可视化则需要进行编程，技术门槛较高，制作效率低。

在演示场景下，演示者更希望能够一并将交互的过程展现给观众，提高演示过程的直观性，但现有的方案无法完全解决上述技术问题。

发明内容

本申请实施例提供一种基于3D图像控制的大屏设备交互方法，实现演示过程中一并将手部与虚拟目标之间的交互过程进行展示，提高交互过程的直观性。

本申请实施例提出一种基于3D图像控制的大屏设备交互方法，用于实现与虚拟目标之间的3D手势交互，包括如下步骤：

基于各手指的关节点，对于任意手指，采集所述任意手指的三维数据信息，并将所述三维数据信息编码为四元格式，按照关节点的顺序，构建训练数据集，其中，所述四元格式包括所述任意手指各关节点的延伸方向，以及各关节点的延伸方向；

预先构建神经网络模型，所述神经网络模型末端包括设置有逐点卷积层，利用所述训练数据集输入所述神经网络模型，训练所述神经网络模型，在训练过程中基于所述逐点卷积层的输出与输入数据之间进行合并操作，训练完成后获得所需的手部的三维模型；

将所述手部的三维模型转换为手部三维点云，以及构建虚拟目标的目标三维点云，利用预设双边滤波器，去除所述目标三维点云中的异常值，以及利用改进的高斯加权函数对邻近点进行加权；

计算所述手部三维点云、以及所述目标三维点云的各点的法向量；

采样各点的法向量，以获得关键点，并基于采样获得的关键点计算手部三维点云以及目标三维点云的特征描述符，以估计两个点云之间的对应关系，以实现手部与虚拟目标之间的匹配；

基于所述四元格式中各关节点的延伸方向的变化量，确定各手指的运动情况，以带动所述虚拟目标进行运动，实现手势交互。

可选的，预先构建的神经网络模型包括顺次设置逐通道卷积层、跨通道注意力机制(SE)模块层、通道混淆操作以及所述逐点卷积层，其中所述SE模块层包括并列设置的：

第一分支，不执行计算，直接与所述第二分支的结果进行合并操作；

第二分支，包括顺次设置的全局池化层、全连接层、全连接层和Sigmoid激活函数，不同通道的特征赋予对应的权重值。

可选的，还包括构建如下损失函数，以训练所述神经网络模型：

运动学函数与四元格式三维数据的三维坐标点之间的损失值：L₁＝||δ^P-FK(δ)||²，其中FK()表示运动学函数；

归一化约束损失：L₂＝|1-||δ||²|；

四元格式三维数据之间的距离差值损失：L_D1＝1-(δ^P×δ^-1)；

四元格式三维数据之间的距离差值损失：L_D2＝||δ^P-δ||²；

总约束损失满足L＝L₁+L₂+L_D1+L_D2。

可选的，预设双边滤波器满足：

其中，

用于控制光滑程度和/>

和用于控制特征保持程度，u_n表示点云中的原始点，u_m为u_n邻域中的点，v_n和v_m分别是u_n和u_m的法向量。

可选的，利用改进的高斯加权函数对邻近点进行加权包括：

||h||₂＝1

其中，h是当前点u的法向量，γ(x)＝x^-r表示高斯权重。

可选的，估计两个点云之间的对应关系，以实现手部与虚拟目标之间的匹配包括：

识别手部的局部坐标系与虚拟目标的全局坐标系之间的转换矩阵，并基于指定的附着点，通过点对点的误差度量计算出手部与虚拟目标之间的转换，获得旋转矩阵和平移矩阵；

引入迭代最近点算法确定最优的转换，完成变换估计。

可选的，基于所述四元格式中各关节点的延伸方向的变化量，确定各手指的运动情况，以带动所述虚拟目标进行运动包括：

在手部运动过程中，按照关节点的顺序，分别确定各关节点、延伸方向的变化量，以确定各手指以及手部的整体运动趋势；

基于所述附着点以及确定的手部的整体运动趋势，带动所述虚拟目标进行运动。

本申请一种计算机设备，包括，处理器和存储器，所述存储器存储有计算机程序，所述计算机程序被处理器执行时实现如前述的基于3D图像控制的大屏设备交互方法的步骤。

本申请实施例话提出一种计算机可读存储介质，所述计算机可读存储介质上存储有计算机程序，所述计算机程序被处理器执行时实现前述的基于3D图像控制的大屏设备交互方法的步骤。

本申请实施例的大屏设备交互方法，能够实现演示过程中一并将手部与虚拟目标之间的交互过程进行展示，提高交互过程的直观性。

上述说明仅是本申请技术方案的概述，为了能够更清楚了解本申请的技术手段，而可依照说明书的内容予以实施，并且为了让本申请的上述和其它目的、特征和优点能够更明显易懂，以下特举本发明的具体实施方式。

附图说明

通过阅读下文优选实施方式的详细描述，各种其他的优点和益处对于本领域普通技术人员将变得清楚明了。附图仅用于示出优选实施方式的目的，而并不认为是对本发明的限制。而且在整个附图中，用相同的参考符号表示相同的部件。在附图中：

图1为本实施例的基于3D图像控制的大屏设备交互方法的基本流程图。

具体实施方式

下面将参照附图更详细地描述本公开的示例性实施例。虽然附图中显示了本公开的示例性实施例，然而应当理解，可以以各种形式实现本公开而不应被这里阐述的实施例所限制。相反，提供这些实施例是为了能够更透彻地理解本公开，并且能够将本公开的范围完整的传达给本领域的技术人员。

本申请实施例提出一种基于3D图像控制的大屏设备交互方法，用于实现与虚拟目标之间的3D手势交互，如图1所示，包括如下步骤：

在步骤S101中，基于各手指的关节点，对于任意手指，采集所述任意手指的三维数据信息，并将所述三维数据信息编码为四元格式，按照关节点的顺序，构建训练数据集，其中，所述四元格式包括所述任意手指各关节点的延伸方向，以及各关节点的延伸方向。例如具体四元格式可以满足：

ω＝[ψ,χ,ψ_ref,χ_ref]

其中ψ代表根部关节点的位置信息，χ代表根部关节点所在的部分手指的延伸方向，ψ_ref代表手指其余关节点的位置所在信息，χ_ref代表手指其余关节点所在的延伸方向。

在步骤S102中，预先构建神经网络模型，所述神经网络模型末端包括设置有逐点卷积层，利用所述训练数据集输入所述神经网络模型，训练所述神经网络模型，在训练过程中基于所述逐点卷积层的输出与输入数据之间进行合并操作，训练完成后获得所需的手部的三维模型。在一些实施例中，预先构建的神经网络模型包括顺次设置逐通道卷积层、跨通道注意力机制(SE)模块层、通道混淆操作以及所述逐点卷积层。设计逐通道卷积可以有效减少计算量，从而提升模型的训练收敛速度，并提高模型的推理构建。其中所述SE模块层用于为不同通道的特征完成不同权重的赋值，SE模块层包括并列设置的：

第二分支，包括顺次设置的全局池化层、全连接层、全连接层和Sigmoid激活函数，不同通道的特征赋予对应的权重值。也即本实施例中，第二分支通过全局池化层，进行通道的降维和压缩，然后连续通过2个全连接层，最后通过Sigmoid激活函数，实现不同通道的权值计算。

在一些具体示例中，在逐通道卷积层之前还可以设置一个大小为3×3的普通卷积层，用以通过卷积提取相关关节点信息的特征。逐点卷积层可以是一个1×1卷积实现特征的融合。

在一些具体示例中，还包括构建如下损失函数，以训练所述神经网络模型：

归一化约束损失：L₂＝|1-||δ||²|；

四元格式三维数据之间的距离差值损失：L_D1＝1-(δ^P×δ^-1)；

四元格式三维数据之间的距离差值损失：L_D2＝||δ^P-δ||²；

总约束损失满足L＝L₁+L₂+L_D1+L_D2。

基于总约束损失训练神经网络模型，训练完成后得到手部-各手指的运动的三维模型。通过这样的方法整体操作过程简单，不需要特殊设备和相关专业人员的操作，不需要后期单独进行模型的渲染和构建。

在步骤S103中，将所述手部的三维模型转换为手部三维点云，以及构建虚拟目标的目标三维点云，利用预设双边滤波器，去除所述目标三维点云中的异常值，以及利用改进的高斯加权函数对邻近点进行加权。

在一些具体示例中，预设双边滤波器满足：

其中，

用于控制光滑程度和/>

在一些具体示例中，利用改进的高斯加权函数对邻近点进行加权包括：

||h||₂＝1

其中，h是当前点u的法向量，γ(x)＝x^-r表示高斯权重。例如r＝0.55，也可以是其他指定值。在计算点云的法向量时，考虑距离对结果的影响。本实施例提出的高斯加权函数用于描述离当前点越近的点对当前点法向量的估计结果的影响越大。通过这样设计的高斯加权函数可以保证局部坐标系的一致。

在步骤S104中，计算所述手部三维点云、以及所述目标三维点云的各点的法向量。

在步骤S105中，采样各点的法向量，以获得关键点，并基于采样获得的关键点计算手部三维点云以及目标三维点云的特征描述符，以估计两个点云之间的对应关系，以实现手部与虚拟目标之间的匹配。具体可以通过采样实现，例如可以使用均匀采样方法选择手部三维点云以及目标三维点云的关键点，计算关键点的特征描述符。例如可以使用二进制方位直方图作为关键点的特征描述符。

在一些示例中，估计两个点云之间的对应关系，以实现手部与虚拟目标之间的匹配包括：

识别手部的局部坐标系与虚拟目标的全局坐标系之间的转换矩阵，并基于指定的附着点，通过点对点的误差度量计算出手部与虚拟目标之间的转换，获得旋转矩阵和平移矩阵。具体可以通过投票的方式实现，例如使用霍夫投票算法。

引入迭代最近点算法确定最优的转换，完成变换估计。进一步的，在虚拟目标场景中注册对象并生成手部的虚拟现实画面。由此整个过程就是将世界坐标系转换为图像坐标系：

其中，u和v表示变换后点的坐标，(f_x,f_y)表示相机对虚拟目标的焦距，(q₀,w₀)表示在相机像素坐标系中的附着点，(X,Y,Z)表示手部点的坐标，R和T分别表示计算得到旋转矩阵和平移矩阵，由此完成变换估计。

在步骤S106中，基于所述四元格式中各关节点的延伸方向的变化量，确定各手指的运动情况，以带动所述虚拟目标进行运动，实现手势交互。

在一些实施例中，基于所述四元格式中各关节点的延伸方向的变化量，确定各手指的运动情况，以带动所述虚拟目标进行运动包括：

基于前述的四元格式中各关节点的延伸方向的变化量，确定各手指的运动情况，从而基于完成变换估计的两个点云，基于手部的运动带动虚拟目标进行运动，从而实现手势交互。

本申请实施例的方法，提出了高斯加权函数，使得三维点云描述符可以被重复检测，提升了计算效率。使用双边滤波因子提升了特征保持性和对噪声的抵抗能力，改善了滤波效果。通过变换估计实现手部与虚拟目标之间的匹配，从而实现虚实融合。本申请实施例的大屏设备交互方法，能够实现演示过程中一并将手部与虚拟目标之间的交互过程进行展示，提高交互过程的直观性。

此外，尽管已经在本文中描述了示例性实施例，其范围包括任何和所有基于本公开的具有等同元件、修改、省略、组合(例如，各种实施例交叉的方案)、改编或改变的实施例。权利要求书中的元件将被基于权利要求中采用的语言宽泛地解释，并不限于在本说明书中或本申请的实施期间所描述的示例，其示例将被解释为非排他性的。因此，本说明书和示例旨在仅被认为是示例，真正的范围和精神由以下权利要求以及其等同物的全部范围所指示。

以上描述旨在是说明性的而不是限制性的。例如，上述示例(或其一个或更多方案)可以彼此组合使用。例如本领域普通技术人员在阅读上述描述时可以使用其它实施例。另外，在上述具体实施方式中，各种特征可以被分组在一起以简单化本公开。这不应解释为一种不要求保护的公开的特征对于任一权利要求是必要的意图。相反，本公开的主题可以少于特定的公开的实施例的全部特征。从而，以下权利要求书作为示例或实施例在此并入具体实施方式中，其中每个权利要求独立地作为单独的实施例，并且考虑这些实施例可以以各种组合或排列彼此组合。本发明的范围应参照所附权利要求以及这些权利要求赋权的等同形式的全部范围来确定。

以上实施例仅为本公开的示例性实施例，不用于限制本发明，本发明的保护范围由权利要求书限定。本领域技术人员可以在本公开的实质和保护范围内，对本发明做出各种修改或等同替换，这种修改或等同替换也应视为落在本发明的保护范围内。

Claims

1.一种基于3D图像控制的大屏设备交互方法，其特征在于，用于实现与虚拟目标之间的3D手势交互，包括如下步骤：

2.如权利要求1所述的基于3D图像控制的大屏设备交互方法，其特征在于，预先构建的神经网络模型包括顺次设置逐通道卷积层、跨通道注意力机制(SE)模块层、通道混淆操作以及所述逐点卷积层，其中所述SE模块层包括并列设置的：

3.如权利要求2所述的基于3D图像控制的大屏设备交互方法，其特征在于，还包括构建如下损失函数，以训练所述神经网络模型：

归一化约束损失：L₂＝|1-||δ||²|；

四元格式三维数据之间的距离差值损失：L_D1＝1-(δ^P×δ^-1)；

四元格式三维数据之间的距离差值损失：L_D2＝||δ^P-δ||²；

总约束损失满足L＝L₁+L₂+L_D1+L_D2。

4.如权利要求3所述的基于3D图像控制的大屏设备交互方法，其特征在于，预设双边滤波器满足：

其中，

用于控制光滑程度和

5.如权利要求4所述的基于3D图像控制的大屏设备交互方法，其特征在于，利用改进的高斯加权函数对邻近点进行加权包括：

||h||₂＝1

其中，h是当前点u的法向量，γ(x)＝x^-r表示高斯权重。

6.如权利要求5所述的基于3D图像控制的大屏设备交互方法，其特征在于，估计两个点云之间的对应关系，以实现手部与虚拟目标之间的匹配包括：

引入迭代最近点算法确定最优的转换，完成变换估计。

7.如权利要求5所述的基于3D图像控制的大屏设备交互方法，其特征在于，基于所述四元格式中各关节点的延伸方向的变化量，确定各手指的运动情况，以带动所述虚拟目标进行运动包括：

8.一种计算机设备，其特征在于，包括，处理器和存储器，所述存储器存储有计算机程序，所述计算机程序被处理器执行时实现如权利要求1至7中任一项所述的基于3D图像控制的大屏设备交互方法的步骤。

9.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质上存储有计算机程序，所述计算机程序被处理器执行时实现如权利要求1至7中任一项所述的基于3D图像控制的大屏设备交互方法的步骤。