CN113094016A

CN113094016A - 用于信息增益与显示的系统、方法及介质

Info

Publication number: CN113094016A
Application number: CN202110639918.0A
Authority: CN
Inventors: 张旭; 毛文涛; 吕四凯; 李向阳
Original assignee: Shanghai Shadow Creator Information Technology Co Ltd
Current assignee: Shanghai Shadow Creator Information Technology Co Ltd
Priority date: 2021-06-09
Filing date: 2021-06-09
Publication date: 2021-07-09
Anticipated expiration: 2041-06-09
Also published as: CN113094016B

Abstract

本发明提供了一种用于信息增益与显示的系统、方法及介质，包括：传感器：用于持续获取场景信息，并将获取的信息传递给移动端计算单元；移动端计算单元：对获取的信息进行筛查、对比和计算，得到物体3D位置和姿态；数据交换单元：负责移动端和云端的数据交换，将显著性图像和时间戳从移动端上传到云端计算单元，同时将云端计算的结果下载到移动端；云端计算单元：以图像为输入，通过神经网络训练，输出特征向量，再基于检索方法得到对应的物体信息；渲染显示单元：根据物体信息、物体3D位置和姿态，将物体的信息渲染到对应的3D位置，并在显示设备上显示。本发明采用移动端视觉跟踪技术，解决了端上大规模物体的位置在时域上的关联性问题。

Description

用于信息增益与显示的系统、方法及介质

技术领域

本发明涉及AR场景应用技术领域，具体地，涉及一种用于信息增益与显示的系统、方法及介质。

背景技术

信息增益与显示是AR应用场景非常重要的组成部分，其底层技术之一是物体的定位、识别和跟踪。AR设备通常是可穿戴移动设备，当前的移动端的相关技术，只能进行少量类别物体的定位、识别与跟踪，且加入新的类别需要重新训练；大规模物体识别的技术，不能保证实时性与帧间的关联性，且占用计算与存储资源较多。

专利文献CN102905153B（申请号：CN201210166773.8）公开了一种立体图像显示装置及其驱动方法。根据本发明的实施方式的立体图像显示装置包括：显示板，其包括数据线和选通线；图像转换器，其基于从2D图像数据提取的深度图的深度值计算视差值，通过将各视差值乘以预定的增益值计算增益视差，通过根据各增益视差对2D图像数据进行移位生成左眼图像数据和右眼图像数据，并且根据3D格式将左眼图像数据和右眼图像数据转换为3D图像数据；数据驱动器，其将3D图像数据转换为数据电压并将数据电压施加到数据线；以及选通驱动器，其顺序地向选通线供应选通脉冲。

发明内容

针对现有技术中的缺陷，本发明的目的是提供一种用于信息增益与显示的系统、方法及介质。

根据本发明提供的用于信息增益与显示的系统，包括：

传感器：用于持续获取场景信息，并将获取的信息传递给移动端计算单元；

移动端计算单元：对获取的信息进行筛查、对比和计算，得到物体3D位置和姿态；

数据交换单元：负责移动端和云端的数据交换，将显著性图像和时间戳从移动端上传到云端计算单元，同时将云端计算的结果下载到移动端；

云端计算单元：以图像为输入，通过神经网络训练，输出特征向量，再基于检索方法得到对应的物体信息；

渲染显示单元：根据物体信息、物体3D位置和姿态，将物体的信息渲染到对应的3D位置，并在显示设备上显示。

优选的，所述传感器包括单个或多个彩色摄像机、单色摄像机、深度摄像机和雷达。

优选的，所述移动端计算单元包括：

信息预处理单元：对传感器获取的信息进行筛查，将不符合神经网络的输入要求的信息进行降噪、优化和格式化后再传递给显著性检测单元；

显著性检测单元：获取显著性物体所在区域，将该区域的图像剪切出来输出给显著性跟踪单元；

显著性跟踪单元：跟踪检测到的显著性信息，并将相同的显著性信息对应起来，若发现有显著性信息和之前的显著性信息对应不起来，则判定为未知物体，向数据交换单元发送显著性信息，并获取该物体的类别、属性和3D姿态估计方法；若显著性信息和之前对应，则将对应好的显著性信息、3D姿态估计方法、该显著性信息包含的物体类别及属性发送给3D姿态估计单元；

3D姿态估计单元：根据显著性信息和3D姿态估计方法，估计出该显著性信息包含的物体的3D位置和姿态，然后将3D姿态、物体类别及属性发送给渲染显示单元。

优选的，所述显著性跟踪单元包括：

基于计算机视觉进行跟踪，在显著性信息中提取特征点，然后计算描述子，接着在帧间对描述子进行匹配，获取匹配结果，进而获取时域上的连续性信息；

或通过神经网络，对前后帧的显著性信息进行直接匹配，进而获取时域上的连续性信息。

优选的，所述显著性检测单元包括：

具有标注框且标注类别为一个或多个大类的能进行数据训练的检测神经网络，在进行神经网络推断时，输出是一个或多个几何形状的框；

标注显著性物体掩膜的能进行数据训练的分割神经网络，在进行神经网络推断时，输出是一个或多个显著性物体掩膜；

人工选取的物体的几何框。

优选的，所述3D姿态估计方法包括：

直接使用物体对应的3D姿态估计神经网络估计其3D位置和3D姿态；

或根据服务器存储的物体的各个角度的视觉描述子和当前状态的描述子进行匹配，获取3D位置和姿态。

优选的，所述云端计算单元包括：

特征提取神经网络：以物体图像、深度信息或点云信息作为输入，通过神经网络训练，输出特征向量，并将特征向量传输给信息检索单元；

信息检索单元：根据特征向量，使用包括KNN、ANN的检索方法，检索出该特征向量对应的物体信息，然后传递给数据交换单元。

优选的，所述显示设备包括AR设备、VR设备、手机和电视。

根据本发明提供的用于信息增益与显示的方法，包括如下步骤：

获取物体信息步骤：持续获取场景和物体的信息；

移动端计算步骤：对获取的信息进行筛查、对比和计算，得到物体3D位置和姿态；

数据交换步骤：负责移动端和云端的数据交换，将移动端的显著性图像和时间戳上传到云端，同时将云端计算的结果下载到移动端；

云端计算步骤：使用神经网络，以图像为输入进行训练，输出特征向量，再基于检索方法得到对应的物体信息；

渲染显示步骤：根据物体信息、物体3D位置和姿态，将物体的信息渲染到对应的3D位置，并在显示设备上显示。

根据本发明提供的一种存储有计算机程序的计算机可读存储介质，所述计算机程序被处理器执行时实现上述的方法的步骤。

与现有技术相比，本发明具有如下的有益效果：

（1）本发明通过采用在移动端运行轻量级神经网络，云上运行重量级神经网络，少量低频的数据交换策略，解决了大规模物体定位、识别与跟踪时，移动端实时性问题和存储资源短缺的问题，进而实现了移动端通用物体信息增益与显示的方法，且信息的显示与和物体3D位置和姿态对应；

（2）本发明通过采用轻量级的显著性检测或显著性分割网络，解决了端上大规模物体定位问题避免了加入新类别需要重新训练的问题；

（3）本发明通过采用移动端的视觉跟踪技术，解决了端上大规模物体的位置在时域上的关联性问题。

附图说明

通过阅读参照以下附图对非限制性实施例所作的详细描述，本发明的其它特征、目的和优点将会变得更明显：

图1为本发明总体流程的模块图。

具体实施方式

下面结合具体实施例对本发明进行详细说明。以下实施例将有助于本领域的技术人员进一步理解本发明，但不以任何形式限制本发明。应当指出的是，对本领域的普通技术人员来说，在不脱离本发明构思的前提下，还可以做出若干变化和改进。这些都属于本发明的保护范围。

实施例1：

根据本发明提供的用于信息增益与显示的系统，包括：传感器：用于持续获取场景信息，并将获取的信息传递给移动端计算单元；移动端计算单元：对获取的信息进行筛查、对比和计算，得到物体3D位置和姿态；数据交换单元：负责移动端和云端的数据交换，将显著性图像和时间戳从移动端上传到云端计算单元，同时将云端计算的结果下载到移动端；云端计算单元：以图像为输入，通过神经网络训练，输出特征向量，再基于检索方法得到对应的物体信息；渲染显示单元：根据物体信息、物体3D位置和姿态，将物体的信息渲染到对应的3D位置，并在显示设备上显示。

所述传感器包括单个或多个彩色摄像机、单色摄像机、深度摄像机和雷达。

所述移动端计算单元包括：信息预处理单元：对传感器获取的信息进行筛查，将不符合神经网络的输入要求的信息进行降噪、优化和格式化后再传递给显著性检测单元；显著性检测单元：获取显著性物体所在区域，将该区域的图像剪切出来输出给显著性跟踪单元；显著性跟踪单元：跟踪检测到的显著性信息，并将相同的显著性信息对应起来，若发现有显著性信息和之前的显著性信息对应不起来，则判定为未知物体，向数据交换单元发送显著性信息，并获取该物体的类别、属性和3D姿态估计方法；若显著性信息和之前对应，则将对应好的显著性信息、3D姿态估计方法、该显著性信息包含的物体类别及属性发送给3D姿态估计单元；3D姿态估计单元：根据显著性信息和3D姿态估计方法，估计出该显著性信息包含的物体的3D位置和姿态，然后将3D姿态、物体类别及属性发送给渲染显示单元。

所述显著性跟踪单元包括：基于计算机视觉进行跟踪，在显著性信息中提取特征点，然后计算描述子，接着在帧间对描述子进行匹配，获取匹配结果，进而获取时域上的连续性信息；或通过神经网络，对前后帧的显著性信息进行直接匹配，进而获取时域上的连续性信息。

所述显著性检测单元包括：具有标注框且标注类别为一个或多个大类的能进行数据训练的检测神经网络，在进行神经网络推断时，输出是一个或多个几何形状的框；标注显著性物体掩膜的能进行数据训练的分割神经网络，在进行神经网络推断时，输出是一个或多个显著性物体掩膜；人工选取的物体的几何框；或上述3种方法的任意组合。

所述3D姿态估计方法包括：直接使用物体对应的3D姿态估计神经网络估计其3D位置和3D姿态；或根据服务器存储的物体的各个角度的视觉描述子和当前状态的描述子进行匹配，获取3D位置和姿态。

所述云端计算单元包括：特征提取神经网络：以物体图像、深度信息或点云信息作为输入，通过神经网络训练，输出特征向量，并将特征向量传输给信息检索单元；信息检索单元：根据特征向量，使用包括KNN、ANN的检索方法，检索出该特征向量对应的物体信息，然后传递给数据交换单元。

所述显示设备包括AR设备、VR设备、手机和电视。

根据本发明提供的用于信息增益与显示的方法，包括如下步骤：获取物体信息步骤：持续获取场景和物体的信息；移动端计算步骤：对获取的信息进行筛查、对比和计算，得到物体3D位置和姿态；数据交换步骤：负责移动端和云端的数据交换，将移动端的显著性图像和时间戳上传到云端，同时将云端计算的结果下载到移动端；云端计算步骤：使用神经网络，以图像为输入进行训练，输出特征向量，再基于检索方法得到对应的物体信息；渲染显示步骤：根据物体信息、物体3D位置和姿态，将物体的信息渲染到对应的3D位置，并在显示设备上显示。

如图1，根据本发明提供的用于信息增益与显示的系统，包括：传感器、移动端计算单元、数据交换单元、云端计算单元、渲染显示单元；

所述传感器采集世界数据，并将采集的数据传递至移动端计算单元进行计算；

所述移动端计算单元将计算后的数据传递至数据交换单元进行数据交换；

所述数据交换单元将交换后的数据传递至云端计算单元进行云端计算；

所述云端计算单元将经过云计算的数据再依次传递至移动端计算单元，移动端计算单元再将数据传递至渲染显示单元进行渲染，得到渲染的虚实叠加的世界。

实施例2：

实施例2为实施例1的优选例。

根据本发明提供的用于信息增益与显示的系统，包括：

传感器：用来持续获取场景信息，可以是单个或多个彩色摄像机、单色摄像机、深度摄像机、雷达等的组合，获取的信息传递给移动端计算单元。

移动端计算单元，包括：

(1)信息预处理

传感器获取的信息，如果不符合神经网络的输入要求，需要经过降噪、优化、格式化等步骤，进行预处理，然后传递给显著性检测神经网络。

(2)显著性检测单元

显著性检测单元可以是，

A.由大量类别的，具有标注框，但是标注类别可以为一类或者少量的若干大类的数据训练的检测神经网络。在进行神经网络推断时，输出是一个或若干个特定几何形状的框。之所以只用较少的标注类别，是因为类别较少的时候，可以用较小的神经网络获取较好的结果；

B.或由大量类别的，标注显著性物体的掩膜数据训练的分割神经网络。在进行神经网络推断时，输出是一个或若干个显著性物体掩膜；

C.人工选取某些物体的几何框；

D.上述3种方法的任意组合。

根据上述的框或者掩膜，可以获取显著性物体所在区域，然后将此区域的图像剪切出来，输出给显著性跟踪单元。

(3)显著性跟踪单元

显著性跟踪单元会持续不断的跟踪检测到的显著性信息，并将相同的显著性信息对应起来，如果发现有显著性信息和之前的显著性信息对应不起来，则认为是未知物体，需要向数据交换单元发送显著性信息，并获取此物体的类别、属性、3D姿态估计方法等，如果和之前对应，则将对应好的显著性信息、3D姿态估计方法、此显著性信息包含的物体类别及属性发送给3D姿态估计单元。

显著性跟踪单元可以基于计算机视觉的方法进行跟踪，比如在显著性信息中提取特征点，然后计算描述子，接着在帧间对描述子进行匹配，获取匹配结果，进而获取时域上的连续性信息；也可以使用神经网络的方法，对前后帧的显著性信息进行直接匹配，进而获取时域上的连续性信息。

(4)3D姿态估计单元

3D姿态估计单元根据显著性信息和3D姿态估计方法，估计出此显著性信息包含的物体的3D位置和姿态，然后将3D姿态，物体类别及属性发送给渲染显示单元。

3D姿态估计方法根据不同的物体，可能有不同的方法，比如，

A.直接使用该物体对应的3D姿态估计神经网络估计其3D位置和3D姿态。

B.根据服务器存储的此物体的各个角度的视觉描述子和当前状态的描述子进行匹配，获取3D位置和姿态。

数据交换单元：负责移动端和云上的数据交换，将显著性图像和时间戳等从移动端上传到云端计算单元，同时将云端计算的结果，如物体类别、属性、3D姿态估计方法等下载到移动端。

云端计算单元，包括：

(1)特征提取神经网络

特征提取神经网络由大规模的物体图像、深度信息或者点云信息等，通过输入神经网络训练。在推断时，输入的是显著性信息，输出是一定长度的特征向量，该特征向量表示了简化的特征信息。特征向量输出给信息检索单元。

(2)信息检索单元

信息检索单元的输入是特征提取网络输出的特征向量，根据此向量，使用KNN、ANN等检索方法，检索出此向量对应的物体信息，例如物体对应的类别、属性、3D姿态估计方法等，传递给数据交换单元。

渲染显示单元：根据物体信息，和估计的物体3D位置和姿态，将物体的信息渲染到对应的3D位置，并根据在显示设备上显示，显示设备可以是AR设备、VR设备、手机、电视等。

本领域技术人员知道，除了以纯计算机可读程序代码方式实现本发明提供的系统、装置及其各个模块以外，完全可以通过将方法步骤进行逻辑编程来使得本发明提供的系统、装置及其各个模块以逻辑门、开关、专用集成电路、可编程逻辑控制器以及嵌入式微控制器等的形式来实现相同程序。所以，本发明提供的系统、装置及其各个模块可以被认为是一种硬件部件，而对其内包括的用于实现各种程序的模块也可以视为硬件部件内的结构；也可以将用于实现各种功能的模块视为既可以是实现方法的软件程序又可以是硬件部件内的结构。

以上对本发明的具体实施例进行了描述。需要理解的是，本发明并不局限于上述特定实施方式，本领域技术人员可以在权利要求的范围内做出各种变化或修改，这并不影响本发明的实质内容。在不冲突的情况下，本申请的实施例和实施例中的特征可以任意相互组合。

Claims

1.一种用于信息增益与显示的系统，其特征在于，包括：

2.根据权利要求1所述的用于信息增益与显示的系统，其特征在于，所述传感器包括单个或多个彩色摄像机、单色摄像机、深度摄像机和雷达。

3.根据权利要求1所述的用于信息增益与显示的系统，其特征在于，所述移动端计算单元包括：

4.根据权利要求3所述的用于信息增益与显示的系统，其特征在于，所述显著性跟踪单元包括：

5.根据权利要求3所述的用于信息增益与显示的系统，其特征在于，所述显著性检测单元包括：

人工选取的物体的几何框。

6.根据权利要求3所述的用于信息增益与显示的系统，其特征在于，所述3D姿态估计方法包括：

7.根据权利要求1所述的用于信息增益与显示的系统，其特征在于，所述云端计算单元包括：

8.根据权利要求1所述的用于信息增益与显示的系统，其特征在于，所述显示设备包括AR设备、VR设备、手机和电视。

9.一种用于信息增益与显示的方法，其特征在于，通过权利要求1-8中任一项所述的用于信息增益与显示的系统得以实现，包括如下步骤：

获取物体信息步骤：持续获取场景和物体的信息；

10.一种存储有计算机程序的计算机可读存储介质，其特征在于，所述计算机程序被处理器执行时实现权利要求9所述的方法的步骤。