CN110196638A

CN110196638A - 一种基于目标检测和空间投影的移动端增强现实方法和系统

Info

Publication number: CN110196638A
Application number: CN201910412289.0A
Authority: CN
Inventors: 葛生斌; 陈琼; 林兴萍; 郭皓捷; 周雪静
Original assignee: CETHIK Group Ltd
Current assignee: CETHIK Group Ltd
Priority date: 2019-05-17
Filing date: 2019-05-17
Publication date: 2019-09-03
Anticipated expiration: 2039-05-17
Also published as: CN110196638B

Abstract

本申请公开了一种基于目标检测和空间投影的移动端增强现实方法和系统，系统包括移动端和服务器，该系统利用机器学习来识别需要增强显示的目标地物，然后使用空间计算匹配目标地物和其三维模型，最后根据三维模型检索出目标地物的其他信息，从而准确地把虚拟信息叠加到拍摄的画面中，实现增强现实的效果，且三维模型使用简化的模型，以降低模型制作、存储、处理成本低。本申请使用单一的移动端设备即可完成，无需使用额外的辅助设备，降低使用难度。

Description

一种基于目标检测和空间投影的移动端增强现实方法和系统

技术领域

本申请属于增强现实领域，具体涉及一种基于目标检测和空间投影的移动端增强现实方法和系统。

背景技术

增强现实(AR，Augmented Reality)是一种将虚拟信息和真实世界信息结合的可视化技术。在展示真实世界信息的同时，它把图像、视频、三维模型、文字等虚拟信息实时地叠加在真实世界的图像上，通过虚拟和现实两种信息的相互补充和叠加，达到信息增强的目的。AR系统具有实时交互性，用户在观看真实世界的同时，可以看到虚拟信息围绕在真实环境中，用户可通过多种交互方式与系统进行互动。

在实际应用中通常需要使用图像识别、定位等技术实现增强信息的目的。目前一种基于三维地图的AR应用，通过移动终端地理位置和三维地图系统，在用户移动终端拍摄的画面上叠加显示某公司或建筑物的名称、与当前位置的距离和方位等信息，从而实现AR导航的功能。例如，申请号为2013100340333的一种基于AR增强现实技术的车载实景安全导航方法的专利文献，公开了一种对车前采集的图像进行特征提取，将附有识别特征的物体图像与实时图像进行叠加，进一步叠加导航地图信息形成带有导航信息的图像。

虽然基于地理位置和三维地图系统可以在屏幕上显示真实地物的方位、距离等信息，但是由于定位误差、遮挡等因素的影响，这些虚拟信息无法准确地标注在对应的目标地物上，也就是说虚拟信息无法和真实场景精确匹配，或虚拟信息的叠加位置不准确，从而影响用户体验。

发明内容

本申请的目的在于提供一种基于目标检测和空间投影的移动端增强现实方法和系统，能够准确匹配虚拟信息和真实场景，提高用户体验。

为实现上述目的，本申请所采取的技术方案为：

本申请提供一种基于目标检测和空间投影的移动端增强现实方法，实施在移动端，所述的基于目标检测和空间投影的移动端增强现实方法，包括：

向服务器发送获取三维模型的第一请求，所述第一请求包括移动端地理位置、检索半径和空间参考；所述移动端地理位置和检索半径用于供服务器检索得到指定空间范围内的三维模型，所述空间参考用于供服务器将检索到的三维模型转换到指定坐标系；

接收服务器响应的转换到指定坐标系的三维模型并缓存；

利用AI识别模型识别移动端预览画面中目标物的类型和像素位置；

将三维模型投影到预览画面所在的屏幕坐标系中，得到三维模型在预览画面中的像素位置；

将目标物在预览画面中的像素位置和三维模型在预览画面中的像素位置进行一对一比较，同时比较目标物和三维模型的类型，得到与目标物匹配的三维模型，根据匹配到的三维模型得到目标物的识别属性；所述三维模型的类型为三维模型的固有属性；

向服务器发送获取目标物详细信息的第二请求，所述第二请求包括目标物的识别属性，所述识别属性用于供服务器得到目标物的详细信息；

接收来自服务器的目标物的详细信息，并在预览画面中叠加显示所述详细信息。

作为优选，所述AI识别模型的构建方法，包括：

构建训练样本集和测试样本集；

建立Mobile-Net V1网络，所述Mobile-Net V1网络包括13个DepthWise卷积层、13个PointWise卷积层以及9个普通卷积层，其中DepthWise卷积层和PointWise卷积层交替连接，普通卷积层依次连接，且最靠近网络的输入层的是DepthWise卷积层，最远离网络的输入层的是普通卷积层；

建立SSD算法，将Mobile-Net V1网络的第11、13层的PointWise卷积层以及第29、31、33、35层的普通卷积层提取的特征分别作为SSD算法的默认框，各层所述默认框对应的anchor设计9种aspect比例，9种aspect比例分别为：1.0、2.0、0.5、3.0、0.3333、4.0、0.25、5.0和0.2；

设置BatchSize为24，初始学习率为0.001，采用RMS Prop梯度算法，利用训练样本集，以每5万步做一次学习率衰减，衰减速率为0.1，迭代训练得到最终的AI识别模型，并利用测试样本集验证AI识别模型的准确率。

作为优选，所述移动端将三维模型投影到预览画面所在的屏幕坐标系中，包括：

将服务器检索得到的指定空间范围内的三维模型整合为模型集合D，所述模型集合D的总个数为N，从n＝0开始遍历模型集合D中的元素进行坐标变换，其中三维模型Dn为模型集合D中的第n个元素；

若n<N，则计算三维模型Dn的模型变换矩阵Mm、视变换矩阵Mv和投影变换矩阵Mp，并计算得到综合坐标变换矩阵M＝Mp*Mv*Mm；

取三维模型Dn上一点的齐次坐标P＝(x,y,z,w)，则利用综合坐标变换矩阵M对齐次坐标P进行转换后得到P′＝(Xclip,Yclip,Zclip,Wclip)＝M*P，将P′转换到规范化设备坐标系中，得到点

将点Pndc转换到预览画面所在的屏幕坐标系中，得到点Pscreen＝(Xs,Ys)，其中：

式中，screen_w为预览画面的宽，screen_h为预览画面的高；逐一取三维模型Dn上的点，完成对三维模型Dn的坐标转换，得到转换至预览画面所在的屏幕坐标系中的三维模型Dn′；若n≥N，则结束遍历。

本申请提供一种基于目标检测和空间投影的移动端增强现实方法，实施在服务器，所述的基于目标检测和空间投影的移动端增强现实方法，包括：

建立三维地图系统，构建所有目标物简化的三维模型；

接收来自移动端的获取三维模型的第一请求，采用所述三维地图系统根据移动端地理位置和检索半径检索得到指定空间范围内的三维模型，根据空间参考将检索到的三维模型转换到指定坐标系；所述第一请求包括移动端地理位置、检索半径和空间参考；

向移动端发送转换到指定坐标系的三维模型；

接收来自移动端的获取目标物详细信息的第二请求，根据识别属性得到目标物的详细信息；所述第二请求包括目标物的识别属性，所述识别属性由移动端根据匹配到的三维模型得到，所述匹配到的三维模型由移动端将目标物在预览画面中的像素位置和三维模型在预览画面中的像素位置进行一对一比较，同时比较目标物和三维模型的类型得到，所述目标物的类型和目标物在预览画面中的像素位置由移动端利用AI识别模型得到，所述三维模型在预览画面中的像素位置由移动端将三维模型投影到预览画面所在的屏幕坐标系中得到，所述三维模型的类型是三维模型的固有属性；

向移动端发送目标物的详细信息；所述详细信息用于供移动端在预览画面中叠加显示。

作为优选，所述AI识别模型的构建方法，包括：

构建训练样本集和测试样本集；

本申请还提供一种基于目标检测和空间投影的移动端增强现实系统，所述的基于目标检测和空间投影的移动端增强现实系统包括移动端和服务器，所述移动端和服务器通过通信网络执行如下操作：

所述服务器建立三维地图系统，构建所有目标物简化的三维模型；

所述移动端向服务器发送获取三维模型的第一请求，所述第一请求包括移动端地理位置、检索半径和空间参考；

所述服务器接收来自移动端的获取三维模型的第一请求，采用所述三维地图系统根据移动端地理位置和检索半径检索得到指定空间范围内的三维模型，根据空间参考将检索到的三维模型转换到指定坐标系，并向移动端发送转换到指定坐标系的三维模型；

所述移动端接收服务器发送的转换到指定坐标系的三维模型并缓存，利用AI识别模型识别移动端预览画面中目标物的类型和像素位置，将三维模型投影到预览画面所在的屏幕坐标系中，得到三维模型在预览画面中的像素位置；

所述移动端将目标物在预览画面中的像素位置和三维模型在预览画面中的像素位置进行一对一比较，同时比较目标物和三维模型的类型，得到与目标物匹配的三维模型，根据匹配到的三维模型得到目标物的识别属性，并向服务器发送获取目标物详细信息的第二请求，所述第二请求包括目标物的识别属性；所述三维模型的类型为三维模型的固有属性；

所述服务器接收来自移动端的获取目标物详细信息的第二请求，根据识别属性得到目标物的详细信息并发送至移动端；

所述移动端接收来自服务器的目标物的详细信息，并在预览画面中叠加显示所述详细信息。

作为优选，所述移动端构建所述AI识别模型时，执行如下操作：

构建训练样本集和测试样本集；

作为优选，所述移动端将三维模型投影到预览画面所在的屏幕坐标系中，执行如下操作：

将点Pndc转换到预览画面所在的屏幕坐标系中，得到点Pscreen＝(Xs，Ys)，其中：

式中，screen_w为预览画面的宽，screen_h为预览画面的高；逐一取三维模型Dn上的点，完成对三维模型Dn的坐标转换，得到转换至预览画面所在的屏幕坐标系中的三维模型Dn′；若n≥N，则结束遍历。本申请提供的基于目标检测和空间投影的移动端增强现实方法和系统、以及设备，先利用机器学习来识别需要增强显示的目标地物，然后使用空间计算匹配目标地物和其三维模型，最后根据三维模型检索出目标地物的其他信息，从而准确地把虚拟信息叠加到拍摄的画面中，实现增强现实的效果；三维模型可使用简化的模型，以降低模型制作、存储、处理成本低；使用单一的移动端设备即可完成，无需使用额外的辅助设备，降低使用难度。

附图说明

图1为本申请基于目标检测和空间投影的移动端增强现实方法的流程图；

图2为本申请应用于智慧物联网设备的一种实施例流程图；

图3为本申请服务器进行空间数据检索和坐标转换的一种实施例流程图；

图4为本申请三维模型投影到屏幕坐标系的一种实施例流程图；

图5为本申请相机透视成像的一种实施例示意图；

图6为本申请相机拍照的一种实施例示意图；

图7为本申请增强现实应用的一种实施例效果图。

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

除非另有定义，本文所使用的所有的技术和科学术语与属于本申请的技术领域的技术人员通常理解的含义相同。本文中在本申请的说明书中所使用的术语只是为了描述具体的实施例的目的，不是在于限制本申请。

其中一实施例中，提供一种基于目标检测和空间投影的移动端增强现实方法，所述的基于目标检测和空间投影的移动端增强现实方法，包括：

服务器建立三维地图系统，构建所有目标物简化的三维模型；

移动端向服务器发送获取三维模型的第一请求，所述第一请求包括移动端地理位置、检索半径和空间参考；

本实施例利用机器学习(AI识别模型)来识别需要增强显示的目标地物，然后使用空间计算匹配目标地物和其三维模型，最后根据三维模型检索出目标地物的其他信息，从而准确地把虚拟信息叠加到拍摄的画面中，实现增强现实的效果。

具体地，在一实施例中，AI识别模型的构建方法，包括：

构建训练样本集和测试样本集；

具体地，在一实施例中，将三维模型投影到预览画面所在的屏幕坐标系中，包括：

以下通过两个实施例进一步说明，基于目标检测和空间投影的移动端增强现实方法，实施在单侧方的执行步骤。

在一实施例中，提供一种基于目标检测和空间投影的移动端增强现实方法，实施在移动端，如图1所示，包括以下步骤：

接收服务器响应的转换到指定坐标系的三维模型并缓存；

在一实施例中，提供一种基于目标检测和空间投影的移动端增强现实方法，实施在服务器，所述的基于目标检测和空间投影的移动端增强现实方法，包括：

建立三维地图系统，构建所有目标物简化的三维模型；

向移动端发送转换到指定坐标系的三维模型；

关于实施在单侧方的基于目标检测和空间投影的移动端增强现实方法的具体限定可以参见上文中对于非单侧方的基于目标检测和空间投影的移动端增强现实方法的限定，在此不再赘述。

本申请提供的移动端增强现实方法可应用在娱乐、导航和设备维护等多个方面，下面以应用于智慧物联网设备的增强现实为例对本申请进一步详述。智慧物联网设备主要包括：智慧路灯、智慧垃圾桶和智慧井盖。通过增强现实可方便获取智慧物联网设备的当前状态。

本实施例中的移动端取Android手机，相机为手机后置摄像头，服务器为与手机通信的后端服务端。其主要步骤如图2所示：

步骤101：服务器建立三维地图系统，构建智慧物联网设备的简化三维模型，三维模型存储到数据库并建立空间索引；

其中，三维地图系统是一个具有采集、管理、分析、处理和输出多种空间数据能力的GIS系统。由于智慧物联网设备有：智慧路灯、智慧垃圾桶和智慧井盖，因此需要建立这三类设备的简化的三维模型。

三维模型指真实世界中的地物的模型，与真实的地物一一对应。采用简化的模型不仅可降低模型制作、存储和处理的成本，还可减少三维模型在服务器和移动端之间的传输耗时。比如一幢建筑的模型可简化为一个立方体，一个灯杆的模型可简化为一个圆柱体。

步骤102：调整摄像头对准智慧物联网设备；

步骤103：移动端通过自带传感器获取自身的地理位置、姿态数据、摄像头视角、相机预览画面尺寸等数据；

在本实施例中，地理位置为GPS获取的经纬度和高度数据。

姿态数据是移动端在三维空间中旋转的量，可以是欧拉角、旋转矩阵、四元数或旋转向量，本实施例中的姿态数据是根据Android手机的ROTATION_VECTOR传感器获取的表示手机旋转的四元数。摄像头视角根据相机的各项参数计算得到。

摄像头视角理解为相机视锥体的视野(field of view，FOV)。

相机预览画面尺寸包括画面的宽和高等。

步骤104：移动端将包括自身当前地理位置、检索半径和空间参考的获取三维模型的第一请求上传到服务器，用于请求附近一定空间范围内智慧物联网设备的三维模型；

其中，移动端地理位置和检索半径定义了检索数据的空间范围，空间参考为三维模型经过坐标转换后的参考坐标系。

步骤105：服务器接收来自移动端的获取三维模型的第一请求，根据移动端地理位置和检索半径，从数据库检索到智慧物联网设备的三维模型，然后根据空间参考将检索到的三维模型转换到指定的坐标系；

优选将三维模型和移动端地理位置转换至同一笛卡尔坐标系，即同一投影坐标系，该投影坐标系由移动端的地理位置确定，可采用移动端所在地区地图形变较小的投影坐标系。

步骤106：服务器将转换到指定坐标系的三维模型返回给移动端；

步骤107：移动端缓存服务器传回的三维模型；

步骤108：移动端使用AI识别模型，在相机拍摄的预览画面中识别并标注出智慧物联网设备的类型和像素位置；

由于相机拍摄的是真实场景，所以AI在预览画面中标注的智能设备的像素位置是精确的。虽然AI能识别图像中的智能设备，但是无法确定智能设备的ID和其他动态信息。

步骤109：把指定坐标系中的三维模型投影到相机预览画面所在的屏幕坐标系中；

也就是说，通过空间计算，得到三维模型在相机拍摄的预览画面中的像素位置。

步骤110：一对一匹配AI识别结果中目标智慧物联网设备的像素位置和三维模型在相机拍摄的预览画面中的像素位置，并比较目标智慧物联网设备和三维模型的类型，得到与预览画面中的目标智慧物联网设备匹配的三维模型；

即为找到三维模型与AI识别的智慧物联网设备的一一对应关系。由于三维模型中保存有设备的ID等标识性属性，因此可以通过这种对应关系知道AI识别的智慧物联网设备的详细信息。而三维模型的类型为三维模型中携带的固有属性，固有属性在构建三维模型时即生成并关联。

由于智慧物联网设备为具有一定体积的物体，故其在预览画面中的像素位置为具有一定范围的区域，在理想状态下，AI识别结果中智慧物联网设备的像素位置和匹配的三维模型在相机拍摄的预览画面中的像素位置将会重叠，即两区域将重叠，从而得到与智慧物联网设备匹配的三维模型。

但由于GPS定位和三维模型空间位置的误差，导致AI识别对象和三维模型投影的屏幕坐标存在偏差，本实施例为了降低这种偏差的干扰，采用目标设备与三维模型的像素位置存在交集，并且类型相同的方式判定两者为匹配；两者的像素位置不存在交集或类型不同则两者不匹配。当然，在其他实施例中还可以使用其他现有技术识别目标设备与三维模型是否匹配。

步骤111：根据步骤110的匹配结果，向服务器发送获取目标物详细信息的第二请求，该第二请求包括目标物的识别属性，详细信息包括目标设备的静态和动态信息；

步骤112：服务器根据移动端的获取目标物详细信息的第二请求，检索目标智慧物联网设备的详细信息；

步骤113：服务器返回检索到的目标智慧物联网设备的详细信息；

步骤114：移动端在预览画面的实景上叠加显示详细信息。

具体地，在另一实施例中，步骤105中的空间数据检索、坐标转换的流程如图3所示：

步骤201：根据移动端的获取三维模型的第一请求中的移动端地理位置(包括经度和纬度)和检索半径，查询数据库；

步骤202：得到检索后的三维模型；

本实施例中并不限定三维模型原始的空间参考，其空间参考由具体的实施情况确定。在本实施例中考虑到手机GPS定位系统采用的是WGS-84地心坐标系，为了方便测量，简化坐标转换流程，因此本实施例中三维模型原始的空间参考(即原始坐标系)为WGS-84地心坐标系。

步骤203：将三维模型转换到请求参数(空间参考)指定的坐标系；

本实施例中请求指定的空间参考为WGS 84/Pseudo-Mercator投影坐标系，使用GeoTools(开源的Java语言GIS工具库)进行转换。由于本实施例中移动端地处中低纬度，WGS 84/Pseudo-Mercator坐标系本身的地图形变产生的影响可以忽略，而如果移动端地处高纬度地区，那么需要将空间参考替换为合适的投影坐标系，以减少因地图形变带来的影响。

步骤204：得到指定坐标系下的三维模型；

步骤205：向移动端发送指定坐标系下的三维模型。

具体地，步骤108中利用训练后得到的AI识别模型实时检测影像中的地物，标识出地物的像素位置和类型。在本实施例中标识出这些地物外围矩形的左上和右下坐标以及类别。

AI识别模型通过Mobile-Net V1+SSD的目标检测方式实时检测移动端拍摄的视频影像，检测出视频影像中目标地物的位置和类型，AI识别模型具体的构建步骤如下：

步骤301：构建分别用于训练和测试模型的训练样本集和测样本试集。

本实施例中挑选了一共10723张包含智慧灯杆、垃圾桶或井盖的图片，并标注图片中的灯杆、垃圾桶或井盖的外切矩形的左上和右下坐标以及设备类别作为样本标签。最后将其中的9520张图片作为训练样本集，以及1203张图片作为测试样本集。

步骤302：提取特征的基础网络选择使用Mobile-Net V1网络，该网络包括13个DepthWise卷积层、13个PointWise卷积层以及9个普通卷积层，每个DepthWise卷积层和PointWise卷积层交替连接。

即Mobile-Net V1网络从输入层开始依次经过DepthWise卷积层、PointWise卷积层、DepthWise卷积层、PointWise卷积层、DepthWise卷积层、PointWise卷积层、DepthWise卷积层、PointWise卷积层、DepthWise卷积层、PointWise卷积层、DepthWise卷积层、PointWise卷积层、DepthWise卷积层、PointWise卷积层、DepthWise卷积层、PointWise卷积层、DepthWise卷积层、PointWise卷积层、DepthWise卷积层、PointWise卷积层、DepthWise卷积层、PointWise卷积层、DepthWise卷积层、PointWise卷积层、DepthWise卷积层、PointWise卷积层、普通卷积层、普通卷积层、普通卷积层、普通卷积层、普通卷积层、普通卷积层、普通卷积层、普通卷积层、普通卷积层。

由于1个DepthWise卷积层输入的特征的每个通道只需和1个卷积通道进行卷积操作，然后再由PointWise卷积层做普通的1x1卷积，因此通过Depthwise+Pointwise的拆分，相比于直接进行卷积(Conv)操作，参数量将会大大降低，其压缩量为：Depthwise+Pointwise：Conv＝[H*W*C*(3*3+K)]/(H*W*C*K*3*3)＝1/K+1/(3*3)，其中H，W，C，K分别代表输入特征的高，输入特征的宽，输入特征的通道数以及卷积核的通道数。

步骤303：检测算法则采用SSD算法，将Mobile-Net V1网络的第11、13层的PointWise卷积层以及第29、31、33、35层的普通卷积层提取的特征作为DefaultBoxes(默认框)，且为每层DefaultBoxes对应的anchor设计9种不同的aspect比例，分别为1.0、2.0、0.5、3.0、0.3333、4.0、0.25、5.0、0.2。

由于模型需要运行在手机上，所以在训练前将参数量压缩到原始参数量的25％，这样可以将最终模型的处理速度提升4倍。最后，再调整MinNegativesPerImage为10，保证每张图在训练时能产生最少10个负样本，以降低假阳性的分类结果。

步骤304：调整BatchSize为24，初始学习率设置为0.001，选择RMS Prop梯度优化方式，以每5W Step做一次学习率衰减，衰减速率为0.1，然后迭代训练20W次得到最终的AI识别模型，并利用测试样本集验证AI识别模型的准确率。

具体地，步骤109中将三维模型投影到屏幕坐标系的步骤如图4所示，步骤如下：

步骤401：将服务器检索得到指定空间范围内的三维模型整合为模型集合D，模型集合D的总个数为N，从n＝0开始遍历模型集合D中的元素进行坐标变换，其中三维模型Dn为模型集合D中的第n个元素。

为了便于转换，模型集合D中元素和移动端地理位置的空间参考都为R。在本实施例中R为WGS 84/Pseudo-Mercator。本发明并不限制此处的空间参考必须为WGS 84/Pseudo-Mercator，而是需要根据移动端的实际地理位置选择合适的投影坐标系；并且在计算中使用移动端获取的姿态数据、摄像头视角、相机预览画面尺寸等数据。

步骤402：如果n<N，执行步骤403，否则执行步骤411；

步骤403：计算模型变换矩阵Mm，用于将三维模型Dn转换到世界坐标系；

本实施例中，世界坐标系为WGS 84/Pseudo-Mercator，且三维模型经过步骤203的转换已经是WGS 84/Pseudo-Mercator坐标系下的模型。使用GPS采集的相机地理位置是WGS84坐标系下的经纬度，需要提前使用GeoTools工具转换为WGS 84/Pseudo-Mercator坐标系下的米制坐标。因此三维模型和相机位置的空间参考都为WGS 84/Pseudo-Mercator，模型变换矩阵Mm为单位矩阵。

步骤404：计算视变换矩阵Mv，用于将世界坐标系中的三维模型Dn转换到相机坐标系；

本实施例中使用android.opengl.Matrix接口中的方法setLookAtM(float[]rm,int rmOffset,float eyeX,float eyeY,float eyeZ,float centerX,float centerY,float centerZ,float upX,float upY,float upZ)来计算视变换矩阵。其中视变换矩阵保存在rm数组中，rmOffset定义了rm中视变换矩阵的第一个值的索引。

如图5相机透视成像示意图所示，(eyeX,eyeY,eyeZ)为相机的地理位置坐标，根据移动端GPS获取的WGS 84坐标转换到统一的投影坐标系得到，在本实施例中就是移动端在WGS 84/Pseudo-Mercator坐标系中的x、y、z坐标。(centerX,centerY,centerZ)为相机视锥中心的坐标。

如图6所示，(upX,upY,upZ)为相机头部的朝向，是一个向量。(eyeX,eyeY,eyeZ)、(centerX,centerY,centerZ)和(upX,upY,upZ)均为世界坐标系下的坐标。

本实施例的以下计算均以WGS 84/Pseudo-Mercator为参考系，则(centerX,centerY,centerZ)的计算方式如下：

p′＝(w₁,xi,yj,zk)＝qpq^-1 (1)

式(1)为四元数运算，i、j、k是四元数的虚部，x、y、z是各虚部的系数，w₁为实数，q是手机姿态的四元数表示，根据Android手机的ROTATION_VECTOR传感器获取，q^-1为q的逆。p＝(0,0,0,-k)是三维向量(0,0,-1)的四元数表示，在相机没有任何旋转的情况下，该向量和相机镜头的朝向一致。

(upX,upY,upZ)的计算方式如下：

h′＝(w₂,upX·i,upY·j,upZ·k)＝qhq^-1 (3)

式(3)中w₂为实数，h＝(0,0,j,0)是三维向量(0，1,0)的四元数表示。

步骤405：计算投影变换矩阵Mp，用于将相机坐标系中的Dn转换到裁剪坐标系；

本实施例中使用android.opengl.Matrix接口中的方法perspectiveM(float[]m,int offset,float fovy,float aspect,float zNear,float zFar)计算Mp。其中m是保存Mp的数组。offset为m中Mp的第一个值的索引。fovy是相机y轴方向视角，如图5所示，底和顶是宽，左和右是高。如图6所示，Up-vector的方向就是相机y轴的方向。aspect为视口的宽高比，zNear为近裁剪平面离相机的距离，zFar为远裁剪平面离相机的距离。

步骤406：组合各个变换矩阵，得到综合的坐标变换矩阵M，其中M＝Mp*Mv*Mm；

步骤407：对Dn执行坐标变换；

若三维模型Dn上的一点为P＝(x,y,z,w)，P是齐次坐标，那么P点转换后的坐标为P′＝(Xclip,Yclip，Zclip，Wclip)＝M*P。P′再经过透视除法后，变换到规范化设备坐标系中，得到点

步骤408：对变换后的三维模型Dn进行视口变换，从规范化设备坐标系转换到屏幕坐标系，得到投影后的模型Dn′；

也就是将步骤407中得到的点Pndc转换为屏幕坐标Pscreen＝(Xs,Ys)。在本实施例中屏幕坐标系的原点在相机预览画面的左上角，向右为X轴正方向，向下为Y轴正方向，那么Pscreen的计算公式如下：

其中screen_w和screen_h分别为相机预览画面的宽和高，逐一取三维模型Dn上的点，完成对三维模型Dn的坐标转换，得到转换至预览画面所在的屏幕坐标系中的三维模型Dn′。

步骤409：将Dn′放入结果集D′；

步骤410：执行n＝n+1，返回步骤402；

步骤411：程序结束，得到的集合D′即为三维模型集合D投影到屏幕坐标系后的集合。

如图7所示为本实施例中增强现实应用的效果图，图中识别了一个智慧路灯，且虚拟信息能够准确地叠加在路灯上面。

在其他实施例中，还提供一种计算机设备，该计算机设备可以是移动端设备或服务器设备，该计算机设备包括存储器和处理器，所述存储器存储有计算机程序，所述处理器执行所述计算机程序时实现所述的基于目标检测和空间投影的移动端增强现实方法的步骤。

关于计算机设备的具体限定可以参见上文中对移动端增强现实方法的限定，在此不再赘述。上述计算机设备中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中，也可以以软件形式存储于计算机设备中的存储器中，以便于处理器调用执行以上各个模块对应的操作。

计算机设备可以是终端，其内部结构可以包括通过系统总线连接的处理器、存储器、网络接口、显示屏和输入装置。其中，计算机设备的处理器用于提供计算和控制能力。计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统和计算机程序。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时实现上述移动端增强现实方法。计算机设备的显示屏可以是液晶显示屏或者电子墨水显示屏，各设备的输入装置可以是显示屏上覆盖的触摸层，也可以是计算机设备外壳上设置的按键、轨迹球或触控板，还可以是外接的键盘、触控板或鼠标等。

在另一实施例中，提供了一种基于目标检测和空间投影的移动端增强现实系统，所述的基于目标检测和空间投影的移动端增强现实系统包括移动端和服务器，所述移动端和服务器通过通信网络执行如下操作：

具体地，所述移动端构建所述AI识别模型时，执行如下操作：

构建训练样本集和测试样本集；

具体地，所述移动端将三维模型投影到预览画面所在的屏幕坐标系中，执行如下操作：

以上所述实施例的各技术特征可以进行任意的组合，为使描述简洁，未对上述实施例中的各技术特征所有可能的组合都进行描述，然而，只要这些技术特征的组合不存在矛盾，都应当认为是本说明书记载的范围。

以上所述实施例仅表达了本申请的几种实施方式，其描述较为具体和详细，但并不能因此而理解为对发明专利范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本申请构思的前提下，还可以做出若干变形和改进，这些都属于本申请的保护范围。因此，本申请专利的保护范围应以所附权利要求为准。

Claims

1.一种基于目标检测和空间投影的移动端增强现实方法，实施在移动端，其特征在于，所述的基于目标检测和空间投影的移动端增强现实方法，包括：

接收服务器响应的转换到指定坐标系的三维模型并缓存；

2.如权利要求1所述的基于目标检测和空间投影的移动端增强现实方法，其特征在于，所述AI识别模型的构建方法，包括：

构建训练样本集和测试样本集；

3.如权利要求1所述的基于目标检测和空间投影的移动端增强现实方法，其特征在于，所述将三维模型投影到预览画面所在的屏幕坐标系中，包括：

4.一种基于目标检测和空间投影的移动端增强现实方法，实施在服务器，其特征在于，所述的基于目标检测和空间投影的移动端增强现实方法，包括：

建立三维地图系统，构建所有目标物简化的三维模型；

向移动端发送转换到指定坐标系的三维模型；

5.如权利要求4所述的基于目标检测和空间投影的移动端增强现实方法，其特征在于，所述AI识别模型的构建方法，包括：

构建训练样本集和测试样本集；

6.如权利要求4所述的基于目标检测和空间投影的移动端增强现实方法，其特征在于，所述将三维模型投影到预览画面所在的屏幕坐标系中，包括：

7.一种基于目标检测和空间投影的移动端增强现实系统，其特征在于，所述的基于目标检测和空间投影的移动端增强现实系统包括移动端和服务器，所述移动端和服务器通过通信网络执行如下操作：

8.如权利要求7所述的基于目标检测和空间投影的移动端增强现实系统，其特征在于，所述移动端构建所述AI识别模型时，执行如下操作：

构建训练样本集和测试样本集；

9.如权利要求7所述的基于目标检测和空间投影的移动端增强现实系统，其特征在于，所述移动端将三维模型投影到预览画面所在的屏幕坐标系中，执行如下操作：