CN110109535A

CN110109535A - 增强现实生成方法及装置

Info

Publication number: CN110109535A
Application number: CN201910204354.0A
Authority: CN
Inventors: 周晨轶; 汤亿则; 王红凯; 梅峰; 王文; 冯宇; 蔡怡挺; 徐亦白; 卢杉; 冯烛明; 林晓亮
Original assignee: Information and Telecommunication Branch of State Grid Zhejiang Electric Power Co Ltd
Current assignee: Information and Telecommunication Branch of State Grid Zhejiang Electric Power Co Ltd
Priority date: 2019-03-18
Filing date: 2019-03-18
Publication date: 2019-08-09

Abstract

本发明公开了一种增强现实生成方法及装置。该方法包括：通过移动端获取目标设备的视频数据；将所述视频数据输入目标检测模型中，确定边框信息与类别信息；基于所述边框信息与所述类别信息确定所述目标设备的姿态信息与展示数据；基于所述姿态信息将所述展示数据与所述视频数据进行场景融合；以及将场景融合后的图像在所述移动端进行展示。本公开涉及的增强现实生成方法及装置，能够在各种复杂的真实场景下实时识别跟踪电力设备，并将设备信息显示在工作人员的移动终端上。

Description

增强现实生成方法及装置

技术领域

本公开涉及计算机信息处理领域，具体而言，涉及一种增强现实生成方法及装置。

背景技术

增强现实(Augmented Reality)技术是一种新兴计算机应用和人机交互技术，指的是用虚拟内容来做视觉上的增强，通过屏幕或投影设备来显示。它通过虚实融合技术将生成的虚拟信息如三维模型、文字图片、声音视频，融合到真实世界，以此来增强用户对真实世界的感知能力。

在增强现实技术提出后，在各个行业领域如医疗、制造、维修、军事训练等的应用纷纷出现。在电力行业，也正逐步开展增强现实技术的研究与应用。目前的增强显示技术大部分是基于特征点匹配算法的无标识跟踪匹配技术，存在很多问题。因此，需要一种新的增强现实生成方法及装置。

在所述背景技术部分公开的上述信息仅用于加强对本公开的背景的理解，因此它可以包括不构成对本领域普通技术人员已知的现有技术的信息。

发明内容

有鉴于此，本公开提供一种增强现实生成方法及装置，能够在各种复杂的真实场景下实时识别跟踪电力设备，并将设备信息显示在工作人员的移动终端上。

根据本公开的一方面，提出一种增强现实生成方法，该方法包括：通过移动端获取目标设备的视频数据；将所述视频数据输入目标检测模型中，确定边框信息与类别信息；基于所述边框信息与所述类别信息确定所述目标设备的姿态信息与展示数据；基于所述姿态信息将所述展示数据与所述视频数据进行场景融合；以及将场景融合后的图像在所述移动端进行展示。

在本公开的一种示例性实施例中，还包括：获取用户的手势；对所述手势进行识别，生成指令信息；以及基于所述指令信息调节所述场景融合后的图像的展示效果。

在本公开的一种示例性实施例中，还包括：通过历史数据对YOLOv3模型进行模型训练以获取所述目标检测模型。

在本公开的一种示例性实施例中，通过历史视频数据对YOLOv3模型进行模型训练以获取所述目标检测模型包括：获取多个设备在不同环境下、不同角度的多个图像；基于包围盒技术对所述多个图像进行数据标注；将标注后的所述多个图像分为训练图像与测试图像；以及通过所述训练图像与所述测试图像生成所述历史数据以对YOLOv3模型进行模型训练获取所述目标检测模型。

在本公开的一种示例性实施例中，通过所述训练图像与所述测试图像生成所述历史数据以对YOLOv3模型进行模型训练获取所述目标检测模型包括：将所述训练图像与测试图像输入由Tensorflow构建的YOLOv3模型；在GTX1080Ti下进行YOLOv3模型的训练与测试，获取初始目标检测模型；以及将所述初始目标检测模型编译为Java本机接口文件以生成目标检测模型。

在本公开的一种示例性实施例中，将所述视频数据输入目标检测模型中，确定边框信息与类别信息包括：将所述视频数据输入目标检测模型中；以及通过所述目标检测模型的MobileNetV2网络结构对所述视频数据进行检测分析以确定边框信息与类别信息。

在本公开的一种示例性实施例中，将所述视频数据输入目标检测模型中，确定边框信息与类别信息还包括：在所述目标检测模型对所述视频数据进行检测分析的过程中坐标损失采用平方误差损失函数。

在本公开的一种示例性实施例中，基于所述边框信息与所述类别信息确定所述目标设备的姿态信息与展示数据包括：基于所述边框信息确定所述目标设备的姿态信息；以及基于所述类别信息确定所述目标设备的展示数据。

在本公开的一种示例性实施例中，基于所述边框信息确定所述目标设备的姿态信息包括：基于单应性矩阵变换确定移动设备与平面投影的变换矩阵；以及基于所述变换矩阵与所述边框信息确定所述目标设备的所述姿态信息。

根据本公开的一方面，提出一种增强现实生成装置，该装置包括：数据模块，用于通过移动端获取目标设备的视频数据；检测模块，用于将所述视频数据输入目标检测模型中，确定边框信息与类别信息；姿态模块，用于基于所述边框信息与所述类别信息确定所述目标设备的姿态信息与展示数据；融合模块，用于基于所述姿态信息将所述展示数据与所述视频数据进行场景融合；以及展示模块，用于将场景融合后的图像在所述移动端进行展示。

根据本公开的一方面，提出一种电子设备，该电子设备包括：一个或多个处理器；存储装置，用于存储一个或多个程序；当一个或多个程序被一个或多个处理器执行，使得一个或多个处理器实现如上文的方法。

根据本公开的一方面，提出一种计算机可读介质，其上存储有计算机程序，该程序被处理器执行时实现如上文中的方法。

根据本公开的增强现实生成方法及装置，将视频数据输入目标检测模型中，确定边框信息与类别信息；基于所述边框信息与所述类别信息确定所述目标设备的姿态信息与展示数据；基于所述姿态信息将所述展示数据与所述视频数据进行场景融合；并将场景融合后的图像在所述移动端进行展示的方式，能够在各种复杂的真实场景下实时识别跟踪电力设备，并将设备信息显示在工作人员的移动终端上。

附图说明

通过参照附图详细描述其示例实施例，本公开的上述和其它目标、特征及优点将变得更加显而易见。

图1是根据一实施例示出的增强现实生成方法及装置的系统框图。

图2是根据一实施例示出的增强现实生成方法及装置的应用场景图。

图3是根据一实施例示出的增强现实生成方法的流程图。

图4是根据另一实施例示出的增强现实生成方法的流程图。

图5是根据另一实施例示出的增强现实生成方法的示意图。

图6是根据另一实施例示出的增强现实生成方法的示意图。

图7是根据一实施例示出的增强现实生成装置的框图。

图8是根据一实施例示出的增强现实生成装置的使用场景框图。

图9是根据一实施例示出的电子设备的框图。

具体实施方式

现在将参考附图更全面地描述示例实施例。然而，示例实施例能够以多种形式实施，且不应被理解为限于在此阐述的实施例；相反，提供这些实施例使得本公开将全面和完整，并将示例实施例的构思全面地传达给本领域的技术人员。在图中相同的附图标记表示相同或类似的部分，因而将省略对它们的重复描述。

本领域技术人员可以理解，附图只是示例实施例的示意图，附图中的模块或流程并不一定是实施本公开所必须的，因此不能用于限制本公开的保护范围。

本公开的申请人发现，增强现实技术主要可分为注册跟踪、虚实融合、人机交互三大模块。其中，注册跟踪模块在当下主要使用的是基于视觉的跟踪准配技术，具体可分为基于标识的跟踪准配与基于无标识的跟踪准备技术。基于标识的跟踪准配需要为设备提前添加标志物(比如二维码)，对于处于户外场景的电力作业场景，这些标识物容易掉落或变得模糊，因此该系统选用基于无标识的跟踪准配技术。传统的基于无标识的跟踪准配技术主要有SIFT算法，ORB算法，SURF算法等，这些基于特征点的匹配算法，存在以下的问题：

1、计算速度慢，实时性不好

2、对原图像进行尺度、旋转、亮度变化、模糊等变换后，匹配效果不佳，不能很好地应用于复杂的电力作业室外场景。

在计算机视觉领域中，深度学习的应用领域有图像分类、目标检测、姿态估计、语义分割等。而基于深度学习的目标检测，是对于给定的图像，检测其是否存在预定义类别的对象实例，如果存在，则返回每个实例的空间位置和范围。目前世界范围内已经出现了许多深度学习模型，如R-CNN，FASTER-RCNN，SSD，YOLO等，用于实现图像识别与目标检测，目标检测的精度和效率也得到了很大的提升。

本公开的增强现实生成方法，通过将当下前沿的基于深度学习的目标检测模型运用于本增强现实系统，用于实现目标识别与跟踪的功能，以此来解决传统方法的不足。

图1是根据一示例性实施例示出的一种增强现实生成方法及装置的系统框图。

如图1所示，系统架构100可以包括移动端设备101、102、103，网络104和服务器105。网络104用以在移动端设备101、102、103和服务器105之间提供通信链路的介质。网络104可以包括各种连接类型，例如有线、无线通信链路或者光纤电缆等等。

用户可以使用移动端设备101、102、103通过网络104与服务器105交互，以接收或发送消息等。移动端设备101、102、103上可以安装有各种通讯客户端应用，例如购物类应用、网页浏览器应用、搜索类应用、即时通信工具、邮箱客户端、社交平台软件等。

移动端设备101、102、103可以是具有显示屏并且支持数据传输的各种电子设备，移动端设备101、102、103包括但不限于台式电脑、笔记本电脑、超极本、平板电脑、手机、可穿戴式AR眼镜、可穿戴式VR眼镜和/或其他带有的摄像头的可穿戴式设备。

移动端设备101、102、103可例如获取目标设备的视频数据；移动端设备101、102、103可例如将所述视频数据输入目标检测模型中，确定边框信息与类别信息；移动端设备101、102、103可例如基于所述边框信息与所述类别信息确定所述目标设备的姿态信息与展示数据；移动端设备101、102、103可例如基于所述姿态信息将所述展示数据与所述视频数据进行场景融合；终以及端设备101、102、103可例如将场景融合后的图像进行展示。

移动端设备101、102、103还可例如获取用户的手势；移动端设备101、102、103还可例如对所述手势进行识别，生成指令信息；移动端设备101、102、103还可例如基于所述指令信息调节所述场景融合后的图像的展示效果。

移动端设备101、102、103还可例如通过历史数据对YOLOv3模型进行模型训练以获取所述目标检测模型。

服务器105可以是提供各种服务的服务器，例如对用户利用移动端设备101、102、103所传输的视频数据提供数据管理服务器。服务器105可以视频数据进行分析等处理，并将处理结果(例如展示信息)反馈给移动端设备。

移动端设备101、102、103在获取视频数据之后，可将视频数据发送给服务器105，服务器105可例如获取目标设备的视频数据；服务器105可例如将所述视频数据输入目标检测模型中，确定边框信息与类别信息；服务器105可例如基于所述边框信息与所述类别信息确定所述目标设备的姿态信息与展示数据；服务器105可例如基于所述姿态信息将所述展示数据与所述视频数据进行场景融合；服务器105可例如将场景融合后的图像在移动端设备101、102、103上进行展示。

移动端设备101、102、103还可例如获取用户的手势；移动端设备101、102、103将手势传输给服务器105，服务器105还可例如对所述手势进行识别，生成指令信息；移动端设备101、102、103还可例如基于所述指令信息调节所述场景融合后的图像的展示效果。

服务器105还可例如通过历史数据对YOLOv3模型进行模型训练以获取所述目标检测模型。

服务器105可以是一个实体的服务器，还可例如为多个服务器组成，需要说明的是，本公开实施例所提供的增强现实生成方法可以由服务器105和/或移动端设备101、102、103执行，相应地，增强现实生成装置可以设置于服务器105和/或移动端设备101、102、103中。而提供给用户获取视频数据的接收端一般位于移动端设备101、102、103中。

图2是根据一示例性实施例示出的一种增强现实生成方法及装置的应用场景图。

如图2所示，电力任务常面临高空高压等高风险情况，可例如在培训中，将信息显示在设备上，可以为工作人员展示设备的三维模型及设备细节，还可展示电流、辐射量、温度等不可见的信息，同时可以提升操作的顺序，避免因误操作造成的危险。

如图2所示，电力设备的差异性和操作的复杂性也是对作业人员的一项挑战，还可例如在设备安装与检修中，工作人员面对种类、样式繁多的设备，需要提前开展大量的资料查询准备工作。而采用增强现实技术，将三维模型的操作指导贴合于设备上，检修人员可以直接在物理设备上查看并遵循指导，按步骤快速完成检修工作。

根据本公开的增强现实生成方法及装置，能够实现一个电力作业应用背景下的增强现实辅助系统原型，能够在各种复杂的场景如阴天、傍晚等情况下仍然可以实时识别跟踪电力设备，可以将电力设备的三维模型与设备的操作手册、技术指导、设备拆解等信息显示在工作人员的移动端上，让工作人员能方便地获取所需信息，更好完成电力作业。

图3是根据一示例性实施例示出的一种增强现实生成方法的流程图。增强现实生成方法至少包括步骤S302至S310。

如图3所示，在S302中，通过移动端获取目标设备的视频数据。移动端包括但不限于台式电脑、笔记本电脑、超极本、平板电脑、手机、可穿戴式AR眼镜、可穿戴式VR眼镜和/或其他带有的摄像头的可穿戴式设备。

在S304中，将视频数据输入目标检测模型中，确定边框信息与类别信息。其中，目标检测模型是通过历史数据对YOLOv3模型进行模型训练获取的。

在一个实施例中，将所述视频数据输入目标检测模型中，确定边框信息与类别信息包括：将所述视频数据输入目标检测模型中；以及通过所述目标检测模型的MobileNetV2网络结构对所述视频数据进行检测分析以确定边框信息与类别信息。

其中，YOLO(you only look once)将目标检测任务当作回归问题来处理。通过YOLO，每张图像只需要看一眼，就能利用图片的像素值得到bounding box的坐标、box中包含物体的置信度和class probabilities。YOLO检测物体的速度很快,网络较小的版本在Titan X上能达到155FPS。相较于别的物体检测系统，YOLO在物体定位时容易出错，但是在FP(false positives)的情况会少一些，而且能够学到更加抽象的物体的特征。YOLOv3使用了多尺度预测，更好的基础分类网络，使用了分类器-类别预测，使得其效果得到了很大的提升。YOLO的V1和V2都不如SSD算法，V1的448尺寸与V2的416尺寸都不如SSD的300，但是V3版本的416比SSD的512好。

在一个实施例中，还包括通过历史数据对YOLOv3模型进行模型训练以获取所述目标检测模型。具体内容将在图4对应的实施例中进行详细描述。

在S306中，基于所述边框信息与所述类别信息确定所述目标设备的姿态信息与展示数据。在获得目标检测的结果后，需要对虚拟物体的姿态进行估计，也就是根据相机的坐标系来确定虚拟物体在帧之间的转换关系。为了求解姿态参数，要建立2D平面坐标到3D真实世界坐标的映射关系。由于摄像机的内参是固定的，所以在匹配过程中可以计算单应性矩阵来确定目标，并且可以将二位像素点实时地转换为世界坐标系的对应的三维点，也就实现了姿态估计。

其中，将所述视频数据输入目标检测模型中，确定边框信息与类别信息还包括：在所述目标检测模型对所述视频数据进行检测分析的过程中坐标损失采用平方误差损失函数。

在S308中，基于所述姿态信息将所述展示数据与所述视频数据进行场景融合。包括：基于所述边框信息确定所述目标设备的姿态信息；以及基于所述类别信息确定所述目标设备的展示数据。

在一个实施例中，基于所述边框信息确定所述目标设备的姿态信息包括：基于单应性矩阵变换确定移动设备与平面投影的变换矩阵；以及基于所述变换矩阵与所述边框信息确定所述目标设备的所述姿态信息。

将预设好的虚拟信息如物体三维模型、介绍、教程、提示等内容与真实场景融合，显示在移动设备上。

在位姿估计上，本系统使用了单应性矩阵变换。根据摄像机线性成像模型，世界坐标系中的点Q(X_w，Y_w，Z_w，1)^T与其在成像平面上的投影q(x，y，1)^T存在如下变换关系：

其中：λ为比例因子；M₁为摄像机的内数参数矩阵，M₂为摄像机外参数矩阵，即三维注册矩阵。若要实现准确的增强现实效果，则需要求解M₂矩阵。在对象坐标系下，Z_W＝0则上式可改写为：

N_W为对象与物体扫描识别图标定顶点之间存在的单应性矩阵。

R₃＝R₁×R₂ (5)

由于第j帧图像与第j-1帧图像间的单应性矩阵为

故第j-1帧图像与初始帧图像之间的单应性矩阵为与基准图像之间的单应性矩阵为

在S310中，将场景融合后的图像在所述移动端进行展示。利用移动端相机获取输入图片，调用YOLOv3的目标检测模型，实时计算出边框与类别信息，实现视觉识别。然后利用边框信息，进行位置姿态计算，进行虚拟三维物体与视频流的叠加。将预设好的虚拟信息如物体三维模型、介绍、教程、提示等内容与真实场景融合，显示在移动设备上。

在一个实施例中，还包括：获取用户的手势；对所述手势进行识别，生成指令信息；以及基于所述指令信息调节所述场景融合后的图像的展示效果。人机交互模块，采用的方式主要为手势识别。手势识别需要实现3D模型的放大、缩小、旋转、文字显示等，另外还需要设计用户界面，通过便捷的UI操作调用不同的功能。

根据本公开的增强现实生成方法,能够实现电力作业应用背景下的增强现实辅助系统原型，能够在各种复杂的场景如阴天、傍晚等情况下仍然可以实时识别跟踪电力设备，可以将电力设备的三维模型与设备的操作手册、技术指导、设备拆解等信息显示在工作人员的移动端上，让工作人员能方便地获取所需信息，更好完成电力作业。

根据本公开的增强现实生成方法,提出增强现实辅助系统的目标在于应用深度学习中的目标检测方法，来替代传统增强现实中所用的识别跟踪算法，以此来满足电力作业环境对系统的速度与稳定性的要求。

应清楚地理解，本公开描述了如何形成和使用特定示例，但本公开的原理不限于这些示例的任何细节。相反，基于本公开公开的内容的教导，这些原理能够应用于许多其它实施例。

图4是根据另一示例性实施例示出的一种增强现实生成方法的流程图。图4所示的流程是对“通过历史数据对YOLOv3模型进行模型训练以获取所述目标检测模型”的详细描述，

如图4所示，在S402中，获取多个设备在不同环境下、不同角度的多个图像。可例如在变电站采集照片数据集，数据内容涵盖变压器、电压互感器、电流互感器、开关设备、防雷设备等九种设备，且包含了阴天与傍晚等复杂场景，还包含了设备的各个角度，且包含了阴天与傍晚等复杂场景，共计2400张。

在S404中，基于包围盒技术对所述多个图像进行数据标注。对采集到的2400张数据进行标注，用Bounding Box标注出图片中所有待检测设备的位置、大小及类别。

在S406中，将标注后的所述多个图像分为训练图像与测试图像。2400张图片中可有2000张用作训练集，400张用作测试集。

在S408中，通过所述训练图像与所述测试图像生成所述历史数据以对YOLOv3模型进行模型训练获取所述目标检测模型。图5，图6是根据另一示例性实施例示出的一种增强现实生成方法的示意图。YOLOv3模型如图5，图6所示。

现有技术中的YOLOv3网络计算量较大，由于本申请中的方法最终需要在移动设备上运行，所以本公开在YOLOv3的进行了简化。首先是backbone部分，YOLOv3中使用的是Darknet与ResNet，本系统将其替换为适合在手机上运行的MobileNetV2。MobileNetv2采用了特殊的“瓶颈”(bottleneck)结构和depth-wise卷积，大大减少了模型参数量和浮点数运算次数，从而使MobileNetv2具有轻量、高效等优势。我们也对原始的MobileNetv2进行了参数调整，以保证在一定的精度下有最快的运行速度。表1展示了模型骨干网络的参数设置。

表1模型骨干网络参数设置

输入	操作	t	c	n	s
						640×480×3	2d卷积结构	-	32	1	2
320×240×32	瓶颈结构	1	16	1	1
						320×240×16	瓶颈结构	4	16	2	2
160×120×16	瓶颈结构	4	24	3	2
						80×60×24	瓶颈结构	4	32	4	2
40×30×32	瓶颈结构	4	64	3	1
						40×30×64	瓶颈结构	4	128	3	2
20×15×128	瓶颈结构	4	256	1	1

其中，t表示扩张因子，c表示通道数，n表示重复次数，s表示stride。

在一个实施例中，可在Tensorflow下编写神经网络结构，并在GTX1080Ti下进行模型的训练与测试。具体方法如下：

1、模型选择。选择当下运行速度与精度都较为领先的YOLOv3模型作为基础，并针对系统在移动端的运行对网络结构进行了调整。

2、预训练。使用ImageNet1000类数据训练YOLO网络的backbone部分的网络。

3、微调。导入预训练的参数，使用该项目使用的2000张训练集对模型进行进一步的训练。

4、使用转换工具将目标检测模型转换为可在移动端运行的模型，并使用Java本机接口(Java Native Interface,JNI)实现对目标检测模型的调用。

在现有技术的的YOLOv3中，为了得到不同尺度大小的预测，在提取图像的特征(feature map)信息进行上采样时，需要通过一个卷积集合(Conv Set)的结构，该结构时由三个pointwise卷积与两个3x3的卷积交替相接而得。在我们的实际实验中发现，当主干网络选择的是MobileNetV2时，即便是将Conv Set中的Conv3x3全部替换为深度可分离卷积结构(Depthwise Convolution)仍然可以保持精度，而且还能提高一定的运行速度。

本公开在模型训练时候，在损失上使用了anchor策略，坐标的损失采用的是平方误差损失。边框的表示方式为通过框的中心坐标bx，by，和框的宽bw，高bh这4个变量来表示。实际预测的值为tx,ty,tw,th。cx和cy表示grid cell的坐标。pw和ph表示预测前bounding box的size。它们之间的关系如下所示。

b_x＝σ(t_x)+c_x (9)

b_y＝σ(t_y)+c_y (10)

在训练上，可使用的是SGD，初始学习率为0.0001，momentum为0.9。为了避免优化时越过最优值，学习率采用了线性递减机制以降低收敛速度：

其中，step表示当前训练次数，Iters是指训练的总次数，power是一个衰减参数，这里使用的值是0.9，lr_t-1指旧的学习率，lr_t指更新后的学习率。

本发明将增强现实技术应用于电力作业场景，可以降低电力作业中面对高空高压情况所面临的风险，加快培训员工的速度。将电力设备信息以增强现实的形式显示在工作人员的移动设备上，工作人员在面对种类、样式繁多的设备时，也能按步骤快速地完成相关工作避免因误操作带来的影响。

在增强现实的核心注册跟踪模块，本系统使用了当下较为先进的基于深度学习的目标检测模型，在识别多种类的设备上可以获得更快的运行速度与更高的准确度，在面对电力场景可能出现的天气、光线等的变化下，也能取得更加稳定的效果。

本发明在测试集上做了对应的相关验证性实验如表2所示。

表2算法对比

	SIFT算法	SURF算法	YOLOv3
				特征点检测和描述	26.2ms	11.8ms	-
匹配跟踪	8.5ms	4.1ms	8.1ms
				总时间	34.7ms	15.9ms	8.1ms
准确率	91.0％	87.1％	95.4％

表2展示了在PC端，GPU为1080Ti时各算法的运行时间的比较，与传统的SIFT与SURF等基于特征点检测的算法不同，YOLOv3是基于深度学习对像素级别的检测，因此在总时间上较传统方法有很大的提升。在准确率上，因为数据集中存在有许多特殊情况，如视角变化，部分遮挡，光线昏暗等，因此传统的方法在该测试集上表现不佳，而基于深度学习的目标检测方法在训练时已涵盖了这些特殊情况，所以在特殊场景下表现也令人满意。

表3注册准确率

	正常状态	视角变化	部分遮挡	光线昏暗
					模型丢失	0	2	2	1
位置偏差	2	2	1	3
					正确注册	198	71	77	46
总次数	200	75	80	50
					准确率/％	99	94.7	96.2	92

本领域技术人员可以理解实现上述实施例的全部或部分步骤被实现为由CPU执行的计算机程序。在该计算机程序被CPU执行时，执行本公开提供的上述方法所限定的上述功能。所述的程序可以存储于一种计算机可读存储介质中，该存储介质可以是只读存储器，磁盘或光盘等。

此外，需要注意的是，上述附图仅是根据本公开示例性实施例的方法所包括的处理的示意性说明，而不是限制目的。易于理解，上述附图所示的处理并不表明或限制这些处理的时间顺序。另外，也易于理解，这些处理可以是例如在多个模块中同步或异步执行的。

下述为本公开装置实施例，可以用于执行本公开方法实施例。对于本公开装置实施例中未披露的细节，请参照本公开方法实施例。

图7是根据一示例性实施例示出的一种增强现实生成装置的框图。增强现实生成装置包括：数据模块702，检测模块704，姿态模块706，融合模块708，以及展示模块710。

数据模块702用于通过移动端获取目标设备的视频数据；移动端包括但不限于台式电脑、笔记本电脑、超极本、平板电脑、手机、可穿戴式AR眼镜、可穿戴式VR眼镜和/或其他带有的摄像头的可穿戴式设备。

检测模块704用于将所述视频数据输入目标检测模型中，确定边框信息与类别信息；其中，目标检测模型是通过历史数据对YOLOv3模型进行模型训练获取的。

姿态模块706用于基于所述边框信息与所述类别信息确定所述目标设备的姿态信息与展示数据；将所述视频数据输入目标检测模型中；以及通过所述目标检测模型的MobileNetV2网络结构对所述视频数据进行检测分析以确定边框信息与类别信息。

融合模块708用于基于所述姿态信息将所述展示数据与所述视频数据进行场景融合；包括：基于所述边框信息确定所述目标设备的姿态信息；以及基于所述类别信息确定所述目标设备的展示数据。

展示模块710用于将场景融合后的图像在所述移动端进行展示。。将预设好的虚拟信息如物体三维模型、介绍、教程、提示等内容与真实场景融合，显示在移动设备上。

图8是根据一示例性实施例示出的一种增强现实生成装置的使用场景框图。

其中，使用移动设备的摄像头采集真实场景视频，采集的视频被分别传递至跟踪准配模块和虚实融合模块。跟踪准配模块采取基于深度学习的目标检测模型，对视频图像进行处理后，对目标跟踪定位对数据进行整合处理。虚拟融合模块对虚拟物体进行位姿估计，将预设好的虚拟信息如物体三维模型、介绍、教程、提示等内容与真实场景融合，显示在移动设备上。

图9是根据一示例性实施例示出的一种电子设备的框图。

下面参照图9来描述根据本公开的这种实施方式的电子设备200。图9显示的电子设备200仅仅是一个示例，不应对本公开实施例的功能和使用范围带来任何限制。

如图9所示，电子设备200以通用计算设备的形式表现。电子设备200的组件可以包括但不限于：至少一个处理单元210、至少一个存储单元220、连接不同系统组件(包括存储单元220和处理单元210)的总线230、显示单元240等。

其中，所述存储单元存储有程序代码，所述程序代码可以被所述处理单元210执行，使得所述处理单元210执行本说明书上述电子处方流转处理方法部分中描述的根据本公开各种示例性实施方式的步骤。例如，所述处理单元210可以执行如图3，图4中所示的步骤。

所述存储单元220可以包括易失性存储单元形式的可读介质，例如随机存取存储单元(RAM)2201和/或高速缓存存储单元2202，还可以进一步包括只读存储单元(ROM)2203。

所述存储单元220还可以包括具有一组(至少一个)程序模块2205的程序/实用工具2204，这样的程序模块2205包括但不限于：操作系统、一个或者多个应用程序、其它程序模块以及程序数据，这些示例中的每一个或某种组合中可能包括网络环境的实现。

总线230可以为表示几类总线结构中的一种或多种，包括存储单元总线或者存储单元控制器、外围总线、图形加速端口、处理单元或者使用多种总线结构中的任意总线结构的局域总线。

电子设备200也可以与一个或多个外部设备300(例如键盘、指向设备、蓝牙设备等)通信，还可与一个或者多个使得用户能与该电子设备200交互的设备通信，和/或与使得该电子设备200能与一个或多个其它计算设备进行通信的任何设备(例如路由器、调制解调器等等)通信。这种通信可以通过输入/输出(I/O)接口250进行。并且，电子设备200还可以通过网络适配器260与一个或者多个网络(例如局域网(LAN)，广域网(WAN)和/或公共网络，例如因特网)通信。网络适配器260可以通过总线230与电子设备200的其它模块通信。应当明白，尽管图中未示出，可以结合电子设备200使用其它硬件和/或软件模块，包括但不限于：微代码、设备驱动器、冗余处理单元、外部磁盘驱动阵列、RAID系统、磁带驱动器以及数据备份存储系统等。

通过以上的实施方式的描述，本领域的技术人员易于理解，这里描述的示例实施方式可以通过软件实现，也可以通过软件结合必要的硬件的方式来实现。因此，根据本公开实施方式的技术方案可以以软件产品的形式体现出来，该软件产品可以存储在一个非易失性存储介质(可以是CD-ROM，U盘，移动硬盘等)中或网络上，包括若干指令以使得一台计算设备(可以是个人计算机、服务器、或者网络设备等)执行根据本公开实施方式的上述方法。

可以以一种或多种程序设计语言的任意组合来编写用于执行本公开操作的程序代码，所述程序设计语言包括面向对象的程序设计语言—诸如Java、C++等，还包括常规的过程式程序设计语言—诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算设备上执行、部分地在用户设备上执行、作为一个独立的软件包执行、部分在用户计算设备上部分在远程计算设备上执行、或者完全在远程计算设备或服务器上执行。在涉及远程计算设备的情形中，远程计算设备可以通过任意种类的网络，包括局域网(LAN)或广域网(WAN)，连接到用户计算设备，或者，可以连接到外部计算设备(例如利用因特网服务提供商来通过因特网连接)。

上述计算机可读介质承载有一个或者多个程序，当上述一个或者多个程序被一个该设备执行时，使得该计算机可读介质实现如下功能：通过移动端获取目标设备的视频数据；将所述视频数据输入目标检测模型中，确定边框信息与类别信息；基于所述边框信息与所述类别信息确定所述目标设备的姿态信息与展示数据；基于所述姿态信息将所述展示数据与所述视频数据进行场景融合；以及将场景融合后的图像在所述移动端进行展示。

本领域技术人员可以理解上述各模块可以按照实施例的描述分布于装置中，也可以进行相应变化唯一不同于本实施例的一个或多个装置中。上述实施例的模块可以合并为一个模块，也可以进一步拆分成多个子模块。

通过以上的实施例的描述，本领域的技术人员易于理解，这里描述的示例实施例可以通过软件实现，也可以通过软件结合必要的硬件的方式来实现。因此，根据本公开实施例的技术方案可以以软件产品的形式体现出来，该软件产品可以存储在一个非易失性存储介质(可以是CD-ROM，U盘，移动硬盘等)中或网络上，包括若干指令以使得一台计算设备(可以是个人计算机、服务器、移动终端、或者网络设备等)执行根据本公开实施例的方法。

Claims

1.一种增强现实生成方法，其特征在于，包括：

通过移动端获取目标设备的视频数据；

将所述视频数据输入目标检测模型中，确定边框信息与类别信息；

基于所述边框信息与所述类别信息确定所述目标设备的姿态信息与展示数据；

基于所述姿态信息将所述展示数据与所述视频数据进行场景融合；以及

将场景融合后的图像在所述移动端进行展示。

2.如权利要求1所述的方法，其特征在于，还包括：

获取用户的手势；

对所述手势进行识别，生成指令信息；以及

基于所述指令信息调节所述场景融合后的图像的展示效果。

3.如权利要求1所述的方法，其特征在于，还包括：

通过历史数据对YOLOv3模型进行模型训练以获取所述目标检测模型。

4.如权利要求3所述的方法，其特征在于，通过历史视频数据对YOLOv3模型进行模型训练以获取所述目标检测模型包括：

获取多个设备在不同环境下、不同角度的多个图像；

基于包围盒技术对所述多个图像进行数据标注；

将标注后的所述多个图像分为训练图像与测试图像；以及

通过所述训练图像与所述测试图像生成所述历史数据以对YOLOv3模型进行模型训练获取所述目标检测模型。

5.如权利要求4所述的方法，其特征在于，通过所述训练图像与所述测试图像生成所述历史数据以对YOLOv3模型进行模型训练获取所述目标检测模型包括：

将所述训练图像与所述测试图像输入由Tensorflow构建的YOLOv3模型；

在GTX1080Ti下进行YOLOv3模型的训练与测试，获取初始目标检测模型；以及

将所述初始目标检测模型编译为Java本机接口文件以生成所述目标检测模型。

6.如权利要求1所述的方法，其特征在于，将所述视频数据输入目标检测模型中，确定边框信息与类别信息包括：

将所述视频数据输入目标检测模型中；以及

通过所述目标检测模型的MobileNetV2网络结构对所述视频数据进行检测分析以确定边框信息与类别信息。

7.如权利要求6所述的方法，其特征在于，将所述视频数据输入目标检测模型中，确定边框信息与类别信息还包括：

在所述目标检测模型对所述视频数据进行检测分析的过程中坐标损失采用平方误差损失函数。

8.如权利要求1所述的方法，其特征在于，基于所述边框信息与所述类别信息确定所述目标设备的姿态信息与展示数据包括：

基于所述边框信息确定所述目标设备的姿态信息；以及

基于所述类别信息确定所述目标设备的展示数据。

9.如权利要求8所述的方法，其特征在于，基于所述边框信息确定所述目标设备的姿态信息包括：

基于单应性矩阵变换确定移动设备与平面投影的变换矩阵；以及

基于所述变换矩阵与所述边框信息确定所述目标设备的姿态信息。

10.一种增强现实生成装置，其特征在于，包括：

数据模块，用于通过移动端获取目标设备的视频数据；

检测模块，用于将所述视频数据输入目标检测模型中，确定边框信息与类别信息；

姿态模块，用于基于所述边框信息与所述类别信息确定所述目标设备的姿态信息与展示数据；

融合模块，用于基于所述姿态信息将所述展示数据与所述视频数据进行场景融合；以及

展示模块，用于将场景融合后的图像在所述移动端进行展示。