CN115761442A

CN115761442A - 一种面向ar的目标识别方法及移动端ar系统

Info

Publication number: CN115761442A
Application number: CN202211463148.XA
Authority: CN
Inventors: 陈纯毅; 曹献烁; 胡小娟; 于海洋; 杨华民; 蒋振刚; 李华; 申忠业
Original assignee: Changchun University of Science and Technology
Current assignee: Changchun University of Science and Technology
Priority date: 2022-11-22
Filing date: 2022-11-22
Publication date: 2023-03-07

Abstract

本发明涉及一种面向AR的目标识别方法及移动端AR系统，涉及移动增强现实与目标检测领域，方法包括获取图片数据集；利用输入模块对所述图片数据集进行预处理，得到预处理后的图片；利用骨干模块对所述预处理后的图片进行特征提取，得到两个有效特征层；依次利用注意力机制模块和颈部模块对两个所述有效特征层进行处理，得到特征融合后的特征层；利用头部模块对所述特征融合后的特征层进行目标检测，得到目标识别结果。本发明在满足实时性的情况下，能够提高目标检测的检测精度和运动跟踪的稳定性，使用场景更加的多样化。

Description

一种面向AR的目标识别方法及移动端AR系统

技术领域

本发明涉及移动现实与目标检测领域，特别是涉及一种面向AR的目标识别方法及移动端AR系统。

背景技术

近年来，移动增强现实技术已广泛应用到医疗、游戏、教育等领域，其中儿童教育领域受益较大。儿童绘本、拼音卡片作为中国儿童教育中十分重要的教学工具，借助AR技术，能让儿童在玩中学，学中玩，达到寓教于乐的目的。传统的使用场景儿童只能对书本卡片上的东西进行学习，可能学习到书本的知识不能在现实生活中应用。例如，可能儿童在传统的AR绘本上认识了加菲猫，但是生活中遇到了狸花猫却不认识了，系统的局限性大大限制了儿童的想象力。用户通过扫描AR绘本触发AR场景，以普适机型最高的Vuforia SDK为例，无论识别哪种特征体，其底层原理都是数字图像处理的算法，包括特征检测、描述、匹配。在实际的开发过程中，需要对待识别的目标物体进行特征提取，对目标进行自然特征提取时，需要构建一个图像特征匹配库，并且特征匹配库需要棱角分明的清晰图片。如果出现新的应用场景需要新增识别特征体，还需要针对新的特征体目标重新进行图像采集并更新特征匹配库，过程十分繁琐。在实际的应用场景中，其对识别体的兼容性不够，对环境的鲁棒性也有待提高。

增强现实应用广泛，其获取的场景异常复杂，场景里的光照变化、物体的突然运动或停止的等情况，极易造成视觉系统里背景与前景的判断错乱。特别是目标发生遮挡重叠和光照因素影响导致表观特征不能被完全提取，进而发生漂移与目标丢失。这些问题给目标检测和三维环境感知带来了新的挑战，是每个增强现实系统要解决的首要困难。

目前，大多数方法采用基于Faster-RCNN进行精确目标检测中，由于使用了RPN网络和anchorbox机制，在面对复杂场景和小目标数量较多时计算量非常大，检测速度非常慢，不能移植到手机上。使用基于Yolo的检测方法中，存在检测精度低、模型低效等缺点。

发明内容

本发明的目的是提供一种面向AR的目标识别方法及移动端AR系统，以提高目标检测的检测精度和系统的稳定性。

为实现上述目的，本发明提供了如下方案：

一种面向AR的目标识别方法，包括：

获取图片数据集；

利用输入模块对所述图片数据集进行预处理，得到预处理后的图片；

利用骨干模块对所述预处理后的图片进行特征提取，得到两个有效特征层；

依次利用注意力机制模块和颈部模块对两个所述有效特征层进行处理，得到特征融合后的特征层；

利用头部模块对所述特征融合后的特征层进行目标检测，得到目标识别结果。

可选地，所述利用输入模块对所述图片数据集进行预处理，得到预处理后的图片，具体包括：

将所述图片数据集中的图片依次进行翻转、缩放和色域变化处理，得到初步处理图片；

将所述初步处理图片进行拼接，得到预处理后的图片。

可选地，所述骨干模块为CSPdarknet53_tiny。

可选地，所述依次利用注意力机制模块和颈部模块对两个所述有效特征层进行处理，得到特征融合后的特征层，具体包括：

利用所述注意力机制模块的通道注意力模块对两个所述有效特征层进行处理，得到通道注意力特征；

利用所述注意力机制模块的空间注意力模块对所述通道注意力特征和两个所述有效特征层进行处理，得到空间注意力特征；

根据所述空间注意力特征、所述通道注意力特征和两个所述有效特征层确定注意力机制模块输出特征；

利用所述颈部模块对所述注意力机制模块输出特征进行特征融合，得到特征融合后的特征层。

本发明还提供一种移动端AR系统，所述移动端AR系统应用上述任意一项所述的面向AR的目标识别方法，所述移动端AR系统包括：

获取模块，用于获取图片数据集；

预处理模块，用于利用输入模块对所述图片数据集进行预处理，得到预处理后的图片；

特征提取模块，用于利用骨干模块对所述预处理后的图片进行特征提取，得到两个有效特征层；

特征融合模块，用于依次利用注意力机制模块和颈部模块对两个所述有效特征层进行处理，得到特征融合后的特征层；

目标检测模块，用于利用头部模块对所述特征融合后的特征层进行目标检测，得到目标识别结果。

可选地，所述预处理模块，具体包括：

初步处理单元，用于将所述图片数据集中的图片依次进行翻转、缩放和色域变化处理，得到初步处理图片；

拼接单元，用于将所述初步处理图片进行拼接，得到预处理后的图片。

可选地，所述骨干模块为CSPdarknet53_tiny。

可选地，所述特征融合模块，具体包括：

通道注意力特征确定单元，用于利用所述注意力机制模块的通道注意力模块对两个所述有效特征层进行处理，得到通道注意力特征；

空间注意力特征确定单元，用于利用所述注意力机制模块的空间注意力模块对所述通道注意力特征和两个所述有效特征层进行处理，得到空间注意力特征；

注意力机制模块输出特征确定单元，用于根据所述空间注意力特征、所述通道注意力特征和两个所述有效特征层确定注意力机制模块输出特征；

特征融合单元，用于利用所述颈部模块对所述注意力机制模块输出特征进行特征融合，得到特征融合后的特征层。

根据本发明提供的具体实施例，本发明公开了以下技术效果：

本发明获取图片数据集；利用输入模块对所述图片数据集进行预处理，得到预处理后的图片；利用骨干模块对所述预处理后的图片进行特征提取，得到两个有效特征层；依次利用注意力机制模块和颈部模块对两个所述有效特征层进行处理，得到特征融合后的特征层；利用头部模块对所述特征融合后的特征层进行目标检测，得到目标识别结果。在利用颈部模块进行处理之前，先利用注意力机制对有效特征层进行处理，从而提高目标检测的检测精度。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1为基于改进的Yolov4-tiny的AR实时可视化系统结构图

图2为基于改进的Yolov4-tiny的AR实时可视化系统设计流程图；

图3为现有技术Yolov4-tiny的网络结构示意图；

图4为本发明提供的改进的Yolov4-tiny的网络结构示意图；

图5为现有CBAM注意力机制的网络结构示意图；

图6为本发明改进后的CBAM注意力机制的网络结构示意图；

图7为本发明提供的目标识别方法流程图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

为使本发明的上述目的、特征和优点能够更加明显易懂，下面结合附图和具体实施方式对本发明作进一步详细的说明。

如图7所示，本发明提供的一种面向AR的目标识别方法，本发明改进了原始的Yolov4-tiny网络结构，使得检测精度进一步提高，包括：

步骤101：获取图片数据集。

步骤102：利用输入模块对所述图片数据集进行预处理，得到预处理后的图片。

步骤102，具体包括：将所述图片数据集中的图片依次进行翻转、缩放和色域变化处理，得到初步处理图片；将所述初步处理图片进行拼接，得到预处理后的图片。

步骤103：利用骨干模块对所述预处理后的图片进行特征提取，得到两个有效特征层。所述骨干模块为CSPdarknet53_tiny。

步骤104：依次利用注意力机制模块和颈部模块对两个所述有效特征层进行处理，得到特征融合后的特征层。

步骤104，具体包括：利用所述注意力机制模块的通道注意力模块对两个所述有效特征层进行处理，得到通道注意力特征；利用所述注意力机制模块的空间注意力模块对所述通道注意力特征和两个所述有效特征层进行处理，得到空间注意力特征；根据所述空间注意力特征、所述通道注意力特征和两个所述有效特征层确定注意力机制模块输出特征；利用所述颈部模块对所述注意力机制模块输出特征进行特征融合，得到特征融合后的特征层。

步骤105：利用头部模块对所述特征融合后的特征层进行目标检测，得到目标识别结果。

现有的Yolov4-tiny网络包括：输入模块、骨干模块、颈部模块和头部模块；如图2所示CSPDarknet53-tiny为骨干模块；FPN为颈部模块；YoloHead为头部模块。如图3所示，本发明中改进的Yolov4-tiny网络与现有的Yolov4-tiny网络的区别在于增加注意力机制模块

输入模块通过Mosaic数据增强丰富数据集，丰富检测物体的背景，让网络的鲁邦性更好。首先一次性从数据集中随机读取四张图片，分别对四张图片进行翻转、缩放、色域等变化，然后将初步处理的四张图片按照左上、左下、右下、右上的顺序进行位置分布，组合得到一张新的图。根据纵横比自适应图像缩放处理获得大小统一的的输入RGB图像。

将处理好的RGB图作为网络输入，骨干模块利用主干特征提取网络CSPdarknet53_tiny提取有效特征，使用的CSPnet结构就是将原来的残差块的堆叠进行了一个拆分。CSPdarknet53_tiny会对一次3x3卷积后的特征层进行通道的划分，分成两部分，取第二部分，获得3个shape的有效特征层，不同shape的特征层用于不同目标尺寸的识别，13×13的特征图用于大目标检测，26×26的特征图用于中目标检测，52×52的特征图用于小目标检测，更好的利用特征信息。

将骨干模块输出的两个有效特征层作为颈部模块的输入，FPN特征金字塔对两个有效特征层进行特征融合，FPN将最后一个shape的有效特征层卷积后进行上采样，然后与上一个shape的有效特征层进行堆叠并卷积，对13×13特征图经过卷积、上采样操作，再与26×26尺寸的特征图进行Concat合并作为中目标特征图。对26×26尺寸的特征图进行卷积、上采样操作，再与52×52特征图进行Concat合并作为小目标特征图。

将将特征融合后的特征层作为头部模块的输入，Yolo Head利用多特征层进行目标检测，提取两个特征层，两个特征层分别为(13×13×512)，(26×26×512)。最后就是将提取的两个特征层预测结果进行解码，将特征层上的预测框还原到原图对应位置上，将解码后的包围框画到原RGB图片上。预测原理就是将整幅图分为13×13、26×26的网格，每个网格点负责一个区域的检测，特征图最后一个维度包含了x_offset横坐标的偏移量、y_offset纵坐标的偏移量、h高和w宽、置信度、分类结果。解码过程就是将每个网格点加上它对应的x_offset和y_offset，再加上1/2h和1/2w就得到了整个包围框的位置。

在所述颈部模块中添加混合注意力机制模块，为了提高有效信息的使用效率，提高识别精度，不同维度所代表的意义是不同的，对于通道而言多数是特征抽象的表达，可以理解为是什么；对于空间维度而言位置信息更为丰富，可以理解为在哪里。使Yolov4-tiny网络中经过多次训练后为输入特征不同的通道和空间信息分配不同的权重，并让网络学习自动调整；

引入一个新的目标检测头提高系统对小目标的识别能力，用于检测的特征图尺寸为52×52，原因是小物体的语义信息出现在较浅的特征图。Yolov4-tiny获取目标类别信息，将检测目标的包围框的中心点作为运动跟踪的锚点，结合锚点信息与设备IMU的惯性测量结果减小运动跟踪过程中的漂移误差，再根据跟踪结果完成虚拟模型在真实环境的渲染。

图4为注意力机制模块为CBAM模块。CBAM包含2个独立的子模块，左侧的CAM通道注意力模块和右侧的空间注意力模块，分别进行通道与空间上的注意力权重。将输入的特征图F(H×W×C)分别经过基于width和height的全局最大池化和全局平均池化，得到两个1×1×C的特征图，接着，再将它们分别送入一个两层的神经网络而后，将MLP输出的特征进行加和操作，再经过sigmoid激活操作，生成最终的通道注意力特征图，即M_c。最后，将M_c和输入特征图F做element-wise乘法操作，生成空间注意力模块需要的输入特征。将通道注意力模块输出的特征图作为空间注意力模块的输入特征图。首先做一个基于通道的全局最大池化和全局平均池化，得到两个H×W×1的特征图，然后将这2个特征图基于通道做concat操作。然后经过一个7×7卷积操作，降维为1个通道，即H×W×1。再经过sigmoid生成空间注意力特征图，即M_s。最后将该feature和该模块的输入feature做乘法，得到最终生成的特征。

本发明采用的注意力机制模块如图5所示，与现有的注意力机制模块不同的是，CAM通道注意力模块。改进的CAM通道注意力模块将全局最大池化和全局平均池化替换为一个全局平均池化，将原通道注意力模块中现有的两个全连接层替换成Same一维卷积，在减少参数量的同时，为了更好的学习通道与注意力权重之间的直接对应关系，并让网络学习自动调整。

本发明采用Yolov4-tiny方法为基本方法，解决了二阶段检测算法中检测速度慢，复杂度高的问题，并在手机移动端也可以达到实时状态。针对传统Yolo算法对小目标识别困难和检测准确性差的问题。在原始Yolov4-tiny网络的基础上，通过引入一个新的目标检测头、特征融合模块嵌入改进的CBAM注意力机制，改进了Yolov4-tiny算法，提高了目标检测的精度。是网络更能聚焦感兴趣区域，提高特征表征能力，实现了更加有效的特征融合。Yolov4-tiny获取目标类别信息，将检测目标的包围框的中心点作为运动跟踪的锚点，结合锚点信息与设备IMU的惯性测量结果减小运动跟踪过程中的漂移误差，再根据跟踪结果完成虚拟模型在真实环境的渲染，解决了传统增强现实系统在实际应用中的识别对象兼容性低、使用场景局限的问题。

获取模块，用于获取图片数据集。

预处理模块，用于利用输入模块对所述图片数据集进行预处理，得到预处理后的图片。

特征提取模块，用于利用骨干模块对所述预处理后的图片进行特征提取，得到两个有效特征层。

特征融合模块，用于依次利用注意力机制模块和颈部模块对两个所述有效特征层进行处理，得到特征融合后的特征层。

在实际应用中，所述预处理模块，具体包括：

初步处理单元，用于将所述图片数据集中的图片依次进行翻转、缩放和色域变化处理，得到初步处理图片。

在实际应用中，所述骨干模块为CSPdarknet53_tiny。

在实际应用中，所述特征融合模块，具体包括：

通道注意力特征确定单元，用于利用所述注意力机制模块的通道注意力模块对两个所述有效特征层进行处理，得到通道注意力特征。

空间注意力特征确定单元，用于利用所述注意力机制模块的空间注意力模块对所述通道注意力特征和两个所述有效特征层进行处理，得到空间注意力特征。

本发明是一种移动增强现实系统，如图1所示包括：摄像机模块、目标识别模块、运动跟踪模块和虚实融合模块。其中，目标识别模块应用本发明提供的面向AR的目标识别方法，采用改进的Yolov4-tiny，摄像机模块包括摄像机，摄像机用于获取图片，并将图片发送至图片数据集。运动跟踪模块用于计算摄像头随着时间推移而相对于周围世界的姿态，虚实融合模块基于手机的姿态信息将渲染3D内容与手机摄像头的姿态对齐，渲染的虚拟图像真实叠加到手机摄像头获取的图像上。

系统以ARCore官方提供的AugmentedImage图片识别项目为原型开发。为了解决现实使用场景中图片标识物不是随处可见的而导致系统使用的局限性问题，增加改进的Yolov4-tiny目标检测模块，系统提供了平面检测、图片识别和目标检测的功能，大大提高了系统的实用性。

系统开发流程如图2所示，首先在Unity3D内建立平面检测和图片识别需要的虚拟对象，制作预制体，编写触屏交互脚本并挂载到相关对象上。平面检测模块，制作平面预制体，创建平面生成器和平面控制器。前者用于平面生成，后者对项目的各种情况进行诊断和控制。编写并挂载生成器和控制器脚本，把ARCore的第一人称视角摄像头和显示的虚拟对象预制体赋给控制器脚本对应的参数，测试效果。图片识别，导入要识别的图片，创建图片数据库，编写多图片识别的控制器脚本并挂载测试效果。物体目标识别，插入改进的Yolov4-tiny模块，编写摄像头和识别脚本，使用移动设备优化模型集和精简标签集训练，把脚本挂载到项目场景摄像机上测试效果，完成应用开发。Yolov4-tiny目标识别网络引入新的小目标检测头，加入改进的CBAM注意力模块，在保证实时性的情况下，精度提高了2.9％，并且修改后的注意力模块比原始CBAM注意力模块参数量小，识别精度高。将Yolov4-tiny的目标识别功能和ARCore的运动追踪功能结合开发一个带有目标识别功能的移动AR系统，为了解决由于手机硬件导致的运动漂移问题，将目标识别的包围框中点作为运动跟踪的锚点信息，结合锚点信息和设备IMU惯性测量结果减小运动跟踪过程中的漂移误差。解决了传统增强现实系统在实际应用中的识别对象第、使用场景局限的问题。

如图3所示，AR系统的目标识别模块Yolov4-tiny的网络结构图，通过所述输入模块的Mosaic数据增强、自适应图像缩放处理输入的RGB图像；在骨干模块中，利用主干特征提取网络获得两个shape的有效特征层；颈部模块使用特征金字塔对所述特征图进行融合；最后经由头部模块，是所述融合后的特征图生成边界框并解码成检测结果包围框和检测结果。

如图4所示，在原有FPN模块中添加注意力机制模块，使Yolov4-tiny中网络经过多次训练后为输入不同的通道和空间信息分配不同的权重，并让网络学习自动调整。所述注意力机制模块为CBAM模块，可以快速插入各种模型中。有效地融合输入特征图的不同通道信息和空间信息。

如图6所示，改进的CBAM注意力机制将原有CBAM注意力的通道注意力模块中的两个全连接层替换为通道大小为k的快速1D卷积，可以有效解决原CBAM的通道注意力模块中降维破坏了通道与注意力权重之间的直接对应关系的问题。改进的CBAM注意力模块在不降低通道维度的情况下来进行跨通道信息交互，可以显著降低模型复杂度的统视保持性能。

本发明将AR系统中的目标识别模块Yolov4-tiny输出的包围框中心点作为ARCore中的锚点结合视觉惯性里程计信息以减小漂移误差。系统会根据手机移动设备过去的运动确定它的位置更新锚点位置，确保锚点的世界几何准确性。

系统融合经过改进的Yolov4-tiny，提供了平面检测、图片识别和物体目标检测的功能，提升了AR系统的实用性。系统测试表明：目标检测模块在满足实时性的情况下，相比于原Yolov4-tiny的识别精度提高2.9％，整个系统对识别对象的兼容性、对环境的鲁棒性有所提高，使用场景更加多样化。

本说明书中各个实施例采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似部分互相参见即可。对于实施例公开的系统而言，由于其与实施例公开的方法相对应，所以描述的比较简单，相关之处参见方法部分说明即可。

本文中应用了具体个例对本发明的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本发明的方法及其核心思想；同时，对于本领域的一般技术人员，依据本发明的思想，在具体实施方式及应用范围上均会有改变之处。综上所述，本说明书内容不应理解为对本发明的限制。

Claims

1.一种面向AR的目标识别方法，其特征在于，包括：

获取图片数据集；

2.根据权利要求1所述的面向AR的目标识别方法，其特征在于，所述利用输入模块对所述图片数据集进行预处理，得到预处理后的图片，具体包括：

将所述初步处理图片进行拼接，得到预处理后的图片。

3.根据权利要求1所述的面向AR的目标识别方法，其特征在于，所述骨干模块为CSPdarknet53_tiny。

4.根据权利要求1所述的面向AR的目标识别方法，其特征在于，所述依次利用注意力机制模块和颈部模块对两个所述有效特征层进行处理，得到特征融合后的特征层，具体包括：

5.一种移动端AR系统，其特征在于，所述移动端AR系统应用权利要求1-4任意一项所述的面向AR的目标识别方法，所述移动端AR系统包括：

获取模块，用于获取图片数据集；

6.根据权利要求5所述的移动端AR系统，其特征在于，所述预处理模块，具体包括：

7.根据权利要求5所述的移动端AR系统，其特征在于，所述骨干模块为CSPdarknet53_tiny。

8.根据权利要求5所述的移动端AR系统，其特征在于，所述特征融合模块，具体包括：