CN113743420B

CN113743420B - 一种基于云边端协同的Web AR图像识别方法及系统

Info

Publication number: CN113743420B
Application number: CN202110985743.9A
Authority: CN
Inventors: 乔秀全; 李文蔚; 黄亚坤; 詹舒波; 陈俊亮
Original assignee: Beijing University of Posts and Telecommunications
Current assignee: Beijing University of Posts and Telecommunications
Priority date: 2021-08-26
Filing date: 2021-08-26
Publication date: 2023-12-05
Anticipated expiration: 2041-08-26
Also published as: CN113743420A

Abstract

本发明公开了一种基于云边端协同的Web AR图像识别方法及系统，该方法包括：接收用户端上传的查询图，并根据基于卷积神经网络的图像嵌入算法对查询图进行处理，生成特征向量；根据所述特征向量，在预先配置的大规模图像库，通过特征向量比对，确定出与查询图相似度最高的N张图像，确保目标图存在于N张图像之中；对所述查询图和确定的N张图像，使用图像匹配算法，提取特征点和描述符，并根据特征点和描述符进行匹配计算，得到每张图像的匹配点数量；根据匹配点数量的排序，确定最后与所述查询图对应的匹配图像结果。本发明能够从采集的图像中提取感兴趣区域，加快后续特征提取速度，提高图像识别速度，降低云端计算资源和带宽压力。

Description

一种基于云边端协同的Web AR图像识别方法及系统

技术领域

本发明涉及增强现实应用领域，具体来说，涉及一种基于云边端协同的Web AR图像识别方法及系统。

背景技术

增强现实技术是一种将虚拟信息与真实世界巧妙融合的技术。基于浏览器实现的Web AR凭借轻量级、普适化、跨平台的优势，吸引了学术和工业界越来越多的关注。通常，完整的Web AR应用流程包括从用户摄像头获取目标帧、图像预处理、特征点检测、图像识别、对象跟踪以及实时渲染等步骤，而图像识别是其中最为关键的环节之一。

目前，在移动Web浏览器上实现图像识别通常有以下两种方式：第一种是基于纯前端浏览器的传统图像识别解决方案，例如，前端框架JSFeat实现了基于JavaScript的几种典型的传统图像匹配算法，如SIFT、ORB、AKAZE算法。但基于纯前端浏览器的传统图像识别解决方案无法支持大规模图像识别，难以满足实际应用的需求。第二种是基于云端的解决方案，考虑到Web前端有限的计算力，需要将计算量大，处理流程复杂的特征点检测和匹配等密集计算任务卸载到云端执行。尽管云计算协作服务能够扩展终端设备的计算能力，但也引起了一定的通信延迟，在大规模并发情况下，会造成云端计算资源和带宽压力的巨大消耗。

发明内容

针对相关技术中的面向Web AR场景和大规模图像数据的图像识别方法在应用中存在的准确度低，响应时间长等问题，本发明提出一种基于云边端协同的Web AR图像识别方法及系统，其能够从采集的图像中提取感兴趣区域，加快后续特征提取速度，基于深度学习的图像检索进一步加快图像识别速度，降低云端计算资源和带宽压力。

本发明的技术方案是这样实现的：

根据本发明的一个方面，提供了一种基于云边端协同的Web AR图像识别方法。

该基于云边端协同的Web AR图像识别方法包括：

接收用户端上传的查询图，并根据基于卷积神经网络的图像嵌入算法对查询图进行处理，生成特征向量；

根据所述特征向量，在预先配置的大规模图像库，通过特征向量比对，确定出与查询图相似度最高的N张图像，确保目标图存在于N张图像之中；

对所述查询图和确定的N张图像，使用图像匹配算法，提取特征点和描述符，并根据特征点和描述符进行匹配计算，得到每张图像的匹配点数量；

根据匹配点数量的排序，确定最后与所述查询图对应的匹配图像结果。

另外，该基于云边端协同的Web AR图像识别方法还包括：获取用户上传的图像，并根据预先配置的加载轻量化后的显著性检测模型，对该图像进行处理，得到二值化黑白显著图；根据区域生成算法对二值化黑白显著图的像素值进行分析，确定感兴趣区域分布位置，获得最终的裁剪区域坐标；根据裁剪区域坐标对图像进行裁剪处理，并将裁剪处理得到的图像作为查询图，并上传查询图。

此外，该基于云边端协同的Web AR图像识别方法还包括：对预先配置的大规模图像库中的图像数据按照地理位置进行分类；在边缘节点初始化时，将数据对象按照地理位置局里关系读入最近的边缘节点缓存，促使查询图匹配时，大规模图像库中的图像数据能够分配至与用户端最近的边缘节点缓存。

另外，该基于云边端协同的Web AR图像识别方法还包括：在大规模图像库有新的图像数据资源加入时，若边缘节点缓存空间达到上限，则根据匹配点数量的排序对现有边缘节点缓存空间的缓存图像进行替换。

其中，对所述查询图和确定的N张图像，使用图像匹配算法，提取特征点和描述符，并根据特征点和描述符进行匹配计算，得到每张图像的匹配点数量包括：

对所述查询图和确定的N张图像，使用基于手工局部特征的图像匹配算法，提取特征点和描述符；

根据描述符距离对相似特征点进行匹配，求取初始匹配点集，并使用随机抽样一致算法过滤匹配错误的异常点，输出精确的匹配点集合。

优选的，所述N张图像为10张图像。

根据本发明的另一方面，提供了一种基于云边端协同的Web AR图像识别系统。

该基于云边端协同的Web AR图像识别系统包括：

特征向量生成模块，用于接收用户端上传的查询图，并根据基于卷积神经网络的图像嵌入算法对查询图进行处理，生成特征向量；

图像查询模块，用于根据所述特征向量，在预先配置的大规模图像库，通过特征向量比对，确定出与查询图相似度最高的N张图像，确保目标图存在于N张图像之中；

图像匹配模块，用于对所述查询图和确定的N张图像，使用图像匹配算法，提取特征点和描述符，并根据特征点和描述符进行匹配计算，得到每张图像的匹配点数量；

图像确定模块，用于根据匹配点数量的排序，确定最后与所述查询图对应的匹配图像结果。

另外，该基于云边端协同的Web AR图像识别系统还包括：图像处理模块，用于获取用户上传的图像，并根据预先配置的加载轻量化后的显著性检测模型，对该图像进行处理，得到二值化黑白显著图；裁剪区域确定模块，用于根据区域生成算法对二值化黑白显著图的像素值进行分析，确定感兴趣区域分布位置，获得最终的裁剪区域坐标；查询图确定模块，用于根据裁剪区域坐标对图像进行裁剪处理，并将裁剪处理得到的图像作为查询图，并上传查询图。

此外，该基于云边端协同的Web AR图像识别系统还包括：图像分类模块，用于对预先配置的大规模图像库中的图像数据按照地理位置进行分类；边缘缓存模块，用于在边缘节点初始化时，将数据对象按照地理位置局里关系读入最近的边缘节点缓存，促使查询图匹配时，大规模图像库中的图像数据能够分配至与用户端最近的边缘节点缓存；缓存替换模块，用于在大规模图像库有新的图像数据资源加入时，若边缘节点缓存空间达到上限，则根据匹配点数量的排序对现有边缘节点缓存空间的缓存图像进行替换。

其中，所述图像匹配模块在对所述查询图和确定的N张图像，使用图像匹配算法，提取特征点和描述符，并根据特征点和描述符进行匹配计算，得到每张图像的匹配点数量时，对所述查询图和确定的N张图像，使用基于手工局部特征的图像匹配算法，提取特征点和描述符；再根据描述符距离对相似特征点进行匹配，求取初始匹配点集，并使用随机抽样一致算法过滤匹配错误的异常点，输出精确的匹配点集合。

有益效果：

本发明提出一种轻量级图像显著性检测模型，从采集的图像中提取感兴趣区域，加快后续特征提取速度；在边缘端，使用基于地理位置和流行度的缓存机制，并通过基于深度学习的图像检索进一步加快图像识别速度，降低云端计算资源和带宽压力。提高了识别准确度和鲁棒性，降低了响应时间，识别速度和精度均获得显著提升。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是根据本发明实施例的一种基于云边端协同的Web AR图像识别方法的流程示意图；

图2是根据本发明实施例的一种基于云边端协同的Web AR图像识别系统的结构示意框图；

图3是根据本发明实施例的一种基于云边端协同的Web AR图像识别原理流程示意图；

图4是根据本发明实施例的加载轻量化后的显著性检测模型处理流程原理示意图；

图5是根据本发明实施例的一种基于云边端协同的Web AR图像识别系统的架构示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员所获得的所有其他实施例，都属于本发明保护的范围。

根据本发明的实施例，提供了一种基于云边端协同的Web AR图像识别方法。

如图1所示，根据本发明实施例的基于云边端协同的Web AR图像识别方法包括：

步骤S101，接收用户端上传的查询图，并根据基于卷积神经网络的图像嵌入算法对查询图进行处理，生成特征向量；

步骤S103，根据所述特征向量，在预先配置的大规模图像库，通过特征向量比对，确定出与查询图相似度最高的10张图像，确保目标图存在于10张图像之中；

步骤S105，对所述查询图和确定的10张图像，使用图像匹配算法，提取特征点和描述符，并根据特征点和描述符进行匹配计算，得到每张图像的匹配点数量；

步骤S107，根据匹配点数量的排序，确定最后与所述查询图对应的匹配图像结果。

其中，对所述查询图和确定的10张图像，使用图像匹配算法，提取特征点和描述符，并根据特征点和描述符进行匹配计算，得到每张图像的匹配点数量包括：

对所述查询图和确定的10张图像，使用基于手工局部特征的图像匹配算法，提取特征点和描述符；

根据本发明的实施例，提供了一种基于云边端协同的Web AR图像识别系统。

如图2所示，根据本发明实施例的基于云边端协同的Web AR图像识别系统包括：

特征向量生成模块201，用于接收用户端上传的查询图，并根据基于卷积神经网络的图像嵌入算法对查询图进行处理，生成特征向量；

图像查询模块203，用于根据所述特征向量，在预先配置的大规模图像库，通过特征向量比对，确定出与查询图相似度最高的10张图像，确保目标图存在于10张图像之中；

图像匹配模块205，用于对所述查询图和确定的10张图像，使用图像匹配算法，提取特征点和描述符，并根据特征点和描述符进行匹配计算，得到每张图像的匹配点数量；

图像确定模块207，用于根据匹配点数量的排序，确定最后与所述查询图对应的匹配图像结果。

另外，该基于云边端协同的Web AR图像识别系统还包括：图像处理模块（图中未示出），用于获取用户上传的图像，并根据预先配置的加载轻量化后的显著性检测模型，对该图像进行处理，得到二值化黑白显著图；裁剪区域确定模块（图中未示出），用于根据区域生成算法对二值化黑白显著图的像素值进行分析，确定感兴趣区域分布位置，获得最终的裁剪区域坐标；查询图确定模块（图中未示出），用于根据裁剪区域坐标对图像进行裁剪处理，并将裁剪处理得到的图像作为查询图，并上传查询图。

此外，该基于云边端协同的Web AR图像识别系统还包括：图像分类模块（图中未示出），用于对预先配置的大规模图像库中的图像数据按照地理位置进行分类；边缘缓存模块（图中未示出），用于在边缘节点初始化时，将数据对象按照地理位置局里关系读入最近的边缘节点缓存，促使查询图匹配时，大规模图像库中的图像数据能够分配至与用户端最近的边缘节点缓存；缓存替换模块（图中未示出），用于在大规模图像库有新的图像数据资源加入时，若边缘节点缓存空间达到上限，则根据匹配点数量的排序对现有边缘节点缓存空间的缓存图像进行替换。

其中，所述图像匹配模块205在对所述查询图和确定的10张图像，使用图像匹配算法，提取特征点和描述符，并根据特征点和描述符进行匹配计算，得到每张图像的匹配点数量时，对所述查询图和确定的10张图像，使用基于手工局部特征的图像匹配算法，提取特征点和描述符；再根据描述符距离对相似特征点进行匹配，求取初始匹配点集，并使用随机抽样一致算法过滤匹配错误的异常点，输出精确的匹配点集合。

为了方便清楚的了解本发明的上述技术方案，以下从原理方面对本发明的上述技术方案进行详细说明。

如图3所示，首先根据对 Web AR 场景的分析，构建适合于当前场景的训练集以及数据预处理方式，按基于深度学习的图像分类任务训练模型。实际应用时，选取ResNet作为主干网络部分，为每张图提取200维的特征向量。在离线环节对模板图数据库中所有图像提取特征向量，并以矩阵形式存储在字典中。在线运行环节，当用户发来查询请求时，只需要对一张查询图进行特征提取，

再通过矩阵运算得到查询图和模板库图像特征向量距离，按照距离排序得到相似度最高的10张图像。为了尽量压缩时间，应该使用计算量较小的相似度比较方法，通常使用欧式距离和余弦相似度作为计算方法。其中欧式距离描述的是两个向量终点之间的距离，余弦相似度刻画的是两个向量之间的夹角余弦值，可以通过矩阵计算，计算速度相对于欧式距离有明显优势，因此在此处选用余弦相似度作为衡量标准；

在特征点检测与描述符生成部分使用基于手工局部特征的图像匹配算法，这种类型的算法包括SIFT、ORB、AKAZE等，其中AKAZE算法通过计算各个尺度下Hessian局部极大值点来检测特征点，对采样点进行二值描述构造特征描述向量，减少了计算量，提高了实时性，因此在此处选用AKAZE算法。在为每个特征点生成特征描述符后，需要根据描述符距离对相似特征点进行匹配，此处基于KD树进行快速近似最近邻搜索，向量距离使用L2距离衡量，求取初始匹配点集。并使用RANSAC算法，即随机抽样一致算法过滤匹配错误的异常点，输出精确的匹配点集合。最后，选取与用户查询图匹配点数量最多的模板图作为最终识别结果。

而如图4所示，对于显著性检测来说，首先，在原始图像的获取上，移动端浏览器通过WebRTC协议从Web端网页摄像头获取用户图像信息，使用getusermedia()函数获取终端摄像头权限，得到拍摄的视频流信息，使用drawImage()函数以设定的帧率将视频流导入Canvas画布，将ArrayBuffer格式的数据转换为Uint8ClampedArray格式，随后进行Resize等操作调整图像大小，输入深度学习模型；再设计并实现了基于轻量化网络ShuffleNet V2和特征金字塔结构的轻量化显著性检测模型，大幅度降低模型体积，在模型的部署过程中，先将Pytorch深度学习框架训练的显著性检测模型借助pytorch2keras依赖库转化为keras支持的HDF5格式，再使用TensorFlow.js Converter工具即可将HDF5模型文件转换为TensorFlow.js支持部署的JSON模型格式，最后，通过提供生成的JSON模型文件将模型加载到TensorFlow.js中，实现模型在移动端浏览器的加载与前向推理。

而对于图像裁剪来说，首先根据显著图求取质心坐标，并根据质心坐标求取标准差，最终通过质心，标准差和超参数调整裁剪区域左上角和右下角的坐标，将大部分主体物体包含在内，并且尽量减少干扰部分的影响；

如图5所示，在实际应用时， Web AR图像识别系统架构可以设计成如下形式：

架构可包括：Web AR活动子系统，Web AR平台子系统，统一认证授权中心，其中：

Web AR平台子系统，面向商户，具体包括活动制作、商户管理、数据分析等功能逻辑。包括平台后端模块和平台前端模块两个子模块，分别用于提供相关后端接口和处理WebAR平台的各项页面请求；

Web AR活动子系统，包括AR活动后端模块、AR活动前端模块、图像识别模块三个子模块。AR活动后端模块，用于处理AR活动的服务端业务逻辑。AR活动前端模块，用于处理所有Web AR活动的页面请求。图像识别模块，用于提供图像识别算法的服务接口，完成相应的计算服务；

具体地，用户上传图在终端部分经过预处理后，首先发送给距离最近的边缘服务器，通过部署在其中的图像识别模块进行查询，如果成功识别到模板图，则直接返回识别结果给终端。否则继续转发查询请求给云服务器，查询云端数据库，识别成功后将模板ID返回给边缘端服务器，并将该模板图添加到边缘端缓存。由于云服务器具有强大的算力和GPU资源，还兼备有训练深度学习模型的功能，定期收集用户上传的查询图，并加入到训练数据集用于训练基于深度学习的图像检索模型。边缘服务器根据实际需求会定期从云服务器下载更新最新完成训练的模型，从而不断提高模型的泛化能力和检索匹配的准确度。

统一认证授权中心分别向AR平台和AR活动提供认证授权服务。

本系统按照任务类型进行云边协同设计，图像识别模块属于无密集型计算服务，对响应实时性要求较高，部署在边缘节点，其他模块对数据库和活动资源进行增删改查，属于I/O密集型业务，部署在云服务器。

具体地，系统采用边缘计算平台KubeEdge框架实现云边协同，面向边缘计算场景将集群功能拆分为云侧和边缘侧两部分，云侧负责工作节点管理，监控集群状态等，边缘侧负责运行边缘应用，接收云端指令，管理边缘设备等。通过容器化机制向外提供服务。图像数据管理方面，将模板图按地理位置进行分类，在云服务器使用MySQL数据库进行存储，在边缘节点使用Redis存储缓存图像数据。图像识别模块基于Docker容器部署，方便将图像识别算法服务扩展到边缘节点，内部算法逻辑基于Python语言实现，使用Flask+Gevent+Gunicorn框架部署。

综上所述，借助于本发明的上述技术方案，本发明提出一种轻量级图像显著性检测模型，从采集的图像中提取感兴趣区域，加快后续特征提取速度；在边缘端，使用基于地理位置和流行度的缓存机制，并通过基于深度学习的图像检索进一步加快图像识别速度，降低云端计算资源和带宽压力。提高了识别准确度和鲁棒性，降低了响应时间，识别速度和精度均获得显著提升。

以上所述仅为本发明的较佳实施例而已，并不用以限制本发明，凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种基于云边端协同的Web AR图像识别方法，其特征在于，包括：

根据匹配点数量的排序，确定最后与所述查询图对应的匹配图像结果；

还包括：

获取用户上传的图像，并根据预先配置的加载轻量化后的显著性检测模型，对该图像进行处理，得到二值化黑白显著图；

根据区域生成算法对二值化黑白显著图的像素值进行分析，确定感兴趣区域分布位置，获得最终的裁剪区域坐标；

根据裁剪区域坐标对图像进行裁剪处理，并将裁剪处理得到的图像作为查询图，并上传查询图；

对预先配置的大规模图像库中的图像数据按照地理位置进行分类；在边缘节点初始化时，将数据对象按照地理位置距离关系读入最近的边缘节点缓存，促使查询图匹配时，大规模图像库中的图像数据能够分配至与用户端最近的边缘节点缓存；在大规模图像库有新的图像数据资源加入时，若边缘节点缓存空间达到上限，则根据匹配点数量的排序对现有边缘节点缓存空间的缓存图像进行替换。

2. 根据权利要求1所述的基于云边端协同的Web AR图像识别方法，其特征在于，对所述查询图和确定的N张图像，使用图像匹配算法，提取特征点和描述符，并根据特征点和描述符进行匹配计算，得到每张图像的匹配点数量包括：

3. 根据权利要求1所述的基于云边端协同的Web AR图像识别方法，其特征在于，所述N张图像为10张图像。

4. 一种基于云边端协同的Web AR图像识别系统，其特征在于，包括：

图像确定模块，用于根据匹配点数量的排序，确定最后与所述查询图对应的匹配图像结果；

还包括：

图像处理模块，用于获取用户上传的图像，并根据预先配置的加载轻量化后的显著性检测模型，对该图像进行处理，得到二值化黑白显著图；

裁剪区域确定模块，用于根据区域生成算法对二值化黑白显著图的像素值进行分析，确定感兴趣区域分布位置，获得最终的裁剪区域坐标；

查询图确定模块，用于根据裁剪区域坐标对图像进行裁剪处理，并将裁剪处理得到的图像作为查询图，并上传查询图；

图像分类模块，用于对预先配置的大规模图像库中的图像数据按照地理位置进行分类；

边缘缓存模块，用于在边缘节点初始化时，将数据对象按照地理位置距离关系读入最近的边缘节点缓存，促使查询图匹配时，大规模图像库中的图像数据能够分配至与用户端最近的边缘节点缓存；

缓存替换模块，用于在大规模图像库有新的图像数据资源加入时，若边缘节点缓存空间达到上限，则根据匹配点数量的排序对现有边缘节点缓存空间的缓存图像进行替换。

5. 根据权利要求4所述的基于云边端协同的Web AR图像识别系统，其特征在于，所述图像匹配模块在对所述查询图和确定的N张图像，使用图像匹配算法，提取特征点和描述符，并根据特征点和描述符进行匹配计算，得到每张图像的匹配点数量时，对所述查询图和确定的N张图像，使用基于手工局部特征的图像匹配算法，提取特征点和描述符；再根据描述符距离对相似特征点进行匹配，求取初始匹配点集，并使用随机抽样一致算法过滤匹配错误的异常点，输出精确的匹配点集合。