CN115601672A

CN115601672A - 一种基于深度学习的vr智能巡店方法及装置

Info

Publication number: CN115601672A
Application number: CN202211597977.7A
Authority: CN
Inventors: 周斌; 丁明; 陈应文; 许洁斌
Original assignee: Guangzhou Xuanwu Wireless Technology Co Ltd
Current assignee: Guangzhou Xuanwu Wireless Technology Co Ltd
Priority date: 2022-12-14
Filing date: 2022-12-14
Publication date: 2023-01-13
Anticipated expiration: 2042-12-14
Also published as: CN115601672B

Abstract

本发明公开了一种基于深度学习的VR智能巡店方法及装置，通过获取店铺的全景图像及多个第一场景区域图像；对全景图像中的场景区域进行检测，得到多个第二场景区域图像；对多个第一场景区域图像进行商品信息检测，得到对应的商品信息；通过计算第一场景区域图像和第二场景区域图像之间的相似度，构建相似度矩阵；并基于预设匹配算法对相似度矩阵进行匹配，得到第一场景区域图像和第二场景区域图像的最优匹配对；以使在实时检测到展示中的所述全景图像中的第二场景区域图像时，能基于最优匹配对，实时展示第一场景区域图像及其对应的商品信息。与现有技术相比，本发明的技术方案不仅能提高巡店效率，还能及时获取店铺中对应的场景区域的商品信息。

Description

一种基于深度学习的VR智能巡店方法及装置

技术领域

本发明涉及图像识别的技术领域，特别是涉及一种基于深度学习的VR智能巡店方法及装置。

背景技术

近年来，随着科技创新发展，快消行业智能化水平提高，为智慧快消运营提供了多种数字化管理路径，行业也开始向高性价比、高可视化的智慧运营方向迈进。在门店日常管理工作，巡店工作是一个必做的工作。通过巡店能够及时发现门店日常管理工作中没有按照标准规范执行的，纠偏和修正在巡店过程中的重难点问题，求真务实地区解决，这样才能保证门店各部门工作协调、通畅；对外巡店是公司了解竞争对手工作的一部分，也是要重视的工作，只有日常了解和分析对手门店的工作，做到知己知彼，百战不殆；所以巡店工作重要性可见一斑。

但目前在进行巡店时，普遍都是基于业务员亲自到店铺中进行巡店，对于区域大的店铺或多个店铺而言，业务员难以及时获取店铺中的场景及对应商品的信息，且巡店效率低下，如何提高巡店效率，并及时获取店铺中的信息，成为当前急需解决的技术问题。

发明内容

本发明要解决的技术问题是：提供一种基于深度学习的VR智能巡店方法及装置，不仅能提高巡店效率，还能及时获取店铺中对应的场景区域的商品信息。

为了解决上述技术问题，本发明提供了一种基于深度学习的VR智能巡店方法，包括：

获取店铺的全景图像及多个第一场景区域图像；

基于预训练的深度学习mask检测模型对所述全景图像中的场景区域进行检测，得到多个第二场景区域图像；

基于预训练的深度学习框检测模型分别对所述多个第一场景区域图像进行检测，得到每个第一场景区域图像对应的商品信息；

通过局部区域匹配算法计算所述第一场景区域图像和所述第二场景区域图像之间的相似度，并基于所述相似度，构建相似度矩阵；

基于预设匹配算法对相似度矩阵进行匹配，得到所述第一场景区域图像和所述第二场景区域图像的最优匹配对；

实时检测展示中的所述全景图像中的第二场景区域图像，基于所述最优匹配对，获取所述第二场景区域图像对应的第一场景图像，并实时展示第一场景区域图像及其对应的商品信息。

在一种可能的实现方式中，基于预训练的深度学习mask检测模型对所述全景图像中的场景区域进行检测，得到多个第二场景区域图像，具体包括：

获取店铺的大量的全景样本图像，采用多边形框对每张全景样本图像中的场景区域进行标注，得到第一训练样本集；

基于pytorch构建深度学习模型，根据所述第一训练样本集对所述深度学习模型进行模型训练，以使所述深度学习模型对每张全景样本图像中的多边形框进行检测，得到深度学习mask检测模型；

基于所述深度学习mask检测模型，对店铺的全景图像进行多边形检测，得到多个第二场景区域图像。

在一种可能的实现方式中，基于所述深度学习mask检测模型，对店铺的全景图像进行多边形检测，得到多个第二场景区域图像，具体包括：

将两张相同的全景图像进行拼接，得到全景拼接图像；

基于所述深度学习mask检测模型，对所述全景拼接图像进行多边形检测，得到多个多边形区域图像；

获取所有多边形区域图像对应的所有横坐标点，将每个横坐标点对应的第一数值减去单张全景图像的宽度，得到每个横坐标点对应的第二数值；

若存在单张多边形区域图像中所有横坐标点对应的第二数值均大于零，则删除所述多边形区域图像；

若存在单张多边形区域图像中存在部分横坐标点对应的第二数值大于零，则认为所述多边形区域图像为被切割图像，保存所有被切割图像，生成第一图像区域集合；

若存在单张多边形区域图像中所有横坐标点对应的第二数值均小于零，则认为所述多边形区域图像为场景区域图像，保存所有场景区域图像，生成第二图像区域集合；

获取所述第一图像区域集合中所有被切割图像对应的横坐标点的第二数值，若所述第二数值小于零，则将小于零的所有第二数值设置为零，生成第三图像区域集合；

遍历所述第二图像区域集合中的每张场景区域图像，计算所述每张场景区域图像分别与所述第三图像区域集合中每张被切割图像的交并比，若所述交并比大于预设阈值，则删除所述第二图像区域集合中所述交并比对应的场景区域图像，直至遍历完所述第二图像区域集合，生成第四图像区域集合；

计算所述第一图像区域集合与所述第四图像区域集合的并集，基于所述并集，得到多个第二场景区域图像。

在一种可能的实现方式中，基于预训练的深度学习框检测模型分别对所述多个第一场景区域图像进行检测，得到每个第一场景区域图像对应的商品信息，得到多个第二场景区域图像，具体包括：

获取店铺的大量的场景区域样本图像，采用矩形框对每张场景区域样本图像中的商品进行标注，得到第二训练样本集；

构建深度学习模型，根据所述第二训练样本集对所述深度学习模型进行网络权值优化，以使所述深度学习模型对每张场景区域样本图像中的矩形框进行检测，得到深度学习框检测模型；

基于所述深度学习框检测模型分别对店铺的所述多个第一场景区域图像进行商品信息检测，得到每个第一场景区域图像对应的商品信息，其中，所述商品信息包括所有商品的图像位置坐标，商品的类别信息，商品所在的层及层位置。

在一种可能的实现方式中，通过局部区域匹配算法计算所述第一场景区域图像和所述第二场景区域图像之间的相似度，并基于所述相似度，构建相似度矩阵，具体包括：

通过Super Point深度学习网络对所述第一场景区域图像和所述第二场景区域图像进行局部特征点检测，得到每张第一场景区域图像对应的第一局部特征点和每张第二场景区域图像对一个的第二局部特征点；

对所有第一场景区域图像和所有第二场景区域图像进行两两匹配，得到多组匹配对，基于所述第一局部特征点和所述第二局部特征点，分别计算每组匹配对的相似度，并整合所有相似度，得到相似度矩阵。

在一种可能的实现方式中，基于所述第一局部特征点和所述第二局部特征点，分别计算每组匹配对的相似度，具体包括：

获取每组匹配对中第一场景区域图像对应的第一局部特征点，同时获取每组匹配对中第二场景区域图像对应的第二局部特征点；

对所述第一局部特征点中的第一特征点和所述第二局部特征点中的第二特征点进行两两匹配，得到多组特征点匹配对；

分别计算每组特征点匹配对对应的余弦距离，并根据所述余弦距离，生成距离矩阵；

随机选取所述距离矩阵的任意一行，获取所述任意一行中余弦距离的最小值，记录所述最小值对应的特征点匹配对，并删除所述最小值所在行和列，更新所述距离矩阵，直至无法随机选取所述距离矩阵的任意一行；

获取记录的所有最小值对应的特征点匹配对，计算所有特征点匹配点对的距离总和；

重复获取多个距离总和，将所述多个距离总和进行对比，得到最小距离总和，并获取所述最小距离总和对应的特征点匹配对的匹配对数，将所述匹配对数作为每组匹配对的相似度。

在一种可能的实现方式中，基于预设匹配算法对相似度矩阵进行匹配，其中，所述预设匹配算法包括匈牙利最优权值匹配算法、快速匹配、贪婪匹配和最近邻匹配。

本发明还提供了一种基于深度学习的VR智能巡店装置，包括：图像获取模块、全景图像检测模块、场景区域图像检测模块、相似度计算模块、匹配模块和展示模块；

其中，所述图像获取模块，用于获取店铺的全景图像及多个第一场景区域图像；

所述全景图像检测模块，用于基于预训练的深度学习mask检测模型对所述全景图像中的场景区域进行检测，得到多个第二场景区域图像；

所述场景区域图像检测模块，用于基于预训练的深度学习框检测模型分别对所述多个第一场景区域图像进行检测，得到每个第一场景区域图像对应的商品信息；

所述相似度计算模块，用于通过局部区域匹配算法计算所述第一场景区域图像和所述第二场景区域图像之间的相似度，并基于所述相似度，构建相似度矩阵；

所述匹配模块，用于基于预设匹配算法对相似度矩阵进行匹配，得到所述第一场景区域图像和所述第二场景区域图像的最优匹配对；

所述展示模块，用于实时检测展示中的所述全景图像中的第二场景区域图像，基于所述最优匹配对，获取所述第二场景区域图像对应的第一场景图像，并实时展示第一场景区域图像及其对应的商品信息。

在一种可能的实现方式中，所述全景图像检测模块，用于基于预训练的深度学习mask检测模型对所述全景图像中的场景区域进行检测，得到多个第二场景区域图像，具体包括：

在一种可能的实现方式中，所述全景图像检测模块，用于基于所述深度学习mask检测模型，对店铺的全景图像进行多边形检测，得到多个第二场景区域图像，具体包括：

将两张相同的全景图像进行拼接，得到全景拼接图像；

在一种可能的实现方式中，所述场景区域图像检测模块，用于基于预训练的深度学习框检测模型分别对所述多个第一场景区域图像进行检测，得到每个第一场景区域图像对应的商品信息，得到多个第二场景区域图像，具体包括：

在一种可能的实现方式中，所述相似度计算模块，用于通过局部区域匹配算法计算所述第一场景区域图像和所述第二场景区域图像之间的相似度，并基于所述相似度，构建相似度矩阵，具体包括：

在一种可能的实现方式中，所述相似度计算模块，用于基于所述第一局部特征点和所述第二局部特征点，分别计算每组匹配对的相似度，具体包括：

在一种可能的实现方式中，所述匹配模块，用于基于预设匹配算法对相似度矩阵进行匹配，其中，所述预设匹配算法包括匈牙利最优权值匹配算法、快速匹配、贪婪匹配和最近邻匹配。

本发明还提供了一种终端设备，包括处理器、存储器以及存储在所述存储器中且被配置为由所述处理器执行的计算机程序，所述处理器执行所述计算机程序时实现如上述任意一项所述的基于深度学习的VR智能巡店方法。

本发明还提供了一种计算机可读存储介质，所述计算机可读存储介质包括存储的计算机程序，其中，在所述计算机程序运行时控制所述计算机可读存储介质所在设备执行如上述任意一项所述的基于深度学习的VR智能巡店方法。

本发明实施例一种基于深度学习的VR智能巡店方法及装置，与现有技术相比，具有如下有益效果：

通过获取店铺的全景图像及多个第一场景区域图像；对全景图像中的场景区域进行检测，得到多个第二场景区域图像；对多个第一场景区域图像进行商品信息检测，得到对应的商品信息；通过计算第一场景区域图像和第二场景区域图像之间的相似度，构建相似度矩阵；并基于预设匹配算法对相似度矩阵进行匹配，得到第一场景区域图像和第二场景区域图像的最优匹配对；以使在实时检测到展示中的所述全景图像中的第二场景区域图像时，能基于最优匹配对，实时展示第一场景区域图像及其对应的商品信息。与现有技术相比，本发明的技术方案不仅能提高巡店效率，还能及时获取店铺中对应的场景区域的商品信息。

附图说明

图1是本发明提供的一种基于深度学习的VR智能巡店方法的一种实施例的流程示意图；

图2是本发明提供的一种基于深度学习的VR智能巡店装置的一种实施例的结构示意图；

图3是本发明提供的一种实施例的全景图像示意图。

具体实施方式

下面将结合本发明中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

实施例1

参见图1，图1是本发明提供的一种基于深度学习的VR智能巡店方法的一种实施例的流程示意图，如图1所示，该方法包括步骤101-步骤106，具体如下：

步骤101：获取店铺的全景图像及多个第一场景区域图像。

一实施例中，采用现有的720度全景拍摄设备拍摄店铺内的全景图，优选的，所述现有的720度全景拍摄设备包括但不限于Insta360 One。

一实施例中，将拍摄后的得到的店铺的全景图进行导出，得到平面的全景图像，其中，所述平面的全景图像如图3所示，图3为本发明提供的一种实施例的全景图像示意图。

一实施例中，根据后续检测识别的需要，采集店铺内独立的场景区域的图像，具体的，基于手机单独拍摄店铺内多个独立场景区域对应的场景区域图像，其中，所述独立场景区域包括但不限于店铺的货架或冰柜等。

步骤102：基于预训练的深度学习mask检测模型对所述全景图像中的场景区域进行检测，得到多个第二场景区域图像。

一实施例中，获取店铺的大量的全景样本图像；优选的，拍摄多于2000张的全景样本图像用于后续的深度学习模型训练。

一实施例中，采用多边形框对每张全景样本图像中的场景区域进行标注，得到第一训练样本集。

具体的，采用多边形框分别对每张全景样本图像中的独立场景区域进行对多边形框标注，以制作训练数据，生成第一训练样本集；优选的，使用coco数据集的格式对训练数据进行格式化制作，其中，所述coco数据集是一个可用于图像检测、语义分割和图像标题生成的大规模公开数据集，在图像识别领域常用其数据组织格式作为深度学习模型训练的标准；其数据主要又两部分组成：jpg图片和json文件；json文件内容包含了对应jpg图片的标注内容；图片标注内容包括该图片中的所有场景多边形区域以及该区域对应的标签，其中，多边形区域由顺时针顺序的多边形顶点进行表达，多边形顶点是图像像素坐标系内的表达。

一实施例中，基于pytorch构建深度学习模型；具体的，选用基于Mask Rcnn结构的深度学习网络对全景图像进行训练和检测，网络选用ResNeXt。

一实施例中，根据所述第一训练样本集对所述深度学习模型进行模型训练，以使所述深度学习模型对每张全景样本图像中的多边形框进行检测，得到并保存深度学习mask检测模型。

一实施例中，基于所述深度学习mask检测模型，对店铺的全景图像进行多边形检测，得到多个第二场景区域图像。

一实施例中，由于店铺的全景图像是头尾相连接的循环封闭的圆柱形图片，投影成平面图后在图片边缘的区域会被切割成两个部分，从而导致在对全景图像进行场景区域检测时，可能会检测出多个场景区域，使得最终检测到的第二场景区域图像的数量存在误差。

一实施例中，为了提高全景图像中场景区域图像检测的准确性，通过将两张相同的全景图像进行拼接，得到全景拼接图像，基于所述深度学习mask检测模型，对所述全景拼接图像进行多边形检测，得到多个多边形区域图像。

优选的，在对两张相同的全景图像进行拼接时，采用的是左右水平拼接的方式，以使拼接后得到的全景拼接图像的高度与原单张全景图像的高度不变，全景拼接图像的宽度是原单张全景图像的宽度的两倍。

一实施例中，获取所有多边形区域图像对应的所有横坐标点，将每个横坐标点对应的第一数值减去单张全景图像的宽度，得到每个横坐标点对应的第二数值。

优选的，对于所有多边形区域图像对应的所有横坐标点的数值，都是基于像素坐标系u-v而言，其中，像素坐标系u-v的原点为O0，横坐标u和纵坐标v分别是多边形区域图像所在的行和列，在视觉处理库OpenCV中，u对应x轴，v对应y轴。

一实施例中，若存在单张多边形区域图像中所有横坐标点对应的第二数值均大于零，则删除所述多边形区域图像；若存在单张多边形区域图像中存在部分横坐标点对应的第二数值大于零，且存在部分横坐标点对应的第二数值小于零，则认为所述多边形区域图像为被切割图像，保存所有被切割图像，生成第一图像区域集合；若存在单张多边形区域图像中所有横坐标点对应的第二数值均小于零，则认为所述多边形区域图像为场景区域图像，保存所有场景区域图像，生成第二图像区域集合。

一实施例中，获取所述第一图像区域集合中所有被切割图像对应的横坐标点的第二数值，若所述第二数值小于零，则将小于零的所有第二数值设置为零，生成第三图像区域集合。

一实施例中，遍历所述第二图像区域集合中的每张场景区域图像，计算所述每张场景区域图像分别与所述第三图像区域集合中每张被切割图像的交并比。

具体的，设置单张场景区域图像的像素点集合为P，设置单张被切割图像的像素点集合为Q，则两张图像的交并比交并maskIOU比的计算公式如下所示：

；

式中，

表示单张场景区域图像的像素点集合P和单张被切割图像的像素点集合Q围成的区域交集的像素点个数，

表示单张场景区域图像的像素点集合P和单张被切割图像的像素点集合Q围成的区域并集的像素点个数。

一实施例中，若所述交并比大于预设阈值，则删除所述第二图像区域集合中所述交并比对应的场景区域图像，直至遍历完所述第二图像区域集合，生成第四图像区域集合。优选的，设置所述预设阈值为0.2。

一实施例中，计算所述第一图像区域集合与所述第四图像区域集合的并集，将所述并集中的所有被切割图像和所有场景区域图像，作为最终得到多个第二场景区域图像，完成对检测到的全景图像中场景区域图像的去重处理。

步骤103：基于预训练的深度学习框检测模型分别对所述多个第一场景区域图像进行检测，得到每个第一场景区域图像对应的商品信息。

一实施例中，获取店铺的大量的场景区域样本图像；优选的，拍摄多于2000张的场景区域样本图像用于后续的深度学习模型训练。

一实施例中，采用矩形框对每张场景区域样本图像中的商品进行标注，并采用VOC数据集的格式制作训练数据集，得到第二训练样本集。

优选的，若场景区域样本图像为货架图像或冰柜图像，则对货架图像或冰柜图像中的每一层商品采用矩形框进行标注。

优先的，所述VOC数据集是图像检测领域一个经典的公开数据集，该数据集主要由jpg图片和xml文件组成，其中，xml文件描述了其对应图片的矩形框信息，矩形框由矩形的左上角点和右下角两点表示。

一实施例中，构建深度学习模型；优选的，选用Faster Rcnn结构的深度学习网络对单独拍摄的场景样本图像进行训练和检测，基础网络选用ResNeXt。

一实施例中，据所述第二训练样本集对所述深度学习模型进行网络权值优化，以使所述深度学习模型对每张场景区域样本图像中的矩形框进行检测，得到并保存深度学习框检测模型。

一实施例中，基于所述深度学习框检测模型分别对店铺的所述多个第一场景区域图像进行商品信息检测，得到每个第一场景区域图像对应的商品信息，其中，所述商品信息包括所有商品的图像位置坐标，商品的类别信息，商品所在的层及层位置。

步骤104：通过局部区域匹配算法计算所述第一场景区域图像和所述第二场景区域图像之间的相似度，并基于所述相似度，构建相似度矩阵。

一实施例中，通过Super Point深度学习网络对所述第一场景区域图像和所述第二场景区域图像进行局部特征点检测，得到每张第一场景区域图像对应的第一局部特征点和每张第二场景区域图像对一个的第二局部特征点。

一实施例中，对所有第一场景区域图像和所有第二场景区域图像进行两两匹配，得到多组匹配对，基于所述第一局部特征点和所述第二局部特征点，分别计算每组匹配对的相似度，并整合所有相似度，得到相似度矩阵。

具体的，获取每组匹配对中第一场景区域图像对应的第一局部特征点，同时获取每组匹配对中第二场景区域图像对应的第二局部特征点；对所述第一局部特征点中的所有第一特征点和所述第二局部特征点中的所有第二特征点进行两两匹配，得到多组特征点匹配对；分别计算每组特征点匹配对对应的余弦距离，并根据所述余弦距离，生成距离矩阵。

具体的，随机选取所述距离矩阵的任意一行，获取所述任意一行中余弦距离的最小值，记录所述最小值对应的特征点匹配对，认为该特征点匹配对已经匹配上，并删除所述最小值所在行和列，更新所述距离矩阵，对于更新后的所述距离矩阵，重新执行上述随机选取所述距离矩阵的任意一行等操作，不断记录新选取的余弦距离的最小值对应的特征点匹配对，直至无法随机选取所述距离矩阵的任意一行；获取记录的所有最小值对应的特征点匹配对，计算所有特征点匹配点对的距离总和。

具体的，通过重复执行多次上述获取距离总和的操作步骤，以使获取多个距离总和；由于在执行随机选取所述距离矩阵的任意一行的过程中，基于选取的行数不同，可能导致后续记录的所有最小值对应的特征点匹配对不同，因此其得到的所有特征点匹配点对的距离总和也存在不同。优选的，重复执行10次上述获取距离总和的操作步骤，以使获取10个距离总和。

具体的，将所述多个距离总和进行对比，得到最小距离总和，并获取所述最小距离总和对应的特征点匹配对的匹配对数，将所述匹配对数作为每组匹配对的相似度；即匹配上的特征点匹配对的数量越多，相似度越高。

一实施例中，获取每组匹配对对应的第一场景区域图像和第二场景区域图像之间的相似度，构建相似度矩阵。

步骤105：基于预设匹配算法对相似度矩阵进行匹配，得到所述第一场景区域图像和所述第二场景区域图像的最优匹配对。

一实施例中，所述预设匹配算法包括匈牙利最优权值匹配算法、快速匹配、贪婪匹配和最近邻匹配。

优选的，本实施例中选用匈牙利最优权值匹配算法。

步骤106：实时检测展示中的所述全景图像中的第二场景区域图像，基于所述最优匹配对，获取所述第二场景区域图像对应的第一场景图像，并实时展示第一场景区域图像及其对应的商品信息。

一实施例中，为了获得VR巡店体验，需要将全景图像按照球形投影的方式进行投影展示；并在对所述全景图像进行展示的过程中，还要将当前展示的全景图像进行场景区域检测，得到当前展示的全景图像中的第二场景区域图像，基于最优匹配对，获取所述第二场景区域图像对应的第一场景图像，并将所述该对应的第一场景图像投影在当前展示的全景图像的相应位置中。

一实施例中，将全景图像按照球形投影的方式进行投影展示时，还需要将全景图像首尾连接变成柱状投影图，然后采用反墨卡托投影方式得到全景图像对应的球形投影的球面的每一点。

优选的，在进行VR巡店过程中，全景图像按照球形投影的方式进行投影展示，当点击全景图像中的任一第二场景区域时，会弹出该第二场景区域对应的第一场景区域图像，及其该第一场景区域图像中检测到的商品信息，且用户可以通过滑动屏幕看到店内的任何区域，同时可放大或缩小区域的内容，大大提高产品的体验感。

综上，本发明提供的一种基于深度学习的VR智能巡店方法，结合了VR可视化和深度学习的智能识别能力，可以帮助业务员快速高效的巡店，基于算法通过业务员拍摄的720度全景图像和普通的场景区域图像，能够自动识别店内的冰柜货架等场景信息，同时识别冰柜、货架上的具体商品类别和位置信息，能够更清楚、精确地定位和识别商品的详细信息，并能够通过720度全景图片进行展示，给人一种虚拟现实般的巡店体验，不仅能提高巡店效率，还能及时获取店铺中对应的场景区域的商品信息。

实施例2

参见图2，图2是本发明提供的一种基于深度学习的VR智能巡店装置的一种实施例的流程示意图，如图2所示，该装置包括图像获取模块201、全景图像检测模块202、场景区域图像检测模块203、相似度计算模块204、匹配模块205和展示模块206，具体如下：

所述图像获取模块201，用于获取店铺的全景图像及多个第一场景区域图像。

所述全景图像检测模块202，用于基于预训练的深度学习mask检测模型对所述全景图像中的场景区域进行检测，得到多个第二场景区域图像。

所述场景区域图像检测模块203，用于基于预训练的深度学习框检测模型分别对所述多个第一场景区域图像进行检测，得到每个第一场景区域图像对应的商品信息。

所述相似度计算模块204，用于通过局部区域匹配算法计算所述第一场景区域图像和所述第二场景区域图像之间的相似度，并基于所述相似度，构建相似度矩阵。

所述匹配模块205，用于基于预设匹配算法对相似度矩阵进行匹配，得到所述第一场景区域图像和所述第二场景区域图像的最优匹配对。

所述展示模块206，用于实时检测展示中的所述全景图像中的第二场景区域图像，基于所述最优匹配对，获取所述第二场景区域图像对应的第一场景图像，并实时展示第一场景区域图像及其对应的商品信息。

一实施例中，所述全景图像检测模块202，用于基于预训练的深度学习mask检测模型对所述全景图像中的场景区域进行检测，得到多个第二场景区域图像，具体包括：获取店铺的大量的全景样本图像，采用多边形框对每张全景样本图像中的场景区域进行标注，得到第一训练样本集；基于pytorch构建深度学习模型，根据所述第一训练样本集对所述深度学习模型进行模型训练，以使所述深度学习模型对每张全景样本图像中的多边形框进行检测，得到深度学习mask检测模型；基于所述深度学习mask检测模型，对店铺的全景图像进行多边形检测，得到多个第二场景区域图像。

一实施例中，所述全景图像检测模块202，用于基于所述深度学习mask检测模型，对店铺的全景图像进行多边形检测，得到多个第二场景区域图像，具体包括：将两张相同的全景图像进行拼接，得到全景拼接图像；基于所述深度学习mask检测模型，对所述全景拼接图像进行多边形检测，得到多个多边形区域图像；获取所有多边形区域图像对应的所有横坐标点，将每个横坐标点对应的第一数值减去单张全景图像的宽度，得到每个横坐标点对应的第二数值；若存在单张多边形区域图像中所有横坐标点对应的第二数值均大于零，则删除所述多边形区域图像；若存在单张多边形区域图像中存在部分横坐标点对应的第二数值大于零，则认为所述多边形区域图像为被切割图像，保存所有被切割图像，生成第一图像区域集合；若存在单张多边形区域图像中所有横坐标点对应的第二数值均小于零，则认为所述多边形区域图像为场景区域图像，保存所有场景区域图像，生成第二图像区域集合；获取所述第一图像区域集合中所有被切割图像对应的横坐标点的第二数值，若所述第二数值小于零，则将小于零的所有第二数值设置为零，生成第三图像区域集合；遍历所述第二图像区域集合中的每张场景区域图像，计算所述每张场景区域图像分别与所述第三图像区域集合中每张被切割图像的交并比，若所述交并比大于预设阈值，则删除所述第二图像区域集合中所述交并比对应的场景区域图像，直至遍历完所述第二图像区域集合，生成第四图像区域集合；计算所述第一图像区域集合与所述第四图像区域集合的并集，基于所述并集，得到多个第二场景区域图像。

一实施例中，所述场景区域图像检测模块203，用于基于预训练的深度学习框检测模型分别对所述多个第一场景区域图像进行检测，得到每个第一场景区域图像对应的商品信息，得到多个第二场景区域图像，具体包括：获取店铺的大量的场景区域样本图像，采用矩形框对每张场景区域样本图像中的商品进行标注，得到第二训练样本集；构建深度学习模型，根据所述第二训练样本集对所述深度学习模型进行网络权值优化，以使所述深度学习模型对每张场景区域样本图像中的矩形框进行检测，得到深度学习框检测模型；基于所述深度学习框检测模型分别对店铺的所述多个第一场景区域图像进行商品信息检测，得到每个第一场景区域图像对应的商品信息，其中，所述商品信息包括所有商品的图像位置坐标，商品的类别信息，商品所在的层及层位置。

一实施例中，所述相似度计算模块204，用于通过局部区域匹配算法计算所述第一场景区域图像和所述第二场景区域图像之间的相似度，并基于所述相似度，构建相似度矩阵，具体包括：通过Super Point深度学习网络对所述第一场景区域图像和所述第二场景区域图像进行局部特征点检测，得到每张第一场景区域图像对应的第一局部特征点和每张第二场景区域图像对一个的第二局部特征点；对所有第一场景区域图像和所有第二场景区域图像进行两两匹配，得到多组匹配对，基于所述第一局部特征点和所述第二局部特征点，分别计算每组匹配对的相似度，并整合所有相似度，得到相似度矩阵。

一实施例中，所述相似度计算模块204，用于基于所述第一局部特征点和所述第二局部特征点，分别计算每组匹配对的相似度，具体包括：获取每组匹配对中第一场景区域图像对应的第一局部特征点，同时获取每组匹配对中第二场景区域图像对应的第二局部特征点；对所述第一局部特征点中的第一特征点和所述第二局部特征点中的第二特征点进行两两匹配，得到多组特征点匹配对；分别计算每组特征点匹配对对应的余弦距离，并根据所述余弦距离，生成距离矩阵；随机选取所述距离矩阵的任意一行，获取所述任意一行中余弦距离的最小值，记录所述最小值对应的特征点匹配对，并删除所述最小值所在行和列，更新所述距离矩阵，直至无法随机选取所述距离矩阵的任意一行；获取记录的所有最小值对应的特征点匹配对，计算所有特征点匹配点对的距离总和；重复获取多个距离总和，将所述多个距离总和进行对比，得到最小距离总和，并获取所述最小距离总和对应的特征点匹配对的匹配对数，将所述匹配对数作为每组匹配对的相似度。

一实施例中，所述匹配模块205，用于基于预设匹配算法对相似度矩阵进行匹配，其中，所述预设匹配算法包括匈牙利最优权值匹配算法、快速匹配、贪婪匹配和最近邻匹配。

所属领域的技术人员可以清楚的了解到，为描述的方便和简洁，上述描述的装置的具体工作过程，可以参考前述方法实施例中的对应过程，在此不在赘述。

需要说明的是，上述基于深度学习的VR智能巡店装置的实施例仅仅是示意性的，其中所述作为分离部件说明的模块可以是或者也可以不是物理上分开的，作为模块显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。

在上述的基于深度学习的VR智能巡店方法的实施例的基础上，本发明另一实施例提供了一种基于深度学习的VR智能巡店终端设备，该基于深度学习的VR智能巡店终端设备，包括处理器、存储器以及存储在所述存储器中且被配置为由所述处理器执行的计算机程序，所述处理器执行所述计算机程序时，实现本发明任意一实施例的基于深度学习的VR智能巡店方法。

示例性的，在这一实施例中所述计算机程序可以被分割成一个或多个模块，所述一个或者多个模块被存储在所述存储器中，并由所述处理器执行，以完成本发明。所述一个或多个模块可以是能够完成特定功能的一系列计算机程序指令段，该指令段用于描述所述计算机程序在所述基于深度学习的VR智能巡店终端设备中的执行过程。

所述基于深度学习的VR智能巡店终端设备可以是桌上型计算机、笔记本、掌上电脑及云端服务器等计算设备。所述基于深度学习的VR智能巡店终端设备可包括，但不仅限于，处理器、存储器。

所称处理器可以是中央处理单元(Central Processing Unit，CPU)，还可以是其他通用处理器、数字信号处理器 (Digital Signal Processor，DSP)、专用集成电路(Application Specific Integrated Circuit，ASIC)、现成可编程门阵列 (Field-Programmable Gate Array，FPGA) 或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等，所述处理器是所述基于深度学习的VR智能巡店终端设备的控制中心，利用各种接口和线路连接整个基于深度学习的VR智能巡店终端设备的各个部分。

所述存储器可用于存储所述计算机程序和/或模块，所述处理器通过运行或执行存储在所述存储器内的计算机程序和/或模块，以及调用存储在存储器内的数据，实现所述基于深度学习的VR智能巡店终端设备的各种功能。所述存储器可主要包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需的应用程序等；存储数据区可存储根据手机的使用所创建的数据等。此外，存储器可以包括高速随机存取存储器，还可以包括非易失性存储器，例如硬盘、内存、插接式硬盘，智能存储卡（Smart Media Card,SMC），安全数字（Secure Digital, SD）卡，闪存卡（Flash Card）、至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。

在上述基于深度学习的VR智能巡店方法的实施例的基础上，本发明另一实施例提供了一种存储介质，所述存储介质包括存储的计算机程序，其中，在所述计算机程序运行时，控制所述存储介质所在的设备执行本发明任意一实施例的基于深度学习的VR智能巡店方法。

在这一实施例中，上述存储介质为计算机可读存储介质，所述计算机程序包括计算机程序代码，所述计算机程序代码可以为源代码形式、对象代码形式、可执行文件或某些中间形式等。所述计算机可读介质可以包括：能够携带所述计算机程序代码的任何实体或装置、记录介质、U盘、移动硬盘、磁碟、光盘、计算机存储器、只读存储器（ROM，Read-OnlyMemory）、随机存取存储器（RAM，Random Access Memory）、电载波信号、电信信号以及软件分发介质等。需要说明的是，所述计算机可读介质包含的内容可以根据司法管辖区内立法和专利实践的要求进行适当的增减，例如在某些司法管辖区，根据立法和专利实践，计算机可读介质不包括电载波信号和电信信号。

综上，本发明提供了一种基于深度学习的VR智能巡店方法及装置，通过获取店铺的全景图像及多个第一场景区域图像；对全景图像中的场景区域进行检测，得到多个第二场景区域图像；对多个第一场景区域图像进行商品信息检测，得到对应的商品信息；通过计算第一场景区域图像和第二场景区域图像之间的相似度，构建相似度矩阵；并基于预设匹配算法对相似度矩阵进行匹配，得到第一场景区域图像和第二场景区域图像的最优匹配对；以使在实时检测到展示中的所述全景图像中的第二场景区域图像时，能基于最优匹配对，实时展示第一场景区域图像及其对应的商品信息。与现有技术相比，本发明的技术方案不仅能提高巡店效率，还能及时获取店铺中对应的场景区域的商品信息。

以上所述仅是本发明的优选实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明技术原理的前提下，还可以做出若干改进和替换，这些改进和替换也应视为本发明的保护范围。

Claims

1.一种基于深度学习的VR智能巡店方法，其特征在于，包括：

获取店铺的全景图像及多个第一场景区域图像；

2.如权利要求1所述的一种基于深度学习的VR智能巡店方法，其特征在于，基于预训练的深度学习mask检测模型对所述全景图像中的场景区域进行检测，得到多个第二场景区域图像，具体包括：

3.如权利要求1所述的一种基于深度学习的VR智能巡店方法，其特征在于，基于所述深度学习mask检测模型，对店铺的全景图像进行多边形检测，得到多个第二场景区域图像，具体包括：

将两张相同的全景图像进行拼接，得到全景拼接图像；

4.如权利要求1所述的一种基于深度学习的VR智能巡店方法，其特征在于，基于预训练的深度学习框检测模型分别对所述多个第一场景区域图像进行检测，得到每个第一场景区域图像对应的商品信息，得到多个第二场景区域图像，具体包括：

5.如权利要求1所述的一种基于深度学习的VR智能巡店方法，其特征在于，通过局部区域匹配算法计算所述第一场景区域图像和所述第二场景区域图像之间的相似度，并基于所述相似度，构建相似度矩阵，具体包括：

6.如权利要求5所述的一种基于深度学习的VR智能巡店方法，其特征在于，基于所述第一局部特征点和所述第二局部特征点，分别计算每组匹配对的相似度，具体包括：

7.如权利要求1所述的一种基于深度学习的VR智能巡店方法，其特征在于，基于预设匹配算法对相似度矩阵进行匹配，其中，所述预设匹配算法包括匈牙利最优权值匹配算法、快速匹配、贪婪匹配和最近邻匹配。

8.一种基于深度学习的VR智能巡店装置，其特征在于，包括：图像获取模块、全景图像检测模块、场景区域图像检测模块、相似度计算模块、匹配模块和展示模块；

9.一种终端设备，其特征在于，包括处理器、存储器以及存储在所述存储器中且被配置为由所述处理器执行的计算机程序，所述处理器执行所述计算机程序时实现如权利要求1至7任意一项所述的基于深度学习的VR智能巡店方法。

10.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质包括存储的计算机程序，其中，在所述计算机程序运行时控制所述计算机可读存储介质所在设备执行如权利要求1至7中任意一项所述的基于深度学习的VR智能巡店方法。