CN112967341A - 基于实景图像的室内视觉定位方法、系统、设备及存储介质 - Google Patents

基于实景图像的室内视觉定位方法、系统、设备及存储介质 Download PDF

Info

Publication number
CN112967341A
CN112967341A CN202110201026.2A CN202110201026A CN112967341A CN 112967341 A CN112967341 A CN 112967341A CN 202110201026 A CN202110201026 A CN 202110201026A CN 112967341 A CN112967341 A CN 112967341A
Authority
CN
China
Prior art keywords
live
data set
image
sub
action
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202110201026.2A
Other languages
English (en)
Other versions
CN112967341B (zh
Inventor
林小龙
郭红星
徐敬东
冯胜平
刘成亮
刘云飞
蔡松志
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hubei Fengdanbailu Smart Logo Technology Co Ltd
Huazhong University of Science and Technology
Original Assignee
Hubei Fengdanbailu Smart Logo Technology Co Ltd
Huazhong University of Science and Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hubei Fengdanbailu Smart Logo Technology Co Ltd, Huazhong University of Science and Technology filed Critical Hubei Fengdanbailu Smart Logo Technology Co Ltd
Priority to CN202110201026.2A priority Critical patent/CN112967341B/zh
Publication of CN112967341A publication Critical patent/CN112967341A/zh
Application granted granted Critical
Publication of CN112967341B publication Critical patent/CN112967341B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/70Determining position or orientation of objects or cameras
    • G06T7/73Determining position or orientation of objects or cameras using feature-based methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/70Information retrieval; Database structures therefor; File system structures therefor of video data
    • G06F16/75Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/70Information retrieval; Database structures therefor; File system structures therefor of video data
    • G06F16/78Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/783Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
    • G06F16/7837Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content using objects detected or recognised in the video content
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/20Analysis of motion
    • G06T7/269Analysis of motion using gradient-based methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/46Descriptors for shape, contour or point-related descriptors, e.g. scale invariant feature transform [SIFT] or bags of words [BoW]; Salient regional features
    • G06V10/462Salient features, e.g. scale invariant feature transforms [SIFT]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/10Image acquisition modality
    • G06T2207/10016Video; Image sequence
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20081Training; Learning
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Library & Information Science (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开了一种基于实景图像的室内视觉定位方法、系统、设备及存储介质,基于区域划分的视觉定位思想,提出低成本、高效率的数据集采集标定方法,通过深度神经网络识别实景图像进行室内位置推理。首先利用基于滑动窗口的二次筛选算法过滤抖动帧,通过稀疏光流法跟踪特征点,根据对极几何原理恢复相机位姿,完成实景图像数据集标定,为定位模型提供高质量训练及测试数据;按照区域划分思想划分若干场景区域,根据所属子区域中心坐标量化数据集坐标标签,解决数据集分布不一致问题;设定不同区域划分粒度以分别量化数据集、训练分类模型,选择最高定位精度的模型部署于Web服务器,在增加系统便利性的同时,进一步提高实际定位精度。

Description

基于实景图像的室内视觉定位方法、系统、设备及存储介质
技术领域
本发明属于室内视觉定位领域,具体涉及一种基于实景图像的室内视觉定位方法、系统、设备及存储介质。
背景技术
视觉定位技术的核心是图像识别,图像数据在计算机中的存储与运算基于图像传感器采集的像素信息。在处理高维像素信息时首先对图像进行特征点检测,常用的特征点检测方法有SIFT、SURF、LBP等,大多基于图像局部特征。在完成特征点检测工作后,使用聚类算法如K-means将特征向量分为K类,再通过视觉词袋模型构建图像特征。
现有技术中,室内视觉定位技术主要包括:Jason等人通过提取智能手机拍摄的实景图像特征点后,与数据库中事先储存的图像特征点进行特征比对来寻找最相似图像,再通过PnP原理恢复出拍摄实景图像的相机位姿。但是,该方法所需的高精度数据库需要事先使用复杂的采集背包事先对场景进行无死角图像采集,成本高昂,场景发生变化后精度降低明显。Giovanni Fusco等人通过识别场景内事先张贴的标记图像定位室内位置。但是,这些方法依赖于特征点的提取,难以从纯色墙体为主的室内图像中提取到有效的特征点用于图像检索。
发明内容
针对现有技术的缺陷,本发明提出了一种基于实景图像的室内视觉定位方法、系统、设备及存储介质,目的在于解决现有视觉定位技术在室内环境下的部署维护成本高、定位精度差、实用性弱的问题。
为实现上述目的,本发明实施例提供了一种基于实景图像的室内视觉定位方法、系统、设备及存储介质。
本发明第一方面,提出一种基于实景图像的室内视觉定位方法,所述方法包括以下步骤:
S1、连续采集室内公共区域的实景视频图像,建立原始视频数据库;
S2、根据原始视频帧平均梯度变化筛选非抖动帧,平衡图像曝光,得到预处理后的帧序列用于空间坐标恢复;
S3、确定帧序列中的关键帧,跟踪关键帧特征点在当前帧的运动位置,得到特征点对;
S4、根据特征点对求解相机旋转矩阵与平移矩阵,恢复当前帧空间位置坐标,给当前帧添加坐标标签,依次对当前帧序列执行步骤S3、S4后得到完成标定的数据集;
S5、设定区域划分粒度,将室内公共区域划分成多个子区域,根据子区域中心坐标量化对应子区域中数据集图像的坐标标签;
S6、通过所述数据集训练轻量级分类网络模型;
S7、获取待定位实景图像,预处理后送入训练好的分类网络模型,输出类别,查询类别对应的子区域坐标,完成定位。
优选的,所述步骤S2中,筛选非抖动帧具体包括以下子步骤:
S201、生成视频帧平均梯度序列;
S202、设定滑动窗口大小与梯度阈值;
S203、根据梯度阈值筛选出候选帧放入候选帧序列;
S204、返回步骤S202,修改梯度阈值大小或滑动窗口大小,进行二次筛选。
优选的,所述步骤S3中,确定帧序列中的关键帧具体包括:
根据视频帧序列中SIFT特征点数量确定关键帧,若无关键帧则选取当前帧为关键帧,当上一关键帧特征点的光流估计结果不在图像内部时,选取当前帧为关键帧。
优选的,步骤S4具体包括以下子步骤:
S401、根据特征点对使用五点法求解相机本质矩阵;
S402、根据相机本质矩阵,利用奇异值分解求解相机旋转矩阵与相机平移矩阵;
S403、基于相机旋转矩阵、相机平移矩阵及当前帧和关键帧分别对应的相机平移矩阵、相机旋转矩阵计算当前帧空间坐标,同时将带有空间坐标标签的当前帧加入标定数据集。
优选的,步骤S5具体包括以下子步骤:
S501、根据设定的子区域长度划分室内公共区域,计算各子区域坐标范围与中心坐标;
S502、根据数据集中图像对应的坐标标签查询其对应子区域;
S503、以子区域中心坐标替换对应数据集图像的原坐标标签,得到量化后的坐标标签。
优选的,所述步骤S6中,所述通过所述数据集训练轻量级分类网络模型之前还包括:将数据集划分为训练集、验证集、测试集,同时对训练集进行数据增强,数据增强包括左右水平翻转、小角度图像旋转;所述通过所述数据集训练轻量级分类网络模型之后还包括:基于开放神经网络交换技术将分类网络模型部署于web服务器。
优选的,步骤S7具体包括以下子步骤:
S701、输入待定位实景图像;
S702、对待定位实景图像进行预处理,转化为tensor张量;
S703、将tensor张量输入训练好的分类网络模型执行网络推理,得到待定位实景图像所属子区域;
S704、查询待定位实景图像所属子区域的中心坐标,输出定位结果。
本发明第二方面,一种基于实景图像的室内视觉定位系统,所述系统包括:
数据采集模块:连续采集室内公共区域的实景视频图像,建立原始视频数据库;
预处理模块:根据原始视频帧平均梯度变化筛选非抖动帧,平衡图像曝光,得到预处理后的帧序列用于空间坐标恢复;
数据标定模块:用于确定帧序列中的关键帧,跟踪关键帧特征点在当前帧的运动位置,得到特征点对;根据特征点对求解相机旋转矩阵与平移矩阵,恢复当前帧空间位置坐标,给当前帧添加坐标标签;依次对帧序列添加坐标标签,得到完成标定的数据集;
区域划分模块:设定区域划分粒度,将室内公共区域划分成多个子区域,根据子区域中心坐标量化对应子区域中数据集图像的坐标标签;
模型训练模块:通过所述数据集训练轻量级分类网络模型;
室内定位模块:获取待定位实景图像,预处理后送入训练好的分类网络模型,输出类别,查询类别对应的子区域坐标,完成定位。
本发明第三方面,公开一种电子设备,包括:至少一个处理器、至少一个存储器、通信接口和总线;
其中,所述处理器、存储器、通信接口通过所述总线完成相互间的通信;
所述存储器存储有可被所述处理器执行的程序指令,所述处理器调用所述程序指令,以实现如本发明第一方面所述的方法。
本发明第四方面,公开一种计算机可读存储介质,所述计算机可读存储介质存储计算机指令,所述计算机指令使所述计算机实现本发明第一方面所述的方法。
本发明相对于现有技术具有以下有益效果:
1)本发明通过分析手持相机拍摄场景实景视频的梯度变化,筛选非抖动帧,使用直方图均衡调节场景视频帧曝光程度,大幅度提高了手持拍摄场景视频用于后续数据集制作的可行性,降低了室内视频采集的硬件成本;
2)本发明采用稀疏光流法与对极几何原理标定数据集,基于特征点的稀疏光流法可以获取视频帧序列中关键帧特征点的运动方向,利用对极几何原理恢复出相机位姿,可以还原出视频图像帧的拍摄位置,极大地降低了图像数据集的标定成本;
3)本发明设定区域划分粒度,将室内公共区域划分成多个子区域,根据子区域中心坐标量化对应子区域中数据集图像的坐标标签;通过所述数据集训练轻量级分类网络模型MobileNetV3,解决人工设计的特征提取算法在室内场景的不适应性,降低网络参数量与计算量,结合场景分区定位方法,解决场景结构特殊性导致的数据集在不同维度的分布不均衡问题,大幅度提高了室内视觉定位的精度。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例中基于实景图像的室内视觉定位方法流程示意图;
图2为本发明实施例中数据集标定流程图;
图3为本发明实施例中部分帧序列平均梯度图;
图4为本发明实施例中子区域长度为6m时的区域划分示意图;
图5为本发明实施例中分类网络模型结构示意图;
图6为本发明实施例中通过手机端进行室内视觉定位流程图。
具体实施方式
下面将结合本发明实施方式,对本发明实施方式中的技术方案进行清楚、完整地描述,显然,所描述的实施方式仅仅是本发明一部分实施方式,而不是全部的实施方式。基于本发明中的实施方式,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施方式,都属于本发明保护的范围。
请参阅图1,本发明提出一种基于实景图像的室内视觉定位方法,包括以下步骤:
S1、连续采集室内公共区域的实景视频图像,建立原始视频数据库;
智能手机保有量逐年增加,其普遍具有图像传感器,能够拍摄高像素的图像和视频。本发明实施例选择的室内场景以典型的狭长直线型走廊为主要公共区域,使用智能手机采集实景视频时,采集人员手持智能手机于室内公共区域来回拍摄。本发明实施例中场景视频采集过程中,采集人员行走速度需要略慢于正常步速以尽量减少视频抖动,手持相机高度大约为成年人身高的0、85,拍摄的视频分辨率为720P、帧率60FPS。
接下来利用采集到的数据制作数据集并标定。
S2、根据原始视频帧平均梯度变化筛选非抖动帧,平衡图像曝光,得到预处理后的帧序列用于空间坐标恢复;
受限于成本因素,手持智能手机拍摄视频存在周期性抖动问题,所采集的视频帧存在大量抖动帧,抖动帧画面模糊、整体轮廓朝某一方向漂移,严重影响后续坐标标定的准确性,因此,剔除抖动帧十分重要。
首先,利用Sobel算子与视频帧进行卷积操作,得到梯度图,计算每个视频帧的平均梯度,得到平均梯度序列,如附图3所示部分帧序列平均梯度图。然后,根据序列中抖动帧平均梯度骤降的特点,通过两次筛选算法过滤抖动帧。筛选非抖动帧具体包括以下子步骤:
S201、生成视频帧平均梯度序列;
S202、设定滑动窗口大小与梯度阈值;
S203、根据梯度阈值筛选出候选帧放入候选帧序列;
S204、返回步骤S202,修改梯度阈值大小或滑动窗口大小,进行二次筛选。
经过一次筛选后,已经过滤掉大部分抖动帧,为了进一步优化抖动问题,对候选帧进行第二次筛选。二次筛选需要适当降低阈值,保留大部分候选帧,本发明实施例第二次筛选的阈值设为滑动窗口内均值的三分之二。
S3、确定帧序列中的关键帧,跟踪关键帧特征点在当前帧的运动位置,得到特征点对;
根据视频帧序列中SIFT特征点数量确定关键帧,若无关键帧则选取当前帧为关键帧,采用稀疏光流法跟踪视频帧序列中关键帧特征点的运动信息,当上一关键帧特征点的稀疏光流估计结果不在图像内部时,选取当前帧为关键帧。
具体的,标定初始化时,确立视频帧序列中SIFT特征点数量大于500的首个图像帧为关键帧,在后续当前帧上使用LK稀疏光流法跟踪关键帧特征点的运动信息。光流法基本约束方程为:
Ixu+Iyv+It=0
其中u、v表示目标特征点的水平速度与垂直速度,Ix、Iy、It分别表示图像在x、y、t方向上的导数。利用空间一致性假设求解u、v,设A由该特征点周围邻域内点组成:
Figure BDA0002948909370000071
其中p1,2,...,n表示中心像素邻域内的像素点。设x为所求偏移,b为非齐次项,计算公式如下:
Ax=b
使用最小二乘法求解出关键帧特征点在当前帧中的运动估计,光流法跟踪结果与特征点一一对应,得到特征点对。去除掉光流法跟踪结果中超出图像范围的无效点,若剩余有效点数量小于200,则更新当前帧为关键帧,重新提取关键帧特征点。
S4、根据特征点对求解相机旋转矩阵与平移矩阵,恢复当前帧空间位置坐标,给当前帧添加坐标标签,依次对当前帧序列执行步骤S3、S4后得到完成标定的数据集;
步骤S4具体包括以下子步骤:
S401、根据特征点对使用五点法求解相机本质矩阵;
S402、根据相机本质矩阵,利用奇异值分解求解相机旋转矩阵与相机平移矩阵;
S403、基于相机旋转矩阵、相机平移矩阵及当前帧和关键帧分别对应的相机平移矩阵、相机旋转矩阵计算当前帧空间坐标,同时将带有空间坐标标签的当前帧加入标定数据集。
本实施例利用对极几何原理恢复出相机位姿,利用世界坐标系下的一点在不同像素坐标系下的对应关系求解相机的基础矩阵。对应关系如下:
Figure BDA0002948909370000081
其中x1(u1,v1)与x2(u2,v2)分别为关键帧特征点与光流估计结果对应的像素坐标,矩阵E为相机基础矩阵,t为平移向量、R为旋转向量。E具有五个自由度,使用五点法求解出基础矩阵后,通过奇异值分解得到R和t的估计。再逐次通过下式恢复当前帧的相机位姿:
tcur=tkey+Rcurt,Rcur=RRkey
其中tcur、tkey分别为当前帧和关键帧对应的相机平移向量,Rcur、Rkey分别为当前帧和关键帧对应的相机旋转向量。将当前帧的相机平移位置与初始位置相加得到当前帧空间坐标,以该坐标为当前帧的标签,并将带有标签的当前帧加入已标定数据集。本实施例数据集标定仅使用相机的平移信息,未使用相机旋转信息。
图2为本发明实施例完整的数据集标定流程图,完成标定后得到可用于网络训练的图像数据集。
S5、设定区域划分粒度,将室内公共区域划分成多个子区域,根据子区域中心坐标量化对应子区域中数据集图像的坐标标签;
步骤S4得到的标定数据集在二维空间上的分布相对均匀,但是在两个正交子维度上的分布存在严重的不均衡现象。本发明实施例在空间层面划分场景区域为若干子区域,区域间对应的图像数据数量保持相对平衡。步骤S5具体包括以下子步骤:
S501、根据设定的子区域长度划分室内公共区域,计算各子区域坐标范围与中心坐标;
大型公共室内场景区域以狭长直线型走廊为主,根据事先设定的子区域长度划分场景空间,本发明实施例以1m、2m、4m、6m四种子区域长度划分实验场景区域,如附图4为子区域长度为6m时的区域划分示意图,实验场景被分为66个子区域,得到每个区域的中心坐标。
S502、根据数据集中图像对应的坐标标签查询其对应子区域;
S503、以子区域中心坐标替换对应数据集图像的原坐标标签,得到量化后的坐标标签。
查找标定数据集中每张图像对应的区域中心坐标,以该中心坐标替换原图像数据的位置标签,生成量化后的数据集用于模型训练。
S6、将数据集划分为训练集、验证集、测试集,同时对训练集进行数据增强,训练轻量级分类网络模型;
将步骤S5得到的数据集为训练集、验证集、测试集三个部分,通过水平翻转图像、小角度旋转图像对训练集进行数据增强,不使用随机裁剪以保证图像的空间尺度不变。使用增强数据训练分类网络,分类网络结构如表1所示。
表1
Figure BDA0002948909370000091
该分类网络模型使用MobileNetV3结构,其中input代表mobilenetV3每个特征层的shape,Operator代表每个特征层的结构,exp size表示瓶颈层中间扩展通道数,out表示输出通道数,SE表示是否使用squeeze and excite技术,√表示是,–表示否;NL为非线性激活函数,HS代表h-swish函数,RE代表RELU函数,s表示步长stride。
如附图5所示为分类网络结构示意图,该分类网络输出K个类别,K等于划分的子区域数量,取决于步骤S5中设定的分区粒度,一个类别表示一个子区域,分类网络将输入的实景图像分类到所属的正确子区域。本发明实施例选取四种不同分区粒度对数据集进行划分,并分别训练分类网络模型,使用测试集测试不同分区粒度下的实际定位误差。本发明通过设定不同区域划分粒度以分别量化数据集、训练分类模型,选择最高定位精度的模型部署于Web服务器,在增加系统便利性的同时,进一步提高实际定位精度,当子区域长度为2m时,实际定位误差为1.37m。
将完成训练的神经网络模型及网络参数保存为ONNX(Open Neural NetworkExchange,开放神经网络交换)格式文件,并部署于Web服务器,等待客户端浏览器请求下载。具体实施时,可设定不同区域划分粒度以分别量化数据集、训练分类模型,选择最高定位精度的模型部署于Web服务器。
S7、获取待定位实景图像,预处理后送入训练好的分类网络模型,输出类别,查询类别对应的子区域坐标,完成定位。
如附图6所示为手机端模型推理流程图,手机浏览器通过统一资源定位符访问系统网页,请求下载上述模型文件至手机浏览器,完成初始化加载后,选择本地图像或拍摄实景照片输入至神经网络模型进行推理,输出子区域编号后,查询不同子区域编号与对应的中心坐标的区域坐标映射表,输出对应的中心坐标,完成定位。步骤S7具体包括以下子步骤:
S701、输入待定位实景图像;
S702、对待定位实景图像进行图像降采样预处理,转化为tensor张量;
S703、将tensor张量输入训练好的分类网络模型执行网络推理,得到待定位实景图像所属子区域;
S704、查询待定位实景图像所属子区域的中心坐标,输出定位结果。
与所述方法实施例相对应,本发明还提出一种基于实景图像的室内视觉定位系统,所述系统包括:
数据采集模块:用于连续采集室内公共区域的实景视频图像,建立原始视频数据库;
预处理模块:用于根据原始视频帧平均梯度变化筛选非抖动帧,平衡图像曝光,得到预处理后的帧序列用于空间坐标恢复;
数据标定模块:用于确定帧序列中的关键帧,跟踪关键帧特征点在当前帧的运动位置,得到特征点对;根据特征点对求解相机旋转矩阵与平移矩阵,恢复当前帧空间位置坐标,给当前帧添加坐标标签;依次对帧序列添加坐标标签,得到完成标定的数据集;
区域划分模块:用于设定区域划分粒度,将室内公共区域划分成多个子区域,根据子区域中心坐标量化对应子区域中数据集图像的坐标标签;
模型部署模块:用于基于开放神经网络交换技术将分类网络模型部署于web服务器;
模型训练模块:用于通过所述数据集训练轻量级分类网络模型;
室内定位模块:用于获取待定位实景图像,预处理后送入训练好的分类网络模型,输出类别,查询类别对应的子区域坐标,完成定位。
本发明系统实施例和方法实施例是对应的,系统实施例简述之处请参阅方法实施例。
本发明还公开一种电子设备,包括:至少一个处理器、至少一个存储器、通信接口和总线;其中,所述处理器、存储器、通信接口通过所述总线完成相互间的通信;所述存储器存储有可被所述处理器执行的程序指令,所述处理器调用所述程序指令,以实现本发明前述的基于实景图像的室内视觉定位方法。
本发明还公开一种计算机可读存储介质,所述计算机可读存储介质存储计算机指令,所述计算机指令使所述计算机实现本发明实施例所述的基于实景图像的室内视觉定位方法的全部或部分步骤。所述存储介质包括:U盘、移动硬盘、只议存储器ROM、随机存取存储器RAM、磁碟或者光盘等各种可以存储程序代码的介质。
以上所描述的系统实施例仅仅是示意性的,其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以分布到多个网络单元上。可以根据实际的衙要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下,即可以理解并实施。
以上所述仅为本发明的较佳实施方式而已,并不用以限制本发明,凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (10)

1.一种基于实景图像的室内视觉定位方法,其特征在于,所述方法包括以下步骤:
S1、连续采集室内公共区域的实景视频图像,建立原始视频数据库;
S2、根据原始视频帧平均梯度变化筛选非抖动帧,平衡图像曝光,得到预处理后的帧序列用于空间坐标恢复;
S3、确定帧序列中的关键帧,跟踪关键帧特征点在当前帧的运动位置,得到特征点对;
S4、根据特征点对求解相机旋转矩阵与平移矩阵,恢复当前帧空间位置坐标,给当前帧添加坐标标签,依次对当前帧序列执行步骤S3、S4后得到完成标定的数据集;
S5、设定区域划分粒度,将室内公共区域划分成多个子区域,根据子区域中心坐标量化对应子区域中数据集图像的坐标标签;
S6、通过所述数据集训练轻量级分类网络模型;
S7、获取待定位实景图像,预处理后送入训练好的分类网络模型,输出类别,查询类别对应的子区域坐标,完成定位。
2.权利要求1所述的基于实景图像的室内视觉定位方法,其特征在于,所述步骤S2中,筛选非抖动帧具体包括以下子步骤:
S201、生成视频帧平均梯度序列;
S202、设定滑动窗口大小与梯度阈值;
S203、根据梯度阈值筛选出候选帧放入候选帧序列;
S204、返回步骤S202,修改梯度阈值大小或滑动窗口大小,进行二次筛选。
3.根据权利要求1所述的基于实景图像的室内视觉定位方法,其特征在于,所述步骤S3具体包括:
根据视频帧序列中SIFT特征点数量确定关键帧,若无关键帧则选取当前帧为关键帧,采用稀疏光流法跟踪视频帧序列中关键帧特征点的运动信息,当上一关键帧特征点的稀疏光流估计结果不在图像内部时,选取当前帧为关键帧。
4.根据权利要求3所述的基于实景图像的室内视觉定位方法,其特征在于,步骤S4具体包括以下子步骤:
S401、根据特征点对使用五点法求解相机本质矩阵;
S402、根据相机本质矩阵,利用奇异值分解求解相机旋转矩阵与相机平移矩阵;
S403、基于相机旋转矩阵、相机平移矩阵及当前帧和关键帧分别对应的相机平移矩阵、相机旋转矩阵计算当前帧空间坐标,同时将带有空间坐标标签的当前帧加入标定数据集。
5.根据权利要求4所述的基于实景图像的室内视觉定位方法,其特征在于,步骤S5具体包括以下子步骤:
S501、根据设定的子区域长度划分室内公共区域,计算各子区域坐标范围与中心坐标;
S502、根据数据集中图像对应的坐标标签查询其对应子区域;
S503、以子区域中心坐标替换对应数据集图像的原坐标标签,得到量化后的坐标标签。
6.根据权利要求1所述的基于实景图像的室内视觉定位方法,其特征在于,所述步骤S6中,所述通过所述数据集训练轻量级分类网络模型之前还包括:将数据集划分为训练集、验证集、测试集,同时对训练集进行数据增强,数据增强包括左右水平翻转、小角度图像旋转;
所述通过所述数据集训练轻量级分类网络模型之后还包括:基于开放神经网络交换技术将分类网络模型部署于web服务器。
7.根据权利要求5所述的基于实景图像的室内视觉定位方法,其特征在于,步骤S7具体包括以下子步骤:
S701、输入待定位实景图像;
S702、对待定位实景图像进行预处理,转化为tensor张量;
S703、将tensor张量输入训练好的分类网络模型执行网络推理,得到待定位实景图像所属子区域;
S704、查询待定位实景图像所属子区域的中心坐标,输出定位结果。
8.一种基于实景图像的室内视觉定位系统,其特征在于,所述系统包括:
数据采集模块:用于连续采集室内公共区域的实景视频图像,建立原始视频数据库;
预处理模块:用于根据原始视频帧平均梯度变化筛选非抖动帧,平衡图像曝光,得到预处理后的帧序列用于空间坐标恢复;
数据标定模块:用于确定帧序列中的关键帧,跟踪关键帧特征点在当前帧的运动位置,得到特征点对;根据特征点对求解相机旋转矩阵与平移矩阵,恢复当前帧空间位置坐标,给当前帧添加坐标标签;依次对帧序列添加坐标标签,得到完成标定的数据集;
区域划分模块:用于设定区域划分粒度,将室内公共区域划分成多个子区域,根据子区域中心坐标量化对应子区域中数据集图像的坐标标签;
模型训练模块:用于通过所述数据集训练轻量级分类网络模型;
室内定位模块:用于获取待定位实景图像,预处理后送入训练好的分类网络模型,输出类别,查询类别对应的子区域坐标,完成定位。
9.一种电子设备,包括:至少一个处理器、至少一个存储器、通信接口和总线;
其中,所述处理器、存储器、通信接口通过所述总线完成相互间的通信;
所述存储器存储有可被所述处理器执行的程序指令,所述处理器调用所述程序指令,以实现如权利要求1~7任一项所述的方法。
10.一种计算机可读存储介质,所述计算机可读存储介质存储计算机指令,所述计算机指令使所述计算机实现权利要求1~7任一项所述的方法。
CN202110201026.2A 2021-02-23 2021-02-23 基于实景图像的室内视觉定位方法、系统、设备及存储介质 Active CN112967341B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110201026.2A CN112967341B (zh) 2021-02-23 2021-02-23 基于实景图像的室内视觉定位方法、系统、设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110201026.2A CN112967341B (zh) 2021-02-23 2021-02-23 基于实景图像的室内视觉定位方法、系统、设备及存储介质

Publications (2)

Publication Number Publication Date
CN112967341A true CN112967341A (zh) 2021-06-15
CN112967341B CN112967341B (zh) 2023-04-25

Family

ID=76285657

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110201026.2A Active CN112967341B (zh) 2021-02-23 2021-02-23 基于实景图像的室内视觉定位方法、系统、设备及存储介质

Country Status (1)

Country Link
CN (1) CN112967341B (zh)

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113436251A (zh) * 2021-06-24 2021-09-24 东北大学 一种基于改进的yolo6d算法的位姿估计系统及方法
CN113490171A (zh) * 2021-08-11 2021-10-08 重庆大学 一种基于视觉标签的室内定位方法
CN113612984A (zh) * 2021-07-29 2021-11-05 江苏动泰运动用品有限公司 基于图像处理的室内采集点定位方法与系统
CN113640307A (zh) * 2021-08-31 2021-11-12 郑州铁路职业技术学院 一种采用机器视觉的轨道状况监测方法
CN114004886A (zh) * 2021-10-29 2022-02-01 中远海运科技股份有限公司 一种分析图像高频稳定点的相机移位判别方法及系统
CN115052154A (zh) * 2022-05-30 2022-09-13 北京百度网讯科技有限公司 一种模型训练和视频编码方法、装置、设备及存储介质
CN115174817A (zh) * 2022-09-05 2022-10-11 深圳深知未来智能有限公司 一种基于深度学习的混合防抖方法及系统

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20150304634A1 (en) * 2011-08-04 2015-10-22 John George Karvounis Mapping and tracking system
CN107481279A (zh) * 2017-05-18 2017-12-15 华中科技大学 一种单目视频深度图计算方法
CN109816686A (zh) * 2019-01-15 2019-05-28 山东大学 基于物体实例匹配的机器人语义slam方法、处理器及机器人
CN111126304A (zh) * 2019-12-25 2020-05-08 鲁东大学 一种基于室内自然场景图像深度学习的增强现实导航方法
CN111680671A (zh) * 2020-08-13 2020-09-18 北京理工大学 一种基于光流的摄像方案自动生成方法
CN111739063A (zh) * 2020-06-23 2020-10-02 郑州大学 一种基于多传感器融合的电力巡检机器人定位方法
CN111899334A (zh) * 2020-07-28 2020-11-06 北京科技大学 一种基于点线特征的视觉同步定位与地图构建方法及装置
CN112116631A (zh) * 2020-09-07 2020-12-22 江苏瑞科科技有限公司 一种工业增强现实组合定位系统

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20150304634A1 (en) * 2011-08-04 2015-10-22 John George Karvounis Mapping and tracking system
CN107481279A (zh) * 2017-05-18 2017-12-15 华中科技大学 一种单目视频深度图计算方法
CN109816686A (zh) * 2019-01-15 2019-05-28 山东大学 基于物体实例匹配的机器人语义slam方法、处理器及机器人
CN111126304A (zh) * 2019-12-25 2020-05-08 鲁东大学 一种基于室内自然场景图像深度学习的增强现实导航方法
CN111739063A (zh) * 2020-06-23 2020-10-02 郑州大学 一种基于多传感器融合的电力巡检机器人定位方法
CN111899334A (zh) * 2020-07-28 2020-11-06 北京科技大学 一种基于点线特征的视觉同步定位与地图构建方法及装置
CN111680671A (zh) * 2020-08-13 2020-09-18 北京理工大学 一种基于光流的摄像方案自动生成方法
CN112116631A (zh) * 2020-09-07 2020-12-22 江苏瑞科科技有限公司 一种工业增强现实组合定位系统

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
FAN ZHANG,ET AL: "Indoor Space Recognition using Deep Convolutional Neural Network: A Case Study at MIT Campus", 《ARXIV》 *
JASON ZHI LIANG: "Image Based Localization in Indoor Environments" *
TORSTEN SATTLER: "Efficient & Effective Prioritized Matching for Large-Scale Image-Based Localization" *
徐聪: "基于计算机视觉的室内定位关键技术研究", 《中国优秀硕士学位论文全文数据库信息科技辑》 *

Cited By (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113436251A (zh) * 2021-06-24 2021-09-24 东北大学 一种基于改进的yolo6d算法的位姿估计系统及方法
CN113436251B (zh) * 2021-06-24 2024-01-09 东北大学 一种基于改进的yolo6d算法的位姿估计系统及方法
CN113612984A (zh) * 2021-07-29 2021-11-05 江苏动泰运动用品有限公司 基于图像处理的室内采集点定位方法与系统
CN113490171A (zh) * 2021-08-11 2021-10-08 重庆大学 一种基于视觉标签的室内定位方法
CN113490171B (zh) * 2021-08-11 2022-05-13 重庆大学 一种基于视觉标签的室内定位方法
CN113640307A (zh) * 2021-08-31 2021-11-12 郑州铁路职业技术学院 一种采用机器视觉的轨道状况监测方法
CN113640307B (zh) * 2021-08-31 2023-10-10 郑州铁路职业技术学院 一种采用机器视觉的轨道状况监测方法
CN114004886A (zh) * 2021-10-29 2022-02-01 中远海运科技股份有限公司 一种分析图像高频稳定点的相机移位判别方法及系统
CN114004886B (zh) * 2021-10-29 2024-04-09 中远海运科技股份有限公司 一种分析图像高频稳定点的相机移位判别方法及系统
CN115052154A (zh) * 2022-05-30 2022-09-13 北京百度网讯科技有限公司 一种模型训练和视频编码方法、装置、设备及存储介质
CN115052154B (zh) * 2022-05-30 2023-04-14 北京百度网讯科技有限公司 一种模型训练和视频编码方法、装置、设备及存储介质
CN115174817A (zh) * 2022-09-05 2022-10-11 深圳深知未来智能有限公司 一种基于深度学习的混合防抖方法及系统

Also Published As

Publication number Publication date
CN112967341B (zh) 2023-04-25

Similar Documents

Publication Publication Date Title
CN112967341A (zh) 基于实景图像的室内视觉定位方法、系统、设备及存储介质
CN109815843B (zh) 图像处理方法及相关产品
CN109063549B (zh) 基于深度神经网络的高分辨率航拍视频运动目标检测方法
AU2019268184B2 (en) Precise and robust camera calibration
CN110222686B (zh) 物体检测方法、装置、计算机设备和存储介质
CN113822977A (zh) 图像渲染方法、装置、设备以及存储介质
CN110516707B (zh) 一种图像标注方法及其装置、存储介质
CN112561879B (zh) 模糊度评价模型训练方法、图像模糊度评价方法及装置
CN112634368A (zh) 场景目标的空间与或图模型生成方法、装置及电子设备
CN116977674A (zh) 图像匹配方法、相关设备、存储介质及程序产品
CN113052039A (zh) 一种交通路网行人密度检测的方法、系统及服务器
CN104463962B (zh) 基于gps信息视频的三维场景重建方法
CN112085534A (zh) 一种关注度分析方法、系统及存储介质
CN117593702B (zh) 远程监控方法、装置、设备及存储介质
CN111709317A (zh) 一种基于显著性模型下多尺度特征的行人重识别方法
CN109785439B (zh) 人脸素描图像生成方法及相关产品
CN114299230A (zh) 一种数据生成方法、装置、电子设备及存储介质
CN114463503A (zh) 三维模型和地理信息系统的融合方法及装置
CN112149528A (zh) 一种全景图目标检测方法、系统、介质及设备
CN115115847B (zh) 三维稀疏重建方法、装置及电子装置
CN108596068B (zh) 一种动作识别的方法和装置
WO2023086398A1 (en) 3d rendering networks based on refractive neural radiance fields
CN115115713A (zh) 一种统一时空融合的环视鸟瞰图感知方法
CN114663917A (zh) 基于多视角的多人三维人体位姿估计方法及装置
Guo et al. Object Counting via Group and Graph Attention Network

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant