CN116433770B - 一种定位方法、定位装置及存储介质 - Google Patents

一种定位方法、定位装置及存储介质 Download PDF

Info

Publication number
CN116433770B
CN116433770B CN202310475470.2A CN202310475470A CN116433770B CN 116433770 B CN116433770 B CN 116433770B CN 202310475470 A CN202310475470 A CN 202310475470A CN 116433770 B CN116433770 B CN 116433770B
Authority
CN
China
Prior art keywords
image
input image
intermediate frequency
feature
mask
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202310475470.2A
Other languages
English (en)
Other versions
CN116433770A (zh
Inventor
任子良
许震宇
秦勇
张福勇
曲超
任炎芳
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Dongguan University of Technology
Original Assignee
Dongguan University of Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Dongguan University of Technology filed Critical Dongguan University of Technology
Priority to CN202310475470.2A priority Critical patent/CN116433770B/zh
Publication of CN116433770A publication Critical patent/CN116433770A/zh
Application granted granted Critical
Publication of CN116433770B publication Critical patent/CN116433770B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/70Determining position or orientation of objects or cameras
    • G06T7/73Determining position or orientation of objects or cameras using feature-based methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/0464Convolutional networks [CNN, ConvNet]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/74Image or video pattern matching; Proximity measures in feature spaces
    • G06V10/75Organisation of the matching processes, e.g. simultaneous or sequential comparisons of image or video features; Coarse-fine approaches, e.g. multi-scale approaches; using context analysis; Selection of dictionaries
    • G06V10/757Matching configurations of points or features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/774Generating sets of training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/80Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level
    • G06V10/806Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level of extracted features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20081Training; Learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20084Artificial neural networks [ANN]

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Physics & Mathematics (AREA)
  • Evolutionary Computation (AREA)
  • General Physics & Mathematics (AREA)
  • General Health & Medical Sciences (AREA)
  • Computing Systems (AREA)
  • Artificial Intelligence (AREA)
  • Health & Medical Sciences (AREA)
  • Software Systems (AREA)
  • Databases & Information Systems (AREA)
  • Medical Informatics (AREA)
  • Multimedia (AREA)
  • Biomedical Technology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Molecular Biology (AREA)
  • General Engineering & Computer Science (AREA)
  • Mathematical Physics (AREA)
  • Image Analysis (AREA)

Abstract

本申请涉及一种定位方法、定位装置及存储介质,所述方法包括以下步骤:获取目标当前所在环境的图像作为输入图像;根据输入图像的中频信息,生成输入图像对应的中频特征图像;将输入图像与中频特征图像进行特征融合,获得输入图像的增强图像特征;将输入图像的增强图像特征与对应于预设位置信息的预设环境图像的图像特征进行匹配;根据匹配结果,获取对应的预设位置信息对目标进行定位。本申请技术方案,采用基于中频信息增强的图像特征进行特征匹配,可以减少环境外观变化对特征匹配结果的影响,提高目标定位的准确性。

Description

一种定位方法、定位装置及存储介质
技术领域
本申请涉及定位技术领域,具体涉及一种定位方法、定位装置及存储介质。
背景技术
视觉定位技术使用环境图像作为输入,查询数据库中与之匹配的图像,进而使用匹配到的图像的地理信息作为目标当前的地理信息,实现对目标的定位。然而,目标当前所处的环境可能存在季节、光照、天气等外观变化,使得当前获取的环境图像与数据库保存的图像存在很大差异,从而影响当前环境图像在数据库中进行匹配的结果,降低了目标定位的准确性。
发明内容
针对上述技术问题,本申请提供一种定位方法、定位装置及存储介质,通过采用基于中频信息增强的图像特征进行特征匹配,可以减少环境外观变化对特征匹配结果的影响,提高目标定位的准确性。
为解决上述技术问题,本申请提供一种定位方法,所述方法包括以下步骤:
获取目标当前所在环境的图像作为输入图像;
根据所述输入图像的中频信息,生成所述输入图像对应的中频特征图像;
将所述输入图像与所述中频特征图像进行特征融合,获得所述输入图像的增强图像特征;
将所述输入图像的增强图像特征与对应于预设位置信息的预设环境图像的图像特征进行匹配;
根据匹配结果,获取对应的预设位置信息对所述目标进行定位。
可选地,所述根据所述输入图像的中频信息,生成所述输入图像对应的中频特征图像,包括:
对所述输入域图像进行从空间域到频率域的DCT变换,以获取DCT系数矩阵;
根据所述DCT系数矩阵确定所述输入图像的中频信息在频率域中的上边界与下边界;
根据所述上边界、所述下边界、对应于所述上边界的掩膜尺寸基准参数及对应于所述下边界的掩膜尺寸基准参数,确定掩膜的范围;
根据所述掩膜的范围,生成用于将所述输入图像的中频信息所在的区域作为兴趣区的掩膜矩阵;
使用所述掩膜矩阵进行逆DCT变换,得到所述输入图像对应的中频特征图像。
可选地,所述根据所述DCT系数矩阵确定所述输入图像的中频信息在频率域中的上边界与下边界,包括:
将所述DCT系数矩阵展开成向量并按顺序排列,所述向量为:
h=sort(flatten(D(u,v))),
其中,D(u,v)为所述DCT系数矩阵;u和v分别表示频率域中的横向坐标和纵向坐标,u的取值范围为[0,M-1],v的取值范围为[0,N-1],M和N分别是所述输入图像的高度和宽度;
构造集合:
其中,i和j分别表示所述DCT系数矩阵的i行和j列;l(t)为所述向量中第t个元素在所述DCT系数矩阵中对应的位置与D(0,0)之间的距离;h(t)为向量的第t个元素的值,t∈[1,n],n为向量的长度;
确定所述输入图像的中频信息在频率域中的上边界与下边界,其中,所述上边界表示为所述下边界表示为/>e为低频信息的频率区间的上限,f为高频信息的频率区间的下限。
可选地,所述方法,还包括:
计算所述集合的标准差;
所述根据所述上边界、所述下边界、对应于所述上边界的掩膜尺寸基准参数及对应于所述下边界的掩膜尺寸基准参数,确定掩膜的范围,包括:
根据所述上边界、所述下边界、所述标准差及对应于所述上边界的掩膜尺寸基准参数及对应于所述下边界的掩膜尺寸基准参数,确定掩膜的内径和外径,以得到掩膜的范围;
其中,所述内径为r=(α-c)*θ+ub,所述外径为R=(β-c)*θ+lb,其中,α为对应于所述上边界的掩膜尺寸基准参数,β为对应于所述下边界的掩膜尺寸基准参数,c为调节常数,c的取值大于0且小于或等于1,θ为标准差,ub为上边界,lb为下边界。
可选地,所述方法,还包括:
通过卷积神经网络对所述输入图像进行处理,得到第一特征向量;
将所述第一特征向量输入第一全连接层中进行线性变换,并经过第一激活函数进行非线性变换,得到第二特征向量;
将所述第二特征向量输入第二全连接层中进行线性变换,得到输出向量,所述输出向量∈R2
通过第二激活函数对所述输出向量进行非线性变换,将所述输出向量映射到区间(0,1)中,得到对应于所述上边界的掩膜尺寸基准参数及对应于所述下边界的掩膜尺寸基准参数。
可选地,所述将所述输入图像与所述中频特征图像进行特征融合,获得所述输入图像的增强图像特征,包括:
将所述输入图像和所述中频特征图像输入卷积神经网络中,得到所述输入图像的第一卷积特征与所述中频特征图像的第二卷积特征;
将所述第一卷积特征与所述第二卷积特征进行拼接,得到第三特征向量;
将所述第三特征向量输入全连接神经网络,得到所述输入图像的增强图像特征。
可选地,所述方法,还包括:
获取同一预设位置的不同环境外观下的多个预设环境图像,以将多个预设位置的多个预设环境图像作为样本图像,所述样本图像包括锚点样本、与所述锚点样本对应的正样本以及与锚点样本对应的负样本;
根据所述样本图像的中频信息,生成所述样本图像对应的中频特征图像;
将所述样本图像与对应的中频特征图像进行特征融合,获得所述样本图像对应的增强图像特征;
使用所述样本图像对应的增强图像特征对所述第一全连接层、所述第二全连接层、所述全连接神经网络进行训练;
在损失函数符合预设条件时,停止训练。
可选地,所述损失函数包括第一损失函数、第二损失函数和第三损失函数;其中,
第一损失函数为:
Ltri=max(||Xa-Xpos||2-||Xa-XNeg||2+m,0),
Xa为锚点样本的增强图像特征;Xpos为正样本的增强图像特征;Xneg为负样本的增强图像特征;m为用于调节正样本与负样本在特征空间中的距离的超参数;
第二损失函数为:
λ为用于平衡∑k(1-Ckk)2这两项的重要性的常数;/>X为样本图像的增强图像特征,k和l分别表示X的ith和jth维度,p和q分别表示不同的样本图像;
第三损失函数为:
Lreg=-log(minp≠q(||Xp,Xq||2)).。
本申请提供一种定位设备,包括存储介质与控制器,其中,所述存储介质上存储有定位程序,所述定位程序被所述控制器执行时实现如上任一所述的定位方法的步骤。
本申请提供一种存储介质,所述存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现如上任一所述的定位方法的步骤。
本申请的定位方法、定位装置及存储介质,所述方法包括以下步骤:获取目标当前所在环境的图像作为输入图像;根据输入图像的中频信息,生成输入图像对应的中频特征图像;将输入图像与中频特征图像进行特征融合,获得输入图像的增强图像特征;将输入图像的增强图像特征与对应于预设位置信息的预设环境图像的图像特征进行匹配;根据匹配结果,获取对应的预设位置信息对目标进行定位。本申请技术方案,采用基于中频信息增强的图像特征进行特征匹配,可以减少环境外观变化对特征匹配结果的影响,提高目标定位的准确性。
附图说明
图1是根据一实施例示出的定位方法的流程示意图。
图2是根据一实施例示出的特征匹配过程的示意图。
图3是根据一实施例示出的获取图像增强特征的流程示意图。
图4是根据一实施例示出的卷积神经网络的架构示意图。
具体实施方式
为了便于理解本发明,下面将参照相关附图对本发明进行更全面的描述。附图中给出了本发明的较佳实施方式。但是,本发明可以以许多不同的形式来实现,并不限于本文所描述的实施方式。相反地,提供这些实施方式的目的是使对本发明的公开内容理解的更加透彻全面。
除非另有定义,本文所使用的所有的技术和科学术语与属于本发明的技术领域的技术人员通常理解的含义相同。本文中在本发明的说明书中所使用的术语只是为了描述具体的实施方式的目的,不是旨在于限制本发明。
图1是根据一实施例示出的定位方法的流程示意图。如图1所示,本申请的定位方法,包括以下步骤:
S1:获取目标当前所在环境的图像作为输入图像;
S2:根据输入图像的中频信息,生成输入图像对应的中频特征图像;
S3:将输入图像与中频特征图像进行特征融合,获得输入图像的增强图像特征;
S4:将输入图像的增强图像特征与对应于预设位置信息的预设环境图像的图像特征进行匹配;
S5:根据匹配结果,获取对应的预设位置信息对目标进行定位。
通过上述方式,在将目标当前所在环境的图像与预设环境图像进行匹配时,采用了基于中频信息增强的图像特征进行特征匹配,由于中频信息对环境外观的变化相对不敏感,可以减少环境外观变化对特征匹配结果的影响,提高特征匹配结果对环境外观变化的鲁棒性,从而提高目标定位的准确性。
目标当前所在环境可以是室内环境或户外环境。目标当前所在环境的图像可以通过目标装载的图像采集装置进行采集。一种场景下,车辆或机器人等目标采集当前所在环境的图像,通过本申请的定位方法,可以实现对车辆或机器人等目标的定位。又一种场景下,用户使用终端采集当前所在环境的图像,通过本申请的定位方法,可以实现对终端的定位,进而间接地对该用户进行定位。
可选地,S2步骤中,根据输入图像的中频信息,生成输入图像对应的中频特征图像,包括:
对输入域图像进行从空间域到频率域的DCT(Discrete Cosine Transform,离散余弦变换)变换,以获取DCT系数矩阵;
根据DCT系数矩阵确定输入图像的中频信息在频率域中的上边界与下边界;
根据上边界、下边界、对应于上边界的掩膜尺寸基准参数及对应于下边界的掩膜尺寸基准参数,确定掩膜的范围;
根据掩膜的范围,生成用于将输入图像的中频信息所在的区域作为兴趣区的掩膜矩阵;
使用掩膜矩阵进行逆DCT变换,得到输入图像对应的中频特征图像。
DCT系数矩阵可描述为:
其中,是离散余弦变换的基函数,用于将图像从空间域转换到频率域。u和v分别表示在频率域中的横向坐标和纵向坐标,取值范围为[0,M-1]和[0,N-1]。x和y分别表示在空间域中的横向和纵向坐标,取值范围为[0,M-1]和[0,N-1]。M和N分别是输入图像的高度和宽度,且为2的整数次幂。I(x,y)为输入图像的像素值矩阵中第x行、第y列的值。φ(u)和φ(v)为基函数C(u,v,x,y)的标准化系数,定义为:
z为u或v。
其中,DCT系数矩阵的特点是低频信息集中于矩阵左上角,逐渐向外扩散至右下角的高频信息,因此,中频信息在DCT系数矩阵主要集中在中部环形带状的区域,这个区域也即所需要设计的掩膜的信息提取范围。确定掩膜的范围时,除了确定中频信息在频率域中的上边界与下边界之前,还使用了对应于上边界的掩膜尺寸基准参数及对应于下边界的掩膜尺寸基准参数,这两个基准参数用于对上边界与下边界进行调整,以调整掩膜范围。在一实施方式中,对应于上边界的掩膜尺寸基准参数及对应于下边界的掩膜尺寸基准参数可以通过预先训练的神经网络模型对输入图像进行处理得到,以实现掩膜范围根据不同输入图像的自适应调节,获得更合适、有用的中频信息。在确定掩膜的范围后,生成用于将输入图像的中频信息所在的区域作为兴趣区的掩膜矩阵,掩膜矩阵所要提取信息的区域为兴趣区。之后,使用掩膜矩阵进行逆DCT变换,得到输入图像对应的中频特征图像。逆DCT变换可描述如下:
其中,I′(x,y)为变换得到的频特征图像的像素值矩阵中第x行、第y列的值。F(u,v)为掩膜矩阵,可描述如下:
r为掩膜的内径,R为掩膜的外径。
可选地,根据DCT系数矩阵确定输入图像的中频信息在频率域中的上边界与下边界,具体包括如下步骤:
将DCT系数矩阵展开成向量并按顺序排列,向量为:
h=sort(flatten(D(u,v))),
其中,D(u,v)为DCT系数矩阵;u和v分别表示频率域中的横向坐标和纵向坐标,u的取值范围为[0,M-1],v的取值范围为[0,N-1],M和N分别是输入图像的高度和宽度;
构造集合:
其中,i和j分别表示DCT系数矩阵的i行和j列;l(t)为向量中第t个元素在DCT系数矩阵中对应的位置与D(0,0)之间的距离;h(t)为向量的第t个元素的值,t∈[1,n],n为向量的长度;
确定输入图像的中频信息在频率域中的上边界与下边界,其中,上边界表示为下边界表示为/>e为低频信息的频率区间的上限,f为高频信息的频率区间的下限。
其中,表示向上取整,/>表示前e的位置,/>表示后(1-f)的位置,lb和ub分别表示上下截取后的距离值,即取排名第/>和排名第/>的距离值作为下边界和上边界。例如,设定低频信号为DCT系数矩阵数值的前5%,高频信号为DCT系数矩阵数值的后5%,那么5%~95%为中频信息,此时,e为0.05,f为0.95,取排名第/>和排名第/>的距离值作为下边界和上边界。可以理解,中频信息的范围可以根据需要进行调整。
可选地,本申请的方法,还包括:
计算集合的标准差;
根据上边界、下边界、对应于上边界的掩膜尺寸基准参数及对应于下边界的掩膜尺寸基准参数,确定掩膜的范围,包括:
根据上边界、下边界、标准差及对应于上边界的掩膜尺寸基准参数及对应于下边界的掩膜尺寸基准参数,确定掩膜的内径和外径,以得到掩膜的范围;
其中,内径为r=(α-c)*θ+ub,外径为R=(β-c)*θ+lb,其中,α为对应于上边界的掩膜尺寸基准参数,β为对应于下边界的掩膜尺寸基准参数,c为调节常数,c的取值大于0且小于或等于1,θ为标准差,ub为上边界,lb为下边界。
其中,通过计算集合L的标准差,可以使掩膜在常数c所设定的标准差范围内自适应调节大小。优选地,c取值为0.5,也即,在半个标准差的距离内自适应调节掩膜的大小,从而掩膜大小的波动较小,以保证识别效果。
确定掩膜的内径和外径后,掩膜矩阵可描述如下:
r为掩膜的内径,R为掩膜的外径。
可选地,为获取对应于上边界的掩膜尺寸基准参数α及对应于下边界的掩膜尺寸基准参数β,本申请的方法,还包括:
通过卷积神经网络对输入图像进行处理,得到第一特征向量;
将第一特征向量输入第一全连接层中进行线性变换,并经过第一激活函数进行非线性变换,得到第二特征向量;
将第二特征向量输入第二全连接层中进行线性变换,得到输出向量,输出向量∈R2
通过第二激活函数对输出向量进行非线性变换,将输出向量映射到区间(0,1)中,得到对应于上边界的掩膜尺寸基准参数及对应于下边界的掩膜尺寸基准参数。
其中,第一特征向量和第二特征向量优选∈R512,第一激活函数优选ReLU激活函数,第二激活函数为Sigmoid激活函数,获取α和β的过程可采用如下表达式表示:
α,β=Sigmoid(W2ReLU(W1CNN(I)+b1)+b2),
其中,I:输入图像;
CNN(I):通过卷积神经网络(Convolutional Neural Networks,CNN)提取出的图像特征向量;
W1:第一全连接层(FC)的权重矩阵,将CNN特征向量映射到另一个向量空间;
b1:第一全连接层的偏置向量,用于平移映射后的向量;
ReLU(x):非线性激活函数,将第一全连接层的输出进行非线性变换;
W2:第二全连接层(FC)的权重矩阵,将非线性变换后的向量映射到一个二维向量空间;
b2:第二全连接层的偏置向量,用于平移映射后的向量;
Sigmoid(x):激活函数,将第二全连接层的输出映射到(0,1)区间内,得到α和β两个参数。
通过上述处理,对应于上边界的掩膜尺寸基准参数及对应于下边界的掩膜尺寸基准参数可以通过预先训练的神经网络模型对输入图像进行处理得到,以实现掩膜范围根据不同输入图像的自适应调节,获得更合适、有用的中频信息。
可选地,S3步骤,将输入图像与中频特征图像进行特征融合,获得输入图像的增强图像特征,包括:
将输入图像和中频特征图像输入卷积神经网络中,得到输入图像的第一卷积特征与中频特征图像的第二卷积特征;
将第一卷积特征与第二卷积特征进行拼接,得到第三特征向量;
将第三特征向量输入全连接神经网络(Embed层),得到输入图像的增强图像特征。
其中,第一卷积特征与第二卷积特征优选R512,第三特征向量优选R1024,Embed层的结构可描述如下:
Embed(V)=ReLU(BN(W5ReLU(BN(W4ReLU(BN(W3V+b3))+b4))+b5))∈R512
其中,W3∈R512×1024、W4∈R512×512、W5∈R1024×512,分别为Embed层的三个全连接层的权重矩阵。b3∈R512、b4∈R512、b5∈R1024,分别为Embed层的三个全连接层的偏置向量。BN表示批量归一化操作。
以下结合图2,对上述获取增强图像特征的过程进行总结描述。如图2所示,在获取输入的图像后,通过卷积神经网络CNN、第一全连接层(FC)、ReLU激活函数、第二全连接层(FC)、Sigmoid激活函数依次处理,得到α和β两个参数。此外,对输入的图像进行DCT变换后,根据DCT系数矩阵得到θ、lb、ub,再根据α、β、θ、lb、ub确定掩膜的内径r和外径R,创建适用于当前输入的图像的掩膜矩阵。之后,进行逆DCT变换并使用掩膜矩阵,得到中频特征图像。将输入图像和中频特征图像输入卷积神经网络CNN中,得到输入图像的第一卷积特征与中频特征图像的第二卷积特征,将第一卷积特征与第二卷积特征进行拼接(Concat),得到第三特征向量,将第三特征向量输入全连接神经网络(Embed层),至此得到与输入的图像对应的增强图像特征。进一步地,当上述输入的图像是目标当前所在环境的图像时,将增强图像特征与对应于预设位置信息的预设环境图像的图像特征进行匹配,以对目标进行定位。当上述输入的图像是预设环境图像时,将增强图像特征存储与特征库(Feather Database)中,作为训练神经网络的数据。
在DCT-Mask Net中,卷积神经网络CNN采用VGG16网络的卷积层,并对其进行修改以更适用于提取场景图像的特征。VGG16是属于分类的深度学习网络,使用全连接层的特征来进行分类。对于位置识别,卷积层的特征(conv)相比于全连接层的特征对外观变化有更强的鲁棒性,可以获得更高的准确度。因此,截取VGG16网络的卷积层的部分来提取特征。此外,为了减小网络训练参数和获得更小特征形状来加速模型训练,在截取的卷积层的后端添加自适应最大池化层以更便于获取所需的降维结果,并将卷积层的权重冻结,即不训练CNN。本申请的卷积神经网络CNN的具体框架请参考图3。
本申请在训练神经网络模型时,使用损失函数对上述的第一全连接层、第二全连接层、全连接神经网络进行训练。现有方法主要通过简单的权重来约束三元组损失函数(Triplet loss),以获得更好的视觉特征,但不考虑对特征增加更多相关性的约束和适当的正则化,从而无法在大数据集中获得很好识别效果。由于Triplet loss无法满足越来越复杂的场景数据集,同时训练易过拟合的问题,因此,本申请采用去相关化损失函数(Decorrelation loss)和规范化损失函数(Regulation loss)来优化Triplet loss,提高了特征的区分度和避免模型过拟合。
可选地,为训练神经网络模型,本申请的方法,还包括以下步骤:
获取同一预设位置的不同环境外观下的多个预设环境图像,以将多个预设位置的多个预设环境图像作为样本图像,样本图像包括锚点样本、与锚点样本对应的正样本以及与锚点样本对应的负样本;
根据样本图像的中频信息,生成样本图像对应的中频特征图像;
将样本图像与对应的中频特征图像进行特征融合,获得样本图像对应的增强图像特征;
使用样本图像对应的增强图像特征对第一全连接层、第二全连接层、全连接神经网络进行训练;
在损失函数符合预设条件时,停止训练。
其中,预设位置是指位置信息已知的位置,预设环境图像是指预先采集的已知位置的环境图像。预设位置的位置信息(即预设位置信息)、预设环境图像以及预设环境图像的增强图像特征相互关联存储。同一预设位置的不同环境外观下的多个预设环境图像,可以是同一预设位置在不同季节、光照、天气下的预设环境图像,每个预设位置可以绑定多个不同环境外观下的预设环境图像。将多个预设位置的多个预设环境图像作为样本图像,得到训练集。样本图像中,正样本可以是同一地方但不同外观变化的环境图像,负样本可以是不同地点不同外观变化的环境图像。
在确定样本图像后,根据样本图像的中频信息,生成样本图像对应的中频特征图像,再将样本图像与对应的中频特征图像进行特征融合,获得样本图像对应的增强图像特征。此过程与S2-S3及图2所示过程相同,区别仅在于将输入图像变换为预设环境图像,因此,不再赘述。
可选地,损失函数包括第一损失函数(Triplet loss)、第二损失函数(Decorrelation loss)和第三损失函数(Regulation loss)。具体可表示为:
LDR-tri=Ldecor+Lreg+Ltri
其中,Ldecor表示Decorrelation loss,Lreg表示Regulation loss,Ltri表示Tripletloss。
具体地,第一损失函数为:
Ltri=max(||Xa-Xpos||2-||Xa-XNeg||2+m,0),
其中,Xa为锚点样本的增强图像特征;Xpos为正样本的增强图像特征;Xneg为负样本的增强图像特征;m为用于调节正样本与负样本在特征空间中的距离的超参数,优选设置m=0.31。Triplet loss是三元组学习损失函数的主要部分。它鼓励锚点和正样本的特征向量比负样本的特征向量更接近。这里使用的是标准的三元组损失函数。
具体地,第二损失函数为:
其中,λ为用于平衡∑k(1-Ckk)2这两项的重要性的常数;/>X为样本图像的增强图像特征,k和1分别表示X的ith和jth维度,p和q分别表示不同的样本图像。优选设置λ=0.001。Decorrelation loss用于降低特征向量每一位之间的相关性,从而提高特征的可辨别性。具体而言,在每个mini-batch中计算特征向量的相关矩阵,然后通过loss鼓励相关矩阵对角线上的元素尽可能大,非对角线的元素尽可能小,从而让特征向量上同一位之间相关高,不同位之间相关性低。
具体地,第三损失函数为:
Lreg=-log(minp≠q(||Xp,Xq||2))。
其中,Regulation loss为了让特征在特征空间中足够分散。使用Triplet loss训练时,模型倾向将所有特征压缩到特征空间的某个小范围,减少了特征之间的区分度,表现出模型过拟合的现象。在每个batch中,选择最小距离的两个向量,通过loss增加他们之间的距离。
请继续参考图1,在得到输入图像的增强图像特征后,将输入图像的增强图像特征与对应于预设位置信息的预设环境图像的图像特征进行匹配,根据匹配结果,获取对应的预设位置信息对目标进行定位。
图像特征匹配的过程,可通过获取图像特征之间的余弦相似度来判断图像特征之间是否相似。当两张图像足够相似,则图像特征的余弦相似度接近1,反之,则图像特征的余弦相似度接近-1。余弦相似度的定义为:
其中,Q、R分别对应输入图像的图像特征和预设环境图像的图像特征,i是特征向量的分量,n是特征向量的长度。
请参考图4,一种对目标进行定位的场景下,地图上有p1和p2两个位置,特征库中存储有p1位置冬季的环境图像的增强图像特征与p2位置冬季的环境图像的增强图像特征。当输入的图像(Input)为一幅春季的图像时,通过获取输入图像的增强图像特征,计算输入图像的增强图像特征和特征库中的增强图像特征的余弦相似度。根据计算结果,确定与输入图像匹配的是p2位置冬季的环境图像,进而,获取p2位置的位置信息,作为输入图像的位置信息,即确定了目标当前的位置,实现对目标的定位。由于本申请采用基于中频信息增强的图像特征进行特征匹配,可以减少环境外观变化对特征匹配结果的影响,同时建立了自适应调节的掩膜,可获得合适的中频信息,从而可以有效提高了目标定位的准确性。
本申请的定位方法包括以下步骤:获取目标当前所在环境的图像作为输入图像;根据输入图像的中频信息,生成输入图像对应的中频特征图像;将输入图像与中频特征图像进行特征融合,获得输入图像的增强图像特征;将输入图像的增强图像特征与对应于预设位置信息的预设环境图像的图像特征进行匹配;根据匹配结果,获取对应的预设位置信息对目标进行定位。本申请技术方案,采用基于中频信息增强的图像特征进行特征匹配,可以减少环境外观变化对特征匹配结果的影响,提高目标定位的准确性。
本申请提供一种定位设备,包括存储介质与控制器,其中,所述存储介质上存储有定位程序,所述定位程序被所述控制器执行时实现如上实施例所述的定位方法的步骤。
本申请提供一种存储介质,所述存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现如上实施例所述的定位方法的步骤。
以上所述实施例仅表达了本申请的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对发明专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本申请构思的前提下,还可以做出若干变形和改进,这些都属于本申请的保护范围。因此,本申请专利的保护范围应以所附权利要求为准。

Claims (8)

1.一种定位方法,其特征在于,所述方法包括以下步骤:
获取目标当前所在环境的图像作为输入图像;
根据所述输入图像的中频信息,生成所述输入图像对应的中频特征图像;
将所述输入图像与所述中频特征图像进行特征融合,获得所述输入图像的增强图像特征;
将所述输入图像的增强图像特征与对应于预设位置信息的预设环境图像的图像特征进行匹配;
根据匹配结果,获取对应的预设位置信息对所述目标进行定位;
所述根据所述输入图像的中频信息,生成所述输入图像对应的中频特征图像,包括:
对所述输入域图像进行从空间域到频率域的DCT变换,以获取DCT系数矩阵;
根据所述DCT系数矩阵确定所述输入图像的中频信息在频率域中的上边界与下边界;
根据所述上边界、所述下边界、对应于所述上边界的掩膜尺寸基准参数及对应于所述下边界的掩膜尺寸基准参数,确定掩膜的范围;
根据所述掩膜的范围,生成用于将所述输入图像的中频信息所在的区域作为兴趣区的掩膜矩阵;
使用所述掩膜矩阵进行逆DCT变换,得到所述输入图像对应的中频特征图像;
所述将所述输入图像与所述中频特征图像进行特征融合,获得所述输入图像的增强图像特征,包括:
将所述输入图像和所述中频特征图像输入卷积神经网络中,得到所述输入图像的第一卷积特征与所述中频特征图像的第二卷积特征;
将所述第一卷积特征与所述第二卷积特征进行拼接,得到第三特征向量;
将所述第三特征向量输入全连接神经网络,得到所述输入图像的增强图像特征。
2.根据权利要求1所述的方法,其特征在于,所述根据所述DCT系数矩阵确定所述输入图像的中频信息在频率域中的上边界与下边界,包括:
将所述DCT系数矩阵展开成向量并按顺序排列,所述向量为:
h=sort(flatten(D(u,v))),
其中,D(u,v)为所述DCT系数矩阵;u和v分别表示频率域中的横向坐标和纵向坐标,u的取值范围为[0,M-1],v的取值范围为[0,N-1],M和N分别是所述输入图像的高度和宽度;
构造集合:
其中,i和j分别表示所述DCT系数矩阵的i行和j列;l(t)为所述向量中第t个元素在所述DCT系数矩阵中对应的位置与D(0,0)之间的距离;h(t)为向量的第t个元素的值,t∈[1,n],n为向量的长度;
确定所述输入图像的中频信息在频率域中的上边界与下边界,其中,所述上边界表示为所述下边界表示为/>e为低频信息的频率区间的上限,f为高频信息的频率区间的下限。
3.根据权利要求1或2所述的方法,其特征在于,所述方法,还包括:
计算所述集合的标准差;
所述根据所述上边界、所述下边界、对应于所述上边界的掩膜尺寸基准参数及对应于所述下边界的掩膜尺寸基准参数,确定掩膜的范围,包括:
根据所述上边界、所述下边界、所述标准差及对应于所述上边界的掩膜尺寸基准参数及对应于所述下边界的掩膜尺寸基准参数,确定掩膜的内径和外径,以得到掩膜的范围;
其中,所述内径为r=(α-c)*θ+ub,所述外径为R=(β-c)*θ+lb,其中,α为对应于所述上边界的掩膜尺寸基准参数,β为对应于所述下边界的掩膜尺寸基准参数,c为调节常数,c的取值大于0且小于或等于1,θ为标准差,ub为上边界,lb为下边界。
4.根据权利要求1或2所述的方法,其特征在于,所述方法,还包括:
通过卷积神经网络对所述输入图像进行处理,得到第一特征向量;
将所述第一特征向量输入第一全连接层中进行线性变换,并经过第一激活函数进行非线性变换,得到第二特征向量;
将所述第二特征向量输入第二全连接层中进行线性变换,得到输出向量,所述输出向量∈R2
通过第二激活函数对所述输出向量进行非线性变换,将所述输出向量映射到区间(0,1)中,得到对应于所述上边界的掩膜尺寸基准参数及对应于所述下边界的掩膜尺寸基准参数。
5.根据权利要求4所述的方法,其特征在于,所述方法,还包括:
获取同一预设位置的不同环境外观下的多个预设环境图像,以将多个预设位置的多个预设环境图像作为样本图像,所述样本图像包括锚点样本、与所述锚点样本对应的正样本以及与锚点样本对应的负样本;
根据所述样本图像的中频信息,生成所述样本图像对应的中频特征图像;
将所述样本图像与对应的中频特征图像进行特征融合,获得所述样本图像对应的增强图像特征;
使用所述样本图像对应的增强图像特征对所述第一全连接层、所述第二全连接层、所述全连接神经网络进行训练;
在损失函数符合预设条件时,停止训练。
6.根据权利要求5所述的方法,其特征在于,所述损失函数包括第一损失函数、第二损失函数和第三损失函数;其中,
第一损失函数为:
Ltri=max(||Xa-Xpos||2-||Xa-XNeg||2+m,0),
Xa为锚点样本的增强图像特征;Xpos为正样本的增强图像特征;Xneg为负样本的增强图像特征;m为用于调节正样本与负样本在特征空间中的距离的超参数;
第二损失函数为:
λ为用于平衡Σk(1-Ckk)2这两项的重要性的常数;/>X为样本图像的增强图像特征,k和l分别表示X的ith和jth维度,p和q分别表示不同的样本图像;
第三损失函数为:
Lreg=-log(minp≠q(||Xp,Xq||2))。
7.一种定位设备,其特征在于,包括存储介质与控制器,其中,所述存储介质上存储有定位程序,所述定位程序被所述控制器执行时实现如权利要求1至6中任一项所述的定位方法的步骤。
8.一种存储介质,其特征在于,所述存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现如权利要求1至6中任一项所述的定位方法的步骤。
CN202310475470.2A 2023-04-27 2023-04-27 一种定位方法、定位装置及存储介质 Active CN116433770B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202310475470.2A CN116433770B (zh) 2023-04-27 2023-04-27 一种定位方法、定位装置及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202310475470.2A CN116433770B (zh) 2023-04-27 2023-04-27 一种定位方法、定位装置及存储介质

Publications (2)

Publication Number Publication Date
CN116433770A CN116433770A (zh) 2023-07-14
CN116433770B true CN116433770B (zh) 2024-01-30

Family

ID=87090759

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202310475470.2A Active CN116433770B (zh) 2023-04-27 2023-04-27 一种定位方法、定位装置及存储介质

Country Status (1)

Country Link
CN (1) CN116433770B (zh)

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112926457A (zh) * 2021-02-26 2021-06-08 中国电子科技集团公司第二十八研究所 一种基于融合频域和空间域网络模型的sar图像识别方法
CN113378620A (zh) * 2021-03-31 2021-09-10 中交第二公路勘察设计研究院有限公司 监控视频噪声环境下跨摄像头行人重识别方法
CN115223004A (zh) * 2022-06-17 2022-10-21 长安大学 基于改进的多尺度融合生成对抗网络图像增强方法
CN115439702A (zh) * 2022-11-08 2022-12-06 武昌理工学院 一种基于频域处理的弱噪声图像分类方法

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP5178662B2 (ja) * 2009-07-31 2013-04-10 富士フイルム株式会社 画像処理装置及び方法、データ処理装置及び方法、並びにプログラム
US11449061B2 (en) * 2016-02-29 2022-09-20 AI Incorporated Obstacle recognition method for autonomous robots

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112926457A (zh) * 2021-02-26 2021-06-08 中国电子科技集团公司第二十八研究所 一种基于融合频域和空间域网络模型的sar图像识别方法
CN113378620A (zh) * 2021-03-31 2021-09-10 中交第二公路勘察设计研究院有限公司 监控视频噪声环境下跨摄像头行人重识别方法
CN115223004A (zh) * 2022-06-17 2022-10-21 长安大学 基于改进的多尺度融合生成对抗网络图像增强方法
CN115439702A (zh) * 2022-11-08 2022-12-06 武昌理工学院 一种基于频域处理的弱噪声图像分类方法

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
DCT-Mask: Discrete Cosine Transform Mask Representation for Instance Segmentation;Xing Shen 等;《2021 IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR)》;第8716-8725页 *
基于DCT域的公路车牌定位算法;牛晓霞 等;《微处理机》;第31卷(第04期);第75-77页 *
真实场景下黑烟车烟雾检测算法的研究;时佳琦;《中国优秀硕士学位论文全文数据库 工程科技Ⅱ辑》(第02期);第C034-1607页 *

Also Published As

Publication number Publication date
CN116433770A (zh) 2023-07-14

Similar Documents

Publication Publication Date Title
CN110209859B (zh) 地点识别及其模型训练的方法和装置以及电子设备
CN113326930B (zh) 数据处理方法、神经网络的训练方法及相关装置、设备
US8280839B2 (en) Nearest neighbor methods for non-Euclidean manifolds
CN103927531B (zh) 一种基于局部二值和粒子群优化bp神经网络的人脸识别方法
CN110111269B (zh) 基于多尺度上下文聚合网络的低照度成像算法及装置
CN113343771B (zh) 一种基于自适应元学习的人脸防伪方法
CN113627472A (zh) 基于分层深度学习模型的智慧园林食叶害虫识别方法
CN114693983B (zh) 基于图像-实例对齐网络的训练方法和跨域目标检测方法
CN110135435B (zh) 一种基于广度学习系统的显著性检测方法及装置
CN112001386A (zh) 一种基于车牌字符识别方法、系统、介质及终端
CN116433770B (zh) 一种定位方法、定位装置及存储介质
CN112329818B (zh) 基于图卷积网络嵌入表征的高光谱图像非监督分类方法
CN113129300A (zh) 一种降低误检率的排水管道缺陷检测方法、装置、设备及介质
CN116704188A (zh) 一种基于改进U-Net网络的不同容重小麦籽粒图像分割算法
CN116029916A (zh) 基于结合稠密小波的双分支网络的低照度图像增强方法
CN117058235A (zh) 跨多种室内场景的视觉定位方法
CN111652311A (zh) 基于稀疏椭圆rbf神经网络的图像稀疏表示方法
Sang et al. MoNET: no-reference image quality assessment based on a multi-depth output network
CN113222953B (zh) 基于深度伽马变换的自然图像增强方法
CN113409225B (zh) 基于Retinex的无人机拍摄图像增强算法
CN117649610B (zh) 一种基于YOLOv5的害虫检测方法及系统
CN117893455B (zh) 图像亮度和对比度调整方法
CN112287989B (zh) 一种基于自注意力机制的航空影像地物分类方法
CN112085665A (zh) 一种基于蝗虫入侵杂草算法的图像增强方法
CN117953371A (zh) 基于空间变换网络和改进特征融合的园林虫害室外图像分类识别方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant