CN109389156B - 一种图像定位模型的训练方法、装置及图像定位方法 - Google Patents

一种图像定位模型的训练方法、装置及图像定位方法 Download PDF

Info

Publication number
CN109389156B
CN109389156B CN201811057757.9A CN201811057757A CN109389156B CN 109389156 B CN109389156 B CN 109389156B CN 201811057757 A CN201811057757 A CN 201811057757A CN 109389156 B CN109389156 B CN 109389156B
Authority
CN
China
Prior art keywords
image
training
value
images
posture
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
CN201811057757.9A
Other languages
English (en)
Other versions
CN109389156A (zh
Inventor
李庆
朱家松
李清泉
邱国平
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shenzhen University
Original Assignee
Shenzhen University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shenzhen University filed Critical Shenzhen University
Priority to CN201811057757.9A priority Critical patent/CN109389156B/zh
Publication of CN109389156A publication Critical patent/CN109389156A/zh
Application granted granted Critical
Publication of CN109389156B publication Critical patent/CN109389156B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Health & Medical Sciences (AREA)
  • Software Systems (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Biophysics (AREA)
  • Biomedical Technology (AREA)
  • Mathematical Physics (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开了一种图像定位模型的训练方法、装置及图像定位方法,通过根据双像图像间的位置和姿态差异设计出图像相对位置一致性损失函数,图像相对位置预测损失函数和自适应的图像特征差异损失函数。基于双像的损失函数能够保持图像间相对位置和姿态并和全局位置和姿态损失函数一起提升图像定位的精度。本发明所提供方法能够实现基于图像的实时定位,具有精度高、可靠性好等优点。

Description

一种图像定位模型的训练方法、装置及图像定位方法
技术领域
本发明涉及图像处理及计算机视觉技术领域,尤其涉及的是一种基于双流卷积神经网络的图像定位模型的训练方法、装置及图像定位方法。
背景技术
基于图像的定位的方法在机器人,在自动导航,AR和VR游戏等领域有着重要的应用。传统的方法主要分为两种,基于图像检索技术的图像定位方法和基于3D模型的图像定位方法。
基于图像检索方法通过比较现拍图像和带有地理位置标签的已有数据库进行比较,把与现拍图像的最相似的数据库图像的位置作为现拍图像的位置,也就是人所在的位置。该类方法主要分为三个步骤,1)图像特征提取,2)特征比较,3)位置决策。图像特征提取指的是从原始图像中提取高层次的特征来表征图像,常用的有颜色直方图,梯度直方图,以及全局GIST特征,或者局部位置特征如SIFT,SURF,ORB等,也基于局部位置特征的统计特征如BovW,VLAD以及Fisher向量。特征比较用于寻找与现拍图像最相似的数据库图像,常用的方法是逐一比较的方式,计算特征距离,特征距离最小的那一张图像即为最相似的图像。常用的距离如欧式距离,马氏距离等。位置决策指根据寻找到的最相似图像的位置来决定现拍图像的位置。最简单的策略是将与现拍图像最相似的图像的位置作为现拍图像的位置。也有研究者通过查询一组相似图像,并采用投票的策略来决定现拍图像的位置。基于图像检索的图像定位方法简单,直接。但该方法的定位精度较低,这主要是因为预先采集的图像数据库的图像位置的稀疏性导致的。同时该方法在大场景中难以使用,这主要由于对于大场景,数据库图像数据量大,存储需求高,检索效率低。
基于3D模型的图像定位方法以及投影成像原理,通过建立2D图像的像素和3D模型里位置的对应关系,在给定一定数量的正确匹配对的情形下,根据PNP算法可准确恢复出图像拍摄瞬间的位置和姿态。该问题的关键在于建立3D点和2D像素间两个不同空间下匹配关系。解决办法是2D像素和3D点分别建立图像的特征,常用的有SIFT,SURF以及ORB等特征描述算子。该策略要求3D点需采用SFM算法生成得到的,这主要是由于SFM算法是从图像集中生成3D模型,该模型里的3D点有着图像上特征点描述。该方法解算的图像位置精度高,并且无需存储图像。但该方法要求2D和3D匹配要求的准确度高,这常常面临着挑战。常用点特征描述算子是从图像点周围的区域计算得到,因此丢失了全局信息,导致对纹理重复性的场景,该方法难以工作。该方法对纹理空白区域如室内白墙,由于提取不到足够的特征点也无法实用。除此之外,在大场景中,3D点的数量巨大,导致匹配的效率低下,运算速度慢。同时该方法对模糊图像和运动物体的干扰也很难取得较好的结果。
深度学习技术在图像分类和物体检测的领域取得了惊人的效果。研究者尝试将该技术用于图像定位领域。他们将基于图像定位当做一个从图像到位置和姿态的回归问题,用卷积神经网络来学习该回归模型。该方法需要一个包含地理位置信息的数据库用于训练该网络模型。该方法分为两个阶段,首先是训练阶段。训练阶段需要以图像本身作为输入,把图像的真实位置和姿态信息作为标签,将网络输出与真实标签的差异作为构造损失函数,训练网络直到收敛。测试阶段以现拍图像为输入,直接输出该图像的位置和姿态。该方法能实时给出图像的位置和姿态且效率不随场景增大而降低,同时对图像模糊和图像上移动物体的干扰有着免疫作用。但该方法忽略训练图像的相对位置的约束,并对存在场景相似的场景结果较差。
因此,现有技术有待于进一步的改进。
发明内容
鉴于上述现有技术中的不足之处,本发明的目的在于提供一种图像定位模型的训练方法、装置及图像定位方法,解决当前算法速度慢,精度低及场景相似带来的定位误差大的问题,为行人导航和自动驾驶等应用提供技术支持。
本发明提供的第一实施为一种图像定位模型的训练方法,其中,包括:
从视频中抽取图像集,并从图像集中选取训练图像,以及为各个训练图像选取配对图像,所述训练图像与其配对图像组成训练图像对;
将所述训练图像对输入构建的双流神经卷积网络模型,利用深度学习算法计算训练图像和配对图像之间的绝对位置和姿态;所述双流神经卷积网络模型包含两个ResNet50卷积网络分支和一个由三个全连接层组成的倒Y型结构分支;
将计算出的训练图像和配对图像之间的绝对位置和姿态,得到训练图像对的相位位置和姿态的定位结果;
计算损失函数;所述损失函数包括:全局位置和姿态损失函数,相对位置和姿态一致性损失函数,相对位置和姿态估计损失函数和自适应距离损失函数;
利用误差反向传播算法对所述卷积网络模型重复参数更新,直至得到的训练定位结果与真实结果相吻合,则输出训练后得到的卷积网络模型。
可选的,所述为各个训练图像选取配对图像的步骤包括:
选取训练图像下一时刻的图像为该训练图像的配对图像;
以及,选取开始时刻第一幅图像为最后一幅训练图像的配对图像。
可选的,在将所述训练图像对输入ResNet50卷积网络模型之前,还包括对所述训练图像对进行图像预处理;
所述预处理包括:将训练图像对的灰度值规划到预设范围内,并将规划后的灰度值减去训练图像每个颜色通道灰度值的均值,然后除以灰度归一化的标准差,最后得到归一化后像素值的图像。
可选的,包括:所述相对位置和姿态一致性损失函数由以下公式计算:
Figure BDA0001796250970000031
Figure BDA0001796250970000041
Figure BDA0001796250970000042
Figure BDA0001796250970000043
LRC=LRCx+LRCq
其中,LRC表示相对位置和姿态损失,LRCx表示相对一致性位置偏差,LRCq表示相对一致性姿态偏差,xrel
Figure BDA0001796250970000044
分别表示相对位置真值和由卷积网络模型估计出的全局位置计算得到的估计值,qrel
Figure BDA0001796250970000045
分别表示训练图像的真实姿态和由卷积网络模型估计出的姿态计算得到的相对姿态,
Figure BDA0001796250970000046
代表卷积网络模型估计出的训练图像与参考图像的位置,
Figure BDA0001796250970000047
代表所述卷积网络模型估计出的图像姿态四元数,
Figure BDA0001796250970000048
代表所述卷积网络模型估计的参考图像姿态四元数的共轭四元数。
可选的,全局位置和姿态损失函数由以下公式计算:
Figure BDA0001796250970000049
Figure BDA00017962509700000410
LG=LGx+LGq
上式中,LG表示全局位置和姿态损失,LGx表示全局位置偏差,LGq表示全局姿态偏差,x,
Figure BDA00017962509700000411
分别表示全局位置真值和所述卷积网络模型的位置估计值,q,
Figure BDA00017962509700000412
分别表示图像的真实姿态和所述卷积网络模型的姿态估计值。
可选的,相对位置和姿态估计损失函数由以下公式计算:
Figure BDA0001796250970000055
Figure BDA0001796250970000051
LRR=LRRx+LRRq
上式中,LRR表示相对位置和姿态损失LRCx表示相对位置估计偏差,LRCq表示相对姿态估计偏差,xrel
Figure BDA0001796250970000052
分别表示相对位置真值和所述卷积网络模型的位置估计值,qrel
Figure BDA0001796250970000053
分别表示图像的真实姿态和所述卷积网络模型的姿态估计值。
可选的,所述自适应图像特征差异损失函数由以下公式计算:
Lx=||x-xref||2
Lq=||q-qref||2
margin=Lx+10*Lq
d=||f-fref||2
Figure BDA0001796250970000054
其中,LMD代表图像特征差异损失,margin代表图像特征间的差异的最小值,d代表实际计算的图像特征差异,Lx代表训练图像与配对图像的位置差异,Lq代表训练图像与配对图像的姿态差值,x,q,分别代表训练图像的位置和姿态,xref,qref分别代表配对图像的位置和姿态,其中f,fref分别代表训练图像和配图图像的特征,该特征为ResNet50的输出。
本发明提供的第二实施例为一种图像定位模型的训练装置,其中,所述图像定位模型由如所述训练方法得到,基于双流神经卷积网络构建;
包含:两个ResNet50卷积网络分支和一个由三个全连接层组成的倒Y型结构分支,且每个网络分支均包括:特征提取模块、绝对值计算模块,而两个分支的后半部分相连接所述倒Y型结构分支,所述倒Y型结构分支包括:损失计算模块和相对值计算模块;
所述特征提取模块,用于提取输入构建的ResNet50卷积网络模型中的图像的特征值;
所述绝对值计算模块,用于根据提取出的特征值计算出图像定位的位置和姿态的绝对值;
所述损失计算模块,用于根据构建出的损失函数计算图像定位的位置和姿态的损失值;
所述相对值计算模块,用于根据计算出图像定位的位置和姿态的绝对值和计算出的图像定位的位置和姿态的损失值,计算出两幅图像之间的位置和姿态的相对值。
本发明提供的第三实施例为一种利用所述的图像定位模型进行单幅图像定位的方法,其中,包括:
将单幅图像预处理:将所述单幅图像的灰度值规划到预设范围内,计算规划后训练图像每个颜色通道灰度值的均值和标准差,并将规划后的灰度值减去所述均值后,除以所述标准差,最后得到具有归一化后像素值的图像;
将预处理后的单幅图像输入图像定位模型的单个ResNet50卷积网络分支分内,得到所述单幅图像定位的位置和姿态的绝对值。
本发明的提供的第四实施例为一种利用所述的图像定位模型进行双幅图像定位的方法,其中,包括:
将双幅图像预处理:将所述双幅图像的灰度值均规划到预设范围内,计算规划后双幅图像每个颜色通道灰度值的均值和标准差,并将规划后的灰度值减去所述均值后,除以所述标准差,最后得到具有归一化后像素值的双幅图像;
将预处理后的双幅图像输入图像定位模型内,由两个ResNet50卷积网络分支分别得到所述双幅图像定位的位置和姿态的绝对值;
由倒Y型结构分支根据所述绝对值计算得到两幅图像之间的损失函数值和所述双幅图像定位的位置和姿态的相对值。
有益效果,本发明提供了一种图像定位模型训练的方法、模型及图像定位方法,通过根据双像图像间的位置和姿态差异设计出图像相对位置一致性损失函数,图像相对位置预测损失函数和自适应的图像特征差异损失函数。基于双像的损失函数能够保持图像间相对位置和姿态并和全局位置和姿态损失函数一起提升图像定位的精度。本发明所提供方法能够实现基于图像的实时定位,具有精度高、可靠性好等优点;另外,设计的网络除了能提供绝对的位置和姿态外,还可用于两张图像间的相对位置和姿态的位置和姿态估计,可为盲人导航,自动驾驶提供技术支持,实用性强,有着较强的推广与应用价值。
附图说明
图1是本发明所提供的一种图像定位模型训练的方法的步骤流程图;
图2是本发明所提供的所述模型的训练装置原理结构示意图;
图3是本发明所提供的所述模型训练的原理图;
图4是本发明提供的单幅图像定位的原理示意图;
图5是本发明所提供的单幅图像定位方法的步骤流程图;
图6是本发明提供的两幅图像定位的原理示意图;
图7是本发明提供的两幅图像定位方法的步骤流程图。
具体实施方式
为使本发明的目的、技术方案及优点更加清楚、明确,以下参照附图并举实施例对本发明进一步详细说明。应当理解,此处所描述的具体实施例仅仅用于解释本发明,并不用于限定本发明。
本专利提出一个基于双流卷积神经网络的图像定位模型训练的方法、装置及图像定位方法,在能保证实时提供图像位置和姿态的同时,充分利用图像间的相对位置姿态关系并很好的抑制场景相似性带来的误差影响。
实施例1
本发明提供的第一实施为一种图像定位模型的训练方法,如图1所示,包括:
步骤S11、从视频中抽取图像集,并从图像集中选取训练图像,以及为各个训练图像选取配对图像,所述训练图像与其配对图像组成训练图像对。
首先从视频中抽取图像集,并从图像集中选取用于模型训练的训练图像,为每个训练图像选取一个配对图像,较佳的,本步骤中所述为各个训练图像选取配对图像的步骤包括:
选取训练图像下一时刻的图像为该训练图像的配对图像;
以及,选取开始时刻第一幅图像为最后一幅训练图像的配对图像。
若使用多个图像集进行配对图像的选取,则配对图像随机选取除自身之外的未配对的图像充当即可。
步骤S12、将所述训练图像对输入构建的双流神经卷积网络模型,利用深度学习算法计算训练图像和配对图像之间的绝对位置和姿态;所述双流神经卷积网络模型包含两个ResNet50卷积网络分支和一个由三个全连接层组成的倒Y型结构分支。
所述方法之前还包括步骤:构建双流神经卷积网络模型,所述双流神经卷积神经网络模型模拟从图像到位置和姿态的映射函数f,来实现图像的定位定姿。该方法可用一下公式表示:
(x,q)=f(I)
其中,x,q分别代表图像I的位置和姿态,f代表图像到位置的映射函数。本方案中,用深度学习网络来模拟函数f,并用训练的方式学习其参数。
该双流网络包含两个分支,每一个分支的前半部分由ResNet50组成,用于提取输入图像的特征。分支的后半部分由三个全连接层按照倒Y型的结构组织并与ResNet50相连。两个分支的网络参数相吻合。两个分支分别输出两幅图像的估计位置和姿态。除此之外,将两幅图像经由ResNet50提取的图像特征堆砌(stacked)一起,并将其输入一个由三个全连接层组成的倒Y型结构估计两幅图像间的相对位置和姿态。网络结构图如图2和图3所示。
步骤S13、将计算出的训练图像和配对图像之间的绝对位置和姿态,得到训练图像对的相位位置和姿态的定位结果。
步骤S14、计算损失函数;所述损失函数包括:全局位置和姿态损失函数,相对位置和姿态一致性损失函数,相对位置和姿态估计损失函数和自适应距离损失函数。
由于上述步骤S13中得到训练图像和匹配图像的绝对位置和姿态,将其与ResNet50卷积网络中直接输出的训练图像和匹配图像之间的相对位置和姿态以及与训练图像和匹配图像的真实位置和姿态数据相结合,计算损失函数。
具体的,所述全局位置和姿态损失函数是基于总体上考虑位置和姿态数据的偏差值,相对位置和姿态一致性损失函数是基于全局和相对一致性位置之间位置和姿态的偏差,所述相对位置和姿态估计损失函数是基于全局与相对位置和姿态估计数据的偏差值,所述自适应距离损失函数是基于图像特征差异损失。
步骤S15、利用误差反向传播算法对所述卷积网络模型重复参数更新,直至得到的训练定位结果与真实结果相吻合,则输出训练后得到的卷积网络模型。
较佳的,在将所述训练图像对输入ResNet50卷积网络模型之前,还包括对所述训练图像对进行图像预处理;
所述预处理包括:将训练图像对的灰度值规划到预设范围内,并将规划后的灰度值减去训练图像每个颜色通道灰度值的均值,然后除以灰度归一化的标准差,最后得到归一化后像素值的图像。
下面以其具体应用实施例,对上述方法最更为详细的说明。
实施例1.基于双流卷积神经网络的图像定位训练
该方法通过设计基于双像图像间的相对位置和姿态的损失函数,训练双流卷积神经网络用于图像的定位。该方法包括以下步骤:
1、生成训练图像对
对于从视频中抽取的图像集,图像的配对图像由其下一时刻的图像充当,最后一幅图像的配对图像由第一幅图像充当。对于其他图像集,配对图像随机选取除自身之外的未配对的图像充当。
2、图像预处理
1)将训练图像的灰度值规划到(0,1)并利用一下公式计算训练图像每一个通道的灰度值的均值和标准差
Figure BDA0001796250970000101
Figure BDA0001796250970000102
其中,μ,δ分别代表每个通道的像素的均值和均方差,N,W和H分别代表训练图像的个数,图像的宽度以及图像的高度。(I(i,j)代表第n张图像在(i,j)处的归一化后的灰度值。
2)将训练图像按照宽或者高较小的一个缩放至256,并从中裁剪一个224×224的图像块,并按照下公式计算归一化后的像素值。
Figure BDA0001796250970000111
其中,Pnew,Porg分别代表变换前后的像素值。
3、网络参数设置
网络结构在Pytorch上实现和训练。训练的优化器为Adam,其参数为β1和β2分别设为0.9和0.999。权重衰减参数为10-5,学习率为10-5,样本批量处理参数为32。
4、损失函数计算
结合图3所示,其中,所述全局位置和姿态损失函数与所述相对位置和姿态一致性损失函数基于训练图像和配对图像的位置和姿态的真实值与双流神经卷积网络输出得到的训练图像和配对图像的绝对位置和姿态的位置和姿态计算得到,也即是图3中所示的第一相对位置和姿态。所述相对位置和姿态估计损失函数由双流神经卷积网络直接输出的训练图像和匹配图像的相对位置和姿态相关,因此其计算数据与训练图像和配对图像的真实位置和网络直接输出的相对位置和姿态的结果相关,也即是图3中所示的第二相对位置和姿态。所述自适应图像特征差异损失函数与训练图像和匹配图像之间的特征差异相关。
1)全局位置和姿态损失函数由以下公式计算:
Figure BDA0001796250970000112
Figure BDA0001796250970000113
Lc=LGx+LGq
上式中,LG表示全局位置和姿态损失,LGx表示全局位置偏差,LGq表示全局姿态偏差,x,
Figure BDA0001796250970000121
分别表示全局位置真值和所述卷积网络模型的位置估计值,q,
Figure BDA0001796250970000122
分别表示图像的真实姿态和所述卷积网络模型的姿态估计值。
2)所述相对位置和姿态一致性损失函数由以下公式计算:
Figure BDA0001796250970000123
Figure BDA0001796250970000124
Figure BDA0001796250970000125
Figure BDA0001796250970000126
LRC=LRCx+LRCq
其中,LRC表示全局位置和姿态损失,LRCx表示相对一致性位置偏差,LRCq表示相对一致性姿态偏差,xrel
Figure BDA0001796250970000127
分别表示相对位置真值和由卷积网络模型估计出的全局位置计算得到的估计值,qrel
Figure BDA0001796250970000128
分别表示训练图像的真实姿态和由卷积网络模型估计出的姿态计算得到的相对姿态,
Figure BDA0001796250970000129
代表卷积网络模型估计出的训练图像与参考图像的位置,
Figure BDA00017962509700001213
代表所述卷积网络模型估计出的图像姿态四元数,
Figure BDA00017962509700001210
代表所述卷积网络模型估计的参考图像姿态四元数的共轭四元数。
3)相对位置和姿态估计损失函数由以下公式计算:
Figure BDA00017962509700001211
Figure BDA00017962509700001212
LRR=LRRx+LRRq
上式中,LRR表示全局位置和姿态损失LRCx表示相对位置估计偏差,LRCq表示相对姿态估计偏差,xrel
Figure BDA0001796250970000131
分别表示相对位置真值和所述卷积网络模型的位置估计值,qrel
Figure BDA0001796250970000132
分别表示图像的真实姿态和所述卷积网络模型的姿态估计值。
4)所述自适应图像特征差异损失函数由以下公式计算:
Lx=||x-xref||2
Lq=||q-qref||2
margin=Lx+10*Lq
d=||f-fref||2
Figure BDA0001796250970000133
其中,LMD代表图像特征差异损失,margin代表图像特征间的差异的最小值,d代表实际计算的图像特征差异,Lx代表训练图像与配对图像的位置差异,Lq代表训练图像与配对图像的姿态差值,x,q,分别代表训练图像的位置和姿态,xref,qref分别代表配对图像的位置和姿态,其中f,fref分别代表训练图像和配图图像的特征,该特征为ResNet50的输出。
5)总体损失函数
L=LG+LRC+LRR+LMD
5、根据Pytorch库提供的BP算法进行网络参数更新。
重复步骤2至5,当结果收敛时,训练过程停止。
实施例2
本发明提供的第二实施例为一种图像定位模型的训练装置,如图2所示,所述图像定位模型由如所述训练方法得到,基于双流神经卷积网络构建;
包含:两个ResNet50卷积网络分支和一个由三个全连接层组成的倒Y型结构分支,且每个网络分支均包括:特征提取模块、绝对值计算模块,而两个分支的后半部分相连接所述倒Y型结构分支,所述倒Y型结构分支包括:损失计算模块和相对值计算模块;
所述特征提取模块210,用于提取输入构建的ResNet50卷积网络模型中的图像的特征值;
所述绝对值计算模块220,用于根据提取出的特征值计算出图像定位的位置和姿态的绝对值;
所述损失计算模块230,用于根据构建出的损失函数计算图像定位的位置和姿态的损失值;
所述相对值计算模块240,用于根据计算出图像定位的位置和姿态的绝对值和计算出的图像定位的位置和姿态的损失值,计算出两幅图像之间的位置和姿态的相对值。
所述模型由两个分支和一个倒Y型结构分支组成,待定位的图像输入所述模型,得到图像的定位信息。其中两个分支的前半部分用于提取输入图像的特征信息,比如灰度值和像素值,后半部分用于根据提取出的特征信息对图像进行定位。
实施例3
本发明提供的第三实施例为一种利用所述的图像定位模型进行单幅图像定位的方法,如图4和图5所示,包括:
步骤S51、将单幅图像预处理:将所述单幅图像的灰度值规划到预设范围内,计算规划后训练图像每个颜色通道灰度值的均值和标准差,并将规划后的灰度值减去所述均值后,除以所述标准差,最后得到具有归一化后像素值的图像;
步骤S52、将预处理后的单幅图像输入图像定位模型的单个ResNet50卷积网络分支分内,得到所述单幅图像定位的位置和姿态的绝对值。
以下为单张图像输入的图像定位应用。
1.图像预处理
将训练图像按照宽或者高较小的一个缩放至256,并从中裁剪一个224×224的图像块,并按照下公式计算归一化后的像素值。
Figure BDA0001796250970000151
其中,Pnew,Porg分别代表变换前后的像素值。
2.将训练好的网络的两个分支拆开,将处理后的单幅图像输入到单个分支,用于预测单个图像的位置和姿态。
实施例4
本发明的提供的第四实施例为一种利用所述的图像定位模型进行双幅图像定位的方法,如图6和图7所示,包括:
步骤S71、将双幅图像预处理:将所述双幅图像的灰度值均规划到预设范围内,计算规划后双幅图像每个颜色通道灰度值的均值和标准差,并将规划后的灰度值减去所述均值后,除以所述标准差,最后得到具有归一化后像素值的双幅图像;
步骤S72、将预处理后的双幅图像输入图像定位模型的内,由两个ResNet50卷积网络分支,分别得到所述双幅图像定位的位置和姿态的绝对值;
步骤S73、由倒Y型结构分支根据所述绝对值,计算得到两幅图像之间的损失函数值和所述双幅图像定位的位置和姿态的相对值。
以下为基于双流卷积神经网络的图像定位应用。
1.图像配对
为两幅图像随机的生成配对图像。
2、图像预处理
1)将训练图像按照宽或者高较小的一个缩放至256,并从中裁剪一个224×224的图像块,并按照下公式计算归一化后的像素值。
Figure BDA0001796250970000161
其中,Pnew,Porg分别代表变换前后的像素值。
3、将预处理的两幅图像输入到训练好的双流卷积神经网络,计算图像的绝对位置和姿态和相对位置和姿态。
本发明提供了一种图像定位模型训练的方法、装置及图像定位方法,通过根据双像图像间的位置和姿态差异设计出图像相对位置一致性损失函数,图像相对位置预测损失函数和自适应的图像特征差异损失函数。基于双像的损失函数能够保持图像间相对位置和姿态并和全局位置和姿态损失函数一起提升图像定位的精度。本发明所提供方法能够实现基于图像的实时定位,具有精度高、可靠性好等优点;另外,设计的网络除了能提供绝对的位置和姿态外,还可用于两张图像间的相对位置和姿态的位置和姿态估计,可为盲人导航,自动驾驶提供技术支持,实用性强,有着较强的推广与应用价值。
可以理解的是,对本领域普通技术人员来说,可以根据本发明的技术方案及其发明构思加以等同替换或改变,而所有这些改变或替换都应属于本发明所附的权利要求的保护范围。

Claims (10)

1.一种图像定位模型的训练方法,其特征在于,包括:
从视频中抽取图像集,并从图像集中选取训练图像,以及为各个训练图像选取配对图像,所述训练图像与其配对图像组成训练图像对;
将所述训练图像对输入构建的双流神经卷积网络模型,利用深度学习算法计算训练图像和配对图像之间的绝对位置和姿态;所述双流神经卷积网络模型包含两个ResNet50卷积网络分支和一个由三个全连接层组成的倒Y型结构分支;
计算所述训练图像的真实位置与所述配对图像的绝对位置的差值,得到训练图像与配对图像之间的相对位置;计算所述训练图像的真实姿态与所述配对图像绝对姿态之间的矩阵乘积,得到训练图像与配对图像之间的相对姿态;从而得到训练图像对之间的相对位置和姿态;
计算损失函数;所述损失函数包括:全局位置和姿态损失函数,相对位置和姿态一致性损失函数,相对位置和姿态估计损失函数和自适应距离损失函数;
利用误差反向传播算法对所述双流神经卷积网络模型重复参数更新,直至得到的训练定位结果与真实结果相吻合,则输出训练后得到的双流神经卷积网络模型。
2.根据权利要求1所述的图像定位模型的训练方法,其特征在于,所述为各个训练图像选取配对图像的步骤包括:
选取训练图像下一时刻的图像为该训练图像的配对图像;
以及,选取开始时刻第一幅图像为最后一幅训练图像的配对图像。
3.根据权利要求1所述的图像定位模型的训练方法,其特征在于,在将所述训练图像对输入ResNet50卷积网络模型之前,还包括对所述训练图像对进行图像预处理;
所述预处理包括:将训练图像对的灰度值规划到预设范围内,并将规划后的灰度值减去训练图像每个颜色通道灰度值的均值,然后除以灰度归一化的标准差,最后得到归一化后像素值的图像。
4.根据权利要求1所述的图像定位模型的训练方法,其特征在于,包括:所述相对位置和姿态一致性损失函数由以下公式计算:
Figure FDA0003317426820000021
Figure FDA0003317426820000022
Figure FDA0003317426820000023
Figure FDA0003317426820000024
LRC=LRCx+LRCq
其中,LRC表示相对位置和姿态损失,LRCx表示相对一致性位置偏差,LRCq表示相对一致性姿态偏差,xrel
Figure FDA0003317426820000025
分别表示相对位置真值和由双流神经卷积网络模型估计出的全局位置计算得到的估计值,qrel
Figure FDA0003317426820000026
分别表示训练图像的真实姿态和由双流神经卷积网络模型估计出的姿态计算得到的相对姿态,
Figure FDA0003317426820000027
代表卷积网络模型估计出的训练图像与参考图像的位置,
Figure FDA0003317426820000028
代表所述双流神经卷积网络模型估计出的训练图像姿态四元数,
Figure FDA0003317426820000029
代表所述双流神经卷积网络模型估计的参考图像姿态四元数的共轭四元数。
5.根据权利要求1所述的图像定位模型的训练方法,其特征在于,全局位置和姿态损失函数由以下公式计算:
Figure FDA00033174268200000210
Figure FDA00033174268200000211
LG=LGx+LGq
上式中,LG表示全局位置和姿态损失,LGx表示全局位置偏差,LGq表示全局姿态偏差,x,
Figure FDA00033174268200000212
分别表示全局位置真值和所述卷积网络模型的位置估计值,q,
Figure FDA00033174268200000213
分别表示图像的真实姿态和所述双流神经卷积网络模型的姿态估计值。
6.根据权利要求1所述的图像定位模型的训练方法,其特征在于,相对位置和姿态估计损失函数由以下公式计算:
Figure FDA0003317426820000031
Figure FDA0003317426820000032
LRR=LRRx+LRRq
上式中,LRR表示相对位置和姿态损失LRCx表示相对位置估计偏差,LRCq表示相对姿态估计偏差,xrel
Figure FDA0003317426820000033
分别表示相对位置真值和所述双流神经卷积网络模型的位置估计值,qrel
Figure FDA0003317426820000034
分别表示图像的真实姿态和所述双流神经卷积网络模型的姿态估计值。
7.根据权利要求1所述的图像定位模型的训练方法,其特征在于,自适应图像特征差异损失函数由以下公式计算:
Lx=||x-xref||2
Lq=||q-qfef||2
margin=Lx+10*Lq
d=||f-fref||2
Figure FDA0003317426820000035
其中,LMD代表图像特征差异损失,margin代表图像特征间的差异的最小值,d代表实际计算的图像特征差异,Lx代表训练图像与配对图像的位置差异,Lq代表训练图像与配对图像的姿态差值,x,q,分别代表训练图像的位置和姿态,xref,qref分别代表配对图像的位置和姿态,其中f,fref分别代表训练图像和配图图像的特征,该特征为ResNet50的输出。
8.一种图像定位模型的训练装置,其特征在于,所述图像定位模型由如权利要求1-7任一项所述训练方法得到,其基于双流神经卷积网络构建;
包含:两个ResNet50卷积网络分支和一个由三个全连接层组成的倒Y型结构分支,且每个网络分支均包括:特征提取模块、绝对值计算模块,而两个分支的后半部分相连接所述倒Y型结构分支,所述倒Y型结构分支包括:损失计算模块和相对值计算模块;
所述特征提取模块,用于提取输入构建的ResNet50卷积网络模型中的图像的特征值;
所述绝对值计算模块,用于根据提取出的特征值计算出图像定位的位置和姿态的绝对值;
所述损失计算模块,用于根据构建出的损失函数计算图像定位的位置和姿态的损失值;
所述相对值计算模块,用于根据计算出图像定位的位置和姿态的绝对值和计算出的图像定位的位置和姿态的损失值,计算出两幅图像之间的位置和姿态的相对值。
9.一种利用权利要求8所述的图像定位模型进行单幅图像定位的方法,其特征在于,包括:
将单幅图像预处理:将所述单幅图像的灰度值规划到预设范围内,计算规划后训练图像每个颜色通道灰度值的均值和标准差,并将规划后的灰度值减去所述均值后,除以所述标准差,最后得到具有归一化后像素值的图像;
将预处理后的单幅图像输入图像定位模型的单个ResNet50卷积网络分支分内,得到所述单幅图像定位的位置和姿态的绝对值。
10.一种利用权利要求8所述的图像定位模型进行双幅图像定位的方法,其特征在于,包括:
将双幅图像预处理:将所述双幅图像的灰度值均规划到预设范围内,计算规划后双幅图像每个颜色通道灰度值的均值和标准差,并将规划后的灰度值减去所述均值后,除以所述标准差,最后得到具有归一化后像素值的双幅图像;
将预处理后的双幅图像输入图像定位模型内,由两个ResNet50卷积网络分支分别得到所述双幅图像定位的位置和姿态的绝对值;
由倒Y型结构分支根据所述绝对值计算得到两幅图像之间的损失函数值和所述双幅图像定位的位置和姿态的相对值。
CN201811057757.9A 2018-09-11 2018-09-11 一种图像定位模型的训练方法、装置及图像定位方法 Expired - Fee Related CN109389156B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201811057757.9A CN109389156B (zh) 2018-09-11 2018-09-11 一种图像定位模型的训练方法、装置及图像定位方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201811057757.9A CN109389156B (zh) 2018-09-11 2018-09-11 一种图像定位模型的训练方法、装置及图像定位方法

Publications (2)

Publication Number Publication Date
CN109389156A CN109389156A (zh) 2019-02-26
CN109389156B true CN109389156B (zh) 2022-05-03

Family

ID=65418806

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201811057757.9A Expired - Fee Related CN109389156B (zh) 2018-09-11 2018-09-11 一种图像定位模型的训练方法、装置及图像定位方法

Country Status (1)

Country Link
CN (1) CN109389156B (zh)

Families Citing this family (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110363817B (zh) * 2019-07-10 2022-03-01 北京悉见科技有限公司 目标位姿估计方法、电子设备和介质
CN113554047B (zh) * 2020-04-24 2024-08-23 京东方科技集团股份有限公司 图像处理模型的训练方法、图像处理方法及对应的装置
CN111598808B (zh) * 2020-05-18 2022-08-23 腾讯科技(深圳)有限公司 图像处理方法、装置、设备及其训练方法
CN111738261B (zh) * 2020-06-30 2023-08-04 张辉 基于位姿估计和校正的单图像机器人无序目标抓取方法
KR102689030B1 (ko) 2021-03-11 2024-07-29 구글 엘엘씨 측지 거리를 사용하여 이미지들의 조밀한 대응관계를 예측하기 위한 트레이닝 모델용 시스템 및 방법

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10186026B2 (en) * 2015-11-17 2019-01-22 Kla-Tencor Corp. Single image detection
CN106650699B (zh) * 2016-12-30 2019-09-17 中国科学院深圳先进技术研究院 一种基于卷积神经网络的人脸检测方法及装置
CN107341442B (zh) * 2017-05-22 2023-06-06 腾讯科技(上海)有限公司 运动控制方法、装置、计算机设备和服务机器人
CN107808123B (zh) * 2017-09-30 2021-11-05 杭州迦智科技有限公司 图像可行域检测方法、电子设备、存储介质、检测系统

Also Published As

Publication number Publication date
CN109389156A (zh) 2019-02-26

Similar Documents

Publication Publication Date Title
CN109389156B (zh) 一种图像定位模型的训练方法、装置及图像定位方法
CN108537848B (zh) 一种面向室内场景重建的两级位姿优化估计方法
EP1677250B1 (en) Image collation system and image collation method
CN108960059A (zh) 一种视频动作识别方法及装置
CN111724439A (zh) 一种动态场景下的视觉定位方法及装置
CN107481292A (zh) 车载摄像头的姿态误差估计方法和装置
CN113034545A (zh) 一种基于CenterNet多目标跟踪算法的车辆跟踪方法
US11367195B2 (en) Image segmentation method, image segmentation apparatus, image segmentation device
CN110209859A (zh) 地点识别及其模型训练的方法和装置以及电子设备
CN111797688A (zh) 一种基于光流和语义分割的视觉slam方法
CN111832484A (zh) 一种基于卷积感知哈希算法的回环检测方法
EP3012781A1 (en) Method and apparatus for extracting feature correspondences from multiple images
CN106952304B (zh) 一种利用视频序列帧间相关性的深度图像计算方法
CN115995039A (zh) 用于全向地点识别的提升语义图嵌入
CN114677323A (zh) 一种室内动态场景下基于目标检测的语义视觉slam定位方法
CN113643329B (zh) 一种基于孪生注意力网络的在线更新目标跟踪方法和系统
CN112084895B (zh) 一种基于深度学习的行人重识别方法
CN112101113B (zh) 一种轻量化的无人机图像小目标检测方法
CN114693720A (zh) 基于无监督深度学习的单目视觉里程计的设计方法
CN116188825A (zh) 一种基于并行注意力机制的高效特征匹配方法
CN112464775A (zh) 一种基于多分支网络的视频目标重识别方法
CN114419102B (zh) 一种基于帧差时序运动信息的多目标跟踪检测方法
CN113065506B (zh) 一种人体姿态识别方法及系统
CN114155406A (zh) 一种基于区域级特征融合的位姿估计方法
CN113888603A (zh) 基于光流跟踪和特征匹配的回环检测及视觉slam方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20220503

CF01 Termination of patent right due to non-payment of annual fee