CN115202477A - 基于异构孪生网络的ar观景互动方法及系统 - Google Patents

基于异构孪生网络的ar观景互动方法及系统 Download PDF

Info

Publication number
CN115202477A
CN115202477A CN202210794320.3A CN202210794320A CN115202477A CN 115202477 A CN115202477 A CN 115202477A CN 202210794320 A CN202210794320 A CN 202210794320A CN 115202477 A CN115202477 A CN 115202477A
Authority
CN
China
Prior art keywords
layer
network
convolution
feature map
graph
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202210794320.3A
Other languages
English (en)
Inventor
王家伟
李颖
徐朦
邹颂扬
杜亚飞
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hefei Anda Exhibition Technology Co ltd
Original Assignee
Hefei Anda Exhibition Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hefei Anda Exhibition Technology Co ltd filed Critical Hefei Anda Exhibition Technology Co ltd
Priority to CN202210794320.3A priority Critical patent/CN115202477A/zh
Publication of CN115202477A publication Critical patent/CN115202477A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/01Input arrangements or combined input and output arrangements for interaction between user and computer
    • G06F3/011Arrangements for interaction with the human body, e.g. for user immersion in virtual reality
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/74Image or video pattern matching; Proximity measures in feature spaces
    • G06V10/75Organisation of the matching processes, e.g. simultaneous or sequential comparisons of image or video features; Coarse-fine approaches, e.g. multi-scale approaches; using context analysis; Selection of dictionaries
    • G06V10/751Comparing pixel values or logical combinations thereof, or feature values having positional relevance, e.g. template matching
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/74Image or video pattern matching; Proximity measures in feature spaces
    • G06V10/761Proximity, similarity or dissimilarity measures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/80Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level
    • G06V10/806Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level of extracted features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/20Scenes; Scene-specific elements in augmented reality scenes

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • General Physics & Mathematics (AREA)
  • Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Evolutionary Computation (AREA)
  • General Health & Medical Sciences (AREA)
  • Medical Informatics (AREA)
  • Software Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Databases & Information Systems (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Human Computer Interaction (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开了基于异构孪生网络的AR观景互动方法及系统,将模板图集合和待匹配图输入到已训练好的图像匹配网络中,图像匹配网络包括孪生网络模块、区域选取网络模块和匹配模块;孪生网络模块对输入的模板图集合和待匹配图进行相关卷积运算以及多特征融合,输出两种底层特征图;区域选取网络模块对输入的两种底层特征图进行不同参数的卷积运算,分别生成目标类别特征图和目标位置特征图;匹配模块对输入的目标类别特征图和目标位置特征图进行匹配,输出目标位置下目标类别的三维图,以供AR观景展示;该AR观景互动方法能够高精度、低延时地匹配并定位模板图在待匹配图中的位置,提高了AR观景类互动的实时性和准确性,增强互动的真实性和体验感。

Description

基于异构孪生网络的AR观景互动方法及系统
技术领域
本发明涉及AR观景技术领域,尤其涉及基于异构孪生网络的AR观景互动方法及系统。
背景技术
图像匹配,是指通过一定的匹配算法在两幅或多幅图像之间识别同名点,如二维图像匹配中通过比较目标区和搜索区中相同大小的窗口的相关系数,取搜索区中相关系数最大所对应的窗口中心点作为同名点。其实质是在基元相似性的条件下,运用匹配准则的最佳搜索问题。
孪生网络,是图像匹配中应用鲁棒性较好的一种深度神经网络,是基于两个人工神经网络建立的耦合构架。孪生网络以两个样本为输入,输出其嵌入高维度空间的表征,以比较两个样本的相似程度。
目前AR观景互动系统,一般应用传统的模板匹配算法,该算法往往获取的是图像像素的灰度信息,该方法有着很大的局限性,只适用于特定的场景,对于角度、形状、遮挡等特征变化较大的目标,提取的浅层人工特征往往会失效,为了保证算法有效,往往需要耗费的大量时间进行规划,确定匹配区域并选择合适的模板。
发明内容
基于背景技术存在的技术问题,本发明提出了基于异构孪生网络的AR观景互动方法及系统,能够高精度、低延时地匹配并定位模板图在待匹配图中的位置,提高了AR观景类互动的实时性和准确性,增强互动的真实性和体验感。
本发明提出的基于异构孪生网络的AR观景互动方法,包括:
将模板图集合和待匹配图输入到已训练好的图像匹配网络中,图像匹配网络包括孪生网络模块、区域选取网络模块和匹配模块;
孪生网络模块对输入的模板图集合和待匹配图进行相关卷积运算以及多特征融合,输出两种底层特征图;
区域选取网络模块对输入的两种底层特征图进行不同参数的卷积运算,分别生成目标类别特征图和目标位置特征图;
匹配模块对输入的目标类别特征图和目标位置特征图进行匹配,输出目标位置下目标类别的三维图,以供AR观景展示。
进一步地,所述孪生网络模块包括多特征融合网络和两个残差网络,两个残差网络的结构相同、网络不对称,多特征融合网络的输入端分别与残差网络的输出端连接、输出端与区域选取网络模块的输入端连接,残差网络的输入端输入模板图集合和待匹配图。
进一步地,残差网络包括卷积层Conv3_4、卷积层Conv4_4、卷积层Conv5_4,卷积层Conv3_4、卷积层Conv4_4、卷积层Conv5_4并联设置;其中一个残差网络中的卷积层Conv3_4与另一个残差网络中的卷积层Conv3_4进行深度卷积型相关卷积,输出第一相关性特征图,其中一个残差网络中的卷积层Conv4_4与另一个残差网络中的卷积层Conv4_4进行深度卷积型相关卷积,输出第二相关性特征图,其中一个残差网络中的卷积层Conv5_4与另一个残差网络中的卷积层Conv5_4进行深度卷积型相关卷积,输出第三相关性特征图,并将第一相关性特征图、第二相关性特征图、第三相关性特征图分别输入到多特征融合网络中。
进一步地,所述多特征融合网络包括卷积层ConvF1、卷积层ConvF2和卷积层ConvF3和融合层;卷积层ConvF1的输入端输入第一相关性特征图,并对第一相关性特征图进行卷积计算输出第一顶层特征图,卷积层ConvF2的输入端输入第二相关性特征图,并对第二相关性特征图进行卷积计算输出第二顶层特征图,卷积层ConvF3的输入端输入第三相关性特征图,并对第三相关性特征图进行卷积计算输出第三顶层特征图,第一顶层特征图、第二相关性特征图、第三相关性特征图输入到融合层进行特征融合,输出两种底层特征图。
进一步地,所述区域选取网络模块包括卷积层ConvFN_cls和卷积层ConvFN_reg,ConvFN_cls的输入端输入其中一个底层特征图,通过卷积计算输出目标类别特征图,卷积层ConvFN_reg的输入端输入另一个底层特征图,通过卷积计算输出目标位置特征图。
进一步地,卷积层ConvFN_cls包括卷积层ConvCls_t和卷积层Reg_t,卷积层ConvFN_reg包括卷积层ConvCls_d和卷积层Reg_d,卷积层ConvCls_t与卷积层ConvCls_d进行深度卷积型相关卷积,输出目标类别特征图,卷积层Reg_t和卷积层Reg_d进行深度卷积型相关卷积,输出目标位置特征图。
进一步地,多特征融合网络中的融合层是指将三个参数相同的第一顶层特征图、第二相关性特征图和第三相关性特征图,分别通过两种不同参数的卷积运算得到两种底层特征图,两种底层特征图分别为特征信息弱、位置信息强的底层特征图以及特征信息强、位置信息强的底层特征图;
具体公式:
Figure BDA0003735057340000031
其中,w1=2,w2=4,w3=6。
进一步地,对已构建好的图像匹配网络进行训练,训练步骤如下:
构建图像样本集和设置初始模型参数,图像样本集包括训练样本集和测试样本集;
通过训练样本集对图像匹配网络进行训练,更新图像匹配网络中的模型参数,所述图像匹配网络的激活函数是PReLu函数;
Figure BDA0003735057340000032
所述网络的损失函数为交叉熵损失函数,对ConvF1、ConvF2、ConvF3分别计算损失函数L1、L2、L3以及总损失函数Lvltotal
Figure BDA0003735057340000033
Figure BDA0003735057340000041
Figure BDA0003735057340000042
总损失函数为:
Lv1total(pi,ti)=L1(pi,ti)+L2(pi,ti)+L3(pi,ti)
其中,p*表示标签,值为0或1,p表示预测的概率,t为回归分支的输出结果,即输出预测中心坐标偏移量(dx,dy)以及输出预测目标框长宽偏移量(dw,dh),t*则为目标真实的中心偏移量与长宽偏移量,Lcls()表示卷积层ConvFN_cls的损失函数,Lreg()表示卷积层ConvFN_reg的损失函数,Llip表示正则化项,Ncls1、Ncls2、Ncls3、Nreg1、Nreg2、Nreg3、λ、λ2分别为固定参数。
通过测试样本集对训练过的图像匹配网络进行测试,计算图像匹配网络的准确率和实时性,若性能提升,则迭代通过训练样本集对图像匹配网络进行训练,若性能未提升,则停止迭代,输出已训练好的图像匹配网络。
基于异构孪生网络的AR观景互动系统,包括图像输入模块、孪生网络模块、区域选取网络模块和匹配模块;
图像输入模块用于将模板图集合和待匹配图输入到已训练好的图像匹配网络中;
孪生网络模块用于对输入的模板图集合和待匹配图进行相关卷积运算以及多特征融合,输出两种底层特征图;
区域选取网络模块用于对输入的两种底层特征图进行不同参数的卷积运算,分别生成目标类别特征图和目标位置特征图;
匹配模块用于对输入的目标类别特征图和目标位置特征图进行匹配,输出目标位置下目标类别的三维图,以供AR观景展示。
一种计算机可读储存介质,所述计算机可读储存介质上存储有若干分类程序,所述若干分类程序用于被处理器调用并执行如上所述的AR观景互动方法。
本领域普通技术人员可以理解:实现上述方法实施例的全部或部分步骤可以通过程序指令相关的硬件来完成,前述的程序可以存储于一计算机可读取存储介质中,该程序在执行时,执行包括上述方法实施例的步骤;而前述的存储介质包括:ROM、RAM、磁碟或者光盘等各种可以存储程序代码的介质。
本发明提供的基于异构孪生网络的AR观景互动方法及系统的优点在于:本发明结构中提供的基于异构孪生网络的AR观景互动方法及系统,将传统的孪生网络进行异构,让图像匹配网络具有一定的非对称性;同时在原有特征的基础上,加入位置相关结构,并融合网络多层特征,从而增加特征维度,提升匹配精度;最后使用均衡交叉熵函数来适配样本选取方式,降低图像样本集不均衡带来的影响,使得图像匹配网络更加稳定。本实施例能够高精度、低延时地匹配并定位模板图在待匹配图中的位置,提高了对近似图像的区分度以及在多视角下较高的鲁棒性,且对于遮挡、形变、光照等干扰有着较强的适应性,从而提高AR观景类互动系统的实时性和准确性,增强互动的真实性和体验感。
附图说明
图1为本发明的结构示意图;
图2为图像匹配网络的结构示意图;
图3为区域选取网络模块的结构示意图;
图4为多特征融合网络的结构示意图;
图5为AR观景互动方法的流程图;
图6为模板图集合中模板图;
图7为待匹配图与模板图的匹配结果图;
具体实施方式
下面,通过具体实施例对本发明的技术方案进行详细说明,在下面的描述中阐述了很多具体细节以便于充分理解本发明。但是本发明能够以很多不同于在此描述的其他方式来实施,本领域技术人员可以在不违背本发明内涵的情况下做类似改进,因此本发明不受下面公开的具体实施的限制。
如图1至7所示,本发明提出的基于异构孪生网络的AR观景互动方法,包括如下步骤:
S100:将模板图集合和待匹配图输入到已训练好的图像匹配网络中,图像匹配网络包括孪生网络模块、区域选取网络模块和匹配模块;
模板图集合为通过相机拍摄N张图片,1:1裁切形成的N张模板图;待匹配图为相机实时拍摄的图像,图像匹配网络对输入的带匹配图在模板图集合中进行遍历匹配,将匹配到的位置和相似度信息添加至匹配信息数组中。
S200:孪生网络模块对输入的模板图集合和待匹配图进行相关卷积运算以及多特征融合,输出两种底层特征图;
孪生网络模块包括多特征融合网络和两个残差网络,两个残差网络的结构相同,两个残差网络参数不同,即网络不对称,故称之为异构,多特征融合网络的输入端分别与残差网络的输出端连接、输出端与区域选取网络模块的输入端连接,残差网络的输入端输入模板图集合和待匹配图。
传统中图像匹配网络在输入模板图集合和待匹配图后,一般通过结构和参数均相同的网络进行处理,由于实际应用中模板图和待匹配图的特征差距可能比较大,如图像异源、形变过大等,存在很多干扰,使得网络特征及度量不严格对称。而如果使用传统孪生网络,强行使两个子网络共享参数,匹配度不好,最终显示效果不好,本实施例通过异构网络对输入的两个图像进行处理,让图像匹配网络具有一定的非对称性;同时在原有特征的基础上,加入位置相关结构,并融合网络多层特征,从而增加特征维度,提升匹配精度;最后使用均衡交叉熵函数来适配样本选取方式,降低样本不均衡带来的影响,使得图像匹配网络更加稳定。
S300:区域选取网络模块对输入的两种底层特征图进行不同参数的卷积运算,分别生成目标类别特征图和目标位置特征图;
S400:匹配模块对输入的目标类别特征图和目标位置特征图进行匹配,输出目标位置下目标类别的三维图,以供AR观景展示。
通过步骤S100至S400,能够高精度、低延时地匹配并定位模板图在待匹配图中的位置,提高了对近似图像的区分度以及在多视角下较高的鲁棒性,且对于遮挡、形变、光照等干扰有着较强的适应性,从而提高AR观景类互动系统的实时性和准确性,增强互动的真实性和体验感。
如图5所示,AR观景互动的具体实现方法如下:
S1:构建图像样本集,具体是从样本图片中提取模板图,制作标签,构建数据集,按照一定的比例切分为训练样本集和测试样本集;
具体地,样本图片可以是通过相机在一定空间内,不同光照、不同天气下拍摄视频,将视频隔N帧读取产生图片集,并手动制作模板和标记,从而扩充ImageNet数据集,得到样本图片。
S2:构建图像匹配网络以及设置初始模型参数,具体地,图像匹配网络,是指异构孪生多特征融合网络,包括孪生网络模块、区域选取网络模块和匹配模块。
孪生网络模块、区域选取网络模块和匹配模块依次连接,以将图像的位置信息映射到三维场景的位置数据,并将三维场景中物体模型跟随位置数据移动,以使得使用者在AR观景中进行三维物体成像观看。
孪生网络模块包括多特征融合网络和两个残差网络,两个残差网络的结构相同、网络不对称,多特征融合网络的输入端分别与残差网络的输出端连接、输出端与区域选取网络模块的输入端连接,残差网络的输入端输入模板图集合和待匹配图。
初始模型参数对应于图像匹配网络中的一些参数,包括固定的参数,如:卷积核大小、步长、特征图尺寸、通道数等;以及需要训练的参数,如:权重、偏置等。
具体为:如图2所示,残差网络包括卷积层Conv3_4、卷积层Conv4_4、卷积层Conv5_4,卷积层Conv3_4、卷积层Conv4_4、卷积层Conv5_4并联设置;其中一个残差网络中的卷积层Conv3_4与另一个残差网络中的卷积层Conv3_4进行深度卷积型相关卷积,输出第一相关性特征图,其中一个残差网络中的卷积层Conv4_4与另一个残差网络中的卷积层Conv4_4进行深度卷积型相关卷积,输出第二相关性特征图,其中一个残差网络中的卷积层Conv5_4与另一个残差网络中的卷积层Conv5_4进行深度卷积型相关卷积,输出第三相关性特征图,并将第一相关性特征图、第二相关性特征图、第三相关性特征图分别输入到多特征融合网络中。
多特征融合网络包括卷积层ConvF1、卷积层ConvF2和卷积层ConvF3和融合层,卷积层ConvF1、卷积层ConvF2和卷积层ConvF3为参数相同的卷积层;卷积层ConvF1的输入端输入第一相关性特征图,并对第一相关性特征图进行卷积计算输出第一顶层特征图,卷积层ConvF2的输入端输入第二相关性特征图,并对第二相关性特征图进行卷积计算输出第二顶层特征图,卷积层ConvF3的输入端输入第三相关性特征图,并对第三相关性特征图进行卷积计算输出第三顶层特征图,第一顶层特征图、第二相关性特征图、第三相关性特征图输入到融合层进行特征融合,输出两种底层特征图。
多特征融合网络中的融合层是指将三个参数相同的第一相关性特征图、第二相关性特征图和第三相关性特征图,分别通过两种不同参数(1*1和3*3两种)的卷积运算得到两种底层特征图,两种底层特征图分别为特征信息弱、位置信息强的底层特征图以及特征信息弱、位置信息强的底层特征图,因而输入到区域选取网络模块中的两种底层特征图分别携带不同信息参数的图像,该图像经过上述区域选取网络模块处理输出目标类别特征图(特种信息强)和目标位置特征图(位置信息强)。
具体为:融合层是将卷积层ConvF1、卷积层ConvF2和卷积层ConvF3通过公式计算得出的ConvF层,具体公式如下:
Figure BDA0003735057340000081
其中w1、w2、w3分别表示卷积层ConvF1、卷积层ConvF2和卷积层ConvF3的权重,实际取值为:w1=2,w2=4,w3=6。
如图2和3所示,区域选取网络模块包括卷积层ConvFN_cls和卷积层ConvFN_reg,ConvFN_cls的输入端输入其中一个底层特征图,通过卷积计算输出目标类别特征图,卷积层ConvFN_reg的输入端输入另一个底层特征图,通过卷积计算输出目标位置特征图;具体为:区域选取网络模块设置了模板支路和带匹配图支路,每个支路中都设置了上述的卷积层ConvFN_cls和卷积层ConvFN_reg,两个卷积层参数不同,以下为了描述方便,卷积层ConvFN_cls分别采用ConvCls_t、ConvCls_d进行支路的区分,卷积层ConvFN_reg分别采用Reg_t、Reg_d进行支路区分。其中模板支路中的区域选取网络模块包括卷积层ConvCls_t和卷积层Reg_t,带匹配图支路中的区域选取网络模块包括卷积层ConvCls_d和卷积层Reg_d,卷积层ConvCls_t与卷积层ConvCls_d进行深度卷积型相关卷积,输出目标类别特征图,卷积层Reg_t和卷积层Reg_d进行深度卷积型相关卷积,输出目标位置特征图,在输出目标类别特征图和目标位置特征图之前均进行图像清晰度精修,以提高输出图像的清晰度。
S3:利用训练样本集,对构架好的图像匹配网络进行训练,更新图像匹配网络中的模型参数,所述图像匹配网络的激活函数是PReLu函数;
Figure BDA0003735057340000091
所述网络的损失函数为交叉熵损失函数,对ConvF1、ConvF2、ConvF3分别计算损失函数L1、L2、L3以及总损失函数Lvltotal
Figure BDA0003735057340000092
Figure BDA0003735057340000093
Figure BDA0003735057340000094
总损失函数为:
Lv1total(pi,ti)=L1(pi,ti)+L2(pi,ti)+L3(pi,ti)
其中,p*表示标签,值为0或1,p表示预测的概率,t为回归分支的输出结果,即输出预测中心坐标偏移量(dx,dy)以及输出预测目标框长宽偏移量(dw,dh),t*则为目标真实的中心偏移量与长宽偏移量,Lcls()表示卷积层ConvFN_cls的损失函数,Lreg()表示卷积层ConvFN_reg的损失函数,Llip表示正则化项,Ncls1、Ncls2、Ncls3均取值128,Nreg1、Nreg2、Nreg3均取值1200,λ取值10,λ2取值15。L1对应于卷积层ConvF1的损失函数,L2对应于卷积层ConvF2的损失函数,L3对应于卷积层ConvF3的损失函数。
另外,正则化项Llip可以避免训练的网络过拟合:
Figure BDA0003735057340000101
K取值1,
Figure BDA0003735057340000102
表示网络输出对于输入的梯度的平方和。
S4:计算图像匹配网络的准确率和实时性,若性能提升,则迭代通过训练样本集对图像匹配网络进行训练;若性能未提升,则停止迭代,输出已训练好的图像匹配网络。
S5:利用测试样本集,对训练过的图像匹配网络进行测试,计算图像匹配网络的准确率和实时性,若性能提升,则进入步骤S6,若性能未提升,则进入步骤S7;
通过测试样本集暂时训练好的图像匹配网络进行测试,以验证暂时训练好的图像匹配网络的准确性。
其中准确率用区域交并比曲线面积作为衡量标准,交并比为:
Figure BDA0003735057340000103
其中,c为预测区域,即通过算法匹配到的模板图在待匹配图中的位置,G为实际区域,即样本集中模板图实际在待匹配图中的位置,area()表示区域的面积。
实时性的衡量标准为每秒帧数。
S6:迭代进入步骤S3继续对图像匹配网络进行训练;
S7:停止迭代,输出该图像匹配网络作为已训练好的图像匹配网络;
通过步骤S3至S7对已构建好的图像匹配网络进行训练和验证,得到准确性高的图像匹配网络。
S8:将模板图集合和待匹配图输入到已训练好的图像匹配网络中,其中模板图集合为通过相机拍摄N张图片,1:1裁切得到的N张模板图;具体地,裁切模板图,是指在相机拍摄图像中,选择感兴趣区域,在AR观景过程中,摄像头可进行上下、左右方向旋转,如果相机实时画面中包含了感兴趣区域,则通过图像匹配网络可以匹配到该区域并计算出区域在画面图片中的位置,在此位置呈现三维的物体,从而向观众展示该物体,以此实现AR观景互动。
S9:在通过图像匹配网络对待匹配图进行匹配时,取第i张模板图,将模板图与摄像头实时拍摄的带匹配图进行匹配,并将匹配到的位置和相似度信息添加至匹配信息数组中M={m1,m2,...,mN},如果i小于等于N,则将i加1,则进入步骤S10,如果i大于N,则进入步骤S11;
S10:迭代步骤S9,直至i大于N。
S11:遍历匹配信息数组,得到最高相似度对应的模板图;
具体地,得到最高相似度对应的模板,指的是匹配信息数组M中包含了N张模板图在待匹配图中对应的位置和匹配相似度信息,这其中相似度最高的模板图,即被认为是识别到该模板图。N张模板图对应N种物体,将该模板图对应的物体展现出来。
S12:将此最高相似度对应的模板图在摄像头带匹配图像中的位置映射到三维场景坐标;具体地,映射为:
Figure BDA0003735057340000111
S13:将三维场景中的物体模型坐标设定为上述映射后的坐标,将三维场景中物体模型跟随位置数据移动,在AR观景中呈现。
通过步骤S1至S13,将传统的孪生网络进行异构,让图像匹配网络具有一定的非对称性;同时在原有特征的基础上,加入位置相关结构,并融合网络多层特征,从而增加特征维度,提升匹配精度;最后使用均衡交叉熵函数来适配样本选取方式(L1、L2、L3、Lvltotal),降低图像样本集不均衡带来的影响,使得图像匹配网络更加稳定。本实施例能够高精度、低延时地匹配并定位模板图在待匹配图中的位置,提高了对近似图像的区分度以及在多视角下较高的鲁棒性,且对于遮挡、形变、光照等干扰有着较强的适应性,从而提高AR观景类互动的实时性和准确性,增强互动的真实性和体验感。
以上所述,仅为本发明较佳的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,根据本发明的技术方案及其发明构思加以等同替换或改变,都应涵盖在本发明的保护范围之内。

Claims (10)

1.基于异构孪生网络的AR观景互动方法,其特征在于,包括:
将模板图集合和待匹配图输入到已训练好的图像匹配网络中,图像匹配网络包括孪生网络模块、区域选取网络模块和匹配模块;
孪生网络模块对输入的模板图集合和待匹配图进行相关卷积运算以及多特征融合,输出两种底层特征图;
区域选取网络模块对输入的两种底层特征图进行不同参数的卷积运算,分别生成目标类别特征图和目标位置特征图;
匹配模块对输入的目标类别特征图和目标位置特征图进行匹配,输出目标位置下目标类别的三维图,以供AR观景展示。
2.根据权利要求1所述的基于异构孪生网络的AR观景互动方法,其特征在于,所述孪生网络模块包括多特征融合网络和两个残差网络,两个残差网络的结构相同、网络不对称,多特征融合网络的输入端分别与残差网络的输出端连接、输出端与区域选取网络模块的输入端连接,残差网络的输入端输入模板图集合和待匹配图。
3.根据权利要求2所述的基于异构孪生网络的AR观景互动方法,其特征在于,残差网络包括卷积层Conv3_4、卷积层Conv4_4、卷积层Conv5_4,卷积层Conv3_4、卷积层Conv4_4、卷积层Conv5_4并联设置;
其中一个残差网络中的卷积层Conv3_4与另一个残差网络中的卷积层Conv3_4进行深度卷积型相关卷积,输出第一相关性特征图,其中一个残差网络中的卷积层Conv4_4与另一个残差网络中的卷积层Conv4_4进行深度卷积型相关卷积,输出第二相关性特征图,其中一个残差网络中的卷积层Conv5_4与另一个残差网络中的卷积层Conv5_4进行深度卷积型相关卷积,输出第三相关性特征图,并将第一相关性特征图、第二相关性特征图、第三相关性特征图分别输入到多特征融合网络中。
4.根据权利要求3所述的基于异构孪生网络的AR观景互动方法,其特征在于,所述多特征融合网络包括卷积层ConvF1、卷积层ConvF2和卷积层ConvF3和融合层;
卷积层ConvF1的输入端输入第一相关性特征图,并对第一相关性特征图进行卷积计算输出第一顶层特征图,卷积层ConvF2的输入端输入第二相关性特征图,并对第二相关性特征图进行卷积计算输出第二顶层特征图,卷积层ConvF3的输入端输入第三相关性特征图,并对第三相关性特征图进行卷积计算输出第三顶层特征图,第一顶层特征图、第二相关性特征图、第三相关性特征图输入到融合层进行特征融合,输出两种底层特征图。
5.根据权利要求4所述的基于异构孪生网络的AR观景互动方法,其特征在于,所述区域选取网络模块包括卷积层ConvFN_cls和卷积层ConvFN_reg,ConvFN_cls的输入端输入其中一个底层特征图,通过卷积计算输出目标类别特征图,卷积层ConvFN_reg的输入端输入另一个底层特征图,通过卷积计算输出目标位置特征图。
6.根据权利要求4所述的基于异构孪生网络的AR观景互动方法,其特征在于,卷积层ConvFN_cls包括卷积层ConvCls_t和卷积层Reg_t,卷积层ConvFN_reg包括卷积层ConvCls_d和卷积层Reg_d,卷积层ConvCls_t与卷积层ConvCls_d进行深度卷积型相关卷积,输出目标类别特征图,卷积层Reg_t和卷积层Reg_d进行深度卷积型相关卷积,输出目标位置特征图。
7.根据权利要求4所述的基于异构孪生网络的AR观景互动方法,其特征在于,多特征融合网络中的融合层是指将三个参数相同的第一顶层特征图、第二相关性特征图和第三相关性特征图,分别通过两种不同参数的卷积运算得到两种底层特征图,两种底层特征图分别为特征信息弱、位置信息强的底层特征图以及特征信息强、位置信息强的底层特征图。
8.根据权利要求1所述的基于异构孪生网络的AR观景互动方法,其特征在于,对已构建好的图像匹配网络进行训练,训练步骤如下:
构建图像样本集和设置初始模型参数,图像样本集包括训练样本集和测试样本集;
通过训练样本集对图像匹配网络进行训练,更新图像匹配网络中的模型参数,所述图像匹配网络的激活函数是PReLu函数;
Figure FDA0003735057330000031
所述网络的损失函数为交叉熵损失函数,对ConvF1、ConvF2、ConvF3分别计算损失函数L1、L2、L3以及总损失函数Lvltotal
Figure FDA0003735057330000032
Figure FDA0003735057330000033
Figure FDA0003735057330000034
总损失函数为:
Lv1total(pi,ti)=L1(pi,ti)+L2(pi,ti)+L3(pi,ti)
其中,p*表示标签,值为0或1,p表示预测的概率,t为回归分支的输出结果,即输出预测中心坐标偏移量(dx,dy)以及输出预测目标框长宽偏移量(dw,dh),t*则为目标真实的中心偏移量与长宽偏移量,Lcls( )表示卷积层ConvFN_cls的损失函数,Lreg( )表示卷积层ConvFN_reg的损失函数,Llip表示正则化项,Ncls1、Ncls2、Ncls3、Nreg1、Nreg2、Nreg3、λ、λ2分别为固定参数。
通过测试样本集对训练过的图像匹配网络进行测试,计算图像匹配网络的准确率和实时性,若性能提升,则迭代通过训练样本集对图像匹配网络进行训练;若性能未提升,则停止迭代,输出已训练好的图像匹配网络。
9.基于异构孪生网络的AR观景互动系统,其特征在于,包括图像输入模块、孪生网络模块、区域选取网络模块和匹配模块;
图像输入模块用于将模板图集合和待匹配图输入到已训练好的图像匹配网络中;
孪生网络模块用于对输入的模板图集合和待匹配图进行相关卷积运算以及多特征融合,输出两种底层特征图;
区域选取网络模块用于对输入的两种底层特征图进行不同参数的卷积运算,分别生成目标类别特征图和目标位置特征图;
匹配模块用于对输入的目标类别特征图和目标位置特征图进行匹配,输出目标位置下目标类别的三维图,以供AR观景展示。
10.一种计算机可读储存介质,其特征在于,所述计算机可读储存介质上存储有若干分类程序,所述若干分类程序用于被处理器调用并执行如权利要求1至8任一所述的AR观景互动方法。
CN202210794320.3A 2022-07-07 2022-07-07 基于异构孪生网络的ar观景互动方法及系统 Pending CN115202477A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210794320.3A CN115202477A (zh) 2022-07-07 2022-07-07 基于异构孪生网络的ar观景互动方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210794320.3A CN115202477A (zh) 2022-07-07 2022-07-07 基于异构孪生网络的ar观景互动方法及系统

Publications (1)

Publication Number Publication Date
CN115202477A true CN115202477A (zh) 2022-10-18

Family

ID=83579227

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210794320.3A Pending CN115202477A (zh) 2022-07-07 2022-07-07 基于异构孪生网络的ar观景互动方法及系统

Country Status (1)

Country Link
CN (1) CN115202477A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117115167A (zh) * 2023-10-24 2023-11-24 诺比侃人工智能科技(成都)股份有限公司 一种基于特征检测的卷钢移位判断方法及系统

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117115167A (zh) * 2023-10-24 2023-11-24 诺比侃人工智能科技(成都)股份有限公司 一种基于特征检测的卷钢移位判断方法及系统
CN117115167B (zh) * 2023-10-24 2023-12-29 诺比侃人工智能科技(成都)股份有限公司 一种基于特征检测的卷钢移位判断方法及系统

Similar Documents

Publication Publication Date Title
US20210232924A1 (en) Method for training smpl parameter prediction model, computer device, and storage medium
CN110555434B (zh) 一种局部对比和全局指导的立体图像视觉显著性检测方法
Ikeuchi et al. The great buddha project: Digitally archiving, restoring, and analyzing cultural heritage objects
CN111563418A (zh) 一种基于注意力机制的非对称多模态融合显著性检测方法
CN113435282B (zh) 基于深度学习的无人机影像麦穗识别方法
CN110826411B (zh) 一种基于无人机图像的车辆目标快速识别方法
US11651581B2 (en) System and method for correspondence map determination
CN113095371B (zh) 一种面向三维重建的特征点匹配方法及系统
CN114429555A (zh) 由粗到细的图像稠密匹配方法、系统、设备及存储介质
CN115330876B (zh) 基于孪生网络和中心位置估计的目标模板图匹配定位方法
CN115546113A (zh) 掌子面裂隙图像与前方三维结构参数预测方法及系统
Lee et al. Neural geometric parser for single image camera calibration
CN114140623A (zh) 一种图像特征点提取方法及系统
CN110378995A (zh) 一种利用投射特征进行三维空间建模的方法
CN113610905A (zh) 基于子图像匹配的深度学习遥感图像配准方法及应用
CN112149662A (zh) 一种基于扩张卷积块的多模态融合显著性检测方法
CN115202477A (zh) 基于异构孪生网络的ar观景互动方法及系统
CN111354076A (zh) 一种基于嵌入空间的单幅图像三维零件组合式建模方法
CN112329662B (zh) 基于无监督学习的多视角显著性估计方法
CN112270748B (zh) 基于图像的三维重建方法及装置
US20230177771A1 (en) Method for performing volumetric reconstruction
Yan et al. Depth-only object tracking
CN110135474A (zh) 一种基于深度学习的倾斜航空影像匹配方法和系统
Budianti et al. Background blurring and removal for 3d modelling of cultural heritage objects
Gryaditskaya et al. Gloss Editing in Light Fields.

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination