CN115294488B - 一种ar快速实物匹配显示方法 - Google Patents

一种ar快速实物匹配显示方法 Download PDF

Info

Publication number
CN115294488B
CN115294488B CN202211231261.5A CN202211231261A CN115294488B CN 115294488 B CN115294488 B CN 115294488B CN 202211231261 A CN202211231261 A CN 202211231261A CN 115294488 B CN115294488 B CN 115294488B
Authority
CN
China
Prior art keywords
image
semantic
sampling
density
scene
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202211231261.5A
Other languages
English (en)
Other versions
CN115294488A (zh
Inventor
汪翠芳
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Jiangxi University of Finance and Economics
Original Assignee
Jiangxi University of Finance and Economics
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Jiangxi University of Finance and Economics filed Critical Jiangxi University of Finance and Economics
Priority to CN202211231261.5A priority Critical patent/CN115294488B/zh
Publication of CN115294488A publication Critical patent/CN115294488A/zh
Application granted granted Critical
Publication of CN115294488B publication Critical patent/CN115294488B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/20Scenes; Scene-specific elements in augmented reality scenes
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/26Segmentation of patterns in the image field; Cutting or merging of image elements to establish the pattern region, e.g. clustering-based techniques; Detection of occlusion
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/44Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/60Type of objects
    • G06V20/64Three-dimensional objects
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/18Eye characteristics, e.g. of the iris

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Theoretical Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Ophthalmology & Optometry (AREA)
  • Human Computer Interaction (AREA)
  • Processing Or Creating Images (AREA)

Abstract

本发明涉及图像处理技术领域,具体涉及一种AR快速实物匹配显示方法。该方法包括:S1、通过设备摄像头拍摄图像,获取真实场景图像;S2、构建眼动分割注意力模型,获取场景语义图像、注视密度图像;S3、计算场景语义图像中每个语义实例的注视密度,获取语义注视优先度;S4、对语义实例图像进行采样,得到采样像素点集合;S5、构建预设的标准图像,对所述采样像素点集合进行图像匹配,得到匹配的预设标准图像,S6、将相应的AR虚拟场景信息渲染到真实场景图像进行显示;本发明方法根据语义优先度来对不同的AR虚拟场景进行优先显示,可以实现多个AR虚拟场景的快速叠加显示,提高了显示效果,增强了用户体验质量。

Description

一种AR快速实物匹配显示方法
技术领域
本发明涉及图像处理技术领域,具体涉及一种AR快速实物匹配显示方法。
背景技术
随着多媒体技术的快速发展,增强现实(AR)已经成为一个有前途的下一代移动平台。AR旨在通过叠加虚拟内容来丰富现实世界的信息,AR技术可以在保持真实信息的同时显示增强内容,因此在通信、娱乐、医疗、教育、工程设计等领域具有巨大的应用潜力。
AR的基本理论是人类视觉,它允许用户叠加在一起进行观察,同时感知真实世界场景和虚拟世界场景的内容。为了实现良好的用户体验质量,了解两个场景之间的交互,并协调地显示AR内容非常重要。
发明内容
为了解决上述技术问题,本发明的目的在于提供一种AR快速实物匹配显示方法,所采用的技术方案具体如下:
本发明提出一种AR快速实物匹配显示方法,所述方法包括:
S1、通过设备摄像头拍摄图像,获取真实场景图像;
S2、构建眼动分割注意力模型,根据所述真实场景图像通过所述眼动分割注意力模型获取场景语义图像、注视密度图像;
S3、计算所述场景语义图像中每个语义实例的注视密度,获取语义注视优先度序列;根据所述语义注视优先度序列,逐个获取真实场景图像中语义实例的图像;
S4、将所述语义实例的图像均匀划分为多个等大小的图像块,根据所述图像块获取归一化注视采样比例,基于所述图像块的大小与归一化注视采样比例获取每个图像块的采样点数;基于所述每个图像块的采样点数,对所有图像块进行网格化均匀采样,得到采样像素点集合;
S5、构建预设的标准图像,对所述采样像素点集合进行特征点检测与特征描述,将检测得到的特征点的描述子与所述预设的标准图像中特征点的描述子进行匹配,得到匹配的预设标准图像,将匹配的预设标准图像中相应的AR虚拟场景信息渲染到真实场景图像中该语义实例的位置处进行显示;
S6、逐个对每个语义实例的图像进行匹配显示,以实现增强现实的效果。
进一步的,步骤S2中,眼动分割注意力模型包含语义分割编码器、语义分割解码器以及眼动注意力编码器、眼动注意力解码器;语义分割编码器输入为真实场景图像,输出为场景特征图,语义分割解码器输入为场景特征图,输出为场景语义图像,并与场景语义标签进行交叉熵损失函数计算,眼动分割注意力模型最终输出的场景语义图像需要通过Argmax操作;眼动注意力编码器输入为场景语义图像,输出为眼动注意力特征图,眼动注意力解码器输入为场景特征图与眼动注意力特征图融合后的特征图,输出为注视密度图像,并与注视密度标签进行L2损失的计算。
进一步的,所述注视密度标签的获取方法为:采集每个观看者对真实场景图像固定时间内的注视位置数据;然后生成一张像素值全为0的图像,对图像中的注视位置进行二维高斯分布的生成,对于有重叠和相同注视位置的像素点,进行二维高斯分布的叠加,得到该观看者的注视密度图像,然后采集多个观看者对该图像的注视密度图像,将多个观看者的注视密度图像求平均,作为最终的注视密度标签。
进一步的,步骤S3中,计算所述场景语义图像中每个语义实例的注视密度,获取语义注视优先度序列,包括:对场景语义图像提取每个语义实例,求取场景语义图像中每个语义实例的注视密度,每个语义在图像中都有一定的区域范围,求取该区域范围所有像素点的注视密度值的和,作为该语义实例的注视密度;最终得到每个语义实例的注视密度,将每个语义实例的注视密度按从大到小进行排序,得到语义注视优先度序列。
进一步的,步骤S4中,根据所述图像块获取归一化注视采样比例,基于所述图像块的大小与归一化注视采样比例获取每个图像块的采样点数,包括:
计算图像块的平均注视密度Ad:
Figure 449007DEST_PATH_IMAGE002
式中,
Figure 877584DEST_PATH_IMAGE004
为图像块的大小,
Figure 559232DEST_PATH_IMAGE006
表示图像块中第i个像素的注视密度值;
然后对所有图像块的平均注视密度进行最大归一化,得到每个图像块的归一化注视采样比例radio:
Figure 733861DEST_PATH_IMAGE008
式中,
Figure 37671DEST_PATH_IMAGE010
为取最大值函数,即取所有图像块的最大平均注视密度,
Figure 907538DEST_PATH_IMAGE012
即图像块的平均注视密度;
获取每个图像块的采样点数U:
Figure 783090DEST_PATH_IMAGE014
式中,
Figure 671280DEST_PATH_IMAGE004
为每个图像块的大小,
Figure 380610DEST_PATH_IMAGE016
为最大采样率,ceil为向上取整函数。
进一步的,步骤S4中,基于所述每个图像块的采样点数,对所有图像块进行网格化均匀采样,得到采样像素点集合,包括:在图像块里,首先初始选取最大注视密度的像素点,计入采样点集合S;然后计算图像块中其他像素点与采样点集合S距离,选距离最大的点再次加入采样点集合S,迭代计算,直至达到图像块的采样点数,所述距离
Figure 862407DEST_PATH_IMAGE018
的计算方法为:
Figure 433328DEST_PATH_IMAGE019
式中,o表示采样点集合S内样本点的总数量,
Figure 192337DEST_PATH_IMAGE021
表示采样点集合S内第j个样本点与像素点的空间坐标欧式距离,
Figure 666043DEST_PATH_IMAGE023
分别表示采样点集合S内第j个样本点的注视密度值、像素点的注视密度值;
至此得到每个语义实例下所有图像块中采样的像素点,称为采样像素点集合。
进一步的,步骤S5中,对所述采样像素点集合进行特征点检测与特征描述所采用的方法为AKAZE算法。
进一步的,步骤S5中,将检测得到的特征点的描述子与所述预设的标准图像中特征点的描述子进行匹配,得到匹配的预设标准图像,所述匹配的依据为:选取与检测得到的特征点的描述子匹配对数最多的预设标准图像作为匹配的预设标准图像。
本发明具有如下有益效果:
本发明方法结合图像语义及注视密度来进行针对性特征点检测与匹配,采样的像素点在每个图像块分布是均匀的,且计算效率高,图像块的平均注视密度越大,采样点个数分布越多,可以有效提高匹配的速度。
本发明方法根据语义优先度来对不同的AR虚拟场景进行优先显示,可以实现多个AR虚拟场景的快速叠加显示,提高了显示效果,增强了用户体验质量。
附图说明
图1为本发明方法的流程框图;
图2为本发明眼动分割注意力模型的系统结构框图。
具体实施方式
下面结合附图具体的说明本发明所提供的一种AR快速实物匹配显示方法的具体方案。
请参阅图1,其示出了本发明一个实施例提供的一种AR快速实物匹配显示方法流程框图,该方法包括:
S1、通过设备摄像头拍摄图像,获取真实场景图像;
增强现实技术是在真实世界场景中叠加显示虚拟信息,并进行交互的综合技术。它通过实时跟踪注册技术提取真实世界场景中物体特征信息,与预设特征信息进行匹配计算,若匹配率达到预期值,则将图像、音视频、三维模型和动画等媒体信息进行仿真模拟,然后叠加显示在真实世界场景中,与真实世界场景进行交互,从而达到对现实的“增强”。
本发明通过调用移动智能设备摄像头扫描图像,得到真实场景图像,确定真实场景图像中的目标标识后,将真实场景目标图像与预设的多个目标标准图像进行匹配,若匹配成功则在图像所在位置叠加显示相应的AR虚拟场景。
S2、构建眼动分割注意力模型,根据所述真实场景图像通过所述眼动分割注意力模型获取场景语义图像、注视密度图像;
构建眼动分割注意力模型,该模型为神经网络模型,包含语义分割编码器、语义分割解码器以及眼动注意力编码器、眼动注意力解码器。每个配对的编码器、解码器都可以套用Unet、FastFCN等全卷积网络架构。模型构建可通过TensorFlow、PyTorch框架构建,这里不再赘述。其中,眼动分割注意力模型的系统结构框图如图2所示。
首先采集眼动分割注意力模型的数据集,包括输入图像、标签图像,输入图像即采集大量的真实场景图像,标签图像包括场景语义标签,注视密度标签。
场景语义标签即通过人为标注,包括各种目标标识的实物语义,本发明以下述实物为例,杯子、书籍、手机、电脑屏幕四类,图像中为杯子的像素值标记为1,为书籍、手机、电脑屏幕的分别标记为2、3、4,其他类别标记为0。具体的标注工具可通过labelme工具标注,最终得到场景语义标签。
注视密度标签,即采集每个观看者对真实场景图像固定时间内的注视位置数据,注视位置数据采样可以使用眼动仪,本发明固定时间为5s。然后生成一张像素值全为0的图像,对图像中的注视位置进行二维高斯分布的生成,二维高斯分布的大小经验值为5*5,对于有重叠或相同注视位置的像素点,进行二维高斯分布的叠加,得到该观看者的注视密度图像,然后采集多个观看者对该图像的注视密度图像,将多个观看者的注视密度图像求平均,作为最终的注视密度标签。
眼动分割注意力模型中,语义分割编码器输入为真实场景图像,输出为场景特征图,语义分割解码器输入为场景特征图,输出为场景语义图像,并与场景语义标签进行交叉熵损失函数计算。神经网络输出的场景语义图像需要通过Argmax操作,也即眼动分割注意力模型最终输出的场景语义图像需要通过Argmax操作,得到具体的场景语义。其中,Argmax操作是对集合求最大自变量的操作,为公知技术,在此不再过多介绍。
眼动注意力编码器输入为场景语义图像,输出为眼动注意力特征图,眼动注意力解码器输入为场景特征图与眼动注意力特征图融合后的特征图,所述融合可以采用Add、Concat等操作,输出为注视密度图像,并与注视密度标签进行L2损失的计算。其中,L2损失也称为最小平方误差函数,其计算方法为公知技术,在此不再过多介绍。
上述神经网络的优化方法采用AdamW方法,可以让网络快速收敛。该模型中眼动注意力模型的输入包含了场景语义信息,让网络学习过程中添加语义先验信息,可以有效提高注视密度的回归精度。其中,AdamW方法为常用的神经网络的优化方法,在此不再过多介绍。
至此,即可通过眼动分割注意力模型获取场景语义图像、注视密度图像。
S3、计算所述场景语义图像中每个语义实例的注视密度,获取语义注视优先度序列;根据所述语义注视优先度序列,逐个获取真实场景图像中语义实例的图像;
然后为了便于后续AR的快速匹配显示,此处求取场景语义图像中每个语义实例的注视密度,即每个语义在图像中都有一定的区域范围,求取该区域范围所有像素点的注视密度值的和,作为该语义实例的注视密度:
Figure 556508DEST_PATH_IMAGE025
Figure 118070DEST_PATH_IMAGE027
表示该语义实例第i个像素的注视密度值,n表示该语义实例的总像素数量。
每个语义实例需要通过对场景语义图像提取每个语义实例,每个实例提取的方法可通过图像处理中的连通域分析方法进行,这里不再赘述其细节。
最终得到每个语义实例的注视密度,将每个语义实例的注视密度按从大到小进行排序,得到语义注视优先度序列。所述语义注视优先度序列只包含杯子、书籍、手机、电脑屏幕四种语义下的每个语义实例的优先度,不包含其他语义。
然后根据语义注视优先度序列,逐个获取真实场景图像中语义实例的图像进行下述步骤四、步骤五。即语义注视优先度最大的先进行步骤四、步骤五。
S4、将所述语义实例的图像均匀划分为多个等大小的图像块,根据所述图像块获取归一化注视采样比例,基于所述图像块的大小与归一化注视采样比例获取每个图像块的采样点数;基于所述每个图像块的采样点数,对所有图像块进行网格化均匀采样,得到采样像素点集合;
进一步的,按语义注视优先度,逐个获取真实场景图像中语义实例的特征点,相比原始的、传统的用于增强现实的图像匹配方法,本发明方法只检测特定语义处的特征点,可以大大提高特征点检测及特征点匹配的速度。所述特征点的检测方法为:
像素点的注视密度越大,往往越是该语义的核心特征处,即越可能是特征点的位置。因此基于注视密度进行像素点采样密度的控制,可以有效提高特征点检测及匹配的速度。具体方法为:
首先对每种语义实例的图像进行均匀划分,划分为多个同大小的图像块,图像块的大小m*m经验值为4*4。如一张512*512大小的图像,即划分为128*128个图像块。
然后计算图像块的平均注视密度Ad:
Figure 121798DEST_PATH_IMAGE028
Figure 920734DEST_PATH_IMAGE004
为图像块的大小,
Figure 252489DEST_PATH_IMAGE029
表示图像块中第i个像素的注视密度值。
最终可以得到每个图像块的平均注视密度。
然后对所有图像块的平均注视密度进行最大归一化,得到每个图像块的归一化注视采样比例radio。
Figure 7956DEST_PATH_IMAGE030
其中,
Figure DEST_PATH_IMAGE031
为取最大值函数,即取所有图像块的最大平均注视密度,
Figure 662928DEST_PATH_IMAGE012
即图像块的平均注视密度。
获取每个图像块的采样点数U:
Figure 901273DEST_PATH_IMAGE032
Figure 844959DEST_PATH_IMAGE004
为每个图像块的大小,
Figure DEST_PATH_IMAGE033
为最大采样率,经验值为0.75,ceil为向上取整函数。图像块平均注视密度较低会导致其无采样点或很少采样点,此处设置约束,最小radio为0.2,即计算出radio若小于0.2,则radio赋值0.2。
至此,即可得到每个图像块的采样点数。然后进行网格均匀化采样,采样的方法是:
在图像块里,首先初始选取最大注视密度的像素点,计入采样点集合S。然后计算图像块中其他像素点与采样点集合S距离,选距离最大的点再次加入采样点集合S,迭代计算,直至达到图像块的采样点数,所述距离
Figure DEST_PATH_IMAGE034
的计算方法为:
Figure 138537DEST_PATH_IMAGE019
o表示采样点集合S内样本点的总数量,
Figure 585699DEST_PATH_IMAGE021
表示采样点集合S内第j个样本点与像素点的空间坐标欧式距离,
Figure DEST_PATH_IMAGE035
分别表示采样点集合S内第j个样本点的注视密度值、像素点的注视密度值。
至此得到该语义实例下所有图像块中采样的像素点,称为采样像素点集合。通过上述方法采样的像素点在每个图像块分布是均匀的,且计算效率高,图像块的平均注视密度越大,采样点个数分布越多。
S5、构建预设的标准图像,对所述采样像素点集合进行特征点检测与特征描述,将检测得到的特征点的描述子与所述预设的标准图像中特征点的描述子进行匹配,得到匹配的预设标准图像,将匹配的预设标准图像中相应的AR虚拟场景信息渲染到真实场景图像中该语义实例的位置处进行显示;
所述预设的标准图像即包含了不同语义类别的多种目标标准图像,即杯子、书籍、手机、电脑屏幕四类语义,则每种语义都包含多张标准图像,每张标准图像都包含了其相应的、预设的AR虚拟场景。
进一步的,对上述采样得到的采样像素点集合进行AKAZE特征点检测与特征描述,即对真实场景图像中采样像素点集合内的像素点进行AKAZE特征点检测与特征描述,整个算法流程:
1、非线性扩散滤波与尺度空间构建。
2、Hessian矩阵特征点检测,即海森矩阵特征点检测。
3、特征检测与描述子生成。
AKAZE特征点检测为公知的特征点检测的算法,该算法在OpenCV库中有相应的封装,可直接调用,这里不再赘述。采用AKAZE算法,是因为该算法在匹配精度和运算复杂度上都比较好,速度块。
然后将特征点的描述子与标准图像中特征点的描述子进行匹配,选取与检测得到的特征点的描述子匹配对数最多的预设标准图像作为匹配的预设标准图像,即认为该预设标准图像与当前语义实例图像是匹配的,所述该标准图像应是与该语义实例图像语义相同的图像,如当前语义实例图像为杯子,则匹配时只匹配杯子语义的标准图像。
得到匹配预设的标准图像后,每一种标准图像有相应的AR虚拟场景,便可以将相应的AR虚拟场景信息渲染到相应图像中该语义实例的位置处,以实现增强现实的效果。
叠加显示AR虚拟场景时,为了实现结合虚拟世界和真实世界的连贯增强场景,必须对齐真实和虚拟摄像机。因此需要实时确定真实场景中每一帧图像拍摄时的摄像机位置和方向,可以通过同步定位与跟踪技术(SLAM)技术实现,最终得到摄像机位姿信息后,将虚拟摄像机与该摄像机进行对齐,然后在相应的图像语义位置处实时渲染3D动画,以保证虚拟场景显示更连贯,实现增强现实的效果。所述SLAM技术、AR同步显示技术为本领域技术人员所周知的,本发明不再赘述其细节。
S6、逐个对每个语义实例的图像进行匹配显示,以实现增强现实的效果。
然后根据语义注视优先度序列,获取第二大的语义注视优先度的真实场景图像中语义实例的图像进行上述步骤四、步骤五。通过迭代,按照语义注视优先度大小逐个的将真实场景图像中语义实例的图像进行图像匹配及显示。通过上述方法根据语义优先度来对不同的AR虚拟场景进行优先显示,可以实现单个图像中多个AR虚拟场景的快速叠加显示,提高了显示效果,使增强现实的显示效果更加连贯,增强了用户体验质量。
需要说明的是:上述本发明实施例先后顺序仅仅为了描述,不代表实施例的优劣。在附图中描绘的过程不一定要求示出的特定顺序或者连续顺序才能实现期望的结果。在某些实施方式中,多任务处理和并行处理也是可以的或者可能是有利的。
以上所述仅为本发明的较佳实施例,并不用以限制本发明,凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (7)

1.一种AR快速实物匹配显示方法,其特征在于,所述方法包括:
S1、通过设备摄像头拍摄图像,获取真实场景图像;
S2、构建眼动分割注意力模型,根据所述真实场景图像通过所述眼动分割注意力模型获取场景语义图像、注视密度图像;
S3、计算所述场景语义图像中每个语义实例的注视密度,获取语义注视优先度序列;根据所述语义注视优先度序列,逐个获取真实场景图像中语义实例的图像;
S4、将所述语义实例的图像均匀划分为多个等大小的图像块,根据所述图像块获取归一化注视采样比例,基于所述图像块的大小与归一化注视采样比例获取每个图像块的采样点数;基于所述每个图像块的采样点数,对所有图像块进行网格化均匀采样,得到采样像素点集合;
S5、构建预设的标准图像,对所述采样像素点集合进行特征点检测与特征描述,将检测得到的特征点的描述子与所述预设的标准图像中特征点的描述子进行匹配,得到匹配的预设标准图像,将匹配的预设标准图像中相应的AR虚拟场景信息渲染到真实场景图像中该语义实例的位置处进行显示;
S6、逐个对每个语义实例的图像进行匹配显示,以实现增强现实的效果;
步骤S2中,眼动分割注意力模型包含语义分割编码器、语义分割解码器以及眼动注意力编码器、眼动注意力解码器;
语义分割编码器输入为真实场景图像,输出为场景特征图,语义分割解码器输入为场景特征图,输出为场景语义图像,并与场景语义标签进行交叉熵损失函数计算,眼动分割注意力模型最终输出的场景语义图像需要通过Argmax操作;
眼动注意力编码器输入为场景语义图像,输出为眼动注意力特征图,眼动注意力解码器输入为场景特征图与眼动注意力特征图融合后的特征图,输出为注视密度图像,并与注视密度标签进行L2损失的计算。
2.根据权利要求1所述的一种AR快速实物匹配显示方法,其特征在于,所述注视密度标签的获取方法为:
采集每个观看者对真实场景图像固定时间内的注视位置数据;然后生成一张像素值全为0的图像,对图像中的注视位置进行二维高斯分布的生成,对于有重叠和相同注视位置的像素点,进行二维高斯分布的叠加,得到该观看者的注视密度图像,然后采集多个观看者对该图像的注视密度图像,将多个观看者的注视密度图像求平均,作为最终的注视密度标签。
3.根据权利要求1所述的一种AR快速实物匹配显示方法,其特征在于,步骤S3中,计算所述场景语义图像中每个语义实例的注视密度,获取语义注视优先度序列,包括:
对场景语义图像提取每个语义实例,求取场景语义图像中每个语义实例的注视密度,每个语义在图像中都有一定的区域范围,求取该区域范围所有像素点的注视密度值的和,作为该语义实例的注视密度;
最终得到每个语义实例的注视密度,将每个语义实例的注视密度按从大到小进行排序,得到语义注视优先度序列。
4.根据权利要求1所述的一种AR快速实物匹配显示方法,其特征在于,步骤S4中,根据所述图像块获取归一化注视采样比例,基于所述图像块的大小与归一化注视采样比例获取每个图像块的采样点数,包括:
计算图像块的平均注视密度Ad:
Figure 519298DEST_PATH_IMAGE001
式中,
Figure 286265DEST_PATH_IMAGE002
为图像块的大小,
Figure 749477DEST_PATH_IMAGE003
表示图像块中第i个像素的注视密度值;
然后对所有图像块的平均注视密度进行最大归一化,得到每个图像块的归一化注视采样比例radio:
Figure 842066DEST_PATH_IMAGE004
式中,
Figure 552182DEST_PATH_IMAGE005
为取最大值函数,即取所有图像块的最大平均注视密度,
Figure 653999DEST_PATH_IMAGE006
即图像块的平均注视密度;
获取每个图像块的采样点数U:
Figure 112662DEST_PATH_IMAGE007
式中,
Figure 844994DEST_PATH_IMAGE002
为每个图像块的大小,
Figure 821565DEST_PATH_IMAGE008
为最大采样率,ceil为向上取整函数。
5.根据权利要求1所述的一种AR快速实物匹配显示方法,其特征在于,步骤S4中,基于所述每个图像块的采样点数,对所有图像块进行网格化均匀采样,得到采样像素点集合,包括:
在图像块里,首先初始选取最大注视密度的像素点,计入采样点集合S;然后计算图像块中其他像素点与采样点集合S距离,选距离最大的点再次加入采样点集合S,迭代计算,直至达到图像块的采样点数,所述距离
Figure 664756DEST_PATH_IMAGE009
的计算方法为:
Figure 243505DEST_PATH_IMAGE010
式中,o表示采样点集合S内样本点的总数量,
Figure 350001DEST_PATH_IMAGE011
表示采样点集合S内第j个样本点与像素点的空间坐标欧式距离,
Figure 14201DEST_PATH_IMAGE012
分别表示采样点集合S内第j个样本点的注视密度值、像素点的注视密度值;
至此得到每个语义实例下所有图像块中采样的像素点,称为采样像素点集合。
6.根据权利要求1所述的一种AR快速实物匹配显示方法,其特征在于,步骤S5中,对所述采样像素点集合进行特征点检测与特征描述所采用的方法为AKAZE算法。
7.根据权利要求1所述的一种AR快速实物匹配显示方法,其特征在于,步骤S5中,将检测得到的特征点的描述子与所述预设的标准图像中特征点的描述子进行匹配,得到匹配的预设标准图像,所述匹配的依据为:选取与检测得到的特征点的描述子匹配对数最多的预设标准图像作为匹配的预设标准图像。
CN202211231261.5A 2022-10-10 2022-10-10 一种ar快速实物匹配显示方法 Active CN115294488B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202211231261.5A CN115294488B (zh) 2022-10-10 2022-10-10 一种ar快速实物匹配显示方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202211231261.5A CN115294488B (zh) 2022-10-10 2022-10-10 一种ar快速实物匹配显示方法

Publications (2)

Publication Number Publication Date
CN115294488A CN115294488A (zh) 2022-11-04
CN115294488B true CN115294488B (zh) 2023-01-24

Family

ID=83819378

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202211231261.5A Active CN115294488B (zh) 2022-10-10 2022-10-10 一种ar快速实物匹配显示方法

Country Status (1)

Country Link
CN (1) CN115294488B (zh)

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110308785A (zh) * 2019-07-08 2019-10-08 深圳市蓝游网络科技有限公司 基于ar技术的电子书实现方法
CN111382574A (zh) * 2020-03-11 2020-07-07 中国科学技术大学 一种虚拟现实与增强现实场景下结合句法的语义解析系统
CN111612177A (zh) * 2020-05-18 2020-09-01 上海齐网网络科技有限公司 基于交互语义的增强现实智能运维系统
CN111815782A (zh) * 2020-06-30 2020-10-23 北京市商汤科技开发有限公司 Ar场景内容的显示方法、装置、设备及计算机存储介质
CN112365604A (zh) * 2020-11-05 2021-02-12 深圳市中科先见医疗科技有限公司 基于语义分割和slam的ar设备景深信息应用方法
CN112396607A (zh) * 2020-11-18 2021-02-23 北京工商大学 一种可变形卷积融合增强的街景图像语义分割方法

Family Cites Families (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR101845350B1 (ko) * 2013-03-26 2018-05-18 세이코 엡슨 가부시키가이샤 두부 장착형 표시 장치 및 두부 장착형 표시 장치의 제어 방법
CN105979035B (zh) * 2016-06-28 2019-08-27 Oppo广东移动通信有限公司 一种增强现实ar图像处理方法、装置及智能终端
US11676296B2 (en) * 2017-08-11 2023-06-13 Sri International Augmenting reality using semantic segmentation
US10854006B2 (en) * 2018-11-15 2020-12-01 Palo Alto Research Center Incorporated AR-enabled labeling using aligned CAD models
CN111401436B (zh) * 2020-03-13 2023-04-18 中国科学院地理科学与资源研究所 一种融合网络和双通道注意力机制的街景图像分割方法
CN112734775B (zh) * 2021-01-19 2023-07-07 腾讯科技(深圳)有限公司 图像标注、图像语义分割、模型训练方法及装置
CN113066189B (zh) * 2021-04-06 2022-06-14 海信视像科技股份有限公司 一种增强现实设备及虚实物体遮挡显示方法
CN113409470A (zh) * 2021-06-18 2021-09-17 杭州灵伴科技有限公司 基于ar的场景导览方法、ar眼镜、电子装置和存储介质
CN114549718A (zh) * 2022-01-25 2022-05-27 广东虚拟现实科技有限公司 虚拟信息的渲染方法、装置、增强现实装置及存储介质
CN114663655A (zh) * 2022-03-01 2022-06-24 新疆大学 图像分割模型训练、图像语义分割方法、装置及相关设备

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110308785A (zh) * 2019-07-08 2019-10-08 深圳市蓝游网络科技有限公司 基于ar技术的电子书实现方法
CN111382574A (zh) * 2020-03-11 2020-07-07 中国科学技术大学 一种虚拟现实与增强现实场景下结合句法的语义解析系统
CN111612177A (zh) * 2020-05-18 2020-09-01 上海齐网网络科技有限公司 基于交互语义的增强现实智能运维系统
CN111815782A (zh) * 2020-06-30 2020-10-23 北京市商汤科技开发有限公司 Ar场景内容的显示方法、装置、设备及计算机存储介质
CN112365604A (zh) * 2020-11-05 2021-02-12 深圳市中科先见医疗科技有限公司 基于语义分割和slam的ar设备景深信息应用方法
CN112396607A (zh) * 2020-11-18 2021-02-23 北京工商大学 一种可变形卷积融合增强的街景图像语义分割方法

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
Ting Yu ; .Noise Power Spectrum Estimation of Column Fixed Pattern Noise in CMOS Image Sensors Based on AR Model.《2019 Prognostics and System Health Management Conference (PHM-Qingdao)》.2019, *
基于图像数据驱动的增强现实标注方法;贾健庆;《中国优秀硕士学位论文全文数据库》;20190715;全文 *
基于语义分割的增强现实图像配准技术;卞贤掌等;《电子技术与软件工程》;20181213(第23期);全文 *

Also Published As

Publication number Publication date
CN115294488A (zh) 2022-11-04

Similar Documents

Publication Publication Date Title
CN109508681B (zh) 生成人体关键点检测模型的方法和装置
CN110555434B (zh) 一种局部对比和全局指导的立体图像视觉显著性检测方法
CN103839277B (zh) 一种户外大范围自然场景的移动增强现实注册方法
CN104183014B (zh) 一种面向城市增强现实的高融合度信息标注方法
CN111783820A (zh) 图像标注方法和装置
CN110544301A (zh) 一种三维人体动作重建系统、方法和动作训练系统
CN110827312B (zh) 一种基于协同视觉注意力神经网络的学习方法
CN108769517A (zh) 一种基于增强现实进行远程辅助的方法与设备
CN112954292B (zh) 一种基于增强现实的数字博物馆导览系统和方法
CN111145135B (zh) 一种图像去扰处理方法、装置、设备及存储介质
CN110619638A (zh) 一种基于卷积块注意模块的多模态融合显著性检测方法
CN109272543B (zh) 用于生成模型的方法和装置
CN113220251B (zh) 物体显示方法、装置、电子设备及存储介质
CN114863037A (zh) 基于单手机的人体三维建模数据采集与重建方法及系统
CN111598996B (zh) 一种基于ar技术的物品3d模型展示方法和系统
CN112734914A (zh) 一种增强现实视觉的图像立体重建方法及装置
CN107018400B (zh) 一种将2d视频转换成3d视频的方法
Li et al. Student behavior recognition for interaction detection in the classroom environment
US20240161461A1 (en) Object detection method, object detection apparatus, and object detection system
CN117094895B (zh) 图像全景拼接方法及其系统
CN113886510A (zh) 一种终端交互方法、装置、设备及存储介质
CN117611774A (zh) 一种基于增强现实技术的多媒体展示系统及方法
CN117237547A (zh) 图像重建方法、重建模型的处理方法和装置
CN115294488B (zh) 一种ar快速实物匹配显示方法
CN113673567B (zh) 基于多角度子区域自适应的全景图情感识别方法及系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant