CN115294488B

CN115294488B - 一种ar快速实物匹配显示方法

Info

Publication number: CN115294488B
Application number: CN202211231261.5A
Authority: CN
Inventors: 汪翠芳
Original assignee: Jiangxi University of Finance and Economics
Current assignee: Jiangxi University of Finance and Economics
Priority date: 2022-10-10
Filing date: 2022-10-10
Publication date: 2023-01-24
Anticipated expiration: 2042-10-10
Also published as: CN115294488A

Abstract

本发明涉及图像处理技术领域，具体涉及一种AR快速实物匹配显示方法。该方法包括：S1、通过设备摄像头拍摄图像，获取真实场景图像；S2、构建眼动分割注意力模型，获取场景语义图像、注视密度图像；S3、计算场景语义图像中每个语义实例的注视密度，获取语义注视优先度；S4、对语义实例图像进行采样，得到采样像素点集合；S5、构建预设的标准图像，对所述采样像素点集合进行图像匹配，得到匹配的预设标准图像，S6、将相应的AR虚拟场景信息渲染到真实场景图像进行显示；本发明方法根据语义优先度来对不同的AR虚拟场景进行优先显示，可以实现多个AR虚拟场景的快速叠加显示，提高了显示效果，增强了用户体验质量。

Description

一种AR快速实物匹配显示方法

技术领域

本发明涉及图像处理技术领域，具体涉及一种AR快速实物匹配显示方法。

背景技术

随着多媒体技术的快速发展，增强现实（AR）已经成为一个有前途的下一代移动平台。AR旨在通过叠加虚拟内容来丰富现实世界的信息，AR技术可以在保持真实信息的同时显示增强内容，因此在通信、娱乐、医疗、教育、工程设计等领域具有巨大的应用潜力。

AR的基本理论是人类视觉，它允许用户叠加在一起进行观察，同时感知真实世界场景和虚拟世界场景的内容。为了实现良好的用户体验质量，了解两个场景之间的交互，并协调地显示AR内容非常重要。

发明内容

为了解决上述技术问题，本发明的目的在于提供一种AR快速实物匹配显示方法，所采用的技术方案具体如下：

本发明提出一种AR快速实物匹配显示方法，所述方法包括：

S1、通过设备摄像头拍摄图像，获取真实场景图像；

S2、构建眼动分割注意力模型，根据所述真实场景图像通过所述眼动分割注意力模型获取场景语义图像、注视密度图像；

S3、计算所述场景语义图像中每个语义实例的注视密度，获取语义注视优先度序列；根据所述语义注视优先度序列，逐个获取真实场景图像中语义实例的图像；

S4、将所述语义实例的图像均匀划分为多个等大小的图像块，根据所述图像块获取归一化注视采样比例，基于所述图像块的大小与归一化注视采样比例获取每个图像块的采样点数；基于所述每个图像块的采样点数，对所有图像块进行网格化均匀采样，得到采样像素点集合；

S5、构建预设的标准图像，对所述采样像素点集合进行特征点检测与特征描述，将检测得到的特征点的描述子与所述预设的标准图像中特征点的描述子进行匹配，得到匹配的预设标准图像，将匹配的预设标准图像中相应的AR虚拟场景信息渲染到真实场景图像中该语义实例的位置处进行显示；

S6、逐个对每个语义实例的图像进行匹配显示，以实现增强现实的效果。

进一步的，步骤S2中，眼动分割注意力模型包含语义分割编码器、语义分割解码器以及眼动注意力编码器、眼动注意力解码器；语义分割编码器输入为真实场景图像，输出为场景特征图，语义分割解码器输入为场景特征图，输出为场景语义图像，并与场景语义标签进行交叉熵损失函数计算，眼动分割注意力模型最终输出的场景语义图像需要通过Argmax操作；眼动注意力编码器输入为场景语义图像，输出为眼动注意力特征图，眼动注意力解码器输入为场景特征图与眼动注意力特征图融合后的特征图，输出为注视密度图像，并与注视密度标签进行L2损失的计算。

进一步的，所述注视密度标签的获取方法为：采集每个观看者对真实场景图像固定时间内的注视位置数据；然后生成一张像素值全为0的图像，对图像中的注视位置进行二维高斯分布的生成，对于有重叠和相同注视位置的像素点，进行二维高斯分布的叠加，得到该观看者的注视密度图像，然后采集多个观看者对该图像的注视密度图像，将多个观看者的注视密度图像求平均，作为最终的注视密度标签。

进一步的，步骤S3中，计算所述场景语义图像中每个语义实例的注视密度，获取语义注视优先度序列，包括：对场景语义图像提取每个语义实例，求取场景语义图像中每个语义实例的注视密度，每个语义在图像中都有一定的区域范围，求取该区域范围所有像素点的注视密度值的和，作为该语义实例的注视密度；最终得到每个语义实例的注视密度，将每个语义实例的注视密度按从大到小进行排序，得到语义注视优先度序列。

进一步的，步骤S4中，根据所述图像块获取归一化注视采样比例，基于所述图像块的大小与归一化注视采样比例获取每个图像块的采样点数，包括：

计算图像块的平均注视密度Ad：

式中，

为图像块的大小，

表示图像块中第i个像素的注视密度值；

然后对所有图像块的平均注视密度进行最大归一化，得到每个图像块的归一化注视采样比例radio：

式中，

为取最大值函数，即取所有图像块的最大平均注视密度，

即图像块的平均注视密度；

获取每个图像块的采样点数U：

式中，

为每个图像块的大小，

为最大采样率，ceil为向上取整函数。

进一步的，步骤S4中，基于所述每个图像块的采样点数，对所有图像块进行网格化均匀采样，得到采样像素点集合，包括：在图像块里，首先初始选取最大注视密度的像素点，计入采样点集合S；然后计算图像块中其他像素点与采样点集合S距离，选距离最大的点再次加入采样点集合S，迭代计算，直至达到图像块的采样点数，所述距离

的计算方法为：

式中，o表示采样点集合S内样本点的总数量，

表示采样点集合S内第j个样本点与像素点的空间坐标欧式距离，

分别表示采样点集合S内第j个样本点的注视密度值、像素点的注视密度值；

至此得到每个语义实例下所有图像块中采样的像素点，称为采样像素点集合。

进一步的，步骤S5中，对所述采样像素点集合进行特征点检测与特征描述所采用的方法为AKAZE算法。

进一步的，步骤S5中，将检测得到的特征点的描述子与所述预设的标准图像中特征点的描述子进行匹配，得到匹配的预设标准图像，所述匹配的依据为：选取与检测得到的特征点的描述子匹配对数最多的预设标准图像作为匹配的预设标准图像。

本发明具有如下有益效果：

本发明方法结合图像语义及注视密度来进行针对性特征点检测与匹配，采样的像素点在每个图像块分布是均匀的，且计算效率高，图像块的平均注视密度越大，采样点个数分布越多，可以有效提高匹配的速度。

本发明方法根据语义优先度来对不同的AR虚拟场景进行优先显示，可以实现多个AR虚拟场景的快速叠加显示，提高了显示效果，增强了用户体验质量。

附图说明

图1为本发明方法的流程框图；

图2为本发明眼动分割注意力模型的系统结构框图。

具体实施方式

下面结合附图具体的说明本发明所提供的一种AR快速实物匹配显示方法的具体方案。

请参阅图1，其示出了本发明一个实施例提供的一种AR快速实物匹配显示方法流程框图，该方法包括：

S1、通过设备摄像头拍摄图像，获取真实场景图像；

增强现实技术是在真实世界场景中叠加显示虚拟信息，并进行交互的综合技术。它通过实时跟踪注册技术提取真实世界场景中物体特征信息，与预设特征信息进行匹配计算，若匹配率达到预期值，则将图像、音视频、三维模型和动画等媒体信息进行仿真模拟，然后叠加显示在真实世界场景中，与真实世界场景进行交互，从而达到对现实的“增强”。

本发明通过调用移动智能设备摄像头扫描图像，得到真实场景图像，确定真实场景图像中的目标标识后，将真实场景目标图像与预设的多个目标标准图像进行匹配，若匹配成功则在图像所在位置叠加显示相应的AR虚拟场景。

构建眼动分割注意力模型，该模型为神经网络模型，包含语义分割编码器、语义分割解码器以及眼动注意力编码器、眼动注意力解码器。每个配对的编码器、解码器都可以套用Unet、FastFCN等全卷积网络架构。模型构建可通过TensorFlow、PyTorch框架构建，这里不再赘述。其中，眼动分割注意力模型的系统结构框图如图2所示。

首先采集眼动分割注意力模型的数据集，包括输入图像、标签图像，输入图像即采集大量的真实场景图像，标签图像包括场景语义标签，注视密度标签。

场景语义标签即通过人为标注，包括各种目标标识的实物语义，本发明以下述实物为例，杯子、书籍、手机、电脑屏幕四类，图像中为杯子的像素值标记为1，为书籍、手机、电脑屏幕的分别标记为2、3、4，其他类别标记为0。具体的标注工具可通过labelme工具标注，最终得到场景语义标签。

注视密度标签，即采集每个观看者对真实场景图像固定时间内的注视位置数据，注视位置数据采样可以使用眼动仪，本发明固定时间为5s。然后生成一张像素值全为0的图像，对图像中的注视位置进行二维高斯分布的生成，二维高斯分布的大小经验值为5*5，对于有重叠或相同注视位置的像素点，进行二维高斯分布的叠加，得到该观看者的注视密度图像，然后采集多个观看者对该图像的注视密度图像，将多个观看者的注视密度图像求平均，作为最终的注视密度标签。

眼动分割注意力模型中，语义分割编码器输入为真实场景图像，输出为场景特征图，语义分割解码器输入为场景特征图，输出为场景语义图像，并与场景语义标签进行交叉熵损失函数计算。神经网络输出的场景语义图像需要通过Argmax操作，也即眼动分割注意力模型最终输出的场景语义图像需要通过Argmax操作，得到具体的场景语义。其中，Argmax操作是对集合求最大自变量的操作，为公知技术，在此不再过多介绍。

眼动注意力编码器输入为场景语义图像，输出为眼动注意力特征图，眼动注意力解码器输入为场景特征图与眼动注意力特征图融合后的特征图，所述融合可以采用Add、Concat等操作，输出为注视密度图像，并与注视密度标签进行L2损失的计算。其中，L2损失也称为最小平方误差函数，其计算方法为公知技术，在此不再过多介绍。

上述神经网络的优化方法采用AdamW方法，可以让网络快速收敛。该模型中眼动注意力模型的输入包含了场景语义信息，让网络学习过程中添加语义先验信息，可以有效提高注视密度的回归精度。其中，AdamW方法为常用的神经网络的优化方法，在此不再过多介绍。

至此，即可通过眼动分割注意力模型获取场景语义图像、注视密度图像。

然后为了便于后续AR的快速匹配显示，此处求取场景语义图像中每个语义实例的注视密度，即每个语义在图像中都有一定的区域范围，求取该区域范围所有像素点的注视密度值的和，作为该语义实例的注视密度：

表示该语义实例第i个像素的注视密度值，n表示该语义实例的总像素数量。

每个语义实例需要通过对场景语义图像提取每个语义实例，每个实例提取的方法可通过图像处理中的连通域分析方法进行，这里不再赘述其细节。

最终得到每个语义实例的注视密度，将每个语义实例的注视密度按从大到小进行排序，得到语义注视优先度序列。所述语义注视优先度序列只包含杯子、书籍、手机、电脑屏幕四种语义下的每个语义实例的优先度，不包含其他语义。

然后根据语义注视优先度序列，逐个获取真实场景图像中语义实例的图像进行下述步骤四、步骤五。即语义注视优先度最大的先进行步骤四、步骤五。

进一步的，按语义注视优先度，逐个获取真实场景图像中语义实例的特征点，相比原始的、传统的用于增强现实的图像匹配方法，本发明方法只检测特定语义处的特征点，可以大大提高特征点检测及特征点匹配的速度。所述特征点的检测方法为：

像素点的注视密度越大，往往越是该语义的核心特征处，即越可能是特征点的位置。因此基于注视密度进行像素点采样密度的控制，可以有效提高特征点检测及匹配的速度。具体方法为：

首先对每种语义实例的图像进行均匀划分，划分为多个同大小的图像块，图像块的大小m*m经验值为4*4。如一张512*512大小的图像，即划分为128*128个图像块。

然后计算图像块的平均注视密度Ad：

为图像块的大小，

表示图像块中第i个像素的注视密度值。

最终可以得到每个图像块的平均注视密度。

然后对所有图像块的平均注视密度进行最大归一化，得到每个图像块的归一化注视采样比例radio。

其中，

为取最大值函数，即取所有图像块的最大平均注视密度，

即图像块的平均注视密度。

获取每个图像块的采样点数U：

为每个图像块的大小，

为最大采样率，经验值为0.75，ceil为向上取整函数。图像块平均注视密度较低会导致其无采样点或很少采样点，此处设置约束，最小radio为0.2，即计算出radio若小于0.2，则radio赋值0.2。

至此，即可得到每个图像块的采样点数。然后进行网格均匀化采样，采样的方法是：

在图像块里，首先初始选取最大注视密度的像素点，计入采样点集合S。然后计算图像块中其他像素点与采样点集合S距离，选距离最大的点再次加入采样点集合S，迭代计算，直至达到图像块的采样点数，所述距离

的计算方法为：

o表示采样点集合S内样本点的总数量，

分别表示采样点集合S内第j个样本点的注视密度值、像素点的注视密度值。

至此得到该语义实例下所有图像块中采样的像素点，称为采样像素点集合。通过上述方法采样的像素点在每个图像块分布是均匀的，且计算效率高，图像块的平均注视密度越大，采样点个数分布越多。

所述预设的标准图像即包含了不同语义类别的多种目标标准图像，即杯子、书籍、手机、电脑屏幕四类语义，则每种语义都包含多张标准图像，每张标准图像都包含了其相应的、预设的AR虚拟场景。

进一步的，对上述采样得到的采样像素点集合进行AKAZE特征点检测与特征描述，即对真实场景图像中采样像素点集合内的像素点进行AKAZE特征点检测与特征描述，整个算法流程：

1、非线性扩散滤波与尺度空间构建。

2、Hessian矩阵特征点检测，即海森矩阵特征点检测。

3、特征检测与描述子生成。

AKAZE特征点检测为公知的特征点检测的算法，该算法在OpenCV库中有相应的封装，可直接调用，这里不再赘述。采用AKAZE算法，是因为该算法在匹配精度和运算复杂度上都比较好，速度块。

然后将特征点的描述子与标准图像中特征点的描述子进行匹配，选取与检测得到的特征点的描述子匹配对数最多的预设标准图像作为匹配的预设标准图像，即认为该预设标准图像与当前语义实例图像是匹配的，所述该标准图像应是与该语义实例图像语义相同的图像，如当前语义实例图像为杯子，则匹配时只匹配杯子语义的标准图像。

得到匹配预设的标准图像后，每一种标准图像有相应的AR虚拟场景，便可以将相应的AR虚拟场景信息渲染到相应图像中该语义实例的位置处，以实现增强现实的效果。

叠加显示AR虚拟场景时，为了实现结合虚拟世界和真实世界的连贯增强场景，必须对齐真实和虚拟摄像机。因此需要实时确定真实场景中每一帧图像拍摄时的摄像机位置和方向，可以通过同步定位与跟踪技术（SLAM）技术实现，最终得到摄像机位姿信息后，将虚拟摄像机与该摄像机进行对齐，然后在相应的图像语义位置处实时渲染3D动画，以保证虚拟场景显示更连贯，实现增强现实的效果。所述SLAM技术、AR同步显示技术为本领域技术人员所周知的，本发明不再赘述其细节。

然后根据语义注视优先度序列，获取第二大的语义注视优先度的真实场景图像中语义实例的图像进行上述步骤四、步骤五。通过迭代，按照语义注视优先度大小逐个的将真实场景图像中语义实例的图像进行图像匹配及显示。通过上述方法根据语义优先度来对不同的AR虚拟场景进行优先显示，可以实现单个图像中多个AR虚拟场景的快速叠加显示，提高了显示效果，使增强现实的显示效果更加连贯，增强了用户体验质量。

需要说明的是：上述本发明实施例先后顺序仅仅为了描述，不代表实施例的优劣。在附图中描绘的过程不一定要求示出的特定顺序或者连续顺序才能实现期望的结果。在某些实施方式中，多任务处理和并行处理也是可以的或者可能是有利的。

以上所述仅为本发明的较佳实施例，并不用以限制本发明，凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种AR快速实物匹配显示方法，其特征在于，所述方法包括：

S1、通过设备摄像头拍摄图像，获取真实场景图像；

S6、逐个对每个语义实例的图像进行匹配显示，以实现增强现实的效果；

步骤S2中，眼动分割注意力模型包含语义分割编码器、语义分割解码器以及眼动注意力编码器、眼动注意力解码器；

语义分割编码器输入为真实场景图像，输出为场景特征图，语义分割解码器输入为场景特征图，输出为场景语义图像，并与场景语义标签进行交叉熵损失函数计算，眼动分割注意力模型最终输出的场景语义图像需要通过Argmax操作；

眼动注意力编码器输入为场景语义图像，输出为眼动注意力特征图，眼动注意力解码器输入为场景特征图与眼动注意力特征图融合后的特征图，输出为注视密度图像，并与注视密度标签进行L2损失的计算。

2.根据权利要求1所述的一种AR快速实物匹配显示方法，其特征在于，所述注视密度标签的获取方法为：

采集每个观看者对真实场景图像固定时间内的注视位置数据；然后生成一张像素值全为0的图像，对图像中的注视位置进行二维高斯分布的生成，对于有重叠和相同注视位置的像素点，进行二维高斯分布的叠加，得到该观看者的注视密度图像，然后采集多个观看者对该图像的注视密度图像，将多个观看者的注视密度图像求平均，作为最终的注视密度标签。

3.根据权利要求1所述的一种AR快速实物匹配显示方法，其特征在于，步骤S3中，计算所述场景语义图像中每个语义实例的注视密度，获取语义注视优先度序列，包括：

对场景语义图像提取每个语义实例，求取场景语义图像中每个语义实例的注视密度，每个语义在图像中都有一定的区域范围，求取该区域范围所有像素点的注视密度值的和，作为该语义实例的注视密度；

最终得到每个语义实例的注视密度，将每个语义实例的注视密度按从大到小进行排序，得到语义注视优先度序列。

4.根据权利要求1所述的一种AR快速实物匹配显示方法，其特征在于，步骤S4中，根据所述图像块获取归一化注视采样比例，基于所述图像块的大小与归一化注视采样比例获取每个图像块的采样点数，包括：

计算图像块的平均注视密度Ad：