CN117132744A

CN117132744A - 虚拟场景的构建方法、装置、介质及电子设备

Info

Publication number: CN117132744A
Application number: CN202311408903.9A
Authority: CN
Inventors: 张云东; 尚鸿; 孙钟前
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2023-10-27
Filing date: 2023-10-27
Publication date: 2023-11-28
Anticipated expiration: 2043-10-27
Also published as: CN117132744B

Abstract

本申请属于人工智能技术领域，具体涉及一种虚拟场景的构建方法、虚拟场景的构建装置、计算机可读介质、电子设备以及计算机程序产品。该方法包括：获取由预设的图像采集位点对现实场景进行图像采集得到的场景图像，现实场景包括一个或多个实体对象；对场景图像进行特征提取，得到场景图像的视觉特征图，并从视觉特征图中裁剪得到对应于各个实体对象的局部特征图；根据局部特征图预测实体对象的顶部轮廓以及顶部轮廓相对于实体对象的底部区域的偏移信息；根据顶部轮廓和偏移信息生成与实体对象相对应的虚拟对象，并根据虚拟对象构建与现实场景相对应的虚拟场景。本申请可以降低虚拟场景构建的计算成本。

Description

虚拟场景的构建方法、装置、介质及电子设备

技术领域

本申请属于人工智能技术领域，具体涉及一种虚拟场景的构建方法、虚拟场景的构建装置、计算机可读介质、电子设备以及计算机程序产品。

背景技术

随着计算机和网络技术的发展，通过虚拟场景构建可以将现实生活中的现实场景内容转移到线上呈现，在三维地图、游戏、智慧城市建设等各种领域具有极其广泛的应用。然而，由于现实场景内容纷繁复杂且数量庞大，虚拟场景构建过程普遍存在计算成本高、构建效率低等问题。

发明内容

本申请提供一种虚拟场景的构建方法、虚拟场景的构建装置、计算机可读介质、电子设备以及计算机程序产品，目的在于降低虚拟场景构建的计算成本。

根据本申请实施例的一个方面，提供一种虚拟场景的构建方法，该方法包括：

获取由预设的图像采集位点对现实场景进行图像采集得到的场景图像，所述现实场景包括一个或多个实体对象，所述图像采集点位于所述实体对象的上方；

对所述场景图像进行特征提取，得到所述场景图像的视觉特征图，并从所述视觉特征图中裁剪得到对应于各个所述实体对象的局部特征图；

根据所述局部特征图预测所述实体对象的顶部轮廓以及所述顶部轮廓相对于所述实体对象的底部区域的偏移信息；

根据所述顶部轮廓和所述偏移信息生成与所述实体对象相对应的虚拟对象，并根据所述虚拟对象构建与所述现实场景相对应的虚拟场景。

根据本申请实施例的一个方面，提供一种虚拟场景的构建装置，该装置包括：

获取模块，被配置为获取由预设的图像采集位点对现实场景进行图像采集得到的场景图像，所述现实场景包括一个或多个实体对象，所述图像采集点位于所述实体对象的上方；

裁剪模块，被配置为对所述场景图像进行特征提取，得到所述场景图像的视觉特征图，并从所述视觉特征图中裁剪得到对应于各个所述实体对象的局部特征图；

预测模块，被配置为根据所述局部特征图预测所述实体对象的顶部轮廓以及所述顶部轮廓相对于所述实体对象的底部区域的偏移信息；

构建模块，被配置为根据所述顶部轮廓和所述偏移信息生成与所述实体对象相对应的虚拟对象，并根据所述虚拟对象构建与所述现实场景相对应的虚拟场景。

在本申请的一些实施例中，基于以上技术方案，所述裁剪模块进一步包括：

特征获取模块，被配置为获取所述视觉特征图中各个图像位点的视觉特征以及与所述视觉特征相对应的位置特征；

特征编码模块，被配置为对所述视觉特征和所述位置特征进行编码处理，得到特征融合后的编码特征；

特征解码模块，被配置为根据多个包围盒对所述编码特征进行解码处理，得到各个所述包围盒的位置分布信息，所述位置分布信息用于表示所述包围盒在所述视觉特征图中的分布位置以及被所述包围盒所包围的图像区域的尺寸；

特征聚合模块，被配置为在所述视觉特征图中对所述包围盒包围的视觉特征进行特征聚合处理，得到对应于各个所述实体对象的局部特征图。

在本申请的一些实施例中，基于以上技术方案，所述特征编码模块进一步被配置为：将所述视觉特征与所述位置特征的融合特征作为查询向量和索引向量输入预先训练的自注意力模块；将所述视觉特征作为值向量输入所述自注意力模块；在所述自注意力模块中对所述查询向量、所述索引向量和所述值向量进行编码处理，得到特征融合后的编码特征。

在本申请的一些实施例中，基于以上技术方案，所述特征解码模块进一步被配置为：初始化对应于所述多个包围盒的多个查询单词，所述查询单词用于表示所述包围盒的初始位置分布信息；对所述查询单词、所述位置特征以及所述编码特征进行解码处理，得到所述包围盒的目标位置分布信息。

在本申请的一些实施例中，基于以上技术方案，所述特征解码模块进一步被配置为：根据所述编码特征和所述查询单词调整多个所述包围盒的位置分布关系，得到用于表示多个所述包围盒的全局位置分布信息的中间特征；根据所述编码特征、所述位置特征、所述查询单词以及所述中间特征调整各个所述包围盒与所述视觉特征的位置分布关系，得到所述包围盒的目标位置分布信息。

在本申请的一些实施例中，基于以上技术方案，所述特征解码模块进一步被配置为：将所述查询单词作为查询向量和索引向量输入预先训练的自注意力模块；将所述编码特征作为值向量输入所述自注意力模块；在所述自注意力模块中对所述查询向量、所述索引向量和所述值向量进行解码处理，得到用于表示多个所述包围盒的全局位置分布信息的中间特征。

在本申请的一些实施例中，基于以上技术方案，所述特征解码模块进一步被配置为：将所述中间特征与所述查询单词的融合特征作为查询向量输入预先训练的交叉注意力模块；将所述编码特征与所述位置特征的融合特征作为索引向量输入所述交叉注意力模块；将所述编码特征作为值向量输入所述交叉注意力模块；在所述交叉注意力模块中对所述查询向量、所述索引向量和所述值向量进行解码处理，得到所述包围盒的目标位置分布信息。

在本申请的一些实施例中，基于以上技术方案，所述特征解码模块进一步被配置为：对所述场景图像进行内容识别，得到所述实体对象在所述场景图像中的分布区域；根据所述分布区域的尺寸信息以及所述场景图像的尺寸信息预测所述现实场景中分布的实体对象的数量；根据所述现实场景中分布的实体对象的数量确定用于裁剪所述视觉特征图的包围盒的数量，所述包围盒的数量大于所述现实场景中分布的实体对象的数量。

在本申请的一些实施例中，基于以上技术方案，所述特征聚合模块进一步被配置为：将所述包围盒映射至所述视觉特征图，得到被所述包围盒所包围的局部区域；按照将所述局部区域划分为多个具有相同尺寸的区域网格；在每个所述区域网格内选取均匀分布的多个采样点，对每个所述采样点周围的图像位点的特征值进行双线性插值处理，得到所述采样点的特征值；根据所述多个采样点的特征值确定所述区域网格的特征值，并根据看多个所述区域网格的特征值确定对应于所述包围盒的实体对象的局部特征图。

在本申请的一些实施例中，基于以上技术方案，所述预测模块进一步被配置为：对所述局部特征图进行特征提取，得到特征深度依次增加的多个浅层特征图；对所述浅层特征图进行特征还原，得到特征深度依次减少的多个深层特征图；对具有相同特征深度的浅层特征图和深层特征图进行拼接处理和特征还原处理，得到所述局部特征图的分割语义特征；根据所述分割语义特征预测所述实体对象的顶部轮廓。

在本申请的一些实施例中，基于以上技术方案，所述偏移信息包括偏移角度和偏移量；所述构建模块进一步被配置为：获取所述场景图像的比例尺；根据所述偏移角度、所述偏移量以及所述比例尺计算所述实体对象的真实高度；根据所述真实高度在竖直方向上拉伸所述顶部轮廓，生成与所述实体对象相对应的虚拟对象。

在本申请的一些实施例中，基于以上技术方案，所述构建模块进一步被配置为：按照所述偏移角度和所述偏移量移动所述顶部轮廓，得到所述实体对象的顶部轮廓在底部区域的分布位置；按照所述分布位置摆放各个所述虚拟对象，得到与所述现实场景相对应的虚拟场景。

根据本申请实施例的一个方面，提供一种计算机可读介质，其上存储有计算机程序，该计算机程序被处理器执行时实现如以上技术方案中的虚拟场景的构建方法。

根据本申请实施例的一个方面，提供一种电子设备，该电子设备包括：处理器；以及存储器，用于存储所述处理器的可执行指令；其中，所述处理器被配置为执行所述可执行指令来实现如以上技术方案中的虚拟场景的构建方法。

根据本申请实施例的一个方面，提供一种计算机程序产品，包括计算机程序，所述计算机程序被处理器执行时实现如以上技术方案中的虚拟场景的构建方法。

在本申请实施例提供的技术方案中，通过获取由预设的图像采集位点对现实场景进行图像采集得到的场景图像，可以对场景图像进行特征提取，得到场景图像的视觉特征图，并从视觉特征图中裁剪得到对应于各个实体对象的局部特征图；然后根据局部特征图预测实体对象的顶部轮廓以及顶部轮廓相对于实体对象的底部区域的偏移信息；进一步根据顶部轮廓和偏移信息生成与实体对象相对应的虚拟对象，并根据虚拟对象构建与现实场景相对应的虚拟场景。本申请实施例利用在场景图像中的实体对象的顶部区域与底部区域的投影关系，结合场景图像的视觉特征，预测实体对象在投影关系下呈现的偏移信息，从而根据偏移信息构建与现实场景相对应的虚拟场景。本申请实施例能够简化虚拟对象的生成方法，节约计算成本，提高虚拟场景的构建效率。

应当理解的是，以上的一般描述和后文的细节描述仅是示例性和解释性的，并不能限制本申请。

附图说明

此处的附图被并入说明书中并构成本说明书的一部分，示出了符合本申请的实施例，并与说明书一起用于解释本申请的原理。显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1示出了应用本申请技术方案的系统架构框图。

图2示出了本申请一个实施例中的虚拟场景的构建方法的流程图。

图3示出了本申请一个实施例中从视觉特征图裁剪得到局部特征图的方法流程图。

图4示出了本申请实施例在一个应用场景中使用的场景构建模型的结构示意图。

图5示出了本申请一个实施例中对一张二维卫星图片进行轮廓标注得到的样本图像。

图6示出了卫星影像在透视投影和平行投影下的原理对比示意图。

图7示意性示出了本申请实施例提供的虚拟场景的构建装置的结构框图。

图8示意性示出了适于用来实现本申请实施例的电子设备的计算机系统结构框图。

具体实施方式

现在将参考附图更全面地描述示例实施方式。然而，示例实施方式能够以多种形式实施，且不应被理解为限于在此阐述的范例；相反，提供这些实施方式使得本申请将更加全面和完整，并将示例实施方式的构思全面地传达给本领域的技术人员。

此外，所描述的特征、结构或特性可以以任何合适的方式结合在一个或更多实施例中。在下面的描述中，提供许多具体细节从而给出对本申请的实施例的充分理解。然而，本领域技术人员将意识到，可以实践本申请的技术方案而没有特定细节中的一个或更多，或者可以采用其它的方法、组元、装置、步骤等。在其它情况下，不详细示出或描述公知方法、装置、实现或者操作以避免模糊本申请的各方面。

附图中所示的方框图仅仅是功能实体，不一定必须与物理上独立的实体相对应。即，可以采用软件形式来实现这些功能实体，或在一个或多个硬件模块或集成电路中实现这些功能实体，或在不同网络和/或处理器装置和/或微控制器装置中实现这些功能实体。

附图中所示的流程图仅是示例性说明，不是必须包括所有的内容和操作/步骤，也不是必须按所描述的顺序执行。例如，有的操作/步骤还可以分解，而有的操作/步骤可以合并或部分合并，因此实际执行的顺序有可能根据实际情况改变。

在本申请的具体实施方式中，涉及到利用用户终端采集的位置、图像等相关数据，当本申请的各个实施例运用到具体产品或技术中时，需要获得用户许可或者同意，且相关数据的收集、使用和处理需要遵守相关国家和地区的相关法律法规和标准。

图1示出了应用本申请技术方案的系统架构框图。

如图1所示，应用本申请技术方案的系统架构可以包括终端设备110和服务器130。终端设备110可以包括智能手机、平板电脑、笔记本电脑、台式电脑、智能音箱、智能穿戴设备、智能车载设备、智能支付终端等各种电子设备。服务器130可以是独立的物理服务器，也可以是多个物理服务器构成的服务器集群或者分布式系统，还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、CDN、以及大数据和人工智能平台等基础云计算服务的云服务器。在终端设备110和服务器130之间可以包括用于提供通信链路的各种连接类型的通信介质，例如可以是有线通信链路或者无线通信链路。

场景构建模型120是用于执行虚拟场景构建任务的机器学习模型。

在本申请实施例的一个应用场景中，可以预先将场景构建模型120部署在服务器130上，由服务器130对场景构建模型120进行训练。在模型训练的过程中，可以根据场景构建模型120对于训练样本的构建结果确定损失误差，然后根据损失误差迭代更新场景构建模型120的模型参数。通过不断训练可以逐渐降低模型的损失误差，提高模型的计算精度。

当场景构建模型120训练完成后，可以向终端设备110提供虚拟场景构建服务。举例而言，终端设备110可以将现实场景中拍摄得到的场景图像上传至服务器130，由服务器130上部署的场景构建模型120对场景图像进行处理后输出与该场景图像对应的虚拟场景构建结果，进一步由服务器130将虚拟场景构建结果返回给终端设备110，由终端设备110将虚拟场景构建结果呈现给用户或者根据虚拟场景构建结果实现其他的场景需求。

在其他一些应用场景中，也可以将训练完成的场景构建模型120直接部署至终端设备110上，使得终端设备110能够在本地运行场景构建模型。当需要进行虚拟场景构建时，可以由终端设备110将现实场景中拍摄得到的场景图像输入至训练完成的场景构建模型120中，由场景构建模型120对场景图像进行图像处理后输出相应的虚拟场景构建结果。

本申请实施例提供的场景构建模型可以应用于多种不同的线上业务场景，具体可以包括云技术、人工智能、智慧交通、辅助驾驶等各种场景。例如，在游戏场景制作中，建模师需要制作大量的城市建筑，此时可以用该工具根据卫星影像自动的提取和生成多种建筑粗模，从而加速建模过程；又如在智慧城市项目中，可以使用本发明快速的还原城市布局，从而帮助城市规划、交通管理和数字仿真。

以建筑物的三维模型构建为例，可以从卫星影像中提取建筑物的轮廓信息和高度信息，从而依据建筑物的轮廓和高度构建相应的三维虚拟模型。建筑轮廓（footprint）代表了建筑物在地面上的水平投影，建筑物轮廓通常以2D多边形的形式表示，勾勒出建筑物的底面边界。

在本申请的一个相关技术中，可以采用基于神经网络的逐像素预测方案。在该方案中，首先准备卫星影像，相应的建筑轮廓二值化语义分割图，以及建筑高程图作为训练数据；然后，神经网络模型训练一个多任务逐像素预测模型，该模型利用准备好的训练数据对，显示地监督模型输出与原图大小相同的建筑轮廓分割图和建筑高程图；当模型收敛后，给定任意的卫星影像作为输入，模型即可预测出建筑轮廓分割图和高程图。在模型预测完成后，还需要对结果做进一步的连通域识别，提取出分割图中的单个轮廓，并将高程图中相应区域的高度取平均赋予当前轮廓，完成整个流程。

然而，基于逐像素预测的方法在建筑轮廓和建筑高度的准确性上都存在着明显的缺点。

在建筑轮廓的识别方面，由于卫星图的拍摄可能是倾斜视角，建筑主体立面也将沿倾斜方向投影在图像中，由于建筑主体对建筑轮廓的遮挡，模型在预测时不可避免地将建筑主体误分割为建筑轮廓，造成精度的下降。另一方面，逐像素的分割预测并不能直接输出具体每个建筑的实例信息，依赖于连通域识别的后处理，而建筑主体的倾斜可能会造成建筑之间的粘连，导致最终无法将粘连的建筑区分开。另外，倾斜遮挡以及粘连的问题同样存在于对建筑高度的预测中；特别地，由于建筑在图像中的倾斜，在准备模型训练数据时，获得准确的倾斜主体部分的逐像素高程信息变得非常困难；另外在预测的过程中，对于倾斜建筑此时实际高度不再是建筑分割区域的平均高度，而应当是建筑房顶部分像素的平均高度，而房顶区域是难以提取的；以上种种原因导致最终的高度估计精度也会严重下降。

在本申请的另一相关技术中，可以采用基于地心位姿（Geocentric Pose）的方法提取建筑物的轮廓信息和高度信息。地心位姿指的是物体相对于地球重心的偏转量，是一个带有长度的方向向量，该向量指向地心。该方法将卫星成像的透视投影模型近似为平行投影模型，根据平行投影模型来对问题进行简化，从而能够从单目影像中高精度地估计出建筑的高度。具体地，对于输入图像中的每一个像素点，首先逐像素的估计它的地心位姿向量，该向量可以用一个偏转量和一个偏转角表示；由于将成像模型近似为平行投影模型，所以图片中每一个点的偏转角是相同的，利用该先验，模型只需要预测每个点的偏转量和整张图的偏转角即可。在完成预测后，可以将图中的每一个像素根据偏转量和偏转角作矫正，此时倾斜的建筑立面被矫正到了轮廓部分，因此解决了倾斜卫星图中遮挡的问题。

该方法在解决倾斜卫星的问题上相比于方案一有明显的优势，但仍有以下缺点：该方法要求基于真实卫星估计的逐像素高程数据，获取成本大；逐像素的偏转量预测容易受到图片质量或者遮挡物的干扰，导致最终的结果鲁棒性差、噪声大，同时效率也低。

针对以上相关技术中存在的问题，本申请实施例提供一种无需依赖真实高度数据的虚拟场景构建方法，当应用于建筑物的模型构建时，能够克服建筑物轮廓受到自身遮挡的问题，也无需进行逐像素的高程数据计算。

下面结合具体实施方式对本申请提供的虚拟场景的构建方法、虚拟场景的构建装置、计算机可读介质、电子设备以及计算机程序产品等技术方案做出详细说明。

图2示出了本申请一个实施例中的虚拟场景的构建方法的流程图，该方法可以由图1所示的终端设备或者服务器单独执行，也可以由终端设备和服务器共同执行，本申请实施例以终端设备执行的虚拟场景的构建方法作为示例进行说明。如图2所示，该虚拟场景的构建方法可以包括如下的步骤S210至S240。

S210：获取由预设的图像采集位点对现实场景进行图像采集得到的场景图像，现实场景包括一个或多个实体对象，图像采集点位于实体对象的上方。

S220：对场景图像进行特征提取，得到场景图像的视觉特征图，并从视觉特征图中裁剪得到对应于各个实体对象的局部特征图。

S230：根据局部特征图预测实体对象的顶部轮廓以及顶部轮廓相对于实体对象的底部区域的偏移信息。

S240：根据顶部轮廓和偏移信息生成与实体对象相对应的虚拟对象，并根据虚拟对象构建与现实场景相对应的虚拟场景。

本申请实施例利用在场景图像中的实体对象的顶部区域与底部区域的投影关系，结合场景图像的视觉特征，预测实体对象在投影关系下呈现的偏移信息，从而根据偏移信息构建与现实场景相对应的虚拟场景。由于使用实体对象的顶部轮廓代替容易被遮挡的底部轮廓，本申请实施例能够简化虚拟对象的生成方法，节约计算成本，提高虚拟场景的构建效率。

以下结合具体应用场景对本申请实施例中虚拟场景的构建方法的各个方法步骤做出详细说明。

在步骤S210中，获取由预设的图像采集位点对现实场景进行图像采集得到的场景图像，现实场景包括一个或多个实体对象，图像采集点位于实体对象的上方。

为了能够真实模拟现实场景中实体对象的外观和尺寸，本申请实施例采用预设的图像采集位点对现实场景进行图像采集得到场景图像，该预设的采集位点可以是固定位点，也可以是移动位点。

通过将图像采集点位于实体对象的上方，并控制图像采集点与实体对象的位置距离大于实体对象的轮廓尺寸，可以确保场景图像能够完整地记录图像内实体对象的轮廓和外观。当图像采集点与实体对象的位置距离远大于实体对象的轮廓尺寸时，能够将采集得到的场景图像近似视为实体对象的平行投影图像。

以建筑物的图像采集为例，场景图像可以是由卫星拍摄并传输的地球表面的卫星图或卫星影像，用于采集图像的卫星即为预设的图像采集位点。从卫星图中可以清楚地看到一个城市中的建筑、道路、地表的分布和外观。本申请实施例中所使用到的卫星图默认为高分辨率（0.5米及更小）卫星影像，便于从图中识别单个建筑的外观。

在一些可选的实施方式中，图像采集位点也可以是在实体对象上方移动的航拍飞机或者无人机。

在步骤S220中，对场景图像进行特征提取，得到场景图像的视觉特征图，并从视觉特征图中裁剪得到对应于各个实体对象的局部特征图。

在本申请的一个实施例中，提取视觉特征图的方法可以包括：将场景图像输入预先训练的卷积神经网络模型，在卷积神经网络模型中对场景图像进行卷积处理，得到由场景图像中的各个图像位点的视觉特征组成的视觉特征图。

图3示出了本申请一个实施例中从视觉特征图裁剪得到局部特征图的方法流程图。如图3所示，从视觉特征图中裁剪得到对应于各个实体对象的局部特征图的方法可以包括如下的步骤S310至S340。

S310：获取视觉特征图中各个图像位点的视觉特征以及与视觉特征相对应的位置特征。

本申请实施例首先可以对视觉特征图进行图块化处理，获取在多个图像位点处的图像内容的视觉特征，同时获取每个图像位点的位置特征。

S320：对视觉特征和位置特征进行编码处理，得到特征融合后的编码特征。

在本申请的一个实施例中，对视觉特征和位置特征进行编码处理，得到特征融合后的编码特征的方法可以包括：将视觉特征与位置特征的融合特征作为查询向量和索引向量输入预先训练的自注意力模块；将视觉特征作为值向量输入自注意力模块；在自注意力模块中对查询向量、索引向量和值向量进行编码处理，得到特征融合后的编码特征。

自注意力模块是基于注意力机制进行数据处理的网络模型，可以用来自动学习和计算输入数据对输出数据的贡献大小，从而形成相应的网络权重。

在注意力机制中，查询向量Query用于获取与其他向量的相关性，表示关注的目标或需要进行比较的向量。

索引向量Key用于计算查询向量Query和值向量Value之间的相似性，索引向量Key用于衡量查询向量Query与其他向量之间的关联程度。

值向量Value包含了需要根据查询向量Query进行加权聚合的信息，值向量Value表示希望根据查询向量Query的重要性来加权聚合的向量。

视觉特征与位置特征的融合特征可以是将二者相加得到的特征，或者也可以采用加权求和或者向量拼接等方式对二者进行特征融合。

S330：根据多个包围盒对编码特征进行解码处理，得到各个包围盒的位置分布信息，位置分布信息用于表示包围盒在视觉特征图中的分布位置以及被包围盒所包围的图像区域的尺寸。

包围盒是具有规则几何形状的闭合空间，例如可以是在二维平面上由矩形边框围成的空间，基于对视觉图像特征的编解码处理，可以不断地调整包围盒的位置和尺寸，使得一个包围盒能够完整的包围场景图像中的一个实体对象。多个包围盒之间可以相互分离，也可以存在部分重叠，具体的位置分布信息取决于图像中实体对象的分布情况。

在本申请的一个实施例中，根据多个包围盒对编码特征进行解码处理的方法可以包括：初始化对应于多个包围盒的多个查询单词，查询单词用于表示包围盒的初始位置分布信息；对查询单词、位置特征以及编码特征进行解码处理，得到包围盒的目标位置分布信息。

本申请实施例通过初始化查询单词的方式，表征包围盒的初始位置分布信息，然后利用查询单词对位置特征以及编码特征进行解码处理，解码过程中不断优化调整多个包围盒的分布情况，从而得到目标位置分布信息。

在本申请的一个实施例中，对查询单词、位置特征以及编码特征进行解码处理的方法可以包括：根据编码特征和查询单词调整多个包围盒的位置分布关系，得到用于表示多个包围盒的全局位置分布信息的中间特征；根据编码特征、位置特征、查询单词以及中间特征调整各个包围盒与视觉特征的位置分布关系，得到包围盒的目标位置分布信息。

本申请实施例首先利用编码特征和查询单词调整多个包围盒的位置分布关系，使得多个包围盒能够大致覆盖编码特征的位置，从而得到表示多个包围盒的全局位置分布信息的中间特征，避免了多个包围盒分布聚集而出现位置冲突的问题。然后再利用编码特征、位置特征、查询单词以及中间特征调整各个包围盒与视觉特征的位置分布关系，使得编码特征能够被包围盒精确覆盖包围，获得准确的目标位置分布信息。这种分段式的位置调整方案，通过强化两个阶段的不同关注点，在提高位置调整精度的同时，能够提高位置调整的效率。

在本申请的一个实施例中，根据编码特征和查询单词调整多个包围盒的位置分布关系，得到用于表示多个包围盒的全局位置分布信息的中间特征，可以进一步包括：将查询单词作为查询向量和索引向量输入预先训练的自注意力模块；将编码特征作为值向量输入自注意力模块；在自注意力模块中对查询向量、索引向量和值向量进行解码处理，得到用于表示多个包围盒的全局位置分布信息的中间特征。

本申请实施例利用自注意力机制控制位置调整过程中重点关注多个包围盒自身的位置分布关系，实现对包围盒的全局分布位置调整。

在本申请的一个实施例中，根据编码特征、位置特征、查询单词以及中间特征调整各个包围盒与视觉特征的位置分布关系，得到包围盒的目标位置分布信息，可以进一步包括：将中间特征与查询单词的融合特征作为查询向量输入预先训练的交叉注意力模块；将编码特征与位置特征的融合特征作为索引向量输入交叉注意力模块；将编码特征作为值向量输入交叉注意力模块；在交叉注意力模块中对查询向量、索引向量和值向量进行解码处理，得到包围盒的目标位置分布信息。

本申请实施例利用交叉注意力机制控制位置调整过程中重点关注包围盒与视觉特征之间的位置分布关系，实现对每个包围盒的精确位置调整。

在本申请的一个实施例中，在根据多个包围盒对编码特征进行解码处理之前，还可以预先确定包围盒的数量。确定包围盒的数量的方法可以包括：对场景图像进行内容识别，得到实体对象在场景图像中的分布区域；根据分布区域的尺寸信息以及场景图像的尺寸信息预测现实场景中分布的实体对象的数量；根据现实场景中分布的实体对象的数量确定用于裁剪视觉特征图的包围盒的数量，包围盒的数量大于现实场景中分布的实体对象的数量。

如果包围盒的数量太少，无法覆盖全部的实体对象，会导致实体对象遗漏的问题。而如果包围盒的数量太多，则会在特征解码过程中引入过多的冗余特征和干扰信息，导致解码效率低的问题。本申请实施例通过预测包围盒的数量，可以将用于检测实体对象的包围盒的数量控制在一个合适的数量范围，节约计算成本的同时，提高特征的解码效率。

S340：在视觉特征图中对包围盒包围的视觉特征进行特征聚合处理，得到对应于各个实体对象的局部特征图。

在本申请的一个实施例中，在视觉特征图中对包围盒包围的视觉特征进行特征聚合处理的方法可以包括：将包围盒映射至视觉特征图，得到被包围盒所包围的局部区域；按照将局部区域划分为多个具有相同尺寸的区域网格；在每个区域网格内选取均匀分布的多个采样点，对每个采样点周围的图像位点的特征值进行双线性插值处理，得到采样点的特征值；根据多个采样点的特征值确定区域网格的特征值，并根据看多个区域网格的特征值确定对应于包围盒的实体对象的局部特征图。

由于场景图像中的各个实体对象在尺寸上存在一定差异，导致各个包围盒的大小并不相同，因此各个局部区域也将具有不同的区域尺寸。针对每个局部区域，如果采用卷积处理或者池化处理等方式进行特征聚合，将会因为区域大小的差异而导致特征精度不同的问题。针对该问题，本申请实施例采用分区域采样和双线性插值的方式进行特征聚合，能够最大程度地保留视觉特征图中的原始特征，同时也能够将不同尺寸的局部区域的视觉特征聚合形成具有相同尺寸的局部特征图。

在步骤S230中，根据局部特征图预测实体对象的顶部轮廓以及顶部轮廓相对于实体对象的底部区域的偏移信息。

在本申请的一个实施例中，根据局部特征图预测实体对象的顶部轮廓的方法可以包括：对局部特征图进行特征提取，得到特征深度依次增加的多个浅层特征图；对浅层特征图进行特征还原，得到特征深度依次减少的多个深层特征图；对具有相同特征深度的浅层特征图和深层特征图进行拼接处理和特征还原处理，得到局部特征图的分割语义特征；根据分割语义特征预测实体对象的顶部轮廓。

举例而言，本申请实施例首先对局部特征图进行特征提取得到第一浅层特征图S1，然后对第一浅层特征图S1进行特征提取得到特征深度增加的第二浅层特征S2，在继续对第二浅层特征S2进行特征提取后得到特征深度进一步增加的第三浅层特征S3。

在进行特征还原时，首先对第三浅层特征S3进行解码处理，得到与之对应的第三深层特征T3；然后对第三深层特征T3进一步进行解码处理，得到特征深度减少的第二深层特征T2；将第二深层特征T2与具有相同特征深度的第二浅层特征S2进行拼接处理后，对其进行特征还原处理，可以得到特征深度进一步减少的第一深层特征T1；继续将第一深层特征T1与第一浅层特征图S1进行拼接处理后，对其进行特征还原处理，可以得到局部特征图的分割语义特征。最后，再利用分割语义特征预测实体对象的顶部轮廓。

本申请实施例采用浅层特征与深层特征进行拼接处理的方式，能够在挖掘深层特征的同时保留浅层特征对特征还原过程的引导作用，提高视觉特征的语义分割精度，进而提高实体对象的顶部轮廓的预测精度。

在步骤S240中，根据顶部轮廓和偏移信息生成与实体对象相对应的虚拟对象，并根据虚拟对象构建与现实场景相对应的虚拟场景。

在本申请的一个实施例中，偏移信息包括偏移角度和偏移量；根据顶部轮廓和偏移信息生成与实体对象相对应的虚拟对象的方法可以包括：获取场景图像的比例尺；根据偏移角度、偏移量以及比例尺计算实体对象的真实高度；根据真实高度在竖直方向上拉伸顶部轮廓，生成与实体对象相对应的虚拟对象。

本申请实施例利用平行投影的角度关系和位置关系，结合场景图像的比例尺，可以简单快捷地计算出实体对象的真实高度，进而采用拉伸建模的方式生成虚拟对象。

在本申请的一个实施例中，根据虚拟对象构建与现实场景相对应的虚拟场景的方法可以包括：按照偏移角度和偏移量移动顶部轮廓，得到实体对象的顶部轮廓在底部区域的分布位置；按照分布位置摆放各个虚拟对象，得到与现实场景相对应的虚拟场景。

以建筑物的模型构建为例，结合平面的建筑轮廓和建筑高度，在竖直方向上拉伸形成三维模型，得到建筑粗模。将多个建筑粗模按照现实的地理位置摆放，可以还原出现实城市的初始形状。

下面以城市还原的应用场景作为示例，针对本申请实施例在该应用场景中的具体实现方式做出详细说明。该应用场景涉及一种从卫星图像中提取建筑轮廓以及建筑高度，从而生成建筑粗模，还原城市的大致形状的方法。

图4示出了本申请实施例在一个应用场景中使用的场景构建模型的结构示意图。如图4所示，该场景构建模型可以包括特征提取器401、建筑检测器402和轮廓预测器403。

场景构建模型的输入数据是二维卫星影像，该影像会先经过特征提取器401提取相应的视觉特征；接着视觉特征被输入到建筑检测器402中，建筑检测器402将输出多个包围盒，各自对应单一建筑的图像块；然后，在轮廓预测器403中，使用各包围盒的坐标与特征提取器401提取的视觉特征进行目标区域对齐和特征聚合操作，从而提取包围盒的视觉特征；基于各包围盒的视觉特征，使用语义分割网络分割出建筑的顶部轮廓，以及使用全连接网络和线性预测头预测顶部轮廓相对于底部轮廓的偏转角和偏移量；最终，结合各任务的预测结果，输出建筑的底部轮廓和相对高度。

训练场景构建模型的样本数据可以是基于二维卫星图片进行轮廓标注得到的样本图像。已有的技术方案大多依赖于真实的高程数据，然而，真实数据的获取成本高，数量少。本申请实施例提出的标注方法只依赖于输入的二维卫星图片，简单高效。

图5示出了本申请一个实施例中对一张二维卫星图片进行轮廓标注得到的样本图像，图像中标注出了建筑的顶部轮廓和底部轮廓。可以看到，在倾斜拍摄的卫星图中，建筑的顶部是完整可见的，而建筑的底部是不完整的。

在现实中建筑基本是直上直下型的，所以二者在真实形状上是相似的。另外，如图6所示，卫星影像原始的成像模型为透视投影，但由于成像距离非常远，在局部近地区域可以近似为平行投影；所以在影像中顶部轮廓和底部轮廓的大小也是一样的，不会受到近大远小的透视投影的影响。结合以上两点，本申请实施例使用建筑的顶部轮廓代替底部轮廓。对于建筑的高度，根据图5中顶部轮廓与底部轮廓的相应位点的连线和图6所示的平行投影关系，可以计算得到的建筑高度为h=d sinθ·s，其中d为建筑顶部轮廓和底部轮廓在图像中的距离，θ为成像偏转角，s为影像和真实物理尺寸的比例尺，为一个固定值。可以看到，建筑的真实高度与d成正比。因此在进行样本标注时，本申请实施例只需要针对每个建筑：（1）标注它的包围盒；（2）标注它的顶部轮廓；（3）将顶部轮廓平移至底部区域（只需要找到底部的一个对应点即可），平移的距离即为d，平移的方向即为θ。固定比例尺参数s可以通过查询给定影像中某栋建筑的真实高度，换算得到。

特征提取器401主要负责从输入的卫星图片中提取视觉特征，常用的特征提取器如ResNet、VGG16等都能满足使用需求，本申请实施例可以使用ResNet50网络，在此不再赘述。

建筑检测器402主要负责从提取的视觉特征中检测出单个建筑的包围盒。具体地，本申请实施例采用了基于注意力机制的编码器和解码器结构，首先将输入的视觉特征图块化，并添加位置编码；然后将编码后结果送入作为编码器使用的自注意力模块，使各个图块特征充分交互；接着，初始化若干个查询单词（query token），将查询单词与编码后的图块特征一起送入作为解码器使用的交叉注意力模块；最终，每个单词被解码成一个包围盒或者空集，代表着单个建筑或者没有建筑。在这一步的训练中，本申请实施例主要使用样本图像中标注的针对单个建筑的包围盒结果来监督建筑检测器402的训练。

轮廓预测器403首先利用建筑检测器402提取的建筑包围盒信息，使用以上实施例中提供的目标区域对齐和特征聚合的方法裁切出相应的视觉特征。接着，使用一个语义分割网络从视觉特征中解析出建筑的顶部轮廓；平行地，使用一个多任务回归网络，包括一个多层感知机对视觉特征进行进一步的压缩编码，然后将编码结果送入两个全连接层中，分别预测该建筑顶部和底部轮廓的相对偏移量d和偏移角θ，则预测的建筑高度为：h=d sinθ·s。为了获得最终的底部轮廓，首先提取出预测的顶部轮廓的边缘，然后使用Ramer-Douglas-Peucker(RDP)算法对预测的顶部轮廓简化，得到一个简单多边形；然后将该多边形在影像中整体的平移(dcosθ，dsinθ)即可。在这一步的训练中，本申请实施例主要使用样本图像中标注的顶部轮廓来监督分割网络的学习，以及使用样本图像中标注的d和θ来监督回归网络的训练。

基于以上应用场景的介绍可知，本申请实施例可以做到，对于任意一个高清卫星图像，识别出图像中所有的建筑轮廓以及建筑高度。使用识别出的结果，用户可以重建出图像中的建筑粗模，还原出该区域的建筑布局。典型的应用场景包括游戏制作中的建筑还原，城市规划中的建筑分析，自动驾驶中的仿真模拟等。

本申请实施例提出了一种既能提取出给定卫星图内所有建筑实例级别的轮廓信息，又能高准确度的估计出各实例建筑高度的方法；同时，本申请实施例还给出了一种数据标注的方法，免去了现有方案对真实高程数据的依赖，极大的提升了算法的适用性。本申请实施例所提出的方法流程简单，对计算的需求低；另一方面，所用到的算法鲁棒性高，性能优越，且二次开发成本低，能很好的接入下游的可视化应用，大大降低了开发成本以及部署成本；最后，该方法在开发完成后，自动化程度高，极大提升了用户体验。

本申请实施例所提出的算法模块具有良好的泛用性，能够适配多种卫星影像拍摄条件。同时，本发明在实现时不依赖于真实的建筑高程数据，只需要卫星的RGB图片即可进行数据的准备和标注；另外，完成数据准备后，本申请实施例各模块的训练是端到端的，不需要考虑各模块的适配问题；所以总的来说，本方案有着成本低和实现简单的优点。

应当注意，尽管在附图中以特定顺序描述了本申请中方法的各个步骤，但是，这并非要求或者暗示必须按照该特定顺序来执行这些步骤，或是必须执行全部所示的步骤才能实现期望的结果。附加的或备选的，可以省略某些步骤，将多个步骤合并为一个步骤执行，以及/或者将一个步骤分解为多个步骤执行等。

以下介绍本申请的装置实施例，可以用于执行本申请上述实施例中的虚拟场景的构建方法。图7示意性地示出了本申请实施例提供的虚拟场景的构建装置的结构框图。如图7所示，虚拟场景的构建装置700包括：

获取模块710，被配置为获取由预设的图像采集位点对现实场景进行图像采集得到的场景图像，所述现实场景包括一个或多个实体对象，所述图像采集点位于所述实体对象的上方，所述图像采集点与所述实体对象的位置距离大于所述实体对象的轮廓尺寸；

裁剪模块720，被配置为对所述场景图像进行特征提取，得到所述场景图像的视觉特征图，并从所述视觉特征图中裁剪得到对应于各个所述实体对象的局部特征图；

预测模块730，被配置为根据所述局部特征图预测所述实体对象的顶部轮廓以及所述顶部轮廓相对于所述实体对象的底部区域的偏移信息；

构建模块740，被配置为根据所述顶部轮廓和所述偏移信息生成与所述实体对象相对应的虚拟对象，并根据所述虚拟对象构建与所述现实场景相对应的虚拟场景。

在本申请的一些实施例中，基于以上技术方案，所述裁剪模块720进一步包括：

在本申请的一些实施例中，基于以上技术方案，所述预测模块730进一步被配置为：对所述局部特征图进行特征提取，得到特征深度依次增加的多个浅层特征图；对所述浅层特征图进行特征还原，得到特征深度依次减少的多个深层特征图；对具有相同特征深度的浅层特征图和深层特征图进行拼接处理和特征还原处理，得到所述局部特征图的分割语义特征；根据所述分割语义特征预测所述实体对象的顶部轮廓。

在本申请的一些实施例中，基于以上技术方案，所述偏移信息包括偏移角度和偏移量；所述构建模块740进一步被配置为：获取所述场景图像的比例尺；根据所述偏移角度、所述偏移量以及所述比例尺计算所述实体对象的真实高度；根据所述真实高度在竖直方向上拉伸所述顶部轮廓，生成与所述实体对象相对应的虚拟对象。

在本申请的一些实施例中，基于以上技术方案，所述构建模块740进一步被配置为：按照所述偏移角度和所述偏移量移动所述顶部轮廓，得到所述实体对象的顶部轮廓在底部区域的分布位置；按照所述分布位置摆放各个所述虚拟对象，得到与所述现实场景相对应的虚拟场景。

本申请各实施例中提供的虚拟场景的构建装置的具体细节已经在对应的方法实施例中进行了详细的描述，此处不再赘述。

图8示意性地示出了用于实现本申请实施例的电子设备的计算机系统结构框图。

需要说明的是，图8示出的电子设备的计算机系统800仅是一个示例，不应对本申请实施例的功能和使用范围带来任何限制。

如图8所示，计算机系统800包括中央处理器801（Central Processing Unit，CPU），其可以根据存储在只读存储器802（Read-Only Memory，ROM）中的程序或者从存储部分808加载到随机访问存储器803（Random Access Memory，RAM）中的程序而执行各种适当的动作和处理。在随机访问存储器803中，还存储有系统操作所需的各种程序和数据。中央处理器801、在只读存储器802以及随机访问存储器803通过总线804彼此相连。输入/输出接口805（Input /Output接口，即I/O接口）也连接至总线804。

以下部件连接至输入/输出接口805：包括键盘、鼠标等的输入部分806；包括诸如阴极射线管（Cathode Ray Tube，CRT）、液晶显示器（Liquid Crystal Display，LCD）等以及扬声器等的输出部分807；包括硬盘等的存储部分808；以及包括诸如局域网卡、调制解调器等的网络接口卡的通信部分809。通信部分809经由诸如因特网的网络执行通信处理。驱动器810也根据需要连接至输入/输出接口805。可拆卸介质811，诸如磁盘、光盘、磁光盘、半导体存储器等等，根据需要安装在驱动器810上，以便于从其上读出的计算机程序根据需要被安装入存储部分808。

特别地，根据本申请的实施例，各个方法流程图中所描述的过程可以被实现为计算机软件程序。例如，本申请的实施例包括一种计算机程序产品，其包括承载在计算机可读介质上的计算机程序，该计算机程序包含用于执行流程图所示的方法的程序代码。在这样的实施例中，该计算机程序可以通过通信部分809从网络上被下载和安装，和/或从可拆卸介质811被安装。在该计算机程序被中央处理器801执行时，执行本申请的系统中限定的各种功能。

需要说明的是，本申请实施例所示的计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质或者是上述两者的任意组合。计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的系统、装置或器件，或者任意以上的组合。计算机可读存储介质的更具体的例子可以包括但不限于：具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机访问存储器（RAM）、只读存储器（ROM）、可擦式可编程只读存储器（Erasable Programmable Read Only Memory，EPROM）、闪存、光纤、便携式紧凑磁盘只读存储器（Compact Disc Read-Only Memory，CD-ROM）、光存储器件、磁存储器件、或者上述的任意合适的组合。在本申请中，计算机可读存储介质可以是任何包含或存储程序的有形介质，该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。而在本申请中，计算机可读信号介质可以包括在基带中或者作为载波一部分传播的数据信号，其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式，包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读信号介质还可以是计算机可读存储介质以外的任何计算机可读介质，该计算机可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。计算机可读介质上包含的程序代码可以用任何适当的介质传输，包括但不限于：无线、有线等等，或者上述的任意合适的组合。

附图中的流程图和框图，图示了按照本申请各种实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上，流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分，上述模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意，在有些作为替换的实现中，方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如，两个接连地表示的方框实际上可以基本并行地执行，它们有时也可以按相反的顺序执行，这依所涉及的功能而定。也要注意的是，框图或流程图中的每个方框、以及框图或流程图中的方框的组合，可以用执行规定的功能或操作的专用的基于硬件的系统来实现，或者可以用专用硬件与计算机指令的组合来实现。

应当注意，尽管在上文详细描述中提及了用于动作执行的设备的若干模块或者单元，但是这种划分并非强制性的。实际上，根据本申请的实施方式，上文描述的两个或更多模块或者单元的特征和功能可以在一个模块或者单元中具体化。反之，上文描述的一个模块或者单元的特征和功能可以进一步划分为由多个模块或者单元来具体化。

通过以上的实施方式的描述，本领域的技术人员易于理解，这里描述的示例实施方式可以通过软件实现，也可以通过软件结合必要的硬件的方式来实现。因此，根据本申请实施方式的技术方案可以以软件产品的形式体现出来，该软件产品可以存储在一个非易失性存储介质（可以是CD-ROM，U盘，移动硬盘等）中或网络上，包括若干指令以使得一台计算设备（可以是个人计算机、服务器、触控终端、或者网络设备等）执行根据本申请实施方式的方法。

本领域技术人员在考虑说明书及实践这里公开的发明后，将容易想到本申请的其它实施方案。本申请旨在涵盖本申请的任何变型、用途或者适应性变化，这些变型、用途或者适应性变化遵循本申请的一般性原理并包括本申请未公开的本技术领域中的公知常识或惯用技术手段。

应当理解的是，本申请并不局限于上面已经描述并在附图中示出的精确结构，并且可以在不脱离其范围进行各种修改和改变。本申请的范围仅由所附的权利要求来限制。

Claims

1.一种虚拟场景的构建方法，其特征在于，包括：

2.根据权利要求1所述的虚拟场景的构建方法，其特征在于，从所述视觉特征图中裁剪得到对应于各个所述实体对象的局部特征图，包括：

获取所述视觉特征图中各个图像位点的视觉特征以及与所述视觉特征相对应的位置特征；

对所述视觉特征和所述位置特征进行编码处理，得到特征融合后的编码特征；

根据多个包围盒对所述编码特征进行解码处理，得到各个所述包围盒的位置分布信息，所述位置分布信息用于表示所述包围盒在所述视觉特征图中的分布位置以及被所述包围盒所包围的图像区域的尺寸；

在所述视觉特征图中对所述包围盒包围的视觉特征进行特征聚合处理，得到对应于各个所述实体对象的局部特征图。

3.根据权利要求2所述的虚拟场景的构建方法，其特征在于，对所述视觉特征和所述位置特征进行编码处理，得到特征融合后的编码特征，包括：

将所述视觉特征与所述位置特征的融合特征作为查询向量和索引向量输入预先训练的自注意力模块；

将所述视觉特征作为值向量输入所述自注意力模块；

在所述自注意力模块中对所述查询向量、所述索引向量和所述值向量进行编码处理，得到特征融合后的编码特征。

4.根据权利要求2所述的虚拟场景的构建方法，其特征在于，根据多个包围盒对所述编码特征进行解码处理，包括：

初始化对应于所述多个包围盒的多个查询单词，所述查询单词用于表示所述包围盒的初始位置分布信息；

对所述查询单词、所述位置特征以及所述编码特征进行解码处理，得到所述包围盒的目标位置分布信息。

5.根据权利要求4所述的虚拟场景的构建方法，其特征在于，对所述查询单词、所述位置特征以及所述编码特征进行解码处理，包括：

根据所述编码特征和所述查询单词调整多个所述包围盒的位置分布关系，得到用于表示多个所述包围盒的全局位置分布信息的中间特征；

根据所述编码特征、所述位置特征、所述查询单词以及所述中间特征调整各个所述包围盒与所述视觉特征的位置分布关系，得到所述包围盒的目标位置分布信息。

6.根据权利要求5所述的虚拟场景的构建方法，其特征在于，根据所述编码特征和所述查询单词调整多个所述包围盒的位置分布关系，得到用于表示多个所述包围盒的全局位置分布信息的中间特征，包括：

将所述查询单词作为查询向量和索引向量输入预先训练的自注意力模块；

将所述编码特征作为值向量输入所述自注意力模块；

在所述自注意力模块中对所述查询向量、所述索引向量和所述值向量进行解码处理，得到用于表示多个所述包围盒的全局位置分布信息的中间特征。

7.根据权利要求5所述的虚拟场景的构建方法，其特征在于，根据所述编码特征、所述位置特征、所述查询单词以及所述中间特征调整各个所述包围盒与所述视觉特征的位置分布关系，得到所述包围盒的目标位置分布信息，包括：

将所述中间特征与所述查询单词的融合特征作为查询向量输入预先训练的交叉注意力模块；

将所述编码特征与所述位置特征的融合特征作为索引向量输入所述交叉注意力模块；

将所述编码特征作为值向量输入所述交叉注意力模块；

在所述交叉注意力模块中对所述查询向量、所述索引向量和所述值向量进行解码处理，得到所述包围盒的目标位置分布信息。

8.根据权利要求2所述的虚拟场景的构建方法，其特征在于，在根据多个包围盒对所述编码特征进行解码处理之前，所述方法还包括：

对所述场景图像进行内容识别，得到所述实体对象在所述场景图像中的分布区域；

根据所述分布区域的尺寸信息以及所述场景图像的尺寸信息预测所述现实场景中分布的实体对象的数量；

根据所述现实场景中分布的实体对象的数量确定用于裁剪所述视觉特征图的包围盒的数量，所述包围盒的数量大于所述现实场景中分布的实体对象的数量。

9.根据权利要求2所述的虚拟场景的构建方法，其特征在于，在所述视觉特征图中对所述包围盒包围的视觉特征进行特征聚合处理，得到对应于各个所述实体对象的局部特征图，包括：

将所述包围盒映射至所述视觉特征图，得到被所述包围盒所包围的局部区域；

按照将所述局部区域划分为多个具有相同尺寸的区域网格；

在每个所述区域网格内选取均匀分布的多个采样点，对每个所述采样点周围的图像位点的特征值进行双线性插值处理，得到所述采样点的特征值；

根据所述多个采样点的特征值确定所述区域网格的特征值，并根据看多个所述区域网格的特征值确定对应于所述包围盒的实体对象的局部特征图。

10.根据权利要求1至9中任意一项所述的虚拟场景的构建方法，其特征在于，根据所述局部特征图预测所述实体对象的顶部轮廓，包括：

对所述局部特征图进行特征提取，得到特征深度依次增加的多个浅层特征图；

对所述浅层特征图进行特征还原，得到特征深度依次减少的多个深层特征图；

对具有相同特征深度的浅层特征图和深层特征图进行拼接处理和特征还原处理，得到所述局部特征图的分割语义特征；

根据所述分割语义特征预测所述实体对象的顶部轮廓。

11.根据权利要求1至9中任意一项所述的虚拟场景的构建方法，其特征在于，所述偏移信息包括偏移角度和偏移量；根据所述顶部轮廓和所述偏移信息生成与所述实体对象相对应的虚拟对象，包括：

获取所述场景图像的比例尺；

根据所述偏移角度、所述偏移量以及所述比例尺计算所述实体对象的真实高度；

根据所述真实高度在竖直方向上拉伸所述顶部轮廓，生成与所述实体对象相对应的虚拟对象。

12.根据权利要求11所述的虚拟场景的构建方法，其特征在于，根据所述虚拟对象构建与所述现实场景相对应的虚拟场景，包括：

按照所述偏移角度和所述偏移量移动所述顶部轮廓，得到所述实体对象的顶部轮廓在底部区域的分布位置；

按照所述分布位置摆放各个所述虚拟对象，得到与所述现实场景相对应的虚拟场景。

13.一种虚拟场景的构建装置，其特征在于，包括：

14.一种计算机可读介质，其特征在于，所述计算机可读介质上存储有计算机程序，所述计算机程序被处理器执行时实现权利要求1至12中任意一项所述的虚拟场景的构建方法。

15.一种电子设备，其特征在于，包括：

处理器；以及

存储器，用于存储所述处理器的可执行指令；

其中，所述处理器配置为执行所述可执行指令以实现如权利要求1至12中任意一项所述的虚拟场景的构建方法。