CN116012626A

CN116012626A - 建筑立面图像的素材匹配方法、装置、设备和存储介质

Info

Publication number: CN116012626A
Application number: CN202310278778.8A
Authority: CN
Inventors: 王碧杉; 尚鸿; 张云东; 郑嘉文; 孙钟前
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2023-03-21
Filing date: 2023-03-21
Publication date: 2023-04-25
Anticipated expiration: 2043-03-21
Also published as: CN116012626B

Abstract

本申请涉及一种建筑立面图像的素材匹配方法、装置、计算机设备、存储介质和计算机程序产品。可应用于人工智能领域、地图领域，所述方法包括：对原始建筑物图像进行透视畸变矫正，得到建筑立面图像；从所述建筑立面图像中提取包含有目标对象的目标图像；分别对所述建筑立面图像和所述目标图像进行特征提取，得到全局图像特征和局部图像特征；将所述全局图像特征和所述局部图像特征进行融合，得到融合特征；基于所述融合特征，在素材库中选取与所述目标对象匹配的模型素材。采用本方法能够提高对建筑立面图像的素材匹配的准确性。

Description

建筑立面图像的素材匹配方法、装置、设备和存储介质

技术领域

本申请涉及计算机技术领域，特别是涉及一种建筑立面图像的素材匹配方法、装置、设备和存储介质。

背景技术

城市还原是指利用获取的城市数据，包括建筑图像、卫星图像等，创建一个在虚拟数字空间的数字孪生体，用3D模型复现城市建筑、道路等细节。在城市还原的应用中，建筑立面图像的素材匹配是一个重要技术，建筑立面素材匹配的目的是从3D素材库中找到与输入的建筑立面图像最相似的3D模型，以用于数字孪生体、建筑设计等应用。

现有的方案中，通常是直接从原始建筑物图像中提取图像特征，进而基于所提取的图像特征直接进行素材匹配的，然而从原始建筑物图像中直接提取图像特征的方式，往往无法充分提取到建筑物的关键特征，从而导致素材匹配的准确性较低。

发明内容

基于此，有必要针对上述技术问题，提供一种能够提升素材匹配准确性的建筑立面图像的素材匹配方法、装置、设备和存储介质。

第一方面，本申请提供了一种建筑立面图像的素材匹配方法。所述方法包括：

对原始建筑物图像进行透视畸变矫正，得到建筑立面图像；

从所述建筑立面图像中提取包含有目标对象的目标图像；

分别对所述建筑立面图像和所述目标图像进行特征提取，得到全局图像特征和局部图像特征；

将所述全局图像特征和所述局部图像特征进行融合，得到融合特征；

基于所述融合特征，在素材库中选取与所述目标对象匹配的模型素材。

第二方面，本申请还提供了一种建筑立面图像的素材匹配装置。所述装置包括：

图像矫正模块，用于对原始建筑物图像进行透视畸变矫正，得到建筑立面图像；

图像提取模块，用于从所述建筑立面图像中提取包含有目标对象的目标图像；

特征提取模块，用于分别对所述建筑立面图像和所述目标图像进行特征提取，得到全局图像特征和局部图像特征；

特征融合模块，用于将所述全局图像特征和所述局部图像特征进行融合，得到融合特征；

素材选取模块，用于基于所述融合特征，在素材库中选取与所述目标对象匹配的模型素材。

在一个实施例中，所述图像矫正模块，还用于：

从原始建筑物图像中截取待矫正对象；

基于所述待矫正对象确定矫正变换矩阵；

根据所述矫正变换矩阵对所述待矫正对象进行透视畸变矫正，得到建筑立面图像。

在一个实施例中，所述图像矫正模块，还用于：

确定所述待矫正对象中目标像素点的原始坐标；

获取所述目标像素点的预设矫正后坐标；

基于所述目标像素点的所述原始坐标和所述预设矫正后坐标，确定矫正变换矩阵。

在一个实施例中，所述特征提取模块，还用于：

通过机器学习模型的编码器对所述建筑立面图像进行特征提取，得到全局图像特征；

通过所述编码器对所述目标图像进行特征提取，得到局部图像特征。

在一个实施例中，所述机器学习模型包括特征融合网络，所述特征融合网络包括全局支路和局部支路；所述特征提取模块，还用于：

通过所述全局支路对所述全局图像特征进行特征处理，得到处理后全局图像特征；

通过所述局部支路对所述局部图像特征进行特征处理，得到处理后局部图像特征；

将所述处理后全局图像特征和所述处理后局部图像特征进行融合处理，得到融合特征。

在一个实施例中，所述全局支路包括第一池化层、第一卷积层和第一全连接层；所述特征提取模块，还用于：

通过所述第一池化层对所述全局图像特征进行下采样处理，得到下采样全局图像特征；

通过所述第一卷积层对所述下采样全局图像特征进行卷积处理，得到高层语义全局图像特征；

通过所述第一全连接层对所述高层语义全局图像特征进行映射处理，得到处理后全局图像特征。

在一个实施例中，所述局部支路包括第二池化层、第二卷积层和第二全连接层；所述特征提取模块，还用于：

通过所述第二池化层对所述局部图像特征进行下采样处理，得到下采样局部图像特征；

通过所述第二卷积层对所述下采样局部图像特征进行卷积处理，得到高层语义局部图像特征；

通过所述第二全连接层对所述高层语义局部图像特征进行映射处理，得到处理后局部图像特征。

在一个实施例中，所述特征融合网络还包括融合全连接层；所述特征融合模块，还用于：

对所述处理后全局图像特征和所述处理后局部图像特征进行拼接，得到拼接特征向量；

通过所述融合全连接层对所述拼接特征向量进行映射，得到融合特征。

在一个实施例中，所述机器学习模型还包括分类网络；所述素材选取模块，还用于：

通过所述分类网络，确定素材库中各素材的素材特征与所述融合特征之间的特征相似度；

基于所述特征相似度确定各所述素材与所述目标对象匹配的匹配概率；

基于所述匹配概率在素材库中选取与所述目标对象匹配的模型素材。

在一个实施例中，所述装置还包括模型训练模块，所述模型训练模块用于：

获取建筑立面图像样本、所述建筑立面图像样本对应的目标图像样本、以及所述目标图像样本的标签信息；

通过初始机器学习模型分别对所述建筑立面图像样本和所述目标图像样本进行特征提取，得到全局样本图像特征和局部样本图像特征；

将所述全局样本图像特征和所述局部样本图像特征进行融合，得到融合样本特征；

基于所述融合样本特征，确定所述素材库中与所述目标图像样本中的样本对象匹配的预测模型素材；

基于所述预测模型素材和所述标签信息确定损失值；

基于所述损失值对所述初始机器学习模型的参数进行调整，直至满足收敛条件时停止训练，得到机器学习模型。

在一个实施例中，所述装置还包括模型还原模块，所述模型还原模块还用于：

获取所述原始建筑物图像对应的初始建筑物模型；

将所述模型素材装配于所述初始建筑物模型上，得到配准建筑物模型；

对所述配准建筑物模型进行细节还原，得到还原建筑物模型。

在一个实施例中，所述模型还原模块，还用于：

获取所述原始建筑物图像中建筑物的位置信息；

基于所述位置信息，将所述还原建筑物模型加载到城市地图上，得到城市还原模型。

第三方面，本申请还提供了一种计算机设备。所述计算机设备包括存储器和处理器，所述存储器存储有计算机程序，所述处理器执行所述计算机程序时实现以下步骤：

对原始建筑物图像进行透视畸变矫正，得到建筑立面图像；

从所述建筑立面图像中提取包含有目标对象的目标图像；

第四方面，本申请还提供了一种计算机可读存储介质。所述计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现以下步骤：

对原始建筑物图像进行透视畸变矫正，得到建筑立面图像；

从所述建筑立面图像中提取包含有目标对象的目标图像；

第五方面，本申请还提供了一种计算机程序产品。所述计算机程序产品，包括计算机程序，该计算机程序被处理器执行时实现以下步骤：

对原始建筑物图像进行透视畸变矫正，得到建筑立面图像；

从所述建筑立面图像中提取包含有目标对象的目标图像；

上述建筑立面图像的素材匹配方法、装置、计算机设备、存储介质和计算机程序产品，通过对原始建筑物图像进行透视畸变矫正，消除透视畸变的影响，得到更加准确的建筑立面图像，从而基于建筑立面图像进行特征提取时可以得到更加准确的特征，进而提高了对建筑立面图像的素材匹配的准确性；此外通过从建筑立面图像中提取包含有目标对象的目标图像，分别对建筑立面图像和目标图像进行特征提取，得到全局图像特征和局部图像特征，将全局图像特征和局部图像特征进行融合，得到融合特征，基于融合特征，在素材库中选取与目标对象匹配的模型素材，基于全局图像特征具有较强的语义表达能力，局部图像特征则更注重于建筑立面中的细节特征，全局图像特征和局部图像特征的融合能够将两者的优势结合起来，实现更好的区分，从而基于融合特征可以更加准确地进行建筑立面素材匹配，进一步提高了对建筑立面图像的素材匹配的准确性。

附图说明

图1为一个实施例中建筑立面图像的素材匹配方法的应用环境图；

图2为一个实施例中建筑立面图像的素材匹配方法的流程示意图；

图3为一个实施例中透视畸变示意图；

图4为一个实施例中建筑立面图像示意图；

图5为一个实施例中模型素材示意图；

图6为一个实施例中提取目标图像步骤的示意图；

图7为一个实施例中透视畸变矫正步骤的示意图；

图8为一个实施例中模型训练步骤的示意图；

图9为一个实施例中建筑物模型示意图；

图10为一个实施例中城市还原模型示意图；

图11为另一个实施例中建筑立面图像的素材匹配方法的流程示意图；

图12为另一个实施例中建筑立面图像的素材匹配方法的流程示意图；

图13为一个实施例中特征融合步骤的示意图；

图14为一个实施例中建筑立面图像的素材匹配装置的结构框图；

图15为另一个实施例中建筑立面图像的素材匹配装置的结构框图；

图16为一个实施例中计算机设备的内部结构图；

图17为另一个实施例中计算机设备的内部结构图。

具体实施方式

为了使本申请的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本申请进行进一步详细说明。应当理解，此处描述的具体实施例仅仅用以解释本申请，并不用于限定本申请。

本申请提供的建筑立面图像的素材匹配方法，涉及人工智能的机器学习、计算机视觉等技术，其中：

人工智能(Artificial Intelligence, AI)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能，感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。换句话说，人工智能是计算机科学的一个综合技术，它企图了解智能的实质，并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法，使机器具有感知、推理与决策的功能。

人工智能技术是一门综合学科，涉及领域广泛，既有硬件层面的技术也有软件层面的技术。人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互系统、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。

机器学习(Machine Learning, ML)是一门多领域交叉学科，涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为，以获取新的知识或技能，重新组织已有的知识结构使之不断改善自身的性能。机器学习是人工智能的核心，是使计算机具有智能的根本途径，其应用遍及人工智能的各个领域。机器学习和深度学习通常包括人工神经网络、置信网络、强化学习、迁移学习、归纳学习、式教学习等技术。

计算机视觉技术(Computer Vision, CV)计算机视觉是一门研究如何使机器“看”的科学，更进一步的说，就是指用摄影机和电脑代替人眼对目标进行识别和测量等机器视觉，并进一步做图形处理，使电脑处理成为更适合人眼观察或传送给仪器检测的图像。作为一个科学学科，计算机视觉研究相关的理论和技术，试图建立能够从图像或者多维数据中获取信息的人工智能系统。计算机视觉技术通常包括图像处理、图像识别、图像语义理解、图像检索、OCR、视频处理、视频语义理解、视频内容/行为识别、三维物体重建、3D技术、虚拟现实、增强现实、同步定位与地图构建等技术，还包括常见的人脸识别、指纹识别等生物特征识别技术。

本申请实施例提供的建筑立面图像的素材匹配方法，可以应用于如图1所示的应用环境中。其中，终端102通过网络与服务器104进行通信。数据存储系统可以存储服务器104需要处理的数据。数据存储系统可以集成在服务器104上，也可以放在云上或其他服务器上。该建筑立面图像的素材匹配方法由终端102或服务器104单独执行，或者由终端102和服务器104协同执行。在一些实施例中，该建筑立面图像的素材匹配方法由终端102执行，终端102对原始建筑物图像进行透视畸变矫正，得到建筑立面图像；从建筑立面图像中提取包含有目标对象的目标图像；分别对建筑立面图像和目标图像进行特征提取，得到全局图像特征和局部图像特征；将全局图像特征和局部图像特征进行融合，得到融合特征；基于融合特征，在素材库中选取与目标对象匹配的模型素材。

其中，终端102可以但不限于是各种台式计算机、笔记本电脑、智能手机、平板电脑、物联网设备和便携式可穿戴设备，物联网设备可为智能音箱、智能电视、智能空调、智能车载设备等。便携式可穿戴设备可为智能手表、智能手环、头戴设备等。服务器104可以是独立的物理服务器，也可以是多个物理服务器构成的服务器集群或者分布式系统，还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、CDN、以及大数据和人工智能平台等基础云计算服务的云服务器。终端102以及服务器104可以通过有线或无线通信方式进行直接或间接地连接，本申请在此不做限制。

在一个实施例中，如图2所示，提供了一种建筑立面图像的素材匹配方法，以该方法应用于图1中的终端102为例进行说明，包括以下步骤：

S202，对原始建筑物图像进行透视畸变矫正，得到建筑立面图像。

其中，原始建筑物图像是指包含了建筑立面的图像，具体可以是通过相机或其他设备对建筑物进行拍摄或采集得到的，由于相机的成像原理和人眼的视觉原理不同，所得到的原始建筑物图像中存在透视畸变的问题。

透视畸变是指在摄影或视觉应用中，由于三维世界与二维图像之间的投影关系而引起的图像形变问题，参考图3，它是由于人眼或相机在观察三维物体时所产生的透视关系，使得图像中的物体失真或变形，例如远处的物体看起来比近处的物体小，真实世界中互相平行的两条直线在图像中看起来不平行等。

建筑立面是指建筑物的正面或侧面视图，通常是建筑物的外观展示。它可以被用于建筑设计、城市规划、数字孪生体还原等领域；建筑立面图像是指包含建筑立面的图像，具体是指建筑物的垂直面向外的图像，通常是指拍摄建筑物时所得到的垂直于建筑物表面的图像。

透视畸变矫正是一种对由于拍摄角度等原因而引起的透视畸变进行校正的处理方式，透视畸变矫正通过应用几何变换，将图像中的畸变部分进行校正，使其看起来更加真实和直观。

具体的，终端获取原始建筑物图像，并确定原始建筑物图像中的待矫正对象，然后对待矫正对象及进行几何变换，得到建筑立面图像。

其中，待矫正对象指的是原始建筑物图像中需要进行透视畸变矫正的目标对象，比如建筑立面的一部分或者窗户、阳台等。

S204，从建筑立面图像中提取包含有目标对象的目标图像。

其中，目标对象是指在建筑立面图像中需要进行识别或者定位的具体对象，例如窗户、阳台、门等，可以理解的是建筑立面图像中可以包含有多个目标对象，如图4所示，图4中的（A）为建筑立面图像，该建筑立面图像中包含多个阳台，图4中的（B）即为包含有阳台的目标图像。

具体的，终端在得到建筑立面图像之后，确定目标对象的坐标位置和范围大小，然后基于坐标位置和范围大小从建筑立面图像中提取包含有目标对象的目标图像。

在一个实施例中，终端在得到建筑立面图像之后，可以以人工标注的形式对建筑立面图像中的目标对象进行标注，得到标注信息，进而基于标注信息确定目标对象的坐标位置和范围大小，通过人工标注的形式可以根据实际情况对目标对象进行精准标注，提高了标注的准确性，进而提高了提取包含有目标对象的目标图像的准确率。

在一个实施例中，终端在得到建筑立面图像之后，还可以将建筑立面图像输入预训练的对象识别模型，通过预训练的对象识别模型对建筑立面图像进行对象识别，得到目标对象的坐标位置和范围大小，通过该方案可以自动地识别图像中的目标对象，省去了手动标注的过程，进而提高了提取包含有目标对象的目标图像效率。

S206，分别对建筑立面图像和目标图像进行特征提取，得到全局图像特征和局部图像特征。

特征提取指的是从原始数据中提取出具有代表性的特征，这些特征可以用来表示数据的本质属性，以便于后续的分析和处理。在图像领域中，特征提取是指从图像中提取出表示图像的颜色、纹理、形状、边缘等特征，以便于进行图像分类、检索、识别等任务。

可以理解的是建筑立面图像包含全局信息，其是多个目标图像的组合，可以看到，竖直方向上，各个目标对象基本相同，水平方向上各个目标对象对称相同，参考图4中（A）所示的建筑立面图像，从图中可以看出，在竖直方向上的各个阳台基本相同，在水平方向上，各个阳台对称相同。

全局图像特征通常是指描述整个图像的特征，比如图像的颜色分布、纹理信息、边缘信息等。局部图像特征通常是指描述图像中某个局部区域的特征，比如目标图像中的目标对象的形状、纹理、边缘信息等。

具体的，终端在得到建筑立面图像和目标图像之后，可以将建筑立面图像和目标图像分别输入预训练的机器学习模型，通过预训练的机器学习模型对建筑立面图像进行特征提取得到全局图像特征，通过预训练的机器学习模型对目标图像进行特征提取，得到局部图像特征。

其中，机器学习模型通常是指一个能够从数据中学习规律或模式，并能够对新数据进行预测或分类的算法或模型。本申请实施例中，预训练的机器学习模型可以是深度学习模型，如ResNet、VGG。

S208，将全局图像特征和局部图像特征进行融合，得到融合特征。

其中，融合是指融合处理，融合处理指的是将来自不同来源或不同维度的特征进行合并或组合，得到更具有代表性和鲁棒性的特征表示，融合处理可以是特征拼接处理或者特征加权处理。

由于全局图像特征具有较强的语义表达能力，可以表示整个建筑立面的一般特征，因此对于整体相似的建筑立面，全局特征能够较好地进行区分。而局部图像特征则更注重于建筑立面中的细节特征，因此对于一些局部特征比较明显的建筑立面，局部特征能够更好地进行区分。全局图像特征和局部图像特征的融合能够将两者的优势结合起来，从而融合特征更具有代表性和鲁棒性。

在一个实施例中，融合处理是特征拼接处理，终端的在得到全局图像特征和局部图像特征之后，可以对全局图像特征和局部图像特征进行拼接处理，得到拼接特征，并将拼接特征确定为融合特征。

在一个实施例中，融合处理是特征加权处理，终端的在得到全局图像特征和局部图像特征之后，可以获取全局图像特征对应的第一权重，以及局部图像特征对应的第二权重，并基于全局图像特征对应的第一权重和局部图像特征对应的第二权重，对全局图像特征和局部图像特征进行加权求和，得到加权结果，并将加权结果确定为融合特征。

S210，基于融合特征，在素材库中选取与目标对象匹配的模型素材。

其中，素材库通常用于存储各种建筑的模型素材，素材库可以供数字孪生体系统进行模型素材匹配和替换使用，如图5示出了素材库中的各种类型的窗户素材示意图。

具体的，终端在得到融合特征之后，基于融合特征确定目标对象与素材库中每个模型素材之间的匹配度，基于匹配度从各模型素材中选取与目标对象匹配的模型素材。

上述建筑立面图像的素材匹配方法，终端通过对原始建筑物图像进行透视畸变矫正，消除透视畸变的影响，得到更加准确的建筑立面图像，从而基于建筑立面图像进行特征提取时可以得到更加准确的特征，进而提高了对建筑立面图像的素材匹配的准确性；此外通过从建筑立面图像中提取包含有目标对象的目标图像，分别对建筑立面图像和目标图像进行特征提取，得到全局图像特征和局部图像特征，将全局图像特征和局部图像特征进行融合，得到融合特征，基于融合特征，在素材库中选取与目标对象匹配的模型素材，基于全局图像特征具有较强的语义表达能力，局部图像特征则更注重于建筑立面中的细节特征，全局图像特征和局部图像特征的融合能够将两者的优势结合起来，实现更好的区分，从而基于融合特征可以更加准确地进行建筑立面素材匹配，进一步提高了对建筑立面图像的素材匹配的准确性。

在一个实施例中，终端对原始建筑物图像进行透视畸变矫正，得到建筑立面图像的过程包括以下步骤：从原始建筑物图像中截取待矫正对象；基于待矫正对象确定矫正变换矩阵；根据矫正变换矩阵对待矫正对象进行透视畸变矫正，得到建筑立面图像。

其中，待矫正对象是指在原始建筑物图像中需要进行透视畸变矫正的区域或对象，一般是建筑立面的一部分，例如选取2-4层建筑立面范围，区域左右边界线平行于建筑左右边界，区域上下边界线平行于窗户阳台的上下边界。

矫正变换矩阵指的是在透视畸变矫正中，用于描述从原图像到矫正后图像的转换矩阵。

具体的，终端在得到原始建筑物图像之后，确定原始建筑物图像中建筑立面的左右边界和上下边界，并基于左右边界和上下边界从原始建筑物图像中截取待矫正对象，并获取待矫正对象中目标像素点的坐标，基于目标像素点的坐标确定从原始建筑物图像到矫正后所得到的建筑立面图像的矫正变换矩阵，根据所确定的矫正变换矩阵对待矫正对象进行变换，得到建筑立面图像。

如图6所示，在得到原始建筑物图像后，对原始建筑物图像进行剪切矫正，得到建筑立面图像，对确定建筑立面图像中目标对象的目标位置，基于所确定的目标位置，从建筑立面图像中提取出包含有目标对象的目标图像。

上述实施例中，从原始建筑物图像中截取待矫正对象，基于待矫正对象确定矫正变换矩阵，可以矫正建筑立面图像中的透视畸变，通过透视畸变矫正后的建筑立面图像，可以更好地提取出建筑物的特征，进而在基于所提取的特征进行模型素材匹配时，提高对建筑立面图像的素材匹配的准确性。

在一个实施例中，终端基于待矫正对象确定矫正变换矩阵的过程包括以下步骤：确定待矫正对象中目标像素点的原始坐标；获取目标像素点的预设矫正后坐标；基于目标像素点的原始坐标和预设矫正后坐标，确定矫正变换矩阵。

其中，目标像素点可以是待矫正对象的顶点位置的像素点，如图7所示为从待矫正对象的四个顶点位置的像素点即为目标像素点，目标像素点的原始坐标为待矫正对象的顶点的原始坐标，即图7中（u₁,v₁,w）、（u₂,v₂,w）、（u₃,v₃,w）和（u₄,v₄,w），预设矫正后坐标是指目标像素点对应在矫正后的建筑立面图像中的坐标，即图7中（x₁,y₁,w’）、（x₂,y₂,w’）、（x₃,y₃,w’）和（x₄,y₄,w’），该坐标可以是预设的。

在一个实施例中，终端在得到目标像素点的原始坐标和预设矫正后坐标之后，可以将原始坐标可预设矫正后坐标代入以下公式（1），并对以下公式（1）进行求解，得到矫正变换矩阵：

（1）

其中，为待矫正对象中任一像素点在的原始坐标，为该像素点的在矫正后所得的建筑立面图像中的坐标，为矫正变换矩阵。可以理解的是，在确定矫正变换矩阵时，可以将待矫正对象的四个顶点的像素点确定为目标像素点，并获取该四个目标像素点的原始坐标和预设矫正后坐标，其中，分别将该四个目标像素点的原始坐标和预设矫正后坐标代入公式（1），从而可以得到以下8个等式，求解以下8个等式联立的方程，便可得到矫正变换矩阵：

（2）

其中，为第i个目标像素点的原始坐标，为第i个目标像素点的预设矫正后坐标。

参考图7，终端在得到原始建筑物图像中，从原始建筑物图像中选取待矫正对象，并获取待矫正对象中目标像素点的原始坐标（u₁,v₁,w）、（u₂,v₂,w）、（u₃,v₃,w）和（u₄,v₄,w），以及目标像素点的预设矫正后坐标（x₁,y₁,w’）、（x₂,y₂,w’）、（x₃,y₃,w’）和（x₄,y₄,w’），并将原始坐标（u₁,v₁,w）、（u₂,v₂,w）、（u₃,v₃,w）和（u₄,v₄,w）、预设矫正后坐标（x₁,y₁,w’）、（x₂,y₂,w’）、（x₃,y₃,w’）和（x₄,y₄,w’）代入公式（1），从而得到公式（2）所示的8个等式，求解以上8个等式联立的方程，便可得到矫正变换矩阵，基于矫正变换矩阵对待矫正对象进行透视变换（即透视畸变矫正），得到建筑立面图像。

上述实施例中，终端通过确定待矫正对象中目标像素点的原始坐标以及目标像素点的预设矫正后坐标，从而基于目标像素点的原始坐标和预设矫正后坐标，可以更加准确地确定矫正变换矩阵，进而提高对原始建筑物图像透视畸变矫正的准确性。

在一个实施例中，终端分别对建筑立面图像和目标图像进行特征提取，得到全局图像特征和局部图像特征的过程包括以下步骤：通过机器学习模型的编码器对建筑立面图像进行特征提取，得到全局图像特征；通过编码器对目标图像进行特征提取，得到局部图像特征。

其中，编码器是指一种将输入数据转换为一特征种表示的神经网络结构，用于将输入数据进行特征提取，并将这些特征转换为一种更加抽象和紧凑的表示形式，这种表示形式能够更好地表示数据的内在结构和模式，编码器具体可以是卷积神经网络（CNN）或由多个循环神经网络（RNN）组成的循环神经网络（RNN）。

具体的，终端通过编码器的各个网络层对建筑立面图像进行处理，从而实现特征提取，得到全局图像特征；通过编码器的各个网络层对目标图像的各个网络层进行处理，从而实现特征提取，得到局部图像特征。

在一个实施例中，编码器包括卷积层、池化层和激活层，终端通过机器学习模型的编码器对建筑立面图像进行特征提取，得到全局图像特征的过程包括以下步骤：通过卷积层对建筑立面图像进行卷积处理，得到初始全局图像特征，通过池化层对初始全局图像特征进行池化操作，得到下采样全局图像特征，通过激活层对下采样全局图像特征进行非线性变换，得到能够表达建筑立面图像信息的全局图像特征；终端通过编码器对目标图像进行特征提取，得到局部图像特征的过程包括以下步骤：通过卷积层对目标图像进行卷积处理，得到初始全局图像特征，通过池化层对初始全局图像特征进行池化操作，得到下采样全局图像特征，通过激活层对下采样全局图像特征进行非线性变换，得到能够表达目标图像信息的全局图像特征。

其中，卷积层是指含卷积操作的层，卷积操作可以提取输入数据的特征；池化层是指通过降采样操作减少特征图的尺寸和计算量，常用的池化操作有最大池化和平均池化；激活层是指在卷积或池化操作后，将输出结果通过一定的非线性函数进行变换，以引入非线性因素，从而增强模型的表达能力，常用的激活函数有ReLU、Sigmoid、Tanh等，它们能够将负数值映射为零或接近零，保留正数值并增加非线性特征。

上述实施例中，终端通过机器学习模型的编码器对建筑立面图像进行特征提取，得到全局图像特征，通过编码器对目标图像进行特征提取，得到局部图像特征，从而可以更准确的描述建筑立面图像，通过结合全局图像特征和局部图像特征，从而可以提高对建筑立面图像的素材匹配的准确性。

在一个实施例中，机器学习模型还包括特征融合网络，特征融合网络包括全局支路和局部支路，终端将全局图像特征和局部图像特征进行融合，得到融合特征的过程包括以下步骤：通过全局支路对全局图像特征进行特征处理，得到处理后全局图像特征；通过局部支路对局部图像特征进行特征处理，得到处理后局部图像特征；将对处理后全局图像特征和处理后局部图像特征进行融合处理，得到融合特征。

其中，特征融合网络是指在机器学习模型中使用的一种神经网络结构，用于将多个来源的特征进行融合，以提高模型的准确性和鲁棒性，在特征融合网络中，通常会采用多个支路对不同的特征进行处理，然后将处理后的特征进行融合，得到最终的特征表示。

在特征融合网络中，全局支路是指对全局图像特征进行特征处理的路径，局部支路是指对局部图像特征进行特征处理的路径。

具体的，终端的在得到全局图像特征和局部图像特征之后，通过特征融合网络全的各个网络层对全局图像特征进行特征处理，得到处理后全局图像特征；通过特征融合网络全的各个网络层局部支路对局部图像特征进行特征处理，得到处理后局部图像特征；将处理后全局图像特征和处理后局部图像特征进行融合处理，得到融合特征。其中，融合处理可以是特征拼接处理或者特征加权处理。

上述实施例中，终端通过全局支路和局部支路分别对全局图像特征和局部图像特征进行特征处理，从而可以更好的捕捉到全局和局部的信息，从而得到建筑立面图像中更加丰富和准确的特征表示，此外通过融合特征进一步得到更好的建筑立面图像中更加准确的特征表示，从而可以提高对建筑立面图像的素材匹配的准确性。

在一个实施例中，全局支路包括第一池化层、第一卷积层和第一全连接层；终端通过全局支路对全局图像特征进行特征处理，得到处理后全局图像特征的过程具体包括以下步骤：通过第一池化层对全局图像特征进行下采样处理，得到下采样全局图像特征；通过第一卷积层对下采样全局图像特征进行卷积处理，得到高层语义全局图像特征；通过第一全连接层对高层语义全局图像特征进行映射处理，得到处理后全局图像特征。

其中，第一池化层用于对全局图像特征进行下采样处理，减小特征图的大小，以提取建筑立面图像的主要特征；第一卷积层用于对下采样全局图像特征进行卷积处理，提取更高层次的语义特征，帮助识别建筑立面图像中更复杂的模式和结构；第一全连接层用于对高层语义全局图像特征进行映射处理，将卷积层输出的多维特征映射到一维特征空间，得到处理后全局图像特征。

具体的，终端在得到全局图像特征之后，确定全局支路中第一池化层的超参数，基于所确定的池化层的超参数对全局图像特征进行下采样处理，得到下采样全局图像特征，然后确定第一卷积层的超参数，基于第一卷积层的超参数，对下采样全局图像特征进行卷积操作，得到卷积后的高层语义全局图像特征，将高层语义全局图像特征展开为一维向量，确定第一全连接层的超参数，通过第一全连接层对所展开的一维向量进行映射操作，得到处理后全局图像特征。

上述实施例中，终端通过第一池化层对全局图像特征进行下采样处理，得到下采样全局图像特征，通过第一卷积层对下采样全局图像特征进行卷积处理，得到高层语义全局图像特征，通过第一全连接层对高层语义全局图像特征进行映射处理，得到处理后全局图像特征，从而进一步优化全局图像特征的表达能力，进而在基于处理后全局图像特征实现建筑立面的素材匹配时，提高对建筑立面图像的素材匹配的准确性。

在一个实施例中，局部支路包括第二池化层、第二卷积层和第二全连接层，终端通过局部支路对局部图像特征进行特征处理，得到处理后局部图像特征的过程包括以下步骤：通过第二池化层对局部图像特征进行下采样处理，得到下采样局部图像特征；通过第二卷积层对下采样局部图像特征进行卷积处理，得到高层语义局部图像特征；通过第二全连接层对高层语义局部图像特征进行映射处理，得到处理后局部图像特征。

其中，第二池化层用于对局部图像特征进行下采样处理，减小特征图的大小，以提取建筑立面图像的主要特征；第二卷积层用于对下采样局部图像特征进行卷积处理，提取更高层次的语义特征，帮助识别建筑立面图像中更复杂的模式和结构；第二全连接层用于对高层语义局部图像特征进行映射处理，将卷积层输出的多维特征映射到一维特征空间，得到处理后局部图像特征。

具体的，终端在得到局部图像特征之后，确定全局支路中第二池化层的超参数，基于所确定的池化层的超参数对局部图像特征进行下采样处理，得到下采样局部图像特征，然后确定第二卷积层的超参数，基于第二卷积层的超参数，对下采样局部图像特征进行卷积操作，得到卷积后的高层语义局部图像特征，将高层语义局部图像特征展开为一维向量，确定第二全连接层的超参数，通过第二全连接层对所展开的一维向量进行映射操作，得到处理后局部图像特征。

上述实施例中，通过第二池化层对局部图像特征进行下采样处理，得到下采样局部图像特征，通过第二卷积层对下采样局部图像特征进行卷积处理，得到高层语义局部图像特征，通过第二全连接层对高层语义局部图像特征进行映射处理，得到处理后局部图像特征，从而进一步优化局部局图像特征的表达能力，进而在基于处理后局部图像特征实现建筑立面的素材匹配时，提高对建筑立面图像的素材匹配的准确性。

在一个实施例中，特征融合网络还包括融合全连接层，终端将对处理后全局图像特征和处理后局部图像特征进行融合处理，得到融合特征的过程具体包括以下步骤：对处理后全局图像特征和处理后局部图像特征进行拼接，得到拼接特征向量；通过融合全连接层对拼接特征向量进行映射，得到融合特征。

其中，融合全连接层是指神经网络结构中的一种全连接层，用于将多个特征的信息融合在一起。

具体的，终端在得到处理后全局图像特征和处理后局部图像特征之后，可以使用concatenate函数将处理后全局图像特征和处理后局部图像特征在特征维度上进行拼接，得到拼接特征向量，该拼接特征向量长度为全局图像特征和局部图像特征的长度之和，接着将拼接特征向量输入融合全连接层中进行映射处理，得到融合特征向量。

上述实施例中，终端通过对处理后全局图像特征和处理后局部图像特征进行拼接，得到拼接特征向量，通过融合全连接层对拼接特征向量进行映射，得到融合特征，可以有效地结合全局图像特征和局部图像特征，从而得到更加全面、准确的特征表达，提高对建筑立面图像的素材匹配的准确性。

在一个实施例中，机器学习模型还包括分类网络，终端基于融合特征，在素材库中选取与目标对象匹配的模型素材的过程包括以下步骤：通过分类网络，确定素材库中各素材的素材特征与融合特征之间的特征相似度；基于特征相似度确定各素材与目标对象匹配的匹配概率；基于匹配概率在素材库中选取与目标对象匹配的模型素材。

具体的，终端获取素材库中各素材的素材特征，并确定融合特征与各素材特征之间的特征相似度，将特征相似度确定为相应素材与目标对象的匹配概率，并将匹配概率最大的素材确定为与目标对象匹配的模型素材。

在一个实施例中，机器学习模型还包括分类网络，终端基于融合特征，在素材库中选取与目标对象匹配的模型素材的过程包括以下步骤：通过分类网络对所述融合特征进行分类预测，得到目标对象属于各个类别的概率分布，并将概率分布中概率值最大的目标类别确定为目标对象所属类别，从素材库中获取该目标类别所对应的素材，并将该素材确定为目标对象匹配的模型素材。

其中，类别可以通过类别标签进行表示，类别标签是指对于一个分类问题，预先定义的不同类别的标签或者名称，用于表示模型需要识别或分类的物体或者事物的种类，类别标签可以是数字编码的形式，例如，第一种素材对应的类别标签为1，第二种素材标签对应的类别标签为2。

具体的，终端将所得到的融合特征输入到机器学习模型的分类网络，通过分类网络的全连接层和softmax层输出每个可能的类别的概率分布，最终选择概率最大的类别标签作为目标对象的类别，并从素材库中获取该类别对应的素材作为目标对象匹配的模型素材。

上述实施例中，终端通过分类网络，确定素材库中各素材的素材特征与融合特征之间的特征相似度；基于特征相似度确定各素材与目标对象匹配的匹配概率；基于匹配概率在素材库中选取与目标对象匹配的模型素材，从而能够自动从素材库中匹配出与目标对象最相似的模型素材，提高对建筑立面图像的素材匹配的准确性。

在一个实施例中，以上建筑立面图像的素材匹配方法还包括训练机器学习模型的过程，如图8所示，该过程具体包括以下步骤：

S802，获取建筑立面图像样本、建筑立面图像样本对应的目标图像样本、以及目标图像样本的标签信息。

其中，建筑立面图像样本是对原始建筑图像样本进行透视畸变矫正后所得到的，目标图像样本是从建筑立面图像中所提取的包含样本对象的图像，标签信息是对目标图像样本中的对象进行类别标注所得到的信息。样本对象是指在建筑立面图像样本中需要进行识别或者定位的具体对象，例如窗户、阳台、门等。

在一个实施例中，终端从训练数据集中获取原始建筑图像样本，并对原始建筑图像样本进行透视畸变矫正，得到建筑立面图像样本，从建筑立面图像样本中提取包含有样本对象的目标图像样本，并对目标图像样本中的样本对象的类别进行标注，得到目标图像样本的标签信息。

具体的，终端获取原始建筑物图像样本，并确定原始建筑物图像样本中的待矫正对象，然后对待矫正对象及进行几何变换，得到建筑立面图像样本，确定样本对象的坐标位置和样本对象的目标图像样本，并以人工标注或者人工智能标注的形式对目标图像样本中的样本对象的类别进行标注，得到目标图像样本的标签信息，例如，若样本对象的类别为第一类别，则将其类别标注为1，若样本对象的类别为第二类别，则将其类别标注为2。

本申请实施例中，获取的每组训练数据可以标表示为，其中，为第i组训练数据中的目标图像样本，为第i组训练数据中的包含目标图像样本的建筑立面图像样本，为第i组训练数据中目标图像样本中样本对象的标签信息。

S804，通过初始机器学习模型分别对建筑立面图像样本和目标图像样本进行特征提取，得到全局样本图像特征和局部样本图像特征。

具体的，通过机器学习模型的编码器对建筑立面图像样本进行特征提取，得到全局样本图像特征。通过机器学习模型的编码器对目标图像样本进行特征提取，得到局部样本图像特征。

在一个实施例中，编码器包括卷积层、池化层和激活层，终端通过编码器的卷积层、池化层和激活层对建筑立面图像样本进行处理，从而实现特征提取，得到全局样本图像特征；通过编码器的各个卷积层、池化层和激活层对目标图像样本的各个网络层进行处理，从而实现特征提取，得到局部样本图像特征。

S806，将全局样本图像特征和局部样本图像特征进行融合，得到融合样本特征。

在一个实施例中，融合处理是特征拼接处理，终端的在得到全局样本图像特征和局部样本图像特征之后，可以对全局样本图像特征和局部样本图像特征进行拼接处理，得到拼接特征，并将拼接特征确定为融合样本特征。

在一个实施例中，融合处理是特征加权处理，终端的在得到全局样本图像特征和局部样本图像特征之后，可以获取全局样本图像特征对应的第一权重，以及局部样本图像特征对应的第二权重，并基于全局样本图像特征对应的第一权重和局部样本图像特征对应的第二权重，对全局样本图像特征和局部样本图像特征进行加权求和，得到加权结果，并将加权结果确定为融合样本特征。

在一个实施例中，机器学习模型还包括特征融合网络，特征融合网络包括全局支路和局部支路，终端将全局样本图像特征和局部样本图像特征进行融合，得到融合样本特征的过程包括以下步骤：通过全局支路对全局样本图像特征进行特征处理，得到处理后全局样本图像特征；通过局部支路对局部样本图像特征进行特征处理，得到处理后局部样本图像特征；将对处理后全局样本图像特征和处理后局部样本图像特征进行融合处理，得到融合样本特征。

在一个实施例中，全局支路包括第一池化层、第一卷积层和第一全连接层；终端通过全局支路对全局样本图像特征进行特征处理，得到处理后全局样本图像特征的过程具体包括以下步骤：通过第一池化层对全局样本图像特征进行下采样处理，得到下采样全局样本图像特征；通过第一卷积层对下采样全局样本图像特征进行卷积处理，得到高层语义全局样本图像特征；通过第一全连接层对高层语义全局样本图像特征进行映射处理，得到处理后全局样本图像特征。

在一个实施例中，局部支路包括第二池化层、第二卷积层和第二全连接层，终端通过局部支路对局部样本图像特征进行特征处理，得到处理后局部样本图像特征的过程包括以下步骤：通过第二池化层对局部样本图像特征进行下采样处理，得到下采样局部样本图像特征；通过第二卷积层对下采样局部样本图像特征进行卷积处理，得到高层语义局部样本图像特征；通过第二全连接层对高层语义局部样本图像特征进行映射处理，得到处理后局部样本图像特征。

在一个实施例中，特征融合网络还包括融合全连接层，终端将对处理后全局样本图像特征和处理后局部样本图像特征进行融合处理，得到融合样本特征的过程具体包括以下步骤：对处理后全局样本图像特征和处理后局部样本图像特征进行拼接，得到拼接特征向量；通过融合全连接层对拼接特征向量进行映射，得到融合样本特征。

S808，基于融合样本特征，确定素材库中与目标图像样本中的样本对象匹配的预测模型素材。

其中，素材库通常用于存储各种建筑的模型素材，素材库可以供数字孪生体系统进行模型素材匹配和替换使用。

具体的，终端在得到融合样本特征之后，基于融合样本特征确定目标对象与素材库中每个模型素材之间的匹配度，基于匹配度从各模型素材中选取与目标对象匹配的预测模型素材。

在一个实施例中，机器学习模型还包括分类网络，终端基于融合样本特征，在素材库中选取与样本对象匹配的模型素材的过程包括以下步骤：通过分类网络，确定素材库中各素材的素材特征与融合样本特征之间的特征相似度；基于特征相似度确定各素材与样本对象匹配的匹配概率；基于匹配概率确定素材库中与目标图像样本中的样本对象匹配的预测模型素材。

在一个实施例中，机器学习模型还包括分类网络，终端基于融合样本特征，在素材库中选取与样本对象匹配的模型素材的过程包括以下步骤：通过分类网络对所述融合样本特征进行分类预测，得到样本对象属于各个类别的概率分布，基于概略分布确定素材库中与目标图像样本中的样本对象匹配的预测模型素材。

S810，基于预测模型素材和标签信息确定损失值。

其中，损失值是衡量预测模型素材与标签信息之间差异的指标，标签即样本对象对应的真实模型素材或真实模型素材的类别，预测模型素材为样本对象对应的预测模型素材本身或者预测模型素材的类别。

具体的，终端在得到预测模型素材之后，获取初始机器模型所对应的损失函数，并将预测模型素材和标签信息输出损失函数，通过损失函数计算损失值。其中，损失函数可以是交叉熵损失函数，具体可以是以下公式（3）所示的损失函数：

（3）

其中，是损失值，是真实值，即样本图像对应的标签信息，是预测值，具体是样本对象属于各个类别的概率分布，即预测模型素材。例如，若标签信息，即目标图像样本中样本对象的类别为1，真实值为，j为类别，素材库中的模型素材共有K个类别，else是指素材库中模型素材之外的类别，将训练数据输入初始机器学习模型，通过该初始机器学习模型对目标图像样本和建筑立面图像样本进行处理，输出预测模型素材，即每一个模型素材与目标图像样本中样本对象的概率。

S812，基于损失值对初始机器学习模型的参数进行调整，直至满足收敛条件时停止训练，得到机器学习模型。

其中，收敛是指模型的训练过程已经趋于稳定，即机器学习模型已经学习到了数据的特征，并且不再有显著的改善，收敛条件包括固定的训练轮数、固定损失函数的阈值等，当模型在达到该条件时停止训练，以避免过度拟合。

具体的，终端在得到损失值之后，基于损失值调整初始机器学习模型的权重参数和偏置参数的值，得到调整后机器学习模型，并重新执行步骤S802直至训练满足收敛条件时停止训练，得到机器学习模型。

上述实施例中，终端通过获取建筑立面图像样本、建筑立面图像样本对应的目标图像样本、以及目标图像样本的标签信息，通过初始机器学习模型分别对建筑立面图像样本和目标图像样本进行特征提取，得到全局样本图像特征和局部样本图像特征，将全局样本图像特征和局部样本图像特征进行融合，得到融合样本特征，从而提高模型对图像特征的捕捉能力；基于融合样本特征，确定素材库中与目标图像样本中的样本对象匹配的预测模型素材，基于预测模型素材和标签信息确定损失值，可以在训练过程中及时评估模型的性能，并及时进行调整，基于损失值对初始机器学习模型的参数进行调整，可以不断地优化模型的训练过程，提高模型的准确性和泛化能力，从而得到更好的模型。

在一个实施例中，上述建筑立面图像的素材匹配方法还包括生成还原建筑物模型的过程，该过程具体包括以下步骤：获取原始建筑物图像对应的初始建筑物模型；将模型素材装配于初始建筑物模型上，得到配准建筑物模型；对配准建筑物模型进行细节还原，得到还原建筑物模型。

其中，初始建筑物模型是基于建筑物的长宽高等信息所构建的基础框架模型，配准建筑物模型是指将模型素材装配在初始建筑物模型上后，所形成的一个整体的建筑物模型；还原建筑物模型指的是经过细节还原后得到的建筑物模型，该模型可以呈现出原始建筑物图像所对应建筑物的形状和细节；细节还原是指对建筑物的纹理、材质、装饰、颜色等细节信息进行还原。

具体的，终端还可以获取原始建筑物图像中建筑物的尺寸信息，以及从原始建筑物图像中提取细节信息，并根据尺寸信息生成初始建筑物模型，并将所获取的模型素材加载到初始建筑物模型上，并对加载后的素材模型的位置、角度和大小进行调整，使其与初始建筑物模型进行吻合，得到配准建筑物模型，并基于从原始建筑物图像中所提取出的细节信息，对配准建筑物模型进行细节还原，得到还原建筑物模型，如图9所示为一个实施例中得到的还原建筑物模型。

上述实施例中，终端通过获取原始建筑物图像对应的初始建筑物模型；将模型素材装配于初始建筑物模型上，得到配准建筑物模型；对配准建筑物模型进行细节还原，可以使得还原建筑物模型更加细致、精确，并且可以考虑到建筑物的不同角度和细节特征，从而更好地还原出建筑物的真实外观和结构。

在一个实施例中，终端在得到还原建筑物模型之后，还可以获取原始建筑物图像中建筑物的位置信息；基于位置信息，将还原建筑物模型加载到城市地图上，得到城市还原模型。

其中，城市地图是指一个特定城市的地理信息系统（GIS）地图，它包含了该城市的道路、建筑物、地形、交通、公共设施等信息；城市还原模型是指在该城市的GIS地图上，将还原建筑物模型与地图进行叠加，从而形成一个高度逼真的三维城市模型，如图10所示为一个实施例中的城市还原模型示意图。

具体的，终端还可以获取原始建筑物图像中建筑物在真实世界中的位置信息，并基于位置信息确定其映射到城市地图上的映射位置，将该还原建筑物模型加载到城市地图的映射位置处，从而得到城市还原模型。

上述实施例中，终端通过获取原始建筑物图像中建筑物的位置信息，基于位置信息，将还原建筑物模型加载到城市地图上，得到城市还原模型，从而通过城市还原模型，可以在不同角度、不同尺度上展示还原的建筑物，使人们更直观地了解建筑物的外观和空间布局，同时可以与城市其他要素进行融合，帮助规划和设计人员更好地把握城市整体形态和布局。

在一个实施例中，如图11所示，还提供了一种建筑立面图像的素材匹配方法，以该方法应用于图1中的终端102为例进行说明，包括以下步骤：

S1102，从原始建筑物图像中截取待矫正对象；确定待矫正对象中目标像素点的原始坐标；获取目标像素点的预设矫正后坐标；基于目标像素点的原始坐标和预设矫正后坐标，确定矫正变换矩阵。

S1104，根据矫正变换矩阵对待矫正对象进行透视畸变矫正，得到建筑立面图像。

S1106，从建筑立面图像中提取包含有目标对象的目标图像。

S1108，通过机器学习模型的编码器对建筑立面图像进行特征提取，得到全局图像特征；机器学习模型包括特征融合网络和分类网络，特征融合网络包括全局支路、局部支路和融合全连接层；全局支路包括第一池化层、第一卷积层和第一全连接层；局部支路包括第二池化层、第二卷积层和第二全连接层。

S1110，通过编码器对目标图像进行特征提取，得到局部图像特征。

S1112，通过第一池化层对全局图像特征进行下采样处理，得到下采样全局图像特征；通过第一卷积层对下采样全局图像特征进行卷积处理，得到高层语义全局图像特征；通过第一全连接层对高层语义全局图像特征进行映射处理，得到处理后全局图像特征。

S1114，通过第二池化层对局部图像特征进行下采样处理，得到下采样局部图像特征；通过第二卷积层对下采样局部图像特征进行卷积处理，得到高层语义局部图像特征；通过第二全连接层对高层语义局部图像特征进行映射处理，得到处理后局部图像特征。

S1116，对处理后全局图像特征和处理后局部图像特征进行拼接，得到拼接特征向量；通过融合全连接层对拼接特征向量进行映射，得到融合特征。

S1118，通过分类网络，确定素材库中各素材的素材特征与融合特征之间的特征相似度；基于特征相似度确定各素材与目标对象匹配的匹配概率；基于匹配概率在素材库中选取与目标对象匹配的模型素材。

本申请还提供一种应用场景，该应用场景应用上述建筑立面图像的素材匹配方法，该方法包括以下步骤：

1、数据预处理

参考图6，终端获取原始建筑物图像，并基于原始建筑物图像，并从原始建筑物图像中剪切出待矫正对象，对待矫正对象进行矫正变换，得到建筑立面图像，并手动对建筑立面图像进行目标对象选取标注，具体标注出目标对象的坐标位置(x,y)及范围大小(h,w)，基于所标注的内容从建筑立面图像中剪切出局部的目标图像。

2、素材匹配

参考图12，该过程具体包括特征提取、特征融合和分类步骤：

a，特征提取

将目标图像和建筑立面图像同步输入到机器学习模型的编码器，编码器分别输出局部特征和全局特征。其中，编码器的网络参数初始化为在数据集imagenet上的预训练网络参数。

b，特征融合

参考图13，局部特征和全局特征分别经过池化层、卷积层和全连接层，其中池化层、卷积层和全连接层的参数是不共享的。池化层为平均池化，缩小特征尺寸，减少计算量。卷积层的滤波器通道个数为512，卷积核大小为3×3。全局支路和局部支路的全连接层输出节点数不同，全局支路的全连接层输出的维度大小为512，局部支路的全连接层输出的维度大小为1028，联结和得到融合特征，该融合特征中即包含了目标图像的局部信息，也包含了建筑立面图像的全局信息，且局部信息占主导地位。

c，分类

分类网络包括全连接层和softmax层，将融合特征输入分类网络，输出为每一个模型素材与目标图像的匹配概率，选取概率最高的模型素材作为与目标图像匹配的模型素材。其中，全连接层输出的节点数与素材库中的模型素材的数量K保持一致。

应该理解的是，虽然如上的各实施例所涉及的流程图中的各个步骤按照箭头的指示依次显示，但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明，这些步骤的执行并没有严格的顺序限制，这些步骤可以以其它的顺序执行。而且，如上的各实施例所涉及的流程图中的至少一部分步骤可以包括多个步骤或者多个阶段，这些步骤或者阶段并不必然是在同一时刻执行完成，而是可以在不同的时刻执行，这些步骤或者阶段的执行顺序也不必然是依次进行，而是可以与其它步骤或者其它步骤中的步骤或者阶段的至少一部分轮流或者交替地执行。

基于同样的发明构思，本申请实施例还提供了一种用于实现上述所涉及的建筑立面图像的素材匹配方法的建筑立面图像的素材匹配装置。该装置所提供的解决问题的实现方案与上述方法中所记载的实现方案相似，故下面所提供的一个或多个建筑立面图像的素材匹配装置实施例中的具体限定可以参见上文中对于建筑立面图像的素材匹配方法的限定，在此不再赘述。

在一个实施例中，如图14所示，提供了一种建筑立面图像的素材匹配装置，包括：图像矫正模块1402、图像提取模块1404、特征提取模块1406、特征融合模块1408和素材选取模块1410，其中：

图像矫正模块1402，用于对原始建筑物图像进行透视畸变矫正，得到建筑立面图像。

图像提取模块1404，用于从建筑立面图像中提取包含有目标对象的目标图像。

特征提取模块1406，用于分别对建筑立面图像和目标图像进行特征提取，得到全局图像特征和局部图像特征。

特征融合模块1408，用于将全局图像特征和局部图像特征进行融合，得到融合特征。

素材选取模块1410，用于基于融合特征，在素材库中选取与目标对象匹配的模型素材。

上述实施例中，通过对原始建筑物图像进行透视畸变矫正，消除透视畸变的影响，得到更加准确的建筑立面图像，从而基于建筑立面图像进行特征提取时可以得到更加准确的特征，进而提高了对建筑立面图像的素材匹配的准确性；此外通过从建筑立面图像中提取包含有目标对象的目标图像，分别对建筑立面图像和目标图像进行特征提取，得到全局图像特征和局部图像特征，将全局图像特征和局部图像特征进行融合，得到融合特征，基于融合特征，在素材库中选取与目标对象匹配的模型素材，基于全局图像特征具有较强的语义表达能力，局部图像特征则更注重于建筑立面中的细节特征，全局图像特征和局部图像特征的融合能够将两者的优势结合起来，实现更好的区分，从而基于融合特征可以更加准确地进行建筑立面素材匹配，进一步提高了对建筑立面图像的素材匹配的准确性。

在一个实施例中，图像矫正模块1402，还用于：从原始建筑物图像中截取待矫正对象；基于待矫正对象确定矫正变换矩阵；根据矫正变换矩阵对待矫正对象进行透视畸变矫正，得到建筑立面图像。

在一个实施例中，图像矫正模块1402，还用于：确定待矫正对象中目标像素点的原始坐标；获取目标像素点的预设矫正后坐标；基于目标像素点的原始坐标和预设矫正后坐标，确定矫正变换矩阵。

在一个实施例中，特征提取模块1406，还用于：通过机器学习模型的编码器对建筑立面图像进行特征提取，得到全局图像特征；通过编码器对目标图像进行特征提取，得到局部图像特征。

在一个实施例中，机器学习模型包括特征融合网络，特征融合网络包括全局支路和局部支路；特征提取模块1406，还用于：通过全局支路对全局图像特征进行特征处理，得到处理后全局图像特征；通过局部支路对局部图像特征进行特征处理，得到处理后局部图像特征；将处理后全局图像特征和处理后局部图像特征进行融合处理，得到融合特征。

在一个实施例中，全局支路包括第一池化层、第一卷积层和第一全连接层；特征提取模块1406，还用于：通过第一池化层对全局图像特征进行下采样处理，得到下采样全局图像特征；通过第一卷积层对下采样全局图像特征进行卷积处理，得到高层语义全局图像特征；通过第一全连接层对高层语义全局图像特征进行映射处理，得到处理后全局图像特征。

在一个实施例中，局部支路包括第二池化层、第二卷积层和第二全连接层；特征提取模块1406，还用于：通过第二池化层对局部图像特征进行下采样处理，得到下采样局部图像特征；通过第二卷积层对下采样局部图像特征进行卷积处理，得到高层语义局部图像特征；通过第二全连接层对高层语义局部图像特征进行映射处理，得到处理后局部图像特征。

在一个实施例中，特征融合网络还包括融合全连接层；特征融合模块1408，还用于：对处理后全局图像特征和处理后局部图像特征进行拼接，得到拼接特征向量；通过融合全连接层对拼接特征向量进行映射，得到融合特征。

在一个实施例中，机器学习模型还包括分类网络；素材选取模块1410，还用于：通过分类网络，确定素材库中各素材的素材特征与融合特征之间的特征相似度；基于特征相似度确定各素材与目标对象匹配的匹配概率；基于匹配概率在素材库中选取与目标对象匹配的模型素材。

在一个实施例中，如图15所示，装置还包括模型训练模块1412，模型训练模块1412用于：获取建筑立面图像样本、建筑立面图像样本对应的目标图像样本、以及目标图像样本的标签信息；通过初始机器学习模型分别对建筑立面图像样本和目标图像样本进行特征提取，得到全局样本图像特征和局部样本图像特征；将全局样本图像特征和局部样本图像特征进行融合，得到融合样本特征；基于融合样本特征，确定素材库中与目标图像样本中的样本对象匹配的预测模型素材；基于预测模型素材和标签信息确定损失值；基于损失值对初始机器学习模型的参数进行调整，直至满足收敛条件时停止训练，得到机器学习模型。

在一个实施例中，如图15所示，该装置还包括模型还原模块1414，模型还原模块1414还用于：获取原始建筑物图像对应的初始建筑物模型；将模型素材装配于初始建筑物模型上，得到配准建筑物模型；对配准建筑物模型进行细节还原，得到还原建筑物模型。

在一个实施例中，模型还原模块1414，还用于：获取原始建筑物图像中建筑物的位置信息；基于位置信息，将还原建筑物模型加载到城市地图上，得到城市还原模型。

上述建筑立面图像的素材匹配装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中，也可以以软件形式存储于计算机设备中的存储器中，以便于处理器调用执行以上各个模块对应的操作。

在一个实施例中，提供了一种计算机设备，该计算机设备可以是服务器，其内部结构图可以如图16所示。该计算机设备包括处理器、存储器、输入/输出接口(Input/Output，简称I/O）和通信接口。其中，处理器、存储器和输入/输出接口通过系统总线连接，通信接口通过输入/输出接口连接到系统总线。其中，该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质和内存储器。该非易失性存储介质存储有操作系统、计算机程序和数据库。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的数据库用于存储建筑图像数据。该计算机设备的输入/输出接口用于处理器与外部设备之间交换信息。该计算机设备的通信接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种建筑立面图像的素材匹配方法。

在一个实施例中，提供了一种计算机设备，该计算机设备可以是终端，其内部结构图可以如图17所示。该计算机设备包括处理器、存储器、输入/输出接口、通信接口、显示单元和输入装置。其中，处理器、存储器和输入/输出接口通过系统总线连接，通信接口、显示单元和输入装置通过输入/输出接口连接到系统总线。其中，该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统和计算机程序。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的输入/输出接口用于处理器与外部设备之间交换信息。该计算机设备的通信接口用于与外部的终端进行有线或无线方式的通信，无线方式可通过WIFI、移动蜂窝网络、NFC（近场通信）或其他技术实现。该计算机程序被处理器执行时以实现一种建筑立面图像的素材匹配方法。该计算机设备的显示单元用于形成视觉可见的画面，可以是显示屏、投影装置或虚拟现实成像装置，显示屏可以是液晶显示屏或电子墨水显示屏，该计算机设备的输入装置可以是显示屏上覆盖的触摸层，也可以是计算机设备外壳上设置的按键、轨迹球或触控板，还可以是外接的键盘、触控板或鼠标等。

本领域技术人员可以理解，图16或图17中示出的结构，仅仅是与本申请方案相关的部分结构的框图，并不构成对本申请方案所应用于其上的计算机设备的限定，具体的计算机设备可以包括比图中所示更多或更少的部件，或者组合某些部件，或者具有不同的部件布置。

在一个实施例中，还提供了一种计算机设备，包括存储器和处理器，存储器中存储有计算机程序，该处理器执行计算机程序时实现上述各方法实施例中的步骤。

在一个实施例中，提供了一种计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现上述各方法实施例中的步骤。

在一个实施例中，提供了一种计算机程序产品，包括计算机程序，该计算机程序被处理器执行时实现上述各方法实施例中的步骤。

需要说明的是，本申请所涉及的用户信息（包括但不限于用户设备信息、用户个人信息等）和数据（包括但不限于用于分析的数据、存储的数据、展示的数据等），均为经用户授权或者经过各方充分授权的信息和数据，且相关数据的收集、使用和处理需要遵守相关国家和地区的相关法律法规和标准。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，的计算机程序可存储于一非易失性计算机可读取存储介质中，该计算机程序在执行时，可包括如上述各方法的实施例的流程。其中，本申请所提供的各实施例中所使用的对存储器、数据库或其它介质的任何引用，均可包括非易失性和易失性存储器中的至少一种。非易失性存储器可包括只读存储器（Read-OnlyMemory，ROM）、磁带、软盘、闪存、光存储器、高密度嵌入式非易失性存储器、阻变存储器（ReRAM）、磁变存储器（Magnetoresistive Random Access Memory，MRAM）、铁电存储器（Ferroelectric Random Access Memory，FRAM）、相变存储器（Phase Change Memory，PCM）、石墨烯存储器等。易失性存储器可包括随机存取存储器（Random Access Memory，RAM）或外部高速缓冲存储器等。作为说明而非局限，RAM可以是多种形式，比如静态随机存取存储器（Static Random AccessMemory，SRAM）或动态随机存取存储器（Dynamic RandomAccess Memory，DRAM）等。本申请所提供的各实施例中所涉及的数据库可包括关系型数据库和非关系型数据库中至少一种。非关系型数据库可包括基于区块链的分布式数据库等，不限于此。本申请所提供的各实施例中所涉及的处理器可为通用处理器、中央处理器、图形处理器、数字信号处理器、可编程逻辑器、基于量子计算的数据处理逻辑器等，不限于此。

以上实施例的各技术特征可以进行任意的组合，为使描述简洁，未对上述实施例中的各个技术特征所有可能的组合都进行描述，然而，只要这些技术特征的组合不存在矛盾，都应当认为是本说明书记载的范围。

以上实施例仅表达了本申请的几种实施方式，其描述较为具体和详细，但并不能因此而理解为对本申请专利范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本申请构思的前提下，还可以做出若干变形和改进，这些都属于本申请的保护范围。因此，本申请的保护范围应以所附权利要求为准。

Claims

1.一种建筑立面图像的素材匹配方法，其特征在于，所述方法包括：

对原始建筑物图像进行透视畸变矫正，得到建筑立面图像；

从所述建筑立面图像中提取包含有目标对象的目标图像；

2.根据权利要求1所述的方法，其特征在于，所述对原始建筑物图像进行透视畸变矫正，得到建筑立面图像包括：

从原始建筑物图像中截取待矫正对象；

基于所述待矫正对象确定矫正变换矩阵；

3.根据权利要求2所述的方法，其特征在于，所述基于所述待矫正对象确定矫正变换矩阵，包括：

确定所述待矫正对象中目标像素点的原始坐标；

获取所述目标像素点的预设矫正后坐标；

4.根据权利要求1所述的方法，其特征在于，所述分别对所述建筑立面图像和所述目标图像进行特征提取，得到全局图像特征和局部图像特征，包括：

5.根据权利要求4所述的方法，其特征在于，所述机器学习模型包括特征融合网络，所述特征融合网络包括全局支路和局部支路；所述将所述全局图像特征和所述局部图像特征进行融合，得到融合特征，包括：

6.根据权利要求5所述的方法，其特征在于，所述全局支路包括第一池化层、第一卷积层和第一全连接层；所述通过全局支路对所述全局图像特征进行特征处理，得到处理后全局图像特征，包括：

7.根据权利要求5所述的方法，其特征在于，所述局部支路包括第二池化层、第二卷积层和第二全连接层；所述通过所述局部支路对所述局部图像特征进行特征处理，得到处理后局部图像特征，包括：

8.根据权利要求5所述的方法，其特征在于，所述特征融合网络还包括融合全连接层；所述将所述处理后全局图像特征和所述处理后局部图像特征进行融合处理，得到融合特征，包括：

9.根据权利要求4所述的方法，其特征在于，所述机器学习模型还包括分类网络；所述基于所述融合特征，在素材库中选取与所述目标对象匹配的模型素材，包括：

10.根据权利要求4至9中任一项所述的方法，其特征在于，所述方法还包括：

基于所述预测模型素材和所述标签信息确定损失值；

11.根据权利要求1至4中任一项所述的方法，其特征在于，所述方法还包括：

获取所述原始建筑物图像对应的初始建筑物模型；

12.根据权利要求11所述的方法，其特征在于，所述方法还包括：

获取所述原始建筑物图像中建筑物的位置信息；

13.一种建筑立面图像的素材匹配装置，其特征在于，所述装置包括：

14.一种计算机设备，包括存储器和处理器，所述存储器存储有计算机程序，其特征在于，所述处理器执行所述计算机程序时实现权利要求1至12中任一项所述的方法的步骤。

15.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现权利要求1至12中任一项所述的方法的步骤。