CN116109896A

CN116109896A - 图像识别方法及图像识别的数据处理方法

Info

Publication number: CN116109896A
Application number: CN202310064156.5A
Authority: CN
Inventors: 王家祺; 王丕超; 王帆
Original assignee: Alibaba China Co Ltd
Current assignee: Alibaba China Co Ltd
Priority date: 2023-01-16
Filing date: 2023-01-16
Publication date: 2023-05-12

Abstract

本说明书实施例提供图像识别方法及图像识别的数据处理方法，其中所述图像识别方法包括：获取待识别图像以及待识别图像对应的描述信息，分别对待识别图像和描述信息进行编码，获得待识别图像的视觉特征和描述信息的自然语言特征，利用第一映射矩阵和第二映射矩阵，分别对视觉特征和自然语言特征进行特征映射，得到第一目标特征和第二目标特征，其中，第一映射矩阵和第二映射矩阵之间具有对齐约束关系，对第一目标特征和第二目标特征进行融合，得到联合特征，根据联合特征，通过语义预测，确定对待识别图像的识别结果。利用对齐约束下的映射矩阵进行特征映射，再对目标特征进行融合，得到联合特征来语义预测，提升了图像识别的准确度。

Description

图像识别方法及图像识别的数据处理方法

技术领域

本说明书实施例涉及图像处理技术领域，特别涉及一种图像识别方法。

背景技术

随着互联网技术的发展，图像识别在各个领域都有广泛的需求和应用，例如，人脸识别、商品货物识别、动植物识别等。

目前，通过对待识别图像中的目标物进行识别，获得目标物的目标类别，即语义信息，例如，对包含某猫科动物的航拍照片进行识别，获得该猫科动物的目标类别：东北虎。该图像识别方法是根据待识别图形的视觉特征这一单一模态特征，进行语义预测，确定识别结果。

然而，仅仅通过视觉模态下的视觉特征，进行语义预测，得到识别结果。在视觉特征的特征丰富度和特征准确度不足时，导致语义预测的结果准确度不足，使得图像识别的识别结果准确度不足。因而，亟需一种准确度更高的图像识别方法。

发明内容

有鉴于此，本说明书实施例提供了一种图像识别方法。本说明书一个或者实施例同时涉及一种图像识别的数据处理方法，一种建筑物识别方法，一种图像识别装置，一种图像识别的数据处理装置，一种建筑物识别装置，一种计算设备，一种计算机可读存储介质以及一种计算机程序，以解决现有技术中存在的技术缺陷。

根据本说明书实施例的第一方面，提供了一种图像识别方法，包括：

获取待识别图像以及待识别图像对应的描述信息；

分别对待识别图像和描述信息进行编码，获得待识别图像的视觉特征和描述信息的自然语言特征；

利用第一映射矩阵和第二映射矩阵，分别对视觉特征和自然语言特征进行特征映射，得到第一目标特征和第二目标特征，其中，第一映射矩阵和第二映射矩阵之间具有对齐约束关系；

对第一目标特征和第二目标特征进行融合，得到联合特征；

根据联合特征，通过语义预测，确定对待识别图像的识别结果。

根据本说明书实施例的第二方面，提供了一种图像识别的数据处理方法，应用于云侧设备，包括：

获取样本集，其中，样本集包括多个样本组，样本组包括样本图像、样本图像对应的样本描述信息和样本图像的语义识别标签；

从样本集中提取第一样本组，其中，第一样本组为多个样本组中任一个；

对第一样本组中的第一样本图像和第一样本描述信息分别进行编码，获得对应的第一视觉特征和第一自然语言特征；

利用第一映射矩阵和第二映射矩阵，分别对第一视觉特征和第一自然语言特征进行特征映射，得到第一视觉映射特征和第一自然语言映射特征，其中，第一映射矩阵和第二映射矩阵之间具有对齐约束关系；

对第一视觉映射特征和第一自然语言映射特征进行融合，得到第一联合特征；

将第一联合特征输入语义预测模型，预测得到第一样本图像的预测语义信息；

根据预测语义信息和第一样本图像的语义识别标签，计算损失值，其中，损失值包括交叉熵损失、聚集损失和分离损失中的至少一种；

根据损失值，调整语义预测模型的模型参数，返回执行从样本集中提取第一样本组的步骤，直至达到预设训练结束条件，获得完成训练的语义预测模型；

将语义预测模型的模型参数发送至端侧设备。

根据本说明书实施例的第三方面，提供了一种建筑物识别方法，包括：

接收前端发送的建筑物识别请求，其中，建筑物识别请求携带有待识别图像以及待识别图像的建筑物描述信息；

分别对待识别图像及建筑物描述信息进行编码，获得对应的视觉特征和自然语言特征；

利用第一映射矩阵和第二映射矩阵，分别对视觉特征和自然语言特征进行特征映射，得到视觉映射特征和自然语言映射特征，其中，第一映射矩阵和第二映射矩阵之间具有对齐约束关系；

对视觉映射特征和自然语言映射特征进行融合，得到联合特征；

根据联合特征，通过语义预测，确定待识别图像的建筑物识别结果；

将建筑物识别结果发送至前端进行显示。

根据本说明书实施例的第四方面，提供了一种图像识别装置，包括：

第一获取模块，被配置为获取待识别图像以及待识别图像对应的描述信息；

第一编码模块，被配置为分别对待识别图像和描述信息进行编码，获得待识别图像的视觉特征和描述信息的自然语言特征；

第一映射模块，被配置为利用第一映射矩阵和第二映射矩阵，分别对视觉特征和自然语言特征进行特征映射，得到第一目标特征和第二目标特征，其中，第一映射矩阵和第二映射矩阵之间具有对齐约束关系；

第一融合模块，被配置为对视觉映射特征和自然语言映射特征进行融合，得到联合特征；

第一确定模块，被配置为根据联合特征，通过语义预测，确定对待识别图像的识别结果。

根据本说明书实施例的第五方面，提供了一种图像识别的数据处理装置，应用于云侧设备，包括：

第二获取模块，被配置为获取样本集，其中，样本集包括多个样本组，样本组包括样本图像、样本图像对应的样本描述信息和样本图像的语义识别标签；

提取模块，被配置为从样本集中提取第一样本组，其中，第一样本组为多个样本组中任一个；

第二编码模块，被配置为对第一样本组中的第一样本图像和第一样本描述信息分别进行编码，获得对应的第一视觉特征和第一自然语言特征；

第二映射模块，被配置为利用第一映射矩阵和第二映射矩阵，分别对第一视觉特征和第一自然语言特征进行特征映射，得到第一视觉映射特征和第一自然语言映射特征，其中，第一映射矩阵和第二映射矩阵之间具有对齐约束关系；

第二融合模块，被配置为对第一视觉映射特征和第一自然语言映射特征进行融合，得到第一联合特征；

预测模块，被配置为将第一联合特征输入语义预测模型，预测得到第一样本图像的预测语义信息；

计算模块，被配置为根据预测语义信息和第一样本图像的语义识别标签，计算损失值，其中，损失值包括交叉熵损失、聚集损失和分离损失中的至少一种；

训练模块，被配置为根据损失值，调整语义预测模型的模型参数，返回执行从样本集中提取第一样本组的步骤，直至达到预设训练结束条件，获得完成训练的语义预测模型；

第一发送模块，被配置为将语义预测模型的模型参数发送至端侧设备。

根据本说明书实施例的第六方面，提供了一种建筑物识别装置，包括：

接收模块，被配置为接收前端发送的建筑物识别请求，其中，建筑物识别请求携带有待识别图像以及待识别图像的建筑物描述信息；

第三编码模块，被配置为分别对待识别图像及建筑物描述信息进行编码，获得对应的视觉特征和自然语言特征；

第三映射模块，被配置为利用第一映射矩阵和第二映射矩阵，分别对视觉特征和自然语言特征进行特征映射，得到视觉映射特征和自然语言映射特征，其中，第一映射矩阵和第二映射矩阵之间具有对齐约束关系；

第三融合模块，被配置为对视觉映射特征和自然语言映射特征进行融合，得到联合特征；

第二确定模块，被配置为根据联合特征，通过语义预测，确定待识别图像的建筑物识别结果；

第二发送模块，被配置为将建筑物识别结果发送至前端进行显示。

根据本说明书实施例的第七方面，提供了一种计算设备，包括：

存储器和处理器；

所述存储器用于存储计算机可执行指令，所述处理器用于执行所述计算机可执行指令，该计算机可执行指令被处理器执行时实现上述图像识别方法，图像识别的数据处理方法或者建筑物识别方法的步骤。

根据本说明书实施例的第八方面，提供了一种计算机可读存储介质，其存储有计算机可执行指令，该指令被处理器执行时实现上述图像识别方法，图像识别的数据处理方法或者建筑物识别方法的步骤。

根据本说明书实施例的第九方面，提供了一种计算机程序，其中，当所述计算机程序在计算机中执行时，令计算机执行上述图像识别方法，图像识别的数据处理方法或者建筑物识别方法的步骤。

本说明书一个或多个实施例中，获取待识别图像以及待识别图像对应的描述信息，分别对待识别图像和描述信息进行编码，获得待识别图像的视觉特征和描述信息的自然语言特征，利用第一映射矩阵和第二映射矩阵，分别对视觉特征和自然语言特征进行特征映射，得到第一目标特征和第二目标特征，其中，第一映射矩阵和第二映射矩阵之间具有对齐约束关系，对第一目标特征和第二目标特征进行融合，得到联合特征，根据联合特征，通过语义预测，确定对待识别图像的识别结果。利用具有对齐约束的映射矩阵分别对待识别图像的视觉特征和描述信息的自然语言特征进行特征映射，得到了特征对齐后的第一目标特征和第二目标特征，再对第一目标特征和第二目标特征进行融合，得到特征准确度高且特征丰富度高的联合特征来进行语义预测，提升了图像识别的准确度。

附图说明

图1是本说明书一个实施例提供的一种图像识别方法的流程图；

图2是本说明书一个实施例提供的一种图像识别的数据处理方法的流程图；

图3是本说明书一个实施例提供的一种建筑物识别方法的流程图；

图4是本说明书一个实施例提供的一种应用于地物分类的图像识别方法的处理过程流程图；

图5是本说明书一个实施例提供的一种图像识别方法的流程示意图；

图6是本说明书一个实施例提供的一种图像识别装置的结构示意图；

图7是本说明书一个实施例提供的一种图像识别的数据处理装置的结构示意图；

图8是本说明书一个实施例提供的一种建筑物识别装置的结构示意图；

图9是本说明书一个实施例提供的一种计算设备的结构框图。

具体实施方式

在下面的描述中阐述了很多具体细节以便于充分理解本说明书。但是本说明书能够以很多不同于在此描述的其它方式来实施，本领域技术人员可以在不违背本说明书内涵的情况下做类似推广，因此本说明书不受下面公开的具体实施的限制。

在本说明书一个或实施例中使用的术语是仅仅出于描述特定实施例的目的，而非旨在限制本说明书一个或实施例。在本说明书一个或实施例和所附权利要求书中所使用的单数形式的“一种”、“所述”和“该”也旨在包括多数形式，除非上下文清楚地表示其他含义。还应当理解，本说明书一个或实施例中使用的术语“和/或”是指并包含一个或相关联的列出项目的任何或所有可能组合。

应当理解，尽管在本说明书一个或实施例中可能采用术语第一、第二等来描述各种信息，但这些信息不应限于这些术语。这些术语仅用来将同一类型的信息彼此区分开。例如，在不脱离本说明书一个或实施例范围的情况下，第一也可以被称为第二，类似地，第二也可以被称为第一。取决于语境，如在此所使用的词语“如果”可以被解释成为“在……时”或“当……时”或“响应于确定”。

首先，对本说明书一个或实施例涉及的名词术语进行解释。

ProtoPNet(Prototypical Part Network，原型网络)模型：一种用于学习语义信息的自解释神经网络模型。

MA(Manifold Alignment，流型对齐)：数据流型对齐方法。通过将不同的特征空间的投射至相同的特征空间中，进而保留了原有流型中特征的局部几何结构。

流型：局部具有欧几里得空间性质的特征空间。

Stiefel Manifold(斯蒂弗尔流型)：斯蒂弗尔流型Vn,k由欧几里得空间Rⁿ的所有正交归一的k维坐标组成。

CNN(Convolutional Neural Networks，卷积神经网络)模型：一种具有前向传播和反向传播的多层神经网络模型。

ResNet(Deep residual Network，深度残差神经网络)模型：一种具有超多层网络结构和残差处理模块的神经网络模型架构，其通过超多层网络结构实现更准确地提取视觉特征，同时由于残差处理模块避免了梯度消失和梯度爆炸等稳定性问题。对衍生模型包括ResNet-50模型，ResNet-101模型等。

U-Net模型：一种带有前向通路的编解码网络结构，是一种全卷积网络结构。包括压缩路径和扩展路径，在压缩路径上对某分辨率的输入图像进行下采样处理，在扩展路径上对经过下采样的图像进行扩展得到对应分辨率的输出图像，U-Net对于局部特征具有很强的保留能力，使得输出图像的局部细节具有高还原度。

VGG模型(Visual Geometry Group Network，视觉几何群网络模型)：一种具有小卷积层、小池化层、层数更深特征图更宽特点的神经网络模型。

ViT(Vision Transformer)模型：一种应用于视觉图像处理的Transformer衍生模型。其中，Transformer(翻译)模型是一种基于注意力机制的神经网络模型，通过注意力机制提取、分析数据的特征，可以用于对自然语言数据，也可以用于图像数据。

Transformer(翻译)模型：一种基于注意力机制的神经网络模型，通过注意力机制提取、分析数据的特征，可以用于对自然语言数据，也可以用于图像数据。本说明书一个或多个实施例用于对图像数据的特征提取和分析。

BERT(Bidirectional Encoder Representations from Transformer，双向语义编码)模型：一种对Transformer的优化神经网络模型，通过注意力机制提取、分析自然语言文本。

RoBERTa模型：一种对BERT模型进行适应性调整的神经网络模型，通过调整BERT模型对自然语言文本的编码机制，更好地实现对复杂编码的自然语言文本的特征提取。

RNN(Recurrent Neural Network,循环神经网络)模型：是一类以自然语言序列为输入，在序列的演进方向进行递归且所有节点按链式连接的递归神经网络模型。

MLP(MLP，Multilayer Perceptron,多层感知机)模型：也叫人工神经网络(ANN，Artificial Neural Network)，除了输入输出层，它中间可以有多个隐藏层，多个隐藏层之间全连接。

特征映射，将某一特征空间下的特征，映射至另一特征空间的特征处理方法，本说明书中是通过映射矩阵实现。

目前，对于图像识别，通过提升视觉特征的可解释性，对应于特定的语义信息，进行语义预测，得到识别结果。例如，使用ProtoPNet模型进行图像识别，或者使用ResNet模型进行图像识别。

然而，由于缺乏其他描述信息，紧紧依靠于单一模态的视觉特征来进行语义预测，得到识别结果。对于神经网络模型的预训练要求过高，需要有大量准确的样本图像进行训练，使得训练出来高精度和高解释性的神经网络模型可以充分挖掘待识别图像的信息，得到准确度高且丰富度高的视觉特征，以此来进行语义预测，得到识别结果，否则，易导致图像识别的准确度不足。

在本说明书中，提供了一种图像识别方法，本说明书同时涉及一种图像识别的数据处理方法，一种建筑物识别方法，一种图像识别装置，一种图像识别的数据处理装置，一种建筑物识别装置，一种计算设备，一种计算机可读存储介质以及一种计算机程序，在下面的实施例中逐一进行详细说明。

参见图1，图1示出了本说明书一个实施例提供的一种图像识别方法的流程图，包括如下具体步骤：

步骤102：获取待识别图像以及待识别图像对应的描述信息。

本说明书实施例应用于具有图像识别功能的应用的客户端或者服务端。本说明书实施例应用于人脸识别、水体识别、建筑物识别、地物分类、动植物识别、商品识别等多个领域。

待识别图像为包含待识别的目标物的多媒体图像。待识别图像可以为采集设备采集的图像，例如，照相机采集的照片、摄像机采集的视频中的视频帧或者遥感设备采集的遥感图像等。也可以为人工或者神经网络模型生成的图像，例如，人工或者神经网络模型生成的图片或者视频中的视频帧。

待识别图像对应的描述信息为对待识别图像中的目标物进行自然语言描述的信息，可以为文本信息，也可以为音频信息，还可以为包含自然语言文本的图像信息，在此不做限定。例如，待识别图像包含待识别的目标物：东北虎，对应的描述信息为文本信息“猫科动物、豹属、虎亚种、身长3米”。

获取待识别图像以及待识别图像对应的描述信息，可以为获取用户通过客户端的前端上传的待识别图像和待识别图像对应的描述信息，也可以为获取图像数据库中的待识别图像，并获取用户通过客户端的前端上传的对应于待识别图像的描述信息，还可以为获取图像数据库中的待识别图像和待识别图像对应的描述信息，其中，图像数据库可以为本地数据库，也可以为远程数据库，在此不做限定。

示例性地，获取用户通过客户端的前端上传的待识别图像Image1和待识别图像Image1对应的描述信息TextToImage1。

获取待识别图像以及待识别图像对应的描述信息，为后续进行编码，获得对应的视觉特征和自然语言特征提供了数据基础。

步骤104：分别对待识别图像和描述信息进行编码，获得待识别图像的视觉特征和描述信息的自然语言特征。

视觉特征为待识别图像在视觉模态下的图像特征，自然语言特征为描述信息在文本模态下的特征，例如，描述信息为音频信息Audio：“该动物为猫科动物豹属虎亚种，其身长3米”，对其进行音频文本转换(语音识别)，得到文本模态下的自然语言特征。

对待识别图像及描述信息分别进行编码，获得待识别图像的视觉特征和描述信息的自然语言特征，具体方式为，利用图像特征编码器，对待识别图像进行特征编码，得到待识别图像对应的视觉特征，并利用自然语言特征编码器，对描述信息进行编码，获得描述信息对应的自然语言特征。其中，图像特征编码器为图像处理模型的特征编码器，例如，CNN模型的特征编码器、ResNet模型的特征编码器、U-Net模型的特征编码器、VGG模型的特征编码器和ViT模型的特征编码器等，模态特征编码器可以为文本处理模型或者音频处理模型的特征编码器，例如，CNN模型的特征编码器、RNN模型的特征编码器、Transformer模型的特征编码器、BERT模型的特征编码器、RoBERTa模型的特征编码器等。

示例性地，利用CNN模型的特征编码器，对待识别图像Image1进行特征编码，得到待识别图像Image1对应的视觉特征Feature_Image1，并利用BERT模型的特征编码器，对描述信息TextToImage1进行编码，获得描述信息TextToImage1对应的自然语言特征Feature_TextToImage1。

分别对待识别图像和描述信息进行编码，获得待识别图像的视觉特征和描述信息的自然语言特征，为后续得到第一目标特征和第二目标特征奠定了特征基础。

步骤106：利用第一映射矩阵和第二映射矩阵，分别对视觉特征和自然语言特征进行特征映射，得到第一目标特征和第二目标特征，其中，第一映射矩阵和第二映射矩阵之间具有对齐约束关系。

第一映射矩阵为对视觉特征进行特征映射的矩阵，第二映射矩阵为对自然语言特征进行特征映射的矩阵，第一映射矩阵和第二映射矩阵之间具有对齐约束，即通过映射矩阵对初始特征进行映射，得到的目标特征与初始特征之间保持局部几何结构且相似特征在映射后特征空间内距离近。为后续进行融合奠定了基础的同时，保留了原有特征的特征信息，提升了后续融合得到的联合特征的准确度，提升了后续图像识别的准确度。

第一目标特征为经过特征映射的视觉模态下的图像特征，第二目标特征为经过特征映射的自然语言特征，第一目标特征和第二目标特征为经过流型对齐的特征。

利用第一映射矩阵和第二映射矩阵，分别对视觉特征和自然语言特征进行特征映射，得到第一目标特征和第二目标特征，具体方式为，利用第一映射矩阵和第二映射矩阵，分别对视觉特征和自然语言特征进行特征映射，根据目标约束条件，得到第一目标特征和第二目标特征。其中，目标约束条件为预先设定的特征映射约束条件，例如，正交特征约束、拉普拉斯特征约束和拉格朗日特征约束等。

示例性地，利用第一映射矩阵MappingMatrix1和第二映射矩阵MappingMatrix2，分别对视觉特征Feature_Image1和自然语言特征Feature_TextToImage1进行特征映射，根据目标约束条件，得到第一目标特征Feature_TargetImage1和第二目标特征Feature_TargetTextToImage1。

利用具有对齐约束关系的第一映射矩阵和第二映射矩阵，分别对视觉特征和自然语言特征进行特征映射，得到了准确度更高的第一目标特征和第二目标特征，为后续得到准确度更高的联合特征奠定了基础。

步骤108：对第一目标特征和第二目标特征进行融合，得到联合特征。

联合特征为视觉模态和自然语言模态下的多模态融合特征。

对第一目标特征和第二目标特征进行融合，得到联合特征，具体方式为，利用融合特征矩阵，对第一目标特征和第二目标特征进行融合，得到联合特征，其中，融合特征矩阵是第一映射矩阵和第二映射矩阵的交集特征矩阵。

需要说明的是，对视觉特征和自然语言特征进行特征对齐后再进行融合，可以保证融合得到的联合特征的准确度。

示例性地，利用融合特征矩阵MixMatrix，对第一目标特征Feature_TargetImage1和第二目标特征Feature_TargetTextToImage1进行融合，得到联合特征Feature_Mixed。

对第一目标特征和第二目标特征进行融合，得到联合特征，得到特征准确度高且特征丰富度高的联合特征，提升了后续进行语义预测的准确度。

步骤110：根据联合特征，通过语义预测，确定对待识别图像的识别结果。

语义预测为根据联合特征确定待识别图像对应的语义信息，例如，在待识别图像为东北虎的照片，描述信息为“猫科动物、豹属、虎亚种、身长3米”，通过上述步骤104至108的处理后，得到联合特征，进行语义预测，确定该待识别图像的语义信息“东北虎”、“华南虎”和“华南虎”。

识别结果为根据联合特征确定的待识别图像的置信度最高的目标语义信息，具体地，应用于前端显示时，目标语义信息可以标注在待识别图像的对应区域，也可以直接以文本形式进行显示，在此不作限定。

根据联合特征，通过语义预测，确定对待识别图像的识别结果，具体方式为，根据联合特征，预测得到待识别图像的语义信息，根据联合特征和语义信息，确定待识别图像的识别结果。

示例性地，根据联合特征Feature_Mixed，预测得到待识别图像Image1的语义信息Semantic，根据联合特征Feature_Mixed和语义信息Semantic，确定待识别图像Image1的识别结果。

本说明书实施例中，获取待识别图像以及待识别图像对应的描述信息，分别对待识别图像和描述信息进行编码，获得待识别图像的视觉特征和描述信息的自然语言特征，利用第一映射矩阵和第二映射矩阵，分别对视觉特征和自然语言特征进行特征映射，得到第一目标特征和第二目标特征，其中，第一映射矩阵和第二映射矩阵之间具有对齐约束关系，对第一目标特征和第二目标特征进行融合，得到联合特征，根据联合特征，通过语义预测，确定对待识别图像的识别结果。利用具有对齐约束的映射矩阵分别对待识别图像的视觉特征和描述信息的自然语言特征进行特征映射，得到了特征对齐后的第一目标特征和第二目标特征，再对第一目标特征和第二目标特征进行融合，得到特征准确度高且特征丰富度高的联合特征来进行语义预测，提升了图像识别的准确度。

可选地，步骤106包括如下具体步骤：

利用第一映射矩阵和第二映射矩阵，分别对视觉特征和自然语言特征进行特征映射，以映射得到的目标特征矩阵正交为约束条件，求得第一目标特征和第二目标特征。

目标特征矩阵为对第一映射矩阵和第二映射矩阵进行校正后的目标矩阵，包括目标视觉特征矩阵和目标自然语言特征矩阵，目标特征矩阵正交即为目标视觉特征矩阵和目标自然语言特征矩阵各自内部特征正交，例如，视觉特征的映射矩阵维度是一个D×D维度的矩阵P_v，目标视觉特征矩阵正交的约束条件即为P_v^TP_v＝I。通过设定该目标特征矩阵正交的约束条件，使得映射前后的目标特征和初始特征之间的紧邻性保持稳定(原本特征距离近的特征，经过映射依然保证特征距离近)，进而保证了映射后的目标特征的准确度。

目标特征矩阵正交的约束条件如公式1所表征：

其中，d()表征特征距离求解，

()表征特征的映射处理，P_v为第一映射矩阵，

为第一映射矩阵的转置矩阵。

利用第一映射矩阵和第二映射矩阵，分别对视觉特征和自然语言特征进行特征映射，以映射得到的目标特征矩阵正交为约束条件，求得第一目标特征和第二目标特征，具体方式为，利用第一映射矩阵和第二映射矩阵，分别对视觉特征和自然语言特征进行特征映射，以映射得到的目标视觉特征矩阵和目标自然语言特征矩阵各自正交为约束条件，求得第一目标特征和第二目标特征。

示例性地，利用第一映射矩阵MappingMatrix1和第二映射矩阵MappingMatrix2，分别对视觉特征Feature_Image1和自然语言特征Feature_TextToImage1进行特征映射，以映射得到的目标视觉特征矩阵TargetMatrix1和目标自然语言特征矩阵TargetMatrix2各自正交为约束条件，求得第一目标特征Feature_TargetImage1和第二目标特征Feature_TargetImage2。

利用第一映射矩阵和第二映射矩阵，分别对视觉特征和自然语言特征进行特征映射，以映射得到的目标特征矩阵正交为约束条件，求得第一目标特征和第二目标特征。保证了特征映射前后的特征紧邻性保持不变，提升了映射后的目标特征的准确度，提升了联合特征的准确度，进而提升了图像识别的准确度。

可选地，利用第一映射矩阵和第二映射矩阵，分别对视觉特征和自然语言特征进行特征映射，以映射得到的目标特征矩阵正交为约束条件，求得第一目标特征和第二目标特征，包括如下具体步骤：

利用第一映射矩阵和第二映射矩阵，分别将视觉特征和自然语言特征进行特征映射至目标正交流型空间；

在目标正交流型空间上进行优化求解，得到第一目标特征和第二目标特征。

需要说明的是流型空间为一种数据降维方式，通过将高维的特征降维至低维的特征，由于视觉特征和自然语言特征的特征维度不一致，通过特征映射进行对齐后，才能保证特征融合的准确度，另外，在特征降维的过程中需要尽量保证信息不遗失，因而需要对齐进行约束限制，本说明书实施例是通过正交流型空间进行限制，保证了保持原有的特征局部几何结构，同时保证映射前后的目标特征和初始特征之间的紧邻性保持稳定。因而，对齐约束关系可以转化为下述公式2的约束的优化求解：

其中，J()为常微分方程的求解，tr()为矩阵的对角线求和，P_v为第一映射矩阵，

为第一映射矩阵的转置矩阵，P_l为第二映射矩阵，

为第二映射矩阵的转置矩阵。

其中W_vl为视觉特征和自然语言特征之间的对应矩阵，具体对应矩阵的计算过程如公式3所示：

其中

是对应矩阵的位置的每个元素值，φ_i(X_v)代表一个取特征操作，具体为取视觉特征X_v的第i个位置的特征，φ_j(X_l)代表取自然语言特征X_l的第j个位置的特征，而

表示第j个位置的自然语言特征的最近的k个近邻特征，

代表第i个位置的视觉特征的最近的k个近邻特征。如果第i位置的视觉特征在第j位置的自然语言特征的k个最近邻特征中，则矩阵对应位置元素值

为1，否则为0。

目标正交流型空间为第一映射矩阵或者第二映射矩阵的正交归一的特征维度组成的流型空间。例如，第一映射矩阵为R^m的特征矩阵P_v，正交归一的特征维度(小于等于m)构成目标正交流型空间P_v’，第二映射特征为Rⁿ的特征矩阵P_l，正交归一的特征维度(小于等于n)构成目标正交流型空间P_l’。需要说明的是，目标正交流型可以为斯蒂弗尔流型，也可以为高斯流型，还可以为黎曼流型，在此不作限定。

在目标正交流型空间上进行优化求解，得到第一目标特征和第二目标特征，具体方式为，利用预设优化方法，在目标正交流型空间上进行优化求解，得到第一目标特征和第二目标特征。其中，预设优化方法为预设的流型空间优化方法，例如，黎曼优化方法和凯利变化优化等方法。

示例性地，利用第一映射矩阵MappingMatrix1和第二映射矩阵MappingMatrix2，分别将视觉特征Feature_Image1和自然语言特征Feature_TextToImage1进行特征映射至目标正交流型空间TargetMatrix，利用黎曼优化方法，在目标正交流型空间TargetMatrix上进行优化求解，求得第一目标特征Feature_TargetImage1和第二目标特征Feature_TargetImage2。

利用第一映射矩阵和第二映射矩阵，分别将视觉特征和自然语言特征进行特征映射至目标正交流型空间，在目标正交流型空间上进行优化求解，得到第一目标特征和第二目标特征。保证了保持原有的特征局部几何结构，同时保证映射前后的目标特征和初始特征之间的紧邻性保持稳定，进一步提升了映射后的目标特征的准确度，进一步提升了联合特征的准确度，进而提升了图像识别的准确度。

可选地，在目标正交流型空间上进行优化求解，得到第一目标特征和第二目标特征，包括如下具体步骤：

对映射至目标正交流型空间的视觉特征和自然语言特征进行凯利变换优化，得到第一目标特征和第二目标特征。

凯利变化优化为在目标正交流型空间的解域内进行目标曲线搜索，迭代更新得到优化后的目标正交流型空间的方法。具体的凯利变化优化计算公式如公式4所示：

其中，

表征第t+1次迭代更新的第一映射矩阵，

表征第t次迭代更新的第一映射矩阵，

表征第t+1次迭代更新的第二映射矩阵，

表征第t次迭代更新的第二映射矩阵，η_v表征第一映射矩阵的学习率，η_l表征第二映射矩阵的学习率，A_v表征第一映射矩阵经过凯利变化后的矩阵，A_l表征第二特征矩阵经过凯利变化后的矩阵。需要说明的是，A的计算公式如公式5所示：

A＝G(P^t)-P^t·G^t 公式5

其中，G为梯度，可以求得梯度的闭式解如公式6所示：

其中，G_v表征视觉特征的闭式解，G_l表征自然语言特征的闭式解。

对映射至目标正交流型空间的视觉特征和自然语言特征进行凯利变换优化，得到第一目标特征和第二目标特征，具体方式为，在目标正交流型空间的解域内进行目标曲线搜索，迭代更新得到优化后的目标正交流型空间，利用优化后的目标正交流型空间对视觉特征和自然语言特征进行校正，得到第一目标特征和第二目标特征。

示例性地，在目标正交流型空间TargetMatrix的解域(P＝{P∈R^C×C：P^TP＝I})内进行目标曲线搜索，迭代更新得到优化后的目标正交流型空间TargetMatrix’，利用优化后的目标正交流型空间TargetMatrix’对视觉特征Feature_Image1和自然语言特征Feature_TextToImage1进行校正，得到第一目标特征Feature_TargetImage1和第二目标特征Feature_TargetImage2。

对映射至目标正交流型空间的视觉特征和自然语言特征进行凯利变换优化，得到第一目标特征和第二目标特征，保证了保持原有的特征局部几何结构，同时保证映射前后的目标特征和初始特征之间的紧邻性保持稳定，进一步提升了映射后的目标特征的准确度，进一步提升了联合特征的准确度，进而提升了图像识别的准确度。

可选地，步骤110包括如下具体步骤：

根据联合特征，预测待识别图像的语义信息；

根据联合特征和语义信息，确定语义信息的热力参数；

基于热力参数，确定对待识别图像的识别结果。

待识别图像的语义信息为待识别图像中目标物的语义概念。待识别图像的语义信息为至少一个，例如，待识别图像为某猫科动物的照片，该待识别图像的语义信息有：“东北虎”、“雪豹”、“美洲狮”。

语义信息的热力参数为对应表征语义概念置信度的参数值。可以为热力图，也可以为通过全连接来量化各语义信息的贡献值。例如，某猫科动物的照片的语音信息对应的热力参数为“东北虎”-0.8“雪豹”-0.15“美洲狮”-0.05。

根据联合特征和语义信息，确定语义信息的热力参数，具体方式为，根据联合特征和语义信息之间的置信度，确定语义信息的热力参数。

基于热力参数，确定对待识别图像的识别结果，具体方式为，基于热力参数，按照预设热力参数判断方法，确定对待识别图像的识别结果。其中，预设热力参数判断方法可以为确定热力参数最高的一个或多个语义信息，也可以为对热力参数进行加权计算，在此不作限定。

示例性地，根据联合特征Feature_Mixed，预测待识别图像Image1的N个语义信息，根据联合特征Feature_Mixed和N个语义信息之间的置信度，确定N个语义信息的热力参数{V1，V2……VN}，确定热力参数{V1，V2……VN}最高的语义信息为待识别图像的识别结果。

根据联合特征，预测待识别图像的语义信息，根据联合特征和语义信息，确定语义信息的热力参数，基于热力参数，确定对待识别图像的识别结果。利用预测的语义信息和对应的热力参数，确定识别结果，提升了图像识别的准确度。

可选地，根据联合特征和语义信息，确定语义信息的热力参数，包括如下具体步骤：

计算联合特征和语义信息之间的欧式距离，获得语义信息的热力参数。

计算联合特征和语义信息之间的欧式距离，获得语义信息的热力参数，具体方式为，计算联合特征和语义信息之间的欧式距离，将欧式距离作为激活图，从激活图中确定语义信息的热力参数。进一步地，从激活图中确定语义信息的热力参数，具体方式为，确定激活图中最大值为语义信息的热力参数。

示例性地，计算联合特征Feature_Mixed和N个语义信息之间的欧式距离：d1，d2……dN，将欧式距离(d1，d2……dN)作为激活图，确定激活图中最大值dM为语义信息的热力参数：VM。

计算联合特征和语义信息之间的欧式距离，获得语义信息的热力参数，进而得到更为准确的识别结果，提升了图像识别的准确度。

可选地，基于热力参数，确定对待识别图像的识别结果，包括如下具体步骤：

基于热力参数，计算语义信息的分类权重；

基于分类权重，利用分类器进行分类，得到对待识别图像的识别结果。

语义信息的权重为语义信息对应的识别权重，例如，语义信息为“雪豹”，其识别权重为0.2，语义信息为“东北虎”，其识别权重为0.7。

分类器为具有图像语义信息分类功能的模块，例如，近邻分类器、贝叶斯分类器、线性分类器、支撑向量机分类器、神经网络分类器。

基于热力参数，计算语义信息的分类权重，具体方式为，基于热力参数，按照预设权重计算方法，计算各语义信息的分类权重。

基于分类权重，利用分类器进行分类，得到对待识别图像的识别结果，具体方式为，基于语义信息和语义信息的分类权重，利用分类器进行分类，得到对待识别图像的识别结果。

示例性地，基于热力参数，按照预设权重计算方法，计算N个语义信息的分类权重：ω₁、ω₂……ω_N，基于N个语义信息和语义信息的分类权重(ω₁、ω₂……ω_N)，利用线性分类器进行分类，得到对待识别图像Image1的识别结果。

基于热力参数，计算语义信息的分类权重，基于分类权重，利用分类器进行分类，得到对待识别图像的识别结果。利用分类权重和分类器，保证了分类的准确度，进一步提升了图像识别的准确度。

可选地，基于分类权重，利用分类器进行分类，得到对待识别图像的识别结果，包括如下具体步骤：

基于分类权重，利用分类器中全连接层对分类权重进行加权，得到对待识别图像的识别结果。

本说明书实施例中，分类器为神经网络分类器，可以为MLP模型，也可以为其他前馈型神经网络模型，还可以反馈型神经网络模型，在此不作限定。分类器中的全连接层对隐藏层的最后隐藏层的输出进行加权计算，得到加权结果。

基于分类权重，利用分类器中全连接层对分类权重进行加权，得到对待识别图像的识别结果，具体方式为，基于语义信息和语义信息的分类权重，利用分类器中全连接层对分类权重进行加权，得到对待识别图像的识别结果。更进一步地，利用分类器中全连接层对分类权重进行加权，得到对待识别图像的识别结果，具体方式为，利用分类器中全连接层对分类权重进行加权，得到加权结果，根据加权结果确定对应的语义信息为待识别图像的识别结果。

示例性地，基于语义信息和语义信息的分类权重，利用分类器中全连接层对分类权重进行加权，得到加权结果，根据加权结果确定对应的语义信息为待识别图像的识别结果。

基于分类权重，利用分类器中全连接层对分类权重进行加权，得到对待识别图像的识别结果。利用分类器中全连接层对分类权重进行加权，提升了分类的准确度，进一步提升了图像识别的准确度。

可选地，根据联合特征，预测待识别图像的语义信息，包括如下具体步骤：

将联合特征输入预先训练的语义预测模型，预测得到待识别图像的语义信息。

语义预测模型为具有语义信息预测功能的神经网络模型，语义预测模型使得图像识别具有可解释性。语义预测模型为预先训练的。语义预测模型可以为ProtoPNet模型，也可以为ResNet模型，还可以为BERT模型、Transformer模型、ViT模型等，在此不作限定。

将联合特征输入预先训练的语义预测模型，预测得到待识别图像的语义信息，具体方式为，将联合特征输入预先训练的语义预测模型，基于联合特征的多模态融合特征，预测得到待识别图像的语义信息。

示例性地，将联合特征Feature_Mixed输入预先训练的ProtoPNet模型，基于联合特征Feature_Mixed的多模态融合特征信息，预测得到待识别图像Image1的语义信息。

将联合特征输入预先训练的语义预测模型，预测得到待识别图像的语义信息。利用预先训练的语义预测模型，提升了预测得到的语义信息的准确度，提升了预测得到语义信息的效率，进而提升了图像识别的识别效率。

可选地，在确定对待识别图像的识别结果之后，还包括如下具体步骤：

将识别结果发送至前端；

接收前端发送的用户对识别结果的编辑信息；

基于编辑信息，对语义预测模型进行微调。

前端为具有图像识别功能的应用的客户端前端。前端可以对图像进行显示，对识别结果进行显示，供用户对识别结果进行编辑操作。

编辑信息为前端根据用户针对识别结果进行编辑操作生成的结果信息。

示例性地，将待识别图像的识别结果(区域1：华南虎、区域2：松木)发送至前端，用户针对前端显示的识别结果进行编辑操作，前端生成编辑信息(松木编辑为柏木)，接收前端发送的编辑信息，基于编辑信息，微调ProtoPNet模型。

将识别结果发送至前端，接收前端发送的用户对识别结果的编辑信息，基于编辑信息，对语义预测模型进行微调。将识别结果发送至前端，方便用户进一步进行对应编辑操作，提升了交互性和用户体验，基于编辑结果，微调语义预测模型。提升了语义预测模型的模型性能，提升了后续应用中图像识别的准确度。可选地，在将联合特征输入预先训练的语义预测模型，预测得到待识别图像的语义信息之前，还包括如下具体步骤：

利用第一映射矩阵和第二映射矩阵，分别对第一视觉特征和第一自然语言特征进行特征映射，得到第一视觉映射特征和第一自然语言映射特征；

根据损失值，调整语义预测模型的模型参数，返回执行从样本集中提取第一样本组的步骤，直至达到预设训练结束条件，获得完成训练的语义预测模型。

样本集为进行图像识别的样本图像构成的样本图像集合，样本集包括多个样本组，任一样本组包括样本图像、样本图像对应的样本描述信息和样本图像的语义识别标签。样本图像包含待识别的样本物的多媒体图像，样本图像可以为利用图像识别的历史图像构建得到，也可以为人工生成的，还可以为从图像数据库中获取得到，其中，图像数据库可以为本地图像数据库，也可以为远程图像数据库，例如，开源图像数据库，在此不作限定。样本描述信息为对样本图像中的样本物进行自然语言描述的信息，可以为文本信息，也可以为音频信息，还可以为包含自然语言文本的图像信息，在此不作限定。样本描述信息可以为利用图像识别的历史描述信息构建得到，也可以为人工生成的，还可以为从信息数据库中获取得到，其中，信息数据库可以为本地信息数据库，也可以为远程信息数据库，例如，开源信息数据库，在此不作限定。样本图像的语义识别标签为样本图像中的语义信息对应的识别标签。语义识别标签可以为利用图像识别的历史识别结果标注得到，也可以为人工标注得到，在此不作限定。需要说明的是，样本集是根据样本物进行分批的，分批得到的任一样本组中的样本物可以相同，也可以为对应相同的语义信息，还可以为具有高关联性，在此不作限定。

预设训练结束条件为预先设定的训练结束的判断条件，可以为预设的训练的迭代次数阈值，也可以为预设的损失值阈值，还可以为预设的样本组相关判断条件，例如，样本集中所有样本组都完成参与训练，或者样本集中任一样本组参与预设次数的训练等。

根据预测语义信息和第一样本图像的语义识别标签，计算损失值，具体方式为，根据预测语义信息和第一样本图像的语义识别标签，计算得到交叉熵损失、聚集损失和/或分离损失，根据交叉熵损失、聚集损失和/或分离损失，确定损失值。更进一步地，根据交叉熵损失、聚集损失和/或分离损失，确定损失值，可以为对交叉熵损失、聚集损失和分离损失进行加权计算，确定损失值。

需要说明的是，根据交叉熵损失对语义预测模型进行参数调整，保证了后续进行分类的分类准确度，根据聚集损失对语义预测模型进行参数调整，保证了高关联性的语义信息的特征之间特征距离较为集中，根据分离损失对语义预测模型进行参数调整，保证了低关联性的语义信息的特征之间的特征距离较为分散。

交叉熵损失计算公式如公式7所示：

其中，y表示语义识别标签，

表示预测语义信息。

聚集损失计算公式如公式8所示：

其中，b_j表示语义预测模型中第j个语义信息原型，Z_vl为第一联合特征。

分离损失计算公式如公式9所示：

根据损失值，调整语义预测模型的模型参数，具体方式为，根据损失值，利用梯度下降法，调整语义预测模型的模型参数。

其余步骤的具体实现方式与上述图像识别过程中的步骤一致，在此不再赘述。

示例性地，获取样本集Sample_Set，从样本集Sample_Set中提取第一样本组Sample_Group 1，对第一样本组Sample_Group 1中的第一样本图像SampleImage1和第一样本描述信息SampleTextToImage1分别进行编码，获得对应的第一视觉特征Feature_SampleImage1和第一自然语言特征Feature_SampleTextToImage1，利用第一映射矩阵MappingMatrix1和第二映射矩阵MappingMatrix2，分别对第一视觉特征Feature_SampleImage1和第一自然语言特征Feature_SampleTextToImage1进行特征映射，得到第一视觉映射特征Feature_TargetSampleImage1和第一自然语言映射特征Feature_TargetSampleTextToImage1，对第一视觉映射特征Feature_TargetSampleImage1和第一自然语言映射特征Feature_TargetSampleTextToImage1进行融合，得到第一联合特征Feature_Mixed1，将第一联合特征Feature_Mixed1输入ProtoPNet模型，预测得到第一样本图像SampleImage1的预测语义信息Info1，根据预测语义信息Info1和第一样本图像的语义识别标签Label1，计算得到交叉熵损失L1、聚集损失L2和分离损失L3，对交叉熵损失L1、聚集损失L2和分离损失L3进行加权计算，确定损失值Loss，根据损失值Loss，调整ProtoPNet模型的模型参数，返回执行从样本集Sample_Set中抽取第一样本组Sample_Group1的步骤，直至达到预设损失值阈值的情况下，获得完成训练的ProtoPNet模型。

获取样本集，其中，样本集包括多个样本组，样本组包括样本图像、样本图像对应的样本描述信息和样本图像的语义识别标签，从样本集中提取第一样本组，其中，第一样本组为多个样本组中任一个，对第一样本组中的第一样本图像和第一样本描述信息分别进行编码，获得对应的第一视觉特征和第一自然语言特征，利用第一映射矩阵和第二映射矩阵，分别对第一视觉特征和第一自然语言特征进行特征映射，得到第一视觉映射特征和第一自然语言映射特征，对第一视觉映射特征和第一自然语言映射特征进行融合，得到第一联合特征，将第一联合特征输入语义预测模型，预测得到第一样本图像的预测语义信息，根据预测语义信息和第一样本图像的语义识别标签，计算损失值，其中，损失值包括交叉熵损失、聚集损失和分离损失中的至少一种，根据损失值，调整语义预测模型的模型参数，返回执行从样本集中提取第一样本组的步骤，直至达到预设训练结束条件，获得完成训练的语义预测模型。通过包括交叉熵损失、聚集损失和分离损失中至少一种的损失值对语义模型进行预训练，提升了训练得到的语义预测模型的模型性能，提升了预测得到的语义信息的准确度，提升了分类准确度，进而提升了图像识别的准确度。

参见图2，图2示出了本说明书一个实施例提供的一种图像识别的数据处理方法的流程图，该方法应用于云侧设备，包括如下具体步骤：

步骤202：获取样本集，其中，样本集包括多个样本组，样本组包括样本图像、样本图像对应的样本描述信息和样本图像的语义识别标签；

步骤204：从样本集中提取第一样本组，其中，第一样本组为多个样本组中任一个；

步骤206：对第一样本组中的第一样本图像和第一样本描述信息分别进行编码，获得对应的第一视觉特征和第一自然语言特征；

步骤208：利用第一映射矩阵和第二映射矩阵，分别对第一视觉特征和第一自然语言特征进行特征映射，得到第一视觉映射特征和第一自然语言映射特征，其中，第一映射矩阵和第二映射矩阵之间具有对齐约束关系；

步骤210：对第一视觉映射特征和第一自然语言映射特征进行融合，得到第一联合特征；

步骤212：将第一联合特征输入语义预测模型，预测得到第一样本图像的预测语义信息；

步骤214：根据预测语义信息和第一样本图像的语义识别标签，计算损失值，其中，损失值包括交叉熵损失、聚集损失和分离损失中的至少一种；

步骤216：根据损失值，调整语义预测模型的模型参数，返回执行从样本集中提取第一样本组的步骤，直至达到预设训练结束条件，获得完成训练的语义预测模型；

步骤218：将语义预测模型的模型参数发送至端侧设备。

本说明书实施例应用于云侧设备，其中，云侧设备为提供模型预训练功能的网络云侧设备，为一种虚拟设备。端侧设备为提供图像识别功能的终端设备，是一种实体设备。

云侧设备为提供模型训练功能的网络云侧设备，为一种虚拟设备。端侧设备为提供图像识别功能的应用的终端设备，是一种实体设备。云侧设备和端侧设备通过网络传输信道连接，进行数据传输。

步骤202至步骤216的具体方式已经在上述图1实施例中详细说明，在此不再赘述。

本说明书实施例中，获取样本集，其中，样本集包括多个样本组，样本组包括样本图像、样本图像对应的样本描述信息和样本图像的语义识别标签，从样本集中提取第一样本组，其中，第一样本组为多个样本组中任一个，对第一样本组中的第一样本图像和第一样本描述信息分别进行编码，获得对应的第一视觉特征和第一自然语言特征，利用第一映射矩阵和第二映射矩阵，分别对第一视觉特征和第一自然语言特征进行特征映射，得到第一视觉映射特征和第一自然语言映射特征，对第一视觉映射特征和第一自然语言映射特征进行融合，得到第一联合特征，将第一联合特征输入语义预测模型，预测得到第一样本图像的预测语义信息，根据预测语义信息和第一样本图像的语义识别标签，计算损失值，其中，损失值包括交叉熵损失、聚集损失和分离损失中的至少一种，根据损失值，调整语义预测模型的模型参数，返回执行从样本集中提取第一样本组的步骤，直至达到预设训练结束条件，获得完成训练的语义预测模型。通过包括交叉熵损失、聚集损失和分离损失中至少一种的损失值对语义模型进行预训练，提升了训练得到的语义预测模型的模型性能，提升了预测得到的语义信息的准确度，提升了分类准确度，进而提升了图像识别的准确度。

参见图3，图3示出了本说明书一个实施例提供的一种建筑物识别方法的流程图，包括如下具体步骤：

步骤302：接收前端发送的建筑物识别请求，其中，建筑物识别请求携带有待识别图像以及待识别图像的建筑物描述信息。

本说明书实施例应用于具有建筑物识别功能的应用的客户端或者服务端。

建筑物识别请求为前端发送的针对待识别图像中的建筑物进行识别的请求指令。携带有待识别图像以及建筑物描述信息。

建筑物描述信息为对待识别图像中的建筑物进行自然语言描述的信息，可以为文本信息，也可以为音频信息，还可以为包含自然语言文本的图像信息，在此不做限定。

示例性地，接收前端发送的建筑物识别请求Request，其中，建筑物识别请求Request携带有某区域的航拍照片Image以及该航拍照片Image对应的建筑物描述信息TextToBuilding“该区域的标志性建筑是一栋120层的摩天大楼，外表装有玻璃，楼顶有XX大厦的标识”。

接收前端发送的、携带有待识别图像以及待识别图像的建筑物描述信息的建筑物识别请求，为后续进行编码，获得对应的视觉特征和自然语言特征提供了数据基础。

步骤304：分别对待识别图像及建筑物描述信息进行编码，获得对应的视觉特征和自然语言特征。

步骤304的具体方式与上述图1实施例中的步骤104一致，在此不再赘述。

示例性地，利用CNN模型的特征编码器，对航拍照片进行特征编码，得到对应的视觉特征Feature_Image，并利用BERT模型的特征编码器，对建筑物描述信息“该区域的标志性建筑是一栋120层的摩天大楼，外表装有玻璃，楼顶有XX大厦的标识”进行编码，获得对应的自然语言特征Feature_TextToBuilding。

分别对待识别图像及建筑物描述信息进行编码，获得对应的视觉特征和自然语言特征，为后续得到视觉映射特征和自然语言映射特征奠定了特征基础。

步骤306：利用第一映射矩阵和第二映射矩阵，分别对视觉特征和自然语言特征进行特征映射，得到视觉映射特征和自然语言映射特征，其中，第一映射矩阵和第二映射矩阵之间具有对齐约束关系。

视觉映射特征为经过特征映射的视觉模态下的待识别图像的图像特征，自然语言映射特征为经过特征映射的建筑物描述信息的自然语言特征，视觉映射特征和自然语言映射特征为经过流型对齐的特征。

步骤306的具体方式与上述图1实施例中的步骤106一致，在此不再赘述。

示例性地，利用第一映射矩阵MappingMatrix1和第二映射矩阵MappingMatrix2，分别对视觉特征Feature_Image和自然语言特征Feature_TextToBuilding进行特征映射，根据目标约束条件，得到视觉映射特征Feature_TextToBuilding’和自然语言映射特征Feature_TextToBuilding’。

利用具有对齐约束关系的第一映射矩阵和第二映射矩阵，分别对视觉特征和自然语言特征进行特征映射，得到了准确度更高的视觉映射特征和自然语言映射特征，为后续得到准确度更高的联合特征奠定了基础。

步骤308：对视觉映射特征和自然语言映射特征进行融合，得到联合特征。

步骤308的具体方式与上述图1实施例中的步骤108一致，在此不再赘述。

示例性地，利用融合特征矩阵MixMatrix，对视觉映射特征Feature_TextToBuilding’和自然语言映射特征Feature_TextToBuilding’进行融合，得到联合特征Feature_Mixed。

对视觉映射特征和自然语言映射特征进行融合，得到联合特征，得到特征准确度高且特征丰富度高的联合特征，提升了后续进行语义预测的准确度。

步骤310：根据联合特征，通过语义预测，确定待识别图像的建筑物识别结果。

步骤310的具体方式与上述图1实施例中的步骤110一致，在此不再赘述.

待识别图像的建筑物识别结果为根据联合特征确定的待识别图像的置信度最高的目标语义信息，具体地，应用于前端显示时，目标语义信息可以标注在待识别图像的对应区域，也可以直接以文本形式进行显示，在此不作限定。

示例性地，根据联合特征Feature_Mixed，预测得到航拍照片中建筑物的语义信息Semantic，根据联合特征Feature_Mixed和语义信息Semantic，确定航拍照片的建筑物识别结果：XX大厦。

根据联合特征，通过语义预测，确定待识别图像的识别结果，利用特征准确度高且特征丰富度高的联合特征来进行语义预测，提升了建筑物识别的准确度。

步骤312：将建筑物识别结果发送至前端进行显示。

将识别结果发送至前端进行显示，具体方式为，将识别结果发送至前端进行突出显示。更进一步地，将识别结果发送至前端，利用预设渲染参数，对识别结果进行渲染，突出显示。

将识别结果(XX大厦)发送至前端，利用预设渲染参数，对待识别图像中的识别结果XX大厦进行渲染，突出显示。

需要说明的是，对于水体识别的应用领域，本说明书实施例中步骤302至步骤312具体为：

接收前端发送的水体识别请求，其中，水体识别请求携带有待识别图像以及待识别图像的水体描述信息；分别对待识别图像及水体描述信息进行编码，获得对应的视觉特征和自然语言特征；利用第一映射矩阵和第二映射矩阵，分别对视觉特征和自然语言特征进行特征映射，得到视觉映射特征和自然语言映射特征，其中，第一映射矩阵和第二映射矩阵之间具有对齐约束关系；对视觉映射特征和自然语言映射特征进行融合，得到联合特征；根据联合特征，通过语义预测，确定待识别图像的水体识别结果；将水体识别结果发送至前端进行显示。

需要说明的是，对于地物分类的应用领域，本说明书实施例中步骤302至步骤312具体为：

接收前端发送的地物分类请求，其中，地物分类请求携带有待识别图像以及待识别图像的地物描述信息；分别对待识别图像及地物描述信息进行编码，获得对应的视觉特征和自然语言特征；利用第一映射矩阵和第二映射矩阵，分别对视觉特征和自然语言特征进行特征映射，得到视觉映射特征和自然语言映射特征，其中，第一映射矩阵和第二映射矩阵之间具有对齐约束关系；对视觉映射特征和自然语言映射特征进行融合，得到联合特征；根据联合特征，通过语义预测，确定待识别图像的地物分类结果；将地物分类结果发送至前端进行显示。

本说明书实施例中，接收前端发送的建筑物识别请求，其中，建筑物识别请求携带有待识别图像以及待识别图像的建筑物描述信息；分别对待识别图像及建筑物描述信息进行编码，获得对应的视觉特征和自然语言特征，利用第一映射矩阵和第二映射矩阵，分别对视觉特征和自然语言特征进行特征映射，得到视觉映射特征和自然语言映射特征，其中，第一映射矩阵和第二映射矩阵之间具有对齐约束关系，对视觉映射特征和自然语言映射特征进行融合，得到联合特征，根据联合特征，通过语义预测，确定待识别图像的建筑物识别结果，将建筑物识别结果发送至前端进行显示。利用具有对齐约束的映射矩阵分别对待识别图像的视觉特征和建筑物描述信息的自然语言特征进行特征映射，得到了特征对齐后的视觉映射特征和自然语言映射特征，再对视觉映射特征和自然语言映射特征进行融合，得到特征准确度高且特征丰富度高的联合特征来进行语义预测，得到准确度更高的建筑物识别结果并发送至前端进行显示，提升了对建筑物进行识别的准确度，提升了用户体验。

可选地，在步骤312之后，还包括如下具体步骤：

将识别结果发送至前端；

接收前端发送的用户对识别结果的编辑信息；

基于编辑信息，对语义预测模型进行微调。

本说明书实施例已在上述图1实施中详细说明，在此不再赘述。

将识别结果发送至前端，接收前端发送的用户对识别结果的编辑信息，基于编辑信息，对语义预测模型进行微调。将识别结果发送至前端，方便用户进一步进行对应编辑操作，提升了交互性和用户体验，基于编辑结果，微调语义预测模型。提升了语义预测模型的模型性能，提升了后续应用中对待识别图像中的建筑物进行识别的准确度。

下述结合附图4，以本说明书提供的图像识别方法在地物分类的应用为例，对所述图像识别方法进行进一步说明。其中，图4示出了本说明书一个实施例提供的一种应用于地物分类的图像识别方法的处理过程流程图，包括如下具体步骤：

步骤402：接收前端发送的目标识别请求；

其中，目标识别请求携带有待识别图像以及待识别图像的地物描述信息。

步骤404：利用编码器，分别对待识别图像及地物描述信息分别进行编码，获得对应的视觉特征和自然语言特征；

利用视觉编码器，将待识别图像编码成一个维度为7*7*128的三维张量，图像的空间信息在7*7的维度上被保留。利用自然语言编码器，将描述信息编码成一个维度为30*128的二维矩阵，其中128是概念空间的维度。

步骤406：利用第一映射矩阵和第二映射矩阵，分别将视觉特征和自然语言特征进行特征映射至目标正交流型空间；

计算视觉特征和自然语言特征的近邻关系，形成视觉－自然语言对应目标正交流型空间W。通过流型对齐算法计算的两个第一映射矩阵和第二映射矩阵128*128。

步骤408：对映射至目标正交流型空间的视觉特征和自然语言特征进行凯利变换优化，得到视觉映射特征和自然语言映射特征；

步骤410：对视觉映射特征和自然语言映射特征进行融合，得到联合特征；

将视觉特征和自然语言特征映射到一个子空间中。并在这个子空间中进行特征融合，融合后的特征维度保持视觉特征维度为7*7*128维度张量。

步骤412：将联合特征输入预先训练的语义预测模型，预测得到待识别图像的语义信息；

从融合后的特征中学习语义原型，每个语义信息的维度为1*1*128。

步骤414：计算联合特征和语义信息之间的欧式距离，获得语义信息的热力参数；

计算输入的待识别图像和描述信息对在每个语义信息下的热力图。

步骤416：基于热力参数，计算语义信息的分类权重；

确定该热力图中最大值作为该语义信息的分类权重。

步骤418：基于分类权重，利用分类器中全连接层对分类权重进行加权，得到对待识别图像的地物分类结果；

通过全连接层对各个语义信息的分类权重的加权得到识别结果。

步骤420：将地物分类结果发送至前端进行显示。

本说明书实施例中，利用具有对齐约束的映射矩阵分别对待识别图像的视觉特征和地物描述信息的自然语言特征进行特征映射，得到了特征对齐后的视觉映射特征和自然语言映射特征，再对视觉映射特征和自然语言映射特征进行融合，得到特征准确度高且特征丰富度高的联合特征来进行语义预测，得到准确度更高的地物识别结果并发送至前端进行显示，提升了地物分类的准确度，提升了用户体验。

图5示出了本说明书一个实施例提供的一种图像识别方法的流程示意图。

如图5所示，编码阶段：通过卷积神经网络和BERT模型，分别对待识别图像和描述信息进行编码，得到视觉特征和自然语言特征。流型对齐阶段：利用第一映射矩阵和第二映射矩阵，分别对视觉特征和自然语言特征进行特征映射，得到第一目标特征和第二目标特征，对第一目标特征和第二目标特征进行融合，得到联合特征。语义预测阶段：基于联合特征，预测得到语义信息(语义信息1、语义信息2、语义信息3)，计算联合特征和语义信息之间的欧式距离，获得语义信息的热力图(热力图1、热力图2、热力图3)，基于热力图，计算语义信息的分类权重(分类权重1、分类权重2、分类权重3)，基于分类权重，利用分类器中全连接层对分类权重进行加权，得到对待识别图像的识别结果。

需要说明的是，上述方法实施例中所涉及的待识别图像、描述信息、各模型等信息和数据，均为经用户授权或者经过各方充分授权的信息和数据，并且相关数据的收集、使用和处理需要遵守相关国家和地区的相关法律法规和标准，并提供有相应的操作入口，供用户选择授权或者拒绝。

与上述方法实施例相对应，本说明书还提供了一种图像识别装置实施例，图6示出了本说明书一个实施例提供的一种图像识别装置的结构示意图。如图6所示，该装置包括：

第一获取模块602，被配置为获取待识别图像以及待识别图像对应的描述信息；

第一编码模块604，被配置为分别对待识别图像和描述信息进行编码，获得待识别图像的视觉特征和描述信息的自然语言特征；

第一映射模块606，被配置为利用第一映射矩阵和第二映射矩阵，分别对视觉特征和自然语言特征进行特征映射，得到第一目标特征和第二目标特征，其中，第一映射矩阵和第二映射矩阵之间具有对齐约束关系；

第一融合模块608，被配置为对视觉映射特征和自然语言映射特征进行融合，得到联合特征；

第一确定模块610，被配置为根据联合特征，通过语义预测，确定对待识别图像的识别结果。

可选地，第一映射模块606被进一步配置为：

利用第一映射矩阵和第二映射矩阵，分别将视觉特征和自然语言特征进行特征映射至目标正交流型空间；在目标正交流型空间上进行优化求解，得到第一目标特征和第二目标特征。

可选地，第一映射模块606被进一步配置为：

可选地，第一确定模块610被进一步配置为：

根据联合特征，预测待识别图像的语义信息；根据联合特征和语义信息，确定语义信息的热力参数；基于热力参数，确定对待识别图像的识别结果。

可选地，第一确定模块610被进一步配置为：

基于热力参数，计算语义信息的分类权重；基于分类权重，利用分类器进行分类，得到对待识别图像的识别结果。

可选地，第一确定模块610被进一步配置为：

可选地，该装置还包括：

反馈模块，被配置为将识别结果发送至前端，接收前端发送的用户对识别结果的编辑信息，基于编辑信息，对语义预测模型进行微调。

可选地，该装置还包括：

训练模块，被配置为获取样本集，其中，样本集包括多个样本组，样本组包括样本图像、样本图像对应的样本描述信息和样本图像的语义识别标签，从样本集中提取第一样本组，其中，第一样本组为多个样本组中任一个，对第一样本组中的第一样本图像和第一样本描述信息分别进行编码，获得对应的第一视觉特征和第一自然语言特征，利用第一映射矩阵和第二映射矩阵，分别对第一视觉特征和第一自然语言特征进行特征映射，得到第一视觉映射特征和第一自然语言映射特征，对第一视觉映射特征和第一自然语言映射特征进行融合，得到第一联合特征，将第一联合特征输入语义预测模型，预测得到第一样本图像的预测语义信息，根据预测语义信息和第一样本图像的语义识别标签，计算损失值，其中，损失值包括交叉熵损失、聚集损失和分离损失中的至少一种，根据损失值，调整语义预测模型的模型参数，返回执行从样本集中提取第一样本组的步骤，直至达到预设训练结束条件，获得完成训练的语义预测模型。

上述为本实施例的一种图像识别装置的示意性方案。需要说明的是，该图像识别装置的技术方案与上述的图像识别方法的技术方案属于同一构思，图像识别装置的技术方案未详细描述的细节内容，均可以参见上述图像识别方法的技术方案的描述。

与上述方法实施例相对应，本说明书还提供了一种图像识别的数据处理装置实施例，图7示出了本说明书一个实施例提供的一种图像识别的数据处理装置的结构示意图。该装置应用于云侧设备，如图7所示，该装置包括：

第二获取模块702，被配置为获取样本集，其中，样本集包括多个样本组，样本组包括样本图像、样本图像对应的样本描述信息和样本图像的语义识别标签；

提取模块704，被配置为从样本集中提取第一样本组，其中，第一样本组为多个样本组中任一个；

第二编码模块706，被配置为对第一样本组中的第一样本图像和第一样本描述信息分别进行编码，获得对应的第一视觉特征和第一自然语言特征；

第二映射模块708，被配置为利用第一映射矩阵和第二映射矩阵，分别对第一视觉特征和第一自然语言特征进行特征映射，得到第一视觉映射特征和第一自然语言映射特征，其中，第一映射矩阵和第二映射矩阵之间具有对齐约束关系；

第二融合模块710，被配置为对第一视觉映射特征和第一自然语言映射特征进行融合，得到第一联合特征；

预测模块712，被配置为将第一联合特征输入语义预测模型，预测得到第一样本图像的预测语义信息；

计算模块714，被配置为根据预测语义信息和第一样本图像的语义识别标签，计算损失值，其中，损失值包括交叉熵损失、聚集损失和分离损失中的至少一种；

训练模块716，被配置为根据损失值，调整语义预测模型的模型参数，返回执行从样本集中提取第一样本组的步骤，直至达到预设训练结束条件，获得完成训练的语义预测模型；

第一发送模块718，被配置为将语义预测模型的模型参数发送至端侧设备。

上述为本实施例的一种图像识别的数据处理装置的示意性方案。需要说明的是，该图像识别的数据处理装置的技术方案与上述的图像识别的数据处理方法的技术方案属于同一构思，图像识别的数据处理装置的技术方案未详细描述的细节内容，均可以参见上述图像识别的数据处理方法的技术方案的描述。

与上述方法实施例相对应，本说明书还提供了建筑物识别装置实施例，图8示出了本说明书一个实施例提供的一种建筑物识别装置的结构示意图。如图8所示，该装置包括：

接收模块802，被配置为接收前端发送的建筑物识别请求，其中，建筑物识别请求携带有待识别图像以及待识别图像的建筑物描述信息；

第三编码模块804，被配置为分别对待识别图像及建筑物描述信息进行编码，获得对应的视觉特征和自然语言特征；

第三映射模块806，被配置为利用第一映射矩阵和第二映射矩阵，分别对视觉特征和自然语言特征进行特征映射，得到视觉映射特征和自然语言映射特征，其中，第一映射矩阵和第二映射矩阵之间具有对齐约束关系；

第三融合模块808，被配置为对视觉映射特征和自然语言映射特征进行融合，得到联合特征；

第二确定模块810，被配置为根据联合特征，通过语义预测，确定待识别图像的建筑物识别结果；

第二发送模块812，被配置为将建筑物识别结果发送至前端进行显示。

上述为本实施例的一种建筑物识别装置的示意性方案。需要说明的是，该建筑物识别装置的技术方案与上述的建筑物识别方法的技术方案属于同一构思，建筑物识别装置的技术方案未详细描述的细节内容，均可以参见上述建筑物识别方法的技术方案的描述。

图9示出了本说明书一个实施例提供的一种计算设备的结构框图。该计算设备900的部件包括但不限于存储器910和处理器920。处理器920与存储器910通过总线930相连接，数据库950用于保存数据。

计算设备900还包括接入设备940，接入设备940使得计算设备900能够经由一个或网络960通信。这些网络的示例包括PSTN(Public Switched Telephone Network，公用交换电话网)、LAN(Local Area Network，局域网)、WAN(Wide Area Network，广域网)、PAN(Personal Area Network，个域网)或诸如因特网的通信网络的组合。接入设备940可以包括有线或无线的任何类型的网络接口(例如，NIC(Network Interface Controller，网络接口卡))中的一个或多个，诸如IEEE802.12 WLAN(Wireless Local Area Networks，无线局域网)无线接口、Wi-MAX(World Interoperability for Microwave Access，全球微波互联接入)接口、以太网接口、USB(Universal Serial Bus，通用串行总线)接口、蜂窝网络接口、蓝牙接口、NFC(Near Field Communication，近场通信)接口，等等。

在本说明书的一个实施例中，计算设备900的上述部件以及图9中未示出的其他部件也可以彼此相连接，例如通过总线。应当理解，图9所示的计算设备结构框图仅仅是出于示例的目的，而不是对本说明书范围的限制。本领域技术人员可以根据需要，增添或替换其他部件。

计算设备900可以是任何类型的静止或移动计算设备，包括移动计算机或移动计算设备(例如，平板计算机、个人数字助理、膝上型计算机、笔记本计算机、上网本等)、移动电话(例如，智能手机)、可佩戴的计算设备(例如，智能手表、智能眼镜等)或其他类型的移动设备，或者诸如台式计算机或PC(Personal Computer，个人电脑)的静止计算设备。计算设备900还可以是移动式或静止式的服务器。

其中，处理器920用于执行如下计算机可执行指令，该计算机可执行指令被处理器执行时实现上述图像识别方法，图像识别的数据处理方法或者建筑物识别方法的步骤。

上述为本实施例的一种计算设备的示意性方案。需要说明的是，该计算设备的技术方案与上述的图像识别方法，图像识别的数据处理方法和建筑物识别方法的技术方案属于同一构思，计算设备的技术方案未详细描述的细节内容，均可以参见上述图像识别方法，图像识别的数据处理方法或者建筑物识别方法的技术方案的描述。

本说明书一实施例还提供一种计算机可读存储介质，其存储有计算机可执行指令，该计算机可执行指令被处理器执行时实现上述图像识别方法，图像识别的数据处理方法或者建筑物识别方法的步骤。

上述为本实施例的一种计算机可读存储介质的示意性方案。需要说明的是，该存储介质的技术方案与上述的图像识别方法，图像识别的数据处理方法和建筑物识别方法的技术方案属于同一构思，存储介质的技术方案未详细描述的细节内容，均可以参见上述图像识别方法，图像识别的数据处理方法或者建筑物识别方法的技术方案的描述。

本说明书一实施例还提供一种计算机程序，其中，当所述计算机程序在计算机中执行时，令计算机执行上述图像识别方法，图像识别的数据处理方法或者建筑物识别方法的步骤。

上述为本实施例的一种计算机程序的示意性方案。需要说明的是，该计算机程序的技术方案与上述的图像识别方法，图像识别的数据处理方法和建筑物识别方法的技术方案属于同一构思，计算机程序的技术方案未详细描述的细节内容，均可以参见上述图像识别方法，图像识别的数据处理方法或者建筑物识别方法的技术方案的描述。

上述对本说明书特定实施例进行了描述。其它实施例在所附权利要求书的范围内。在一些情况下，在权利要求书中记载的动作或步骤可以按照不同于实施例中的顺序来执行并且仍然可以实现期望的结果。另外，在附图中描绘的过程不一定要求示出的特定顺序或者连续顺序才能实现期望的结果。在某些实施方式中，多任务处理和并行处理也是可以的或者可能是有利的。

所述计算机指令包括计算机程序代码，所述计算机程序代码可以为源代码形式、对象代码形式、可执行文件或某些中间形式等。所述计算机可读介质可以包括：能够携带所述计算机程序代码的任何实体或装置、记录介质、U盘、移动硬盘、磁碟、光盘、计算机存储器、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、电载波信号、电信信号以及软件分发介质等。需要说明的是，所述计算机可读介质包含的内容可以根据司法管辖区内立法和专利实践的要求进行适当的增减，例如在某些司法管辖区，根据立法和专利实践，计算机可读介质不包括电载波信号和电信信号。

需要说明的是，对于前述的各方法实施例，为了简便描述，故将其都表述为一系列的动作组合，但是本领域技术人员应该知悉，本说明书实施例并不受所描述的动作顺序的限制，因为依据本说明书实施例，某些步骤可以采用其它顺序或者同时进行。其次，本领域技术人员也应该知悉，说明书中所描述的实施例均属于优选实施例，所涉及的动作和模块并不一定都是本说明书实施例所必须的。

在上述实施例中，对各个实施例的描述都各有侧重，某个实施例中没有详述的部分，可以参见其它实施例的相关描述。

以上公开的本说明书优选实施例只是用于帮助阐述本说明书。可选实施例并没有详尽叙述所有的细节，也不限制该发明仅为所述的具体实施方式。显然，根据本说明书实施例的内容，可作很多的修改和变化。本说明书选取并具体描述这些实施例，是为了更好地解释本说明书实施例的原理和实际应用，从而使所属技术领域技术人员能很好地理解和利用本说明书。本说明书仅受权利要求书及其全部范围和等效物的限制。

Claims

1.一种图像识别方法，包括：

获取待识别图像以及所述待识别图像对应的描述信息；

分别对所述待识别图像和所述描述信息进行编码，获得所述待识别图像的视觉特征和所述描述信息的自然语言特征；

利用第一映射矩阵和第二映射矩阵，分别对所述视觉特征和所述自然语言特征进行特征映射，得到第一目标特征和第二目标特征，其中，所述第一映射矩阵和所述第二映射矩阵之间具有对齐约束关系；

对所述第一目标特征和所述第二目标特征进行融合，得到联合特征；

根据所述联合特征，通过语义预测，确定对所述待识别图像的识别结果。

2.根据权利要求1所述的方法，所述利用第一映射矩阵和第二映射矩阵，分别对所述视觉特征和所述自然语言特征进行特征映射，得到第一目标特征和第二目标特征，包括：

利用第一映射矩阵和第二映射矩阵，分别对所述视觉特征和所述自然语言特征进行特征映射，以映射得到的目标特征矩阵正交为约束条件，求得第一目标特征和第二目标特征。

3.根据权利要求2所述的方法，所述利用第一映射矩阵和第二映射矩阵，分别对所述视觉特征和所述自然语言特征进行特征映射，以映射得到的目标特征矩阵正交为约束条件，求得第一目标特征和第二目标特征，包括：

利用第一映射矩阵和第二映射矩阵，分别将所述视觉特征和所述自然语言特征进行特征映射至目标正交流型空间；

在所述目标正交流型空间上进行优化求解，得到第一目标特征和第二目标特征。

4.根据权利要求3所述的方法，所述在所述目标正交流型空间上进行优化求解，得到第一目标特征和第二目标特征，包括：

对映射至所述目标正交流型空间的所述视觉特征和所述自然语言特征进行凯利变换优化，得到第一目标特征和第二目标特征。

5.根据权利要求1-4任一项所述的方法，所述根据所述联合特征，通过语义预测，确定对所述待识别图像的识别结果，包括：

根据所述联合特征，预测所述待识别图像的语义信息；

根据所述联合特征和所述语义信息，确定所述语义信息的热力参数；

基于所述热力参数，确定对所述待识别图像的识别结果。

6.根据权利要求5所述的方法，所述根据所述联合特征和所述语义信息，确定所述语义信息的热力参数，包括：

计算所述联合特征和所述语义信息之间的欧式距离，获得所述语义信息的热力参数。

7.根据权利要求5所述的方法，所述基于所述热力参数，确定对所述待识别图像的识别结果，包括：

基于所述热力参数，计算所述语义信息的分类权重；

基于所述分类权重，利用分类器进行分类，得到对所述待识别图像的识别结果。

8.根据权利要求5所述的方法，所述根据所述联合特征，预测所述待识别图像的语义信息，包括：

将所述联合特征输入预先训练的语义预测模型，预测得到所述待识别图像的语义信息。

9.根据权利要求8所述的方法，在所述确定对所述待识别图像的识别结果之后，还包括：

将所述识别结果发送至前端；

接收所述前端发送的用户对所述识别结果的编辑信息；

基于所述编辑信息，对所述语义预测模型进行微调。

10.根据权利要求8或9所述的方法，在所述将所述联合特征输入预先训练的语义预测模型，预测得到所述待识别图像的语义信息之前，还包括：

获取样本集，其中，所述样本集包括多个样本组，所述样本组包括样本图像、所述样本图像对应的样本描述信息和所述样本图像的语义识别标签；

从所述样本集中提取第一样本组，其中，所述第一样本组为所述多个样本组中任一个；

对所述第一样本组中的第一样本图像和第一样本描述信息分别进行编码，获得对应的第一视觉特征和第一自然语言特征；

利用所述第一映射矩阵和所述第二映射矩阵，分别对所述第一视觉特征和所述第一自然语言特征进行特征映射，得到第一视觉映射特征和第一自然语言映射特征；

对所述第一视觉映射特征和所述第一自然语言映射特征进行融合，得到第一联合特征；

将所述第一联合特征输入语义预测模型，预测得到所述第一样本图像的预测语义信息；

根据所述预测语义信息和所述第一样本图像的语义识别标签，计算损失值，其中，所述损失值包括交叉熵损失、聚集损失和分离损失中的至少一种；

根据所述损失值，调整所述语义预测模型的模型参数，返回执行从所述样本集中提取第一样本组的步骤，直至达到预设训练结束条件，获得完成训练的语义预测模型。

11.一种图像识别的数据处理方法，应用于云侧设备，包括：

利用第一映射矩阵和第二映射矩阵，分别对所述第一视觉特征和所述第一自然语言特征进行特征映射，得到第一视觉映射特征和第一自然语言映射特征，其中，所述第一映射矩阵和所述第二映射矩阵之间具有对齐约束关系；

根据所述损失值，调整所述语义预测模型的模型参数，返回执行从所述样本集中提取第一样本组的步骤，直至达到预设训练结束条件，获得完成训练的语义预测模型；

将所述语义预测模型的模型参数发送至端侧设备。

12.一种建筑物识别方法，包括：

接收前端发送的建筑物识别请求，其中，所述建筑物识别请求携带有待识别图像以及所述待识别图像的建筑物描述信息；

分别对所述待识别图像及所述建筑物描述信息进行编码，获得对应的视觉特征和自然语言特征；

利用第一映射矩阵和第二映射矩阵，分别对所述视觉特征和所述自然语言特征进行特征映射，得到视觉映射特征和自然语言映射特征，其中，所述第一映射矩阵和所述第二映射矩阵之间具有对齐约束关系；

对所述视觉映射特征和自然语言映射特征进行融合，得到联合特征；

根据所述联合特征，通过语义预测，确定所述待识别图像的建筑物识别结果；

将所述建筑物识别结果发送至所述前端进行显示。

13.一种计算设备，包括：

存储器和处理器；

所述存储器用于存储计算机可执行指令，所述处理器用于执行所述计算机可执行指令，该计算机可执行指令被处理器执行时实现权利要求1至10任意一项所述图像识别方法，权利要求11所述图像识别的数据处理方法，或者权利要求12所述建筑物识别方法的步骤。

14.一种计算机可读存储介质，其存储有计算机可执行指令，该计算机可执行指令被处理器执行时实现权利要求1至11任意一项所述图像识别方法，权利要求11所述图像识别的数据处理方法，或者权利要求12所述建筑物识别方法的步骤。