CN115115836B

CN115115836B - 图像识别方法、装置、存储介质以及电子设备

Info

Publication number: CN115115836B
Application number: CN202210764213.6A
Authority: CN
Inventors: 边成; 张志诚; 李永会
Original assignee: Douyin Vision Co Ltd
Current assignee: Douyin Vision Co Ltd
Priority date: 2022-06-29
Filing date: 2022-06-29
Publication date: 2023-06-13
Anticipated expiration: 2042-06-29
Also published as: CN115115836A

Abstract

本公开涉及一种图像识别方法、装置、存储介质以及电子设备，涉及图像技术领域，该方法将图像对输入特征提取模型，获得目标融合特征向量，并基于该目标融合特征向量确定图像识别结果。其中，特征提取模型中的第一特征提取网络从第一图像中提取到不同维度的第一图像特征，特征提取模型中的第二特征提取网络从第二图像中提取到不同维度的第二图像特征，通过融合层从第一图像特征以及第二图像特征中捕捉多模态特征之间的互补性，并且将不同层级的融合特征向量进行整合，使得生成的目标融合特征向量能够充分表达第一图像以及第二图像具有的图像语义特征。以使得获得精细的图像识别结果，从而促进鲁棒的场景表示。

Description

图像识别方法、装置、存储介质以及电子设备

技术领域

本公开涉及图像技术领域，具体地，涉及一种图像识别方法、装置、存储介质以及电子设备。

背景技术

图像语义分割作为一种新兴的图像处理技术，其目的在于根据图像内容识别出图像中每一像素点的语义类别。作为图像和视频理解的基础，图像语义分割被广泛应用于自动驾驶、医疗辅助以及机器人环境感知等领域。

在相关技术中，为了提高图像语义分割的准确率，往往会使用多模态融合方法，但是相关的多模态融合方法未能有效挖掘多模态图像的上下文信息，导致图像语义分割模型的准确率较低。

发明内容

提供该发明内容部分以便以简要的形式介绍构思，这些构思将在后面的具体实施方式部分被详细描述。该发明内容部分并不旨在标识要求保护的技术方案的关键特征或必要特征，也不旨在用于限制所要求的保护的技术方案的范围。

第一方面，本公开提供一种图像识别方法，包括：

获取图像对，其中，所述图像对包括采用不同拍摄方式对同一场景进行拍摄获得的第一图像和第二图像；

将所述图像对输入训练好的特征提取模型，获得所述图像对的目标融合特征向量；

基于所述目标融合特征向量，获得图像识别结果；

其中，所述特征提取模型包括用于提取所述第一图像的第一图像特征的第一特征提取网络以及用于提取所述第二图像的第二图像特征的第二特征提取网络，且所述第一特征提取网络以及所述第二特征提取网络具有相同数量级的依次连接的特征提取层，所述第一特征提取网络以及所述第二特征提取网络中相同层级的所述特征提取层与同一个融合层连接；

所述融合层用于根据与该融合层连接的两个所述特征提取层分别提取到的所述第一图像特征、所述第二图像特征以及该特征提取层的前一特征提取层对应的融合层输出的特征向量，获得对应的融合特征向量；

所述目标融合特征向量为任一所述融合层输出的融合特征向量。

第二方面，本公开提供一种图像识别装置，包括：

获取模块，配置为获取图像对，其中，所述图像对包括采用不同拍摄方式对同一场景进行拍摄获得的第一图像和第二图像；

提取模块，配置为将所述图像对输入训练好的特征提取模型，获得所述图像对的目标融合特征向量；

识别模块，配置为基于所述目标融合特征向量，获得图像识别结果；

第三方面，本公开提供一种计算机可读存储介质，其上存储有计算机程序，该程序被处理装置执行时实现第一方面所述的方法的步骤。

第四方面，本公开提供一种电子设备，包括：

存储装置，其上存储有计算机程序；

处理装置，用于执行所述存储装置中的所述计算机程序，以实现第一方面所述的方法的步骤。

基于上述技术方案，通过特征提取模型中的第一特征提取网络可以从第一图像中提取到不同维度的第一图像特征，通过特征提取模型中的第二特征提取网络可以从第二图像中提取到不同维度的第二图像特征，通过融合层，可以将从第一图像特征以及第二图像特征中捕捉多模态特征之间的互补性，并且将不同层级的融合特征向量进行整合，使得最终生成的目标融合特征向量能够充分表达第一图像以及第二图像具有的图像语义特征。基于该目标融合特征向量，可以实现鲁棒的场景表示，从而获得精细的图像识别结果。

本公开的其他特征和优点将在随后的具体实施方式部分予以详细说明。

附图说明

结合附图并参考以下具体实施方式，本公开各实施例的上述和其他特征、优点及方面将变得更加明显。贯穿附图中，相同或相似的附图标记表示相同或相似的元素。应当理解附图是示意性的，原件和元素不一定按照比例绘制。在附图中：

图1是根据一些实施例示出的一种图像识别方法的流程图。

图2是根据一些实施例示出的特征提取模型的结构示意图。

图3是根据一些实施例示出的第i层融合层的结构示意图。

图4是根据一些实施例示出的级联交互模块的示意图。

图5是根据一些实施例示出的获取特征提取模型的流程图。

图6是根据一些实施例示出的一种图像识别装置的模块连接示意图。

图7是根据一些实施例示出的一种电子设备的结构示意图。

具体实施方式

下面将参照附图更详细地描述本公开的实施例。虽然附图中显示了本公开的某些实施例，然而应当理解的是，本公开可以通过各种形式来实现，而且不应该被解释为限于这里阐述的实施例，相反提供这些实施例是为了更加透彻和完整地理解本公开。应当理解的是，本公开的附图及实施例仅用于示例性作用，并非用于限制本公开的保护范围。

应当理解，本公开的方法实施方式中记载的各个步骤可以按照不同的顺序执行，和/或并行执行。此外，方法实施方式可以包括附加的步骤和/或省略执行示出的步骤。本公开的范围在此方面不受限制。

本文使用的术语“包括”及其变形是开放性包括，即“包括但不限于”。术语“基于”是“至少部分地基于”。术语“一个实施例”表示“至少一个实施例”；术语“另一实施例”表示“至少一个另外的实施例”；术语“一些实施例”表示“至少一些实施例”。其他术语的相关定义将在下文描述中给出。

需要注意，本公开中提及的“第一”、“第二”等概念仅用于对不同的装置、模块或单元进行区分，并非用于限定这些装置、模块或单元所执行的功能的顺序或者相互依存关系。

需要注意，本公开中提及的“一个”、“多个”的修饰是示意性而非限制性的，本领域技术人员应当理解，除非在上下文另有明确指出，否则应该理解为“一个或多个”。

本公开实施方式中的多个装置之间所交互的消息或者信息的名称仅用于说明性的目的，而并不是用于对这些消息或信息的范围进行限制。

图1是根据一些实施例示出的一种图像识别方法的流程图。如图1所示，本公开实施例提供一种图像识别方法，该方法可以通过电子设备执行，具体可以是通过一种图像识别装置来执行，该装置可以由软件和/或硬件的方式实现，配置于电子设备中。如图1所示，该方法可以包括以下步骤。

在步骤110中，获取图像对，其中，所述图像对包括采用不同拍摄方式对同一场景进行拍摄获得的第一图像和第二图像。

这里，图像对包括采用不同拍摄方式对同一场景进行拍摄获得的第一图像和第二图像。例如，第一图像可以是采用可见相机对场景进行拍摄获得的RGB图像，第二图像可以是采用热成像相机对该场景进行拍摄获得的热图像(T图像)，则图像对为RGB图像---热图像。当然，第二图像也可以是采用深度相机对该场景进行拍摄获得的深度图像(D图像)，则图像对为RGB图像---深度图像。或者第二图像也可以是采用激光雷达获取到的该场景的点云图像，则图像对为RGB图像---点云图像。

值得说明的是，图像对可以是由至少两个采用不同拍摄方式获得的图像组成的，如深度图像---热图像、点云图像---RGB图像。

在步骤120中，将所述图像对输入训练好的特征提取模型，获得所述图像对的目标融合特征向量。

这里，将图像对输入训练好的特征提取模型，该特征提取模型从第一图像以及第二图像中提取图像特征，并挖掘第一图像的图像特征以及第二图像的图像特征之间的上下文信息，获得融合特征向量。

其中，特征提取模型包括第一特征提取网络以及第二特征提取网络，该第一特征提取网络用于从图像对的第一图像中提取第一图像特征，第二特征提取网络用于从图像对的第二图像中提取第二图像特征。其中，第一特征提取网络和第二特征提取网络具有相同的网络结构，该第一特征提取网络以及该第二特征提取网络具有相同数量级的依次连接的特征提取层。例如，第一特征提取网络和第二特征提取网络均具有5层依次连接的特征提取层，又例如，第一特征提取网络和第二特征提取网络均具有3层依次连接的特征提取层。而且，该第一特征提取网络以及该第二特征提取网络中相同层级的特征提取层与同一个融合层连接。融合层用于根据与该融合层连接的两个所述特征提取层分别提取到的所述第一图像特征、所述第二图像特征以及该特征提取层的前一特征提取层对应的融合层输出的特征向量，获得对应的融合特征向量。

值得说明的是，第一特征提取网络以及第二特征提取网络均可以是ResNet网络(一种残差网络)，每一特征提取层可以包括多个核为3的卷积层、批量归一化以及非线性激活函数ReLU，且每一卷积层之间，可以通过shortcut(一种连接结构)进行连接，且每一卷积层之后均可以连接一个池化层。当然，在实际应用过程中，第一特征提取网络以及第二特征提取网络也可以是除ResNet网络外的其他能够实现图像特征提取的网络。

图2是根据一些实施例示出的特征提取模型的结构示意图。如图2所示，特征提取模型200包括第一特征提取网络201和第二特征提取网络202，其中，第一特征提取网络201包括依次连接的第一特征提取层、第二特征提取层、第三特征提取层、第四特征提取层以及第五特征提取层，第二特征提取网络202包括依次连接的第六特征提取层、第七特征提取层、第八特征提取层、第九特征提取层以及第十特征提取层。其中，第一特征提取层与第六特征提取层、第二特征提取层与第七特征提取层、第三特征提取层与第八特征提取层、第四特征提取层与第九特征提取层、第五特征提取层与第十特征提取层分别是属于相同层级的特征提取层，则第一特征提取层和第六特征提取层与第五融合层连接，第二特征提取层和第七特征提取层与第四融合层连接，第三特征提取层和第八特征提取层与第三融合层连接，第四特征提取层和第九特征提取层与第二融合层连接，第五特征提取层和第十特征提取层与第一融合层连接，且第一融合层、第二融合层、第三融合层、第四融合层以及第五融合层依次连接。

值得说明的是，在图2所示的特征提取模型200中，第一图像203输入第一特征提取网络201，第一特征提取网络201中的第一特征提取层、第二特征提取层、第三特征提取层、第四特征提取层以及第五特征提取层从第一图像203中提取得到的第一图像特征分别为

以及

第二图像204输入第二特征提取网络202，第二特征提取网络202中的第六特征提取层、第七特征提取层、第八特征提取层、第九特征提取层以及第十特征提取层从第二图像204中提取得到的第二图像特征分别为

以及

第一融合层根据第五特征提取层提取到的第一图像特征

以及第十特征提取层提取到的第二图像特征

获得融合特征向量F5。第二融合层根据第四特征提取层提取到的第一图像特征

第九特征提取层提取到的第二图像特征

以及第一融合层输出的融合特征向量F5，获得融合特征向量F4。第三融合层根据第三特征提取层提取到的第一图像特征

第八特征提取层提取到的第二图像特征

以及第二融合层输出的融合特征向量F4，获得融合特征向量F3。第四融合层根据第二特征提取层提取到的第一图像特征

第七特征提取层提取到的第二图像特征

以及第一融合层输出的融合特征向量F3，获得融合特征向量F2。第二融合层根据第一特征提取层提取到的第一图像特征

第六特征提取层提取到的第二图像特征

以及第一融合层输出的融合特征向量F2，获得融合特征向量F1。

示例性地，图像对的目标融合特征向量可以为特征提取模型中任一融合层输出的融合特征向量。例如，如图2所示，第五融合层输出的融合特征向量F1、第四融合层输出的融合特征向量F2、第三融合层输出的融合特征向量F3、第二融合层输出的融合特征向量F2以及第一融合层输出的融合特征向量F1均可以作为图像对的目标融合特征向量。当然，由于特征提取模型中的最后一层融合层(如图2中的第五融合层)融合了所有特征提取层以及融合层获取到的特征，其含有的图像信息最丰富，因此，在实际应用过程中，可以优选最后一层融合层输出的融合特征向量作为图像对的目标特征向量。

在一些实施例中，所述第一特征提取网络以及所述第二特征提取网络中前一层的所述特征提取层的维度大于后一层的所述特征提取层的维度。

如图2所示，第一特征提取层、第二特征提取层、第三特征提取层、第四特征提取层以及第五特征提取层的维度可以分别是64C、256C、512C、1024C以及2048C。第六特征提取层、第七特征提取层、第八特征提取层、第九特征提取层以及第十特征提取层的维度可以分别是64C、256C、512C、1024C以及2048C。

通过将后一层的特征提取层的维度设置得大于前一层特征提取层的维度，后一层特征提取层能够提取到更加复杂的图像信息。而且，第一特征提取网络以及第二特征提取网络从低维度到高维度的特征提取，可以分别提取到包含不同水平以及不同分辨率的上下文特征。其中，低维度特征可以包括纹理高频特征，高维度特征可以包括低频语义信息。

在步骤130中，基于所述目标融合特征向量，获得图像识别结果。

这里，在获得目标融合特征向量之后，可以根据该目标融合特征向量确定对应的图像识别结果。在一些实施例中，可以通过卷积对目标融合特征向量进行降维，并通过转置卷积逐步上采样恢复图像尺寸，然后使用卷积以及softmax操作获得图像识别结果。

其中，图像识别结果包括图像中的物体的语义类别以及该语义类别对应的概率。

由此，通过特征提取模型中的第一特征提取网络可以从第一图像中提取到不同维度的第一图像特征，通过特征提取模型中的第二特征提取网络可以从第二图像中提取到不同维度的第二图像特征，通过融合层，可以将从第一图像特征以及第二图像特征中捕捉多模态特征之间的互补性，并且将不同层级的融合特征向量进行整合，使得最终生成的目标融合特征向量能够充分表达第一图像以及第二图像具有的图像语义特征。例如，当第一图像是RGB图像、第二图像是热图像时，RGB图像缺失的信息可以从热图像中得到全面补偿，从而促进鲁棒的场景表示。基于该目标融合特征向量，可以使得获得精细的图像识别结果。

值得说明的是，本公开实施例提出的图像识别方法，其可以适用于各种图像语义分割场景，如自动驾驶的图像物体识别，在获得图像识别结果后，可以进一步基于该图像识别结果进行路径规划等等。

在一些可以实现的实施方式中，所述融合层包括：

级联交互模块，用于根据与该融合层连接的两个所述特征提取层提取到的所述第一图像特征以及所述第二图像特征，获得初始融合特征；

第一卷积模块，用于将所述第一图像特征与所述初始融合特征进行融合，获得第一融合特征；

第二卷积模块，用于将所述第二图像特征与所述初始融合特征进行融合，获得第二融合特征；

融合模块，用于根据所述第一融合特征、所述第二融合特征以及该特征提取层的前一特征提取层对应的融合层输出的特征向量，获得对应的融合特征向量。

这里，特征提取模型中的每一融合层均包括级联交互模块、第一卷积模块、第二卷积模块以及融合模块。图3是根据一些实施例示出的第i层融合层的结构示意图。如图3所示，第i层融合层中的级联交互模块301分别与第一卷积模块302和第二卷积模块303连接，第一卷积模块302和第二卷积模块303与融合模块304连接，且第i-1层融合层305与融合模块304连接。应当理解的是，第i-1层融合层305为在第i层融合层之后的融合层。例如，如图2所示，当第i层融合层为第二融合层时，第i-1层融合层为第一融合层。当然，当第i层融合层为第一融合层时，第一融合层的融合模块可以不连接其他融合层。即在第一融合层中，没有其他融合层输出的融合特征向量来参与生成第一融合层的融合特征向量。

如图3所示，级联交互模块301将对应的第一图像特征306以及第二图像特征307进行整合，获得初始融合特征，并将该初始融合特征传递至第一卷积模块302以及第二卷积模块303。第一卷积模块302融合第一图像特征306以及初始融合特征，获得第一融合特征，并将第一融合特征传递至融合模块304。第二卷积模块303融合第二图像特征303以及初始融合特征，获得第二融合特征，并将第二融合特征传递至融合模块304。在融合模块304中，将第一融合特征、第二融合特征以及第i-1层融合层输出的融合特征向量进行融合，获得第i层融合层对应的融合特征向量。

在一些实施例中，在第一卷积模块302将第一图像特征306与初始融合特征进行融合之前，还可以对第一图像特征306进行多次卷积运算，然后进行批量归一化以及非线性激活，以将第一图像特征306处理为统一的通道维数，获得处理后的第一图像特征。比如，处理为64通道维数的第一图像特征。其中，卷积运算可以包括核为1的逐点卷积运算以及核为3的逐点卷积运算。

在一些实施例中，在第二卷积模块303将第二图像特征307与初始融合特征进行融合之前，还可以对第二图像特征307进行多次卷积运算，然后进行批量归一化以及非线性激活，以将第二图像特征307处理为统一的通道维数，获得处理后的第二图像特征。比如，处理为64通道维数的第二图像特征。

应当理解的是，经过多次卷积运算、批量归一化以及非线性激活，可以将对图像信息进行压缩，以减少计算参数。

在一些实施例中，在获得第一融合特征之后，可以对该第一融合特征进行卷积运算、批量归一化以及非线性激活。其中，卷积运算可以为核为3的逐点卷积运算。

在一些实施例中，在获得第二融合特征之后，可以对该第二融合特征进行卷积运算、批量归一化以及非线性激活。其中，卷积运算可以为核为3的逐点卷积运算。

由此，基于上述融合层中的级联交互模块，可以对第一图像特征以及第二图像特征进行互补性挖掘，获得具有互补性的初始融合特征，该初始融合特征能够具有更具辨别力的场景表示。然后基于融合模块，可以对不同融合层之间的特征向量进行跨模态信息整合，促进不同维度的图像特征进行融合，实现对图像特征的整合，提高图像语义分割的鲁棒性以及可行性。

在一些可以实现的实施方式中，第一图像可以为RGB图像，则级联交互模块具体用于：以所述第一图像特征为基准，融合所述第二图像特征与所述第一图像特征，获得所述初始融合特征。

这里，级联交互模块以RGB图像的第一图像特征为基准，将从第二图像中提取到的第二图像特征融合在第一图像特征中。应当理解的是，以RGB图像的第一图像特征为基准，可以使得第一图像特征被重用，以保留更多的原始图像细节。将第二图像特征融合在第一图像特征中，RGB图像的第一图像特征中缺失的图像信息可以从第二图像特征中进行全面补充，从而促进鲁棒的场景表示。例如，当第一图像为RGB图像、第二图像为热图像时，由于RGB图像能够提供物体的颜色、纹理以及上下文环境信息，热图像通过感知物体发出的热红外辐射，能够在夜晚、低光照等低颜色低对比度的场景中，帮助区分物体。通过以第一图像特征为基准，可以从热图像的第二图像特征中挖掘RGB图像缺失的图像信息，以提高物体分割效果。

在一些可以实现的实施方式中，所述级联交互模块包括：

第一处理层，用于对所述第一图像特征以及所述第二图像特征进行逐元素求和运算，获得第一特征向量；

第二处理层，用于对所述第一图像特征以及所述第一特征向量进行卷积处理，获得第一卷积特征向量，并对所述第一卷积特征向量以及所述第二图像特征进行对位元素相乘运算，获得第二特征向量；

第三处理层，用于对所述第一图像特征以及所述第二特征向量进行卷积处理，获得第二卷积特征向量，并对所述第一卷积特征向量以及所述第二图像特征进行特征串联运算，获得第三特征向量；

拼接层，用于融合所述第一特征向量、所述第二特征向量、所述第三特征向量以及所述第一图像特征，获得所述初始融合特征。

这里，图4是根据一些实施例示出的级联交互模块的示意图。如图4所示，级联交互模块400包括第一处理层401、第二处理层402、第三处理层403以及拼接层404，其中，第一处理层401、第二处理层402以及第三处理层403分别与拼接层404连接。在第一处理层401中，第一处理层402对第一图像特征以及第二图像特征进行逐元素求和运算(Element-wiseAddition)，获得第一特征向量。第一处理层401在获得第一特征向量之后，不仅将第一特征向量传递至拼接层404，还将该第一特征向量传递至第二处理层402。

在第二处理层402中，第二处理层402对第一图像特征以及第一特征向量进行卷积处理，获得第一卷积特征向量，然后对第一卷积特征向量以及第二图像特征进行对位元素相乘运算(Element-wise Multiplication)，获得第二特征向量。其中，第二处理层402对第一图像特征以及第一特征向量进行卷积处理可以是使用核为1的卷积层对第一图像特征以及第一特征向量进行卷积。第二处理层402获得第二特征向量之后，将第二特征向量传递至拼接层404以及第三处理层403。

在第三处理层403中，第三处理层403对第一图像特征以及第二特征向量进行卷积处理，获得第二卷积特征向量，并对第一卷积特征向量以及第二图像特征进行特征串联运算，获得第三特征向量。其中，第三处理层403对第一图像特征以及第二特征向量进行卷积处理可以是使用核为1的卷积层对第一图像特征以及第二特征向量进行卷积。第三处理层403对第一卷积特征向量以及第二图像特征进行特征串联运算可以是将第一卷积特征向量进行串联(Concatenation)，然后使用核为3的卷积层对串联的特征进行卷积，获得第三特征向量。

在拼接层404中，拼接层404融合第一特征向量、第二特征向量、第三特征向量以及第一图像特征，获得初始融合特征。其中，拼接层可以使用向量拼接操作融合第一特征向量、第二特征向量、第三特征向量以及第一图像特征，然后通过核为1的卷积层获得初始融合特征。

值得说明的是，在级联交互模块400中，第一处理层401、第二处理层402以及第三处理层403实际上是并行的级联交互结构。通过将第一处理层401获得的第一特征向量传递至第二处理层402以及通过将第二处理层402获得的第二特征向量传递至第三处理层403，可以实现第一图像特征(作为单模态特征)与第二图像特征(作为补充模态)之间进行充分的特征交互。使得第一图像特征能够被重用，以保留更多的图像原始细节。通过拼接层404将第一特征向量、第二特征向量、第三特征向量以及第一图像特征进行连接，可以生成增强的初始融合特征，该初始融合特征既能够保留第一图像(如RGB图像)的原始图像细节，也能够从第二图像(热图像)中获取第一图像缺失的图像信息，从而实现鲁棒的场景表示。

在一些可以实现的实施方式中，所述融合模块具体用于：

对该特征提取层的前一特征提取层对应的融合层输出的特征向量进行双线性插值操作，获得插值结果；

对所述插值结果、所述第一融合特征以及所述第二融合特征进行拼接，获得对应的融合特征向量。

这里，针对每一融合层，该融合层中的融合模块对上一层融合层输出的融合特征向量进行双线性插值操作，获得插值结果。并对插值结果、第一融合特征以及第二融合特征进行拼接，获得对应的融合特征向量。如图2所示，第四融合层中的融合模块，对第三融合层输出的融合特征向量F3进行双线性插值操作，获得插值结果，并且对插值结果、第四融合层对应的第一卷积模块输出的第一融合特征以及第二卷积模块输出的第二融合特征进行拼接，获得第四融合层对应的融合特征向量。

应当理解的是，针对特征提取模型中最开始的一层融合层(如图2中的第一融合层)，其没有其他融合层的输入结果。因此，针对该融合层，是直接对该融合层对应的第一卷积模块输出的第一融合特征以及第二卷积模块输出的第二融合特征进行拼接，获得该融合层对应的融合特征向量。

其中，可以基于以下预设计算式对所述插值结果、所述第一融合特征以及所述第二融合特征进行拼接，获得对应的融合特征向量。该预设计算式为：

其中，Fⁱ表示第i层融合层输出的融合特征向量，Conv_1X1表示核为1的逐点卷积操作，Up(F^i-1)表示第i-1层融合层输出的融合特征向量的插值结果，

表示第i层融合层对应的第一融合特征，

表示第i层融合层对应的第二融合特征，||表示拼接。

应当理解的是，双线性插值操作可以是步长为2的上采样双线性插值操作。

由此，通过插值操作、拼接操作以及卷积运算，可以将上一融合层输出的融合特征向量与本融合层对应的第一融合特征以及第二融合特征进行融合，使得本融合层生成的融合特征向量能够充分融合第一图像以及第二图像不同层次的图像特征。

图5是根据一些实施例示出的获取特征提取模型的流程图。如图5所示，训练好的特征提取模型可以通过以下步骤获得：

在步骤510中，获取初始特征提取模型。

这里，初始特征提取模型的模型结构如图2所示，在上述实施例中已经详细说明了其模型结构，在此不再详细说明。

在步骤520中，获取训练样本，其中，所述训练样本包括样本图像对，所述样本图像对包括携带有图像语义标签的第一样本图像和第二样本图像，所述第一样本图像和所述第二样本图像为采用不同拍摄方式对同一场景进行拍摄获得的图像，所述图像语义标签用于对所述第一样本图像和所述第二样本图像中的图像的所属类别进行标记。

这里，训练样本包括至少一对样本图像对，该样本图像对包括第一样本图像以及第二样本图像，且每一第一样本图像以及第二样本图像携带有图像语义标签。其中，第一样本图像以及第二样本图像是采用不同拍摄方式对同一场景进行拍摄获得图像。例如，第一样本图像为RGB图像，第二样本图像为热图像。应当理解的是，该图像语义标签是用于对所述第一样本图像和所述第二样本图像中的图像的所属类别进行标记。例如，图像语义标签对第一样本图像中的每个物体进行圈定，并标记该物体的类别，如人体、车辆等等。

在一些实施例中，训练样本可以是RGB-T语义分割数据集MFNet(一种公开数据集)。MFNet包括1569个在城市场景中捕获到的带有图像语义标签的RGB图像-热图像的图像对。

在步骤530中，将所述训练样本输入所述初始特征提取模型，获得所述初始特征提取模型中的每一层所述融合层输出的融合特征向量对应的预测结果。

这里，将训练样本输入初始特征提取模型，初始特征提取模型的每一融合层均可以输出对应的融合特征向量，基于该融合特征向量，可以确定到对应的预测结果。其中，该预测结果是初始特征提取模型对样本图像对的预测结果，包括识别到的样本图像对中包括的物体的类别以及对应的概率。

在一些实施例中，在将训练样本输入初始特征提取模型之前，可以对训练样本进行减均值除以标准差的归一化操作，并且对训练样本进行如旋转、翻转以及裁剪等数据增强操作，获得调整后的训练样本，并将调整后的训练样本输入初始特征提取模型。

应当理解的是，通过数据增强操作，可以防止训练好的特征提取模型出现过拟合的问题。

在一些实施例中，针对每一层融合层，其预测结果是通过对该融合层对应的融合特征向量进行核为1的逐点卷积操作，然后通过沿着类别维度的softmax函数来获得的。

在步骤540中，针对所述初始特征提取模型中的每一层所述融合层，基于加权交叉熵损失函数确定该融合层对应的交叉熵损失值，其中，所述加权交叉熵损失函数用于根据该融合层对应的所述预测结果、所述图像语义标签以及所述训练样本中每一图像语义类别所占的比重，确定所述交叉熵损失值。

这里，在初始特征提取模型的每一融合层，均可以通过该融合层中使用加权交叉熵损失函数确定该融合层对应的交叉熵损失值。

其中，加权交叉熵损失函数用于根据该融合层对应的所述预测结果、所述图像语义标签以及所述训练样本中每一图像语义类别所占的比重，确定所述交叉熵损失值。

在一些实施例中，交叉熵损失值可以通过以下预设计算式获得：

其中，

表示交叉熵损失值，i表示第i层融合层，W表示训练样本的宽度，H表示训练样本的高度，

表示第i层融合层的融合特征向量的第(m，n)个像素，

表示训练样本中每一图像语义类别所占的比重，

表示图像语义标签，

表示预测结果。

在步骤550中，基于所述交叉熵损失值调整所述初始特征提取模型的参数，获得所述训练好的特征提取模型。

这里，在获得交叉熵损失值之后，基于该交叉熵损失值反向传播调整初始特征提取模型的参数，使得调整后的初始特征提取模型能够满足预设训练条件，获得训练好的特征提取模型。

应当理解的是，在实际应用过程中，可以计算最后一层融合层(如图2所示的第五融合层)对应的交叉熵损失值，并根据该交叉熵损失值调整初始特征提取模型的参数。在给定的训练样本下，通过在最后一层融合层中施加加权交叉熵损失函数，可以使得初始特征提取模型的参数逐渐优化，达到预设训练条件。对于测试阶段，也以最后一层融合层对应的预测结果作为模型评估条件。

由此，通过在融合层中施加加权交叉熵损失函数，可以使得初始特征提取模型快速收敛，解决各类像素的不平衡性对训练的影响，获得训练好的特征提取模型。

图6是根据一些实施例示出的一种图像识别装置的模块连接示意图。如图6所示，本公开实施例提供一种图像识别装置，该装置600包括：

获取模块601，配置为获取图像对，其中，所述图像对包括采用不同拍摄方式对同一场景进行拍摄获得的第一图像和第二图像；

提取模块602，配置为将所述图像对输入训练好的特征提取模型，获得所述图像对的目标融合特征向量；

识别模块603，配置为基于所述目标融合特征向量，获得图像识别结果；

可选地，所述融合层包括：

可选地，所述第一图像为RGB图像，所述级联交互模块具体用于：

以所述第一图像特征为基准，融合所述第二图像特征与所述第一图像特征，获得所述初始融合特征。

可选地，所述级联交互模块包括：

可选地，所述融合模块具体用于：

可选地，所述训练好的特征提取模型通过以下步骤获得：

获取初始特征提取模型；

获取训练样本，其中，所述训练样本包括样本图像对，所述样本图像对包括携带有图像语义标签的第一样本图像和第二样本图像，所述第一样本图像和所述第二样本图像为采用不同拍摄方式对同一场景进行拍摄获得的图像，所述图像语义标签用于对所述第一样本图像和所述第二样本图像中的图像的所属类别进行标记；

将所述训练样本输入所述初始特征提取模型，获得所述初始特征提取模型中的每一层所述融合层输出的融合特征向量对应的预测结果；

针对所述初始特征提取模型中的每一层所述融合层，基于加权交叉熵损失函数确定该融合层对应的交叉熵损失值，其中，所述加权交叉熵损失函数用于根据该融合层对应的所述预测结果、所述图像语义标签以及所述训练样本中每一图像语义类别所占的比重，确定所述交叉熵损失值；

基于所述交叉熵损失值调整所述初始特征提取模型的参数，获得所述训练好的特征提取模型。

可选地，所述第一特征提取网络以及所述第二特征提取网络中前一层的所述特征提取层的维度大于后一层的所述特征提取层的维度。

关于上述装置600中的各个功能模块执行的功能逻辑已经在关于方法的部分进行了详细说明，在此不再赘述。

下面参考图7，其示出了适于用来实现本公开实施例的电子设备700的结构示意图。本公开实施例中的终端设备可以包括但不限于诸如车辆、移动电话、笔记本电脑、数字广播接收器、PDA(个人数字助理)、PAD(平板电脑)、PMP(便携式多媒体播放器)、车载终端(例如车载导航终端)等等的移动终端以及诸如数字TV、台式计算机等等的固定终端。图7示出的电子设备仅仅是一个示例，不应对本公开实施例的功能和使用范围带来任何限制。

如图7所示，电子设备700可以包括处理装置(例如中央处理器、图形处理器等)701，其可以根据存储在只读存储器(ROM)702中的程序或者从存储装置708加载到随机访问存储器(RAM)703中的程序而执行各种适当的动作和处理。在RAM 703中，还存储有电子设备700操作所需的各种程序和数据。处理装置701、ROM 702以及RAM 703通过总线704彼此相连。输入/输出(I/O)接口705也连接至总线704。

通常，以下装置可以连接至I/O接口705：包括例如触摸屏、触摸板、键盘、鼠标、摄像头、麦克风、加速度计、陀螺仪等的输入装置706；包括例如液晶显示器(LCD)、扬声器、振动器等的输出装置707；包括例如磁带、硬盘等的存储装置708；以及通信装置709。通信装置709可以允许电子设备700与其他设备进行无线或有线通信以交换数据。虽然图7示出了具有各种装置的电子设备700，但是应理解的是，并不要求实施或具备所有示出的装置。可以替代地实施或具备更多或更少的装置。

特别地，根据本公开的实施例，上文参考流程图描述的过程可以被实现为计算机软件程序。例如，本公开的实施例包括一种计算机程序产品，其包括承载在非暂态计算机可读介质上的计算机程序，该计算机程序包含用于执行流程图所示的方法的程序代码。在这样的实施例中，该计算机程序可以通过通信装置709从网络上被下载和安装，或者从存储装置708被安装，或者从ROM 702被安装。在该计算机程序被处理装置701执行时，执行本公开实施例的方法中限定的上述功能。

需要说明的是，本公开上述的计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质或者是上述两者的任意组合。计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的系统、装置或器件，或者任意以上的组合。计算机可读存储介质的更具体的例子可以包括但不限于：具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机访问存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本公开中，计算机可读存储介质可以是任何包含或存储程序的有形介质，该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。而在本公开中，计算机可读信号介质可以包括在基带中或者作为载波一部分传播的数据信号，其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式，包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读信号介质还可以是计算机可读存储介质以外的任何计算机可读介质，该计算机可读信号介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。计算机可读介质上包含的程序代码可以用任何适当的介质传输，包括但不限于：电线、光缆、RF(射频)等等，或者上述的任意合适的组合。

在一些实施方式中，电子设备可以利用诸如HTTP(HyperText TransferProtocol，超文本传输协议)之类的任何当前已知或未来研发的网络协议进行通信，并且可以与任意形式或介质的数字数据通信(例如，通信网络)互连。通信网络的示例包括局域网(“LAN”)，广域网(“WAN”)，网际网(例如，互联网)以及端对端网络(例如，ad hoc端对端网络)，以及任何当前已知或未来研发的网络。

上述计算机可读介质可以是上述电子设备中所包含的；也可以是单独存在，而未装配入该电子设备中。

上述计算机可读介质承载有一个或者多个程序，当上述一个或者多个程序被该电子设备执行时，使得该电子设备：获取图像对，其中，所述图像对包括采用不同拍摄方式对同一场景进行拍摄获得的第一图像和第二图像；将所述图像对输入训练好的特征提取模型，获得所述图像对的目标融合特征向量；基于所述目标融合特征向量，获得图像识别结果；其中，所述特征提取模型包括用于提取所述第一图像的第一图像特征的第一特征提取网络以及用于提取所述第二图像的第二图像特征的第二特征提取网络，且所述第一特征提取网络以及所述第二特征提取网络具有相同数量级的依次连接的特征提取层，所述第一特征提取网络以及所述第二特征提取网络中相同层级的所述特征提取层与同一个融合层连接；所述融合层用于根据与该融合层连接的两个所述特征提取层分别提取到的所述第一图像特征、所述第二图像特征以及该特征提取层的前一特征提取层对应的融合层输出的特征向量，获得对应的融合特征向量；所述目标融合特征向量为任一所述融合层输出的融合特征向量。

可以以一种或多种程序设计语言或其组合来编写用于执行本公开的操作的计算机程序代码，上述程序设计语言包括但不限于面向对象的程序设计语言—诸如Java、Smalltalk、C++，还包括常规的过程式程序设计语言——诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在涉及远程计算机的情形中，远程计算机可以通过任意种类的网络——包括局域网(LAN)或广域网(WAN)——连接到用户计算机，或者，可以连接到外部计算机(例如利用因特网服务提供商来通过因特网连接)。

附图中的流程图和框图，图示了按照本公开各种实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上，流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分，该模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意，在有些作为替换的实现中，方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如，两个接连地表示的方框实际上可以基本并行地执行，它们有时也可以按相反的顺序执行，这依所涉及的功能而定。也要注意的是，框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合，可以用执行规定的功能或操作的专用的基于硬件的系统来实现，或者可以用专用硬件与计算机指令的组合来实现。

描述于本公开实施例中所涉及到的模块可以通过软件的方式实现，也可以通过硬件的方式来实现。其中，模块的名称在某种情况下并不构成对该模块本身的限定。

本文中以上描述的功能可以至少部分地由一个或多个硬件逻辑部件来执行。例如，非限制性地，可以使用的示范类型的硬件逻辑部件包括：现场可编程门阵列(FPGA)、专用集成电路(ASIC)、专用标准产品(ASSP)、片上系统(SOC)、复杂可编程逻辑设备(CPLD)等等。

在本公开的上下文中，机器可读介质可以是有形的介质，其可以包含或存储以供指令执行系统、装置或设备使用或与指令执行系统、装置或设备结合地使用的程序。机器可读介质可以是机器可读信号介质或机器可读储存介质。机器可读介质可以包括但不限于电子的、磁性的、光学的、电磁的、红外的、或半导体系统、装置或设备，或者上述内容的任何合适组合。机器可读存储介质的更具体示例会包括基于一个或多个线的电气连接、便携式计算机盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦除可编程只读存储器(EPROM或快闪存储器)、光纤、便捷式紧凑盘只读存储器(CD-ROM)、光学储存设备、磁储存设备、或上述内容的任何合适组合。

以上描述仅为本公开的较佳实施例以及对所运用技术原理的说明。本领域技术人员应当理解，本公开中所涉及的公开范围，并不限于上述技术特征的特定组合而成的技术方案，同时也应涵盖在不脱离上述公开构思的情况下，由上述技术特征或其等同特征进行任意组合而形成的其它技术方案。例如上述特征与本公开中公开的(但不限于)具有类似功能的技术特征进行互相替换而形成的技术方案。

此外，虽然采用特定次序描绘了各操作，但是这不应当理解为要求这些操作以所示出的特定次序或以顺序次序执行来执行。在一定环境下，多任务和并行处理可能是有利的。同样地，虽然在上面论述中包含了若干具体实现细节，但是这些不应当被解释为对本公开的范围的限制。在单独的实施例的上下文中描述的某些特征还可以组合地实现在单个实施例中。相反地，在单个实施例的上下文中描述的各种特征也可以单独地或以任何合适的子组合的方式实现在多个实施例中。

尽管已经采用特定于结构特征和/或方法逻辑动作的语言描述了本主题，但是应当理解所附权利要求书中所限定的主题未必局限于上面描述的特定特征或动作。相反，上面所描述的特定特征和动作仅仅是实现权利要求书的示例形式。关于上述实施例中的装置，其中各个模块执行操作的具体方式已经在有关该方法的实施例中进行了详细描述，此处将不做详细阐述说明。

Claims

1.一种图像识别方法，其特征在于，包括：

获取图像对，其中，所述图像对包括采用不同拍摄方式对同一场景进行拍摄获得的第一图像和第二图像；所述第一图像和所述第二图像为RGB图像、热图像、深度图像以及点云图像中的任意两种图像；

基于所述目标融合特征向量，获得图像识别结果；

所述目标融合特征向量为任一所述融合层输出的融合特征向量；

所述融合层包括：

2.根据权利要求1所述的方法，其特征在于，所述第一图像为RGB图像，所述级联交互模块具体用于：

3.根据权利要求2所述的方法，其特征在于，所述级联交互模块包括：

4.根据权利要求1所述的方法，其特征在于，所述融合模块具体用于：

5.根据权利要求1所述的方法，其特征在于，所述训练好的特征提取模型通过以下步骤获得：

获取初始特征提取模型；

6.根据权利要求1至5中任一项所述的方法，其特征在于，所述第一特征提取网络以及所述第二特征提取网络中前一层的所述特征提取层的维度大于后一层的所述特征提取层的维度。

7.一种图像识别装置，其特征在于，包括：

获取模块，配置为获取图像对，其中，所述图像对包括采用不同拍摄方式对同一场景进行拍摄获得的第一图像和第二图像；所述第一图像和所述第二图像为RGB图像、热图像、深度图像以及点云图像中的任意两种图像；

所述融合层包括：

8.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，该程序被处理装置执行时实现权利要求1至6中任一项所述的方法的步骤。

9.一种电子设备，其特征在于，包括：

存储装置，其上存储有计算机程序；

处理装置，用于执行所述存储装置中的所述计算机程序，以实现权利要求1至6中任一项所述的方法的步骤。