CN112633064A

CN112633064A - 一种场景识别方法和电子设备

Info

Publication number: CN112633064A
Application number: CN202011303142.7A
Authority: CN
Inventors: 叶力荣; 张国栋
Original assignee: Shenzhen Silver Star Intelligent Technology Co Ltd
Current assignee: Shenzhen Silver Star Intelligent Technology Co Ltd
Priority date: 2020-11-19
Filing date: 2020-11-19
Publication date: 2021-04-09
Anticipated expiration: 2040-11-19
Also published as: CN112633064B

Abstract

本发明涉及计算机技术领域，特别涉及一种场景识别方法和电子设备。该方法包括：获取待识别图像的判别物体区域；从所述判别物体区域中提取第一物体区域特征；根据所述待识别图像对所述判别物体区域的物体区域关系进行建模得到目标图结构，并根据所述目标图结构获取第二物体区域特征；融合所述第一物体区域特征和所述第二物体区域特征得到目标物体区域特征；根据所述目标物体区域特征对所述待识别图像进行分类，获得所述待识别图像的场景类别。本发明能够有效提高场景识别的准确率。

Description

一种场景识别方法和电子设备

技术领域

本发明涉及计算机技术领域，特别涉及一种场景识别方法和电子设备。

背景技术

场景识别作为计算机视觉领域的重要分支之一，近年来已被广泛应用于人机交互、智能机器人、智能视频监控、自动驾驶等领域。目前，随着大型数据集的提出，基于深度学习的场景识别方法得到了飞速发展，取得了比传统算法更好的识别效果。

然而，现有的方法通常是简单地对图片的局部全局特征和空间关系进行建模，没有对图片中不同物体间的关系进行更加深入和显式的探索，对于十分相似的场景，容易造成分类模糊，从而导致场景识别的准确率低。

发明内容

本发明实施方式主要解决的技术问题是如何提高场景识别的准确率。

为解决上述技术问题，本发明实施方式采用的一个技术方案是：提供一种场景识别方法，所述方法包括：

获取待识别图像的判别物体区域；

从所述判别物体区域中提取第一物体区域特征；

根据所述待识别图像对所述判别物体区域的物体区域关系进行建模得到目标图结构，并根据所述目标图结构获取第二物体区域特征；

融合所述第一物体区域特征和所述第二物体区域特征得到目标物体区域特征；

根据所述目标物体区域特征对所述待识别图像进行分类，获得所述待识别图像的场景类别。

可选地，所述获取待识别图像的判别物体区域，包括：

获取待识别图像；

将所述待识别图像输入预设语义分割网络模型，获得分割结果，其中，所述分割结果包括所述待识别图像中对应物体和/或材料的类别；

获取所述类别对应的二值图像，并统计每一所述类别对应的二值图像中正像素的个数，获得所述正像素的个数大于预设阈值的二值图像；

将所述正像素的个数大于预设阈值的二值图像组合形成新的类别集合；

将所述新的类别集合中每一类别对应的物体进行分割得到至少两个语义区域；

从所述至少两个语义区域中确定判别物体区域。

可选地，所述从所述至少两个语义区域中确定判别物体区域，包括：

将所述至少两个语义区域中的语义区域按照区域面积进行降序排序；

将所述降序排序中前N个语义区域作为判别物体区域，N>0。

可选地，所述从所述判别物体区域中提取第一物体区域特征，包括：

从所述待识别图像中提取特征图；

根据所述判别物体区域的边界框信息，从所述特征图中提取所述判别物体区域的特征，所述特征为所述第一物体区域特征。

可选地，所述根据所述待识别图像对所述判别物体区域的物体区域关系进行建模得到目标图结构，包括：

获取所述判别物体区域的物体区域关系，所述物体区域关系包括：外观关系、地理位置关系和方位关系；

根据所述外观关系、所述地理位置关系和所述方位关系，并基于下述公式一获取任意两个判别物体区域之间的重要程度；

所述公式一包括：

其中，G_ij表示第i个判别物体区域的物体区域关系对第j个判别物体区域的物体区域关系的重要程度，

表示判别物体区域之间的外观关系，

表示判别物体区域之间的地理位置关系，

表示判别物体区域之间的方位关系。

可选地，所述方法还包括：

通过下述公式二计算所述外观关系、所述地理位置关系和所述方位关系的权重，所述权重用于表示所述重要程度；

所述公式二包括：

其中，N表示所述判别物体区域的个数。

可选地，所述获取所述判别物体区域的物体区域关系包括：

获取所述判别物体区域的中心坐标、长和宽；

基于所述中心坐标、所述长和所述宽，建立五维的地理位置关系，所述五维的地理位置关系通过下述公式三表示；

将所述五维的地理位置关系中的特征变换到高维空间，使用点积的方式计算相似性，再进行归一化处理，以获得所述判别物体区域之间的地理位置关系；

其中，所述公式三包括：

其中，

表示第i个判别物体区域的中心坐标，

表示第j个判别物体区域的中心坐标，W表示长，H表示宽。

可选地，所述获取所述判别物体区域的物体区域关系包括：

从所述判别物体区域对应的图像中提取局部图片块；

获取所述局部图片块的特征信息；

将所述局部图片块的特征信息输入预设分类模型，以获得所述判别物体区域的二维方向信息，所述二维方向信息包括平均方位角和极角；

将所述二维方向信息的特征变换到高维空间中，并使用点积的方式计算相似性，再进行归一化处理，以获得所述判别物体区域之间的方位关系。

可选地，所述根据所述目标图结构获取第二物体区域特征，包括：

输入所述判别物体区域对应的图像至预设图卷积神经网络模型，将所述判别物体区域的物体区域关系进行卷积处理，以获得所述判别物体区域的第二物体区域特征。

可选地，所述融合所述第一物体区域特征和所述第二物体区域特征得到目标物体区域特征，包括：

将所述第一物体区域特征和所述第二物体区域特征分别对应的元素进行逐元素相加运算得到目标物体区域特征。

为解决上述技术问题，本发明实施方式采用的另一个技术方案是：提供一种电子设备，包括：至少一个处理器；与所述至少一个处理器通讯连接的存储器；其中，所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行上述场景识别方法。

区别于相关技术的情况，本发明实施例提供的场景识别方法和电子设备，通过获取待识别图像的判别物体区域，从判别物体区域中提取第一物体区域特征，根据待识别图像对判别物体区域的物体区域关系进行建模得到目标图结构，并根据该目标图结构获得第二物体区域特征，最后融合该第一物体区域特征和该第二物体区域特征，得到目标物体区域特征，根据目标物体区域特征对待识别图像进行分类，得到待识别图像的场景类别。由于在场景识别的过程中，综合考虑了判别物体区域本身的特征和判别物体区域的物体区域关系对应的特征，从而提高了场景识别的准确率。

附图说明

一个或多个实施例通过与之对应的附图进行示例性说明，这些示例性说明并不构成对实施例的限定，附图中具有相同参考数字标号的元件表示为类似的元件，除非有特别申明，附图中的图不构成比例限制。

图1是一个实施例中场景识别方法的应用环境图；

图2是一个实施例中应用环境中的机器人的示意图；

图3是一个实施例中提供的场景识别方法的流程图；

图4是一个实施例中获取待识别图像的判别物体区域的方法的流程图；

图5是一个实施例提供的场景识别方法的示意图；

图6是一个实施例中提供的场景识别装置的结构框图；

图7是一个实施例中提供的电子设备的结构示意图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅用以解释本发明，并不用于限定本发明。

本发明实施例提供的场景识别方法和装置，可以应用于终端，也可以应用于服务器。在一个实施例中，本发明实施例提供的场景识别方法可以应用于如图1所示的应用环境中。其中，终端10与服务器20通过有线网络或无线网络通讯连接，终端10可以自行获得待识别场景对应的待识别图像，也可以从服务器20获得所述待识别图像。终端10对所述待识别图像进行识别，获得待识别图像的判别物体区域，从该判别物体区域中提取第一物体区域特征，并根据待识别图像对物体区域关系进行建模得到目标图结构，根据目标图结构获得第二物体区域特征；终端 10还用于融合所述第一物体区域特征和第二物体区域特征，得到目标物体区域特征，最后，根据该目标物体区域特征对待识别图像进行分类，从而获得待识别图像对应的场景类型。其中，终端10可以但不限于是智能手机、个人计算机、笔记本电脑、平板电脑、便携式可穿戴设备和机器人。所述机器人包括但不限于工业机器人、服务机器人、清洁机器人、自移动机器人以及特种机器人等。

服务器20可以用独立的服务器或者是多个服务器组成的服务器集群来实现。上述对场景进行识别的过程也可在服务器20中执行，终端 10将采集的待识别图像发送给服务器20，服务器20根据所述待识别图像进行场景识别，例如，所述服务器20用于：获取待识别图像的判别物体区域；从所述判别物体区域中提取第一物体区域特征；根据所述待识别图像对物体区域关系进行建模得到目标图结构，并根据所述目标图结构获取第二物体区域特征；融合所述第一物体区域特征和所述第二物体区域特征得到目标物体区域特征；根据所述目标物体区域特征对所述待识别图像进行分类，获得所述待识别图像的场景类别。

在一个实施例中，请参照图2，机器人包括机器人主体11(图未示)、激光雷达12、摄像单元13、控制器14、行走机构15(图未示)和传感单元16；或者机器人仅采用激光雷达12和摄像单元13之一。其中，机器人主体11是机器人的主体结构，可以根据机器人的实际需要，选用相应的形状结构及制造材质(如硬质塑料或者铝、铁等金属)，例如设置为扫地机器人常见的较为扁平的圆柱形。在其他实施方式中，机器人也可以不包括激光雷达12。

行走机构15设置于机器人主体11上，是为机器人提供移动能力的结构装置。该行走机构15具体可以采用任何类型的移动装置实现，例如滚轮、履带式等。激光雷达12用于感知机器人周围环境的障碍物情况，获得障碍物信息。摄像单元13用于拍摄图像，其可以是各种类型的摄像头，比如安装于所述机器人主体11上的广角摄像头。通常而言，激光雷达12和摄像单元13择一选用，以降低成本。

在其中一些实施例中，传感单元16用于采集机器人的一些运动参数及环境空间各类数据，传感单元16包括各类合适传感器，诸如陀螺仪、红外传感器、里程计、磁场计、加速度计或速度计等等。

控制器14是内置于机器人主体11中的电子计算核心，用于执行逻辑运算步骤以实现机器人的智能化控制。控制器14与激光雷达12、摄像单元13和传感单元16连接，用于根据激光雷达12、摄像单元13和传感单元16采集的数据，执行预设的算法以实现场景识别。

需要说明的是，根据所要完成的任务，除了以上的功能模组以外，机器人主体11上还可以搭载一个或者多个其它不同的功能模组(如储水箱、清扫装置等)，相互配合用以执行相应的任务。

在一个实施例中，请参照图3，提供了一种场景识别方法，该方法可应用于图1中的终端10，其具体可以是图2所示的机器人。该方法还可以应用于图1中的服务器20。该方法包括：

S11、获取待识别图像的判别物体区域。

所述待识别图像指的是根据当前待识别场景拍摄的图像，执行本方法的终端10可以通过采集设备采集当前应用场景的图像数据或视频数据。如果是视频数据，可对视频数据进行解析，获取视频数据中一帧或多帧视频图像作为所述待识别图像。如果是图像数据，可将所述图像数据作为所述待识别图像。其中，如果执行本方法的设备是服务器20，则所述终端10还用于将获得的待识别图像上传至服务器20。

上述待识别图像是终端10实时拍摄获得的，在其他一些实施例中，终端10还可以从网络上爬取图像，将从网络上获得的图像作为待识别图像进行场景识别。终端10还可以接受其他设备发送的图像，将该图像作为待识别图像，该其他设备包括服务器20和其他终端设备。

所述判别物体区域指的是所述待识别图像中具有代表性和区分性的区域，比如，当前应用场景是卧室，则床的区域为所述判别物体区域。一待识别图像中可包括一个或多个判别物体区域。请参照图4，获取待识别图像的判别物体区域，包括：

S111、获取待识别图像；

S112、将所述待识别图像输入预设语义分割网络模型，获得分割结果，其中，所述分割结果包括所述待识别图像中对应物体和/或材料的类别；

S113、获取所述类别对应的二值图像，并统计每一所述类别对应的二值图像中正像素的个数，获得所述正像素的个数大于预设阈值的二值图像；

S114、将所述正像素的个数大于预设阈值的二值图像组合形成新的类别集合；

S115、将所述新的类别集合中的每一类别对应的物体进行分割得到至少两个语义区域；

S116、从所述至少两个语义区域中确定判别物体区域。

在本实施例中，通过预设语义分割网络模型对待识别图像进行语义分割。可以使用预设数据集(比如COCO-Stuff数据集(包含91种材料和80种物体类别))进行训练，以获得所述预设语义分割网络模型(比如Deeplabv3+)。具体地，包括：根据预设数据集获取训练样本；根据预设标签对所述训练样本进行标注，获得标注后的训练样本，该预设标签包括图像中的物体类别和/或材料类别；将标注后的训练样本输入所述预设语义分割网络模型中，以输出所述训练样本的物体和/或材料的分类结果；根据分类损失函数约束所述分类结果与所述预设标签的关系，以使所述预设语义分割网络模型输出的所述分类结果与所述预设标签逼近；将输出的分类结果最逼近于所述预设标签的分类的算法模型作为所述预设语义分割网络模型。

在获得所述预设语义分割网络模型后，将待识别图像输入该预设语义分割网络模型，得到分割结果S∈R^H×^W。该S的图像大小与输入的待识别图像的大小相同。在图片(i,j)位置的值S_ij代表图片中其对应物体或者材料的类别。对于每一类别，可以定义类别二值图S^c：

在实际操作中，一些类别的二值图中存在的正像素值很少，可将该二值图视为噪声。其中，正像素指的是类别c，

的像素点。正像素点的数量少，说明语义分割的结果可能不够准确，或者该物体在场景中面积小，不太可能成为场景中的显著物体，即判别物体区域。因此，设定预设阈值T，统计每一个类别二值图中S^c正像素的个数P^c,得到新的类别集合

其中，预设阈值T可以在对每张图片标有判别物体类别的训练集进行判别物体区域面积的统计，根据该统计结果确定一个合适的数值作为所述预设阈值。

在得到

后，将每一类别的物体进行分割得到语义区域，得到集合 R。对R中的每个元素r，还包含r²，r²这两个信息：r²＝{x，y，w，h}，表示该语义区域的中心坐标和长宽；r²表示此语义区域的物体类别。

对于如何在R中选择判别物体区域，可以将语义区域集合R按照语义区域面积进行降序排序，该操作可记为S(i)，选择前N个区域作为判别物体区域，得到最终集合V，V＝S(R,N)，其中，N＞0。

其中，语义区域面积用所述正像素点的个数表示。

上述选择区域面积大的语义区域作为判别物体区域是因为面积大的语义区域更具有代表性和区分性，从而提高了场景识别的准确率。

S12、从所述判别物体区域中提取第一物体区域特征。

其中，所述从所述判别物体区域中提取第一物体区域特征，包括：从所述待识别图像中提取特征图；根据所述判别物体区域的边界框信息，从所述特征图中提取所述判别物体区域的特征，所述特征为所述第一物体区域特征。

可以训练卷积神经网络模型(比如Inception-v3)，通过训练获得的模型作为特征提取网络模型，从待识别图像中提取特征图。所述特征图是多尺度的特征图，比如，采用Inception-v3作为特征提取网络模型， Inception-v3中采用了不同大小的卷积核意味着使用了不同大小的感受野，并使用拼接操作，意味着不同尺度特征的融合。

其中，所述判别物体区域的边界框信息是根据上述语义区域的中心坐标和长宽获得的。

其中，所述判别物体区域的特征是指每个语义区域对应的卷积神经网络模型提取的特征图。可以使用ROIAlign从所述特征图中根据语义区域的边界框提取每个判别物体区域的特征。ROIAlign是一种能较好不损失边界框坐标信息的特征提取方式。简单直白来说，就是Inception-v3 提取得到一张场景图片对应的特征图，ROIAlign根据边界框坐标信息将该物体区域在特征图上对应的特征剪切出来，然后进行最大池化，得到大小相同的特征图。

其中，还可以对对齐的物体特征使用全连接层得到每一判别物体区域的特征向量，可以使用N×d大小的矩阵X表示一张图片的物体特征向量。例如，通过ROIAlign得到的对齐的几个物体特征后，拉伸每一个物体特征再经过一层全连接层，得到每一区域对应的特征向量。

其中，如果一张图片中符合条件的判别物体区域的个数小于N，则可使用全为0的特征向量表示该物体区域特征，并且该判别物体区域的方向也置为0。

S13、根据所述待识别图像对所述判别物体区域的物体区域关系进行建模得到目标图结构，并根据所述目标图结构获取第二物体区域特征。

在本实施例中，物体区域关系具体包括：外观关系、地理位置关系和方位关系，采用图卷积神经网络，通过对判别物体区域的物体区域关系进行建模具体包括：对外观关系、地理位置关系和方位关系进行建模，来提升场景识别准确率。图(Graph)中的节点代表场景中的判别物体区域，用

表示，该N是判别物体区域的个数，

是第i个判别物体区域的外观特征信息，

是第i个判别物体区域边界框的中心坐标及其长宽，而

是第i个判别物体区域的平均方位角和极角。我们构建图G∈R^N×N来表示判别物体区域之间的关系。

具体地，根据所述待识别图像对物体区域关系进行建模得到目标图结构，包括：

所述公式一包括：

表示判别物体区域之间的外观关系，

表示判别物体区域之间的地理位置关系，

表示判别物体区域之间的方位关系。

其中，通过下述公式二计算所述外观关系、所述地理位置关系和所述方位关系的权重，所述权重用于表示所述重要程度；

所述公式二包括：

其中，N表示所述判别物体区域的个数。

在本实施例中，可以通过下述方式获得所述外观关系。

方式一：点积(Dot-Product)，外观特征的点积相似性能被认为是如下的一种关系的简单形式：

其中，

是归一化参数，

是第i个判别物体区域的外观特征信息，

是第j个判别物体区域的外观特征信息。

方式二：嵌入式点积(Embedded Dot-Product)：可以将一般的点积扩展为在另一个特征空间中的相似度计算：

其中，

和

是两个学习到的线性变换。

和

是权重矩阵，

和

是权重向量。通过对原特征进行学习到的线性变换，我们可以在子空间中进行关系值计算。

方式三：关系网络(Relation Network)：可以使用如下关系网络模块：

其中，[·,·]表示连接操作，W和b是学习到的权重，将连接的向量变成标量。

在本实施例中，可以通过下述方式获得所述地理位置关系。具体包括：

获取所述判别物体区域的中心坐标、长和宽；

其中，所述公式三包括：

其中，

表示第i个判别物体区域的中心坐标，

表示第j个判别物体区域的中心坐标，W表示长，H表示宽。

可以将这5维的特征通过一层全连接层变换到高维空间(比如d_c维)，其中，使用全连接层，输入为5维，输出为d_c维。然后使用点积的方式计算相似性，然后再使用softmax进行归一化处理，得到所述地理位置关系。

在本实施例中，可以通过下述方式获得所述方位关系。具体包括：从所述判别物体区域对应的图像中提取局部图片块；获取所述局部图片块的特征信息；将所述局部图片块的特征信息输入预设分类模型，以获得所述判别物体区域的二维方向信息，所述二维方向信息包括平均方位角和极角；将所述二维方向信息的特征变换到高维空间中，并使用点积的方式计算相似性，再进行归一化处理，以获得所述判别物体区域之间的方位关系。

其中，可以使用K最近邻算法(K-Nearest Neighbors，KNN)在Bristol 数据集上进行平面性的判断和3D方向预测的实验。该数据集中的每张图片都有人工标注的地标点和地标点所形成的区域。每一个区域都被标为平面或者非平面，并且每一个平面区域都有一个方向向量(x，y，z)， x²+y²+z²＝1。在实际当中，照相机拍摄的场景图片中平面的z方向是非负的，因此，所有的方向向量都落入了单位半球面中，这意味着方位角θ和极角

足够表示3D方向，其中，

我们从每张训练图片中提取局部图片块，每一个图片块都被标记平面，非平面和边界其中的一个类别。平面，非平面和边界分别记为C₁，C₂，C₃。使用检测到的平面的3D方向来表示图片块的方向。简单来说，每一个图片块P_m由尺度不变特征变换(Scale-invariantFeature Transform，SIFT) 描述子f_m表示。平面信息为c_m∈{C₁，C₂，C₃)，方向信息为

我们收集了100000个图片块(50000个平面，30000个非平面，20000个边界) 来进行KNN的预测。

KNN预测的过程包括：输入一个新的图片块及其SIFT特征，模型在特征空间中寻找其最近的K个邻居，检查是否有τ个邻居能够支持图片块P是平面。这里，

如果P是平面，则使用这τ个邻居的方向的均值来表示P的方向。在进行KNN预测时，输入的是需要预测的图片对应的SIFT特征，输出是方向信息，包括方位角和极角。

在场景预测中，将判别物体区域对应的局部图片块输入KNN中进行方向预测，得到2维的方向信息，

然后，将这2维的特征通过一层全连接层变换到高维空间(比如d_o维)进行表示，再使用点积的方式计算相似性，最后使用softmax进行归一化处理，得到判别物体区域间的方位关系。

根据上述方法构建目标图结构，所述目标图结构用于表示判别物体区域间的外观关系、地理位置关系和方位关系。

其中，所述根据所述目标图结构获取第二物体区域特征包括：输入所述判别物体区域对应的图像至预设图卷积神经网络模型，将所述判别物体区域的物体区域关系进行卷积处理，以获得所述判别物体区域的第二物体区域特征。

在本实施例中，在目标图结构构建完成后，使用图卷积神经网络 (GraphConvolutional Network,GCN)进行关系推理。GCN输入为图，在图结构上进行计算，然后输出图。对于图中的目标节点i，它根据其与邻节点的边的权重来从邻节点集成特征。一层的GCN可以被写成：

Z^(l+1)＝σ(GZ^(l)W^(l))

其中，G∈R^N×N是图的矩阵表示，G具体为上述重要程度G_ij。 Z^(l)∈R^N×d是第

层节点的特征表示，Z⁽⁰⁾＝X。W^(l)∈R^d×d是该层可以习得的权重矩阵。σ(·)表示激活函数，实验中可以使用sigmoid，tanh，ReLU 等函数来增加非线性特征。

S14、融合所述第一物体区域特征和所述第二物体区域特征得到目标物体区域特征。

其中，可以将所述第一物体区域特征和所述第二物体区域特征分别对应的元素进行逐元素相加运算得到目标物体区域特征。

S15、根据所述目标物体区域特征对所述待识别图像进行分类，获得所述待识别图像的场景类别。

其中，上述融合后获得的目标物体区域特征可通过一个全连接层进行分类。可以使用MIT67和SUN397数据集进行分类模型的训练和测试，将待识别图像输入训练好的分类模型中，使用交叉熵损失函数对待识别图像进行分类，获得待识别场景的类型。

举例说明，请参照图5，本发明实施例提供的场景识别方法具体包括：使用语义分割模型得到待识别图像中的判别物体区域；使用 Inception-v3和ROIAlign提取判别物体区域的第一特征；使用图对判别物体区域的关系(包括外观关系、地理位置关系和3D方向关系)进行建模；使用GCN得到关系推理后的判别物体区域的第二特征，将该第二特征与上述第一特征进行融合，最后进行分类，得到待识别图像所属场景类别。

本发明实施例提供的场景识别方法，原物体区域特征和进行关系推理后的物体区域特征，从而使最终识别的场景更加准确，提升了用户体验。

在一个实施例中，请参照图6，提供一种场景识别装置，所述场景识别装置30可以为图1中的终端10中的一部分，也可以为该终端10。可为图2所示的机器人中的一部分，也可以为该机器人。该场景识别装置30包括：第一获取模块31，第一处理模块32，第二处理模块33、特征融合模块34和场景识别模块35。

所述第一获取模块31用于获取待识别图像的判别物体区域；所述第一处理模块32用于从所述判别物体区域中提取第一物体区域特征；所述第二处理模块33用于根据所述待识别图像对物体区域关系进行建模得到目标图结构，并根据所述目标图结构获取第二物体区域特征；所述特征融合模块34用于融合所述第一物体区域特征和所述第二物体区域特征得到目标物体区域特征；所述场景识别模块35用于根据所述目标物体区域特征对所述待识别图像进行分类，获得所述待识别图像的场景类别。

其中，第一获取模块31与第一处理模块32、第二处理模块33连接，第一处理模块32和第二处理模块33分别连接特征融合模块34，特征融合模块34与场景识别模块35连接。

其中，第一获取模块31具体用于：获取待识别图像；将所述待识别图像输入预设语义分割网络模型，获得分割结果，其中，所述分割结果包括所述待识别图像中对应物体和/或材料的类别；获取所述类别对应的二值图像，并统计每一所述类别对应的二值图像中正像素的个数，获得所述正像素的个数大于预设阈值的二值图像；将所述正像素的个数大于预设阈值的二值图像组合形成新的类别集合；将所述新的类别集合中的每一类别对应的物体进行分割得到至少两个语义区域；从所述至少两个语义区域中确定判别物体区域。

其中，所述从所述至少两个语义区域中确定判别物体区域，包括：

将所述降序排序中前N个语义区域作为判别物体区域，N＞0。

其中，第一处理模块32具体用于：从所述待识别图像中提取特征图；根据所述判别物体区域的边界框信息，从所述特征图中提取所述判别物体区域的特征，所述特征为所述第一物体区域特征。

其中，第二处理模块33具体用于：获取所述判别物体区域的物体区域关系，所述物体区域关系包括：外观关系、地理位置关系和方位关系；根据所述外观关系、所述地理位置关系和所述方位关系，并基于下述公式一获取任意两个判别物体区域之间的重要程度；所述公式一包括：

表示判别物体区域之间的外观关系，

表示判别物体区域之间的地理位置关系，

表示判别物体区域之间的方位关系。

所述公式二包括：

其中，N表示所述判别物体区域的个数。

其中，所述获取所述判别物体区域的物体区域关系包括：获取所述判别物体区域的中心坐标、长和宽；基于所述中心坐标、所述长和所述宽，建立五维的地理位置关系，所述五维的地理位置关系通过下述公式三表示；将所述五维的地理位置关系中的特征变换到高维空间，使用点积的方式计算相似性，再进行归一化处理，以获得所述判别物体区域之间的地理位置关系。所述公式三包括：

其中，

表示第i个判别物体区域的中心坐标，

表示第j个判别物体区域的中心坐标，W表示长，H表示宽。

其中，所述获取所述判别物体区域的物体区域关系包括：从所述判别物体区域对应的图像中提取局部图片块；获取所述局部图片块的特征信息；将所述局部图片块的特征信息输入预设分类模型，以获得所述判别物体区域的二维方向信息，所述二维方向信息包括平均方位角和极角；将所述二维方向信息的特征变换到高维空间中，并使用点积的方式计算相似性，再进行归一化处理，以获得所述判别物体区域之间的方位关系。

其中，第二处理模块33具体还用于：输入所述判别物体区域对应的图像至预设图卷积神经网络模型，将所述判别物体区域的物体区域关系进行卷积处理，以获得所述判别物体区域的第二物体区域特征。

其中，所述特征融合模块34具体用于：将所述第一物体区域特征和所述第二物体区域特征分别对应的元素进行逐元素相加运算得到目标物体区域特征。

需要说明的是，上述场景识别装置可执行本发明实施例所提供的场景识别方法，具备执行方法相应的功能模块和有益效果。未在场景识别装置实施例中详尽描述的技术细节，可参见本发明实施例所提供的场景识别方法。

在一个实施例中，请参照图7，提供一种电子设备，该电子设备可用于执行上述实施例中的场景识别方法。该电子设备40包括一个或多个处理器41以及存储器42。其中，图7中以一个处理器41为例。

处理器41和存储器42可以通过总线或者其他方式连接，图7中以通过总线连接为例。

存储器42作为一种非易失性计算机可读存储介质，可用于存储非易失性软件程序、非易失性计算机可执行程序以及模块，如本发明实施例中的用于场景识别方法对应的程序指令/模块。处理器41通过运行存储在存储器42中的非易失性软件程序、指令以及模块，从而执行场景识别装置的各种功能应用以及数据处理，即实现上述方法实施例提供的用于场景识别方法以及上述场景识别装置实施例的各个模块的功能。

存储器42可以包括高速随机存取存储器，还可以包括非易失性存储器，例如至少一个磁盘存储器件、闪存器件、或其他非易失性固态存储器件。在一些实施例中，存储器42可选包括相对于处理器41远程设置的存储器，这些远程存储器可以通过网络连接至处理器41。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。

所述程序指令/模块存储在所述存储器42中，当被所述一个或者多个处理器41执行时，执行上述任意方法实施例中的场景识别方法。

上述产品可执行本发明实施例所提供的方法，具备执行方法相应的功能模块和有益效果。未在本实施例详尽描述的技术细节，可参见本发明实施例所提供的方法。

在一个实施例中，还提供了一种非易失性计算机存储介质，所述非易失性计算机存储介质存储有计算机可执行指令，该计算机可执行指令被一个或多个处理器执行，例如图7中的一个处理器41，可使得上述一个或多个处理器可执行上述任意方法实施例中的场景识别方法。

在一个实施例中，还提供了一种计算机程序产品，所述计算机程序产品包括存储在非易失性计算机可读存储介质上的计算机程序，所述计算机程序包括程序指令，当所述程序指令被所述电子设备执行时，使所述电子设备执行上述任意方法实施例中的场景识别方法。

以上所描述的装置或设备实施例仅仅是示意性的，其中所述作为分离部件说明的单元模块可以是或者也可以不是物理上分开的，作为模块单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络模块单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到各实施方式可借助软件加通用硬件平台的方式来实现，当然也可以通过硬件。基于这样的理解，上述技术方案本质上或者说对相关技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在计算机可读存储介质中，如ROM/RAM、磁碟、光盘等，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。

最后应说明的是：以上实施例仅用以说明本发明的技术方案，而非对其限制；在本发明的思路下，以上实施例或者不同实施例中的技术特征之间也可以进行组合，步骤可以以任意顺序实现，并存在如上所述的本发明的不同方面的许多其它变化，为了简明，它们没有在细节中提供；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本申请各实施例技术方案的范围。