CN115439848A

CN115439848A - 一种场景识别方法、装置、设备和存储介质

Info

Publication number: CN115439848A
Application number: CN202211280557.6A
Authority: CN
Inventors: 谢莲铭
Original assignee: Agricultural Bank of China
Current assignee: Agricultural Bank of China
Priority date: 2022-10-19
Filing date: 2022-10-19
Publication date: 2022-12-06

Abstract

本发明公开了一种场景识别方法、装置、设备和存储介质，该方法包括：获取待识别场景对应的待识别图像；将所述待识别图像输入预先训练好的场景识别模型中，以使所述场景识别模型基于Stem结构、第一Inception结构、至少一个第二Inception结构和全局平均池化层依次对所述待识别图像进行处理，得到所述待识别图像对应的目标特征信息，并基于全连接层对所述目标特征信息进行分类，得到所述待识别图像的预测分类；根据所述待识别图像的预测分类确定所述待识别场景的场景识别结果。上述技术方案，实现根据参数量较少的预先训练好的场景识别模型确定待识别场景对应的待识别图像的预测分类，并根据待识别图像的预测分类确定待识别场景的场景识别结果，提升场景识别效率。

Description

一种场景识别方法、装置、设备和存储介质

技术领域

本发明实施例涉及图像处理技术，尤其涉及一种场景识别方法、装置、设备和存储介质。

背景技术

场景识别需要根据待识别场景对应的待识别图像，确定待识别场景的场景类型或者位置信息，从而帮助智能系统对待识别场景进行高度准确的语义概括。

现有技术中，可以基于具有学习能力的神经网络模型提取待识别场景对应的待识别图像的特征信息，并根据特征信息确定待识别场景的场景类型或者位置信息。场景识别需要同时考虑待识别图像中的物体信息、背景信息和上下文信息，给识别任务带来较大的困难，且目前用于场景识别的神经网络模型普遍存在参数量较大的问题。

发明内容

本发明提供一种场景识别方法、装置、设备和存储介质，以实现根据参数量较少的预先训练好的场景识别模型确定待识别场景对应的待识别图像的预测分类，并根据待识别图像的预测分类确定待识别场景的场景识别结果，提升场景识别效率。

第一方面，本发明实施例提供了一种场景识别方法，包括：

获取待识别场景对应的待识别图像；将所述待识别图像输入预先训练好的场景识别模型中，以使所述场景识别模型基于Stem结构、第一Inception结构、至少一个第二Inception结构和全局平均池化层依次对所述待识别图像进行处理，得到所述待识别图像对应的目标特征信息，并基于全连接层对所述目标特征信息进行分类，得到所述待识别图像的预测分类；根据所述待识别图像的预测分类确定所述待识别场景的场景识别结果。

本发明实施例的技术方案，获取到待识别场景对应的待识别图像之后，将待识别图像输入预先训练好的场景识别模型中，场景识别模型首先可以基于Stem结构对待识别图像进行尺寸缩放，其次可以基于第一Inception结构对经过Stem结构进行尺寸缩放的待识别图像进行多尺度特征提取后进行特征融合，得到于第一Inception结构的输出特征，实现并行通过不同尺度的卷积分支和池化分支对经过Stem结构进行尺寸缩放的待识别图像进行特征提取，进而可以基于模块化堆叠的至少一个第二Inception结构改变第一Inception结构所输出特征的通道数，且保持其尺寸不变，得到于第二Inception结构的输出特征，有效避免网络加深引发的梯度问题和网络退化问题，且结构简单、灵活、易于实现，接下来可以基于全局平均池化层对第二Inception结构所输出特征进行平均池化操作，降低了模型的参数量，减轻了过拟合效应，并保留了空间位置信息，并将平均池化后的第二Inception结构的输出特征输入到带Softmax激活函数的全连接层，得到待识别图像的预测分类，最后可以根据待识别图像的预测分类确定待识别场景的场景识别结果为待识别场景的场景类型或者位置信息，实现根据参数量较少的预先训练好的场景识别模型确定待识别场景对应的待识别图像的预测分类，并根据待识别图像的预测分类确定待识别场景的场景识别结果，提升场景识别效率。

第二方面，本发明实施例还提供了一种场景识别装置，包括：

获取模块，用于获取待识别场景对应的待识别图像；处理模块，用于将所述待识别图像输入预先训练好的场景识别模型中，以使所述场景识别模型基于Stem结构、第一Inception结构、至少一个第二Inception结构和全局平均池化层依次对所述待识别图像进行处理，得到所述待识别图像对应的目标特征信息，并基于全连接层对所述目标特征信息进行分类，得到所述待识别图像的预测分类；确定模块，用于根据所述待识别图像的预测分类确定所述待识别场景的场景识别结果。

第三方面，本发明实施例还提供了一种计算机设备，所述计算机设备包括：至少一个处理器；以及与所述至少一个处理器通信连接的存储器；其中，所述存储器存储有可被所述至少一个处理器执行的计算机程序，所述计算机程序被所述至少一个处理器执行，以使所述至少一个处理器能够执行第一方面中任一项所述的场景识别方法。

第四方面，本发明实施例还提供了一种包含计算机可执行指令的存储介质，所述计算机可执行指令在由计算机处理器执行时用于执行第一方面中任一所述的场景识别方法。

第五方面，本申请提供一种计算机程序产品，该计算机程序产品包括计算机指令，当计算机指令在计算机上运行时，使得计算机执行如第一方面提供的场景识别方法。

需要说明的是，上述计算机指令可以全部或者部分存储在计算机可读存储介质上。其中，计算机可读存储介质可以与场景识别装置的处理器封装在一起的，也可以与场景识别装置的处理器单独封装，本申请对此不做限定。

本申请中第二方面、第三方面、第四方面以及第五方面的描述，可以参考第一方面的详细描述；并且，第二方面、第三方面、第四方面、以及第五方面的描述的有益效果，可以参考第一方面的有益效果分析，此处不再赘述。

在本申请中，上述场景识别装置的名字对设备或功能模块本身不构成限定，在实际实现中，这些设备或功能模块可以以其他名称出现。只要各个设备或功能模块的功能和本申请类似，属于本申请权利要求及其等同技术的范围之内。

本申请的这些方面或其他方面在以下的描述中会更加简明易懂。

附图说明

为了更清楚地说明本发明实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为现有技术提供的场景识别模型的示意图；

图2为本发明实施例提供的一种场景识别方法的流程图；

图3为本发明实施例提供的一种场景识别方法中场景识别模型的示意图；

图4为本发明实施例提供的另一种场景识别方法的流程图；

图5为本发明实施例提供的一种场景识别方法中场景识别模型所包含的Stem结构的示意图；

图6为现有技术中初始Inception结构的示意图；

图7为本发明实施例提供的一种场景识别方法中场景识别模型所包含的第一Inception结构的示意图；

图8为本发明实施例提供的一个5×5卷积核的卷积层和两个3×3卷积核的卷积层的等价分析图；

图9为现有技术中残差连接模块的示意图；

图10为本发明实施例提供的一种场景识别方法中场景识别模型所包含的第二Inception结构的示意图；

图11a本发明实施例提供的一种场景识别方法中逐通道卷积的示意图，图11b本发明实施例提供的一种场景识别方法中逐点卷积的示意图；

图12为本发明实施例提供的一种场景识别方法中步骤430的流程图；

图13为本发明实施例提供的一种场景识别装置的结构示意图；

图14为本发明实施例提供的一种计算机设备的结构示意图。

具体实施方式

下面结合附图和实施例对本发明作进一步的详细说明。可以理解的是，此处所描述的具体实施例仅仅用于解释本发明，而非对本发明的限定。另外还需要说明的是，为了便于描述，附图中仅示出了与本发明相关的部分而非全部结构。

图1为现有技术提供的场景识别模型的示意图，如图1所示，现有技术提供的场景识别模型包括输入层、步长为2的7×7卷积核的卷积层、四个步长为2的3×3卷积核的最大池化层、3×3卷积核的卷积层、九个Inception结构、7×7卷积核的平均池化层和全连接层。现有技术提供的场景识别模型首先可以将输入的待识别图像缩放到224×224×3，对待识别图像进行卷积和最大池化操作后，得到待识别图像尺寸为28×28×192的特征信息。并由一系列Inception结构对特征信息进行进步一特征提取，并穿插最大池化操作减小输出特征图，经过最后一个Inception结构处理后输出的特征信息的尺度为7×7×1024。最后，对特征信息进行平均池化操作，并输入到带Softmax激活函数的全连接层，得到待识别图像的预测分类。

在卷积神经网络中，使用更大的卷积核意味着模型能够具有更大的感受野，获取到的信息也更丰富。对于场景识别而言，除了场景中的局部物体外，物体的周边环境以及图片的整体结构也非常重要。一方面，由图1可知，现有技术提供的场景识别模型中的Inception结构使用的卷积核尺寸较小，形状单一，提取到的特征信息不够丰富。另一方面，Inception结构并行地进行特征提取导致模型参数量激增，使得模型难以训练，且模型进行场景识别的效率较低。

因此，本申请提出一种场景识别方法，基于参数量较少的预先训练好的，包含Stem结构、第一Inception结构、至少一个第二Inception结构、全局平均池化层和全连接层的场景识别模型确定待识别场景对应的待识别图像的预测分类，并根据待识别图像的预测分类确定待识别场景的场景识别结果，提升场景识别效率。

下面将结合示图和各实施例对本申请提出的场景识别方法进行详细的描述。

图2为本发明实施例提供的一种场景识别方法的流程图，本实施例可适用于需要提升场景识别效率的情况，该方法可以由场景识别装置来执行，如图2所示，具体包括如下步骤：

步骤210、获取待识别场景对应的待识别图像。

具体地，可以基于图像获取装置获取待识别场景对应的待识别图像。

步骤220、将所述待识别图像输入预先训练好的场景识别模型中，以使所述场景识别模型基于Stem结构、第一Inception结构、至少一个第二Inception结构和全局平均池化层依次对所述待识别图像进行处理，得到所述待识别图像对应的目标特征信息，并基于全连接层对所述目标特征信息进行分类，得到所述待识别图像的预测分类。

图3为本发明实施例提供的一种场景识别方法中场景识别模型的示意图，如图3所示，场景识别模型包括输入结构(Input)、Stem结构、第一Inception结构(InceptionBlock)、至少一个第二Inception结构(Residual Block)、全局平均池化层(GlobalAverage Pooling)和全连接层(Softmax)。

具体地，将待识别图像的尺寸缩放到299×299×3后，将299×299×3的待识别图像通过场景识别模型的输入结构输入场景识别模型中。场景识别模型首先通过Stem结构将待识别图像的尺寸减少到35×35×256，其次由第一Inception结构对35×35×256的待识别图像进行多尺度的特征提取，并对得到的多种特征进行特征融合，得到尺度为35×35×1024的输出特征，进而由第二Inception结构通过1×1卷积改变第一Inception结构所输出特征的通道数，且保持其尺寸不变，接下来由全局平均池化层对第二Inception结构所输出特征进行平均池化操作，并将平均池化后的特征输入到带Softmax激活函数的全连接层，得到待识别图像的预测分类。

本发明实施例中，第一Inception结构中的多个支路使网络有了一定的宽度，可以并行通过不同尺度的卷积分支和池化分支对35×35×256的待识别图像进行特征提取。第二Inception结构融合了普通Inception结构能够提取多尺度特征的优势，且能够更有效地避免网络加深引发的梯度问题和网络退化问题，多个第二Inception结构模块化的堆叠可以增加网络的深度，且结构简单、灵活、易于实现。第二Inception结构不会改变第一Inception结构所输出特征的尺寸，因此第二Inception结构的个数可以根据特定数据集和计算机性能综合决定。全局平均池化层降低了模型的参数量，减轻了过拟合效应，并保留了空间位置信息。

步骤230、根据所述待识别图像的预测分类确定所述待识别场景的场景识别结果。

待识别图像的预测分类可以为类型分类，例如，教室、办公室、体育馆等，也可以为位置分类，例如，西南地区、东北地区等。

具体地，在确定待识别图像的预测分类为类型分类后，可以确定待识别场景的场景识别结果为待识别场景的场景类型，在确定待识别图像的预测分类为位置分类后，可以确定待识别场景的场景识别结果为待识别场景的位置信息。

本发明实施例中，在确定待识别场景对应的待识别图像的预测分类后，可以确定待识别场景的场景识别结果，即可以确定待识别场景的场景类型或者位置信息。

本发明实施例提供的场景识别方法的技术方案，获取到待识别场景对应的待识别图像之后，将待识别图像输入预先训练好的场景识别模型中，场景识别模型首先可以基于Stem结构对待识别图像进行尺寸缩放，其次可以基于第一Inception结构对经过Stem结构进行尺寸缩放的待识别图像进行多尺度特征提取后进行特征融合，得到于第一Inception结构的输出特征，实现并行通过不同尺度的卷积分支和池化分支对经过Stem结构进行尺寸缩放的待识别图像进行特征提取，进而可以基于模块化堆叠的至少一个第二Inception结构改变第一Inception结构所输出特征的通道数，且保持其尺寸不变，得到于第二Inception结构的输出特征，有效避免网络加深引发的梯度问题和网络退化问题，且结构简单、灵活、易于实现，接下来可以基于全局平均池化层对第二Inception结构所输出特征进行平均池化操作，降低了模型的参数量，减轻了过拟合效应，并保留了空间位置信息，并将平均池化后的第二Inception结构的输出特征输入到带Softmax激活函数的全连接层，得到待识别图像的预测分类，最后可以根据待识别图像的预测分类确定待识别场景的场景识别结果为待识别场景的场景类型或者位置信息，实现根据参数量较少的预先训练好的场景识别模型确定待识别场景对应的待识别图像的预测分类，并根据待识别图像的预测分类确定待识别场景的场景识别结果，提升场景识别效率。

图4为本发明实施例提供的另一种场景识别方法的流程图，本实施例是在上述实施例的基础上进行具体化。如图4所示，在本实施例中，该方法还可以包括：

步骤410、获取待识别场景对应的待识别图像。

同样地，可以基于图像获取装置获取待识别场景对应的待识别图像。

步骤420、将所述待识别图像输入预先训练好的场景识别模型中。

其中，场景识别模型包括输入结构、Stem结构、第一Inception结构、至少一个第二Inception结构、全局平均池化层和全连接层。

图5为本发明实施例提供的一种场景识别方法中场景识别模型所包含的Stem结构的示意图，如图5所示，Stem结构包括三个步长为2的3×3卷积核的卷积层(3×3convolutions(stride2))、三个步长为1的3×3卷积核的卷积层(3×3convolutions)、一个步长为1的1×1卷积核的卷积层(1×1convolutions)和一个步长为2的3×3卷积核的最大池化层(3×3max pooling(stride2))。Stem结构可以使输入Stem结构的特征图的尺寸缓慢的减小，通道数增加。例如，将299×299×3的特征图输入Stem结构后，可以得到35×35×256的特征图。

图6为现有技术中初始Inception结构的示意图，如图6所示，初始Inception结构由四个分支组成，卷积操作中，卷积层的卷积核尺寸有1×1、3×3、5×5三种，可以提取不同尺度的特征。另外，第四个分支添加了最大池化操作来增加特征图通道数，3×3卷积核的卷积层和5×5卷积核的卷积层前的1×1卷积核的卷积层可以用于缩小通道数。

在卷积神经网络中，使用更大的卷积核意味着模型能够具有更大的感受野，获取到的信息也更丰富。对于待识别图像而言，除了场景中的局部物体外，物体的周边环境以及图片的整体结构也非常重要。初始Inception结构使用的卷积核尺寸较小，形状单一，提取到的特征信息不够丰富，而直接使用更大的卷积核并行地对图像进行特征提取会带来网络模型参数量和计算量的激增。因此，本申请针对以上问题，对初始Inception结构进行改进，得到第一Inception结构。

图7为本发明实施例提供的一种场景识别方法中场景识别模型所包含的第一Inception结构的示意图，如图7所示，第一Inception结构由四个分支组成，其中两个分支均具有较大的5×5区域的感受野，其中一个分支是通过混合使用3×3卷积核的卷积层和非对称卷积核(1×3卷积核和3×1卷积核)的卷积层替代原有的5×5卷积核的卷积层实现的5×5区域的感受野，在使用时可以达到模型精度和参数量的平衡。

一方面，可以采用多个尺寸较小的卷积核的叠加替换原有卷积核以达到同等的感受野。在对小卷积核的尺寸进行选择时，1×1的卷积核尺寸过小，而当卷积核大小为2×2时，不能保证输出特征图尺寸和输入特征图尺寸一致，在使用时不方便，因此通常使用尺寸为3×3的卷积核。例如，可以采用两个3×3卷积核的卷积层替换一个5×5卷积核的卷积层，三个3×3卷积核的卷积层替换一个7×7卷积核的卷积层。图8为本发明实施例提供的一个5×5卷积核的卷积层和两个3×3卷积核的卷积层的等价分析图，如图8所示，a.输入一张图像；b.经过第一层3×3卷积核的卷积层后，输出特征图的像素点的感受野为输入图像的3×3区域；c经由第二层3×3卷积核的卷积层后，输出特征图上的像素点的感受野为输入图像的5×5区域。显然，用两个叠加的3×3卷积核的卷积层取代5×5卷积核的卷积层可以保证在具有相同感知野的前提下，提升网络深度，并且可以在增加的卷积层后面加入激励函数，使网络具有更多的非线性变换，在一定程度上可以提高卷积神经网络的性能；另一方面，可以采用非对称卷积替换原有卷积核，可以采用一个n×1卷积核的卷积层串联一个1×n卷积核的卷积层替换n×n卷积核的卷积层以达到同等的感受野。例如，可以采用一个1×5卷积核的卷积层串联一个5×1卷积核的卷积层替换5×5卷积核的卷积层。需要注意的是，非对称卷积应该在神经网络中较深的层次使用，在靠近输入的层次使用会影响模型性能。因此，非对称卷积的效果并不能完全等同于常规卷积。

增加网络的深度可以很好的提高网络的性能，然而简单地增加深度并不可行，容易造成梯度问题。虽然使用批归一化等方法能够训练较深层的网络，一定程度上解决了梯度消失等问题，但是不能避免网络退化问题。退化问题发生在深度的神经网络中，会造成模型准确率达到饱和，然后迅速下降的现象。在网络加深后，权重矩阵的退化导致了这种不良现象的发生。从理论上来说，通过在浅层网络上添加恒等映射来构造深层模型，得到的深层模型准确率不会浅层网络要低，然而实际的实验结果却并非如此，在卷积神经网络的训练中，模型要通过多层非线性网络来拟合恒等映射函数是非常困难的。残差连接模块为解决这一问题提供了思路，因此，本申请基于残差连接模块改进初始Inception结构得到第二Inception结构。

图9为现有技术中残差连接模块的示意图，如图9所示，输入残差连接模块的数据为x，原始的期望映射为H(x)，残差连接模块中的Weight layer为非线性层，堆叠的非线性层拟合的映射为F(x)＝H(x)-x，因此，可以确定残差连接模块的实际映射为F(x)+x。与直接拟合H(x)相比，拟合F(x)+x要更为简单。

一般来说，当卷积核尺寸增大时，网络准确率随之提升，但从卷积核尺寸增大到一定程度后，网络准确率开始迅速下降。同时，为了捕获到图像的不同分辨率模式，使模型达到更高的精度和效率，在神经网络中，较大尺寸卷积核的卷积层和较小尺寸卷积核的卷积层都不可或缺。为了对场景图像进行多尺度的特征提取，第二Inception结构除了能有效地加深网络深度外，每个分支应包含不同的卷积形式，以便具有不同大小的感受野。

图10为本发明实施例提供的一种场景识别方法中场景识别模型所包含的第二Inception结构的示意图，如图10所示，第二Inception结构为经过残差连接模块改进的第一Inception结构。采用三个分支替换残差连接模块中的Weight layer，三个分支分别使用尺寸为1×1、3×3和7×7的卷积核。第一分支由1×1卷积核的卷积层实现，第二分支由1×1卷积核的卷积层、1×3卷积核的卷积层和3×1卷积核的卷积层实现，第三分支由1×1卷积核的卷积层、1×7卷积核的卷积层和7×1卷积核的卷积层实现，并对三个分支的特征提取结果进行特征融合，进而确定第二Inception结构的输出为第二Inception结构的输入特征与特征融合结果的和。第二分支和第三分支中的1×1卷积核的卷积层可以压缩通道数，以降低计算量。

另外，受限于目前计算机设备的硬件条件，显著降低神经网络的参数量和计算量依旧是网络结构优化的目标之一。要实现轻量化可以针对卷积操作进行改进，深度可分离卷积是提高卷积操作效率的一种有效方法。Stem结构中的三个步长为2的3×3卷积核的卷积层、三个步长为1的3×3卷积核的卷积层、一个步长为1的1×1卷积核的卷积层，第一Inception结构中的1×1卷积核的卷积层、5×1卷积核的卷积层、1×5卷积核的卷积层、3×3卷积核的卷积层、3×1卷积核的卷积层和1×3卷积核的卷积层，第二Inception结构中的1×1卷积核的卷积层、3×1卷积核的卷积层、1×3卷积核的卷积层、7×1卷积核的卷积层和1×7卷积核的卷积层均为深度可分离卷积层。

在常规的卷积操作中，空间和通道是相互关联的，得到的是一种联合的映射，而深度可分离卷积将传统卷积操作的步骤进行了分解，在保证模型精度相差不大的前提下，减少了模型的参数量和计算量，有效地实现了模型的轻量化。深度可分离卷积将普通卷积分解成两个步骤进行，分别是逐通道卷积和逐点卷积，提出了深度可分离卷积。进行逐通道卷积时，一个卷积核负责一个通道，一个通道只被一个卷积核进行卷积操作。图11a本发明实施例提供的一种场景识别方法中逐通道卷积的示意图，图11b本发明实施例提供的一种场景识别方法中逐点卷积的示意图，如图11a所示，对于输入的n通道特征图，首先将其全部拆分为单个通道的特征图，在二维平面内分别进行单通道卷积，得到的特征图重新堆叠到一起，得到深度为n的输出特征图。逐通道卷积只对输入的特征图做了尺寸上的调整，通道数没有发生变化，忽略了通道相关性信息，输出的特征图通道数与输入特征图的通道数一致。后续的逐点卷积的作用是将这些不同通道的特征图进行组合生成新的特征图，融合通道信息，实现通道相关性。如图11b所示，逐点卷积的滤波器个数为m，n为逐通道卷积输出特征图的深度。1×1×n的滤波器将上一步中逐通道卷积的输出特征图在通道维度上进行加权组合，生成深度为m的新的特征图。

模型的空间复杂度可以用参数量来衡量，时间复杂度可用计算量来衡量，计算量可以用FLOPs(浮点运算次数，Floating Point Operations)来评估。对于一个卷积层，FLOPs的计算公式为FLOP_s＝2×k_h×k_w×I×H×W×O(1)，参数量的计算公式为parameters＝k_h×k_w×I×O(2)。其中，k_h和k_w表示卷积核的高和宽，I表示输入通道数，H、W分别表示输出特征图的高和宽，O表示输出通道数。由公式(1)和(2)可以得知，对传统的卷积操作，当输入特征图和输出特征图的高、宽和通道数均为H、W和C，卷积核尺寸为n×n时，该卷积层的FLOPs为2n²HWC²，参数量为n²C²。对于深度可分离卷积，当输入特征图和输出特征图的高、宽和通道数均为H、W和C，卷积核尺寸为n×n时，FLOPs为2n²HWC+2HWC，参数量为n²C+C²，因此可以得到压缩比公式

(3)。从公式(3)可以看出，深度可分离卷积可以有效对模型进行压缩，实现模型的轻量化。因此，本申请提出的场景识别模型能够对图像进行多尺度的特征提取，并极大地减少了模型的参数量和计算量，实现模型的轻量化。

本发明实施例中，实现了将待识别图像输入由如图5所示的Stem结构、如图7所示的第一Inception结构、多个如图10所示的第二Inception结构、全局平均池化层和全连接层构成的场景识别模型中。

步骤430、在所述场景识别模型中基于Stem结构、第一Inception结构、至少一个第二Inception结构和全局平均池化层依次对所述待识别图像进行处理，得到所述待识别图像对应的目标特征信息。

图12为本发明实施例提供的一种场景识别方法中步骤430的流程图，如图12所示，一种实施方式中，步骤430具体可以包括：

步骤4310、将所述待识别图像输入所述Stem结构，以使所述Stem结构基于三个步长为2的3×3卷积核的卷积层、三个步长为1的3×3卷积核的卷积层、一个步长为1的1×1卷积核的卷积层对所述待识别图像进行处理，以减小所述待识别图像的宽度和高度，增加所述待识别图像的通道数，得到所述待识别图像对应的第一特征信息。

具体地，将待识别图像的尺寸缩放到299×299×3后，可以将299×299×3的待识别图像通过场景识别模型的输入结构输入Stem结构中，Stem结构可以基于三个步长为2的3×3卷积核的卷积层、三个步长为1的3×3卷积核的卷积层、一个步长为1的1×1卷积核的卷积层和一个步长为2的最大池化层对299×299×3的待识别图像进行卷积和最大池化操作，减小299×299×3的待识别图像的宽度和高度的同时增加通道数，得到尺寸为35×35×256的待识别图像对应的第一特征信息，并将第一特征信息输入第一Inception结构。

步骤4320、将所述第一特征信息输入所述第一Inception结构，以使所述第一Inception结构基于1×1卷积核的卷积层对所述第一特征信息进行第一尺寸的特征提取，得到第一中间特征；基于1×1卷积核的卷积层、5×1卷积核的卷积层和1×5卷积核的卷积层对所述第一特征信息进行第二尺寸的特征提取，得到第二中间特征；基于1×1卷积核的卷积层、3×3卷积核的卷积层、3×1卷积核的卷积层和1×3卷积核的卷积层对所述第一特征信息进行第二尺寸的特征提取，得到第三中间特征；基于3×3卷积核的最大池化层和1×1卷积核的卷积层对所述第一特征信息进行第一尺寸的特征提取，得到第四中间特征；融合所述第一中间特征、所述第二中间特征、所述第三中间特征和所述第四中间特征得到所述待识别图像对应的第二特征信息。

具体地，第一Inception结构基于四个分支分别对第一特征信息进行不同尺寸的特征提取，得到第一中间特征、第二中间特征、第三中间特征和第四中间特征，并对得到的第一中间特征、第二中间特征、第三中间特征和第四中间特征进行特征融合，得到尺度为35×35×1024的第二特征信息。

步骤4330、将所述第二特征信息输入所述第二Inception结构，以使所述第二Inception结构基于1×1卷积核的卷积层对所述第二特征信息进行第一尺寸的特征提取，得到第五中间特征；基于1×1卷积核的卷积层、3×1卷积核的卷积层和1×3卷积核的卷积层对所述第二特征信息进行第三尺寸的特征提取，得到第六中间特征；基于1×1卷积核的卷积层、7×1卷积核的卷积层和1×7卷积核的卷积层对所述第二特征信息进行第四尺寸的特征提取，得到第七中间特征；融合所述第五中间特征、所述第六中间特征、所述第七中间特征和所述第二特征信息得到所述待识别图像对应的第三特征信息。

具体地，第二Inception结构分别基于三个分支分别对第二特征信息进行不同尺寸的特征提取，得到第五中间特征、第六中间特征和第七中间特征，并对得到的第五中间特征、第六中间特征、第七中间特征和第二特征信息进行特征融合，得到尺度仍然为35×35×1024的第三特征信息。

需要说明的是，由于目前还没有一个确定的公式可以针对特定数据集计算出最适合的网络层数，需要通过实验来发现最有效的网络深度；在确定网络深度时，还需要根据计算机性能综合决定；场景识别模型为模块化叠加的结构，具有灵活性，易于增减模块。因此，场景识别模型中第二Inception结构的个数可以根据数据集种类、规模和计算机性能综合决定，在一定程度上增加场景识别模型的可迁移能力。

步骤4340、将所述第三特征信息输入所述全局平均池化层，以使所述全局平均池化层对所述第三特征信息进行平均池化操作，得到所述待识别图像对应的目标特征信息。

具体地，全局平均池化层对第三特征信息进行平均池化操作，得到待识别图像对应的目标特征信息。

步骤440、在所述场景识别模型中基于全连接层对所述目标特征信息进行分类，得到所述待识别图像的预测分类。

具体地，经过Stem结构、第一Inception结构、至少一个第二Inception结构处理待识别图像得到目标特征信息后，全连接层可以对进行整合并分类。全连接层可以把特征整合到一起，学习由特征组合而成的全局模式，有效避免了特征位置对分类带来的影响。

步骤450、根据所述待识别图像的预测分类确定所述待识别场景的场景识别结果。

本发明实施例提供的场景识别方法的上述技术方案，获取到待识别场景对应的待识别图像之后，将待识别图像输入预先训练好的场景识别模型中，场景识别模型首先可以基于Stem结构对待识别图像进行尺寸缩放，其次可以基于第一Inception结构对经过Stem结构进行尺寸缩放的待识别图像进行多尺度特征提取后进行特征融合，得到于第一Inception结构的输出特征，实现并行通过不同尺度的卷积分支和池化分支对经过Stem结构进行尺寸缩放的待识别图像进行特征提取，进而可以基于模块化堆叠的至少一个第二Inception结构改变第一Inception结构所输出特征的通道数，且保持其尺寸不变，得到于第二Inception结构的输出特征，有效避免网络加深引发的梯度问题和网络退化问题，且结构简单、灵活、易于实现，接下来可以基于全局平均池化层对第二Inception结构所输出特征进行平均池化操作，降低了模型的参数量，减轻了过拟合效应，并保留了空间位置信息，并将平均池化后的第二Inception结构的输出特征输入到带Softmax激活函数的全连接层，得到待识别图像的预测分类，最后可以根据待识别图像的预测分类确定待识别场景的场景识别结果为待识别场景的场景类型或者位置信息，实现根据参数量较少的预先训练好的场景识别模型确定待识别场景对应的待识别图像的预测分类，并根据待识别图像的预测分类确定待识别场景的场景识别结果，提升场景识别效率。

图13为本发明实施例提供的一种场景识别装置的结构示意图，该装置可以适用于需要提升场景识别效率的情况。该装置可以通过软件和/或硬件实现，并一般集成在计算机设备中。

如图13所示，该装置包括：获取模块1310，用于获取待识别场景对应的待识别图像；处理模块1320，用于将所述待识别图像输入预先训练好的场景识别模型中，以使所述场景识别模型基于Stem结构、第一Inception结构、至少一个第二Inception结构和全局平均池化层依次对所述待识别图像进行处理，得到所述待识别图像对应的目标特征信息，并基于全连接层对所述目标特征信息进行分类，得到所述待识别图像的预测分类；确定模块1330，用于根据所述待识别图像的预测分类确定所述待识别场景的场景识别结果。

本实施例提供的场景识别装置的技术方案，获取到待识别场景对应的待识别图像之后，将待识别图像输入预先训练好的场景识别模型中，场景识别模型首先可以基于Stem结构对待识别图像进行尺寸缩放，其次可以基于第一Inception结构对经过Stem结构进行尺寸缩放的待识别图像进行多尺度特征提取后进行特征融合，得到于第一Inception结构的输出特征，实现并行通过不同尺度的卷积分支和池化分支对经过Stem结构进行尺寸缩放的待识别图像进行特征提取，进而可以基于模块化堆叠的至少一个第二Inception结构改变第一Inception结构所输出特征的通道数，且保持其尺寸不变，得到于第二Inception结构的输出特征，有效避免网络加深引发的梯度问题和网络退化问题，且结构简单、灵活、易于实现，接下来可以基于全局平均池化层对第二Inception结构所输出特征进行平均池化操作，降低了模型的参数量，减轻了过拟合效应，并保留了空间位置信息，并将平均池化后的第二Inception结构的输出特征输入到带Softmax激活函数的全连接层，得到待识别图像的预测分类，最后可以根据待识别图像的预测分类确定待识别场景的场景识别结果为待识别场景的场景类型或者位置信息，实现根据参数量较少的预先训练好的场景识别模型确定待识别场景对应的待识别图像的预测分类，并根据待识别图像的预测分类确定待识别场景的场景识别结果，提升场景识别效率。

在上述实施例的基础上，处理模块1320，具体用于：将所述待识别图像输入所述Stem结构，以使所述Stem结构基于三个步长为2的3×3卷积核的卷积层、三个步长为1的3×3卷积核的卷积层、一个步长为1的1×1卷积核的卷积层对所述待识别图像进行处理，以减小所述待识别图像的宽度和高度，增加所述待识别图像的通道数，得到所述待识别图像对应的第一特征信息；将所述第一特征信息输入所述第一Inception结构，以使所述第一Inception结构基于1×1卷积核的卷积层对所述第一特征信息进行第一尺寸的特征提取，得到第一中间特征；基于1×1卷积核的卷积层、5×1卷积核的卷积层和1×5卷积核的卷积层对所述第一特征信息进行第二尺寸的特征提取，得到第二中间特征；基于1×1卷积核的卷积层、3×3卷积核的卷积层、3×1卷积核的卷积层和1×3卷积核的卷积层对所述第一特征信息进行第二尺寸的特征提取，得到第三中间特征；基于3×3卷积核的最大池化层和1×1卷积核的卷积层对所述第一特征信息进行第一尺寸的特征提取，得到第四中间特征；融合所述第一中间特征、所述第二中间特征、所述第三中间特征和所述第四中间特征得到所述待识别图像对应的第二特征信息；将所述第二特征信息输入所述第二Inception结构，以使所述第二Inception结构基于1×1卷积核的卷积层对所述第二特征信息进行第一尺寸的特征提取，得到第五中间特征；基于1×1卷积核的卷积层、3×1卷积核的卷积层和1×3卷积核的卷积层对所述第二特征信息进行第三尺寸的特征提取，得到第六中间特征；基于1×1卷积核的卷积层、7×1卷积核的卷积层和1×7卷积核的卷积层对所述第二特征信息进行第四尺寸的特征提取，得到第七中间特征；融合所述第五中间特征、所述第六中间特征、所述第七中间特征和所述第二特征信息得到所述待识别图像对应的第三特征信息；将所述第三特征信息输入所述全局平均池化层，以使所述全局平均池化层对所述第三特征信息进行平均池化操作，得到所述待识别图像对应的目标特征信息。

一种实施方式中，所述场景识别模型所包含的所述Stem结构中的三个步长为2的3×3卷积核的卷积层、三个步长为1的3×3卷积核的卷积层、一个步长为1的1×1卷积核的卷积层，所包含的所述第一Inception结构中的1×1卷积核的卷积层、5×1卷积核的卷积层、1×5卷积核的卷积层、3×3卷积核的卷积层、3×1卷积核的卷积层和1×3卷积核的卷积层，所包含的第二Inception结构中的1×1卷积核的卷积层、3×1卷积核的卷积层、1×3卷积核的卷积层、7×1卷积核的卷积层和1×7卷积核的卷积层均为深度可分离卷积层。

在上述实施例的基础上，确定模块1330，具体用于：根据所述待识别图像的预测分类确定所述待识别场景的场景类型或者位置信息。

本发明实施例所提供的场景识别装置可执行本发明任意实施例所提供的场景识别方法，具备执行方法相应的功能模块和有益效果。

值得注意的是，上述场景识别装置的实施例中，所包括的各个单元和模块只是按照功能逻辑进行划分的，但并不局限于上述的划分，只要能够实现相应的功能即可；另外，各功能单元的具体名称也只是为了便于相互区分，并不用于限制本发明的保护范围。

图14为本发明实施例提供的一种计算机设备的结构示意图。图14示出了适于用来实现本发明实施方式的示例性计算机设备14的框图。图14显示的计算机设备14仅仅是一个示例，不应对本发明实施例的功能和使用范围带来任何限制。

如图14所示，计算机设备14以通用计算计算机设备的形式表现。计算机设备14的组件可以包括但不限于：一个或者多个处理器或者处理单元16，系统存储器28，连接不同系统组件(包括系统存储器28和处理单元16)的总线18。

总线18表示几类总线结构中的一种或多种，包括存储器总线或者存储器控制器，外围总线，图形加速端口，处理器或者使用多种总线结构中的任意总线结构的局域总线。举例来说，这些体系结构包括但不限于工业标准体系结构(ISA)总线，微通道体系结构(MAC)总线，增强型ISA总线、视频电子标准协会(VESA)局域总线以及外围组件互连(PCI)总线。

计算机设备14典型地包括多种计算机系统可读介质。这些介质可以是任何能够被计算机设备14访问的可用介质，包括易失性和非易失性介质，可移动的和不可移动的介质。

系统存储器28可以包括易失性存储器形式的计算机系统可读介质，例如随机存取存储器(RAM)30和/或高速缓存存储器32。计算机设备14可以进一步包括其它可移动/不可移动的、易失性/非易失性计算机系统存储介质。仅作为举例，存储系统34可以用于读写不可移动的、非易失性磁介质(图14未显示，通常称为“硬盘驱动器”)。尽管图14中未示出，可以提供用于对可移动非易失性磁盘(例如“软盘”)读写的磁盘驱动器，以及对可移动非易失性光盘(例如CD-ROM,DVD-ROM或者其它光介质)读写的光盘驱动器。在这些情况下，每个驱动器可以通过一个或者多个数据介质接口与总线18相连。系统存储器28可以包括至少一个程序产品，该程序产品具有一组(例如至少一个)程序模块，这些程序模块被配置以执行本发明各实施例的功能。

具有一组(至少一个)程序模块42的程序/实用工具40，可以存储在例如系统存储器28中，这样的程序模块42包括但不限于操作系统、一个或者多个应用程序、其它程序模块以及程序数据，这些示例中的每一个或某种组合中可能包括网络环境的实现。程序模块42通常执行本发明所描述的实施例中的功能和/或方法。

计算机设备14也可以与一个或多个外部设备14(例如键盘、指向设备、显示器24等)通信，还可与一个或者多个使得用户能与该计算机设备14交互的设备通信，和/或与使得该计算机设备14能与一个或多个其它计算设备进行通信的任何设备(例如网卡，调制解调器等等)通信。这种通信可以通过输入/输出(I/O)接口22进行。并且，计算机设备14还可以通过网络适配器20与一个或者多个网络(例如局域网(LAN)，广域网(WAN)和/或公共网络，例如因特网)通信。如图14所示，网络适配器20通过总线18与计算机设备14的其它模块通信。应当明白，尽管图14中未示出，可以结合计算机设备14使用其它硬件和/或软件模块，包括但不限于：微代码、设备驱动器、冗余处理单元、外部磁盘驱动阵列、RAID系统、磁带驱动器以及数据备份存储系统等。

处理单元16通过运行存储在系统存储器28中的程序，从而执行各种功能应用以及页面显示，例如实现本发实施例所提供的场景识别方法，该方法包括：获取待识别场景对应的待识别图像；将所述待识别图像输入预先训练好的场景识别模型中，以使所述场景识别模型基于Stem结构、第一Inception结构、至少一个第二Inception结构和全局平均池化层依次对所述待识别图像进行处理，得到所述待识别图像对应的目标特征信息，并基于全连接层对所述目标特征信息进行分类，得到所述待识别图像的预测分类；根据所述待识别图像的预测分类确定所述待识别场景的场景识别结果。

当然，本领域技术人员可以理解，处理器还可以实现本发明任意实施例所提供的场景识别方法的技术方案。

本发明实施例提供了一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现例如本发实施例所提供的场景识别方法，该方法包括：获取待识别场景对应的待识别图像；将所述待识别图像输入预先训练好的场景识别模型中，以使所述场景识别模型基于Stem结构、第一Inception结构、至少一个第二Inception结构和全局平均池化层依次对所述待识别图像进行处理，得到所述待识别图像对应的目标特征信息，并基于全连接层对所述目标特征信息进行分类，得到所述待识别图像的预测分类；根据所述待识别图像的预测分类确定所述待识别场景的场景识别结果。

注意，上述仅为本发明的较佳实施例及所运用技术原理。本领域技术人员会理解，本发明不限于这里的特定实施例，对本领域技术人员来说能够进行各种明显的变化、重新调整和替代而不会脱离本发明的保护范围。因此，虽然通过以上实施例对本发明进行了较为详细的说明，但是本发明不仅仅限于以上实施例，在不脱离本发明构思的情况下，还可以包括更多其他等效实施例，而本发明的范围由所附的权利要求范围决定。

Claims

1.一种场景识别方法，其特征在于，包括：

获取待识别场景对应的待识别图像；

将所述待识别图像输入预先训练好的场景识别模型中，以使所述场景识别模型基于Stem结构、第一Inception结构、至少一个第二Inception结构和全局平均池化层依次对所述待识别图像进行处理，得到所述待识别图像对应的目标特征信息，并基于全连接层对所述目标特征信息进行分类，得到所述待识别图像的预测分类；

根据所述待识别图像的预测分类确定所述待识别场景的场景识别结果。

2.根据权利要求1所述的场景识别方法，其特征在于，所述场景识别模型基于Stem结构对所述待识别图像进行处理，包括：

将所述待识别图像输入所述Stem结构，以使所述Stem结构基于三个步长为2的3×3卷积核的卷积层、三个步长为1的3×3卷积核的卷积层、一个步长为1的1×1卷积核的卷积层对所述待识别图像进行处理，以减小所述待识别图像的宽度和高度，增加所述待识别图像的通道数，得到所述待识别图像对应的第一特征信息。

3.根据权利要求2所述的场景识别方法，其特征在于，所述场景识别模型基于第一Inception结构对所述待识别图像进行处理，包括：

将所述第一特征信息输入所述第一Inception结构，以使所述第一Inception结构基于1×1卷积核的卷积层对所述第一特征信息进行第一尺寸的特征提取，得到第一中间特征；

基于1×1卷积核的卷积层、5×1卷积核的卷积层和1×5卷积核的卷积层对所述第一特征信息进行第二尺寸的特征提取，得到第二中间特征；

基于1×1卷积核的卷积层、3×3卷积核的卷积层、3×1卷积核的卷积层和1×3卷积核的卷积层对所述第一特征信息进行第二尺寸的特征提取，得到第三中间特征；

基于3×3卷积核的最大池化层和1×1卷积核的卷积层对所述第一特征信息进行第一尺寸的特征提取，得到第四中间特征；

融合所述第一中间特征、所述第二中间特征、所述第三中间特征和所述第四中间特征得到所述待识别图像对应的第二特征信息。

4.根据权利要求3所述的场景识别方法，其特征在于，所述场景识别模型基于第二Inception结构对所述待识别图像进行处理，包括：

将所述第二特征信息输入所述第二Inception结构，以使所述第二Inception结构基于1×1卷积核的卷积层对所述第二特征信息进行第一尺寸的特征提取，得到第五中间特征；

基于1×1卷积核的卷积层、3×1卷积核的卷积层和1×3卷积核的卷积层对所述第二特征信息进行第三尺寸的特征提取，得到第六中间特征；

基于1×1卷积核的卷积层、7×1卷积核的卷积层和1×7卷积核的卷积层对所述第二特征信息进行第四尺寸的特征提取，得到第七中间特征；

融合所述第五中间特征、所述第六中间特征、所述第七中间特征和所述第二特征信息得到所述待识别图像对应的第三特征信息。

5.根据权利要求4所述的场景识别方法，其特征在于，所述场景识别模型基于全局平均池化层对所述待识别图像进行处理，包括：

将所述第三特征信息输入所述全局平均池化层，以使所述全局平均池化层对所述第三特征信息进行平均池化操作，得到所述待识别图像对应的目标特征信息。

6.根据权利要求5所述的场景识别方法，其特征在于，所述场景识别模型所包含的所述Stem结构中的三个步长为2的3×3卷积核的卷积层、三个步长为1的3×3卷积核的卷积层、一个步长为1的1×1卷积核的卷积层，所包含的所述第一Inception结构中的1×1卷积核的卷积层、5×1卷积核的卷积层、1×5卷积核的卷积层、3×3卷积核的卷积层、3×1卷积核的卷积层和1×3卷积核的卷积层，所包含的第二Inception结构中的1×1卷积核的卷积层、3×1卷积核的卷积层、1×3卷积核的卷积层、7×1卷积核的卷积层和1×7卷积核的卷积层均为深度可分离卷积层。

7.根据权利要求1所述的场景识别方法，其特征在于，根据所述待识别图像的预测分类确定所述待识别场景的场景识别结果，包括：

根据所述待识别图像的预测分类确定所述待识别场景的场景类型或者位置信息。

8.一种场景识别装置，其特征在于，包括：

获取模块，用于获取待识别场景对应的待识别图像；

处理模块，用于将所述待识别图像输入预先训练好的场景识别模型中，以使所述场景识别模型基于Stem结构、第一Inception结构、至少一个第二Inception结构和全局平均池化层依次对所述待识别图像进行处理，得到所述待识别图像对应的目标特征信息，并基于全连接层对所述目标特征信息进行分类，得到所述待识别图像的预测分类；

确定模块，用于根据所述待识别图像的预测分类确定所述待识别场景的场景识别结果。

9.一种计算机设备，其特征在于，所述计算机设备包括：

至少一个处理器；以及与所述至少一个处理器通信连接的存储器；

其中，所述存储器存储有可被所述至少一个处理器执行的计算机程序，所述计算机程序被所述至少一个处理器执行，以使所述至少一个处理器能够执行权利要求1-7中任一项所述的场景识别方法。

10.一种包含计算机可执行指令的存储介质，所述计算机可执行指令在由计算机处理器执行时用于执行权利要求1-7中任一所述的场景识别方法。