CN115601551A

CN115601551A - 对象识别方法、装置、存储介质及电子设备

Info

Publication number: CN115601551A
Application number: CN202110779088.1A
Authority: CN
Inventors: 刘军; 罗建平; 陈增灼; 杨吉团
Original assignee: TCL Technology Group Co Ltd
Current assignee: TCL Technology Group Co Ltd
Priority date: 2021-07-09
Filing date: 2021-07-09
Publication date: 2023-01-13

Abstract

本申请公开了一种对象识别方法、装置、存储介质及电子设备，该对象识别方法包括：获取待识别图像，然后获取待识别图像的深度信息和对象区域识别信息，最后根据深度信息和对象区域识别信息，确定出待识别图像中位于预设深度区域的目标对象。本申请公开的对象识别方法、装置、存储介质及电子设备不借助外部装置来进行深度检测，能够减少成本，提高预测精度。

Description

对象识别方法、装置、存储介质及电子设备

技术领域

本申请涉及人工智能技术领域，具体涉及一种对象识别方法、装置、存储介质及电子设备。

背景技术

图像分割技术被广泛地用于医学图像、无人驾驶以及智能可移动设备的应用程序等领域，例如语义分割。目前，对于一些特殊的分割任务，例如区分具有不同景深的图像中位于前后景的人像，传统的语义分割方法实现难度较大，成本较高，往往需要借助外部装置辅助实现。例如，在相机中加入深度传感器，但是深度传感器一般需要占据很大的空间，使得设备变得笨重，同时也会增加设备成本。另外，传统的深度传感器或多或少都会受到镜面反射和杂散光的影响，从而造成部分区域深度信息的缺失。因此，需要一种能够降低成本，提高预测精度的对象识别方法。

发明内容

本申请实施例提供了一种对象识别方法、装置、存储介质及电子设备，能够简单快速且精确地对图像在深度信息上进行语义分割，不增加额外成本。

本申请实施例提供的对象识别方法，包括：

获取待识别图像；

获取所述待识别图像的深度信息和对象区域识别信息；

根据所述深度信息和所述对象区域识别信息，确定出所述待识别图像中位于预设深度区域的目标对象。

本申请实施例提供的图像识别装置，包括：

图像获取模块，用于获取待识别图像；

深度估计模块，用于获取所述待识别图像的深度信息；

语义识别模块，用于获取所述待识别图像的对象区域识别信息；

整合模块，用于根据所述待识别图像的深度信息和所述对象区域识别信息，确定出所述待识别图像中位于预设深度区域的目标对象。

本申请实施例提供的存储介质，其上存储有计算机程序，当所述计算机程序被处理器加载时执行如本申请提供的对象识别方法中的步骤。

本申请实施例提供的电子设备，包括处理器和存储器，所述存储器存有计算机程序，所述处理器通过加载所述计算机程序，用于执行本申请提供的对象识别方法中的步骤。

本申请中，获取待识别图像，再获取待识别图像的深度信息和对象区域识别信息，最后根据深度信息和对象区域识别信息，确定出待识别图像中位于预设深度区域的目标对象。相较于相关技术，本申请不借助外部装置来进行深度检测，能够减少成本，提高预测精度。

附图说明

为了更清楚地说明本申请实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本发明实施例提供的电子设备的场景示意图。

图2是本发明实施例提供的电子设备10的架构示意图.

图3是本发明实施例提供的图像识别装置的功能模块架构示意图。

图4是本发明实施例提供的对象识别方法的流程示意图。

图5是步骤S120的细化流程示意图。

图6是本发明实施例提供的图像识别模型的架构示意图。

图7是本发明实施例提供的一种主干网络的细化结构示意图。

图8是本实施例提供的一种主干反向残差模块的细化结构示意图。

图9是步骤S122基于主干反向残差模块细化结构的细化流程示意图。

图10是本发明实施例提供的图像识别模型的训练流程示意图。

图11和图12是本发明实施例提供的深度估计网络和语义识别网络的结构细化示意图。

图13是步骤S130的细化流程示意图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。通常在此处附图中描述和示出的本发明实施例的组件可以以各种不同的配置来布置和设计。

人工智能(Artificial Intelligence,AI)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能、感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。换句话说，人工智能是计算机科学的一个综合技术，它企图了解智能的实质，并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法，使机器具有感知、推理与决策的功能。

人工智能技术是一门综合学科，涉及领域广泛，既有硬件层面的技术也有软件层面的技术。人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互系统、机电一体化等技术。人工智能软件技术主要包括机器学习(Machine Learning,ML)技术，其中，深度学习(Deep Learning，DL)是机器学习中一个新的研究方向，它被引入机器学习以使其更接近于最初的预设目标，即人工智能。目前，深度学习主要应用在计算机视觉、自然语言处理等领域。

深度学习是学习样本数据的内在规律和表示层次，这些学习过程中获得的信息对诸如文字、图像和声音数据的解释有很大的帮助。利用深度学习技术，以及对应的训练数据集，能够训练得到实现不同功能的网络模型，比如，基于一训练数据集能够训练得到用于性别分类的深度学习网络，基于另一训练数据集能够训练得到图像优化的深度学习网络等。

在计算机视觉领域，目前神经网络的应用主要有图像识别，目标定位与检测，语义分割。图像识别能够识别图像是什么，目标定位与检测能够获取图像中目标在哪里，语义分割则是从像素级别实现上述两个功能。图像语义分割(semantic segmentation)，就是让计算机根据图像的语义来进行分割。

深度卷积神经网络在图像分类任务取得了显著的效果，科研人员也将该技术运用到了更加复杂的图像分割任务中，全卷积深度神经网络越来越多地运用到了图像分割领域。特别是在手机拍照领域，由于手机设备的存储和内存空间的限制，传统的算法无法完成高效和精准的分割任务。但是，基于卷积神经网络的图像分割算法则不同，深度神经网络具有很强的提取图片全局信息的能力，因此能够有效克服语义分割这种不单单依赖局部信息的任务。

尽管基于卷积神经网络的算法在语义分割领域取得很大的成功，但是这种有监督的深度学习算法都依赖大量的数据。因此，对于一些特殊的分割任务，需要特定的分割数据。例如，通过语义分割区分前后景中的人像，这种情况往往靠人为标注数据是无法实现的，但是又是手机图像处理中迫切需要的。例如，在智能颜色填充中，我们可能需要让前景中的人像保留颜色，而背景中的人像变成灰色；在背景虚化中，我们需要前景中的人像虚化量少，背景中的人像虚化量大，用以模拟单反相机。这些需求单凭语义分割无法满足。

目前的某些解决方案中，采用在相机中加入深度传感器，但是深度传感器一般需要占据很大的空间，使得设备变得笨重，同时也会增加设备成本。另外，传统的深度传感器或多或少都会受到镜面反射和杂散光的影响，从而造成部分区域深度信息的缺失。

为了能够降低设备成本，且提高预测精度，本申请实施例提供一种对象识别方法、对象识别装置、存储介质以及电子设备。

请参照图1，是本发明实施例提供的电子设备10的场景示意图。首先获取待识别图像，再获取待识别图像的深度信息和对象区域识别信息，最后根据待识别图像的深度信息和对象区域识别信息确定出待识别图像中位于预设深度区域的目标对象。电子设备10可以是任何配置有处理器而具备处理能力的设备，比如智能手机、平板电脑、掌上电脑、笔记本电脑等具备处理器的移动式电子设备，或者台式电脑、电视、服务器等具备处理器的固定式电子设备。

请参照图2，是本发明实施例提供的电子设备10的架构示意图。该电子设备10包括图像识别装置11、存储器12和处理器13。存储器12、处理器13相互之间直接或间接地电性连接，以实现数据的传输或交互。例如，可通过一条或多条通讯总线或信号线实现电性连接。图像识别装置11包括至少一个可以软件或固件(firmware)的形式存储于存储器12中或固化在该电子设备10的操作系统(operating system，OS)中的软件功能模块。处理器13用于执行存储器12中存储的可执行模块，例如图像识别装置11所包括的软件功能模块及计算机程序等。

其中，存储器12可以是，但不限于，随机存取存储器(Random Access Memory，RAM)，只读存储器(Read Only Memory，ROM)，可编程只读存储器(Programmable Read-OnlyMemory，PROM)，可擦除只读存储器(Erasable Programmable Read-Only Memory，EPROM)，电可擦除只读存储器(Electric Erasable Programmable Read-Only Memory，EEPROM)等。其中，存储器12用于存储程序，处理器13在接收到执行指令后，执行所述程序。

处理器13可能是一种集成电路芯片，具有信号的处理能力。上述的处理器可以是通用处理器，包括中央处理器(Central Processing Unit，CPU)、网络处理器(NetworkProcessor，NP)等；还可以是数字信号处理器(DSP))、专用集成电路(ASIC)、现场可编程门阵列(FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。可以实现或者执行本发明实施例中的公开的各方法、步骤及逻辑框图。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。

当电子设备10还配置有摄像头时，可以直接通过配置的摄像头获取待识别图像，在该实施方式中，电子设备10还可以包括外设接口，将各种输入/输出装置(例如摄像头)耦合至处理器以及存储器。

请参照图3，是本发明实施例提供的图像识别装置11的功能模块架构示意图，该图像识别装置11包括获取模块111、深度估计模块112、语义识别模块113和整合模块114。图像识别装置11用于执行本发明实施例所提供的对象识别方法，下面对本发明实施例提供的对象识别方法进行详细介绍。

请参照图4，是本发明实施例提供的对象识别方法的流程图，该对象识别方法可以包括以下步骤：

步骤S110，获取待识别图像。

该待识别图像为需要进行语义分割的图像，图像可以包括不同的景深，需要对其中的目标对象进行预设景深的分割，例如需要对图像中位于前景和背景的人像进行分割，以便进行后续操作。在其他实施例中，目标对象还可以为其他事物，例如动物、景象。

步骤S120，获取待识别图像的深度信息和对象区域识别信息。

对象区域识别信息为对待识别图像进行分割后的信息，例如人、墙、树木、花、狗，以及上述事物存在于图像中的位置。

在待识别图像获取时，摄像机的传感器发出经调制的近红外光，遇物体后反射，传感器通过计算光线发射和反射时间差或相位差，来换算被拍摄景物的距离，以产生深度信息，结合相机拍摄，就能将物体的三维轮廓以不同颜色代表不同距离的方式呈现出来。本实施例中，深度信息为对图像中处于不同景深的区域所展示出的信息进行分割后，得到的不同深度的图像。

请参照图5，在一可选实施例中，步骤S120可以包括以下步骤：

步骤S121，获取图像识别模型。

请参照图6，是该图像识别模型14的架构示意图。该图像识别模型14包括主干网络141、深度估计网络142和语义识别网络143。

步骤S122，将待识别图像输入主干网络，得到待识别图像的图像特征。

主干网络141为图像识别模型14的支柱，用于对待识别图像进行特征提取编码，得到待识别图像的图像特征，其中，图像特征可以包括形状特征、颜色特征、纹理特征、空间关系特征等。

请参照图7，是本发明实施例提供的一种主干网络的细化结构示意图。该主干网络141包括依次连接的主干卷积模块1411和多个主干反向残差模块1412。

对于步骤S122，可以细化为：将待识别图像输入主干卷积模块1411，从多个主干反向残差模块1412中的最后一个主干反向残差模块1412得到图像特征。

请参照图8，是本实施例提供的一种主干反向残差模块1412的细化结构示意图。该主干反向残差模块1412包括第一逐点卷积单元14121、逐通道卷积单元14122、权重分配单元14123和第二逐点卷积单元14124。

请参照图9，是步骤S122基于主干反向残差模块1412细化结构的细化流程示意图。将待识别图像输入主干卷积模块，从多个主干反向残差模块中的最后一个主干反向残差模块得到图像特征包括将所述待识别图像输入所述主干卷积模块包括：

步骤S1221，将主干卷积模块输出的图像特征输入所述第一逐点卷积单元，得到通道数扩大到预设倍数的卷积结果。

主干卷积模块输出的图像特征经过第一逐点卷积单元14121，通道数扩大到预设倍数，可以有效减少非线性激活层带来的特征损耗。在一种可选的实施例中，第一逐点卷积单元14121包括激活层，本发明实施例对该激活层的结构不做限定，可由本领域技术人员根据实际需要进行选择，包括但不限于Sigmoid函数、tanh函数、ReLU函数以及Leaky ReLU函数等，比如，本实施例中采用ReLU6函数作为激活层。

步骤S1222，将通道数扩大到预设倍数的卷积结果输入逐通道卷积单元，得到混合空间信息后的卷积结果。

在一种可选的实施例中，逐通道卷积单元14122包括激活层，本发明实施例对该激活层的结构不做限定，例如可以为Sigmoid函数、tanh函数、ReLU函数以及Leaky ReLU函数等，比如，本实施例中采用ReLU6函数作为激活层。

步骤S1223，将混合空间信息后的卷积结果输入权重分配单元，以对图像特征的各个通道进行权重分配，得到权重分配后的卷积结果。

权重分配单元14123在对各个通道进行权重分配时，首先采集图像特征的全局信息，然后在对各个通道分配不同的权重，以获得更好的信息传输。权重分配单元14123可以采用Squeeze-and-Excitation模块，是一种通过全局平均池化的策略将将每一个通道的全局信息通过全局平均池化的方法变成一个数，并通过卷积层和激活层操作，输出为每个通道的数值,这些值也就是每个通道的权重系数，利用有用的通道抑制无用的通道，再将这些权重系数与输入的通道信息进行相乘，即得到新的通道信息，作为下一部分的输入使用。以达到通过精确的建模卷积特征各个通道之间的作用关系来改善网络模型的表达能力。

步骤S1224，将权重分配后的卷积结果输入第二逐点卷积单元，得到通道数缩放回原始数值的卷积结果。

在本实施例中，为了避免非线性激活层带来的损耗，第二逐点卷积单元14124不加入激活层。

作为一种实施方式，主干卷积模块1411和多个主干反向残差模块1412均包含一个stride＝2的卷积层，输入图像经过主干网络141之后，图像的空间尺寸变为原始的64分之一，这样能够有效地提取图像的全局信息。为了方便图像识别模型的训练，输入的图像尺寸为64的倍数。输入的图像经过主干卷积模块1411和多个主干反向残差模块1412的输出通道数依次为16,32,64,96,128和192。需要说明的是，通道数的数量通过预先设定，在其他实施例中，还以设置为其他数值，本实施例对此不做限定。

步骤S123，将图像特征输入深度估计网络，得到深度信息。

步骤S124，将图像特征输入语义识别网络，得到对象区域识别信息。

该深度估计网络142和语义识别网络143通过预先训练得到，训练的过程如下：

请参照图10，是本发明实施例提供的图像识别模型14的训练流程示意图。

步骤S140，获取深度估计训练样本和语义识别训练样本。

深度估计训练样本包括样本图像的图像特征以及样本图像的图像特征对应的深度信息数据，对于深度估计网络142的训练，在某些设备的摄像装置中，例如手机、平板电脑，对应的深度标注信息较难获取，需要采用泛化性较好的模型来生成深度估计的训练样本，在本实施例中，采用teacher-student的方法训练深度估计网络，例如，可以采用ResNeXt-101-WSL这种大模型在ReDWeb、DIML、Movies、MegaDepth、WSVD、TartanAir、HRWSI、ApolloScape、BlendedMVS、IRS等十个数据集上做训练，同时使用Scale-and shift-invariant losses有效地增强模型的泛化性和深度预测的精度。使用该模型推理语义分割的输入数据，获得相对应的目标对象，如人像的深度数据，再用获取的数据去训练轻量级、实时的深度估计网络142。

步骤S150，根据深度估计训练样本，采用对应深度估计网络的第一损失函数对图像识别模型进行训练；

步骤S160，根据语义识别训练样本，采用对应语义识别网络的第二损失函数对图像识别模型进行训练。

当满足预设训练停止条件时，停止对图像识别模型14的训练，该预设停止条件根据需要可自行设置，例如训练次数达到预设次数，或者模型收敛等。

本发明的深度估计网络142采用的第一损失函数为Reversed Huber loss损失函数，包括：

其中，e_i为是第i像素的预测深度d_i与真值

的差值，即

c为第二阈值。另外，阈值c＝0.2max_i(e_i)，在此i将会遍历每一个送入网络中训练的数据中的所有像素。

对于语义识别网络143，其语义分割任务其实是一个二分类任务，为了减少运算量，本发明实施例采用的第二损失函数为二进制交叉熵损失函数(Binary crossentropy)。因此，语义分割最终的输出通道数为1。在推理时，只需在该输出之后加入四舍五入的操作，就能够得到最终需要的掩膜。另外，由于语义分割的最终输出通道数为1，可以将语义分割当成一张图像，在交叉熵损失函数的基础上可以进入梯度损失函数，因此，语义识别网络143对应的第二损失函数包括：

其中，n为一个图像的像素总数，

为在第k个尺寸上语义识别图像s_i与真值

的差值，即

β为经验常数。

图像识别模型14的损失函数可以表示为：

其中，α为经验常数，用于调节第一损失函数和第二损失函数在总损失函数中的比重。

通过上述步骤S140～S150，本发明实施例实现了图像识别模型14的训练过程，下面对深度估计网络142和语义识别网络143的结构进行详细介绍。

请参照图11，是本发明实施例提供的深度估计网络和语义识别网络的结构细化示意图。在一种实施方式中，深度估计网络142和语义识别网络143的结构相同，采用特征金字塔网络，该特征金字塔网络可以分为6层，每一层均包括解码模块1401，相邻的两层之间设置上采样模块1402和Concat模块(由图11中

表示)进行连接。为了便于区分，在命名上，深度估计网络142包括多个深度信息解码模块和多个深度信息上采样模块，语义识别网络143包括多个语义信息解码模块和多个语义信息上采样模块。

需要说明的是，在模型训练过程中，作为一种实施方式，本发明实施例采用了multi-scale的预测方式，即模型训练的时候，针对每一个任务都有四个scale的输出(即S0、S1、S2、S3)。另外，不同于其它multi-scale的预测方法，本发明实施例的multi-scale预测在进行损失函数计算时，会先上采样原始的输入尺寸。虽然会增加模型的训练时间，但是对模型的推理时间不造成影响。同时，将待识别图像放大到原始尺寸，能够让模型更好地关注图像的细节，有效地增加模型的预测精度。该设计意味着图像识别模型的四个尺度的输出在同一个尺度上。因此，在深度估计网络和语义识别网络的推理过程中，通过舍弃S0、S1、S2这三个大尺寸的预测，而只保留S3的预测，即深度估计网络和语义识别网络在训练时的解码模块的数量大于运用时的解码模块的数量，需要说明的是，具体减少的数量根据实际情况可以自由设置，本实施例不做限定。能够大大地减少深度估计网络和语义识别网络的参数和提升推理速度，同时模型的精度也不会受到太大的影响，如图12虚线框所示。

基于上述金字塔网络，本实施例中将图像特征输入深度估计网络，得到待识别图像的深度信息以及将图像特征分别输入语义识别网络，得到对象区域识别信息可以包括：

将图像特征分别输入深度估计网络142和语义识别网络143的解码模块，得到预设通道数的图像特征。为了便于区分，具体的，将图像特征输入深度信息解码模块，得到预设通道数的深度图像特征，将图像特征输入语义信息解码模块，得到预设通道数的语义图像特征。

在一种实施方式中，解码模块1401包括反向残差模块，反向残差模块与主干反向残差模块1412的结构相同，即都包括第一逐点卷积单元、逐通道卷积单元、权重分配单元和第二逐点卷积单元，由于前述已经对主干反向残差模块的各个细化结构进行详细说明，此处不再赘述。为了便于区分，深度信息解码模块包括多个深度信息反向残差模块，语义信息解码模块包括多个语义信息反向残差模块。

将图像特征分别输入深度估计网络和语义识别网络的解码模块，得到预设通道数的图像特征，可以通过将图像特征输入深度估计网络和语义识别网络的反向残差模块，得到预设通道数的图像特征。具体的，将图像特征输入深度信息反向残差模块，得到预设通道数的深度图像特征，将图像特征输入语义信息反向残差模块，得到预设通道数的语义图像特征。

将得到的预设通道数的图像特征分别输入深度估计网络和语义识别网络的上采样模块，得到放大到预设尺寸的图像特征。深度信息上采样模块包括深度信息线性放大模块和深度信息卷积模块，将得到的预设通道数的深度图像特征输入深度信息上采样模块，得到深度信息，包括：将得到的预设通道数的深度图像特征输入深度信息线性放大模块，得到放大到预设尺寸的深度图像特征。语义信息上采样模块包括语义信息线性放大模块和语义信息卷积模块，将得到的预设通道数的语义图像特征输入语义信息上采样模块，得到对象区域识别信息，包括：将得到的预设通道数的语义图像特征输入语义信息线性放大模块，得到放大到预设尺寸的语义图像特征。

由于深度估计和语义识别都是像素层面的处理，所以经过主干网络141缩放的图像特征，需要放大到一定尺寸，因此需要引入上采样模块1402对得到的预设通道数的图像特征进行放大，置于放大的倍数，可以放大到图像的原始尺寸，在其他的一些实施方式中，由于原始尺寸和原始尺寸二分之一的尺寸，在结果上基本一致，而且特征图像尺寸越大运算量也就越大，为了减少深度估计网络142和语义识别网络143的运算量和参数量，可以将图像特征放大到图像原始尺寸的二分之一。

经过上采样模块1402对图像进行放大后，可能会导致最终输出的结果出现严重的马赛克效应。在此，在一些实施例中，可以在上采样放大之后加入卷积操作，上采样模块1402还可以包括卷积模块14021。在深度估计网络142中，该卷积模块14021为深度信息卷积模块，在语义识别网络143中，该卷积模块14021为语义信息卷积模块。将得到的预设通道数的图像特征分别输入深度估计网络和语义识别网络的上采样模块，得到放大到预设尺寸的图像特征之后，还可以包括：将得到的预设尺寸的图像特征分别输入深度估计网络和语义识别网络的卷积模块14021，得到卷积之后的待识别图像的深度信息和对象区域识别信息。具体的，将放大到预设尺寸的深度图像特征输入深度信息卷积模块，得到深度信息，将放大到预设尺寸的语义图像特征输入语义信息卷积模块，得到对象区域识别信息。

通过上述步骤S121～步骤S124，本发明实施例能够实现待识别图像的特征提取到深度信息和对象区域识别信息的获取，从图6可以看出，本发明实施例中，深度估计网络142和语义识别网络143共享同一主干网络141。从主干网络输入一张图像，能够同时输出深度信息和对象区域识别信息。因为在实际情况中，图像语义一致的区域，深度信息一般都会相同，例如墙、人、树木等。反之，深度信息相近的区域，一般都具有相同的语义。因此，本发明实施例采用同一主干网络对深度信息和语义信息进行预测，不但不会降低预测精度，反而能够起到相互增强的作用。考虑到深度估计和语义分割所用到的高层语义基本相同，因此，本发明实施例的图像识别模型14中深度估计网络142和语义识别网络143共享同一个主干网络141，不仅能够提升深度估计网络142和语义识别网络143预测精度，而且还能够减少深度估计网络142和语义识别网络143的参数和运算量，提升推理速度。

步骤S130，根据深度信息和对象区域识别信息，确定出待识别图像中位于预设深度区域的目标对象。

通过整合待识别图像的深度信息和对象区域识别信息，可以得到不同深度区域中需要识别的目标对象。

请参照图13，是步骤S130的细化流程示意图，包括：

步骤S131，根据对象区域识别信息从待识别图像的深度信息中确定出对象区域的深度信息。

目标对象即需要语义分割的结果，例如需要知道图像中位于前景的人，那么目标对象即人。由于在前述步骤中，已经获取到待识别图像的深度信息和对象区域识别信息，因此，可以从深度信息中提取出只包含目标对象的深度信息，以目标对象为人举例，即：

D_human＝D[M≥N]

其中，D_human为人的深度信息，D为待识别图像的深度信息，M为待识别图像的对象区域识别信息，N为预设阈值，用于排除深度信息中人像之外的区域，其具体数值可以根据经验自行设定，在本实施例中，N的数值可以设置为0.95。

步骤S132，获取对象区域的深度信息中的最大深度值和最小深度值。

步骤S133，根据最大深度值和最小深度值，确定对象区域中的目标对象是否存在于前景和背景。

由于待识别图像中，可能存在目标对象同时存在于前景和背景的情况，例如目标对象是人，在拍摄时，有2个人分别站在前后位置，即同时出现在前景和背景中。因此需要先对该情况进行甄别，在本实施例中，可以通过设置第一阈值来辅助判断。当目标对象的深度信息中的最大值和最小值的差值大于第一阈值时，确定目标对象同时存在于前景和背景。第一阈值的具体数值可以根据实际情况而定，本实施例不做限定，例如可以设置为0.5，即当|D_max-D_min|>0.5时，表明目标对象同时存在于前景和背景，其中D_max为目标对象的深度信息中的最大值，D_min为目标对象的深度信息中的最小值。

步骤S134，通过确定目标对象的深度值确定出待识别图像中位于预设深度区域的目标对象。

由于语义分割任务为二分类任务，输出的值仅包含1或0，在本实施例中，可以通过数值归类获取分别属于前景和背景的掩膜，当目标对象同时存在于前景和背景时，将目标对象中，目标对象深度值大于或等于预设深度值的目标对象作为存在于前景的目标对象，目标对象深度值小于预设深度值的目标对象作为存在于背景的目标对象，其中，预设深度值为对象区域的最大深度值与最小深度值的平均值。具体的，目标对象的深度图像的掩膜可以通过以下公式表示：

其中，D_m(x)为所述位于前景的预设目标的深度图像的掩膜，D_max为区域的深度信息的最大值，D_min为区域的深度信息的最小值。

当目标对象不同时存在于前景和背景时，目标对象的深度图像的掩膜为：D_m(x)＝1。

根据确定的目标对象的深度图像的掩膜和对象区域识别信息，得到位于预设深度区域的目标对象。例如，需要获取位于前景的目标对象，则选取D_m(x)＝1的掩膜，需要获取位于背景的目标对象，则选取D_m(x)＝0的掩膜。

当识别出预设深度区域的目标对象后，本发明实施例还可以包括：

S140，对位于预设深度区域的目标对象进行分割，得到从预设深度区域分割出的目标对象。

将目标对象分割出来后，可用于其他图像处理的环节，本实施例对此不再赘述。

综上所述，本发明实施例提供的对象识别方法，通过获取待识别图像，然后获取待识别图像的深度信息和对象区域识别信息，最后根据深度信息和对象区域识别信息，确定出待识别图像中位于预设深度区域的目标对象。不借助外部装置来进行深度检测，能够减少成本，提高预测精度。此外，在一种实施方式中，采用特殊设计的图像识别模型14，图像识别模型14中深度估计网络142和语义识别网络143共享同一个主干网络141，不仅能够提升深度估计网络142和语义识别网络143预测精度，而且还能够减少深度估计网络142和语义识别网络143的参数和运算量，提升推理速度。另外，在模型训练时，通过设计的多尺度损失函数，能够在不损失预测精度的情况下，去除一些运算量大的卷积层，因此适用于嵌入式设备进行部署。

本发明实施例提供的对象识别方法应用于图像识别装置11，其中，步骤S110可以通过图像识别装置11的获取模块111执行，步骤120可以通过图像识别装置11的深度估计模块112、语义识别模块113执行，步骤S130可以通过图像识别装置11的整合模块114执行。由于上述步骤S110～步骤S130在前述内容中已经对其各细化流程进行了详细的介绍，此处不再进行赘述。

在本申请所提供的几个实施例中，应该理解到，所揭露的装置和方法，也可以通过其它的方式实现。以上所描述的装置实施例仅仅是示意性的，例如，附图中的流程图和框图显示了根据本发明的多个实施例的装置、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上，流程图或框图中的每个方框可以代表一个模块、程序段或代码的一部分，所述模块、程序段或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意，在有些作为替换的实现方式中，方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如，两个连续的方框实际上可以基本并行地执行，它们有时也可以按相反的顺序执行，这依所涉及的功能而定。也要注意的是，框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合，可以用执行规定的功能或动作的专用的基于硬件的系统来实现，或者可以用专用硬件与计算机指令的组合来实现。

另外，在本发明各个实施例中的各功能模块可以集成在一起形成一个独立的部分，也可以是各个模块单独存在，也可以两个或两个以上模块集成形成一个独立的部分。

所述功能如果以软件功能模块的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

以上所述仅为本发明的优选实施例而已，并不用于限制本发明，对于本领域的技术人员来说，本发明可以有各种更改和变化。凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。应注意到：相似的标号和字母在下面的附图中表示类似项，因此，一旦某一项在一个附图中被定义，则在随后的附图中不需要对其进行进一步定义和解释。

Claims

1.一种对象识别方法，其特征在于，包括：

获取待识别图像；

根据所述待识别图像，确定所述待识别图像的深度信息和对象区域识别信息；

2.根据权利要求1所述的对象识别方法，其特征在于，所述根据所述待识别图像，确定所述待识别图像的深度信息和对象识别信息包括：

获取图像识别模型，所述图像识别模型包括主干网络、深度估计网络和语义识别网络；

将所述待识别图像输入所述主干网络，得到所述待识别图像的图像特征；

将所述图像特征输入所述深度估计网络，得到所述深度信息；

将所述图像特征输入所述语义识别网络，得到所述对象区域识别信息。

3.根据权利要求2所述的对象识别方法，其特征在于，所述主干网络包括依次连接的主干卷积模块和多个主干反向残差模块，所述将所述待识别图像输入所述主干网络，得到所述待识别图像的图像特征，包括：

将所述待识别图像输入所述主干卷积模块，从所述多个主干反向残差模块中的最后一个主干反向残差模块得到所述图像特征。

4.根据权利要求3所述的对象识别方法，其特征在于，所述主干反向残差模块包括第一逐点卷积单元、逐通道卷积单元、权重分配单元和第二逐点卷积单元，所述从所述多个主干反向残差模块中的最后一个主干反向残差模块得到所述图像特征，包括：

将所述主干卷积模块输出的图像特征输入所述第一逐点卷积单元，得到通道数扩大到预设倍数的卷积结果；

将所述通道数扩大到预设倍数的卷积结果输入所述逐通道卷积单元，得到混合空间信息后的卷积结果；

将所述混合空间信息后的卷积结果输入所述权重分配单元，以对所述图像特征的各个通道进行权重分配，得到权重分配后的卷积结果；

将所述权重分配后的卷积结果输入所述第二逐点卷积单元，得到通道数缩放回原始数值的卷积结果。

5.根据权利要求4所述的对象识别方法，其特征在于，所述第一逐点卷积单元和所述逐通道卷积单元均包括激活层，所述第二逐点卷积单元不包括激活层。

6.根据权利要求2所述的对象识别方法，其特征在于，所述深度估计网络包括多个深度信息解码模块和多个深度信息上采样模块，所述将所述图像特征输入所述深度估计网络，得到所述深度信息，包括：

将所述图像特征输入所述深度信息解码模块，得到预设通道数的深度图像特征；

将得到的所述预设通道数的深度图像特征输入所述深度信息上采样模块，得到所述深度信息；

所述语义识别网络包括多个语义信息解码模块和多个语义信息上采样模块，所述将所述图像特征输入所述语义识别网络，得到所述对象区域识别信息，包括：

将所述图像特征输入所述语义信息解码模块，得到预设通道数的语义图像特征；

将得到的所述预设通道数的语义图像特征输入所述语义信息上采样模块，得到所述对象区域识别信息。

7.根据权利要求6所述的对象识别方法，其特征在于，所述深度信息解码模块包括多个深度信息反向残差模块，所述深度信息反向残差模块与所述主干反向残差模块的结构相同，所述将所述图像特征输入所述深度信息解码模块，得到预设通道数的深度图像特征识别，包括：

将所述图像特征输入所述深度信息反向残差模块，得到所述预设通道数的深度图像特征；

所述语义信息解码模块包括多个语义信息反向残差模块，所述语义信息反向残差模块与所述主干反向残差模块的结构相同，所述将所述图像特征输入所述语义信息解码模块，得到预设通道数的语义图像特征，包括：

将所述图像特征输入所述语义信息反向残差模块，得到所述预设通道数的语义图像特征。

8.根据权利要求6所述的对象识别方法，其特征在于，所述深度信息上采样模块包括深度信息线性放大模块和深度信息卷积模块，所述将得到的所述预设通道数的深度图像特征输入所述深度信息上采样模块，得到所述深度信息，包括：

将得到的所述预设通道数的深度图像特征输入所述深度信息线性放大模块，得到放大到预设尺寸的深度图像特征；

将所述放大到预设尺寸的深度图像特征输入所述深度信息卷积模块，得到所述深度信息；

所述语义信息上采样模块包括语义信息线性放大模块和语义信息卷积模块，所述将得到的所述预设通道数的语义图像特征输入所述语义信息上采样模块，得到所述对象区域识别信息，包括：

将得到的所述预设通道数的语义图像特征输入所述语义信息线性放大模块，得到放大到预设尺寸的语义图像特征；

将所述放大到预设尺寸的语义图像特征输入所述语义信息卷积模块，得到所述对象区域识别信息。

9.根据权利要求6-8任一项所述的对象识别方法，其特征在于，所述深度估计网络在训练时的所述深度信息解码模块的数量大于运用时的所述深度信息解码模块的数量，所述语义识别网络在训练时的所述语义信息解码模块的数量大于运用时的所述语义信息解码模块的数量。

10.根据权利要求1-8任一项所述的对象识别方法，其特征在于，所述根据所述深度信息和所述对象区域识别信息，确定出所述待识别图像中位于预设深度区域的目标对象，包括：

根据所述对象区域识别信息从所述待识别图像的深度信息中确定出对象区域的深度信息；

获取所述对象区域的深度信息中的最大深度值和最小深度值；

根据所述最大深度值和最小深度值，确定所述对象区域中的目标对象是否存在于前景和背景；

通过确定所述目标对象的深度值确定出所述待识别图像中位于预设深度区域的目标对象。

11.根据权利要求10所述的对象识别方法，其特征在于，所述根据所述最大深度值和最小深度值，确定所述对象区域中的目标对象是否同时存在于前景和背景，包括：

若所述最大深度值和最小深度值的差值大于第一阈值，确定所述目标对象存在于前景和背景。

12.根据权利要求10所述的对象识别方法，其特征在于，所述通过确定所述目标对象的深度值确定出所述待识别图像中位于预设深度区域的目标对象，包括：

当所述目标对象存在于前景和背景时，将所述目标对象中，目标对象深度值大于或等于预设深度值的目标对象作为存在于前景的目标对象，目标对象深度值小于预设深度值的目标对象作为存在于背景的目标对象，其中，所述预设深度值为对象区域的最大深度值与最小深度值的平均值。

13.根据权利要求12所述的对象识别方法，其特征在于，所述方法还包括：

对所述位于预设深度区域的目标对象进行分割，得到从预设深度区域分割出的目标对象。

14.根据权利要求2-8任一项所述的对象识别方法，其特征在于，所述图像识别模型按照如下步骤训练得到：

获取深度估计训练样本和语义识别训练样本；

根据所述深度估计训练样本，采用对应所述深度估计网络的第一损失函数对所述图像识别模型进行训练；

根据所述语义识别训练样本，采用对应所述语义识别网络的第二损失函数对所述图像识别模型进行训练；

当满足预设训练停止条件时，停止对所述图像识别模型的训练。

15.根据权利要求14所述的对象识别方法，其特征在于，所述深度估计训练样本包括样本图像的图像特征以及样本图像的图像特征对应的深度信息数据，所述获取深度估计训练样本，包括：

通过教师模型对语义分割的输入数据进行推理，得到所述目标对象的图像特征以及所述图像特征对应的深度信息数据；

将所述目标对象的图像特征以及所述图像特征对应的深度信息数据作为所述深度估计训练样本。

16.一种对象识别装置，其特征在于，包括：

图像获取模块，用于获取待识别图像；

深度估计模块，用于根据所述待识别图像，确定所述待识别图像的深度信息；

语义识别模块，用于根据所述待识别图像，确定所述待识别图像的对象区域识别信息；

17.一种存储介质，其上存储有计算机程序，其特征在于，当所述计算机程序被处理器加载时执行如权利要求1-15任一项所述的对象识别方法中的步骤。

18.一种电子设备，包括处理器和存储器，所述存储器储存有计算机程序，其特征在于，所述处理器通过加载所述计算机程序，用于执行如权利要求1至15任一项所述的对象识别方法中的步骤。