CN111753882A

CN111753882A - 图像识别网络的训练方法和装置、电子设备

Info

Publication number: CN111753882A
Application number: CN202010485206.3A
Authority: CN
Inventors: 张弓
Original assignee: Guangdong Oppo Mobile Telecommunications Corp Ltd
Current assignee: Guangdong Oppo Mobile Telecommunications Corp Ltd
Priority date: 2020-06-01
Filing date: 2020-06-01
Publication date: 2020-10-09
Anticipated expiration: 2040-06-01
Also published as: CN111753882B

Abstract

本申请涉及一种图像识别网络的训练方法，包括：获取原始图像和对应的原始掩膜图像；基于所述原始图像中的主体区域，获取遮挡物的遮挡物图像和对应的遮挡物掩膜图像；将所述遮挡物图像和所述原始图像进行融合处理，得到训练图像；将所述遮挡物掩膜图像和所述原始掩膜图像进行融合处理的，得到训练掩膜图像；所述遮挡物图像在所述训练图像中的位置，与所述遮挡物掩膜图像在所述训练掩膜图像中的位置相同；基于所述训练图像和所述训练掩膜图像对图像识别网络进行训练，得到已训练的图像识别网络。还公开了一种图像处理方法、图像处理装置、图像识别网络的训练装置、电子设备以及可读存储介质，提高了主体识别分割的准确性。

Description

图像识别网络的训练方法和装置、电子设备

技术领域

本申请涉及计算机技术领域，特别是涉及一种图像识别网络的训练方法和装置、电子设备、计算机可读存储介质。

背景技术

随着计算机技术的发展，人们越来越习惯通过电子设备上的摄像头等图像采集设备拍摄图像或视频，以记录各种信息。摄像头在采集图像过程中往往需要将采集的图像中的目标主体分割出来以进行下一步处理。但当目标主体被遮挡物所遮挡时，分割得到的目标主体容易丢失图像信息。

发明内容

本申请实施例提供一种图像识别网络的训练方法、装置、电子设备、计算机可读存储介质，可以提高目标主体识别和分割的准确性，避免分割得到的目标主体丢失图像信息。

一种图像识别网络的训练方法，包括：

获取原始图像和对应的原始掩膜图像；

基于所述原始图像中的主体区域，获取遮挡物的遮挡物图像和对应的遮挡物掩膜图像；

将所述遮挡物图像和所述原始图像进行融合处理，得到训练图像；

将所述遮挡物掩膜图像和所述原始掩膜图像进行融合处理的，得到训练掩膜图像；所述遮挡物图像在所述训练图像中的位置，与所述遮挡物掩膜图像在所述训练掩膜图像中的位置相同；

基于所述训练图像和所述训练掩膜图像对图像识别网络进行训练，得到已训练的图像识别网络。

一种图像识别网络的训练装置，包括：

第一获取模块，用于获取原始图像和对应的原始掩膜图像；

第二获取模块，用于基于所述原始图像中的主体区域，获取遮挡物的遮挡物图像和对应的遮挡物掩膜图像；

第一融合模块，用于将所述遮挡物图像和所述原始图像进行融合处理，得到训练图像；

第二融合模块，用于将所述遮挡物掩膜图像和所述原始掩膜图像进行融合处理的，得到训练掩膜图像；所述遮挡物图像在所述训练图像中的位置，与所述遮挡物掩膜图像在所述训练掩膜图像中的位置相同；

训练模块，用于基于所述训练图像和所述训练掩膜图像对图像识别网络进行训练，得到已训练的图像识别网络。

一种电子设备，包括存储器及处理器，所述存储器中储存有计算机程序，所述计算机程序被所述处理器执行时，使得所述处理器执行如下操作：

获取原始图像和对应的原始掩膜图像；

一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现如下操作：

获取原始图像和对应的原始掩膜图像；

上述图像识别网络的训练方法和装置、电子设备、计算机可读存储介质，通过获取原始图像和对应的原始掩膜图像，以确定原始图像中的目标主体和主体区域。获取主体区域对应的遮挡物的遮挡物图像和对应的遮挡物掩膜图像，将遮挡物图像和原始图像中的目标主体进行融合，使得得到的训练图像中的目标主体的至少一部分被遮挡物遮挡。将遮挡物掩膜图像和原始掩膜图像进行融合处理，遮挡物图像在训练图像中的位置，与遮挡物掩膜图像在训练掩膜图像中的位置相同，从而得到与训练图像对应的训练掩膜图像。将该训练掩膜图像作为标签，通过训练图像和该标签训练图像识别网络，使得训练好的图像识别网络能够准确识别出图像中的目标主体，以及与该目标主体的遮挡物，从而避免了仅识别目标主体，不识别目标主体的遮挡物所造成图像信息丢失的问题。

一种图像处理方法，包括：

获取待处理图像；

通过已训练的图像识别网络对所述待处理图像进行特征提取；所述图像识别网络根据遮挡物图像和原始图像融合后的图像、以及遮挡物掩膜图像和原始掩膜图像融合后的图像进行训练得到；

基于所提取的特征，确定所述待处理图像中的目标主体和所述目标主体的遮挡物。

一种图像处理装置，包括：

图像处理模块，用于获取待处理图像；

识别模块，用于通过已训练的图像识别网络对所述待处理图像进行特征提取；所述图像识别网络根据遮挡物图像和原始图像融合后的图像、以及遮挡物掩膜图像和原始掩膜图像融合后的图像进行训练得到；

确定模块，用于基于所提取的特征，确定所述待处理图像中的目标主体和所述目标主体的遮挡物。

获取待处理图像；

上述图像处理方法和装置、电子设备、计算机可读存储介质，通过获取待处理图像，通过已训练的图像识别网络对待处理图像进行特征提取，该图像识别网络根据遮挡物图像和原始图像融合后的图像、以及遮挡物掩膜图像和原始掩膜图像融合后的图像进行训练得到。基于所提取的特征，能够同时准确识别出待处理图像中的目标主体和目标主体的遮挡物，能够解决传统方式中仅识别出目标主体忽略遮挡物，导致识别出来的目标主体被遮挡的位置出现空洞或者图像信息丢失的问题。

附图说明

为了更清楚地说明本申请实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为一个实施例中图像识别网络的训练方法的应用环境图；

图2为一个实施例中图像识别网络的训练方法的流程图；

图3为一个实施例中人体图像和对应的训练图像、训练掩膜图像的示意图；

图4为一个实施例中手持物图像和人体图像进行融合的流程图；

图5为另一个实施例中手持物图像和人体图像进行融合的流程图；

图6为一个实施例中人体图像中目标人体的关键点的示意图；

图7为其中一个实施例中手持物图像和人体图像进行融合的流程图；

图8为一个实施例中人体图像中的手部关键点的示意图；

图9为一个实施例中非手持遮挡物图像和人体图像进行融合的流程图；

图10为一个实施例人体图像和非手持遮挡物图像融合处理后得到的训练图像示意图；

图11为另一个实施例中非手持遮挡物图像和人体图像进行融合的流程图；

图12为一个实施例中人脸特征点的示意图；

图13为一个实施例中图像识别网络的训练方法的流程图；

图14为一个实施例中图像处理方法的流程图；

图15为一个实施例中图像识别网络对待处理图像进行预测的流程图；

图16为一个实施例中图像识别网络的训练装置的结构框图；

图17为一个实施例中图像处理装置的结构框图；

图18为一个实施例中电子设备的内部结构框图。

具体实施方式

为了使本申请的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本申请进行进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本申请，并不用于限定本申请。

图1为一个实施例中图像识别网络的训练方法的应用环境示意图。如图1所示，该应用环境包括电子设备102和服务器104。其中，电子设备102通过网络与服务器104通过网络进行通信。其中，电子设备102可以但不限于是各种个人计算机、笔记本电脑、智能手机、平板电脑和便携式可穿戴设备，服务器104可以用独立的服务器或者是多个服务器组成的服务器集群来实现。

在本实施例中，电子设备102可获取原始图像和对应的原始掩膜图像，基于原始图像中的主体区域，获取遮挡物的遮挡物图像和对应的遮挡物掩膜图像。接着，电子设备102将遮挡物图像和原始图像进行融合处理，得到训练图像。电子设备102将遮挡物掩膜图像和原始掩膜图像进行融合处理的，得到训练掩膜图像。该遮挡物图像在训练图像中的位置，与遮挡物掩膜图像在训练掩膜图像中的位置相同。接着，电子设备102将该训练图像和训练掩膜图像发送给服务器104，服务器104接收训练图像和训练掩膜图像。服务器104通过训练图像和训练掩膜图像对图像识别网络进行训练，得到训练好的图像识别网络。

在一个实施例中，可通过电子设备102基于训练图像和训练掩膜图像对图像识别网络进行训练，得到训练好的图像识别网络。

在一个实施例中，电子设备102可以从服务器104获取原始图像和对应的原始掩膜图像。电子设备102基于原始图像中的主体区域，从服务器104获取遮挡物的遮挡物图像和对应的遮挡物掩膜图像。电子设备102将遮挡物图像和原始图像进行融合处理，得到训练图像。电子设备102将遮挡物掩膜图像和原始掩膜图像进行融合处理的，得到训练掩膜图像。该遮挡物图像在训练图像中的位置，与遮挡物掩膜图像在训练掩膜图像中的位置相同。电子设备102基于训练图像和训练掩膜图像对图像识别网络进行训练，得到训练好的图像识别网络。

图2为一个实施例中图像识别网络的训练方法的流程图。本实施例中的图像识别网络的训练方法，以运行于图1中的终端上为例进行描述。如图2所示，该图像识别网络的训练方法包括：

步骤202，获取原始图像和对应的原始掩膜图像。

其中，原始图像可以是RGB(Red，Green，Blue)图像、RAW图像、灰度图像、深度图像、YUV图像中的Y分量所对应的图像等其中的任意一种。其中，RAW图像是图像感应器将捕捉到的光源信号转化为数字信号的原始数据。YUV图像中的“Y”表示明亮度(Luminance或Luma)，也就是灰阶值，“U”和“V”表示的则是色度(Chrominance或Chroma)，作用是描述影像色彩及饱和度，用于指定像素的颜色。掩膜图像是用于识别图像中主体的图像滤镜模板，可以遮挡图像的其他部分，筛选出图像中的主体。例如人、花、猫、狗、背景等各种主体。原始掩膜图像是原始图像对应的掩膜图像。

具体地，电子设备可从本地或其他设备或网络上获取原始图像，并获取该原始图像对应的原始掩膜图像。或者将获取的原始图像转换为原始掩膜图像。

或者电子设备通过摄像头拍摄一场景得到原始图像，并将该原始图像转换为对应的掩膜图像，得到原始掩膜图像。

步骤204，基于原始图像中的主体区域，获取遮挡物的遮挡物图像和对应的遮挡物掩膜图像。

其中，主体区域可以包含原始图像中的目标主体的至少一个区域，例如原始图像中的目标主体的脸部区域、手部区域、身体区域中的至少一个，但不限于此。遮挡物是指能够遮挡主体的物品，该遮挡物包括手持物和非手持遮挡物。遮挡物图像包括手持物图像和非手持遮挡物图像。

具体地，电子设备可对原始图像进行主体检测，确定该原始图像中的目标主体所在的主体区域。主体检测(salient object detection)是指面对一个场景时，自动地对感兴趣区域进行处理而选择性的忽略不感兴趣区域。感兴趣区域称为主体区域。

接着，电子设备可确定该主体区域所包含的区域是否与预设区域进行匹配，当该主体区域中存在与预设区域相匹配的区域时，获取该主体区域中与预设区域相匹配的区域所对应的遮挡物图像，以及该遮挡物图像对应的遮挡物掩膜图像。或者将获取的遮挡物图像进行主体识别，从而得到对应的遮挡物掩膜图像。

在本实施例中，当主体区域包含手部区域时，电子设备可获取手持物图像和手持物掩膜图像。进一步地，电子设备可获取与手部区域对应的手持物图像，以及该手持图像对应的手持物掩膜图像。

当主体区域包含脸部区域时，电子设备可获取非手持遮挡物图像，以及该非手持遮挡物图像对应的非手持遮挡物掩膜图像。进一步地，电子设备可获取与该脸部区域对应的非手持遮挡物图像，以及该非手持遮挡物图像对应的非手持遮挡物掩膜图像。

步骤206，将遮挡物图像和原始图像进行融合处理，得到训练图像。

具体地，电子设备可基于原始图像的主体区域，将遮挡物图像和原始图像进行融合处理，得到训练图像。当主体区域包含手部区域时，将遮挡物图像与该原始图像中的手部区域进行融合处理，得到训练图像。

当主体区域包含脸部区域时，将遮挡物图像与该原始图像中的目标主体的主体区域进行融合处理，使得该遮挡物图像遮挡原始图像中的目标主体的至少一部分。进一步地，当主体区域包含脸部区域时，可将遮挡物图像与该原始图像中的目标主体的非脸部区域进行融合处理，使得该遮挡物图像遮挡原始图像中的目标主体的至少一部分。

步骤208，将遮挡物掩膜图像和原始掩膜图像进行融合处理的，得到训练掩膜图像；该遮挡物图像在训练图像中的位置，与该遮挡物掩膜图像在训练掩膜图像中的位置相同。

具体地，电子设备可基于原始图像的主体区域，将遮挡物掩膜图像和原始掩膜图像进行融合处理，得到训练掩膜图像。当主体区域包括手部区域时，将遮挡物掩膜图像与该原始掩膜图像中的手部区域进行融合处理，得到训练掩膜图像。

当主体区域包含脸部区域时，将遮挡物掩膜图像与该原始掩膜图像中的目标主体进行融合处理，使得该遮挡物掩膜图像遮挡原始掩膜图像中的目标主体的至少一部分。进一步地，当主体区域包含脸部区域时，将遮挡物掩膜图像与该原始掩膜图像中的目标主体的非脸部区域进行融合处理，使得该遮挡物掩膜图像遮挡原始掩膜图像中的目标主体的至少一部分。并且，该遮挡物图像在训练图像中的位置，与该遮挡物掩膜图像在训练掩膜图像中的位置相同，使得训练掩膜图像与该训练图像对应。

步骤210，基于训练图像和训练掩膜图像对图像识别网络进行训练，得到已训练的图像识别网络。

具体地，电子设备将该训练掩膜图像作为训练图像对应的标签，电子设备可将该训练图像和训练掩膜图像输入待训练的图像识别网络，通过训练图像对图像识别网络进行训练。将图像识别网络输出的结果和作为标签的训练掩膜图像比较，根据比较结果调整图像识别网络的参数，并继续训练，直到满足训练停止条件时停止，得到训练好的图像识别网络。

在本实施例中，电子设备可对训练图像和训练掩膜图像的尺寸调整为预设尺寸，将预设尺寸的训练图像和训练掩膜图像输入待训练的图像识别网络。

本实施例中的图像识别网络的训练方法，获取原始图像和对应的原始掩膜图像，以确定原始图像中的目标主体所在的主体区域。获取主体区域对应的遮挡物的遮挡物图像和对应的遮挡物掩膜图像，将遮挡物图像和原始图像中的目标主体进行融合，使得得到的训练图像中的目标主体的至少一部分被遮挡物遮挡。将遮挡物掩膜图像和原始掩膜图像进行融合处理，遮挡物图像在训练图像中的位置，与遮挡物掩膜图像在训练掩膜图像中的位置相同，从而得到与训练图像对应的训练掩膜图像。将该训练掩膜图像作为标签，通过训练图像和该标签训练图像识别网络，使得训练好的图像识别网络能够准确识别出图像中的目标主体，以及与该目标主体的遮挡物，从而避免了仅识别目标主体，不识别目标主体的遮挡物造成图像信息丢失的问题。

在一个实施例中，该遮挡物包含手持物；基于原始图像中的主体区域，获取遮挡物图像和对应的遮挡物掩膜图像，包括：当主体区域包含手部区域时，获取手持物图像和对应的手持物掩膜图像。

该将遮挡物图像和原始图像进行融合处理，得到训练图像；将遮挡物掩膜图像和原始掩膜图像进行融合处理的，得到训练掩膜图像；遮挡物图像在训练图像中的位置，与遮挡物掩膜图像在训练掩膜图像中的位置相同，包括：

将手持物图像和原始图像中的手部区域进行融合处理，得到训练图像；将手持物掩膜图像和原始掩膜图像中的手部区域进行融合处理，得到训练掩膜图像；手持物图像在训练图像中的位置，与手持物掩膜图在训练掩膜图像中的位置相同。

具体地，该遮挡物包括手持物和非手持遮挡物。电子设备对原始图像进行主体检测，确定该原始图像中的目标主体所在的主体区域。接着，电子设备可确定主体区域中是否包含手部区域。

当电子设备检测出该主体区域中包含手部区域时，获取遮挡物中的手持物图像，并获取该手持物图像对应的手持物掩膜图像。或者，电子设备可将该手持物图像转换为对应的手持物掩膜图像。

接着，电子设备可将该手持物图像和该原始图像中的手部区域进行融合处理，得到包含手部和手持物的训练图像。电子设备可将手持物掩膜图像和原始掩膜图像中的手部区域进行融合处理，得到手部和手持物对应的训练掩膜图像。该手持物图像在训练图像中的位置，与手持物掩膜图在训练掩膜图像中的位置相同，该训练掩膜图像和训练图像对应。

如图3所示，图3中的(a)为人体图像，图3中的(b)为训练图像，图3中的(c)为训练掩膜图像。通过检测出该人体图像(a)中的手部区域，将瓶子图像(即手持物图像)和该手部区域融合，从而在该人体图像的手部增加了瓶子，得到手部拿着瓶子的训练图像(b)。按照相同处理方式，将瓶子图像的掩膜图像和人体图像的人体掩膜图像融合，从而得到显示人体，并且显示该人体手部拿着瓶子的训练掩膜图像，即图3中的(c)。

传统方式进行主体识别时，仅识别图像中的手部区域不识别手持物，使得主体分割时，被手持物遮挡的手部未被分割出来，导致手部分割信息丢失。而在本实施例中，当主体区域包含手部区域时，获取手持物图像和对应的手持物掩膜图像，将手持物图像和手部区域进行融合，得到包含手部和该手部的手持物的训练图像。将手持物掩膜图像和原始掩膜图像中的手部区域进行融合处理，得到显示出手部和该手持物的训练掩膜图像，从而能够将训练掩膜图像作为该训练图像对应的标签，以使用训练图像和对应的标签对图像识别网络进行训练。训练好的图像识别网络能够准确识别出图像中的手部，以及与该手部的手持物，避免未识别出手部手持物导致手部识别或手部分割导致图像信息丢失的问题。

在一个实施例中，该主体区域还包含脸部区域；该当主体区域包含手部区域时，获取手持物图像和对应的手持物掩膜图像，包括：

确定原始图像中包含手部区域的手部检测框和包含脸部区域的脸部检测框；确定脸部检测框和手部检测框的重叠比例；获取第一随机参数，当重叠比例小于比例阈值，且第一随机参数大于随机参数阈值时，获取手持物图像和对应的手持物掩膜图像。

具体地，电子设备可通过检测框对原始图像进行检测，以得到该原始图像中包含手部区域的手部检测框和包含脸部区域的脸部检测框。接着，电子设备科计算手部检测框和脸部检测框的重叠比例。进一步地，该重叠比例可为该手部检测框和脸部检测框的交并比的比值。即电子设备计算手部检测框和脸部检测框的交集、并计算手部检测框和脸部检测框的并集。接着，电子设备计算该交集和并集的比值，得到该重叠比例。该手部检测框和脸部检测框为矩形框。

在本实施例中，电子设备可确定该手部检测框在该原始图像中的位置信息，例如(hand_x，hand_y，hand_w，hand_h)。其中，(hand_x，hand_y)为包含手部区域的矩形框的4个点中，任意一个点在原始图像中的坐标。即手部检测框的4个点中任意一个点在原始图像中的坐标。hand_w和hand_h为手部检测框的宽度和高度。

电子设备可确定该脸部检测框在该原始图像中的位置信息，例如(face_x，face_y，face_w，face_h)。其中，(face_x，face_y)为包含脸部区域的矩形框的4个点中，任意一个点在原始图像中的坐标。即脸部检测框的4个点中任意一个点在原始图像中的坐标。face_w和face_h为脸部检测框的宽度和高度。

电子设备可根据手部检测框和脸部检测框在该原始图像中的位置信息，计算出两者的交并比，即可得到重叠比例。

接着，电子设备随机生成一个参数，即第一随机参数。电子设备获取比例阈值和随机参数阈值，将该第一随机参数和随机参数阈值进行比较、该重叠比例和比例阈值进行比较。当重叠比例小于比例阈值，且第一随机参数大于随机参数阈值时，电子设备从遮挡物图像集合中获取手持物图像和对应的手持物掩膜图像。

在本实施例中，当第一随机参数小于或等于随机参数阈值时，不获取手持物图像和对应的手持物掩膜图像，则不执行将原始图像和原始掩模图像，与手持物图像和手持物掩膜图像进行融合的操作。增加随机参数，保证原始图像和手持物融合的随机性，从而保证了训练图像的随机性，使得图像识别网络的训练更准确。

在本实施例中，通过计算原始图像中包含手部区域的手部检测框和包含脸部区域的脸部检测框之间的重叠比例，以确定手部区域和脸部区域是否被对方所遮挡。获取第一随机参数，当重叠比例和第一随机参数均满足条件时，才获取手持物图像和对应的手持物掩膜图像，能够保证原始图像和手持物图像融合的随机性，从而保证了所生成的训练图像的随机性。通过随机的训练图像对图像识别网络进行训练，能够提高图像识别网络的精度和识别的准确率。

在一个实施例中，该将手持物图像和原始图像中的手部区域进行融合处理，得到训练图像；该将手持物掩膜图像和原始掩膜图像中的手部区域进行融合处理，得到训练掩膜图像；手持物图像在训练图像中的位置，与手持物掩膜图像在训练掩膜图像中的位置相同，包括：

基于手部检测框的尺寸调整手持物图像的尺寸，直至手持物图像与手部检测框的尺寸比例达到第一预设比例；将调整后的手持物图像和原始图像中的手部区域进行融合处理，得到训练图像；

基于手部检测框的尺寸调整手持物掩膜图像的尺寸，直至手持物掩膜图像与手部检测框的尺寸比例达到第一预设比例；将调整后的手持物掩膜图像和原始掩膜图像中的手部区域进行融合处理，得到训练掩膜图像；调整后的手持物图像在训练图像中的位置，与调整后的手持物掩膜图像在训练掩膜图像中的位置相同。

具体地，电子设备可确定手部检测框在该原始图像中的位置信息，根据该位置信息确定该手部检测框的尺寸。接着，电子设备可根据该手持物掩膜图像确定该手持物图像的外接矩形。进一步地，可以确定该手持物图像的最小外接矩形。

接着，电子设备可确定该手持物图像的外接矩形的尺寸，根据手部检测框的尺寸调整外接矩形的尺寸，以调整该手持物图像的尺寸。当手持物图像与手部检测框的尺寸比例达到第一预设比例时，停止调整，得到调整尺寸后的手持物图像。进一步地，电子设备可固定手部检测框的尺寸，仅调整手持物图像的尺寸，直到手持物图像与手部检测框的尺寸比例达到第一预设比例。接着，电子设备可将调整尺寸后的手持物图像和原始图像中的手部区域进行融合处理，得到包含手部和手持物的训练图像。

接着，电子设备可确定该手持物掩膜图像的外接矩形的尺寸，根据手部检测框的尺寸调整该掩膜外接矩形的尺寸，以调整该手持物掩膜图像的尺寸。当手持物掩膜图像与手部检测框的尺寸比例达到第一预设比例时，停止调整，得到调整尺寸后的手持物掩膜图像。进一步地，电子设备可固定手部检测框的尺寸，仅调整手持物掩膜图像的尺寸，直到手持物掩膜图像与手部检测框的尺寸比例达到第一预设比例。接着，电子设备可将调整尺寸后的手持物掩膜图像和原始掩膜图像中的手部区域进行融合处理，得到显示手部和手持物的训练掩膜图像。第一预设比例可为0.1。

在本实施例中，根据原始图像的手部区域的尺寸调整手持物图像的尺寸，避免手持物图像的尺寸太大或者太小，导致与原始图像的手部区域不协调的情况。将调整尺寸后的手持物图像和原始图像的手部区域融合，使得融合更自然，得到的训练图像质量更好。

在一个实施例中，如图4所示，提供了一种手持物图像和人体图像进行融合的处理过程。

步骤402，获取人体图像和人体掩膜图像，执行步骤404。

步骤404，对人体图像进行人脸检测和手部检测，得到包含人脸区域的人脸检测框，以及包含手部检测的手部检测框。

接着，执行步骤406，计算手部检测框和人脸检测框的交并比，并获取随机参数。

执行步骤408，判断随机参数是否大于随机参数阈值，手部检测框和人脸检测框的交并比是否小于比例阈值。若是，则执行步骤410，若否，则返回步骤402重新获取人体图像，并重新执行步骤402之后的流程。

步骤410，获取手持物图像和对应的手持物掩膜图像，执行步骤412。

步骤412，计算手持物掩膜图像的最小外接矩形。

接着，执行步骤414，根据手部检测框和最小外接矩形，调整手持物图像和手持物掩膜图像的尺寸。

接着，执行步骤416，将调整后的手持物图像和人体图像中的手部区域进行融合处理，得到训练图像。将手持物掩膜图像和人体掩膜图像中的手部区域进行融合处理，得到训练掩膜图像。

本实施例中，通过人体图像的手部检测框和人脸检测框的交并比是否小于比例阈值，随机生成的参数是否大于随机参数阈值以确定是否获取手持物进行融合处理，保证手持物图像获取的随机性，以及手持物图像和人体图像融合的随机性，从而保证了用于训练图像识别网络的训练图像和训练掩膜图像是随机的，进而提高图像识别网络的识别精度。

在一个实施例中，如图5所示，提供了一种手持物图像和人体图像进行融合的处理过程。

步骤502，获取人体图像和对应的人体掩膜图像，并获取该人体图像中的人体关键点，进入步骤504。

步骤504，基于人体关键点确定该人体图像中的手部关键点和非手部关键点。

如图6中展示了人体图像中目标人体的关键点。通过关键点能够确定目标人体的手部的位置、姿态和手部以外的其他部位的位置、姿态。

步骤506，确定手部关键点和非手部关键点之间的相对距离，并获取随机参数。

步骤508，判断随机参数是否大于随机参数阈值，相对距离是否大于距离阈值。若是，则执行步骤510，若否，则返回步骤502重新获取人体图像和对应的人体掩膜图像，并重新执行步骤502之后的流程。

步骤510，获取手持物图像和对应的手持物掩膜图像，执行步骤512。

步骤512，计算手持物掩膜图像的最小外接矩形。

接着，执行步骤514，根据手部检测框和最小外接矩形，调整手持物图像和手持物掩膜图像的尺寸。

接着，执行步骤516，将调整后的手持物图像和人体图像中的手部区域进行融合处理，得到训练图像。将手持物掩膜图像和人体掩膜图像中的手部区域进行融合处理，得到训练掩膜图像。

本实施例中，通过人体图像中的目标人体的手部关键点和非手部关键点之间的相对距离是否大于距离阈值，以确定该目标人体的手部是否在身体之外，不被身体遮挡或者不遮挡身体。通过相对距离是否大于距离阈值，随机生成的参数是否大于随机参数阈值以确定是否获取手持物进行融合处理，保证手持物图像获取的随机性，以及手持物图像和人体图像融合的随机性，从而保证了用于训练图像识别网络的训练图像和训练掩膜图像是随机的，进而提高图像识别网络的识别精度。

在一个实施例中，该方法还包括：获取原始图像的特征点或关键点；基于特征点或关键点，确定原始图像中的手部姿态信息；基于手部姿态信息对手持物图像和手持物掩膜图像进行仿射变换处理，得到仿射变换后的手持物图像和仿射变换后的手持物掩膜图像；

该将手持物图像和原始图像中的手部区域进行融合处理，得到训练图像；该将手持物掩膜图像和原始掩膜图像中的手部区域进行融合处理，得到训练掩膜图像；手持物图像在训练图像中的位置，与手持物掩膜图像在训练掩膜图像中的位置相同，包括：

将仿射变换后的手持物图像和原始图像中的手部区域进行融合处理，得到训练图像；将仿射变换后的手持物掩膜图像和原始掩膜图像中的手部区域进行融合处理，得到训练掩膜图像；该仿射变换后的手持物图像在训练图像中的位置，与仿射变换后的手持物掩膜图在训练掩膜图像中的位置相同。

其中，仿射变换(Affine Transformation或Affine Map)，又称为仿射映射，是指在几何中，图像进行从一个向量空间进行一次线性变换和一次平移，变换为到另一个向量空间的过程。该仿射变换能够保持二维图形的平直性和平行性。平直性是指变换是直线的，变换后还是直线。平行性是指二维图形之间的相对位置关系保持不变。简单来说，仿射变换就是允许图形任意倾斜，并且允许图形在两个方向上任意伸缩变换。并且，保持图形的线共点、点公线的关系不变，原来相互平行的线任然平行，原来的中点仍然是中点，保持直线线段之间的比例关系不变。但线段的长度可能发生改变、夹角的角度可能发生改变。

具体地，电子设备可获取原始图像的关键点，根据该特征点确定该原始图像中的手部区域，以及该手部的姿态信息。或者，电子设备可获取原始图像的特征点，根据该特征点确定该原始图像中的手部区域，以及该手部的姿态信息。该手部姿态信息包括手部的特征点或者关键点在原始图像中的坐标，以及该手部的尺寸。

接着，电子设备可根据该手部特征点坐标或者手部关键点坐标，以及该手部的尺寸，对该手持物图像进行仿射变换处理。通过仿射变换将手持物图像调整为与手部大小、手部姿态相协调的手持物图像。按照相同的处理方式，可以将手持物掩膜图像进行仿射变换，得到仿射变换后的手持物图像和对应的手持物掩膜图像。该手持物图像的尺寸和手持物掩膜图像的尺寸相同，该仿射变换后的手持物图像的尺寸和手持物掩膜图像的尺寸相同。

在本实施例中，仿射变换可以通过一系列的原子变换的复合来实现，包括但不限于平移(Translation)、缩放(Scale)、翻转(Flip)、旋转(Rotation)和剪切(Shear)等方式。

接着，电子设备将仿射变换后的手持物图像与该原始图像中的手部区域进行融合处理，得到训练图像。进一步地，电子设备可将仿射变换后的手持物图像覆盖该手部区域的至少一部分，得到训练图像。

电子设备将仿射变换后的手持物掩膜图像与该原始掩膜图像中的手部区域进行融合处理，得到训练掩膜图像。进一步地，电子设备可将仿射变换后的手持物掩膜图像覆盖该原始掩膜图像中的手部区域的至少一部分，得到训练掩膜图像。

在本实施例中，电子设备可获取在原始图像中被手持物图像覆盖的像素点的坐标，并在该原始掩膜图像中确定该相同的坐标，以将手持物掩膜图像覆盖到该原始掩膜图像中相同坐标的位置，得到该训练图像对应的训练掩膜图像。

可以理解的是，该仿射变换后的手持物图像在训练图像中的位置、姿态、尺寸，与仿射变换后的手持物掩膜图在训练掩膜图像中的位置、姿态、尺寸均相同。

在本实施例中，通过原始图像中的手部姿态信息，对手持物图像和手持物掩膜图像进行仿射变换处理，使得仿射变换后的手持物和原始图像中的手部更协调，使得融合之后得到的训练图像整体更协调自然。按照相同的处理方式，可得到训练图像对应的训练掩膜图像。

在一个实施例中，如图7所示，提供了一种手持物图像和人体图像进行融合的处理过程。

步骤702，获取人体图像和对应的人体掩膜图像，并获取该人体图像中的关键点，进入步骤704。

步骤704，基于关键点确定包含人脸区域的人脸检测框，以及包含手部检测的手部检测框。基于关键点确定手部姿态信息，该手部姿态信息包括手部的位置、手部大小和手部姿势。

如图8中展示了人体图像中手部的关键点。通过手部关键点能够确定目标人体的手部的位置、大小和姿态。

步骤706，计算手部检测框和人脸检测框的交并比，并获取随机参数。

步骤708，判断随机参数是否大于随机参数阈值，手部检测框和人脸检测框的交并比是否小于比例阈值。若是，则执行步骤710，若否，则返回步骤702重新获取人体图像和对应的人体掩膜图像，并重新执行步骤702之后的流程。

步骤710，获取手持物图像和对应的手持物掩膜图像，执行步骤712。

步骤712，计算手持物掩膜图像的最小外接矩形。

接着，执行步骤714，根据手部图像中的手部姿态信息，对手持物图像和手持物掩膜图像进行仿射变换处理。

接着，执行步骤716，将仿射变换后的手持物图像和人体图像中的手部区域进行融合处理，得到训练图像。将仿射变换后的手持物掩膜图像和人体掩膜图像中的手部区域进行融合处理，得到训练掩膜图像。

本实施例中，通过原始图像的手部检测框和人脸检测框的交并比是否小于比例阈值，随机生成的参数是否大于随机参数阈值以确定是否获取手持物进行融合处理，保证手持物图像获取的随机性。通过手部姿态信息对手持物图像和手持物掩膜图像进行仿射变换处理，使得处理后的手持物与人体图像中手部融合更协调自然。

在一个实施例中，该遮挡物包含非手持遮挡物；该基于原始图像中的主体区域，获取遮挡物图像和对应的遮挡物掩膜图像，包括：当主体区域包含脸部区域时，获取第二随机参数；当第二随机参数大于随机参数阈值时，获取非手持遮挡物图像和对应的非手持遮挡物掩膜图像。

该将遮挡物图像和原始图像进行融合处理，得到训练图像；该将遮挡物掩膜图像和原始掩膜图像进行融合处理的，得到训练掩膜图像；遮挡物图像在训练图像中的位置，与遮挡物掩膜图像在训练掩膜图像中的位置相同，包括：

将非手持遮挡物图像和原始图像进行融合处理，得到训练图像；将非手持遮挡物掩膜图像和原始掩膜图像进行融合处理，得到训练掩膜图像；该非手持遮挡物图像在训练图像中的位置，与非手持遮挡物掩膜图像在训练掩膜图像中的位置相同。

具体地，该遮挡物包括手持物和非手持遮挡物。遮挡物的图像存放在遮挡物图像集合中，则遮挡物图像集合中包含手持物图像和非手持遮挡物图像，还可以包含对应的手持物掩膜图像和非手持遮挡物掩膜图像。电子设备对原始图像进行主体检测，当该原始图像中包含主体区域时，确定主体区域中是否包含脸部区域。

当电子设备检测出该主体区域中包含脸部区域时，电子设备随机生成一个参数，即第二随机参数。第一随机参数大于随机参数阈值时，电子设备从遮挡物图像集合中获取非手持遮挡物图像和对应的非手持遮挡物掩膜图像。当遮挡物图像集合中没有非手持遮挡物图像对应的非手持遮挡物掩膜图像时，电子设备可将非手持遮挡物图像进行二值化处理，得到对应的非手持遮挡物掩膜图像。

接着，电子设备可检测原始图像中的主体区域，将该非手持遮挡物图像与原始图像中的主体区域进行融合处理。进一步地，电子设备将该非手持遮挡物图像与该主体区域中的非脸部区域进行融合处理。

接着，电子设备可将该非手持遮挡物掩膜图像与原始掩膜图像中的主体区域进行融合处理。进一步地，电子设备将该非手持遮挡物图像与该主体区域中的非脸部区域进行融合处理。

可以理解的是，该非手持遮挡物图像在训练图像中的位置、尺寸、形态，与非手持遮挡物掩膜图像在训练掩膜图像中的位置、尺寸、形态均相同。

在本实施例中，电子设备可确定原始图像中与非手持遮挡物图像进行融合的像素点的坐标。并在原始掩膜图像中确定该相同的坐标的像素点，将非手持遮挡物掩膜图像的像素点与该相同的坐标的像素点进行融合处理，得到训练图像对应的训练掩膜图像。

传统方式进行主体识别时，仅识别图像中的主体区域无法识别出遮挡主体区域的非手持遮挡物，使得主体识别或分割时，主体被非手持遮挡物遮挡的部分未被识别或分割出来，导致主体识别或分割信息丢失。而在本实施例中，当主体区域包含脸部区域时，获取随机参数，随机参数满足条件时获取非手持遮挡物图像和对应的非手持遮挡物掩膜图像。增加随机参数，保证原始图像和非手持遮挡物融合的随机性，从而保证了所生成的训练图像的随机性。通过随机的训练图像对图像识别网络进行训练，能够提高图像识别网络的精度和识别的准确率。

将非手持遮挡物图像和原始图像进行融合，得到训练图像；将非手持遮挡物掩膜图像和原始掩膜图像进行融合处理，得到训练图像对应的训练掩膜图像，从而能够将训练掩膜图像作为标签，以对图像识别网络进行训练。训练好的图像识别网络能够准确识别出图像中的目标主体、以及遮挡该目标主体的非手持遮挡物，避免未识别遮挡该目标主体的非手持遮挡物导致目标主体识别或目标主体分割出现空洞或出现图像信息丢失的问题。

在一个实施例中，如图9所示，提供了一种非手持遮挡物图像和人体图像进行融合的处理过程。

步骤902，获取人体图像和对应的人体掩膜图像，执行步骤904。

步骤904，对人体图像进行人脸检测，确定包含人脸区域的检测框；并获取随机参数。

执行步骤906，判断随机参数是否大于随机参数阈值。若是，则执行步骤908，若否，则返回步骤902重新获取人体图像和对应的人体掩膜图像，并重新执行步骤902之后的流程。

步骤908，获取非手持遮挡物图像和对应的非手持遮挡物掩膜图像，执行步骤910。

步骤910，计算非手持遮挡物掩膜图像的最小外接矩形。

接着，执行步骤912，根据人脸检测框调整非手持遮挡物图像和非手持遮挡物掩膜图像的尺寸。

接着，执行步骤914，将调整后的非手持遮挡物图像和人体图像中的手部区域进行融合处理，得到训练图像。将非手持遮挡物掩膜图像和人体掩膜图像中的手部区域进行融合处理，得到训练掩膜图像。

图10中展示了人体图像，以及将人体图像和非手持遮挡物进行融合处理后得到的训练图像。

本实施例中，在确定人脸区域后，通过随机生成的参数是否大于随机参数阈值以确定是否获取非手持遮挡物进行融合处理，保证非手持遮挡物图像获取的随机性，以及非手持遮挡物图像和人体图像融合的随机性，从而保证了用于训练图像识别网络的训练图像和训练掩膜图像是随机的，进而提高图像识别网络的识别精度。

在一个实施例中，该方法还包括：确定原始图像中包含脸部区域的脸部检测框；

该将非手持遮挡物图像和原始图像进行融合处理，得到训练图像；该将非手持遮挡物掩膜图像和原始掩膜图像进行融合处理，得到训练掩膜图像；非手持遮挡物图像在训练图像中的位置，与非手持遮挡物掩膜图像在训练掩膜图像中的位置相同，包括：

基于脸部检测框调整非手持遮挡物图像的尺寸，直至非手持遮挡物图像和脸部检测框的尺寸比例达到第二预设比例；将调整后的非手持遮挡物图像和原始图像进行融合处理，得到训练图像；基于脸部检测框调整非手持遮挡物掩膜图像的尺寸，直至非手持遮挡物掩膜图像和脸部检测框的尺寸比例达到第二预设比例；将调整后的非手持遮挡物掩膜图像和原始掩膜图像进行融合处理，得到训练掩膜图像；该调整后的非手持遮挡物图像在训练图像中的位置，与调整后的非手持遮挡物掩膜图像在训练掩膜图像中的位置相同。

具体地，电子设备可通过检测框对原始图像进行检测，以得到该原始图像中包含脸部区域的脸部检测框。

电子设备可确定脸部检测框在该原始图像中的位置信息，根据该位置信息确定该脸部检测框的尺寸。接着，电子设备可根据该非手持遮挡物掩膜图像确定该非手持遮挡物图像的外接矩形。进一步地，可以确定该非手持遮挡物图像的最小外接矩形。

接着，电子设备可确定该非手持遮挡物图像的外接矩形的尺寸，根据脸部检测框的尺寸调整外接矩形的尺寸，以调整该非手持遮挡物图像的尺寸。当非手持遮挡物图像与脸部检测框的尺寸比例达到第二预设比例时，停止调整，得到调整尺寸后的非手持遮挡物图像。进一步地，电子设备可固定脸部检测框的尺寸，仅调整非手持遮挡物图像的尺寸，直到非手持遮挡物图像与脸部检测框的尺寸比例达到第二预设比例。接着，电子设备可将调整尺寸后的非手持遮挡物图像和原始图像中的目标主体区域进行融合处理，得到目标主体的至少一部分被非手持遮挡物遮挡的训练图像。进一步地，电子设备可将调整尺寸后的非手持遮挡物图像和原始图像中的目标主体区域的非脸部区域进行融合处理。第二预设比例可为0.1。

接着，电子设备可确定该非手持遮挡物掩膜图像的外接矩形的尺寸，根据脸部检测框的尺寸调整该掩膜外接矩形的尺寸，以调整该非手持遮挡物掩膜图像的尺寸。当非手持遮挡物掩膜图像与脸部检测框的尺寸比例达到第二预设比例时，停止调整，得到调整尺寸后的非手持遮挡物掩膜图像。进一步地，电子设备可固定脸部检测框的尺寸，仅调整非手持遮挡物掩膜图像的尺寸，直到非手持遮挡物掩膜图像与脸部检测框的尺寸比例达到第二预设比例。接着，电子设备可将调整尺寸后的非手持遮挡物掩膜图像和原始掩膜图像中的目标主体区域进行融合处理，得到目标主体的至少一部分被非手持遮挡物遮挡的训练掩膜图像。

并且，该调整后的非手持遮挡物图像在训练图像中的位置、尺寸和形态，与调整后的非手持遮挡物掩膜图像在训练掩膜图像中的位置、尺寸和形态均相同。

在本实施例中，根据原始图像的脸部区域的尺寸调整非手持遮挡物图像的尺寸，避免非手持遮挡物图像的尺寸太大或者太小，导致与原始图像不协调的情况。将调整尺寸后的非手持遮挡物图像和原始图像的主体区域融合，使得融合得到的目标主体的至少一部分被非手持遮挡物遮挡的训练图像更协调。同样地，得到的训练图像对应的训练掩膜图像也更协调自然。

在一个实施例中，该方法还包括：获取原始图像的特征点或关键点；基于特征点或关键点，确定原始图像中的脸部信息；基于脸部信息对非手持遮挡物图像和非手持遮挡物掩膜图像进行仿射变换处理，得到仿射变换后的非手持遮挡物图像，以及仿射变换后的非手持遮挡物掩膜图像。

将仿射变换后的非手持遮挡物图像和原始图像进行融合处理，得到训练图像；将仿射变换后的非手持遮挡物掩膜图像和原始掩膜图像进行融合处理，得到训练掩膜图像；仿射变换后的非手持遮挡物图像在训练图像中的位置，与仿射变换后的非手持遮挡物掩膜图像在训练掩膜图像中的位置相同。

具体地，电子设备可获取原始图像的关键点，根据该特征点确定该原始图像中的脸部区域，以及该脸部的姿态信息。或者，电子设备可获取原始图像的特征点，根据该特征点确定该原始图像中的脸部区域，以及该脸部的姿态信息。该脸部姿态信息包括脸部的特征点或者关键点在原始图像中的坐标，以及该脸部的尺寸。

接着，电子设备可根据该脸部特征点坐标或者脸部关键点坐标，以及该脸部的尺寸，对该非手持遮挡物图像进行仿射变换处理。通过仿射变换将非手持遮挡物图像调整为与脸部大小、脸部姿态相协调的非手持遮挡物图像。按照相同的处理方式，可以将非手持遮挡物掩膜图像进行仿射变换，得到仿射变换后的非手持遮挡物图像对应的非手持遮挡物掩膜图像。该非手持遮挡物图像的尺寸、形态和非手持遮挡物掩膜图像的尺寸、形态相同，该仿射变换后的非手持遮挡物图像的尺寸、形态和非手持遮挡物掩膜图像的尺寸、形态相同。

接着，电子设备可将仿射变换后的非手持遮挡物图像和原始图像中的目标主体区域进行融合处理，得到目标主体的至少一部分被非手持遮挡物遮挡的训练图像。进一步地，电子设备可将仿射变换后的非手持遮挡物图像和原始图像中的目标主体区域的非脸部区域进行融合处理。

接着，电子设备可将仿射变换后的非手持遮挡物掩膜图像和原始掩膜图像中的目标主体区域进行融合处理，得到目标主体的至少一部分被非手持遮挡物遮挡的训练掩膜图像。

并且，该仿射变换后的非手持遮挡物图像在训练图像中的位置、尺寸和形态，与仿射变换后的非手持遮挡物掩膜图像在训练掩膜图像中的位置、尺寸和形态均相同。

在本实施例中，通过原始图像中的脸部信息，对非手持遮挡物图像和非手持遮挡物掩膜图像进行仿射变换处理，使得仿射变换后的非手持遮挡物和原始图像的整体更协调，使得融合之后得到的目标主体的至少一部分被非手持遮挡物遮挡的训练图像整体更协调自然。按照相同的处理方式，可得到训练图像对应的训练掩膜图像。

在一个实施例中，如图11所示，提供了一种非手持遮挡物图像和人体图像进行融合的处理过程。

步骤1102，获取人体图像和对应的人体掩膜图像，执行步骤1104。

步骤1104，对人体图像进行特征点检测，确定人脸特征点，并获取随机参数。接着，执行步骤1106和步骤1108。

步骤1106，判断随机参数是否大于随机参数阈值。若是，则执行步骤1110，若否，则返回步骤1102重新获取人体图像和对应的人体掩膜图像，并重新执行步骤1102之后的流程。例如，随机参数阈值可为0.5。

步骤1108，基于人脸特征点确定人脸姿态信息，接着，执行步骤1114。

图12中展示了人脸特征点的示意图，通过人脸特征点确定人脸姿态信息能够确定人脸在人体图像中的位置、大小和姿态信息。

步骤1110，获取非手持遮挡物图像和对应的非手持遮挡物掩膜图像，执行步骤1112。

步骤1112，计算非手持遮挡物掩膜图像的最小外接矩形。

接着，执行步骤1114，根据人脸姿态信息对非手持遮挡物图像和非手持遮挡物掩膜图像进行仿射变换处理。

接着，执行步骤1114，将仿射变换的非手持遮挡物图像和人体图像中的手部区域进行融合处理，得到训练图像。将仿射变换后的非手持遮挡物掩膜图像和人体掩膜图像中的手部区域进行融合处理，得到训练掩膜图像。

本实施例中，在确定人脸特征点域后，通过随机生成的参数是否大于随机参数阈值以确定是否获取非手持遮挡物进行融合处理，保证非手持遮挡物图像获取的随机性。通过人脸姿态信息人脸姿态信息对非手持遮挡物图像和非手持遮挡物掩膜图像进行仿射变换处理，使得非手持遮挡物图像和人体图像融合更协调自然，非手持遮挡物掩膜图像和人体掩膜图像融合更协调自然。

在一个实施例中，该基于训练图像和训练掩膜图像对图像识别网络进行训练，得到已训练的图像识别网络，包括：通过图像识别网络对训练图像进行识别，得到预测掩膜图像；基于预测掩膜图像与训练掩膜图像之间的差异，调整图像识别网络的参数并继续训练，直至满足训练停止条件时得到已训练的图像识别网络。

具体地，电子设备将该训练掩膜图像作为该训练图像对应的标签。电子设备可将该训练图像和训练掩膜图像输入待训练的图像识别网络。通过待训练的图像识别网络对训练图像进行识别，得到预测掩膜图像。电子设备将预测掩膜图像和作为标签的训练掩膜图像进行比较，确定两者之间的差异，并根据预测掩膜图像与训练掩膜图像之间的差异，调整图像识别网络的参数。接着，通过训练图像和训练掩膜图像对调整后的图像识别网络继续训练，直到满足训练停止条件时停止，得到训练好的图像识别网络。

在本实施例中，训练停止条件为训练图像对应的预测掩膜图像和对应的训练掩膜图像之间的差异小于预设差异。或者训练停止条件为图像识别网络输出的损失误差小于误差阈值。

当训练图像对应的预测掩膜图像和对应的训练掩膜图像之间的差异小于预设差异，或者图像识别网络输出的损失误差小于误差阈值时，停止训练，得到训练好的图像识别网络。

本实施例中，通过图像识别网络对训练图像进行识别，确定图像识别网络输出的预测掩膜图像和标签之间的差异，根据差异调整图像识别网络的参数并继续训练，直至满足训练停止条件时得到训练好的图像识别网络。训练好的图像识别网络能够准确识别出图像中的目标主体，以及与该目标主体的遮挡物，从而避免了仅识别目标主体，不识别遮挡目标主体的遮挡物所造成图像信息丢失的问题。

在一个实施例中，如图13所示，提供了一种图像识别网络的训练方法，包括：

步骤1302，获取原始图像和对应的原始掩膜图像。

步骤1304，对原始图像进行主体检测，确定主体区域，该主体区域可包含脸部区域和手部区域中的至少一种。

步骤1306，基于主体区域获取遮挡物图像和对应的遮挡物掩膜图像。

接着，执行步骤1308，将遮挡物图像和原始图像中的主体区域进行融合处理，得到训练图像；将遮挡物掩膜图像和原始掩膜图像中的主体区域进行融合处理的，得到训练掩膜图像。

接着，执行步骤1310，对训练图像和训练掩膜图像进行缩放和裁剪，得到预设尺寸的训练图像和训练掩膜图像。

执行步骤1312，将训练图像进行归一化处理，将训练掩膜图像和归一化处理后的训练图像输入图像识别网络。

执行步骤1314，图像识别网络输出训练图像对应的预测掩膜图像；

执行步骤1316，基于该预测掩膜图像和训练掩膜图像进行代价函数计算，并基于两者的差异进行反向传播，以继续训练图像识别网络。

执行步骤1318，满足训练停止条件，得到训练好的图像识别网络。

本实施例中，将遮挡物图像和原始图像中的目标主体进行融合，使得得到的训练图像中的目标主体的至少一部分被遮挡物遮挡。将遮挡物掩膜图像和原始掩膜图像进行融合处理，得到与训练图像对应的训练掩膜图像。将该训练掩膜图像作为标签，通过训练图像和该标签训练图像识别网络，基于图像识别网络预测的预测掩膜图像和标签之间的差异实现反向传播，以实现训练迭代。训练好的图像识别网络能够准确识别出图像中的目标主体，以及与该目标主体的遮挡物，从而避免了仅识别目标主体，不识别目标主体的遮挡物造成图像信息丢失的问题。

图14为一个实施例中图像处理方法的流程图。本实施例中的图像处理方法，以运行于图1中的电子设备上为例进行描述。如图14所示，该图像处理方法包括：

步骤1402，获取待处理图像。

其中，待处理图像是指需要进行主体识别和遮挡物识别的图像。

具体地，电子设备可从本地或其他设备或网络上获取待处理图像，该待处理图像可以是RGB图像、RAW图像、灰度图像、深度图像、YUV图像中的Y分量所对应的图像等其中的任意一种。

或者，电子设备通过摄像头拍摄一场景得到待处理图像。

步骤1404，通过已训练的图像识别网络对待处理图像进行特征提取；该图像识别网络根据遮挡物图像和原始图像融合后的图像、以及遮挡物掩膜图像和原始掩膜图像融合后的图像进行训练得到。

具体地，电子设备将待处理图像输入训练好的图像识别网络。该电子设备获取原始图像和对应的原始掩膜图像，基于原始图像中的主体区域，获取遮挡物的遮挡物图像和对应的遮挡物掩膜图像。接着，电子设备将遮挡物图像和原始图像中的目标主体进行融合处理，得到训练图像。电子设备将遮挡物掩膜图像和原始掩膜图像进行融合处理的，得到训练掩膜图像；遮挡物图像在训练图像中的位置，与遮挡物掩膜图像在训练掩膜图像中的位置相同。接着，电子设备基于训练图像和训练掩膜图像对图像识别网络进行训练，得到训练好的图像识别网络。

该训练好的图像识别网络对待处理图像进行卷积处理，以提取待处理图像的特征。

本实施例中，电子设备可以确定待处理图像的尺寸，并将该待处理图像的尺寸调整至预设尺寸。接着，电子设备将预设尺寸的待处理图像输入图像识别网络。

在本实施例中，电子设备可对预设尺寸的待处理图像进行归一化处理。即计算该待处理图像中的各像素点的像素均值，将各像素点的像素值减去像素均值并除以方差。接着，电子设备将归一化处理后的待处理图像输入训练好的图像识别网络。

步骤1406，基于所提取的特征，确定待处理图像中的目标主体和目标主体的遮挡物。

具体地，训练好的图像识别网络根据待处理图像的特征进行主体识别和遮挡物识别，输出包含目标主体和该目标主体的遮挡物的掩膜图像。该目标主体的遮挡物为该目标主体手部的手持物，或者为遮挡该目标主体的至少一部分的非手持遮挡物。

接着，图像识别网络根据包含目标主体和该目标主体的遮挡物的掩膜图像，识别出该待处理图像中的目标主体和该目标主体的遮挡物。

例如，待处理图像中的目标主体为人体，遮挡物为该人体手部的手持物，则通过图像识别网络进行识别，能够确定该待处理图像中的人体，以及该人体手部的手持物。通过识别的人体和手持物，能够将该待处理图像中除人体和手持物以外的背景区域进行虚化。或者识别的人体和手持物，能够将人体和手持物从该待处理图像中分割出来，以进行下一步处理。

本实施例中，通过获取待处理图像，通过已训练的图像识别网络对待处理图像进行特征提取，该图像识别网络根据遮挡物图像和原始图像融合后的图像、以及遮挡物掩膜图像和原始掩膜图像融合后的图像进行训练得到。基于所提取的特征，能够同时准确识别出待处理图像中的目标主体和目标主体的遮挡物，能够解决传统方式中仅识别出目标主体忽略遮挡物，导致识别出来的目标主体被遮挡的位置出现空洞或者图像信息丢失的问题。

在一个实施例中，该基于所提取的特征，确定待处理图像中的目标主体和目标主体的遮挡物，包括：

基于所提取的特征进行主体识别，得到待处理图像中的目标主体的掩膜图像；基于所提取的特征进行遮挡物识别，得到待处理图像中的遮挡物的掩膜图像；基于遮挡物的掩膜图像和目标主体的掩膜图像，确定待处理图像中的目标主体和目标主体的遮挡物。

具体地，训练好的图像识别网络基于所提取的特征进行主体识别，识别出待处理图像中的目标主体，从而得到该目标主体对应的掩膜图像。训练好的图像识别网络基于所提取的特征进行遮挡物识别，识别出待处理图像中的与该目标主体相关的遮挡物，从而得到该目标主体相关的遮挡物对应的掩膜图像。接着，训练好的图像识别网络可将该目标主体对应的掩膜图和该目标主体相关的遮挡物对应的掩膜图像进行融合处理，得到目标掩膜图像。该目标掩膜图像中包含该目标主体，以及与该目标主体相关的遮挡物。

在本实施例中，与该目标主体相关的遮挡物可以为该目标主体手部的手持物，也可以为遮挡该目标主体的至少一部分的非手持遮挡物。

接着，该训练好的图像识别网络根据该包含目标主体和目标主体的遮挡物的掩膜图像，确定该待处理图像中的目标主体和该目标主体的遮挡物。进一步地，通过识别出待处理图像中的目标主体和该目标主体的遮挡物，能够将该待处理图像中除目标主体和该目标主体的遮挡物以外的背景区域进行虚化。或者通过识别出待处理图像中的目标主体和该目标主体的遮挡物，将目标主体和该目标主体的遮挡物从该待处理图像中分割出来，以进行下一步处理。

在本实施例中，该图像识别网络可以是卷积神经网络，采用的算法包括不限于deeplab系列分割算法、U-Net、FCN等。该类算法通常包括Encoder特征编码模块和Decoder目标模板生成模块。

本实施例中，通过基于所提取的特征进行主体识别和遮挡物识别，得到待处理图像中的目标主体的掩膜图像和遮挡物的掩膜图像，基于遮挡物的掩膜图像和目标主体的掩膜图像，准确识别出待处理图像中的目标主体和目标主体的遮挡物。并且，使得对图像的目标主体的识别和分割更准确，保证了目标主体的图像信息的完整。

如图15所示，为一个实施例中图像识别网络对待处理图像进行预测的示意图。可根据该图像识别网络构建图像识别模型，通过训练图像和训练掩膜图像对图像识别模型进行训练，得到训练好的图像识别模型。

获取待处理图像，将待处理图像缩放为预设尺寸，将预设尺寸的待处理图像进行归一化处理。将归一化处理后的待处理图像输入图像识别模型，得到该图像识别模型输出的包含目标主体和该目标主体的遮挡物的掩膜图像。

在一个实施例中，提供了一种图像识别网络的训练方法，包括：

1、获取原始图像和对应的原始掩膜图像。

2、当原始图像中的主体区域包含手部区域和脸部区域时，确定原始图像中包含手部区域的手部检测框，以及包含脸部区域的脸部检测框。

3、确定脸部检测框和手部检测框的重叠比例。

4、获取第一随机参数，当重叠比例小于比例阈值，且第一随机参数大于随机参数阈值时，获取手持物图像和对应的手持物掩膜图像。

5、基于手部检测框的尺寸调整手持物图像的尺寸，直至手持物图像与手部检测框的尺寸比例达到第一预设比例。

6、将调整后的手持物图像和原始图像中的手部区域进行融合处理，得到训练图像。

7、基于手部检测框的尺寸调整手持物掩膜图像的尺寸，直至手持物掩膜图像与手部检测框的尺寸比例达到第一预设比例。

8、将调整后的手持物掩膜图像和原始掩膜图像中的手部区域进行融合处理，得到训练掩膜图像。调整后的手持物图像在训练图像中的位置，与调整后的手持物掩膜图像在训练掩膜图像中的位置相同。

9、当原始图像中的主体区域包含脸部区域时，获取第二随机参数。

10、当第二随机参数大于随机参数阈值时，获取非手持遮挡物图像和对应的非手持遮挡物掩膜图像。

11、确定原始图像中包含脸部区域的脸部检测框。

12、基于脸部检测框调整非手持遮挡物图像的尺寸，直至非手持遮挡物图像和脸部检测框的尺寸比例达到第二预设比例。

13、将调整后的非手持遮挡物图像和原始图像进行融合处理，得到训练图像。

14、基于脸部检测框调整非手持遮挡物掩膜图像的尺寸，直至非手持遮挡物掩膜图像和脸部检测框的尺寸比例达到第二预设比例。

15、将调整后的非手持遮挡物掩膜图像和原始掩膜图像进行融合处理，得到训练掩膜图像；调整后的非手持遮挡物图像在训练图像中的位置，与调整后的非手持遮挡物掩膜图像在训练掩膜图像中的位置相同。

16、基于训练图像和训练掩膜图像对图像识别网络进行训练，得到已训练的图像识别网络。

本实施例中，获取原始图像和对应的原始掩膜图像，以确定原始图像中的目标主体所在的主体区域。

当主体区域包含手部区域和脸部区域时，确定手部检测框和脸部检测框之间的重叠比例，以确定手部区域和脸部区域是否被对方所遮挡。获取第一随机参数，当重叠比例和第一随机参数均满足条件时，才获取手持物图像和对应的手持物掩膜图像，能够保证原始图像和手持物图像融合的随机性。根据原始图像的手部区域的尺寸调整手持物图像的尺寸，将调整尺寸后的手持物图像和原始图像的手部区域融合，使得融合更协调自然。

当主体区域仅包含脸部区域时，通过随机生成的参数是否大于随机参数阈值以确定是否获取非手持遮挡物进行融合处理，保证非手持遮挡物图像获取的随机性。根据原始图像的脸部区域的尺寸调整非手持遮挡物图像和非手持遮挡物掩膜图像的尺寸，将调整尺寸后的非手持遮挡物图像和原始图像的主体区域融合，使得融合得到的训练图像和训练掩膜图像更自然。

将该训练掩膜图像作为标签，通过训练图像和该标签训练图像识别网络，使得训练好的图像识别网络能够准确识别出图像中的目标主体，以及与该目标主体的遮挡物，提高主体识别和分割的准确性。并且能够避免仅识别目标主体，不识别目标主体的遮挡物造成图像信息丢失的问题。

在一个实施例中，提供了一种图像处理练方法，包括：

1、获取待处理图像。

2、通过已训练的图像识别网络对待处理图像进行特征提取；图像识别网络根据遮挡物图像和原始图像融合后的图像、以及遮挡物掩膜图像和原始掩膜图像融合后的图像进行训练得到。

3、基于所提取的特征进行主体识别，得到待处理图像中的目标主体的掩膜图像。

4、基于所提取的特征进行遮挡物识别，得到待处理图像中的遮挡物的掩膜图像。

5、基于遮挡物的掩膜图像和目标主体的掩膜图像，确定待处理图像中的目标主体和目标主体的遮挡物。

本实施例中，通过获取待处理图像，通过已训练的图像识别网络对待处理图像进行特征提取，该图像识别网络根据遮挡物图像和原始图像融合后的图像、以及遮挡物掩膜图像和原始掩膜图像融合后的图像进行训练得到。通过基于所提取的特征进行主体识别和遮挡物识别，得到待处理图像中的目标主体的掩膜图像和遮挡物的掩膜图像，基于遮挡物的掩膜图像和目标主体的掩膜图像，准确识别出待处理图像中的目标主体和目标主体的遮挡物。并且，能够解决传统方式中仅识别出目标主体忽略遮挡物，导致识别出来的目标主体被遮挡的位置出现空洞或者图像信息丢失的问题。

应该理解的是，虽然图2、图4、图5、图7、图9、图11、图13-图15的流程图中的各个步骤按照箭头的指示依次显示，但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明，这些步骤的执行并没有严格的顺序限制，这些步骤可以以其它的顺序执行。而且，图2、图4、图5、图7、图9、图11、图13-图15中的至少一部分步骤可以包括多个子步骤或者多个阶段，这些子步骤或者阶段并不必然是在同一时刻执行完成，而是可以在不同的时刻执行，这些子步骤或者阶段的执行顺序也不必然是依次进行，而是可以与其它步骤或者其它步骤的子步骤或者阶段的至少一部分轮流或者交替地执行。

图16为一个实施例的图像识别网络的训练装置的结构框图。如图16所示，一种图像识别网络的训练装置，包括：第一获取模块1602、第二获取模块1604、第一融合模块1606、第二融合模块1608和训练模块1610。其中，

第一获取模块1602，用于获取原始图像和对应的原始掩膜图像。

第二获取模块1604，用于基于所述原始图像中的主体区域，获取遮挡物的遮挡物图像和对应的遮挡物掩膜图像。

第一融合模块1606，用于将所述遮挡物图像和所述原始图像进行融合处理，得到训练图像。

第二融合模块1608，用于将所述遮挡物掩膜图像和所述原始掩膜图像进行融合处理的，得到训练掩膜图像；所述遮挡物图像在所述训练图像中的位置，与所述遮挡物掩膜图像在所述训练掩膜图像中的位置相同。

训练模块1610，用于基于所述训练图像和所述训练掩膜图像对图像识别网络进行训练，得到已训练的图像识别网络。

本实施例中的图像识别网络的训练装置，获取原始图像和对应的原始掩膜图像，以确定原始图像中的目标主体和主体区域。获取主体区域对应的遮挡物的遮挡物图像和对应的遮挡物掩膜图像，将遮挡物图像和原始图像中的目标主体进行融合，使得得到的训练图像中的目标主体的至少一部分被遮挡物遮挡。将遮挡物掩膜图像和原始掩膜图像进行融合处理，遮挡物图像在训练图像中的位置，与遮挡物掩膜图像在训练掩膜图像中的位置相同，从而得到与训练图像对应的训练掩膜图像。将该训练掩膜图像作为标签，通过训练图像和该标签训练图像识别网络，使得训练好的图像识别网络能够准确识别出图像中的目标主体，以及与该目标主体的遮挡物，从而避免了仅识别目标主体，不识别目标主体的遮挡物造成图像信息丢失的问题。

在一个实施例中，该遮挡物包含手持物；该第一获取模块1602还用于：当主体区域包含手部区域时，获取手持物图像和对应的手持物掩膜图像；

该第一融合模块1606还用于：将手持物图像和原始图像中的手部区域进行融合处理，得到训练图像；

该第二融合模块1608还用于：将手持物掩膜图像和原始掩膜图像中的手部区域进行融合处理，得到训练掩膜图像；

手持物图像在训练图像中的位置，与手持物掩膜图在训练掩膜图像中的位置相同。

在本实施例中，当主体区域包含手部区域时，获取手持物图像和对应的手持物掩膜图像，将手持物图像和手部区域进行融合，得到包含手部和该手部的手持物的训练图像。将手持物掩膜图像和原始掩膜图像中的手部区域进行融合处理，得到显示出手部和该手持物的训练掩膜图像，从而能够将训练掩膜图像作为该训练图像对应的标签，以使用训练图像和对应的标签对图像识别网络进行训练。训练好的图像识别网络能够准确识别出图像中的手部，以及与该手部的手持物，避免未识别出手部手持物导致手部识别或手部分割导致图像信息丢失的问题。

在一个实施例中，该主体区域还包含脸部区域；该第一获取模块1602还用于：确定原始图像中包含手部区域的手部检测框和包含脸部区域的脸部检测框；

确定脸部检测框和手部检测框的重叠比例；获取第一随机参数，当重叠比例小于比例阈值，且第一随机参数大于随机参数阈值时，获取手持物图像和对应的手持物掩膜图像。

在一个实施例中，该第一融合模块1606还用于：基于手部检测框的尺寸调整手持物图像的尺寸，直至手持物图像与手部检测框的尺寸比例达到第一预设比例；将调整后的手持物图像和原始图像中的手部区域进行融合处理，得到训练图像；

该第二融合模块1608还用于：基于手部检测框的尺寸调整手持物掩膜图像的尺寸，直至手持物掩膜图像与手部检测框的尺寸比例达到第一预设比例；将调整后的手持物掩膜图像和原始掩膜图像中的手部区域进行融合处理，得到训练掩膜图像；调整后的手持物图像在训练图像中的位置，与调整后的手持物掩膜图像在训练掩膜图像中的位置相同。

在一个实施例中，该装置还包括：第一仿射变换模块。该第一仿射变换模块用于：获取原始图像的特征点或关键点；基于特征点或关键点，确定原始图像中的手部姿态信息；基于手部姿态信息对手持物图像和手持物掩膜图像进行仿射变换处理，得到仿射变换后的手持物图像和仿射变换后的手持物掩膜图像。

该第一融合模块1606还用于：将仿射变换后的手持物图像和原始图像中的手部区域进行融合处理，得到训练图像。

该第二融合模块1608还用于：将仿射变换后的手持物掩膜图像和原始掩膜图像中的手部区域进行融合处理，得到训练掩膜图像；该仿射变换后的手持物图像在训练图像中的位置，与仿射变换后的手持物掩膜图在训练掩膜图像中的位置相同。

在一个实施例中，该遮挡物包含非手持遮挡物；该第一获取模块1602还用于：当主体区域包含脸部区域时，获取第二随机参数；当第二随机参数大于随机参数阈值时，获取非手持遮挡物图像和对应的非手持遮挡物掩膜图像。

该第一融合模块1606还用于：将非手持遮挡物图像和原始图像进行融合处理，得到训练图像。

该第二融合模块1608还用于：将非手持遮挡物掩膜图像和原始掩膜图像进行融合处理，得到训练掩膜图像；该非手持遮挡物图像在训练图像中的位置，与非手持遮挡物掩膜图像在训练掩膜图像中的位置相同。

在本实施例中，当主体区域包含脸部区域时，获取随机参数，随机参数满足条件时获取非手持遮挡物图像和对应的非手持遮挡物掩膜图像。增加随机参数，保证原始图像和非手持遮挡物融合的随机性，从而保证了所生成的训练图像的随机性。通过随机的训练图像对图像识别网络进行训练，能够提高图像识别网络的精度和识别的准确率。

在一个实施例中，该装置还包括：检测框模块。该检测框模块用于：确定原始图像中包含脸部区域的脸部检测框。

该第一融合模块1606还用于：基于脸部检测框调整非手持遮挡物图像的尺寸，直至非手持遮挡物图像和脸部检测框的尺寸比例达到第二预设比例；将调整后的非手持遮挡物图像和原始图像进行融合处理，得到训练图像。

该第二融合模块1608还用于：基于脸部检测框调整非手持遮挡物掩膜图像的尺寸，直至非手持遮挡物掩膜图像和脸部检测框的尺寸比例达到第二预设比例；将调整后的非手持遮挡物掩膜图像和原始掩膜图像进行融合处理，得到训练掩膜图像；调整后的非手持遮挡物图像在训练图像中的位置，与调整后的非手持遮挡物掩膜图像在训练掩膜图像中的位置相同。

在一个实施例中，该装置还包括：第二仿射变换模块。该第二仿射变换模块用于：获取原始图像的特征点或关键点；基于特征点或关键点，确定原始图像中的脸部信息；基于脸部信息对非手持遮挡物图像和非手持遮挡物掩膜图像进行仿射变换处理，得到仿射变换后的非手持遮挡物图像，以及仿射变换后的非手持遮挡物掩膜图像。

该第一融合模块1606还用于：将仿射变换后的非手持遮挡物图像和原始图像进行融合处理，得到训练图像。

该第二融合模块1608还用于：将仿射变换后的非手持遮挡物掩膜图像和原始掩膜图像进行融合处理，得到训练掩膜图像；仿射变换后的非手持遮挡物图像在训练图像中的位置，与仿射变换后的非手持遮挡物掩膜图像在训练掩膜图像中的位置相同。

在一个实施例中，该训练模块1610还用于：通过图像识别网络对训练图像进行识别，得到预测掩膜图像；基于预测掩膜图像与训练掩膜图像之间的差异，调整图像识别网络的参数并继续训练，直至满足训练停止条件时得到已训练的图像识别网络。

图17为一个实施例的图像处理装置的结构框图。如图17所示，一种图像处理装置，包括：图像处理模块1702、识别模块1704和确定模块1706。其中，

图像处理模块1702，用于获取待处理图像。

识别模块1704，用于通过已训练的图像识别网络对所述待处理图像进行特征提取；所述图像识别网络根据遮挡物图像和原始图像融合后的图像、以及遮挡物掩膜图像和原始掩膜图像融合后的图像进行训练得到。

确定模块1706，用于基于所提取的特征，确定所述待处理图像中的目标主体和所述目标主体的遮挡物。

在一个实施例中，该确定模块1706还用于：基于所提取的特征进行主体识别，得到待处理图像中的目标主体的掩膜图像；基于所提取的特征进行遮挡物识别，得到待处理图像中的遮挡物的掩膜图像；基于遮挡物的掩膜图像和目标主体的掩膜图像，确定待处理图像中的目标主体和目标主体的遮挡物。

上述图像识别网络的训练装置、图像处理装置中各个模块的划分仅用于举例说明，在其他实施例中，可将图像识别网络的训练装置、图像处理装置按照需要划分为不同的模块，以完成上述图像识别网络的训练装置、图像处理装置的全部或部分功能。

图18为一个实施例中电子设备的内部结构示意图。如图18所示，该电子设备包括通过系统总线连接的处理器和存储器。其中，该处理器用于提供计算和控制能力，支撑整个电子设备的运行。存储器可包括非易失性存储介质及内存储器。非易失性存储介质存储有操作系统和计算机程序。该计算机程序可被处理器所执行，以用于实现以下各个实施例所提供的一种图像识别网络的训练方法，以及一种图像处理方法。内存储器为非易失性存储介质中的操作系统计算机程序提供高速缓存的运行环境。该电子设备可以是手机、平板电脑或者个人数字助理或穿戴式设备等。

本申请实施例中提供的图像识别网络的训练装置、图像处理装置中的各个模块的实现可为计算机程序的形式。该计算机程序可在终端或服务器上运行。该计算机程序构成的程序模块可存储在终端或服务器的存储器上。该计算机程序被处理器执行时，实现本申请实施例中所描述方法的步骤。

本申请实施例还提供了一种计算机可读存储介质。一个或多个包含计算机可执行指令的非易失性计算机可读存储介质，当所述计算机可执行指令被一个或多个处理器执行时，使得所述处理器执行图像识别网络的训练方法、图像处理方法的步骤。

一种包含指令的计算机程序产品，当其在计算机上运行时，使得计算机执行图像识别网络的训练方法、图像处理方法。

本申请实施例所使用的对存储器、存储、数据库或其它介质的任何引用可包括非易失性和/或易失性存储器。合适的非易失性存储器可包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)，它用作外部高速缓冲存储器。作为说明而非局限，RAM以多种形式可得，诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双数据率SDRAM(DDR SDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink)DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)。

以上所述实施例仅表达了本申请的几种实施方式，其描述较为具体和详细，但并不能因此而理解为对本申请专利范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本申请构思的前提下，还可以做出若干变形和改进，这些都属于本申请的保护范围。因此，本申请专利的保护范围应以所附权利要求为准。

Claims

1.一种图像识别网络的训练方法，其特征在于，包括：

获取原始图像和对应的原始掩膜图像；

2.根据权利要求1所述的方法，其特征在于，所述遮挡物包含手持物；所述基于所述原始图像中的主体区域，获取遮挡物图像和对应的遮挡物掩膜图像，包括：

当所述主体区域包含手部区域时，获取手持物图像和对应的手持物掩膜图像；

所述将所述遮挡物图像和所述原始图像进行融合处理，得到训练图像，包括：

将所述手持物图像和所述原始图像中的手部区域进行融合处理，得到训练图像；

所述将所述遮挡物掩膜图像和所述原始掩膜图像进行融合处理的，得到训练掩膜图像；所述遮挡物图像在所述训练图像中的位置，与所述遮挡物掩膜图像在所述训练掩膜图像中的位置相同，包括：

将所述手持物掩膜图像和所述原始掩膜图像中的手部区域进行融合处理，得到训练掩膜图像；

所述手持物图像在所述训练图像中的位置，与所述手持物掩膜图在所述训练掩膜图像中的位置相同。

3.根据权利要求2所述的方法，其特征在于，所述主体区域还包含脸部区域；所述当所述主体区域包含手部区域时，获取手持物图像和对应的手持物掩膜图像，包括：

确定所述原始图像中包含手部区域的手部检测框，以及包含脸部区域的脸部检测框；

确定所述脸部检测框和所述手部检测框的重叠比例；

获取第一随机参数，当所述重叠比例小于比例阈值，且所述第一随机参数大于随机参数阈值时，获取手持物图像和对应的手持物掩膜图像。

4.根据权利要求3所述的方法，其特征在于，所述将所述手持物图像和所述原始图像中的手部区域进行融合处理，得到训练图像，包括：

基于所述手部检测框的尺寸调整所述手持物图像的尺寸，直至所述手持物图像与所述手部检测框的尺寸比例达到第一预设比例；

将调整后的手持物图像和所述原始图像中的手部区域进行融合处理，得到训练图像；

所述将所述手持物掩膜图像和所述原始掩膜图像中的手部区域进行融合处理，得到训练掩膜图像；所述手持物图像在所述训练图像中的位置，与所述手持物掩膜图像在所述训练掩膜图像中的位置相同，包括：

基于所述手部检测框的尺寸调整所述手持物掩膜图像的尺寸，直至所述手持物掩膜图像与所述手部检测框的尺寸比例达到所述第一预设比例；

将调整后的手持物掩膜图像和所述原始掩膜图像中的手部区域进行融合处理，得到训练掩膜图像；

所述调整后的手持物图像在所述训练图像中的位置，与所述调整后的手持物掩膜图像在所述训练掩膜图像中的位置相同。

5.根据权利要求2所述的方法，其特征在于，所述方法还包括：

获取所述原始图像的特征点或关键点；

基于所述特征点或所述关键点，确定所述原始图像中的手部姿态信息；

基于所述手部姿态信息对所述手持物图像和所述手持物掩膜图像进行仿射变换处理，得到仿射变换后的手持物图像和仿射变换后的手持物掩膜图像；

所述将所述手持物图像和所述原始图像中的手部区域进行融合处理，得到训练图像，包括：

将所述仿射变换后的手持物图像和所述原始图像中的手部区域进行融合处理，得到训练图像；

将所述仿射变换后的手持物掩膜图像和所述原始掩膜图像中的手部区域进行融合处理，得到训练掩膜图像；

所述仿射变换后的手持物图像在所述训练图像中的位置，与所述仿射变换后的手持物掩膜图在所述训练掩膜图像中的位置相同。

6.根据权利要求1所述的方法，其特征在于，所述遮挡物包含非手持遮挡物；所述基于所述原始图像中的主体区域，获取遮挡物图像和对应的遮挡物掩膜图像，包括：

当所述主体区域包含脸部区域时，获取第二随机参数；

当所述第二随机参数大于随机参数阈值时，获取非手持遮挡物图像和对应的非手持遮挡物掩膜图像；

将所述非手持遮挡物图像和所述原始图像进行融合处理，得到训练图像；

将所述非手持遮挡物掩膜图像和所述原始掩膜图像进行融合处理，得到训练掩膜图像；

所述非手持遮挡物图像在所述训练图像中的位置，与所述非手持遮挡物掩膜图像在所述训练掩膜图像中的位置相同。

7.根据权利要求6所述的方法，其特征在于，所述方法还包括：

确定所述原始图像中包含脸部区域的脸部检测框；

所述将所述非手持遮挡物图像和所述原始图像进行融合处理，得到训练图像，包括：

基于所述脸部检测框调整所述非手持遮挡物图像的尺寸，直至所述非手持遮挡物图像和所述脸部检测框的尺寸比例达到第二预设比例；

将调整后的非手持遮挡物图像和所述原始图像进行融合处理，得到训练图像；

所述将所述非手持遮挡物掩膜图像和所述原始掩膜图像进行融合处理，得到训练掩膜图像；所述非手持遮挡物图像在所述训练图像中的位置，与所述非手持遮挡物掩膜图像在所述训练掩膜图像中的位置相同，包括：

基于所述脸部检测框调整所述非手持遮挡物掩膜图像的尺寸，直至所述非手持遮挡物掩膜图像和所述脸部检测框的尺寸比例达到所述第二预设比例；

将调整后的非手持遮挡物掩膜图像和所述原始掩膜图像进行融合处理，得到训练掩膜图像；

所述调整后的非手持遮挡物图像在所述训练图像中的位置，与所述调整后的非手持遮挡物掩膜图像在所述训练掩膜图像中的位置相同。

8.根据权利要求6所述的方法，其特征在于，所述方法还包括：

获取所述原始图像的特征点或关键点；

基于所述特征点或所述关键点，确定所述原始图像中的脸部信息；

基于所述脸部信息对所述非手持遮挡物图像和所述非手持遮挡物掩膜图像进行仿射变换处理，得到仿射变换后的非手持遮挡物图像，以及仿射变换后的非手持遮挡物掩膜图像；

将所述仿射变换后的非手持遮挡物图像和所述原始图像进行融合处理，得到训练图像；

将所述仿射变换后的非手持遮挡物掩膜图像和所述原始掩膜图像进行融合处理，得到训练掩膜图像；

所述仿射变换后的非手持遮挡物图像在所述训练图像中的位置，与所述仿射变换后的非手持遮挡物掩膜图像在所述训练掩膜图像中的位置相同。

9.根据权利要求1所述的方法，其特征在于，所述基于所述训练图像和所述训练掩膜图像对图像识别网络进行训练，得到已训练的图像识别网络，包括：

通过图像识别网络对所述训练图像进行识别，得到预测掩膜图像；

基于所述预测掩膜图像与所述训练掩膜图像之间的差异，调整所述图像识别网络的参数并继续训练，直至满足训练停止条件时得到已训练的图像识别网络。

10.一种图像处理方法，其特征在于，包括：

获取待处理图像；

11.根据权利要求10所述的方法，其特征在于，所述基于所提取的特征，确定所述待处理图像中的目标主体和所述目标主体的遮挡物，包括：

基于所提取的特征进行主体识别，得到所述待处理图像中的目标主体的掩膜图像；

基于所述所提取的特征进行遮挡物识别，得到所述待处理图像中的遮挡物的掩膜图像；

基于所述遮挡物的掩膜图像和所述目标主体的掩膜图像，确定所述待处理图像中的目标主体和所述目标主体的遮挡物。

12.一种图像识别网络的训练装置，其特征在于，包括：

第一获取模块，用于获取原始图像和对应的原始掩膜图像；

13.一种图像处理装置，其特征在于，包括：

图像处理模块，用于获取待处理图像；

14.一种电子设备，包括存储器及处理器，所述存储器中储存有计算机程序，所述计算机程序被所述处理器执行时，使得所述处理器执行如权利要求1至11中任一项所述的方法的步骤。

15.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现如权利要求1至11中任一项所述的方法的步骤。