CN113780469A

CN113780469A - 图像识别模型的训练方法、介质、装置和计算设备

Info

Publication number: CN113780469A
Application number: CN202111142457.2A
Authority: CN
Inventors: 段魁; 王立春; 李雨珂; 杨卫强; 朱浩齐
Original assignee: Hangzhou Netease Zhiqi Technology Co Ltd
Current assignee: Hangzhou Netease Zhiqi Technology Co Ltd
Priority date: 2021-09-28
Filing date: 2021-09-28
Publication date: 2021-12-10

Abstract

本公开的实施方式提供了一种图像识别模型的训练方法、介质、装置和计算设备，在图像识别模型的训练过程中，通过用于指示样本图像为目标特征图像的概率的第一损失函数值，以及用于指示样本图像中的像素所在区域为目标特征区域的概率的第二损失函数值，对图像识别模型进行训练，以增强图像识别模型识别局部区域的能力，进而提升该图像识别模型的识别结果的准确性。

Description

图像识别模型的训练方法、介质、装置和计算设备

技术领域

本公开的实施方式涉及图像识别技术领域，更具体地，本公开的实施方式涉及图像识别模型的训练方法、介质、装置和计算设备。

背景技术

本部分旨在为权利要求书中陈述的本公开的实施方式提供背景或上下文。此处的描述不因为包括在本部分中就承认是现有技术。

随着短视频软件、交友软件的不断普及，移动互联网中传播的有害信息也逐渐增多，面对日益增加的用户量以及用户低龄化趋势，如何准确的识别有害信息，从而及时限制有害信息的传播迫在眉睫。

相关技术中，为了提升识别效率，引入了图像分类模型进行图像识别，以确定图像是否为目标图像，其中，目标图像为包含有害信息的图像。然而，通过图像分类模型得到的识别结果的准确率低。

发明内容

在本上下文中，本公开的实施方式期望提供一种图像识别模型的训练方法、介质、装置和计算设备。

在本公开实施方式的第一方面中，提供了一种图像识别模型的训练方法，包括：获取样本图像，样本图像包括目标特征图像，目标特征图像中包含目标特征区域；

通过样本图像对图像识别模型进行训练，获得第一损失函数值和第二损失函数值，第一损失函数值用于指示样本图像为目标特征图像的概率，第二损失函数值用于指示样本图像中的像素所在区域为目标特征区域的概率；

通过第一损失函数值和/或第二损失函数值，对模型参数进行调整，响应于第一损失函数值和/或第二损失函数值满足预设要求，确定当前的模型参数对应的模型为目标图像识别模型。

在本公开的一个实施例中，该获取样本图像，包括：获取原始样本图像，原始样本图像中包括目标特征图像；对至少部分原始样本图像进行预处理，获得样本图像，预处理包括截断处理和/或对目标特征区域的抠图处理。

在本公开的另一实施例中，该对至少部分原始样本图像进行预处理，获得样本图像，包括：获取目标特征区域中的目标关键点；根据目标关键点，确定原始样本图像中的预处理区域；根据预处理区域，对至少部分原始样本图像进行截断处理和/或抠图处理。

在本公开的又一个实施例中，该目标特征区域包括以下至少一种：腿部区域、胸部区域或者背部区域。

在本公开的再一个实施例中，还包括：获取数据回流中的回流图像，回流图像中包含目标特征图像；通过目标图像识别模型对回流图像进行识别，获得识别结果；确定回流图像中，包含目标特征区域，且目标图像识别模型的识别结果为不包含目标特征区域的回流图像为目标图像；通过目标图像对目标图像识别模型进行训练。

在本公开的再一个实施例中，还包括：通过随机翻转、随机剪裁和图像自动增强中的至少一种方式，对样本图像进行数据增强处理。

在本公开的再一个实施例中，该图像识别模型包括残差网络、分类模块和分割模块；通过样本图像对图像识别模型进行训练，获得第一损失函数值和第二损失函数值，包括：通过残差网络，获取样本图像的图像特征；通过分类模块对图像特征进行识别，获取第一损失函数值；通过分割模块对图像特征进行识别，获取第二损失函数值。

在本公开的再一个实施例中，该残差网络包括第一残差模块和第二残差模块，该通过第一损失函数值和/或第二损失函数值，对模型参数进行调整，包括：通过第一损失函数值和第二损失函数值对第一残差模块的模型参数进行调整；和/或，通过第一损失函数值和第二损失函数值对第二残差模块的模型参数进行调整；其中，第一残差模块用于提取样本图像中的低层次语义特征，第二残差模块用于提取样本图像中的高层次语义特征。

在本公开的再一个实施例中，该分类模块包括池化层和全连接层，分割模块包括卷积层和上采样层；池化层，用于根据残差网络输出的图像特征，获取样本图像的全局图像特征；全连接层，用于根据全局图像特征，获取第一损失函数值；卷积层，用于提取样本图像的细粒度特征；上采样层，用于根据细粒度特征，获取样本图像中每个像素点对应的第二损失函数值。

在本公开实施方式的第二方面中，提供了一种图像识别方法，包括：获取待识别图像；基于目标图像识别模型对待识别图像进行识别，输出待识别图像是否为目标特征图像的识别结果，目标特征图像中包含目标特征区域，目标图像识别模型是根据第一方面的训练方法进行训练得到的。

在本公开的一个实施例中，该获取待识别图像，包括：获取目标识别过程中，识别结果为不包含目标特征区域的图像；确定识别结果为不包含目标特征区域的图像为待识别图像。

在本公开的又一个实施例中，目标特征区域包括以下至少一种：腿部区域、胸部区域或者背部区域。

在本公开实施方式的第三方面中，提供了一种计算机可读存储介质，计算机可读存储介质中存储有计算机执行指令，当处理器执行计算机执行指令时，实现如第一方面的图像识别模型的训练方法，和/或，如第二方面的图像识别方法。

在本公开实施方式的第四方面中，提供了一种图像识别模型的训练装置，包括：获取模块，用于获取样本图像，样本图像包括目标特征图像，目标特征图像中包含目标特征区域；

训练模块，用于通过样本图像对图像识别模型进行训练，获得第一损失函数值和第二损失函数值，第一损失函数值用于指示样本图像为目标特征图像的概率，第二损失函数值用于指示样本图像中的像素所在区域为目标特征区域的概率；

调整模块，用于通过第一损失函数值和/或第二损失函数值，对模型参数进行调整，响应于第一损失函数值和/或第二损失函数值满足预设要求，确定当前的模型参数对应的模型为目标图像识别模型。

在本公开的一个实施例中，获取模块具体用于：获取原始样本图像，原始样本图像中包括目标特征图像；对至少部分原始样本图像进行预处理，获得样本图像，预处理包括截断处理和/或对目标特征区域的抠图处理。

在本公开的一个实施例中，获取模块具体用于：获取目标特征区域中的目标关键点；根据目标关键点，确定原始样本图像中的预处理区域；根据预处理区域，对至少部分原始样本图像进行截断处理和/或抠图处理。

在本公开的一个实施例中，目标特征区域包括以下至少一种：腿部区域、臀部区域、胸部区域或者背部区域。

在本公开的一个实施例中，获取模块还用于：获取数据回流中的回流图像，回流图像中包含目标特征图像；训练模块还用于：通过目标图像识别模型对回流图像进行识别，获得识别结果；确定回流图像中，包含目标特征区域，且目标图像识别模型的识别结果为不包含目标特征区域的回流图像为目标图像；通过目标图像对目标图像识别模型进行训练。

在本公开的一个实施例中，训练装置还包括：处理模块，用于通过随机翻转、随机剪裁和图像自动增强中的至少一种方式，对样本图像进行数据增强处理。

在本公开的一个实施例中，图像识别模型包括残差网络、分类模块和分割模块；训练模块具体用于：通过残差网络，获取样本图像的图像特征；通过分类模块对图像特征进行识别，获取第一损失函数值；通过分割模块对图像特征进行识别，获取第二损失函数值。

在本公开的一个实施例中，残差网络包括第一残差模块和第二残差模块；调整模块具体用于：通过第一损失函数值和第二损失函数值对第一残差模块的模型参数进行调整；和/或，通过第一损失函数值和第二损失函数值对第二残差模块的模型参数进行调整；其中，第一残差模块用于提取样本图像中的低层次语义特征，第二残差模块用于提取样本图像中的高层次语义特征。

在本公开的一个实施例中，分类模块包括：池化层和全连接层；池化层，用于根据残差网络输出的图像特征，获取样本图像的全局图像特征；全连接层，用于根据全局图像特征，获取第一损失函数值；分割模块包括：卷积层和上采样层；卷积层，用于提取样本图像的细粒度特征；上采样层，用于根据细粒度特征，获取样本图像中每个像素点对应的第二损失函数值。

在本公开实施方式的第五方面中，提供了一种图像识别装置，包括：获取模块，用于获取待识别图像；识别模块，用于基于目标图像识别模型对待识别图像进行识别，输出待识别图像是否为目标特征图像的识别结果，目标特征图像中包含目标特征区域，目标图像识别模型是根据第一方面的训练方法进行训练得到的。

在本公开的一个实施例中，获取模块具体用于：获取目标识别过程中，识别结果为不包含目标特征区域的图像；确定识别结果为不包含目标特征区域的图像为待识别图像。

在本公开实施方式的第六方面中，提供了一种计算设备，包括：至少一个处理器和存储器；存储器存储计算机执行指令；至少一个处理器至少存储器存储的计算机执行指令，使得至少一个处理器执行第一方面的图像识别模型训练方法，和/或，第二方面述的图像识别方法。

根据本公开实施方式，通过用于指示样本图像为目标特征图像的概率的第一损失函数值，以及用于指示样本图像中的像素所在区域为目标特征区域的概率的第二损失函数值对图像识别模型进行训练，可以增强目标图像识别模型识别目标特征区域的能力，进而提升该图像识别模型的识别结果的准确性。

附图说明

通过参考附图阅读下文的详细描述，本公开示例性实施方式的上述以及其他目的、特征和优点将变得易于理解。在附图中，以示例性而非限制性的方式示出了本公开的若干实施方式，其中：

图1为本公开实施例提供的应用场景示意图；

图2为本公开实施例提供的图像识别模型的训练方法流程示意图一；

图3为本公开实施例提供的图像识别模型的结构示意图一；

图4为本公开实施例提供的图像识别模型的训练方法流程示意图二；

图5为本公开实施例提供的图像识别模型的结构示意图二；

图6为本公开实施例提供的图像识别方法的流程示意图；

图7为本公开实施例提供的程序产品示意图；

图8为本公开实施例提供的训练装置的结构示意图；

图9为本公开实施例提供的图像识别装置的结构示意图；

图10为本公开实施例提供的计算设备的结构示意图。

在附图中，相同或对应的标号表示相同或对应的部分。

具体实施方式

下面将参考若干示例性实施方式来描述本公开的原理和精神。应当理解，给出这些实施方式仅仅是为了使本领域技术人员能够更好地理解进而实现本公开，而并非以任何方式限制本公开的范围。相反，提供这些实施方式是为了使本公开更加透彻和完整，并且能够将本公开的范围完整地传达给本领域的技术人员。

本领域技术人员知道，本公开的实施方式可以实现为一种系统、装置、设备、方法或计算机程序产品。因此，本公开可以具体实现为以下形式，即：完全的硬件、完全的软件(包括固件、驻留软件、微代码等)，或者硬件和软件结合的形式。

根据本公开的实施方式，提出了一种图像识别模型的训练方法、介质、装置和计算设备。

此外，附图中的任何元素数量均用于示例而非限制，以及任何命名都仅用于区分，而不具有任何限制含义。

下面参考本公开的若干代表性实施方式，详细阐释本公开的原理和精神。

发明概述

随着短视频软件、交友软件的不断普及，移动互联网中传播的低俗、色情等有害信息也逐渐增多，面对日益增加的用户量以及用户低龄化趋势，如何准确的识别有害信息，从而及时限制有害信息的传播迫在眉睫。

相关技术中，为了提升识别效率，引入了图像分类模型进行图像识别，以确定图像是否为低俗图像。

发明人发现，现有技术中的图像分类模型大多是对待识别图像进行整体判断，极大程度依赖于原图的整个人体部分，且真实网络中的图像往往场景比较复杂、拍照姿势各异、人体信息以及局部信息模糊、光照条件复杂，这都会给目标特征区域的识别带来的巨大挑战。

因此，图像分类模型在对部分信息缺失、目标区域过小、只含局部区域或者包含复杂背景的待识别图像进行识别时，很容易出现漏判或误判的情况，导致识别结果的准确率低。

有鉴于此，本公开实施方式中提供一种图像识别模型的训练方法、介质、装置和计算设备，在图像识别模型的训练过程中，通过用于指示样本图像为目标特征图像的概率的第一损失函数值，以及用于指示样本图像中的像素所在区域为目标特征区域的概率的第二损失函数值，对图像识别模型进行训练，以增强图像识别模型识别局部区域的能力，进而提升该图像识别模型的识别结果的准确性。

其中，方法和装置是基于同一申请构思的，由于方法和装置解决问题的原理相似，因此装置和方法的实施可以相互参见，重复之处不再赘述。

在介绍了本公开的基本原理之后，下面具体介绍本公开的各种非限制性实施方式。

应用场景总览

首先参考图1，图1为本公开实施例提供的应用场景示意图。其示意性地示出了本公开实施方式的图像识别模型的训练方法，和/或，图像识别方法的应用场景，如图1所示，该场景包括服务器101和/或终端102，通过服务器101或者终端102实现图像识别模型的训练过程或者图像识别过程。

其中，服务器101可以为单个服务器，也可以为服务器集群，可以为分布式服务器，也可以为集中式服务器，还可以为云服务器。

终端102可以是个人数字处理(personal digital assistant，简称PDA) 设备、具有无线通信功能的手持设备(例如智能手机、平板电脑)、计算设备(例如个人电脑(personal computer，简称PC))、车载设备、可穿戴设备(例如智能手表、智能手环)、智能家居设备(例如智能显示设备) 等。

示例性方法

下面结合图1所示的应用场景，参考图2～6来描述根据本公开示例性实施方式的用于图像识别模型的训练方法和图像识别方法。需要注意的是，上述应用场景仅是为了便于理解本公开的精神和原理而示出，本公开的实施方式在此方面不受任何限制。相反，本公开的实施方式可以应用于适用的任何场景。

图2为本公开实施例提供的图像识别模型的训练方法的流程示意图一。如图2所示，该实施例提供的训练方法包括如下步骤：

S201、获取样本图像。

其中，样本图像包括目标特征图像，目标特征图像中包含目标特征区域，目标特征区域用于指示人体中的局部低俗区域。其中，目标特征区域包括以下至少一种：腿部区域、臀部区域、胸部区域或者背部区域。

应理解的是，局部低俗图像例如是，含有人体大部分信息，且露出局部的区域占人体总区域的比例大于预设比例的图像，或者，只含有局部区域特写，且露出区域占局部区域的比例大于预设比例的图像。

以腿部低俗区域为例，腿部低俗图像例如是：含有人体大部分信息，且露出大腿1/3以上的图像，或者，只含有腿局部特写，且露出完整小腿或小腿以上的图像。

需要说明的是，预设比例的大小可以根据识别需求来确定，本公开实施例不做具体限定。

S202、通过样本图像对图像识别模型进行训练，获得第一损失函数值和第二损失函数值。

其中，第一损失函数值用于指示样本图像为目标特征图像的概率，第二损失函数值用于指示样本图像中的像素所在区域为目标特征区域的概率。

接下来，结合图像识别模型的结构对本公开实施例的方案进行详细说明：

图3为本公开实施例提供的图像识别模型的结构示意图一。如图3所示，本实施例提供的图像识别模型包括：残差网络、分类模块和分割模块。

其中，残差网络，用于获取样本图像的图像特征；分类模块，用于对图像特征进行识别，获取第一损失函数值；分割模块，用于对图像特征进行识别，获取第二损失函数值。

本实施例中，在获取到样本图像之后，将样本图像输入到图像识别模型的残差网络中，通过残差网络获取样本图像的图像特征。

进一步的，将残差网络获得的图像特征同步输入到分类模块和分割模块中，通过分类模块对样本图像进行分类，得出每个样本图像为目标特征图像的概率，即第一损失函数值；通过分割模块对样本图像进行分割，确定样本图像中的每个像素点所在的区域为目标特征区域的概率值，即第二损失函数值。

以目标特征区域为腿部区域为例，将残差网络获得的样本图像的图像特征分别输入到分类模块和分割模块中，由分割模型根据图像特征对样本图像中的每一个像素进行识别，从而获得样本图像中每个像素所在区域为腿部区域的概率，以根据每个像素点对应的概率将腿部区域从样本图像中分割出来，从而使得残差网络具备提取腿部区域的能力；由分类模块根据图像特征对样本图像进行分类，从而确定每个样本图像是腿部低俗图像的概率。

需要说明的是，对于第一损失函数值和第二损失函数值所对应的损失函数的具体类型，本申请实施例不做具体限定，例如，第一损失函数值对应的损失函数可以为BCELoss函数，第二损失函数值对应的损失函数可以为SCELoss函数。

以第一损失函数值对应的损失函数为BCELoss函数为例，可以通过如下公式得出分类模块在每轮训练过程中输出的第一损失函数值：

L＝-∑_ilabel_i*log(pred_i)*pos_weight+(1-label_i)*log(1- pred_i)

其中，pred为图像识别模型输出的样本图像为正负样本的概率值， label为样本图像的标签(0，1)，其中，1用于标识该样本图像为目标特征图像(即正样本)，0用于标识该样本图像为非目标特征图像(即负样本)。

以第二损失函数值对应的损失函数为SCELoss函数为例，可以通过如下公式得出分割模块在每轮训练过程中输出的第二损失函数值：

其中，pred为分割模块输出的样本图像中的每个像素点所在的区域为目标特征区域的概率值，label为样本图像的像素标签(0，1)，其中，1 用于标识像素点所在的区域为目标特征区域(即正样本)，0用于标识像素点所在的区域不在目标特征区域(即负样本)。

S203、通过第一损失函数值和/或第二损失函数值，对模型参数进行调整，响应于第一损失函数值和/或第二损失函数值满足预设要求，确定当前的模型参数对应的模型为目标图像识别模型。

本实施例中，对模型参数的调整方式有多种，此处不做限定。例如，在一示例中，可以根据第一损失函数值对分类模块对应的模型参数进行调整，以提升分类模块的准确性。相应的，当第一损失函数值收敛时，说明分类模块训练完成，确定当前的分类模块对应的模型为目标图像识别模型。

另一示例中，还可以根据第二损失函数值对分割模块对应的模型参数进行调整，以提升分割模块的准确性。相应的，当第二损失函数值收敛时，说明分割模块训练完成，确定当前的分割模块对应的模型为目标图像识别模型。

应理解的是，上述两种示例可以同时实施，也可以实施其中任意一种，本公开实施例不做限定。

在其他示例中，当第一损失函数值和/或第二损失函数值未收敛时，还可以根据第一损失函数值和第二损失函数值对残差网络所对应的模型参数进行调整。相应的，当第一损失函数值和第二损失函数值收敛时，说明残差网络训练完成，确定当前的残差网络对应的模型为目标图像识别模型。

需要说明的是，上述图像识别模型中各个模块的模型参数类型以及模型参数的调整方法，此处不做具体限定。

本实施例，通过用于指示样本图像为目标特征图像的概率的第一损失函数值，以及用于指示样本图像中的像素所在区域为目标特征区域的概率的第二损失函数值对图像识别模型进行训练，可以增强目标图像识别模型识别目标特征区域的能力，进而提升该图像识别模型的识别结果的准确性。

图4为本公开实施例提供的图像识别模型的训练方法的流程示意图二。本实施例将在图3所示实施例的基础上进行更详细的说明，如图4所示，本实施例提供的训练方法包括如下步骤：

S401、获取样本图像。

一种实施方式中，该样本图像可以为公开数据集中的原始样本图像，或者也可以为人工采集的原始样本图像，在后续训练过程中可以通过该原始样本图像对图像识别模型进行训练。通过本方案，直接通过公开数据集中的原始样本图像或者人工采集的原始样本图像进行训练，可以简化训练过程，进而提升模型训练效率。

发明人发现，在通过目标图像识别模型进行图像识别的过程中，由于待识别图像的来源较广，其可能会出现以下几种问题：待识别图像中的目标特征区域较小、待识别图像中的人体被截断、待识别图像中的目标特征区域不完整等等。

然而，公开数据集或者人工采集的样本有限，通过有限的样本图像对图像识别模型进行训练，得到的目标图像识别模型对于上述几种类型的待识别图像的识别效果较差。

有鉴于此，在另一种实施方式中，本步骤中，还可以对上述原始样本图像进行预处理，从而得到样本图像。具体的，上述步骤S401包括如下步骤：

(1)获取原始样本图像。

其中，原始样本图像中包括目标特征图像和非目标特征图像，即包含目标特征区域的图像和不包含目标特征区域的图像。

(2)对至少部分原始样本图像进行预处理，获得样本图像，预处理包括截断处理和/或对目标特征区域的抠图处理。

应理解，对于进行预处理的原始样本图像的数量以及挑选方式，本公开实施例不做具体限定，例如，可以为所有原始样本图像，也可以随机挑选预设数量的原始样本图像。

一方面，可以根据关键点对原始样本图像进行截断处理或抠图处理，其具体方案如下：

首先，获取目标特征区域中的目标关键点，

应理解，不同目标特征区域中的目标关键点不同，以目标特征区域是腿部区域为例，目标关键点可以为左膝、右膝、左脚、右脚、左胯和右胯中的任意一个或多个位置。

对于目标关键点的获取方式，本公开实施例也不做具体限定，例如，可以通过人体关键点识别模型来获取每个原始样本图像中的目标关键点，其中，人体关键点识别模型是通过人体关键点进行训练得到的，至于人体关键点识别模型的结构及其识别原理，此处不再赘述。

其次，根据目标关键点，确定原始样本图像中的预处理区域。

最后，根据预处理区域，对至少部分原始样本图像进行截断处理和 /或抠图处理。

示例一，若预处理为截断处理，则根据目标关键点确定样本图像中的目标特征区域，再确定原始样本图像中除目标特征区域之外的区域(即非目标特征区域)为截断区域，并截断该截断区域，从而得到样本图像。

例如，若目标特征区域为腿部区域，先根据腿部区域的目标关键点，确定原始样本图像中的腿部区域，再截断腿部区域之外的任意区域，并确定包含腿部区域的图像部分为样本图像。

示例二，若预处理为抠图处理，则根据目标关键点确定样本图像中的目标特征区域，再确定原始样本图像中该目标特征区域中的部分区域为抠图区域，并抠除该抠图区域，从而得到样本图像。

仍以目标特征区域是腿部区域为例，先根据腿部区域的目标关键点，确定原始样本图像中的腿部区域，再抠除该腿部区域中的部分区域，并确定抠除后的图像为样本图像。

本实施例中，通过截断处理，可以模拟现实图像中图像信息不完整的情况(例如，只包含腿部区域的图像等)，从而提升目标图像识别模型对非完整图像的识别效果；通过抠图处理，可以模拟现实图像中目标特征区域被部分遮挡的情况(例如，腿部区域的局部区域被袜子、裙子等物体遮挡)，从而进一步提升目标图像识别模型对局部区域被遮挡的图像的识别效果。同时，通过目标关键点可以准确的获取截断区域和抠除区域，进一步提升待识别图像的识别效果。

另一方面，在截断处理过程中，针对每个待截断的原始样本图像，还可以随机截断该原始样本图像中的非目标特征区域，从而得到样本图像。示例性的，若目标特征区域为腿部区域，则可以截断除腿部区域之外的任意区域，确定包含腿部区域的图像部分为样本图像。

在抠图处理过程中，针对每个待抠图的原始样本图像，可以随机抠除该原始样本图像中目标特征区域中的部分区域，从而得到样本图像。仍以目标特征区域为腿部区域为例，可以抠除腿部区域中的左脚区域、右脚区域、膝盖区域等等，并确定剩余区域的图像为样本图像。

本实施例中，通过截断处理和/或抠图处理，可以提升目标图像识别模型对非完整图像的识别效果，以及对局部区域被遮挡的图像的识别效果，同时，通过随机获取截断区域和抠除区域，可以保证每个样本图像之间的差异性的同时，简化截断区域和抠除区域的获取方式，进一步提升待识别图像的识别效果，同时提升训练效率。另外，在样本图像中的人体关键点不完善时，通过随机获取也可以准确的进行截断处理或者抠图处理。

另外需要说明的是，对于同一原始样本图像，可以同时进行截断处理和抠图处理，以进一步提升目标图像识别模型的训练效果。

S402、通过样本图像对图像识别模型进行训练，获得第一损失函数值和第二损失函数值。

接下来，结合图5所示的图像识别模型的结构，对本方案进行更详细的说明：

图5为本公开实施例提供的图像识别模型的结构示意图二。如图5 所示，本实施例中的图像识别模型中，残差网络包括第一残差模块和第二残差模块，分类模块包括池化层和全连接层，分割模块包括卷积层和上采样层；

其中，池化层，用于根据残差网络输出的图像特征，获取样本图像的全局图像特征，全连接层，用于根据全局图像特征，获取第一损失函数值，卷积层，用于提取样本图像的细粒度特征，上采样层，用于根据细粒度特征，获取样本图像中每个像素点对应的第二损失函数值；

在实际应用中，残差网络通常由多个layer组成的，第一残差模块可以为残差网络的前m个layer，第二残差模块可以为残差网络的后n个 layer，其中，第一残差模块用于提取样本图像中的低层次语义特征，第二残差模块用于提取样本图像中的高层次语义特征。

应理解的是，对于m和n的取值，本公开实施例不做具体限定，例如，m和n的取值可以为2。

本步骤中，首先将样本图像输入至残差网络中，由第一残差模块提取样本图像中的低层次语义特征，通过第二残差模块提取样本图像中的高层次语义特征。

进一步的，将第一残差模块和第二残差模块提取到的图像特征分别输入到分类模块以及分割模块。在分类模块中，通过池化层获取样本图像的全局图像特征，通过全连接层根据全局图像特征，获取第一损失函数值；在分割模块中，通过卷积层提取样本图像的细粒度特征，再通过上采样层获取第二损失函数值。

应理解，对于卷积层和上采样层的结构，本公开实施例不做具体限定，例如，卷积层可以为4层卷积结构，上采样层的参数可以为3*56*56。

一种可能的实施方式中，在通过样本图像对图像识别模型进行训练之前，还可以通过随机翻转、随机剪裁和图像自动增强中的至少一种方式，对样本图像进行数据增强处理，从而进一步提升目标图像识别模型的识别效果。

S403、通过第一损失函数值和/或第二损失函数值，对模型参数进行调整，响应于第一损失函数值和/或第二损失函数值满足预设要求，确定当前的模型参数对应的模型为目标图像识别模型。

本步骤中，可以对分类模块、分割模块和残差网络中的至少一种结构的模型参数进行调整，至于分类模块、分割模块的调整方式，在图2所示实施例中示出，此处不再赘述，下面主要对残差网络的模型参数的调整方式进行详细说明。

应理解的是，本公开实施例中，对于残差网络的类型也不做具体限定，例如，残差网络可以为resnet50。

在实际应用中，残差网络是通过预设数据库中的样本图像进行预训练得到的。

其中，对于预设数据库的类型，本公开实施例不做限定，例如，预设数据库可以为ImageNet等可视化数据库。

以ImageNet数据库为例，ImageNet数据库中拥有多个节点(Node)，每一个节点中包含大量的样本图像，通过ImageNet等可视化数据库中的样本图像对残差网络进行预训练，可以使得残差网络具备一定的识别能力。

一些实施例中，对残差网络进行参数调节时，可以同时调节第一残差模块和第二残差模块对应的模型参数，从而最大程度的优化残差网络，以提升目标图像识别模型的准确性。

在另一些实施例中，由于残差网络中的第一残差模块(即残差网络的前m个layer)仅用于提取图像中的低层次语义特征，而低层次语义特征的提取对残差网络的要求较低，通过预训练的残差网络已经具备了准确提取低层次语义特征的能力，因此，在对残差网络进行参数调节时，可以固定第一残差模块的模型参数，仅对第二残差模块的模型参数进行调节。

具体的，本步骤中，可以通过第一损失函数值和第二损失函数值对第二残差模块的模型参数进行调整。

通过本方案，可以在保证目标图像识别模型的准确性的同时，提升模型训练效率。另外，由于每个目标图像识别模型专注于识别一个目标特征区域(例如，识别腿部区域)，为了识别更多类型的目标特征区域(例如，胸部区域、臀部区域和背部区域等)，可以将用于识别不同目标特征区域的目标图像识别模型进行参数融合，而本方案中，通过仅对第二残差模块进行模型参数调节，减少所有目标图像识别模型总的训练时长。

在一些场景中，通过互联网可以获得大量的数据回流，为获得更准确的图像识别模型，可以通过数据回流中的回流图像对目标图像识别模型进行进一步训练。接下来，结合步骤S404～S407对本方案进行详细说明：

S404、获取数据回流中的回流图像。

其中，回流图像中包含目标特征图像。

S405、通过目标图像识别模型对回流图像进行识别，获得识别结果。

具体的，将回流图像输入到该目标图像识别模型中，获得目标图像识别模型输出的识别结果。其中，识别结果包含以下几种类型：

I、回流图像包含目标特征区域，但识别结果为不包含目标特征区域；

II、回流图像中包含目标特征区域，且识别结果为包含目标特征区域；

III、回流图像中不包含目标特征区域，但识别结果为包含目标特征区域；

IV、回流图像中不包含目标特征区域，且识别结果为不包含目标特征区域。

其中，类型I、III对应的识别结果说明该目标图像识别模型识别失败，可以通过类型I、III对应的回流图像对目标图像识别模型进行进一步训练。

S406、确定回流图像中，包含目标特征区域，且目标图像识别模型的识别结果为不包含目标特征区域的回流图像为目标图像。

S407、通过目标图像对目标图像识别模型进行训练。

以类型I为例，本步骤中，将回流图像包含目标特征区域，但识别结果为不包含目标特征区域的回流图像确定为目标图像，并将目标图像输入至目标图像识别模型进行训练，获得训练后的图像识别模型。

需要说明的是，通过目标图像对目标图像识别模型进行训练的原理及有益效果，与上述实施例中通过样本图像对图像识别模型进行训练的原理及有益效果类似，此处不再赘述。

图6为本公开实施例提供的图像识别方法的流程示意图。如图6所示，本实施例提供的图像识别方法包括如下步骤：

S601、获取待识别图像。

S602、基于目标图像识别模型对待识别图像进行识别，输出待识别图像是否为目标特征图像的识别结果。

其中，目标特征图像为包含目标特征区域的图像，目标特征区域例如是：腿部区域、胸部区域或者背部区域等。

另外，目标图像识别模型是根据图2和图4所示实施例中的训练方法，对图3或图5所示实施例中的图像识别模型进行训练得到的，对于图像识别模型的训练过程，可参考上述实施例，此处不再赘述。

本公开实施例中，目标图像识别模型主要用于识别局部区域是否为目标特征区域，因此，在识别前，可以通过其他识别过程排除掉明显包含目标特征区域的图像，对于其他识别过程无法识别的图像，再通过本实施例的目标图像识别模型进行识别，可以大大提升图像识别的效率和准确性。

具体的，上述步骤S601具体方案如下：

(1)获取目标识别过程中，识别结果为不包含目标特征区域的图像。

(2)确定识别结果为不包含目标特征区域的图像为待识别图像。

其中，对于目标识别过程，本公开实施例不做限定，例如，一方面，该目标识别过程可以为人工识别过程。即先通过人工判断图像是否为低俗图像，若无法人工确定，则确定该图像为非低俗图像(即不包含目标特征区域的图像)，则需要通过目标图像识别模型进行进一步判断；若在人工识别过程中，确定该图像为低俗图像，则无需通过目标图像识别模型进行进一步判断。

另一方面，该目标识别过程可以为上述的图像分类模型，即本步骤中，通过图像分类模型对图像进行初步分类，若识别结果为：图像是低俗图像，则无需通过目标图像识别模型进行进一步判断，若识别结果为：图像不是低俗图像(即不包含目标特征区域的图像)，则需要通过目标图像识别模型进行进一步判断，从而保障最终识别结果的准确性。

示例性介质

在介绍了本公开示例性实施方式的方法之后，接下来，参考图7对本公开示例性实施方式的存储介质进行说明。

图7为本公开实施例提供的程序产品示意图。参考图7所示，描述了根据本公开的实施方式的用于实现上述方法的程序产品700，其可以采用便携式紧凑盘只读存储器(CD-ROM)并包括程序代码，并可以在终端设备，例如个人电脑上运行。然而，本公开的程序产品不限于此。

程序产品可以采用一个或多个可读介质的任意组合。可读介质可以是可读信号介质或者可读存储介质。可读存储介质例如可以为但不限于电、磁、光、电磁、红外线、或半导体的系统、装置或器件，或者任意以上的组合。可读存储介质的更具体的例子(非穷举的列表)包括：具有一个或多个导线的电连接、便携式盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。

可读信号介质可以包括在基带中或者作为载波一部分传播的数据信号，其中承载了可读程序代码。这种传播的数据信号可以采用多种形式，包括但不限于电磁信号、光信号或上述的任意合适的组合。可读信号介质还可以是可读存储介质以外的任何可读介质。

可以以一种或多种程序设计语言的任意组合来编写用于执行本公开公开操作的程序代码，程序设计语言包括面向对象的程序设计语言—诸如Java、C++等，还包括常规的过程式程序设计语言—诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算设备上执行、部分地在用户设备上执行、部分在远程计算设备上执行、或者完全在远程计算设备或服务器上执行。在涉及远程计算设备的情形中，远程计算设备可以通过任意种类的网络，包括局域网(LAN)或广域网(WAN)，连接到用户计算设备。

示例性装置

在介绍了本公开示例性实施方式的介质之后，接下来，参考图8、图9分别对本公开示例性实施方式的图像识别模型的训练装置和图像识别装置进行说明，用于实现上述任一方法实施例中的方法，其实现原理和技术效果类似，在此不再赘述。

图8为本公开实施例提供的训练装置的结构示意图。如图8所示，该训练装置800包括：获取模块801、训练模块802和调整模块803。

其中，获取模块801，用于获取样本图像，样本图像包括目标特征图像，目标特征图像中包含目标特征区域；训练模块802，用于通过样本图像对图像识别模型进行训练，获得第一损失函数值和第二损失函数值，第一损失函数值用于指示样本图像为目标特征图像的概率，第二损失函数值用于指示样本图像中的像素所在区域为目标特征区域的概率；调整模块 803，用于通过第一损失函数值和/或第二损失函数值，对模型参数进行调整，响应于第一损失函数值和/或第二损失函数值满足预设要求，确定当前的模型参数对应的模型为目标图像识别模型。

在本公开的一个实施例中，获取模块801具体用于：获取原始样本图像，原始样本图像中包括目标特征图像；对至少部分原始样本图像进行预处理，获得样本图像，预处理包括截断处理和/或对目标特征区域的抠图处理。

在本公开的一个实施例中，获取模块801具体用于：获取目标特征区域中目标关键点；根据目标关键点，确定原始样本图像中的预处理区域；根据预处理区域，对至少部分原始样本图像进行截断处理和/或抠图处理。

在本公开的一个实施例中，获取模块801还用于：获取数据回流中的回流图像，回流图像中包含目标特征图像；

训练模块802还用于：通过目标图像识别模型对回流图像进行识别，获得识别结果；确定回流图像中，包含目标特征区域，且目标图像识别模型的识别结果为不包含目标特征区域的回流图像为目标图像；通过目标图像对目标图像识别模型进行训练。

在本公开的一个实施例中，训练装置还包括：处理模块804，用于通过随机翻转、随机剪裁和图像自动增强中的至少一种方式，对样本图像进行数据增强处理。

在本公开的一个实施例中，图像识别模型包括残差网络、分类模块和分割模块；训练模块802具体用于：通过残差网络，获取样本图像的图像特征；通过分类模块对图像特征进行识别，获取第一损失函数值；通过分割模块对图像特征进行识别，获取第二损失函数值。

在本公开的一个实施例中，残差网络包括第一残差模块和第二残差模块；调整模块803具体用于：通过第一损失函数值和第二损失函数值对第一残差模块的模型参数进行调整；和/或，通过第一损失函数值和第二损失函数值对第二残差模块的模型参数进行调整；其中，第一残差模块用于提取样本图像中的低层次语义特征，第二残差模块用于提取样本图像中的高层次语义特征。

本公开实施例提供的上述训练装置，可以实现前述图像识别模型的训练方法的实施例中的各过程，并达到相同的功能和效果，此处不做赘述。

图9为本公开实施例提供的图像识别装置的结构示意图。如图9所示，该图像识别装置900包括：获取模块901和识别模块902。

其中，获取模块901，用于获取待识别图像；识别模块902，用于基于目标图像识别模型对待识别图像进行识别，输出待识别图像是否为目标特征图像的识别结果，目标特征图像中包含目标特征区域，目标图像识别模型是根据第一方面的训练方法进行训练得到的。

在本公开的一个实施例中，获取模块901具体用于：获取目标识别过程中，识别结果为不包含目标特征区域的图像；确定识别结果为不包含目标特征区域的图像为待识别图像。

本公开实施例提供的上述图像识别装置，可以实现前述图像识别方法的实施例中的各个过程，并达到相同的功能和效果，此处不做赘述。

示例性计算设备

在介绍了本公开示例性实施方式的方法、介质和装置之后，接下来，参考图10对本公开示例性实施方式的计算设备进行说明。

应理解，图10显示的计算设备1000仅仅是一个示例，不应对本公开实施例的功能和使用范围带来任何限制。

图10为本公开实施例提供的计算设备的结构示意图。如图10所示，计算设备1000以通用计算设备的形式表现。计算设备1000的组件可以包括但不限于：上述至少一个处理单元1001、上述至少一个存储单元1002，连接不同系统组件(包括处理单元1001和存储单元1002)的总线1003。

总线1003包括数据总线、控制总线和地址总线。存储单元1002可以包括易失性存储器形式的可读介质，例如随机存取存储器(RAM)1012和 /或高速缓存存储器1022，可以进一步包括非易失性存储器形式的可读介质，例如只读存储器(ROM)1032。

存储单元1002还可以包括具有一组(至少一个)程序模块1042的程序/实用工具1052，这样的程序模块1042包括但不限于：操作系统、一个或者多个应用程序、其它程序模块以及程序数据，这些示例中的每一个或某种组合中可能包括网络环境的实现。

计算设备1000也可以与一个或多个外部设备1004(例如键盘、指向设备等)通信。这种通信可以通过输入/输出(I/O)接口1005进行。并且，计算设备1000还可以通过网络适配器1006与一个或者多个网络(例如局域网 (LAN)，广域网(WAN)和/或公共网络，例如因特网)通信。如图10所示，网络适配器1006通过总线1003与计算设备1000的其它模块通信。应当理解，尽管图中未示出，可以结合计算设备1000使用其它硬件和/或软件模块，包括但不限于：微代码、设备驱动器、冗余处理单元、外部磁盘驱动阵列、RAID系统、磁带驱动器以及数据备份存储系统等。

应当注意，尽管在上文详细描述中提及了训练装置和图像识别装置的若干单元/模块或子单元/模块，但是这种划分仅仅是示例性的并非强制性的。实际上，根据本公开的实施方式，上文描述的两个或更多单元/模块的特征和功能可以在一个单元/模块中具体化。反之，上文描述的一个单元 /模块的特征和功能可以进一步划分为由多个单元/模块来具体化。

此外，尽管在附图中以特定顺序描述了本公开方法的操作，但是，这并非要求或者暗示必须按照该特定顺序来执行这些操作，或是必须执行全部所示的操作才能实现期望的结果。附加地或备选地，可以省略某些步骤，将多个步骤合并为一个步骤执行，和/或将一个步骤分解为多个步骤执行。

虽然已经参考若干具体实施方式描述了本公开的精神和原理，但是应该理解，本公开并不限于所公开的具体实施方式，对各方面的划分也不意味着这些方面中的特征不能组合以进行受益，这种划分仅是为了表述的方便。本公开旨在涵盖所附权利要求的精神和范围内所包括的各种修改和等同布置。

Claims

1.一种图像识别模型的训练方法，包括：

获取样本图像，所述样本图像包括目标特征图像，所述目标特征图像中包含目标特征区域；

通过所述样本图像对图像识别模型进行训练，获得第一损失函数值和第二损失函数值，所述第一损失函数值用于指示样本图像为目标特征图像的概率，所述第二损失函数值用于指示所述样本图像中的像素所在区域为目标特征区域的概率；

通过所述第一损失函数值和/或所述第二损失函数值，对模型参数进行调整，响应于所述第一损失函数值和/或所述第二损失函数值满足预设要求，确定当前的模型参数对应的模型为目标图像识别模型。

2.根据权利要求1所述的训练方法，所述获取样本图像，包括：

获取原始样本图像，所述原始样本图像中包括目标特征图像；

对至少部分所述原始样本图像进行预处理，获得所述样本图像，所述预处理包括截断处理和/或对目标特征区域的抠图处理。

3.根据权利要求2所述的训练方法，所述对至少部分所述原始样本图像进行预处理，获得所述样本图像，包括：

获取目标特征区域中的目标关键点；

根据所述目标关键点，确定原始样本图像中的预处理区域；

根据所述预处理区域，对至少部分所述原始样本图像进行截断处理和/或抠图处理。

4.根据权利要求1所述的训练方法，所述目标特征区域包括以下至少一种：腿部区域、臀部区域、胸部区域或者背部区域。

5.根据权利要求1-4任一项所述的训练方法，还包括：

获取数据回流中的回流图像，所述回流图像中包含目标特征图像；

通过所述目标图像识别模型对所述回流图像进行识别，获得识别结果；

确定所述回流图像中，包含目标特征区域，且所述目标图像识别模型的识别结果为不包含目标特征区域的回流图像为目标图像；

通过所述目标图像对所述目标图像识别模型进行训练。

6.根据权利要求1-4任一项所述的训练方法，还包括：通过随机翻转、随机剪裁和图像自动增强中的至少一种方式，对所述样本图像进行数据增强处理。

7.根据权利要求1-4任一项所述的训练方法，所述图像识别模型包括残差网络、分类模块和分割模块，所述通过所述样本图像对图像识别模型进行训练，获得第一损失函数值和第二损失函数值，包括：

通过所述残差网络，获取所述样本图像的图像特征；通过所述分类模块对所述图像特征进行识别，获取所述第一损失函数值；通过所述分割模块对所述图像特征进行识别，获取所述第二损失函数值。

8.根据权利要求7所述的训练方法，所述残差网络包括第一残差模块和第二残差模块，所述通过所述第一损失函数值和/或所述第二损失函数值，对模型参数进行调整，包括：

通过所述第一损失函数值和所述第二损失函数值对所述第一残差模块的模型参数进行调整；和/或，通过所述第一损失函数值和所述第二损失函数值对所述第二残差模块的模型参数进行调整；其中，所述第一残差模块用于提取样本图像中的低层次语义特征，所述第二残差模块用于提取样本图像中的高层次语义特征。

9.根据权利要求7所述的训练方法，所述分类模块包括池化层和全连接层，所述分割模块包括卷积层和上采样层；

其中，所述池化层，用于根据所述残差网络输出的图像特征，获取所述样本图像的全局图像特征；所述全连接层，用于根据所述全局图像特征，获取所述第一损失函数值；所述卷积层，用于提取所述样本图像的细粒度特征；所述上采样层，用于根据所述细粒度特征，获取所述样本图像中每个像素点对应的所述第二损失函数值。

10.一种图像识别方法，包括：获取待识别图像；

基于目标图像识别模型对所述待识别图像进行识别，输出所述待识别图像是否为目标特征图像的识别结果，所述目标特征图像中包含目标特征区域，所述目标图像识别模型是根据权利要求1-9中任一项所述的训练方法进行训练得到的。