CN116310640A

CN116310640A - 图像识别模型的训练方法、装置、电子设备及介质

Info

Publication number: CN116310640A
Application number: CN202310214369.1A
Authority: CN
Inventors: 周文涛; 陈嘉乐; 苏涛
Original assignee: Vivo Mobile Communication Co Ltd
Current assignee: Vivo Mobile Communication Co Ltd
Priority date: 2023-03-07
Filing date: 2023-03-07
Publication date: 2023-06-23

Abstract

本申请公开了一种图像识别模型的训练方法、装置、电子设备及介质，属于人工智能领域。该方法包括：将第一测试样本集输入图像识别模型，该图像识别模型是基于第一训练样本集训练得到的，第一训练样本集中包含至少与一个经图像处理后的第一目标样本，图像处理包括以下至少之一：数据增强处理，对抗处理；输出第一测试样本集中M个测试样本对应的M个第一图像分类结果；在M个第一图像分类结果中满足第一条件的第一图像分类结果的数量小于N的情况下，调整第一目标样本对应的图像处理参数，以得到第二训练样本集；基于第二训练样本集训练图像识别模型，得到目标图像识别模型；其中，第一条件包括：第一图像分类结果对应的分类置信度大于预定阈值。

Description

图像识别模型的训练方法、装置、电子设备及介质

技术领域

本申请属于人工智能领域，具体涉及一种图像识别模型的训练方法、装置、电子设备及介质。

背景技术

在互联网飞速发展的过程中，每天都会产生数以亿计的图像，这些图像可能会包括各种敏感信息，属于高危敏感样本，若针对图像没有审核过程，则会导致这些存在敏感信息的高危敏感样本流入至平台，造成不良的用户体验，造成严重的负面影响。

在相关技术中，内容审核平台中的图像内容审核服务主要指利用图像识别模型对图像内容进行检测，准确识别出图像中是否存在敏感信息，从而有效帮助业务规避此类风险。

然而，当前审核平台中的图像识别模型存在防御能力受限、泛化能力不强，从而使得现有的图像识别模型分类精度不够，无法满足用户对图像识别模型准确度的要求。

发明内容

本申请实施例的目的是提供一种图像识别模型的训练方法、装置、电子设备及介质，能够解决图像识别模型存在防御能力受限、泛化能力不强，从而使得现有的图像识别模型分类精度不够问题。

第一方面，本申请实施例提供了一种图像识别模型的训练方法，该图像识别模型的训练方法包括：将第一测试样本集输入图像识别模型，其中，图像识别模型是基于第一训练样本集训练得到的，第一训练样本集中包含至少与一个经图像处理后的第一目标样本，图像处理包括以下至少之一：数据增强处理，对抗处理；输出第一测试样本集中M个测试样本对应的M个第一图像分类结果，其中，每个测试样本对应一个第一图像分类结果；在M个第一图像分类结果中满足第一条件的第一图像分类结果的数量小于N的情况下，调整第一目标样本对应的图像处理参数，以得到第二训练样本集；基于第二训练样本集训练图像识别模型，得到目标图像识别模型；其中，第一条件包括：第一图像分类结果对应的分类置信度大于预定阈值，M和N均为大于1的整数；分类置信度用于表征第一图像分类结果对应的分类。

第二方面，本申请实施例提供了一种图像识别模型的训练装置，该图像识别模型的训练装置包括：处理模块和更新模块；该处理模块，用于将第一测试样本集输入图像识别模型，其中，图像识别模型是基于第一训练样本集训练得到的，第一训练样本集中包含至少与一个经图像处理后的第一目标样本，图像处理包括以下至少之一：数据增强处理，对抗处理；上述处理模块701，还用于输出第一测试样本集中M个测试样本对应的M个第一图像分类结果，其中，每个测试样本对应一个第一图像分类结果；上述处理模块701，还用于在M个第一图像分类结果中满足第一条件的第一图像分类结果的数量小于N的情况下，调整第一目标样本对应的图像处理参数，以得到第二训练样本集；上述处理模块701，还用于基于第二训练样本集训练图像识别模型，得到目标图像识别模型；其中，第一条件包括：第一图像分类结果对应的分类置信度大于预定阈值，M和N均为大于1的整数；分类置信度用于表征第一图像分类结果对应的分类。

第三方面，本申请实施例提供了一种电子设备，该电子设备包括处理器和存储器，所述存储器存储可在所述处理器上运行的程序或指令，所述程序或指令被所述处理器执行时实现如第一方面所述的方法的步骤。

第四方面，本申请实施例提供了一种可读存储介质，所述可读存储介质上存储程序或指令，所述程序或指令被处理器执行时实现如第一方面所述的方法的步骤。

第五方面，本申请实施例提供了一种芯片，所述芯片包括处理器和通信接口，所述通信接口和所述处理器耦合，所述处理器用于运行程序或指令，实现如第一方面所述的方法。

第六方面，本申请实施例提供一种计算机程序产品，该程序产品被存储在存储介质中，该程序产品被至少一个处理器执行以实现如第一方面所述的方法。

在本申请实施例中，将第一测试样本集输入图像识别模型，其中，图像识别模型是基于第一训练样本集训练得到的，第一训练样本集中包含至少与一个经图像处理后的第一目标样本，图像处理包括以下至少之一：数据增强处理，对抗处理；输出第一测试样本集中M个测试样本对应的M个第一图像分类结果，其中，每个测试样本对应一个第一图像分类结果；在M个第一图像分类结果中满足第一条件的第一图像分类结果的数量小于N的情况下，调整第一目标样本对应的图像处理参数，以得到第二训练样本集；基于第二训练样本集训练图像识别模型，得到目标图像识别模型；其中，第一条件包括：第一图像分类结果对应的分类置信度大于预定阈值，M和N均为大于1的整数；分类置信度用于表征第一图像分类结果对应的分类。如此，通过使用经不同方式图像处理后的样本对图像识别模型进行训练，从而提高训练后的图像识别模型的防御能力，并通过更新图像处理参数，使用更新后的训练样本集再次训练图像识别模型，进而提高图像识别模型的图像分类结果的准确度。

附图说明

图1是本申请实施例提供的一种图像识别模型的训练方法的流程示意图之一；

图2是本申请实施例提供的一种图像识别模型的训练方法的流程示意图之二；

图3是本申请实施例提供的一种图像识别模型的训练装置的结构示意图之一；

图4是本申请实施例提供的一种图像识别模型的训练装置的结构示意图之二；

图5是本申请实施例提供的一种电子设备的硬件结构示意图之一；

图6是本申请实施例提供的一种电子设备的硬件结构示意图之二。

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚地描述，显然，所描述的实施例是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员获得的所有其他实施例，都属于本申请保护的范围。

本申请的说明书和权利要求书中的术语“第一”、“第二”等是用于区别类似的对象，而不用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便本申请的实施例能够以除了在这里图示或描述的那些以外的顺序实施，且“第一”、“第二”等所区分的对象通常为一类，并不限定对象的个数，例如第一对象可以是一个，也可以是多个。此外，说明书以及权利要求中“和/或”表示所连接对象的至少其中之一，字符“/”，一般表示前后关联对象是一种“或”的关系。

下面对本申请实施例提供的图像识别模型的训练方法、装置、电子设备及介质中涉及的一些概念和/或术语做一下解释说明。

1)、数据增强处理：指对数据集中的样本在预处理阶段进行以下类似操作：图像随机旋转、缩放、裁剪等几何变换，调整图像的对比度、饱和度、锐度等参数，对图像加入适量噪声使得图像变得模糊等，经过上述操作，形成数据增强样本。

2)、对抗训练：对抗训练是增强神经网络鲁棒性的重要方式。在对抗训练的过程中，样本会被混合一些微小的扰动，然后使神经网络适应这种改变，从而对对抗样本具有鲁棒性。

3)、对抗样本：指在原始样本添加一些人眼无法察觉的微小扰动得到的样本，使得模型做出误判，即为对抗性攻击。

下面结合附图，通过具体的实施例及其应用场景对本申请实施例提供的图像识别模型的训练方法、装置、电子设备及介质进行详细地说明。

当前，攻击者为了绕过图像内容审核服务，有以下两种攻击手段：

1.对原始图像添加微小扰动生成对抗样本，这些对抗性干扰对人类来说是难以察觉的，例如，在某个敏感图像上利用对抗生成算法生成对抗样本，该样本加入对抗扰动后和原始样本在人眼看来是分辨不出差别，但是该样本可以绕过审核平台，被误判为正常图像。

2.通过旋转、调色等方式对原始图像进行数据增强处理来绕过审核平台，例如，在某个APP的用户评论中，经常会出现一些成功绕过审核平台的含有敏感信息的图像，此类图像相较于原始图像仅进行了旋转180度的操作，对用户来说，人眼上仍然可以识别出此类图像为含有敏感信息的图像。需要说明的是，由于此类图像不需要使用对抗算法生成，因此，并不属于对抗样本，同时相较于对抗样本的生成过程，数据增强样本的生成更为简单且有效，成本更低，无需专业的攻击者也可以生成。

对上述两种攻击手段，图像内容审核平台防御措施主要通过将对抗样本与正常样本一起训练，使得模型对于对抗样本识别能力上升，从而有效降低对抗样本的攻击成功率。此外，还通过对原始图像进行尺寸变换、滤波等操作形成数据增强样本，并与原始样本一起训练，提高模型对于数据增强样本的识别能力。

然而，由于当前审核平台且类似专利只针对对抗样本和数据增强样本的攻击进行防御，未考虑对抗-数据增强样本、数据增强-对抗样本此类叠加式攻击方法，导致模型防御能力受限。在本申请实施例中通过对样本先进行数据增强处理再利用对抗算法生成数据增强-对抗样本，以及对样本先利用对抗算法再对样本进行数据增强处理生成对抗-数据增强样本，即增加多种类型样本，使得训练后的图像识别模型可以防御叠加式攻击，提高图像识别模型的防御能力。

此外，当前数据增强处理的方式较为单一、固定，存在其他图像增强方式绕过内容审核平台的可能性，从而导致模型的泛化能力较弱。本申请实施例通过增加数据增强处理的方式，提高图像识别模型的图像分类结果的准确度。

本申请实施例提供一种图像识别模型的训练方法，图1示出了本申请实施例提供的一种图像识别模型的训练方法的流程图，该方法可以应用于图像识别模型的训练装置。在本申请实施例中图像识别模型的训练装置可以以电子设备为例。如图1所示，本申请实施例提供的图像识别模型的训练方法可以包括下述的步骤201至步骤204。

步骤201、将第一测试样本集输入图像识别模型。

在本申请实施例中，上述图像识别模型是基于第一训练样本集训练得到的。

在本申请实施例中，上述图像识别模型可以是卷积神经网络模型。

在本申请实施例中，上述第一训练样本集可以是电子设备自动获取的，也可以是用户挑选的。

在本申请实施例中，上述第一训练样本集中包含至少一个经图像处理后的第一目标样本。

在本申请实施例中，上述第一目标样本为经图像处理后的包含敏感信息的图像。

在本申请实施例中，上述第一测试样本集中包含至少一个经图像处理后的第二目标样本。

在本申请实施例中，上述第一测试样本集可以是电子设备自动获取的，也可以是用户挑选的。

在本申请实施例中，上述图像处理包括以下至少之一：数据增强处理，对抗处理。

示例性地，上述数据增强处理包括以下至少一项方式：

方式1)、将图像进行旋转；

方式2)、将图像进行裁剪；

方式3)、调整图像亮度；

方式4)、调整图像对比度；

方式5)、对图像进行滤波处理。

示例性地，针对方式1)，将图像输入至图像识别模型中，在预定旋转范围内，对图像进行旋转。其中，上述预定旋转范围可以是基于公式transform.functyional{min＝0，max＝360}所设置，min＝0，max＝360表示图像旋转角度为0°至360°，并以旋转定值，例如旋转角度为5°，对图像进行旋转。

示例性地，针对方式2)，将图像输入至图像识别模型中，在预定裁剪范围内，对图像进行裁剪。其中，上述预定裁剪范围可以是基于公式transforms.CenterCrop(size＝{min＝size1，max＝size2})公式所设置的，(size1，size2)表示图像的裁剪范围，并以设置好的裁剪定值，对图像进行裁剪。

示例性地，针对方式3)和方式4)，将图像输入至图像识别模型中，对图像的亮度和对比度进行调整。其中，可以采用公式g(x)＝αf(x)+β，对图像的亮度和对比度进行调整，参数α和β分别为增益和偏差参数。α用来控制对比度，β用来控制亮度，数值越大，表示对比度和亮度越高。当β＝a时，基于公式transform.ColorJitter(brightness＝{min＝1-a，max＝1+a})设置图像的亮度范围为(1-a，1+a)。其中，a为预定值，并以亮度定值为基准，例如，亮度因子增加0.1，调整对图像进行亮度调整。当α＝b时，基于公式transform.ColorJitter(contrast＝{min＝1-b，max＝1+b})设置图像的对比度范围为(1-b，1+b)。其中，b为预定值，并以对比度定值为基准，例如，对比度因子增加0.1。

示例性地，针对方式5)，将图像输入至图像识别模型中，对图像进行滤波处理。其中，可以采用公式bilateralFilter(src，n，sigmaColor，sigmaSpace，borderType)，对图像进行滤波处理，sigmaColor，sigmaSpace为双边滤波器的标准差，其值为sigmaColor＝{min＝10，max＝100}，并预定值进行增加。

示例性地，对图像进行对抗处理，即采用对抗样本生成算法对图像进行处理。例如，CW、FGSM、BIM。

步骤202、输出第一测试样本集中M个测试样本对应的M个第一图像分类结果。

在本申请实施例中，上述每个测试样本对应一个第一图像分类结果。

示例性地，针对M个测试样本中的一个测试样本，输入到图像识别模型中的该测试样本进行分类划分，得到该测试样本对应的第一图像分类结果，并输出图像识别模型。

在本申请实施例中，上述第一图像分类结果可以是概率值，例如属于某一分类的概率为90％。也可以是结果值，例如属于某一分类的结果为0或1。

步骤203、在M个第一图像分类结果中满足第一条件的第一图像分类结果的数量小于N的情况下，调整第一目标样本对应的图像处理参数，以得到第二训练样本集。

在本申请实施例中，上述M和N均为大于1的整数。

在本申请实施例中，上述第一条件包括：第一图像分类结果对应的分类置信度大于预定阈值。

在本申请实施例中，上述分类置信度用于表征所述第一图像分类结果对应的分类。

示例性地，上述预定阈值可以是系统自定义的或者用户设置的。

在本申请实施例中，上述图像识别模型中会分别设置多个样本种类对应的分类置信度。其中，某个分类置信度用于表征某个样本种类属于该种类的概率。

举例说明，以第一目标样本中包含敏感信息为暴力信息为例，设置包含暴力信息的暴力样本的分类置信度为0.5，若某个样本置信度为大于0.5则判定该样本为暴力样本，若小于0.5则判定该样本为其他样本。

示例性地，上述第一图像分类结果的数量小于N中N的值可以是系统自定义的或者用户设置的。

举例说明，以M为40、N为20为例，若40个图像(即上述第一目标样本)的第一图像分类结果中有10个第一图像分类结果对应的分类置信度大于预定阈值，则调整这40个图像对应的图像处理参数，以得到新的训练样本集(即上述第二训练样本集)。

在本申请实施例中，上述图像处理参数可以是图像的旋转角度、图像的亮度和对比度、图像的裁剪尺寸或者图像滤波。

可选地，在本申请实施例中，在上述步骤203“调整第一目标样本对应的图像处理参数，以得到第二训练样本集”的过程中，包括以下步骤203a和步骤203b：

步骤203a、按照目标调整量，调整至少一个经图像处理后的第一目标样本对应的图像处理参数，并按照调整后的图像处理参数对上述至少一个经图像处理后的第一目标样本对应的原始样本进行图像处理，得到至少一个第三目标样本。

示例性地，上述目标调整量可以是电子设备自定义的或者用户设置的。

示例性地，上述目标调整量可以是随机的，也可以是固定的。

一种示例中，电子设备可以按照多个目标调整量，分别对第一目标样本对应的每个图像处理参数进行调整。

步骤203b、将训练样本集中的至少一个经图像处理后的第一目标样本替换为至少一个第三目标样本，以得到第二训练样本集。

示例性地，上述第二训练样本集包含至少一个第三目标样本。

如此，可以通过调整图像处理参数，更新训练样本集，并基于更新后的训练样本集训练图像识别模型，以提高图像识别模型的防御能力。

步骤204、基于第二训练样本集训练图像识别模型，得到目标图像识别模型。

示例性地，将第二训练样本集输入图像识别模型，对图像识别模型进行训练调整。

在一种可能的实施例中，将第一测试样本集输入到目标图像识别模型中，得到M个第二图像分类结果，经统计这M个第二图像分类结果中满足第一条件的第二图像分类结果的数量仍小于N，则说明目标图像识别模型还未成熟。因此，电子设备则继续调整至少一个经图像处理后的第一目标样本对应的图像处理参数，直至更新出的训练样本集所训练出的图像识别模型识别出的测试样本对应的图像分类结果满足第一条件的数量大于N，最终将该图像识别模型作为目标图像识别模型。

示例性地，将第i次更新后的训练样本集(即上述第二训练样本集)输入第i次训练后的图像识别模型中，对图像识别模型再次进行训练，得到第i+1次训练后的图像识别模型。再将测试样本集输入第i+1次训练后的图像识别模型中，得到第i+1图像分类结果。若此次图像分类结果满足上述第一条件的数量大于N，则训练结束，得到最终训练好的目标图像识别模型；若此次图像分类结果满足上述第一条件数量仍小于N，则继续更新图像识别模型，直至得到的每个测试样本的图像分类结果满足上述第一条件数量仍小于N。

如此，通过不断更新训练样本集，来训练图像识别模型，从而使得图像识别模型所输出的图像分类结果的准确率满足用户需求。

在本申请实施例提供的图像识别模型的训练方法中，将第一测试样本集输入图像识别模型，其中，图像识别模型是基于第一训练样本集训练得到的，第一训练样本集中包含至少与一个经图像处理后的第一目标样本，图像处理包括以下至少之一：数据增强处理，对抗处理；输出第一测试样本集中M个测试样本对应的M个第一图像分类结果，其中，每个测试样本对应一个第一图像分类结果；在M个第一图像分类结果中满足第一条件的第一图像分类结果的数量小于N的情况下，调整第一目标样本对应的图像处理参数，以得到第二训练样本集；基于第二训练样本集训练图像识别模型，得到目标图像识别模型；其中，第一条件包括：第一图像分类结果对应的分类置信度大于预定阈值，M和N均为大于1的整数；分类置信度用于表征第一图像分类结果对应的分类。如此，通过使用经不同方式图像处理后的样本对图像识别模型进行训练，从而提高训练后的图像识别模型的防御能力，并通过更新图像处理参数，使用更新后的训练样本集再次训练图像识别模型，进而提高图像识别模型的图像分类结果的准确度。

可选地，在本申请实施例中，在上述步骤204“基于第二训练样本集训练图像识别模型，得到目标图像识别模型”之后，本申请实施例提供的图像识别模型的训练方法还包括以下步骤301和步骤302：

步骤301、将第一测试样本集输入目标图像识别模型，输出M个测试样本对应的M个第二图像分类结果。

示例性地，上述每个测试样本对应一个第二图像分类结果。

示例性地，上述第一测试样本集与输入图像识别模型的测试样本集为同一测试样本集。即，测试样本集中的样本内容保持不变。

步骤302、在M个第二图像分类结果中满足第一条件的第二图像分类结果的数量大于N的情况下，将待识别图像输入目标图像识别模型，输出待识别图像对应的图像分类结果。

示例性地，将第一测试样本集输入到目标图像识别模型中，得到M个第二图像分类结果，经统计这M个第二图像分类结果中满足第一条件的第二图像分类结果的数量大于N，则说明目标图像识别模型已经成熟。可以直接将待识别图像输入目标识别模型，最终得到待识别图像对应的图像分类结果。

如此，可以通过不断更新图像识别模型，以得到最终识别图像准确度较高的目标图像识别模型，从而可以准确识别出用户想要识别的图像。

可选地，在本申请实施例中，在上述步骤201“将第一测试样本集输入图像识别模型”之前，本申请提供的图像识别模型的训练方法还包括步骤401至步骤404：

步骤401、获取原始样本集。

示例性地，上述原始样本集中包括原始敏感样本集和原始正常样本集。

示例性地，上述原始敏感样本集包含至少一个敏感样本，上述原始正常样本集包含至少一个正常样本。

示例性地，上述原始样本集可以是电子设备自动获取的或者用户选择的。

示例性地，敏感样本为包含敏感信息的图像；正常样本为不包含敏感信息的图像。

步骤402、将原始样本集划分为第三训练样本集和第三测试样本集。

示例性地，上述第三训练样本集包含第一敏感样本集和第一正常样本集；第三测试样本集包含第二敏感样本集和第二正常样本集。

一种示例中，按照特定比例将原始样本集划分为第三训练样本集和第三测试样本集。例如，按照8：2的比例划分原始样本集。

需要说明的是，第三训练样本集和第三测试样本集中的敏感样本的数量与正常样本的数量的比例尽量一致。

步骤403、将第一敏感样本集中的敏感样本进行图像处理，得到第三敏感样本集，并将第二敏感样本集中的敏感样本进行图像处理，得到第四敏感样本集。

示例性地，将第一敏感样本集中的敏感样本进行图像处理，包括以下至少一个步骤：

对第一敏感样本集中的部分敏感样本集进行对抗处理；

对第一敏感样本集中的部分敏感样本集进行数据增强处理；

对第一敏感样本集中的部分敏感样本集先进行对抗处理后，再进行数据增强处理；

对第一敏感样本集中的部分敏感样本集先进行数据增强处理后，再进行对抗处理。

进一步示例性地，将第一敏感集样本经上述步骤，进行图像处理后，得到的第三敏感样本集。

具体地，上述第三敏感样本集中的样本包括以下至少一项：

经过对抗处理得到的对抗样本；

经过数据增强处理得到的数据增强样本；

先经过对抗处理后，再进行数据增强处理得到的对抗数据增强样本；

先经过数据增强处理后，再进行对抗处理得到的数据增强对抗样本。

示例性地，将第二敏感样本集中的敏感样本进行图像处理，包括以下至少一个步骤：

对第二敏感样本集中的部分敏感样本集进行对抗处理；

对第二敏感样本集中的部分敏感样本集进行数据增强处理；

对第二敏感样本集中的部分敏感样本集先进行对抗处理后，再进行数据增强处理；

对第二敏感样本集中的部分敏感样本集先进行数据增强处理后，再进行对抗处理。

进一步示例性地，将第一敏感集样本经上述步骤，进行图像处理后，得到的第四敏感样本集。

具体地，上述第四敏感样本集中的样本包括以下至少一项：

经过对抗处理得到的对抗样本；

经过数据增强处理得到的数据增强样本；

步骤404、基于第一敏感样本集、第一正常样本集和第三敏感样本集，构建第一训练样本集，并基于第二敏感样本集、第二正常样本集和第四敏感样本集，构建第一测试样本集。

示例性地，首先，电子设备获取大量的原始样本后，将原始样本中所有的原始敏感样本和原始正常样本集，划分为第三训练样本集和第三测量样本集。接着，分别对第三训练样本集中的第一敏感样本集和第三测试样本集中的第二敏感样本集中的敏感样本进行图像处理，得到第三敏感样本集和第四敏感样本集。

需要说明的是，电子设备获取原始样本集后，可以先对所有原始样本进行图像处理后，再划分训练样本集和测试样本集。也可以先划分训练样本集和测试样本集后，再对分别对两个样本集中的样本进行图像处理，本申请实施例不作限制。

如此，可以通过增加训练样本种类，从而提高图像识别模型的防御能力。

以下对本申请提供的图像识别模型的训练方法进行示例性说明。具体地，如图2所示，该方法可以包括以下步骤1至步骤8

步骤1：首先收集高质量的正常样本与敏感样本组成原始样本集，将原始数据集按照特定的比例分为训练样本集和测试样本集。

需要说明的是，收集的样本数量一般在万数量级，通常按照分配比例8：2来划分训练样本集和测试样本集。

步骤2：训练集的制作过程如下：

1)、将敏感样本集分为四等分A1，A2，A3，A4。

2)、对敏感样本集A1进行对抗处理，利用包括且不限于的CW、FGSM、BIM业内主流对抗样本生成算法生成对抗样本集A。

3)、将敏感样本集A2划为5等分，分别对这5份样本进行数据增强处理生成数据增强集A。其数据增强处理方式包括：将图像进行旋转；将图像进行裁剪；调整图像亮度；调整图像对比度；对图像进行滤波处理。

4)、对敏感样本集A3进行先对抗处理，后进行数据增强处理，对抗算法和数据增强处理方式和上述一致，生成“对抗-数据增强”样本集。

5)、对敏感样本集A4进行先数据增强处理，后进行对抗处理，对抗算法和数据增强处理方式和上述一致，生成“数据增强-对抗”样本集。

步骤3：测试样本集的制作：与步骤2一致

步骤4：设置图像识别模型对于正常样本、敏感样本的分类置信度分为M和N，即图像识别模型对样本进行分类时，都会有置信度，表示该样本是正样本的概率，如：暴力样本的阈值N＝0.5，以此阈值对样本进行划分，置信度大于0.5的判定为暴力样本，小于0.5的判定为正常样本。

步骤5：将训练样本集输入至图像识别模型中进行训练得到训练后的图像识别模型，将测试样本集输入至训练后的图像识别模型进行测试，记录测试集中的分类结果以及样本的置信度。

步骤6：根据分类结果查看测试样本集中各类样本的分类正确率以及误判率。其中分类正确：如一张暴力样本经过对抗数据增强处理后生成的样本，模型对该样本的置信度为0.6，则表示该样本被模型判定为暴力样本，分类正确；反之，若样本置信度为0.4，则表示该样本被模型判定为非暴力样本，分类错误，表示该样本可以绕过图像内容审核平台。

步骤7：若存在图片误判的情况，如：正常样本的分类置信度为0.6，一张正常样本在训练前的图像识别模型下置信度为0.8，分类正确；在训练后的图像识别模型中的置信度为0.5，分类错误，表示此样本在防御阶段造成误判现象。

若出现上述误判现象，则在数据增强处理阶段调整5种数据增强处理方式的强度，按照原先数据增强方式对各部分参数进行矫正，如：旋转角度为：0+5*i，i为迭代次数，生成新的训练样本集。

步骤8：将新的训练样本集输入至训练后的图像识别模型进行训练，得出新的训练后的图像识别模型后，将测试样本集输入至新的训练后的图像识别模型进行分类，若恶意样本、正常样本的置信度均大于对应的阈值，则表明此模型可抵御对恶意样本的攻击，又不影响对正常样本的分类结果，模型的防御能0力以及分类精度得到有效提高；反之，迭代步骤2-步骤7。

如此，提高了图像内容审核平台具备对于单一数据增强样本、单一对抗样本、对抗-数据增强样本、数据增强-对抗样本攻击的检测能力。增强了审核平台对于不同种类恶意样本的防御能力。还通过数据增强临界值，来提高图像识别模型的泛化能力，提高图像识别模型的精度，降低图像识别模型的误报率。

需要说明的是，本申请实施例提供的图像识别模型的训练方法，执行主体可以为图像识别模型的训练装置，或者电子设备，还可以为电子设备中的功能模块或实体。本申请实施例中以图像识别模型的训练装置执行图像识别模型的训练方法为例，说明本申请实施例提供的图像识别模型的训练装置。

图3示出了本申请实施例中涉及的图像识别模型的训练装置的一种可能的结构示意图。如图3所示，该图像识别模型的训练装置700可以包括：处理模块701。

其中，上述处理模块701，用于将第一测试样本集输入图像识别模型，其中，图像识别模型是基于第一训练样本集训练得到的，第一训练样本集中包含至少与一个经图像处理后的第一目标样本，图像处理包括以下至少之一：数据增强处理，对抗处理；上述处理模块701，还用于输出第一测试样本集中M个测试样本对应的M个第一图像分类结果，其中，每个测试样本对应一个第一图像分类结果；上述处理模块701，还用于在M个第一图像分类结果中满足第一条件的第一图像分类结果的数量小于N的情况下，调整第一目标样本对应的图像处理参数，以得到第二训练样本集；上述处理模块701，还用于基于第二训练样本集训练图像识别模型，得到目标图像识别模型；其中，第一条件包括：第一图像分类结果对应的分类置信度大于预定阈值，M和N均为大于1的整数；分类置信度用于表征第一图像分类结果对应的分类。

可选地，在本申请实施例中，上述处理模块701，还用于将第一测试样本集输入目标图像识别模型，输出M个测试样本对应的M个第二图像分类结果，其中，每个测试样本对应一个第二图像分类结果；上述处理模块701，还用于在M个第二图像分类结果中满足第一条件的第二图像分类结果的数量大于N的情况下，将待识别图像输入目标图像识别模型，输出待识别图像对应的图像分类结果。

可选地，在本申请实施例中，结合图3，如图4所示，上述装置700还包括：获取模块702；上述获取模块702，用于获取原始样本集，其中，原始样本集中包括原始敏感样本集和原始正常样本集，原始敏感样本集包含至少一个敏感样本，原始正常样本集包含至少一个正常样本；上述处理模块701，还用于将原始样本集划分为第三训练样本集和第三测试样本集，其中，第三训练样本集包含第一敏感样本集和第一正常样本集，第三测试样本集包含第二敏感样本集和第二正常样本集；上述处理模块701，还用于将第一敏感样本集中的敏感样本进行图像处理，得到第三敏感样本集，并将第二敏感样本集中的敏感样本进行图像处理，得到第四敏感样本集；上述处理模块701，还用于基于第一敏感样本集、第一正常样本集和第三敏感样本集，构建第一训练样本集，并基于第二敏感样本集、第二正常样本集和第四敏感样本集，构建第一测试样本集。

可选地，在本申请实施例中，上述第三敏感样本集和上述第四敏感样本集中的样本包括以下至少一项：

经过对抗处理得到的对抗样本；

经过数据增强处理得到的数据增强样本；

可选地，在本申请实施例中，上述处理模块701，具体用于：按照目标调整量，调整至少一个经图像处理后的第一目标样本对应的图像处理参数，并按照调整后的图像处理参数对至少一个经图像处理后的第一目标样本对应的原始样本进行图像处理，得到至少一个第三目标样本；将第一训练样本集中的至少一个经图像处理后的第一目标样本替换为至少一个第三目标样本，以得到第二训练样本集。

在本申请实施例提供的图像识别模型的训练装置中，该装置将第一测试样本集输入图像识别模型，其中，图像识别模型是基于第一训练样本集训练得到的，第一训练样本集中包含至少与一个经图像处理后的第一目标样本，图像处理包括以下至少之一：数据增强处理，对抗处理；输出第一测试样本集中M个测试样本对应的M个第一图像分类结果，其中，每个测试样本对应一个第一图像分类结果；在M个第一图像分类结果中满足第一条件的第一图像分类结果的数量小于N的情况下，调整第一目标样本对应的图像处理参数，以得到第二训练样本集；基于第二训练样本集训练图像识别模型，得到目标图像识别模型；其中，第一条件包括：第一图像分类结果对应的分类置信度大于预定阈值，M和N均为大于1的整数；分类置信度用于表征第一图像分类结果对应的分类。如此，通过使用经不同方式图像处理后的样本对图像识别模型进行训练，从而提高训练后的图像识别模型的防御能力，并通过更新图像处理参数，使用更新后的训练样本集再次训练图像识别模型，进而提高图像识别模型的图像分类结果的准确度。

本申请实施例中的图像识别模型的训练装置可以是电子设备，也可以是电子设备中的部件，例如集成电路或芯片。该电子设备可以是终端，也可以为除终端之外的其他设备。示例性的，电子设备可以为手机、平板电脑、笔记本电脑、掌上电脑、车载电子设备、移动上网装置(Mobile Internet Device，MID)、增强现实(augmented reality，AR)/虚拟现实(virtual reality，VR)设备、机器人、可穿戴设备、超级移动个人计算机(ultra-mobilepersonal computer，UMPC)、上网本或者个人数字助理(personal digital assistant，PDA)等，还可以为服务器、网络附属存储器(Network Attached Storage，NAS)、个人计算机(personal computer，PC)、电视机(television，TV)、柜员机或者自助机等，本申请实施例不作具体限定。

本申请实施例中的图像识别模型的训练装置可以为具有操作系统的装置。该操作系统可以为安卓(Android)操作系统，可以为ios操作系统，还可以为其他可能的操作系统，本申请实施例不作具体限定。

本申请实施例提供的图像识别模型的训练装置能够实现图1和图2的方法实施例实现的各个过程，为避免重复，这里不再赘述。

可选地，如图5所示，本申请实施例还提供一种电子设备800，包括处理器801和存储器802，存储器802上存储有可在所述处理器801上运行的程序或指令，该程序或指令被处理器801执行时实现上述图像识别模型的训练方法实施例的各个步骤，且能达到相同的技术效果，为避免重复，这里不再赘述。

需要说明的是，本申请实施例中的电子设备包括上述所述的移动电子设备和非移动电子设备。

图6为实现本申请实施例的一种电子设备的硬件结构示意图。

该电子设备100包括但不限于：射频单元101、网络模块102、音频输出单元103、输入单元104、传感器105、显示单元106、用户输入单元107、接口单元108、存储器109、以及处理器110等部件。

本领域技术人员可以理解，电子设备100还可以包括给各个部件供电的电源(比如电池)，电源可以通过电源管理系统与处理器110逻辑相连，从而通过电源管理系统实现管理充电、放电、以及功耗管理等功能。图6中示出的电子设备结构并不构成对电子设备的限定，电子设备可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件布置，在此不再赘述。

其中，上述处理器110，用于将第一测试样本集输入图像识别模型，其中，图像识别模型是基于第一训练样本集训练得到的，第一训练样本集中包含至少与一个经图像处理后的第一目标样本，图像处理包括以下至少之一：数据增强处理，对抗处理；上述处理器110，还用于输出第一测试样本集中M个测试样本对应的M个第一图像分类结果，其中，每个测试样本对应一个第一图像分类结果；上述处理器110，还用于在M个第一图像分类结果中满足第一条件的第一图像分类结果的数量小于N的情况下，调整第一目标样本对应的图像处理参数，以得到第二训练样本集；上述处理器110，还用于基于第二训练样本集训练图像识别模型，得到目标图像识别模型；其中，第一条件包括：第一图像分类结果对应的分类置信度大于预定阈值，M和N均为大于1的整数；分类置信度用于表征第一图像分类结果对应的分类。

可选地，在本申请实施例中，上述处理器110，还用于将第一测试样本集输入目标图像识别模型，输出M个测试样本对应的M个第二图像分类结果，其中，每个测试样本对应一个第二图像分类结果；上述处理器110，还用于在M个第二图像分类结果中满足第一条件的第二图像分类结果的数量大于N的情况下，将待识别图像输入目标图像识别模型，输出待识别图像对应的图像分类结果。

可选地，在本申请实施例中，上述处理器110，用于获取原始样本集，其中，原始样本集中包括原始敏感样本集和原始正常样本集，原始敏感样本集包含至少一个敏感样本，原始正常样本集包含至少一个正常样本；上述处理器110，还用于将原始样本集划分为第三训练样本集和第三测试样本集，其中，第三训练样本集包含第一敏感样本集和第一正常样本集，第三测试样本集包含第二敏感样本集和第二正常样本集；上述处理器110，还用于将第一敏感样本集中的敏感样本进行图像处理，得到第三敏感样本集，并将第二敏感样本集中的敏感样本进行图像处理，得到第四敏感样本集；上述处理器110，还用于基于第一敏感样本集、第一正常样本集和第三敏感样本集，构建第一训练样本集，并基于第二敏感样本集、第二正常样本集和第四敏感样本集，构建第一测试样本集。

经过对抗处理得到的对抗样本；

经过数据增强处理得到的数据增强样本；

可选地，在本申请实施例中，上述处理器110，具体用于：按照目标调整量，调整至少一个经图像处理后的第一目标样本对应的图像处理参数，并按照调整后的图像处理参数对至少一个经图像处理后的第一目标样本对应的原始样本进行图像处理，得到至少一个第三目标样本；将第一训练样本集中的至少一个经图像处理后的第一目标样本替换为至少一个第三目标样本，以得到第二训练样本集。

在本申请实施例提供的电子设备中，该电子设备将第一测试样本集输入图像识别模型，其中，图像识别模型是基于第一训练样本集训练得到的，第一训练样本集中包含至少与一个经图像处理后的第一目标样本，图像处理包括以下至少之一：数据增强处理，对抗处理；输出第一测试样本集中M个测试样本对应的M个第一图像分类结果，其中，每个测试样本对应一个第一图像分类结果；在M个第一图像分类结果中满足第一条件的第一图像分类结果的数量小于N的情况下，调整第一目标样本对应的图像处理参数，以得到第二训练样本集；基于第二训练样本集训练图像识别模型，得到目标图像识别模型；其中，第一条件包括：第一图像分类结果对应的分类置信度大于预定阈值，M和N均为大于1的整数；分类置信度用于表征第一图像分类结果对应的分类。如此，通过使用经不同方式图像处理后的样本对图像识别模型进行训练，从而提高训练后的图像识别模型的防御能力，并通过更新图像处理参数，使用更新后的训练样本集再次训练图像识别模型，进而提高图像识别模型的图像分类结果的准确度。

应理解的是，本申请实施例中，输入单元104可以包括图形处理器(GraphicsProcessing Unit，GPU)1041和麦克风1042，图形处理器1041对在视频捕获模式或图像捕获模式中由图像捕获装置(如摄像头)获得的静态图片或视频的图像数据进行处理。显示单元106可包括显示面板1061，可以采用液晶显示器、有机发光二极管等形式来配置显示面板1061。用户输入单元107包括触控面板1071以及其他输入设备1072中的至少一种。触控面板1071，也称为触摸屏。触控面板1071可包括触摸检测装置和触摸控制器两个部分。其他输入设备1072可以包括但不限于物理键盘、功能键(比如音量控制按键、开关按键等)、轨迹球、鼠标、操作杆，在此不再赘述。

存储器109可用于存储软件程序以及各种数据。存储器109可主要包括存储程序或指令的第一存储区和存储数据的第二存储区，其中，第一存储区可存储操作系统、至少一个功能所需的应用程序或指令(比如声音播放功能、图像播放功能等)等。此外，存储器109可以包括易失性存储器或非易失性存储器，或者，存储器109可以包括易失性和非易失性存储器两者。其中，非易失性存储器可以是只读存储器(Read-Only Memory，ROM)、可编程只读存储器(Programmable ROM，PROM)、可擦除可编程只读存储器(Erasable PROM，EPROM)、电可擦除可编程只读存储器(Electrically EPROM，EEPROM)或闪存。易失性存储器可以是随机存取存储器(Random Access Memory，RAM)，静态随机存取存储器(Static RAM，SRAM)、动态随机存取存储器(Dynamic RAM，DRAM)、同步动态随机存取存储器(Synchronous DRAM，SDRAM)、双倍数据速率同步动态随机存取存储器(Double Data Rate SDRAM，DDRSDRAM)、增强型同步动态随机存取存储器(Enhanced SDRAM，ESDRAM)、同步连接动态随机存取存储器(Synch link DRAM，SLDRAM)和直接内存总线随机存取存储器(Direct Rambus RAM，DRRAM)。本申请实施例中的存储器109包括但不限于这些和任意其它适合类型的存储器。

处理器110可包括一个或多个处理单元；可选的，处理器110集成应用处理器和调制解调处理器，其中，应用处理器主要处理涉及操作系统、用户界面和应用程序等的操作，调制解调处理器主要处理无线通信信号，如基带处理器。可以理解的是，上述调制解调处理器也可以不集成到处理器110中。

本申请实施例还提供一种可读存储介质，所述可读存储介质上存储有程序或指令，该程序或指令被处理器执行时实现上述图像识别模型的训练方法实施例的各个过程，且能达到相同的技术效果，为避免重复，这里不再赘述。

其中，所述处理器为上述实施例中所述的电子设备中的处理器。所述可读存储介质，包括计算机可读存储介质，如计算机只读存储器ROM、随机存取存储器RAM、磁碟或者光盘等。

本申请实施例另提供了一种芯片，所述芯片包括处理器和通信接口，所述通信接口和所述处理器耦合，所述处理器用于运行程序或指令，实现上述图像识别模型的训练方法实施例的各个过程，且能达到相同的技术效果，为避免重复，这里不再赘述。

应理解，本申请实施例提到的芯片还可以称为系统级芯片、系统芯片、芯片系统或片上系统芯片等。

本申请实施例提供一种计算机程序产品，该程序产品被存储在存储介质中，该程序产品被至少一个处理器执行以实现如上述图像识别模型的训练方法实施例的各个过程，且能达到相同的技术效果，为避免重复，这里不再赘述。

需要说明的是，在本文中，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者装置不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者装置所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括该要素的过程、方法、物品或者装置中还存在另外的相同要素。此外，需要指出的是，本申请实施方式中的方法和装置的范围不限按示出或讨论的顺序来执行功能，还可包括根据所涉及的功能按基本同时的方式或按相反的顺序来执行功能，例如，可以按不同于所描述的次序来执行所描述的方法，并且还可以添加、省去、或组合各种步骤。另外，参照某些示例所描述的特征可在其他示例中被组合。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件，但很多情况下前者是更佳的实施方式。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分可以以计算机软件产品的形式体现出来，该计算机软件产品存储在一个存储介质(如ROM/RAM、磁碟、光盘)中，包括若干指令用以使得一台终端(可以是手机，计算机，服务器，或者网络设备等)执行本申请各个实施例所述的方法。

上面结合附图对本申请的实施例进行了描述，但是本申请并不局限于上述的具体实施方式，上述的具体实施方式仅仅是示意性的，而不是限制性的，本领域的普通技术人员在本申请的启示下，在不脱离本申请宗旨和权利要求所保护的范围情况下，还可做出很多形式，均属于本申请的保护之内。

Claims

1.一种图像识别模型的训练方法，其特征在于，所述方法包括：

将第一测试样本集输入图像识别模型，其中，所述图像识别模型是基于第一训练样本集训练得到的，所述第一训练样本集中包含至少与一个经图像处理后的第一目标样本，所述图像处理包括以下至少之一：数据增强处理，对抗处理；

输出所述第一测试样本集中M个测试样本对应的M个第一图像分类结果，其中，每个测试样本对应一个第一图像分类结果；

在所述M个第一图像分类结果中满足第一条件的第一图像分类结果的数量小于N的情况下，调整所述第一目标样本对应的图像处理参数，以得到第二训练样本集；

基于所述第二训练样本集训练所述图像识别模型，得到目标图像识别模型；

其中，所述第一条件包括：所述第一图像分类结果对应的分类置信度大于预定阈值，所述M和N均为大于1的整数；所述分类置信度用于表征所述第一图像分类结果对应的分类。

2.根据权利要求1所述的方法，其特征在于，所述基于所述第二训练样本集训练所述图像识别模型，得到目标图像识别模型之后，所述方法还包括：

将所述第一测试样本集输入所述目标图像识别模型，输出所述M个测试样本对应的M个第二图像分类结果，其中，每个测试样本对应一个第二图像分类结果；

在所述M个第二图像分类结果中满足所述第一条件的第二图像分类结果的数量大于N的情况下，将待识别图像输入所述目标图像识别模型，输出所述待识别图像对应的图像分类结果。

3.根据权利要求1所述的方法，其特征在于，所述将第一测试样本集输入图像识别模型之前，所述方法还包括：

获取原始样本集，其中，所述原始样本集中包括原始敏感样本集和原始正常样本集，所述原始敏感样本集包含至少一个敏感样本，所述原始正常样本集包含至少一个正常样本；

将所述原始样本集划分为第三训练样本集和第三测试样本集，其中，所述第三训练样本集包含第一敏感样本集和第一正常样本集，所述第三测试样本集包含第二敏感样本集和第二正常样本集；

将所述第一敏感样本集中的敏感样本进行图像处理，得到第三敏感样本集，并将所述第二敏感样本集中的敏感样本进行图像处理，得到第四敏感样本集；

基于所述第一敏感样本集、所述第一正常样本集和所述第三敏感样本集，构建所述第一训练样本集，并基于所述第二敏感样本集、所述第二正常样本集和所述第四敏感样本集，构建所述第一测试样本集。

4.根据权利要求3所述的方法，其特征在于，所述第三敏感样本集和所述第四敏感样本集中的样本包括以下至少一项：

经过所述对抗处理得到的对抗样本；

经过所述数据增强处理得到的数据增强样本；

5.根据权利要求1所述的方法，其特征在于，所述调整所述至少一个经图像处理后的第一目标样本对应的图像处理参数，得到第二训练样本集，包括：

按照目标调整量，调整所述至少一个经图像处理后的第一目标样本对应的图像处理参数，并按照调整后的图像处理参数对所述至少一个经图像处理后的第一目标样本对应的原始样本进行图像处理，得到至少一个第三目标样本；

将所述第一训练样本集中的所述至少一个经图像处理后的第一目标样本替换为所述至少一个第三目标样本，以得到所述第二训练样本集。

6.一种图像识别模型的训练装置，其特征在于，所述图像识别模型的训练装置包括：处理模块；

所述处理模块，用于将第一测试样本集输入图像识别模型，其中，所述图像识别模型是基于第一训练样本集训练得到的，所述第一训练样本集中包含至少与一个经图像处理后的第一目标样本，所述图像处理包括以下至少之一：数据增强处理，对抗处理；

所述处理模块，还用于输出所述第一测试样本集中M个测试样本对应的M个第一图像分类结果，其中，每个测试样本对应一个第一图像分类结果；

所述处理模块，还用于在所述M个第一图像分类结果中满足第一条件的第一图像分类结果的数量小于N的情况下，调整所述第一目标样本对应的图像处理参数，以得到第二训练样本集；

所述处理模块，还用于基于所述第二训练样本集训练所述图像识别模型，得到目标图像识别模型；

7.根据权利要求6所述的装置，其特征在于，

所述处理模块，还用于将所述第一测试样本集输入所述目标图像识别模型，输出所述M个测试样本对应的M个第二图像分类结果，其中，每个测试样本对应一个第二图像分类结果；

所述处理模块，还用于在所述M个第二图像分类结果中满足所述第一条件的第二图像分类结果的数量大于N的情况下，将待识别图像输入所述目标图像识别模型，输出所述待识别图像对应的图像分类结果。

8.根据权利要求6所述的装置，其特征在于，所述装置还包括：获取模块；

所述获取模块，用于获取原始样本集，其中，所述原始样本集中包括原始敏感样本集和原始正常样本集，所述原始敏感样本集包含至少一个敏感样本，所述原始正常样本集包含至少一个正常样本；

所述处理模块，还用于将所述原始样本集划分为第三训练样本集和第三测试样本集，其中，所述第三训练样本集包含第一敏感样本集和第一正常样本集，所述第三测试样本集包含第二敏感样本集和第二正常样本集；

所述处理模块，还用于将所述第一敏感样本集中的敏感样本进行图像处理，得到第三敏感样本集，并将所述第二敏感样本集中的敏感样本进行图像处理，得到第四敏感样本集；

所述处理模块，还用于基于所述第一敏感样本集、所述第一正常样本集和所述第三敏感样本集，构建所述第一训练样本集，并基于所述第二敏感样本集、所述第二正常样本集和所述第四敏感样本集，构建所述第一测试样本集。

9.根据权利要求8所述的装置，其特征在于，所述第三敏感样本集和所述第四敏感样本集中的样本包括以下至少一项：

经过所述对抗处理得到的对抗样本；

经过所述数据增强处理得到的数据增强样本；

10.根据权利要求6所述的装置，其特征在于，

所述处理模块，具体用于：

11.一种电子设备，其特征在于，包括处理器，存储器及存储在所述存储器上并可在所述处理器上运行的程序或指令，所述程序或指令被所述处理器执行时实现如权利要求1至5中任一项所述的图像识别模型的训练方法的步骤。

12.一种可读存储介质，其特征在于，所述可读存储介质上存储程序或指令，所述程序或指令被处理器执行时实现如权利要求1至5中任一项所述的图像识别模型的训练方法的步骤。