CN113688915B

CN113688915B - 一种面向内容安全的困难样本挖掘方法及装置

Info

Publication number: CN113688915B
Application number: CN202110999821.0A
Authority: CN
Inventors: 丁大强; 李蒙阳; 石海涛; 胡安裕
Original assignee: Beijing Jiu'an Tianxia Technology Co ltd
Current assignee: Beijing Jiu'an Tianxia Technology Co ltd
Priority date: 2021-08-24
Filing date: 2021-08-24
Publication date: 2023-07-25
Anticipated expiration: 2041-08-24
Also published as: CN113688915A

Abstract

一种面向内容安全的困难样本挖掘方法，包括以下步骤：(s1)准备训练样本，进行标注；(s2)利用标注后所述训练样本对困难样本挖掘模型进行训练；(s3)利用所述困难样本挖掘模型对待挖掘的数据进行处理，获得挖掘结果。本发明一种面向内容安全的困难样本挖掘方法及装置，在模型训练过程中，所采用的的损失函数包含难类别和难样本信息，训练后的模型针对难类别和难样本的识别效果相对于现有方法更好，同时还可以保证其他类别样本的识别准确率，非常适用于解决面向内容安全的困难样本的挖掘问题。

Description

一种面向内容安全的困难样本挖掘方法及装置

技术领域

本发明属于计算机应用技术领域，涉及一种信息识别处理方法，特别涉及一种面向内容安全的困难样本挖掘方法及装置。

背景技术

图片识别技术作为人工智能热潮下的宠儿，经历了由深度学习兴起前期人工设置特征到深度学习时代模型自主学习特征的过程，其广泛的应用场景、便捷的应用方式、优异的识别性能，在众多行业中得到了普遍应用。对图片识别模型进行训练时，为提高模型的性能，通常需要结合具体应用场景，对基于softmax的损失函数进行调整，通常的做法包括对输入的调整(即对logit的调整)和对loss整体的调整，从而获得最优的模型。

另一方面，随着网络的普及和开放，网络上出现了一些含有不良信息的图片。这些图片的制作者或者传播者为了避免图片在传播过程中被识别或被封堵，往往采用比较隐晦的方式表达这些信息，例如图片中的人物要素或其他要素的隐含特征/表达、变音/变形/替换后的文字、暗语/口号等方式。同时，这些图片的数量规模相对于互联网上全部图片数量的占比又很低。基础这两方面原因，现有的图片识别技术难以对这些非法图片(即面向内容安全的困难样本)从全部的互联网图片中挖掘(即识别或提取)出来。

发明内容

本发明的目的在于克服现有技术的缺陷，提供一种能够有效识别困难样本、识别准确率高的面向内容安全的困难样本挖掘方法和装置。

为实现上述目的，本发明采用了如下技术方案：

一种面向内容安全的困难样本挖掘方法，包括以下步骤：(s1)准备训练样本，进行标注； (s2)利用标注后所述训练样本对困难样本挖掘模型进行训练；(s3)利用所述困难样本挖掘模型对待挖掘的数据进行处理，获得挖掘结果。

进一步，步骤(s1)中所述标注内容包括所述训练样本的类别，所述类别包括至少一个 “正常”类别和至少一个“非正常”类别。

进一步，步骤(s2)中所述困难样本挖掘模型为ResNet-34、ResNet-50、ResNet-101、 Wide-ResNet-16-8模型中的一种。

进一步，步骤(s2)中所述困难样本挖掘模型的损失函数为：

其中，i和j是目标类，z_i和z_j为i类别和j类别的logit输出，是一个batch内目标类的分数的均值，经过softmax函数输出后得到/>P_i是当前样本目标类的分数，τ和γ为控制增强程度的参数。

为实现上述目的，本发明还采用了如下技术方案：

一种面向内容安全的困难样本挖掘装置，基于如上所述方法，包括：训练样本标注模块，用于对训练样本进行标注；模型训练模块，用于利用标注后所述训练样本对困难样本挖掘模型进行训练；以及，数据挖掘模块，用于利用所述困难样本挖掘模型对待挖掘的数据进行处理，获得挖掘结果。

进一步，所述训练样本标注模块对训练样本进行标注的内容包括所述训练样本的类别，所述类别包括至少一个“正常”类别和至少一个“非正常”类别。

进一步，所述模型训练模块采用的困难样本挖掘模型为ResNet-34、ResNet-50、ResNet-101、Wide-ResNet-16-8模型中的一种。

进一步，所述模型的损失函数为改进后的softmax交叉熵函数：

其中，i和j是目标类，z_i和z_j为i类别和j类别的logit输出，是一个batch内目标类的分数的均值，P_i是当前样本目标类的分数，τ和γ为控制增强程度的参数。

为实现上述目的，本发明还采用了如下技术方案：

一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现如上所述方法的步骤。

为实现上述目的，本发明还采用了如下技术方案：

一种非暂态计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现如上所述方法的步骤。

有益效果：本发明所提供的一种面向内容安全的困难样本挖掘方法及装置，在模型训练过程中，所采用的的损失函数包含难类别和难样本信息，训练后的模型针对难类别和难样本的识别效果相对于现有方法更好，同时还可以保证其他类别样本的识别准确率，非常适用于解决面向内容安全的困难样本的挖掘问题。

附图说明

图1是实施例1中一种面向内容安全的困难样本挖掘方法的整体流程示意图；

图2是实施例2中一种面向内容安全的困难样本挖掘装置的整体结构示意图；

图3是实施例3中一种电子设备的的整体结构示意图。

具体实施方式

以下结合附图1至3，进一步说明本发明一种面向内容安全的困难样本挖掘方法和装置的具体实施方式。本发明一种面向内容安全的困难样本挖掘方法和装置不限于以下实施例的描述。

实施例1：

本实施例给出一种面向内容安全的困难样本挖掘方法，如图1所示，包括以下步骤：

(s1)准备训练样本，进行标注。

具体的，所述训练样本为图片。为提高训练的效率，可对图片进行初步的预处理，例如调整格式、尺寸等。进行标注时，可采用人工标注方式，也可采用其他标注方式，或者采用现有的已标记数据。标注内容包括所述训练样本的类别，所述类别包括至少一个“正常”类别和至少一个“非正常”类别。例如，将类别划分为正常，以及涉政、违禁、涉黄、暴恐、广告，共6个类别。

由于深度学习训练非常容易造成过拟合，需要大量数据(训练样本)以及各类正则化方法。数据增强可以看做是一种正则化方法，通过数据增强可以提高模型的泛化能力及提升模型的鲁棒性。本实施例中，采用了以下一种或多种数据增强方法：

对图像进行随机裁剪到224*224大小；

对图像以0.5的概率随机加入高斯噪声；

对图像以0.5的概率进行随机旋转；

对图像以0.5的概率进行色彩增强；

对图像进行随机Cutout。

其中，Cutout的具体方法是利用固定大小的矩形对图像进行随机遮挡，在矩形范围内，所有的值都被设置为0，擦除矩形区域存在一定概率不完全在原图像中(例如设置为50％)。Cutout能够让CNN利用整幅图像的全局信息，而不是一些小特征组成的局部信息。

本实施例具体实施时，选定并标注涉政和违禁类别10000张图片，涉黄、广告、暴恐20000 张图片、正常类图片40000张；取其中60000张图片作为训练集，剩余10000张图片作为测试集。

(s2)利用标注后所述训练样本对困难样本挖掘模型进行训练。

训练过程中，采用的损失函数为改进后的softmax交叉熵函数：

更优的，还可以采用引入半监督方法来平滑模型。具体的，将带标签的图像输入模型提取到一组特征，计算改进后的softmax交叉熵损失，得到L_softmax。将无标签图像分别进行数据增强与不进行数据增强输入模型提取到两组特征，使用这两组特征计算KL散度，得到D_KL，最后相加得到总的损失函数:

L＝L_softmax+λD_KL

其中，散度公式为：

其中，p(x_i)为无标签图像不进行数据增强得到的每个类别的softmax输出，q(x_i)为数据增强后得到的每个类别的softmax输出，λ为正项系数，控制散度作用程度。

本实施例具体实施时，可以选取ResNet-34、ResNet-50、ResNet-101、Wide-ResNet-16-8 等模型中的一种或多种，利用标注后的训练集分别进行训练。在本实施例中，选取ResNet-50 模型，利用步骤(s1)标准的训练样本作为训练集进行训练。设置带标签数据的batch size 为240，共250个batch，无标签数据的batch size为240，共250个batch。模型每次输入三个batch，分别为带标签图像、无标签无数据增强图像以及无标签数据增强图像。利用上述损失函数进行优化。设置epoch为300进行训练，每个epoch的训练数据随机划分，保证训练时数据的均衡，最终选取并保存识别效果最好的模型。

在步骤(s2)中，采用上述损失函数的优点如下：一是将难易类别的信息加入到损失函数中，使模型更加关注难类别；借鉴logit adjustment的方法，不再考虑体现类别数量信息的先验概率，而是选择可以体现难易类别的预测分数，通常难类别的预测分数较低，易类别的预测分数较高，将类别的预测分数均值加入损失函数，难类别相对来说损失增加，促使模型更加关注难类别。二是利用focal loss的方法，加入难易样本的信息(1-P_i)^γ，难样本的预测分数p_i较低，(1-P_i)^γ较大，易样本的(1-P_i)^γ较小，通过减少易样本的权重，从而使得模型在训练时更专注于难样本的分类。三是引入KL散度的半监督方法，可以很好的平滑模型，减小数据增强带来的差异程度，提升模型的泛化能力。

(s3)利用所述困难样本挖掘模型对待挖掘的数据进行处理，获得挖掘结果。

实际测试证明，采用训练后的模型对测试集进行测试，与现有技术中采用的损失函数生成的模型相比较，挖掘准确率提升3％以上。

实施例2：

本实施例给出基于实施例1所述方法的一种面向内容安全的困难样本挖掘装置，如图2 所示，包括：

(1)训练样本标注模块，用于对训练样本进行标注。

所述训练样本标注模块对训练样本进行标注的内容包括所述训练样本的类别，所述类别包括至少一个“正常”类别和至少一个“非正常”类别。需要说明的是，所述训练样本标注模块并不仅限于是用于完成一个完整的、自动化的标注过程的模块，也可以是用于辅助人工进行标记并存储的模块，或者是一个接收标注信息/样本数据的接口等。

(2)模型训练模块，用于利用标注后所述训练样本对困难样本挖掘模型进行训练。

优选的，所述模型训练模块采用的困难样本挖掘模型为ResNet-32、ResNet-110、Wide-ResNet-16-8模型中的一种。所述模型的损失函数为改进后的softmax交叉熵函数：其中，i和j是目标类，z_i和z_j为i类别和j类别的logit 输出，/>是一个batch内目标类的分数的均值，p_i是当前样本目标类的分数，τ和γ为控制增强程度的参数。

(3)数据挖掘模块，用于利用所述困难样本挖掘模型对待挖掘的数据进行处理，获得挖掘结果。

实施例3：

本实施例给出一种电子设备的具体实施方式，基于实施例1所述面向内容安全的困难样本挖掘方法。

如图3所示，所述电子设备包括：处理器(processor)301、通信接口(Communications Interface)302、存储器(memory)303和通信总线304，其中，处理器301，通信接口302，存储器303通过通信总线304完成相互间的通信。处理器301可以调用存储在存储器303上并可在处理器301上运行的计算机程序，以执行上述各实施例提供的方法，例如包括：准备训练样本，进行标注；利用标注后所述训练样本对困难样本挖掘模型进行训练；利用所述困难样本挖掘模型对待挖掘的数据进行处理，获得挖掘结果。

此外，上述的存储器303中的逻辑指令可以通过软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明实施例的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明实施例1所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

实施例4：

本实施例给出一种非暂态计算机可读存储介质的具体实施方式，基于实施例1所述面向内容安全的困难样本挖掘方法。

一种非暂态计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现以执行上述各实施例提供的方法，例如包括：准备训练样本，进行标注；利用标注后所述训练样本对困难样本挖掘模型进行训练；利用所述困难样本挖掘模型对待挖掘的数据进行处理，获得挖掘结果。

以上所描述的装置实施例仅仅是示意性的，其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下，即可以理解并实施。

以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims

1.一种面向内容安全的困难样本挖掘方法，其特征在于，包括以下步骤：

（s1）准备训练样本，进行标注；

（s2）利用标注后所述训练样本对困难样本挖掘模型进行训练；

（s3）利用所述困难样本挖掘模型对待挖掘的数据进行处理，获得挖掘结果；

其中，步骤（s1）中所述准备训练样本，进行标注还包括：对所述训练样本进行数据增强，所述数据增强包括以下一种或多种方法：

对图像进行随机裁剪到224*224大小；

对图像以0.5的概率随机加入高斯噪声；

对图像以0.5的概率进行随机旋转；

对图像以0.5的概率进行色彩增强；

对图像进行随机Cutout，其中，所述Cutout的是利用固定大小的矩形对图像进行随机遮挡，在矩形范围内，所有的值都被设置为0，擦除矩形区域存在一定概率不完全在原图像中；

其中，步骤（s2）中所述困难样本挖掘模型为ResNet-34、ResNet-50、ResNet-101、Wide-ResNet-16-8模型中的一种；

步骤（s2）中所述困难样本挖掘模型的损失函数为:

，

其中，i和j是目标类，z_i和z_j为i类别和j类别的logit输出，C是类别总数，是一个batch内i类别目标类的分数的均值，/>是一个batch内j类别目标类的分数的均值，P_i是当前样本目标类的分数，τ和γ为控制增强程度的参数。

2.根据权利要求1所述的面向内容安全的困难样本挖掘方法，其特征在于：步骤（s1）中所述标注内容包括所述训练样本的类别，所述类别包括至少一个“正常”类别和至少一个“非正常”类别。

3.一种面向内容安全的困难样本挖掘装置，其特征在于：基于权利要求1-2中任一权利要求所述方法，包括：

训练样本标注模块，用于对训练样本进行标注；

模型训练模块，用于利用标注后所述训练样本对困难样本挖掘模型进行训练；以及，

数据挖掘模块，用于利用所述困难样本挖掘模型对待挖掘的数据进行处理，获得挖掘结果；

其中，所述训练样本标注模块还用于对所述训练样本进行数据增强，所述数据增强包括以下一种或多种方法：

对图像进行随机裁剪到224*224大小；

对图像以0.5的概率随机加入高斯噪声；

对图像以0.5的概率进行随机旋转；

对图像以0.5的概率进行色彩增强；

其中，所述模型训练模块采用的困难样本挖掘模型为ResNet-32、ResNet-110、Wide-ResNet-16-8模型中的一种；

所述模型的损失函数为:

，

4.根据权利要求3所述的面向内容安全的困难样本挖掘装置，其特征在于，所述训练样本标注模块对训练样本进行标注的内容包括所述训练样本的类别，所述类别包括至少一个“正常”类别和至少一个“非正常”类别。

5.一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，其特征在于，所述处理器执行所述程序时实现如权利要求1至2任一项所述方法的步骤。

6.一种非暂态计算机可读存储介质，其上存储有计算机程序，其特征在于，该计算机程序被处理器执行时实现如权利要求1至2任一项所述方法的步骤。