CN109919235B

CN109919235B - 一种基于人工干预样本集权重的深度学习图像分类模型训练方法

Info

Publication number: CN109919235B
Application number: CN201910188285.9A
Authority: CN
Inventors: 张永军; 文韩; 沈涛; 闫思宇
Original assignee: Beijing University of Posts and Telecommunications
Current assignee: Beijing University of Posts and Telecommunications
Priority date: 2019-03-13
Filing date: 2019-03-13
Publication date: 2021-08-20
Anticipated expiration: 2039-03-13
Also published as: CN109919235A

Abstract

本文公开了一种基于在深度学习图像分类模型训练中引入多个因素进行样本加权方法。该方法主要包括：通过采集设备实时采集待检测产品图像；将采集图像分别通过模型判别与人工判别并将两者判别结果进行比较；根据比较器结果将错误图像增加到假正或者假负样本集中并更新其权重；根据此时计算出的准确性是否达到预值来判断是否启动更新模型。本发明通过引入人工判别结果与模型判别结果进行对比以及人工干预样本集加权，可以根据是否达到预值来更新模型，分类效果明显提高。

Description

一种基于人工干预样本集权重的深度学习图像分类模型训练方法

技术领域

本发明涉及深度学习模型优化以及图像分类领域，具体涉及一种通过人工手段干预训练样本集来优化训练模型的方法。

背景技术

在深度学习图像分类领域，怎样对样本集进行处理来训练准确率更高的图像分类模型一直都是研究的重点。目前对训练样本集所做的处理多为样本数据集增强、修剪等，主要是对原始的图像样本进行翻转、折叠、加入人为噪声等来加大样本集的数量或者是对样本数据进行标准化、正则化，通过以上方法对样本集进行处理来训练准确率更高的图像分类模型。同时也有修改样本集权重来更新分类模型。

现有的改变训练样本集权重的算法代表是自适应增强(Adaptive boosting)算法，首先初始化训练数据的权值分布(如果有N个样本，则每一个训练样本最开始时都被赋予相同的权值：1/N)，然后训练弱分类器(具体训练过程中，如果某个样本点已经被准确地分类，那么在构造下一个训练集中，它的权值就被降低；相反，如果某个样本点没有被准确地分类，那么它的权值就得到提高。然后，权值更新过的样本集被用于训练下一个分类器，整个训练过程如此迭代地进行下去)，最后将各个训练得到的弱分类器组合成强分类器(各个弱分类器的训练过程结束后，加大分类误差率小的弱分类器的权重，使其在最终的分类函数中起着较大的决定作用，而降低分类误差率大的弱分类器的权重，使其在最终的分类函数中起着较小的决定作用。换言之，误差率低的弱分类器在最终分类器中占的权重较大，否则较小)。

上面传统改变训练样本集权重的方法存在以下几个问题：i)算法的弱分类器数目不太好设定，没有明确的参考指标；ii)该算法的训练样本集数量并没有改变，只是单纯的更新样本集的权重，导致更新后模型的分类效果提升较小；iii)加权公式仅考虑了样本分类的相对误差，场景应用泛化能力差。

针对以上问题，本发明提出新的技术方案，包括人工判别与模型判别结果比较以及新的加权公式。

发明内容

本发明主要解决的技术问题是提供一种基于人工干预样本集权重的深度学习图像分类模型训练方法，能够大幅度提升模型的分类效果以及解决模型泛化能力差的问题。该方法的流程如下：

步骤S1：通过采集设备实时采集待检测产品图像；

步骤S2：将采集图像分别通过模型判别与人工判别并将两者判别结果进行比较；

步骤S3：根据比较器结果将错误图像增加到假正或者假负样本集中并更新其权重；

步骤S4：根据此时计算出的准确性是否达到预值来判断是否启动更新模型；本发明中提出新的加权公式如下：

W_i＝σ[σ^-1(C_i)+A·P+B·T+D] (1)

其中，w_i-第i个样本的权重，C_i-第i个样本上次更新的权重，P-模型判别输出的概率，T-时间，D-人工值，A、B-常数，σ(x)-sigmoid函数(映射到0-1之间)，σ^-1(x)-sigmoid反函数。

本发明具有以下显著特点：i)通过人工判别与模型判别结果对比来指导更新训练样本集，准确性提升更大以及更具有应用价值；ii)在加权公式中加入更多的因素，权重值更加灵活可变，模型更新泛化能力更强。

附图说明

图1是基于人工干预样本集权重的深度学习图像分类模型训练方法流程图；

图2是基于人工干预样本集权重的深度学习图像分类模型训练方法中的增加样本集并更新其权重流程图；

具体实施方式

下面结合附图对本发明的较佳实施例进行详细阐述，以使本发明的优点和特征能更易于被本领域技术人员理解，从而对本发明的保护范围做出更为清楚明确的界定。

请参阅图1和图2，本发明实施例包括：

(a)通过采集装置采集待检测图像：采集装置可以是摄像头实时拍摄，也可以采用远程传输图像设备等。

(b)将图像分别通过模型与人工进行判别并比较：首先把采集装置中的图像分别通过模型判别和人工判别，得出0-不合格、1-合格，再是把两种判别结果输入比较器中得出0-结果不相同，1-结果相同，结果为0时，比较器进一步依据人工判别划分为假正或假负，结果为1时，比较器结束。

(c)增加样本集并更新其权重：先对比较器的输出结果进行判断，结果为0(操作见图2)则判断是否为假正，若是假正则按负样本归类，反之，归入正样本，对归类好的样本进行加权，加权公式见式子(1)、(2)，式中影响因子有：i)该样本上次在训练样本集中所占的权重；ii)(b)中模型判别softmax层输出的最大概率，该概率在0.5-1之间，随着更新模型次数增加，该概率应递减；iii)时间因素，最近所增加的样本集应占比重更大；iv)人工干预值，可以根据应用的环境调整大小，以增大模型泛化能力。

(d)根据设定预值启动更新模型：若比较器结果为1，先计算此时模型的正确率再与最先设定的预值进行比较，没有达到预值，就对加权好的训练样本集进行更新模型。更新完模型后返回(a)，若达到预值，则模型达到要求。

以上所述仅为本发明的实施例，并非因此限制本发明的专利范围，凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换，或直接或间接运用在其他相关的技术领域，均同理包括在本发明的专利保护范围内。

Claims

1.一种基于人工干预样本集权重的深度学习图像分类模型训练方法，其特征在于，包括：

步骤S1：通过采集设备实时采集待检测产品图像；

步骤S4：根据此时计算出的准确性是否达到预值来判断是否启动更新模型；

其中，步骤S3的增加样本集并更新其权重。根据判断是否为假正添加到负样本或者正样本，添加到样本集之后，根据下面公式(1)、(2)调整样本集的权重：

W_i＝σ[σ^-1(C_i)+A·P+B·T+D] (1)

其中w_i-第i个样本的权重，C_i-第i个样本上次更新的权重，P-模型判别输出的概率，T-时间，D-人工值，A、B-常数，σ(x)-sigmoid函数，σ^-1(x)-sigmoid反函数。

2.根据权利要求1所述的一种人工干预样本集权重的深度学习图像分类模型训练方法，其特征在于，优选的，步骤S4的根据设定预值启动更新模型，每经过比较器的一张图片后计算该模型的分类正确率，来与最先的预值比较，若未达到预值则启动更新模型，反之，则得到训练最新分类模型。