CN110070184A

CN110070184A - 融合样本损失及优化速度约束的数据采样方法

Info

Publication number: CN110070184A
Application number: CN201910225742.7A
Authority: CN
Inventors: 罗森林; 苏霞; 潘丽敏; 刘晓双
Original assignee: Beijing Institute of Technology BIT
Current assignee: Beijing Institute of Technology BIT
Priority date: 2019-03-25
Filing date: 2019-03-25
Publication date: 2019-07-30

Abstract

本发明提出了一种融合样本损失及优化速度约束的数据采样方法，属于计算机与信息科学技术领域。该方法包括：初始化模型参数并且预定义样本训练比例；计算每次迭代过程中每个样本的损失并排序，以此来更新步速参数；同时考虑样本损失和优化速度，来更新自步参数，继而更新模型参数。由于本发明提供的数据采样方法融合了样本损失和优化速度约束，既可以将噪声数据剔除，又能将开始表现不好但是优化速度快的数据选择出来，提高了模型的鲁棒性。

Description

融合样本损失及优化速度约束的数据采样方法

技术领域

本发明涉及一种数据采样方法，尤其是指融合样本损失及优化速度约束的数据采样方法，属于计算机与信息科学技术领域。

背景技术

自步学习(SPL)是最近提出的一种基于课程学习(CL)的方法，其灵感来自人类和动物的学习原理。课程学习和自步学习的理念是从学习简单的学习任务开始，然后逐渐将更复杂的样本纳入训练。从易到难逐步学习的关键是找到训练样本的正确学习顺序，因此为现实特定的问题而设计一种高质量的排序函数是很重要的。通过在目标函数中引入自步正则项，自步学习不再是像课程学习那样需要手动确定训练样本的学习顺序，而是可以在模型迭代过程中自动确定需要训练的样本集。这种改进使自步学习通过模型本身自动优化学习过程。自步学习的目标函数如下：

其中λ是步速参数，用来控制每次训练的训练样本范围，f(v_i,λ)为自步正则项，一个函数能成为自步函数要满足以下三个条件：

1.f(v；λ)在v∈[0,1]上是凸函数；

2.v^*(l,λ)相对于l单调递减，并且满足lim_l→0v^*(l,λ)＝1，lim_l→∞v^*(l,λ)＝0；3.v^*(l,λ)相对于λ单调递增，并且满足lim_λ→∞v^*(l,λ)≤1，lim_λ→0v^*(l,λ)＝0；其中v是权重变量，l是损失函数，λ是步速参数，v^*(l,λ)＝argmin_v∈[0,1]vl+f(v；λ)。

上述三个条件为构建自步正则项提供了公理。条件2确保了模型选择损失小的简单样本而不是复杂样本，条件3表明越大的λ倾向于选择更多复杂样本，条件1保证了自步正则项优化的便利性，通过替代优化策略(AOS)以逐渐增大步速参数λ来迭代更新v和w。在这些条件约束下提出了许多自步正则项，比如硬加权，线性软加权和混合加权。

将自步学习与其他模型结合，如与AdaBoost结合起来可以优化样本学习过程，降低噪声数据对学习过程的干扰，提高模型稳健性。但是自步学习只由样本损失来确定样本选择情况，这容易给开始表现得不好但是损失减小速度很快的样本赋低权重，而这部分样本对模型训练也很有用，过早忽略这些样本会使模型的训练不够充分。

发明内容

本发明的目的是为解决自步学习中只利用损失来确定样本的选择因而难以很好的区分样本的问题，提出融合样本损失及优化速度约束的数据采样方法。

本发明的设计原理为：在学习过程中同时关注每个训练样本的学习结果和学习速度。学习结果由自步学习中的损失来表示，而学习速度将通过每次迭代过程中的损失变化来评估。本发明在整个训练过程要注意平衡学习结果和学习速度这两个约束，来提高学习器选择可靠样本的性能。具体过程见图1。

本发明的技术方案是通过如下步骤实现的：

步骤1，初始化模型。

步骤2，计算步速参数λ。

步骤3，更新自采样变量v。

步骤4，更新模型参数w。

步骤5，重复步骤2、3、4直到满足条件。

有益效果

相对于自步学习中只用样本损失来决定数据采样过程的方法，本发明采用的融合样本损失及优化速度约束的数据采样方法，能够更加准确地去除噪声样本并平滑模型的训练过程。即使在原始数据集中没有添加噪声数据，本发明仍然可以改善提升模型的性能。

附图说明

图1为本发明的融合样本损失及优化速度约束的数据采样算法原理图。

具体实施方式

为了更好的说明本发明的目的和优点，下面结合附图和实施例对本发明方法的实施方式做进一步详细说明。

具体流程为：

步骤1，初始化模型参数w，迭代次数M，平衡参数α，时间参数δ，样本选择比例μ，若共有n个样本，则μn表示每次迭代过程我们选择的训练样本数量。时间参数δ∈(0,1)用于控制α的大小，使模型在开始训练时更关注于优化速度，而到后期更关注于样本损失。

步骤2，对于训练集(x₁,y₁),…,(x_n,y_n)，在第t次迭代中，第i个样本的损失函数为L(y_i,F_t(x_i,θ))，其中F_t(x_i,θ)表示模型的预测输出。在使用融合样本损失及优化速度约束的数据采样方法的模型中，第t次迭代的优化目标可表示为：

这里λ控制有多少样本被选择，α是为了平衡样本损失和优化速度之间对样本选择的影响程度。当θ不变时，这个优化问题可以表示为：

这是一个关于v的凸函数，所以我们可以用来计算v的最小值，把L(y_i,F_t(x_i,θ))记为我们有：

可以解出：

表示损失变化，可以反映样本的优化速度，将排序成Lsort，选取第μn个作为λ^t，即λ^t＝Lsort_μn。

步骤3，利用更新步速参数v。

步骤4，我们将作为第i个样本的新损失，来更新模型参数w，α＝δα。

步骤5，重复步骤2、3、4直到迭代次数等于M。

如上所述，便可较好地实现本发明。

本发明通过同时考虑样本损失和优化速度，来进行样本选择，能够有效减少噪声数据的干扰，提高模型的鲁棒性。

以上所述的具体描述，对发明的目的、技术方案和有益效果进行了进一步详细说明，所应理解的是，以上所述仅为本发明的具体实施例而已，并不用于限定本发明的保护范围，凡在本发明的精神和原则之内，所做的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.融合样本损失及优化速度约束的数据采样方法，其特征在于所述方法包括如下步骤：

步骤1，初始化模型参数w，迭代次数M，平衡参数α，时间参数δ，样本选择比例μ；

步骤2，计算步速参数λ，对于训练集(x₁,y₁),…,(x_n,y_n)，在第t次迭代中，将融合样本损失和优化速度的平衡损失函数L排序成Lsort，选取第μn个损失作为λ^t，即λ^t＝Lsort_μn；

步骤3，根据更新自采样变量v；

步骤4，我们将v_iLⁱ作为第i个样本的新损失，来更新模型参数w，α＝δα；

步骤5，重复步骤2、3、4直到迭代次数等于M。

2.根据权利要求1所述的融合样本损失及优化速度约束的数据采样方法，其特征在于：步骤2中融合样本损失和优化速度的平衡损失函数L，计算方式为：

其中表示第t次迭代过程中第i个样本的损失，表示样本损失的变化。