CN109359677A

CN109359677A - 一种耐噪在线多分类核学习算法

Info

Publication number: CN109359677A
Application number: CN201811170840.7A
Authority: CN
Inventors: 宋允全; 高富豪; 雷鹤杰; 梁锡军; 渐令
Original assignee: China University of Petroleum East China
Current assignee: Qingdao Jinzhong Digital Technology Co.,Ltd.; China University of Petroleum East China
Priority date: 2018-10-09
Filing date: 2018-10-09
Publication date: 2019-02-19
Anticipated expiration: 2038-10-09
Also published as: CN109359677B

Abstract

本发明涉及一种基于自适应ramp损失函数的耐噪在线多分类核学习算法。通过引入核函数构造非线性多分类器，针对基于批处理技术的多分类方法无法高效处理数据流问题，而现有在线学习算法无法有效控制噪声样本的影响的问题，设计该耐噪在线多分类核学习算法。该方法能够减少参与模型计算的支持向量的数量，有效控制噪声影响，显著提高模型更新效率，提高噪声数据多分类问题的分类精度，满足实际应用问题的需求。本发明耐噪在线多分类核学习算法，克服了基于批处理技术的传统分类方法无法高效处理数据流的问题，也克服了现有在线学习算法如Perceptron和Pegasos等算法无法有效抑制噪声影响的问题，可高效应用于图片的场景分类等实际应用问题。

Description

一种耐噪在线多分类核学习算法

技术领域

本发明属于数据挖掘与机器学习领域，涉及数据挖掘和数据处理的方法，具体地说，涉及一种基于自适应ramp损失函数的耐噪在线多分类核学习算法。

背景技术

多分类问题是数据挖掘与机器学习领域研究的经典问题。传统的批处理多分类方法先收集数据，基于一批数据构建学习模型，并选择优化算法得到多分类器。伴随电子商务、社交媒体、移动互联网、物联网等技术的快速发展，越来越多的实际问题所处理的数据具有数据流特性。传统批处理多分类方法在处理大规模流数据场景时存在计算复杂度高、模型更新效率低等诸多不足。在线学习算法通过动态更新模型，逐点学习样本信息，具有计算复杂度低、模型更新效率高、实时性强等优势，在处理和分析数据流问题时有优异的表现。此外，大规模标签数据中，由于人工标记的失误与数据固有的多标签特性，难免有部分错误标签，而这些错误标签会严重影响多分类器的分类效果。因此，亟需设计一种具有耐噪特性的在线多分类算法。

发明内容

本发明的目的在于针对现有基于批处理技术的多分类方法无法高效处理数据流多分类问题，而在线学习算法无法有效控制噪声样本的影响，提出了一种基于自适应ramp损失函数的耐噪在线多分类核学习算法。该方法能够减少参与模型计算的支持向量的数量，有效控制噪声影响，显著提高模型更新效率，提高噪声数据多分类问题的分类精度，满足实际应用问题的需求。

根据本发明一实施例，提供了一种基于自适应ramp损失函数的耐噪在线多分类核学习算法，含有以下步骤：

(一)选择合适的模型核函数并初始化多分类器决策函数；

(二)采集数据流，利用当前多分类决策函数f^(t-1)预测数据流样本x_t的类别标签

(三)获取样本x_t真实标签y_t，根据ramp自适应参数设置策略计算该样本点的ramp损失函数的自适应参数s；

(四)计算该样本x_t的自适应ramp损失；

(五)根据样本的自适应ramp损失，更新分类器决策函数。

在根据本发明实施例的学习算法，在步骤(一)中，模型初始化的具体步骤为：

确定训练样本集合和测试样本集合，并根据具体数据特征选择合适的核函数初始化多分类问题决策函数f⁽⁰⁾＝0。

在根据本发明实施例的学习算法，步骤(二)中，利用多分类决策函数预测数据流样本类别标签的具体步骤为：

以one-by-one的形式采集数据流样本x_t，利用当前多分类决策函数f^(t-1)预测数据流中第t个样本的类别标签：

在根据本发明实施例的学习算法中，在步骤(三)中，计算样本的ramp损失函数的自适应参数s的具体步骤为：

在根据本发明实施例的学习算法中，在步骤(四)中，得到样本x_t及其真实标签y_t后，计算样本x_t的自适应ramp损失的具体步骤为：

根据以下公式计算得到ramp损失：

其中

在根据本发明实施例的学习算法，在步骤(五)中，更新分类器决策函数的具体步骤为：

根据以上得到的ramp自适应参数s以及自适应ramp损失l_t，如果0<l_t<1-s,则根据以下公式更新分类器决策函数：

否则，不更新分类器决策函数，即f^(t)＝f^(t-1)。

本发明涉及一种基于自适应ramp损失的耐噪在线多分类核学习算法。通过引入ramp损失函数、ramp自适应参数设置策略、核函数，建立在线核学习多分类器，实现了对数据流的在线预测。该方法采用自适应ramp损失函数使得分类器处理更少的支持向量，具有稀疏性；使得噪声对分类器的影响得到控制，具有鲁棒性(耐噪性)。与经典在线学习算法Perceptron和Pegesos相比，所提出的算法显著提升了分类精度。本发明耐噪在线多分类核学习算法，能够灵活处理数据流场景下的多分类问题，大幅减少了参与计算的支持向量，降低了计算复杂度，降低了噪声对多分类器的分类效果的影响，具有良好的耐噪性质。

附图说明

附图1一种耐噪在线多分类核学习算法示意图

附图2三种算法在基准数据集AID7data set、Outdoor Scene categories dataset、UC Merced Landuse data set、AID30data set进行预测的平均分类精度比较示意图

附图3三种算法在噪声数据集Adult data set上的平均分类精度(ACA)比较示意图

具体实施方式

以下结合附图对本发明具体步骤进行解释说明。

实施例一：以基准数据集AID7data set、Outdoor Scene categories data set、UC Merced Landuse data set、AID30data set上的在线多分类实验为例进行说明。如图1所示为根据本发明实施例提供的一种耐噪在线多分类核学习算法的示意图，该在线学习算法含有以下步骤：

步骤一：选择合适的模型核函数并初始化多分类器决策函数。其具体步骤为：

指定多项式核函数为模型核函数，即其中,参数γ设置为d取为样本x的维数；c₀设置为0；多项式阶次p设置为1。初始化多分类问题决策函数f⁽⁰⁾＝0。

步骤二：采集数据流，利用当前决策函数预测数据流样本的类别标签。其具体步骤为：

以one-by-one的形式采集数据流样本x_t，利用当前多分类决策函数f^(t-1)预测数据流中第t个样本的标签

步骤三：获取样本真实标签，计算该样本点的ramp损失函数的自适应参数s。其具体步骤为：

获取样本x_t真实标签y_t后，根据以下ramp自适应参数设置策略计算该样本点的ramp损失函数的自适应参数s：

步骤四：计算该样本x_t的自适应ramp损失。其具体步骤为：

根据以下公式计算得到样本x_t的自适应ramp损失：

其中

步骤五：根据样本的自适应ramp损失，更新分类器决策函数。其具体步骤为：

否则，不更新分类器决策函数，即f^(t)＝f^(t-1)。

图2为采用本发明在线学习算法与现有在线学习算法Perceptron和Pegesos在基准数据集AID7data set、Outdoor Scene categories data set、UC Merced Landuse dataset、AID30data set进行预测的平均分类精度比较示意图。由图2可以看出，本发明在线学习算法在上述4个基准数据集合上的平均分类精度一致优于其它方法。

实施例二：与实施例一不同的是，在本实施例中，对于基于核函数的在线学习算法，我们采用RBF核函数其中，参数γ设置为d为样本x的维数。

与实施例一不同的是，在本实施例中，在原始基准数据集Adult data set的基础上，加入噪声标签，在含噪声标签的数据集上训练在线分类器。具体地，我们将分别随机选取5％，10％，15％，20％(即SNR 95:5，SNR 90:10，SNR 85:15，SNR 80:20)的样本改变标签作为噪声数据。

图3为在含噪声数据的数据集Adult data set上在线分类器Perceptron、Pegasos和基于自适应ramp损失函数的耐噪在线多分类核学习算法的平均测试精度(ACA)比较。实验结果表明，在上述四个噪声比例(SNR 95:5，SNR 90:10，SNR 85:15，SNR 80:20)数据中，我们提出的基于自适应ramp损失函数的耐噪在线多分类核学习算法的分类精度一致优于其他算法。

上述实施例用来解释本发明，而不是对本发明进行限制，在本发明的精神和权力要求的保护范围内，对本发明做出的任何修改和改变，都落入本发明的保护范围。

Claims

1.一种耐噪在线多分类核学习算法，其特征在于含有以下步骤：

(一)选择合适的模型核函数并初始化多分类器决策函数；

(二)以one-by-one的形式采集数据流，利用当前多分类决策函数f^(t-1)预测样本x_t的标签

(三)得到样本x_t的真实标签y_t后，根据ramp自适应参数设置策略计算该样本点的ramp损失函数的自适应参数s；

(四)计算该样本x_t的自适应ramp损失；

(五)根据样本的自适应ramp损失，更新分类器决策函数。

2.根据权利要求1所述的一种耐噪在线多分类核学习算法，其特征在于，在步骤(一)中，具体方法为：根据具体应用场景选择合适的核函数，并初始化多分类问题决策函数f⁽⁰⁾＝0。

3.根据权利要求1所述的一种耐噪在线多分类核学习算法，其特征在于：步骤(二)中，利用多分类决策函数预测数据流样本类别标签的具体步骤为：以one-by-one的形式采集数据流，利用决策函数f^(t-1)预测样本x_t的标签

4.根据权利要求1所述的一种耐噪在线多分类核学习算法，其特征在于，在步骤(三)中，计算样本的ramp损失函数的自适应参数s的具体方法为：根据以下ramp自适应参数设置策略

计算得到参数s。

5.根据权利要求1所述的一种耐噪在线多分类核学习算法，其特征在于，在步骤(四)中，得到样本x_t及其真实标签y_t后，计算样本x_t的自适应ramp损失的具体方法为：

其中

6.根据权利要求1所述的一种耐噪在线多分类核学习算法，其特征在于，在步骤(五)中，更新分类器决策函数的具体方法为：根据以上步骤得到的ramp自适应参数s以及自适应ramp损失l_t，如果0<l_t<1-s,则根据以下公式更新分类器决策函数

否则，不更新分类器决策函数，即f^(t)＝f^(t-1)。

本发明涉及一种基于自适应ramp损失的耐噪在线多分类核学习算法。通过引入ramp损失函数、ramp自适应参数设置策略、核函数，建立在线核学习多分类器，实现了对数据流的在线预测。该方法采用自适应ramp损失函数使得分类器处理更少的支持向量，具有稀疏性；使得噪声对分类器的影响得到控制，具有鲁棒性(耐噪性)。与经典在线学习算法Perceptron和Pegesos相比，所提出的算法显著提升了分类精度。本发明耐噪在线多分类核学习算法，能够灵活处理数据流场景下的多分类问题，大幅减少了参与计算的支持向量，降低了计算复杂度，提高了噪声数据多分类问题的分类精度，满足实际应用问题的需求。