CN109359677A - 一种耐噪在线多分类核学习算法 - Google Patents

一种耐噪在线多分类核学习算法 Download PDF

Info

Publication number
CN109359677A
CN109359677A CN201811170840.7A CN201811170840A CN109359677A CN 109359677 A CN109359677 A CN 109359677A CN 201811170840 A CN201811170840 A CN 201811170840A CN 109359677 A CN109359677 A CN 109359677A
Authority
CN
China
Prior art keywords
resistance
uproar
ramp
classifying
kernel
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201811170840.7A
Other languages
English (en)
Other versions
CN109359677B (zh
Inventor
宋允全
高富豪
雷鹤杰
梁锡军
渐令
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Qingdao Jinzhong Digital Technology Co.,Ltd.
China University of Petroleum East China
Original Assignee
China University of Petroleum East China
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by China University of Petroleum East China filed Critical China University of Petroleum East China
Priority to CN201811170840.7A priority Critical patent/CN109359677B/zh
Publication of CN109359677A publication Critical patent/CN109359677A/zh
Application granted granted Critical
Publication of CN109359677B publication Critical patent/CN109359677B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/243Classification techniques relating to the number of classes
    • G06F18/2431Multiple classes

Landscapes

  • Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Theoretical Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Complex Calculations (AREA)

Abstract

本发明涉及一种基于自适应ramp损失函数的耐噪在线多分类核学习算法。通过引入核函数构造非线性多分类器,针对基于批处理技术的多分类方法无法高效处理数据流问题,而现有在线学习算法无法有效控制噪声样本的影响的问题,设计该耐噪在线多分类核学习算法。该方法能够减少参与模型计算的支持向量的数量,有效控制噪声影响,显著提高模型更新效率,提高噪声数据多分类问题的分类精度,满足实际应用问题的需求。本发明耐噪在线多分类核学习算法,克服了基于批处理技术的传统分类方法无法高效处理数据流的问题,也克服了现有在线学习算法如Perceptron和Pegasos等算法无法有效抑制噪声影响的问题,可高效应用于图片的场景分类等实际应用问题。

Description

一种耐噪在线多分类核学习算法
技术领域
本发明属于数据挖掘与机器学习领域,涉及数据挖掘和数据处理的方法,具体地说,涉及一种基于自适应ramp损失函数的耐噪在线多分类核学习算法。
背景技术
多分类问题是数据挖掘与机器学习领域研究的经典问题。传统的批处理多分类方法先收集数据,基于一批数据构建学习模型,并选择优化算法得到多分类器。伴随电子商务、社交媒体、移动互联网、物联网等技术的快速发展,越来越多的实际问题所处理的数据具有数据流特性。传统批处理多分类方法在处理大规模流数据场景时存在计算复杂度高、模型更新效率低等诸多不足。在线学习算法通过动态更新模型,逐点学习样本信息,具有计算复杂度低、模型更新效率高、实时性强等优势,在处理和分析数据流问题时有优异的表现。此外,大规模标签数据中,由于人工标记的失误与数据固有的多标签特性,难免有部分错误标签,而这些错误标签会严重影响多分类器的分类效果。因此,亟需设计一种具有耐噪特性的在线多分类算法。
发明内容
本发明的目的在于针对现有基于批处理技术的多分类方法无法高效处理数据流多分类问题,而在线学习算法无法有效控制噪声样本的影响,提出了一种基于自适应ramp损失函数的耐噪在线多分类核学习算法。该方法能够减少参与模型计算的支持向量的数量,有效控制噪声影响,显著提高模型更新效率,提高噪声数据多分类问题的分类精度,满足实际应用问题的需求。
根据本发明一实施例,提供了一种基于自适应ramp损失函数的耐噪在线多分类核学习算法,含有以下步骤:
(一)选择合适的模型核函数并初始化多分类器决策函数;
(二)采集数据流,利用当前多分类决策函数f(t-1)预测数据流样本xt的类别标签
(三)获取样本xt真实标签yt,根据ramp自适应参数设置策略计算该样本点的ramp损失函数的自适应参数s;
(四)计算该样本xt的自适应ramp损失;
(五)根据样本的自适应ramp损失,更新分类器决策函数。
在根据本发明实施例的学习算法,在步骤(一)中,模型初始化的具体步骤为:
确定训练样本集合和测试样本集合,并根据具体数据特征选择合适的核函数初始化多分类问题决策函数f(0)=0。
在根据本发明实施例的学习算法,步骤(二)中,利用多分类决策函数预测数据流样本类别标签的具体步骤为:
以one-by-one的形式采集数据流样本xt,利用当前多分类决策函数f(t-1)预测数据流中第t个样本的类别标签:
在根据本发明实施例的学习算法中,在步骤(三)中,计算样本的ramp损失函数的自适应参数s的具体步骤为:
在根据本发明实施例的学习算法中,在步骤(四)中,得到样本xt及其真实标签yt后,计算样本xt的自适应ramp损失的具体步骤为:
根据以下公式计算得到ramp损失:
其中
在根据本发明实施例的学习算法,在步骤(五)中,更新分类器决策函数的具体步骤为:
根据以上得到的ramp自适应参数s以及自适应ramp损失lt,如果0<lt<1-s,则根据以下公式更新分类器决策函数:
否则,不更新分类器决策函数,即f(t)=f(t-1)
本发明涉及一种基于自适应ramp损失的耐噪在线多分类核学习算法。通过引入ramp损失函数、ramp自适应参数设置策略、核函数,建立在线核学习多分类器,实现了对数据流的在线预测。该方法采用自适应ramp损失函数使得分类器处理更少的支持向量,具有稀疏性;使得噪声对分类器的影响得到控制,具有鲁棒性(耐噪性)。与经典在线学习算法Perceptron和Pegesos相比,所提出的算法显著提升了分类精度。本发明耐噪在线多分类核学习算法,能够灵活处理数据流场景下的多分类问题,大幅减少了参与计算的支持向量,降低了计算复杂度,降低了噪声对多分类器的分类效果的影响,具有良好的耐噪性质。
附图说明
附图1一种耐噪在线多分类核学习算法示意图
附图2三种算法在基准数据集AID7data set、Outdoor Scene categories dataset、UC Merced Landuse data set、AID30data set进行预测的平均分类精度比较示意图
附图3三种算法在噪声数据集Adult data set上的平均分类精度(ACA)比较示意图
具体实施方式
以下结合附图对本发明具体步骤进行解释说明。
实施例一:以基准数据集AID7data set、Outdoor Scene categories data set、UC Merced Landuse data set、AID30data set上的在线多分类实验为例进行说明。如图1所示为根据本发明实施例提供的一种耐噪在线多分类核学习算法的示意图,该在线学习算法含有以下步骤:
步骤一:选择合适的模型核函数并初始化多分类器决策函数。其具体步骤为:
指定多项式核函数为模型核函数,即其中,参数γ设置为d取为样本x的维数;c0设置为0;多项式阶次p设置为1。初始化多分类问题决策函数f(0)=0。
步骤二:采集数据流,利用当前决策函数预测数据流样本的类别标签。其具体步骤为:
以one-by-one的形式采集数据流样本xt,利用当前多分类决策函数f(t-1)预测数据流中第t个样本的标签
步骤三:获取样本真实标签,计算该样本点的ramp损失函数的自适应参数s。其具体步骤为:
获取样本xt真实标签yt后,根据以下ramp自适应参数设置策略计算该样本点的ramp损失函数的自适应参数s:
步骤四:计算该样本xt的自适应ramp损失。其具体步骤为:
根据以下公式计算得到样本xt的自适应ramp损失:
其中
步骤五:根据样本的自适应ramp损失,更新分类器决策函数。其具体步骤为:
根据以上得到的ramp自适应参数s以及自适应ramp损失lt,如果0<lt<1-s,则根据以下公式更新分类器决策函数:
否则,不更新分类器决策函数,即f(t)=f(t-1)
图2为采用本发明在线学习算法与现有在线学习算法Perceptron和Pegesos在基准数据集AID7data set、Outdoor Scene categories data set、UC Merced Landuse dataset、AID30data set进行预测的平均分类精度比较示意图。由图2可以看出,本发明在线学习算法在上述4个基准数据集合上的平均分类精度一致优于其它方法。
实施例二:与实施例一不同的是,在本实施例中,对于基于核函数的在线学习算法,我们采用RBF核函数其中,参数γ设置为d为样本x的维数。
与实施例一不同的是,在本实施例中,在原始基准数据集Adult data set的基础上,加入噪声标签,在含噪声标签的数据集上训练在线分类器。具体地,我们将分别随机选取5%,10%,15%,20%(即SNR 95:5,SNR 90:10,SNR 85:15,SNR 80:20)的样本改变标签作为噪声数据。
图3为在含噪声数据的数据集Adult data set上在线分类器Perceptron、Pegasos和基于自适应ramp损失函数的耐噪在线多分类核学习算法的平均测试精度(ACA)比较。实验结果表明,在上述四个噪声比例(SNR 95:5,SNR 90:10,SNR 85:15,SNR 80:20)数据中,我们提出的基于自适应ramp损失函数的耐噪在线多分类核学习算法的分类精度一致优于其他算法。
上述实施例用来解释本发明,而不是对本发明进行限制,在本发明的精神和权力要求的保护范围内,对本发明做出的任何修改和改变,都落入本发明的保护范围。

Claims (6)

1.一种耐噪在线多分类核学习算法,其特征在于含有以下步骤:
(一)选择合适的模型核函数并初始化多分类器决策函数;
(二)以one-by-one的形式采集数据流,利用当前多分类决策函数f(t-1)预测样本xt的标签
(三)得到样本xt的真实标签yt后,根据ramp自适应参数设置策略计算该样本点的ramp损失函数的自适应参数s;
(四)计算该样本xt的自适应ramp损失;
(五)根据样本的自适应ramp损失,更新分类器决策函数。
2.根据权利要求1所述的一种耐噪在线多分类核学习算法,其特征在于,在步骤(一)中,具体方法为:根据具体应用场景选择合适的核函数,并初始化多分类问题决策函数f(0)=0。
3.根据权利要求1所述的一种耐噪在线多分类核学习算法,其特征在于:步骤(二)中,利用多分类决策函数预测数据流样本类别标签的具体步骤为:以one-by-one的形式采集数据流,利用决策函数f(t-1)预测样本xt的标签
4.根据权利要求1所述的一种耐噪在线多分类核学习算法,其特征在于,在步骤(三)中,计算样本的ramp损失函数的自适应参数s的具体方法为:根据以下ramp自适应参数设置策略
计算得到参数s。
5.根据权利要求1所述的一种耐噪在线多分类核学习算法,其特征在于,在步骤(四)中,得到样本xt及其真实标签yt后,计算样本xt的自适应ramp损失的具体方法为:
其中
6.根据权利要求1所述的一种耐噪在线多分类核学习算法,其特征在于,在步骤(五)中,更新分类器决策函数的具体方法为:根据以上步骤得到的ramp自适应参数s以及自适应ramp损失lt,如果0<lt<1-s,则根据以下公式更新分类器决策函数
否则,不更新分类器决策函数,即f(t)=f(t-1)
本发明涉及一种基于自适应ramp损失的耐噪在线多分类核学习算法。通过引入ramp损失函数、ramp自适应参数设置策略、核函数,建立在线核学习多分类器,实现了对数据流的在线预测。该方法采用自适应ramp损失函数使得分类器处理更少的支持向量,具有稀疏性;使得噪声对分类器的影响得到控制,具有鲁棒性(耐噪性)。与经典在线学习算法Perceptron和Pegesos相比,所提出的算法显著提升了分类精度。本发明耐噪在线多分类核学习算法,能够灵活处理数据流场景下的多分类问题,大幅减少了参与计算的支持向量,降低了计算复杂度,提高了噪声数据多分类问题的分类精度,满足实际应用问题的需求。
CN201811170840.7A 2018-10-09 2018-10-09 一种耐噪在线多分类核学习算法 Active CN109359677B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201811170840.7A CN109359677B (zh) 2018-10-09 2018-10-09 一种耐噪在线多分类核学习算法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201811170840.7A CN109359677B (zh) 2018-10-09 2018-10-09 一种耐噪在线多分类核学习算法

Publications (2)

Publication Number Publication Date
CN109359677A true CN109359677A (zh) 2019-02-19
CN109359677B CN109359677B (zh) 2021-11-23

Family

ID=65348599

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201811170840.7A Active CN109359677B (zh) 2018-10-09 2018-10-09 一种耐噪在线多分类核学习算法

Country Status (1)

Country Link
CN (1) CN109359677B (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111160161A (zh) * 2019-12-18 2020-05-15 电子科技大学 一种基于噪声剔除的自步学习人脸年龄估计方法
CN112307860A (zh) * 2019-10-10 2021-02-02 北京沃东天骏信息技术有限公司 图像识别模型训练方法和装置、图像识别方法和装置

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103678681A (zh) * 2013-12-25 2014-03-26 中国科学院深圳先进技术研究院 基于大规模数据的自适应参数的多核学习分类方法
CN105930869A (zh) * 2016-04-19 2016-09-07 广东工业大学 一种获取传导分类知识的可拓支持向量机方法
CN106599906A (zh) * 2016-11-25 2017-04-26 电子科技大学 基于噪声概率函数的多核学习分类方法
CN108023876A (zh) * 2017-11-20 2018-05-11 西安电子科技大学 基于可持续性集成学习的入侵检测方法及入侵检测系统
CN108170695A (zh) * 2016-12-07 2018-06-15 信阳师范学院 一个基于信息熵的数据流自适应集成分类方法

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103678681A (zh) * 2013-12-25 2014-03-26 中国科学院深圳先进技术研究院 基于大规模数据的自适应参数的多核学习分类方法
CN105930869A (zh) * 2016-04-19 2016-09-07 广东工业大学 一种获取传导分类知识的可拓支持向量机方法
CN106599906A (zh) * 2016-11-25 2017-04-26 电子科技大学 基于噪声概率函数的多核学习分类方法
CN108170695A (zh) * 2016-12-07 2018-06-15 信阳师范学院 一个基于信息熵的数据流自适应集成分类方法
CN108023876A (zh) * 2017-11-20 2018-05-11 西安电子科技大学 基于可持续性集成学习的入侵检测方法及入侵检测系统

Non-Patent Citations (7)

* Cited by examiner, † Cited by third party
Title
ERIC J. HESS等: "The Support Vector Machine and Mixed Integer Linear Programming: Ramp Loss SVM with L1-Norm Regularization", 《14TH INFORMS COMPUTING SOCIETY CONFERENCE》 *
GUANG-BIN HUANG等: "Extreme Learning Machine for Regression and Multiclass Classification", 《IEEE TRANSACTIONS ON SYSTEMS, MAN, AND CYBERNETICS》 *
LING JIAN等: "Toward online node classification on streaming networks", 《DATA MIN KNOWL DISC》 *
XIAOLIN HUANG等: "Ramp Loss Linear Programming Support Vector Machine", 《JOURNAL OF MACHINE LEARNING RESEARCH 15》 *
李敏: "基于在线被动-主动学习的多特征融合图像分类", 《实验室研究与探索》 *
李清泉等: "基于模糊支持向量机的城市道路交通状态分类", 《吉林大学学报(工学版)》 *
王军等: "基于蚁群优化的选择性集成数据流分类方法", 《长江大学学报(自科版)》 *

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112307860A (zh) * 2019-10-10 2021-02-02 北京沃东天骏信息技术有限公司 图像识别模型训练方法和装置、图像识别方法和装置
CN111160161A (zh) * 2019-12-18 2020-05-15 电子科技大学 一种基于噪声剔除的自步学习人脸年龄估计方法
CN111160161B (zh) * 2019-12-18 2022-03-15 电子科技大学 一种基于噪声剔除的自步学习人脸年龄估计方法

Also Published As

Publication number Publication date
CN109359677B (zh) 2021-11-23

Similar Documents

Publication Publication Date Title
CN108491874B (zh) 一种基于生成式对抗网络的图像单分类方法
CN109344736B (zh) 一种基于联合学习的静态图像人群计数方法
CN111126488B (zh) 一种基于双重注意力的图像识别方法
CN107766929B (zh) 模型分析方法及装置
CN107392919B (zh) 基于自适应遗传算法的灰度阈值获取方法、图像分割方法
CN112613552B (zh) 一种结合情感类别注意力损失的卷积神经网络情感图像分类方法
CN109615014A (zh) 一种基于kl散度优化的数据分类系统与方法
CN109063719B (zh) 一种联合结构相似性和类信息的图像分类方法
CN108491864B (zh) 基于自动确定卷积核大小卷积神经网络的高光谱图像分类
CN111985581A (zh) 一种基于样本级注意力网络的少样本学习方法
CN109214444B (zh) 基于孪生神经网络和gmm的游戏防沉迷判定系统及方法
CN109344856B (zh) 一种基于多层判别式特征学习的脱机签名鉴别方法
CN112819063B (zh) 一种基于改进的Focal损失函数的图像识别方法
CN103310227A (zh) 基于神经网络的自动窗宽窗位提取方法
CN107067022B (zh) 图像分类模型的建立方法、建立装置和设备
CN106202388B (zh) 一种用户等级自动划分方法及系统
CN108427971A (zh) 基于移动终端的烟叶评级的方法及系统
CN108596204B (zh) 一种基于改进型scdae的半监督调制方式分类模型的方法
CN103955709A (zh) 基于加权合成核与tmf的极化sar图像分类方法
CN106056165A (zh) 一种基于超像素关联性增强Adaboost分类学习的显著性检测方法
CN112784031A (zh) 一种基于小样本学习的客服对话文本的分类方法和系统
CN109359677A (zh) 一种耐噪在线多分类核学习算法
CN115439715A (zh) 基于反标签学习的半监督少样本图像分类学习方法及系统
CN113989536A (zh) 一种基于布谷鸟搜索算法的番茄病害识别方法
CN112541530B (zh) 针对聚类模型的数据预处理方法及装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
CB03 Change of inventor or designer information
CB03 Change of inventor or designer information

Inventor after: Gradual order

Inventor after: Lin Dan

Inventor after: Zhou Jiaxin

Inventor after: Song Yunquan

Inventor after: Gao Fuhao

Inventor after: Lei Hejie

Inventor after: Liang Xijun

Inventor before: Song Yunquan

Inventor before: Gao Fuhao

Inventor before: Lei Hejie

Inventor before: Liang Xijun

Inventor before: Gradual order

GR01 Patent grant
GR01 Patent grant
TR01 Transfer of patent right
TR01 Transfer of patent right

Effective date of registration: 20231229

Address after: 266580 No. 66 Changjiang West Road, Huangdao District, Qingdao, Shandong.

Patentee after: CHINA University OF PETROLEUM (EAST CHINA)

Patentee after: Qingdao Jinzhong Digital Technology Co.,Ltd.

Address before: 266580 No. 66 Changjiang West Road, Huangdao District, Qingdao, Shandong.

Patentee before: CHINA University OF PETROLEUM (EAST CHINA)