CN112070127A - 一种基于智能分析的海量数据样本增量分析方法 - Google Patents

一种基于智能分析的海量数据样本增量分析方法 Download PDF

Info

Publication number
CN112070127A
CN112070127A CN202010848785.3A CN202010848785A CN112070127A CN 112070127 A CN112070127 A CN 112070127A CN 202010848785 A CN202010848785 A CN 202010848785A CN 112070127 A CN112070127 A CN 112070127A
Authority
CN
China
Prior art keywords
newly added
classifier
training
incremental
data
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Withdrawn
Application number
CN202010848785.3A
Other languages
English (en)
Inventor
陈霖
陈昊
杨祎巍
孙强强
匡晓云
许爱东
丘惠军
徐培明
连耿雄
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shenzhen Power Supply Bureau Co Ltd
Research Institute of Southern Power Grid Co Ltd
Original Assignee
Shenzhen Power Supply Bureau Co Ltd
Research Institute of Southern Power Grid Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shenzhen Power Supply Bureau Co Ltd, Research Institute of Southern Power Grid Co Ltd filed Critical Shenzhen Power Supply Bureau Co Ltd
Priority to CN202010848785.3A priority Critical patent/CN112070127A/zh
Publication of CN112070127A publication Critical patent/CN112070127A/zh
Withdrawn legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2415Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on parametric or probabilistic models, e.g. based on likelihood ratio or false acceptance rate versus a false rejection rate
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Software Systems (AREA)
  • Probability & Statistics with Applications (AREA)
  • Medical Informatics (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明提供一种基于智能分析的海量数据样本增量分析方法,包括如下步骤:步骤1、利用原始训练数据集D学习出当前分类器C;步骤2、用当前分类器对未标注类别标签的新增训练集T进行分类,针对每一个未标记的新增训练样例,利用Q一学习算法计算其Q值,从T中选择有利于提高当前分类器精度的新增训练实例,并赋予其标签CP,添加到训练集D中;步骤3、利用新增样本修正分类器参数,直到新增训练集T中的全部实例加入训练集D中。本发明的有益效果是:利用强化学习中经典的Q学习来合理选择样本增量序列,削弱噪声数据的负面影响。

Description

一种基于智能分析的海量数据样本增量分析方法
技术领域
本发明涉及大数据的机器学习领域,特别是一种基于智能分析的海量数据样本增量分析方法。
背景技术
随着互联网的普及程度越来越高,网民的人数呈现爆炸性的增长,网络数据呈现出它的复杂性和多样性。机器学习的主要目的是通过智能分析方式,充分利用经验数据提高自身解决某类问题的能力。而高质量的数据是机器学习能够有效学习的基础和关键。
传统的分类学习算法要求所有的训练数据预先给定,并通过最小化定义在所有训练数据上的分类误差得到分类器。这种学习方法在小规模数据上取得了巨大成功,但应用到大数据学习问题时,则会表现出计算复杂度高、响应慢,无法用于实时性要求高的应用领域等缺陷。
增量学习是一种在线学习假设训练数据持续到来,通过小断地利用新增训练样本的信息更新当前的模型,大大降低了学习算法的空问复杂度和时问复杂度,从而可以有效地解决大数据学习中的问题。近年来,一些学者将深度学习与增量学习结合起来,以应对现阶段一些深层次学习所面临的挑战。但深度学习的性能主要依赖于监督样本的质量,一旦错误标记的样本被过早地用于分类器的训练,也将会导致所生成的分类器的性能下降。因此,如何合理地选择样本增量序列,避免过早地将噪声数据添加到分类器的训练数据集中,以削弱噪声数据的负面影响显得尤为重要。
大数据时代数据信息呈现持续性、爆炸性的增长,为机器学习算法带来大量的监督样本,然而这些信息通常不是一次性获得的,这为传统的分类模型提出了挑战。
发明内容
针对现有技术的缺陷,本发明提出使用增量学习即提出一种基于学习算法的增量分类模型,该模型利用强化学习中经典的Q学习来合理选择样本增量序列,削弱噪声数据的负面影响。是通过如下技术方案实现的。
本专利提出了一种智能分析的海量数据样本增量分析方法,来解决以上增量学习所而临的问题。
本专利将Q学习和增量学习相结合,以强化学习中的Q值函数作为度量标准,计算添加每个样本后能够得到的分类器的精度,并选择能够使得当前分类器精度达到最高的样本依添加到训练集中,从而得到最佳的训练样本序列,以获得精度最高的分类器。具体过程如下:
首先,利用原始训练数据集D学习出当前分类器C;
然后用当前分类器对未标注类别标签的新增训练集T进行分类,针对每一个未标记的新增训练样例,利用Q一学习算法计算其Q值,从T中选择有利于提高当前分类器精度的新增训练实例,并赋予其标签CP,添加到训练集 D中;
然后利用新增样本修正分类器参数,直到新增训练集T中的全部实例加入训练集D中。
其中,衡量分类器精度的标准是分类器在测试集S上的分类精度。
本发明的有益效果是:针对具有大量未标记样本的分类问题,该算法运用增量学习的思想,基于已有少量带标签训练样本训练初始分类器,然后通过强化学习算法来合理地选择新增样本序列进行自主标注,并对分类器进行更新,合理选择样本增量序列,削弱噪声数据的负面影响。
附图说明
图1是本发明具体实施例的构建增量分类模型的算法框图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
本发明利用原始训练数据集D学习出当前分类器C;然后用当前分类器对未标注类别标签的新增训练集T进行分类,针对每一个未标记的新增训练样例,利用Q一学习算法计算其Q值,从T中选择有利于提高当前分类器精度的新增训练实例,并赋予其标签CP,添加到训练集D中;然后利用新增样本修正分类器参数,直到新增训练集T中的全部实例加入训练集D中。
具体来说为了实现基于智能分析的海量数据样本增量分析方法,本首先构建了基于Q-学习的增量分类模型的马尔科夫决策过程(MDP),并按如下过程进行相关元祖的计算。其对应一个五元组E=<X,A,P,R,γ>。X为状态空间,表示智能分析代理所感知的状态。A为动作空间,说明机器学习过程中当前状态可以采用的动作。P则是状态转移概率。R是奖励函数,用于限制机器学习的走向。γ是折扣因子,用于认为的对机器学习过程进行限制。同时将现有数据集定义为D,增量数据标记为T,设定一个W参数使得系统在特定状态下出现负无穷值,出现死循环。其如附图1所示。具体而言,在构建过程中,需要输入数据集D,增量数据T={t1…tm},折扣因子γ,动作空间ε∈P。输出的结果是用于之后分析的分类器C。
增量分类模型的构建过程为:
初始化Q=0
For episode=1,2,...,m do
Forj=1,2,...,m do
Figure RE-GDA0002725921270000051
返回c
否则,用数据集D训练分类器c(θj-1),并更新分类器参数
用当前分类器c(θj-1)对新增训练集T中的每个元素ti分类,每个元素得到所属分类的概率
Figure RE-GDA0002725921270000055
(其中lk为类别标签)
以概率ε从T中随机选择动作ai=tp
计算
Figure RE-GDA0002725921270000052
计算
Figure RE-GDA0002725921270000053
Figure RE-GDA0002725921270000054
T'=T-tp,T←T′
D′=D+{tp,lp},D←D′
End for
End for
计算增量序列
Figure RE-GDA0002725921270000056
其中,衡量分类器精度的标准是分类器在测试集S上的分类精度。由于原始训练样本数量少,知识储备小足,该算法会产生一定的噪声数据。如果过早地将噪声数据加入原始训练数据,噪声数据将会一直传播卜去,从而影响总体分类精度。同时,随着数据量的增加,存储空问、计算模型的复杂度和计算速度会在一定程度上有所提高,从而影响整个模型的效率。同时,在运用在线学习时,先训练已有数据,然后训练小断得到的数据,但由于每次训练的数据小一样,会影响分类器的准确度,即会影响分类器的性能。因此,在分类器在测试集S上的分类精度。
尽管已经示出和描述了本发明的实施例,对于本领域的普通技术人员而言,可以理解在不脱离本发明的原理和精神的情况下可以对这些实施例进行多种变化、修改、替换和变型,本发明的范围由所附权利要求及其等同物限定。

Claims (7)

1.一种基于智能分析的海量数据样本增量分析方法,其特征在于,包括如下步骤:
步骤1、利用原始训练数据集D学习出当前分类器C;
步骤2、用当前分类器对未标注类别标签的新增训P练集T进行分类,针对每一个未标记的新增训练样例,利用Q一学习算法计算其Q值,从T中选择有利于提高当前分类器精度的新增训练实例,并赋予其标签CP,添加到训练集D中;
步骤3、利用新增样本修正分类器参数,直到新增训练集T中的全部实例加入训练集D中。
2.根据权利要求1所述的海量数据样本增量分析方法,其特征在于,衡量分类器精度的标准是分类器在测试集S上的分类精度。
3.根据权利要求1所述的海量数据样本增量分析方法,其特征在于,步骤2中,构建基于Q-学习的增量分类模型的马尔科夫决策过程(MDP),进行相关元祖的计算。
4.根据权利要求3所述的海量数据样本增量分析方法,其特征在于,所述增量分类模型,其对应一个五元组E=<X,A,P,R,γ>,X为状态空间,表示智能分析代理所感知的状态,A为动作空间,说明机器学习过程中当前状态可以采用的动作,P则是状态转移概率,R是奖励函数,用于限制机器学习的走向,γ是折扣因子,用于认为的对机器学习过程进行限制。
5.根据权利要求3所述的海量数据样本增量分析方法,其特征在于,计算过程中,将现有数据集定义为D,增量数据标记为T,设定一个W参数,使得系统在特定状态下出现负无穷值,出现死循环。
6.根据权利要求3所述的海量数据样本增量分析方法,其特征在于,在构建过程中,需要输入数据集D,增量数据T={t1...tm},折扣因子γ,动作空间ε∈P,输出的结果是用于之后分析的分类器C。
7.根据权利要求6所述的海量数据样本增量分析方法,其特征在于,构建过程为:
初始化Q=0
For ep isode=1,2,...,m do
Forj=1,2,...,m do
Figure RE-FDA0002725921260000021
返回c
否则,用数据集D训练分类器c(θj-1),并更新分类器参数
用当前分类器c(θj-1)对新增训练集T中的每个元素ti分类,每个元素得到所属分类的概率plk(tij-1)(其中lk为类别标签)
以概率ε从T中随机选择动作ai=tp
计算
Figure RE-FDA0002725921260000022
计算
Figure RE-FDA0002725921260000031
Figure RE-FDA0002725921260000032
T'=T-tp,T←T′
D′=D+{tp,lp},D←D′
End for
End for
计算增量序列
Figure RE-FDA0002725921260000033
CN202010848785.3A 2020-08-21 2020-08-21 一种基于智能分析的海量数据样本增量分析方法 Withdrawn CN112070127A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010848785.3A CN112070127A (zh) 2020-08-21 2020-08-21 一种基于智能分析的海量数据样本增量分析方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010848785.3A CN112070127A (zh) 2020-08-21 2020-08-21 一种基于智能分析的海量数据样本增量分析方法

Publications (1)

Publication Number Publication Date
CN112070127A true CN112070127A (zh) 2020-12-11

Family

ID=73658872

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010848785.3A Withdrawn CN112070127A (zh) 2020-08-21 2020-08-21 一种基于智能分析的海量数据样本增量分析方法

Country Status (1)

Country Link
CN (1) CN112070127A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113269228A (zh) * 2021-04-20 2021-08-17 重庆邮电大学 一种图网络分类模型的训练方法、装置、系统及电子设备

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109492026A (zh) * 2018-11-02 2019-03-19 国家计算机网络与信息安全管理中心 一种基于改进的主动学习技术的电信欺诈分类检测方法
CN109961098A (zh) * 2019-03-22 2019-07-02 中国科学技术大学 一种机器学习的训练数据选择方法
CN110489435A (zh) * 2019-08-12 2019-11-22 腾讯科技(深圳)有限公司 基于人工智能的数据处理方法、装置、及电子设备
US20190370219A1 (en) * 2018-06-05 2019-12-05 Chatterbox Labs Limited Method and Device for Improved Classification
CN111144459A (zh) * 2019-12-16 2020-05-12 重庆邮电大学 一种类不平衡的网络流量分类方法、装置及计算机设备
CN111275069A (zh) * 2019-12-10 2020-06-12 深圳供电局有限公司 一种非侵入式负荷监测方法

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20190370219A1 (en) * 2018-06-05 2019-12-05 Chatterbox Labs Limited Method and Device for Improved Classification
CN109492026A (zh) * 2018-11-02 2019-03-19 国家计算机网络与信息安全管理中心 一种基于改进的主动学习技术的电信欺诈分类检测方法
CN109961098A (zh) * 2019-03-22 2019-07-02 中国科学技术大学 一种机器学习的训练数据选择方法
CN110489435A (zh) * 2019-08-12 2019-11-22 腾讯科技(深圳)有限公司 基于人工智能的数据处理方法、装置、及电子设备
CN111275069A (zh) * 2019-12-10 2020-06-12 深圳供电局有限公司 一种非侵入式负荷监测方法
CN111144459A (zh) * 2019-12-16 2020-05-12 重庆邮电大学 一种类不平衡的网络流量分类方法、装置及计算机设备

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
刘凌云 等: "一种基于Q-学习算法的增量分类模型", 《计算机科学》, vol. 47, no. 8, pages 171 - 177 *

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113269228A (zh) * 2021-04-20 2021-08-17 重庆邮电大学 一种图网络分类模型的训练方法、装置、系统及电子设备
CN113269228B (zh) * 2021-04-20 2022-06-10 重庆邮电大学 一种图网络分类模型的训练方法、装置、系统及电子设备

Similar Documents

Publication Publication Date Title
CN110580501B (zh) 一种基于变分自编码对抗网络的零样本图像分类方法
CN108875916B (zh) 一种基于gru神经网络的广告点击率预测方法
US8190537B1 (en) Feature selection for large scale models
CN112069310B (zh) 基于主动学习策略的文本分类方法及系统
US20200285940A1 (en) Machine learning systems with memory based parameter adaptation for learning fast and slower
Weiss et al. Learning adaptive value of information for structured prediction
CN112001422B (zh) 一种基于深度贝叶斯学习的图像标记估计方法
CN115908908B (zh) 基于图注意力网络的遥感图像聚集型目标识别方法及装置
WO2023019456A1 (en) Method and apparatus for evaluation of adversarial robustness
CN116644755B (zh) 基于多任务学习的少样本命名实体识别方法、装置及介质
CN113344256B (zh) 盾构姿态多自由度运动特性预测和控制性能评估系统及方法
CN112686376A (zh) 一种基于时序图神经网络的节点表示方法及增量学习方法
EP3685266A1 (en) Power state control of a mobile device
JP2022539696A (ja) 適応的ハイパーパラメータセットを利用したマルチステージ学習を通じて自律走行自動車のマシンラーニングネットワークをオンデバイス学習させる方法及びこれを利用したオンデバイス学習装置
CN114186084A (zh) 在线多模态哈希检索方法、系统、存储介质及设备
CN111191685A (zh) 一种损失函数动态加权的方法
CN115358305A (zh) 一种基于边界样本迭代生成的增量学习鲁棒性提升方法
WO2020135054A1 (zh) 视频推荐方法、装置、设备及存储介质
CN114925938A (zh) 一种基于自适应svm模型的电能表运行状态预测方法、装置
CN112070127A (zh) 一种基于智能分析的海量数据样本增量分析方法
CN112801162B (zh) 基于图像属性先验的自适应软标签正则化方法
Fonseca et al. Model-agnostic approaches to handling noisy labels when training sound event classifiers
CN117649552A (zh) 一种基于对比学习和主动学习的图像增量学习方法
CN113159441A (zh) 银行业务项目实施情况的预测方法及装置
Taymouri et al. Encoder-decoder generative adversarial nets for suffix generation and remaining time prediction of business process models

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
WW01 Invention patent application withdrawn after publication

Application publication date: 20201211

WW01 Invention patent application withdrawn after publication