CN112989284A - 基于samme算法的数据噪声检测方法、系统及设备 - Google Patents

基于samme算法的数据噪声检测方法、系统及设备 Download PDF

Info

Publication number
CN112989284A
CN112989284A CN202110289502.0A CN202110289502A CN112989284A CN 112989284 A CN112989284 A CN 112989284A CN 202110289502 A CN202110289502 A CN 202110289502A CN 112989284 A CN112989284 A CN 112989284A
Authority
CN
China
Prior art keywords
noise
probability distribution
data
distribution value
noise probability
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202110289502.0A
Other languages
English (en)
Inventor
张贵川
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Minglue Zhaohui Technology Co Ltd
Original Assignee
Beijing Minglue Zhaohui Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Minglue Zhaohui Technology Co Ltd filed Critical Beijing Minglue Zhaohui Technology Co Ltd
Priority to CN202110289502.0A priority Critical patent/CN112989284A/zh
Publication of CN112989284A publication Critical patent/CN112989284A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F17/00Digital computing or data processing equipment or methods, specially adapted for specific functions
    • G06F17/10Complex mathematical operations
    • G06F17/18Complex mathematical operations for evaluating statistical data, e.g. average values, frequency distributions, probability functions, regression analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches

Landscapes

  • Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Mathematical Physics (AREA)
  • Artificial Intelligence (AREA)
  • Computational Mathematics (AREA)
  • Mathematical Analysis (AREA)
  • Mathematical Optimization (AREA)
  • Evolutionary Computation (AREA)
  • Pure & Applied Mathematics (AREA)
  • Probability & Statistics with Applications (AREA)
  • Algebra (AREA)
  • Operations Research (AREA)
  • Databases & Information Systems (AREA)
  • Software Systems (AREA)
  • Complex Calculations (AREA)

Abstract

本发明提供了一种基于SAMME算法的数据噪声检测方法、系统及设备,方法包括:基于待判别数据的训练数据样本,初始化所述训练数据样本的噪声概率分布值;根据所述训练数据样本训练基分类器,并根据所述噪声概率分布值计算得到所述基分类器的错误率;根据所述错误率,计算得到所述基分类器的权值;根据所述权值,更新所述噪声概率分布值;基于更新后的噪声概率分布值进行迭代计算,直至迭代次数达到预设迭代次数,记录所述训练数据样本的噪声概率分布值变化情况;根据所述噪声概率分布值变化情况,确定并抽取所述待判别数据中的噪声数据。该方法基于SAMME算法实现了噪声数据的精准检测,提高了自动化程度,基本上不需要人工介入,减少了人工成本的投入。

Description

基于SAMME算法的数据噪声检测方法、系统及设备
技术领域
本发明涉及网络安全技术领域,特别涉及一种基于SAMME算法的数据噪声检测方法、系统及设备。
背景技术
在数据挖掘过程中,数据预处理将占用大部分项目开发时间,而数据质量的好坏很大程度上决定模型的泛化预测的的性能。噪声数据是真实数据中常见的一种干扰数据,在数据清理阶段,需要对噪声数据进行检测,并进行后续的分析处理。
目前就现有技术而言,通常采用简单统计的分析方法(例如分箱法)通过频次或者自定义期间划分数据从而确定噪声数据;又或者采用简单的传统机器学习方法聚类、建立回归模型预测方法等确定噪声数据。
然而,无论通过简单统计的分析方法确定噪声数据,还是通过聚类和回归预测等方法确定噪声数据,均存在噪声数据寻找不精确的问题,还存在自动化程度不高和人工成本较高的问题。
发明内容
为解决现有技术中噪声数据检测不精确、自动化程度低及人工成本高的技术问题,本发明提供了一种基于SAMME算法的数据噪声检测方法。
本发明提供了一种基于SAMME算法的数据噪声检测方法,包括如下步骤:
噪声概率分布值初始化步骤,基于待判别数据的训练数据样本,初始化所述训练数据样本的噪声概率分布值;
噪声概率分布值更新步骤,根据所述训练数据样本训练基分类器,并根据所述噪声概率分布值计算得到所述基分类器的错误率;根据所述错误率,计算得到所述基分类器的权值;根据所述权值,更新所述噪声概率分布值;
噪声数据鉴别步骤,基于更新后的所述噪声概率分布值重复执行所述噪声概率分布更新步骤,直至迭代次数达到预设迭代次数,记录所述训练数据样本的噪声概率分布值变化情况;
噪声数据抽取步骤,根据所述噪声概率分布值变化情况,确定并抽取所述待判别数据中的噪声数据。
上述的基于SAMME算法的数据噪声检测方法,其中,所述噪声数据抽取步骤中,还包括:
噪声概率分布值趋势判断步骤,根据所述噪声概率分布值变化情况,判断所述预设迭代次数中所述噪声概率分布值的增减趋势;
噪声数据确定步骤,确定所述预设迭代次数中所述噪声概率分布值递增的所述训练数据样本,从而确定所述待判别数据中的噪声数据。
上述的基于SAMME算法的数据噪声检测方法,其中,所述噪声概率分布值初始化步骤中初始化所述训练数据样本的噪声概率分布值的方法,具体包括:
将所有所述训练数据样本的噪声概率分布值初始化为相同的数值,其计算公式如下:
w1i=1/n,i=1,2,...,n
式中,w1i表示每条训练数据样本的初始化噪声概率分布值;n表示所有训练数据样本的条数。
上述的基于SAMME算法的数据噪声检测方法,其中,所述噪声概率分布值更新步骤中所述基分类器的错误率的计算公式,具体包括:
Figure BDA0002981884060000021
式中,errm表示第m次迭代基分类器的错误率;ci表示第i条训练数据样本Xi的类别;I()表示示性函数;Tm()表示基分类器;m表示迭代次数。
上述的基于SAMME算法的数据噪声检测方法,其中,所述噪声概率分布值更新步骤中所述基分类器的权值的计算公式,具体包括:
Figure BDA0002981884060000022
式中,am表示第m次迭代基分类器的权值;K表示训练数据样本的类别总数。
上述的基于SAMME算法的数据噪声检测方法,其中,所述噪声概率分布值更新步骤中更新所述噪声概率分布值的计算公式,具体包括:
wm+1,i=wmiexp(am·I(ci≠Tm(Xi))),i=1,2,...,n,m=1,2,...,M
式中:wm+1,i表示每条训练数据样本的更新后的噪声概率分布值;wmi表示每条训练数据样本的更新前的噪声概率分布值。
本发明还提供一种实现基于SAMME算法的数据噪声检测的系统,包括:
噪声概率分布初始化模块,用于基于待判别数据的训练数据样本,初始化所述训练数据样本的噪声概率分布值;
噪声概率分布更新模块,用于根据所述训练数据样本训练基分类器,并根据所述噪声概率分布值计算得到所述基分类器的错误率;根据所述错误率,计算得到所述基分类器的权值;根据所述权值,更新所述噪声概率分布值;
噪声数据鉴别模块,用于基于更新后的所述噪声概率分布值重复执行所述噪声概率分布更新模块,直至迭代次数达到预设迭代次数,记录所述训练数据样本的噪声概率分布值变化情况;
噪声数据抽取模块,用于根据所述噪声概率分布值变化情况,确定并抽取所述待判别数据中的噪声数据。
上述的实现基于SAMME算法的数据噪声检测的系统,其中,所述噪声数据抽取模块中,还包括:
噪声概率分布值趋势判断单元,用于根据所述噪声概率分布值变化情况,判断所述预设迭代次数中所述噪声概率分布值的增减趋势;
噪声数据确定单元,用于确定所述预设迭代次数中所述噪声概率分布值递增的所述训练数据样本,从而确定所述待判别数据中的噪声数据。
本发明还提供一种计算机设备,包括存储器、处理器以及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现如上所述的基于SAMME算法的数据噪声检测方法。
本发明还提供一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现如上所述的商基于SAMME算法的数据噪声检测方法。
本发明的技术效果或优点:
本发明提供的一种基于SAMME算法的数据噪声检测方法,基于待判别数据的训练数据样本,初始化训练数据样本的噪声概率分布值,根据训练数据样本训练基分类器,并根据噪声概率分布值计算得到基分类器的错误率,根据错误率,计算得到基分类器的权值,根据权值,更新噪声概率分布值,根据更新后的噪声概率分布值继续训练基分类器,直至迭代次数达到预设迭代次数,记录训练数据样本的噪声概率分布值变化情况,根据噪声概率分布值变化情况,确定并抽取待判别数据中的噪声数据。通过上述方式,本发明基于SAMME算法实现了噪声数据的精准检测,提高了自动化程度,基本上不需要人工介入,减少了人工成本的投入。
附图说明
图1为本发明实施例提供的一个基于SAMME算法的数据噪声检测方法的流程图;
图2为本发明实施例提供的一个实现基于SAMME算法的数据噪声检测的系统的结构示意图;
图3为本发明实施例提供的又一个实现基于SAMME算法的数据噪声检测的系统的结构示意图;
图4为本发明实施例提供的一个电子设备的框架图;
以上图中:
1、噪声概率分布初始化模块;2、噪声概率分布更新模块;3、噪声数据鉴别模块;4、噪声数据抽取模块;41、噪声概率分布值趋势判断单元;42、噪声数据确定单元;
10、总线;11、处理器;12、存储器;13、通信接口。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
显而易见地,下面描述中的附图仅仅是本申请的一些示例或实施例,对于本领域的普通技术人员而言,在不付出创造性劳动的前提下,还可以根据这些附图将本申请应用于其他类似情景。此外,还可以理解的是,虽然这种开发过程中所作出的努力可能是复杂并且冗长的,然而对于与本申请公开的内容相关的本领域的普通技术人员而言,在本申请揭露的技术内容的基础上进行的一些设计,制造或者生产等变更只是常规的技术手段,不应当理解为本申请公开的内容不充分。在本申请中提及“实施例”意味着,结合实施例描述的特定特征、结构或特性可以包含在本申请的至少一个实施例中。在说明书中的各个位置出现该短语并不一定均是指相同的实施例,也不是与其它实施例互斥的独立的或备选的实施例。本领域普通技术人员显式地和隐式地理解的是,本申请所描述的实施例在不冲突的情况下,可以与其它实施例相结合。除非另作定义,本申请所涉及的技术术语或者科学术语应当为本申请所属技术领域内具有一般技能的人士所理解的通常意义。本申请所涉及的“一”、“一个”、“一种”、“该”等类似词语并不表示数量限制,可表示单数或复数。本申请所涉及的术语“包括”、“包含”、“具有”以及它们任何变形,意图在于覆盖不排他的包含;例如包含了一系列步骤或模块(单元)的过程、方法、系统、产品或设备没有限定于已列出的步骤或单元,而是可以还包括没有列出的步骤或单元,或可以还包括对于这些过程、方法、产品或设备固有的其它步骤或单元。本申请所涉及的“连接”、“相连”、“耦接”等类似的词语并非限定于物理的或者机械的连接,而是可以包括电气的连接,不管是直接的还是间接的。
本申请所涉及的“多个”是指两个或两个以上。“和/或”描述关联对象的关联关系,表示可以存在三种关系,例如,“A和/或B”可以表示:单独存在A,同时存在A和B,单独存在B这三种情况。字符“/”一般表示前后关联对象是一种“或”的关系。本申请所涉及的术语“第一”、“第二”、“第三”等仅仅是区别类似的对象,不代表针对对象的特定排序。
为解决现有技术中噪声数据检测不精确、自动化程度低及人工成本高的技术问题,本发明提供了一种基于SAMME算法的数据噪声检测方法,基于SAMME算法实现了噪声数据的精准检测,提高了自动化程度,基本上不需要人工介入,减少了人工成本的投入。
下面结合具体实施例及说明书附图,对本发明的技术方案作详细说明。
本实施例提供一种基于SAMME算法的数据噪声检测方法,包括如下步骤:
噪声概率分布值初始化步骤,基于待判别数据的训练数据样本,初始化所述训练数据样本的噪声概率分布值;
噪声概率分布值更新步骤,根据所述训练数据样本训练基分类器,并根据所述噪声概率分布值计算得到所述基分类器的错误率;根据所述错误率,计算得到所述基分类器的权值;根据所述权值,更新所述噪声概率分布值;
噪声数据鉴别步骤,基于更新后的所述噪声概率分布值重复执行所述噪声概率分布更新步骤,直至迭代次数达到预设迭代次数,记录所述训练数据样本的噪声概率分布值变化情况;
噪声数据抽取步骤,根据所述噪声概率分布值变化情况,确定并抽取所述待判别数据中的噪声数据。
本实施例提供了一种基于SAMME算法的数据噪声检测方法,基于SAMME算法实现了噪声数据的精准检测,提高了自动化程度,基本上不需要人工介入,减少了人工成本的投入。
参考图1,图1为本实施例提供的一个基于SAMME算法的数据噪声检测方法的流程图。本实施例提供的基于SAMME算法的数据噪声检测方法,包括如下步骤:
噪声概率分布值初始化步骤S1,基于待判别数据的训练数据样本,初始化所述训练数据样本的噪声概率分布值。
在本实施例中,所述噪声概率分布值初始化步骤S1中初始化所述训练数据样本的噪声概率分布值的方法,具体包括:
将所有所述训练数据样本的噪声概率分布值初始化为相同的数值,其计算公式如下:
w1i=1/n,i=1,2,...,n
式中,w1i表示每条训练数据样本的初始化噪声概率分布值;n表示所有训练数据样本的条数。
在具体应用中,待判别数据在中每条数据具体值都用数值表示,整条数据表示为一个向量,待判别数据的训练数据样本可以表示为:D={(X1,c1),(X2,c2),...,(Xn,cn)},其中,Xi表示第i条数据向量,ci表示第i条数据的具体标签类别,i=1,2,...,n。
噪声概率分布值更新步骤S2,根据所述训练数据样本训练基分类器,并根据所述噪声概率分布值计算得到所述基分类器的错误率;根据所述错误率,计算得到所述基分类器的权值;根据所述权值,更新所述噪声概率分布值;
在本实施例中,所述噪声概率分布值初始化步骤S2中初始化所述训练数据样本的噪声概率分布值的方法,具体包括:
将所有所述训练数据样本的噪声概率分布值初始化为相同的数值,其计算公式如下:
w1i=1/n,i=1,2,...,n (1)
式中,w1i表示每条训练数据样本的初始化噪声概率分布值;n表示所有训练数据样本的条数。
所述噪声概率分布值更新步骤S2中所述基分类器的错误率的计算公式,具体包括:
Figure BDA0002981884060000071
式中,errm表示第m次迭代基分类器的错误率;ci表示第i条训练数据样本Xi的类别;I()表示示性函数;Tm()表示基分类器;m表示迭代次数。需要说明的是,当示性函数I()中的表达式为True时,函数值为1;当示性函数I()中的表达式为False时,函数值为0。
所述噪声概率分布值更新步骤S2中所述基分类器的权值的计算公式,具体包括:
Figure BDA0002981884060000072
式中,am表示第m次迭代基分类器的权值;K表示训练数据样本的类别总数;errm表示第m次迭代基分类器的错误率;m表示迭代次数。
在本实施例中基分类器的权值大小表示基分类器的重要程度。
所述噪声概率分布值更新步骤S2中更新所述噪声概率分布值的计算公式,具体包括:
wm+1,i=wmiexp(am·I(ci≠Tm(Xi))),i=1,2,...,n,m=1,2,...,M
式中:wm+1,i表示每条训练数据样本的更新后的噪声概率分布值;wmi表示每条训练数据样本的更新前的噪声概率分布值;am表示第m次迭代基分类器的权值;ci表示第i条训练数据样本Xi的类别;I()表示示性函数;Tm()表示基分类器;m表示迭代次数。
噪声数据鉴别步骤S3,基于更新后的所述噪声概率分布值重复执行所述噪声概率分布更新步骤S2,直至迭代次数达到预设迭代次数,记录所述训练数据样本的噪声概率分布值变化情况;
在本实施例中,预设迭代次数可根据实际情况进行设定,预设迭代次数的取值本实施例不做具体的限定。
噪声数据抽取步骤S4,根据所述噪声概率分布值变化情况,确定并抽取所述待判别数据中的噪声数据。
在本实施例中,所述噪声数据抽取步骤S4中,还包括:
噪声概率分布值趋势判断步骤S41,根据所述噪声概率分布值变化情况,判断所述预设迭代次数中所述噪声概率分布值的增减趋势;
噪声数据确定步骤S42,确定所述预设迭代次数中所述噪声概率分布值递增的所述训练数据样本,从而确定所述待判别数据中的噪声数据。
本实施例提供的基于SAMME算法的数据噪声检测方法,采用SAMME对数据概率分布值进行更新迭代的方法,对基分类器分类错误的数据概率分布值进行更新,由于每轮迭代,都会增加分类错误的数据概率分布值,经过多轮迭代后,数据概率分布值高的数据就是多个基分类器难以处理的数据,通过绘制数据概率分布值变化情况,可以明确得到概率分布值不断增加的数据即噪声数据。基于SAMME算法实现了噪声数据的精准检测,提高了自动化程度,基本上不需要人工介入,减少了人工成本的投入。
作为一个示例,下面具体介绍一下基于SAMME算法的数据噪声检测的过程,具体如下:
给定待判别数据的训练数据样本,根据公式(1)初始化训练数据样本的噪声概率分布值,使得训练数据样本中每条数据的噪声概率分布值相同,根据训练数据样本训练基分类器,并根据初始化的噪声概率分布值和公式(2)计算得到基分类器的错误率,根据计算得到的错误率和公式(3),计算得到基分类器的权值,根据计算得到的权值和公式(4),更新每条数据的噪声概率分布值,基于更新后的噪声概率分布值进行迭代更新,直至迭代次数达到预设迭代次数,记录预设迭代次数中所有训练数据样本的噪声概率分布值变化情况,根据噪声概率分布值变化情况,判断预设迭代次数中噪声概率分布值的增减趋势,确定预设迭代次数中噪声概率分布值递增的数据,从而确定并抽取待判别数据中的噪声数据。
参考图2和图3,本发明实施例还提供一种实现基于SAMME算法的数据噪声检测的系统,所述系统包括:噪声概率分布初始化模块1、噪声概率分布更新模块2、噪声数据鉴别模块3及噪声数据抽取模块4,噪声数据抽取模块4还包括:噪声概率分布值趋势判断单元41和噪声数据确定单元42。其中,噪声概率分布初始化模块1与噪声概率分布更新模块2相连接,噪声概率分布更新模块2与噪声数据鉴别模块3相连接,噪声数据鉴别模块3与噪声数据抽取模块4相连接,更具体地说,噪声数据鉴别模块3与噪声概率分布值趋势判断单元41相连接,噪声概率分布值趋势判断单元41与噪声数据确定单元42相连接。
噪声概率分布初始化模块1,用于基于待判别数据的训练数据样本,初始化所述训练数据样本的噪声概率分布值;
噪声概率分布更新模块2,用于根据所述训练数据样本训练基分类器,并根据所述噪声概率分布值计算得到所述基分类器的错误率;根据所述错误率,计算得到所述基分类器的权值;根据所述权值,更新所述噪声概率分布值;
噪声数据鉴别模块3,用于基于更新后的所述噪声概率分布值重复执行所述噪声概率分布更新模块2,直至迭代次数达到预设迭代次数,记录所述训练数据样本的噪声概率分布值变化情况;
噪声数据抽取模块4,用于根据所述噪声概率分布值变化情况,确定并抽取所述待判别数据中的噪声数据。
在本实施例中,噪声概率分布值趋势判断单元41,用于根据所述噪声概率分布值变化情况,判断所述预设迭代次数中所述噪声概率分布值的增减趋势;
噪声数据确定单元42,用于确定所述预设迭代次数中所述噪声概率分布值递增的所述训练数据样本,从而确定所述待判别数据中的噪声数据。
本实施例提供的实现基于SAMME算法的数据噪声检测的系统,基于SAMME算法实现了噪声数据的精准检测,提高了自动化程度,基本上不需要人工介入,减少了人工成本的投入。
参考图4,本实施例还提供一种计算机设备,包括存储器12、处理器11以及存储在所述存储器12上并可在所述处理器11上运行的计算机程序,所述处理器11执行所述计算机程序时实现如上所述的基于SAMME算法的数据噪声检测方法。
设备可以包括处理器11以及存储有计算机程序指令的存储器12。具体地,上述处理器11可以包括中央处理器(CPU),或者特定集成电路(Application SpecificIntegrated Circuit,简称为ASIC),或者可以被配置成实施本申请实施例的一个或多个集成电路。
其中,存储器12可以包括用于数据或指令的大容量存储器。举例来说而非限制,存储器12可包括硬盘驱动器(Hard Disk Drive,简称为HDD)、软盘驱动器、固态驱动器(SolidState Drive,简称为SSD)、闪存、光盘、磁光盘、磁带或通用串行总线(Universal SerialBus,简称为USB)驱动器或者两个或更多个以上这些的组合。在合适的情况下,存储器12可包括可移除或不可移除(或固定)的介质。在合适的情况下,存储器12可在数据处理装置的内部或外部。在特定实施例中,存储器12是非易失性(Non-Volatile)存储器。在特定实施例中,存储器12包括只读存储器(Read-Only Memory,简称为ROM)和随机存取存储器(RandomAccess Memory,简称为RAM)。在合适的情况下,该ROM可以是掩模编程的ROM、可编程ROM(Programmable Read-Only Memory,简称为PROM)、可擦除PROM(Erasable ProgrammableRead-Only Memory,简称为EPROM)、电可擦除PROM(Electrically Erasable ProgrammableRead-Only Memory,简称为EEPROM)、电可改写ROM(Electrically Alterable Read-OnlyMemory,简称为EAROM)或闪存(FLASH)或者两个或更多个以上这些的组合。在合适的情况下,该RAM可以是静态随机存取存储器(Static Random-Access Memory,简称为SRAM)或动态随机存取存储器(Dynamic Random Access Memory,简称为DRAM),其中,DRAM可以是快速页模式动态随机存取存储器(Fast Page Mode Dynamic Random Access Memory,简称为FPMDRAM)、扩展数据输出动态随机存取存储器(Extended Date Out Dynamic RandomAccess Memory,简称为EDODRAM)、同步动态随机存取内存(Synchronous Dynamic Random-Access Memory,简称SDRAM)等。
存储器12可以用来存储或者缓存需要处理和/或通信使用的各种数据文件,以及处理器11所执行的可能的计算机程序指令。
处理器11通过读取并执行存储器12中存储的计算机程序指令,以实现上述实施例中的任意一种基于SAMME算法的数据噪声检测方法。
在其中一些实施例中,计算机设备还可包括通信接口13和总线10。其中,参考图4,处理器11、存储器12、通信接口13通过总线10连接并完成相互间的通信。通信接口13用于实现本申请实施例中各模块、装置、单元和/或设备之间的通信。通信端口13还可以实现与其他部件例如:外接设备、图像/数据采集设备、数据库、外部存储以及图像/数据处理工作站等之间进行数据通信。
总线10包括硬件、软件或两者,将电子设备的部件彼此耦接在一起。总线10包括但不限于以下至少之一:数据总线(Data Bus)、地址总线(Address Bus)、控制总线(ControlBus)、扩展总线(Expansion Bus)、局部总线(Local Bus)。举例来说而非限制,总线10可包括图形加速接口(Accelerated Graphics Port,简称为AGP)或其他图形总线、增强工业标准架构(Extended Industry Standard Architecture,简称为EISA)总线、前端总线(FrontSide Bus,简称为FSB)、超传输(Hyper Transport,简称为HT)互连、工业标准架构(Industry Standard Architecture,简称为ISA)总线、无线带宽(InfiniBand)互连、低引脚数(Low Pin Count,简称为LPC)总线、存储器总线、微信道架构(Micro ChannelArchitecture,简称为MCA)总线、外围组件互连(Peripheral Component Interconnect,简称为PCI)总线、PCI-Express(PCI-X)总线、串行高级技术附件(Serial AdvancedTechnology Attachment,简称为SATA)总线、视频电子标准协会局部(Video ElectronicsStandards Association Local Bus,简称为VLB)总线或其他合适的总线或者两个或更多个以上这些的组合。在合适的情况下,总线10可包括一个或多个总线。尽管本申请实施例描述和示出了特定的总线,但本申请考虑任何合适的总线或互连。
另外,结合上述实施例中的基于SAMME算法的数据噪声检测方法,本申请实施例可提供一种计算机可读存储介质来实现。该计算机可读存储介质上存储有计算机程序指令;该计算机程序指令被处理器执行时实现上述实施例中的任意一种基于SAMME算法的数据噪声检测方法。
以上所述仅为本申请的优选实施例而已,并不用于限制本申请,对于本领域的技术人员来说,本申请可以有各种更改和变化。凡在本申请的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本申请的保护范围之内。

Claims (10)

1.一种基于SAMME算法的数据噪声检测方法,其特征在于,包括如下步骤:
噪声概率分布值初始化步骤,基于待判别数据的训练数据样本,初始化所述训练数据样本的噪声概率分布值;
噪声概率分布值更新步骤,根据所述训练数据样本训练基分类器,并根据所述噪声概率分布值计算得到所述基分类器的错误率;根据所述错误率,计算得到所述基分类器的权值;根据所述权值,更新所述噪声概率分布值;
噪声数据鉴别步骤,基于更新后的所述噪声概率分布值重复执行所述噪声概率分布更新步骤,直至迭代次数达到预设迭代次数,记录所述训练数据样本的噪声概率分布值变化情况;
噪声数据抽取步骤,根据所述噪声概率分布值变化情况,确定并抽取所述待判别数据中的噪声数据。
2.根据权利要求1所述的基于SAMME算法的数据噪声检测方法,其特征在于,所述噪声数据抽取步骤中,还包括:
噪声概率分布值趋势判断步骤,根据所述噪声概率分布值变化情况,判断所述预设迭代次数中所述噪声概率分布值的增减趋势;
噪声数据确定步骤,确定所述预设迭代次数中所述噪声概率分布值递增的所述训练数据样本,从而确定所述待判别数据中的噪声数据。
3.根据权利要求1所述的基于SAMME算法的数据噪声检测方法,其特征在于,所述噪声概率分布值初始化步骤中初始化所述训练数据样本的噪声概率分布值的方法,具体包括:
将所有所述训练数据样本的噪声概率分布值初始化为相同的数值,其计算公式具体包括:
w1i=1/n,i=1,2,...,n
式中,w1i表示每条训练数据样本的初始化噪声概率分布值;n表示所有训练数据样本的条数。
4.根据权利要求1所述的基于SAMME算法的数据噪声检测方法,其特征在于,所述噪声概率分布值更新步骤中所述基分类器的错误率的计算公式,具体包括:
Figure FDA0002981884050000021
式中,errm表示第m次迭代基分类器的错误率;ci表示第i条训练数据样本Xi的类别;I()表示示性函数;Tm()表示基分类器;m表示迭代次数。
5.根据权利要求1所述的基于SAMME算法的数据噪声检测方法,其特征在于,所述噪声概率分布值更新步骤中所述基分类器的权值的计算公式,具体包括:
Figure FDA0002981884050000022
式中,am表示第m次迭代基分类器的权值;K表示训练数据样本的类别总数。
6.根据权利要求1所述的基于SAMME算法的数据噪声检测方法,其特征在于,所述噪声概率分布值更新步骤中更新所述噪声概率分布值的计算公式,具体包括:
wm+1,i=wmi exp(am·I(ci≠Tm(Xi))),i=1,2,...,n,m=1,2,...,M
式中:wm+1,i表示每条训练数据样本的更新后的噪声概率分布值;wmi表示每条训练数据样本的更新前的噪声概率分布值。
7.一种实现基于SAMME算法的数据噪声检测的系统,其特征在于,包括:
噪声概率分布初始化模块,用于基于待判别数据的训练数据样本,初始化所述训练数据样本的噪声概率分布值;
噪声概率分布更新模块,用于根据所述训练数据样本训练基分类器,并根据所述噪声概率分布值计算得到所述基分类器的错误率;根据所述错误率,计算得到所述基分类器的权值;根据所述权值,更新所述噪声概率分布值;
噪声数据鉴别模块,用于基于更新后的所述噪声概率分布值重复执行所述噪声概率分布更新模块,直至迭代次数达到预设迭代次数,记录所述训练数据样本的噪声概率分布值变化情况;
噪声数据抽取模块,用于根据所述噪声概率分布值变化情况,确定并抽取所述待判别数据中的噪声数据。
8.根据权利要求7所述的实现基于SAMME算法的数据噪声检测的系统,其特征在于,所述噪声数据抽取模块中,还包括:
噪声概率分布值趋势判断单元,用于根据所述噪声概率分布值变化情况,判断所述预设迭代次数中所述噪声概率分布值的增减趋势;
噪声数据确定单元,用于确定所述预设迭代次数中所述噪声概率分布值递增的所述训练数据样本,从而确定所述待判别数据中的噪声数据。
9.一种计算机设备,包括存储器、处理器以及存储在所述存储器上并可在所述处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现如权利要求1至6中任一项所述的基于SAMME算法的数据噪声检测方法。
10.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,该程序被处理器执行时实现如权利要求1至6中任一项所述的商基于SAMME算法的数据噪声检测方法。
CN202110289502.0A 2021-03-18 2021-03-18 基于samme算法的数据噪声检测方法、系统及设备 Pending CN112989284A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110289502.0A CN112989284A (zh) 2021-03-18 2021-03-18 基于samme算法的数据噪声检测方法、系统及设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110289502.0A CN112989284A (zh) 2021-03-18 2021-03-18 基于samme算法的数据噪声检测方法、系统及设备

Publications (1)

Publication Number Publication Date
CN112989284A true CN112989284A (zh) 2021-06-18

Family

ID=76334360

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110289502.0A Pending CN112989284A (zh) 2021-03-18 2021-03-18 基于samme算法的数据噪声检测方法、系统及设备

Country Status (1)

Country Link
CN (1) CN112989284A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117792615A (zh) * 2024-02-28 2024-03-29 青岛克莱玛物联技术有限公司 基于密集型通信模组的数据智能处理方法

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117792615A (zh) * 2024-02-28 2024-03-29 青岛克莱玛物联技术有限公司 基于密集型通信模组的数据智能处理方法
CN117792615B (zh) * 2024-02-28 2024-05-14 青岛克莱玛物联技术有限公司 基于密集型通信模组的数据智能处理方法

Similar Documents

Publication Publication Date Title
CN110020592B (zh) 物体检测模型训练方法、装置、计算机设备及存储介质
CN106778241B (zh) 恶意文件的识别方法及装置
WO2019200782A1 (zh) 样本数据分类方法、模型训练方法、电子设备及存储介质
WO2019109743A1 (zh) Url攻击检测方法、装置以及电子设备
WO2019114523A1 (zh) 分类训练方法、服务器及存储介质
CN104347068B (zh) 音频信号处理装置和方法以及监控系统
CN112183099A (zh) 基于半监督小样本扩展的命名实体识别方法及系统
CN109117822A (zh) 一种基于深度学习的零件实例分割识别方法
US7643674B2 (en) Classification methods, classifier determination methods, classifiers, classifier determination devices, and articles of manufacture
CN111291817B (zh) 图像识别方法、装置、电子设备和计算机可读介质
CN113989519B (zh) 一种长尾目标检测方法及系统
CN112989284A (zh) 基于samme算法的数据噪声检测方法、系统及设备
CN115600194A (zh) 一种基于XGBoost和LGBM的入侵检测方法、存储介质及设备
Zhang et al. An image processing approach to machine fault diagnosis based on visual words representation
WO2015131528A1 (zh) 确定给定文本的主题分布的方法和装置
CN107077617B (zh) 指纹提取方法及装置
CN113011532A (zh) 分类模型训练方法、装置、计算设备及存储介质
CN114168788A (zh) 音频审核的处理方法、装置、设备及存储介质
CN110516513B (zh) 一种人脸识别方法及装置
CN111611821A (zh) 二维码识别方法、装置、计算机设备和可读存储介质
CN113836297B (zh) 文本情感分析模型的训练方法及装置
CN113688785A (zh) 基于多监督的人脸识别方法、装置、计算机设备及存储介质
CN112560970A (zh) 基于自编码的异常图片检测方法、系统、设备及存储介质
CN112749542A (zh) 一种商品名称匹配方法、系统、设备及存储介质
CN113656354A (zh) 日志分类方法、系统、计算机设备和可读存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination