CN111582365B - 一种基于样本难度的垃圾邮件分类方法 - Google Patents

一种基于样本难度的垃圾邮件分类方法 Download PDF

Info

Publication number
CN111582365B
CN111582365B CN202010374804.3A CN202010374804A CN111582365B CN 111582365 B CN111582365 B CN 111582365B CN 202010374804 A CN202010374804 A CN 202010374804A CN 111582365 B CN111582365 B CN 111582365B
Authority
CN
China
Prior art keywords
sample
mail
training
classification
classifier
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
CN202010374804.3A
Other languages
English (en)
Other versions
CN111582365A (zh
Inventor
李雄飞
于爽
张小利
张维轩
王泽宇
罗茂
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Jilin University
Original Assignee
Jilin University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Jilin University filed Critical Jilin University
Priority to CN202010374804.3A priority Critical patent/CN111582365B/zh
Publication of CN111582365A publication Critical patent/CN111582365A/zh
Application granted granted Critical
Publication of CN111582365B publication Critical patent/CN111582365B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/10Office automation; Time management
    • G06Q10/107Computer-aided management of electronic mailing [e-mailing]

Landscapes

  • Engineering & Computer Science (AREA)
  • Business, Economics & Management (AREA)
  • Data Mining & Analysis (AREA)
  • Human Resources & Organizations (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Strategic Management (AREA)
  • Entrepreneurship & Innovation (AREA)
  • General Physics & Mathematics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Economics (AREA)
  • Evolutionary Computation (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computer Hardware Design (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Artificial Intelligence (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • Marketing (AREA)
  • Operations Research (AREA)
  • Quality & Reliability (AREA)
  • Tourism & Hospitality (AREA)
  • General Business, Economics & Management (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Information Transfer Between Computers (AREA)

Abstract

本发明属于机器学习分类技术领域,具体涉及一种基于样本难度的垃圾邮件分类方法;能够提高垃圾邮件分类的准确性和稳定性,本发明根据邮件样本的难度信息为每个邮件样本制定统一的误分类损失函数,然后根据最小化总体误分类损失的原则提出一种更可靠和稳定的分类器算法,并将该算法应用在垃圾邮件分类中;本发明方法更加注重对简单样本的正确分类,这符合认知规律,即在误分率大致相当的情况下,该分类方法在分类难度值越小的邮件样本上误分率越低,这使得该分类方法的可信度高,更加可靠、稳定,适用性更强。

Description

一种基于样本难度的垃圾邮件分类方法
技术领域
本发明属于机器学习分类技术领域,具体涉及一种基于样本难度的垃圾邮件分类方法。
背景技术
传统垃圾邮件分类器采用诸如朴素贝叶斯、k近邻、决策树、支持向量机、神经网络和AdaBoost等算法都是平等地对待不同邮件样本,并以最小化分类器的整体误分率为优化目标。实际上,许多带有混淆信息的邮件难以被人类和机器学习方法正确分类。在现实生活中,一些相对较难的邮件被错误分类通常是可以接受的,而一个可靠、稳定的垃圾邮件分类器应该能够避免错误分类简单的样本。并且,在误分率大致相当的情况下,垃圾邮件分类器在低难度样本上的误分率越小,该分类器的性能越好,这是符合认知规律的。然而,现在垃圾邮件分类领域内的方法完全忽略了这些重要的信息,大多数垃圾邮件分类器的设计只是关注对相对较难的样本进行正确分类,以达到更高的精度。而这些相对较难的样本很可能是异常值或噪音点,如果过于关注这些样本,很可能发生过拟合问题。
综上所述,如何在不损失分类准确率的情况下区分出这些难样本并减少其对垃圾邮件分类器泛化性能的影响是一个值得研究的问题。因此,有必要将样本的分类难度信息引入到垃圾邮件分类规则的设计中,以改善分类性能。
发明内容
为了克服上述问题,本发明提供一种基于样本难度的垃圾邮件分类方法,能够提高垃圾邮件分类的准确性和稳定性,本发明根据邮件样本的难度信息为每个邮件样本制定统一的误分类损失函数,然后根据最小化总体误分类损失的原则提出一种更可靠和稳定的分类器算法,并将该算法应用在垃圾邮件分类中;本发明方法更加注重对简单样本的正确分类,这符合认知规律,即在误分率大致相当的情况下,该分类方法在分类难度值越小的邮件样本上误分率越低,这使得该分类方法的可信度高,更加可靠、稳定,适用性更强。
一种基于样本难度的垃圾邮件分类方法,具体步骤包括:
步骤一:从统计学的角度,采用一个统一的计算规则来计算邮件样本的分类难度值,并将带有分类难度值的训练样本输入到分类器中,让分类器进行学习,得到弱分类器,带有分类难度值的训练样本指的是带标签的邮件训练样本,即带有标签为垃圾邮件的训练样本和标签为非垃圾邮件的训练样本;
步骤二:根据邮件样本的分类难度值计算邮件样本的误分类代价;
步骤三:根据邮件样本的误分类代价初始化邮件样本权重;
步骤四:根据初始邮件样本权重按照以下方法来训练步骤一中得到的弱分类器:
根据第一个弱分类器的表现对带有分类难度值的训练样本的分布进行调整,使得被前一个弱分类器错分的训练样本在后续迭代中更受重视,即增加其权重;同时,训练样本权重的更新规则还和训练样本的分类难度值成负相关,即在错分的训练样本中样本的分类难度值越小,样本获得的权重越大,则其在错分的训练样本中更受重视,而后根据调整后的训练样本分布来训练下一个弱分类器,如此重复训练直到迭代结束;
步骤五:运用基于自适应学习的函数模型
Figure GDA0003674537850000021
将得到的全部弱分类器进行加权投票,获得最终结果,其中,f(χi)是指全部弱分类器进行加权投票后得到的最终分类器,即邮件分类结果,φt是按序调整数据分布而得到的第t个弱分类器,χi代表邮件样本,w是弱分类器的权重,w0是初始化权重,wt是指训练弱分类器的权重,T是迭代次数。
所述的步骤一中计算邮件样本分类难度值的计算过程为:
给定一个数据集D={(χ1,y1),(χ2,y2),...,(χN,yN)},每个邮件样本χi∈Rk且每个标签yi∈{-1,+1}表示垃圾邮件或非垃圾邮件,i属于1到N,Rk是指所有邮件样本实例,M表示分类器的总数,Cmi)(m=1,2,…,M)表示从分类器Cm获得的邮件样本χi的预测标签yi,即指分类器对邮件分类是否正确,对于任意样本χi(i=1,2,…,N),它的分类难度ζi被量化为
Figure GDA0003674537850000022
指示函数计算方式如下:
Figure GDA0003674537850000023
这里,I(Cm(xi)≠yi)=I(Ω),I为定义的函数,用来判断此分类器分类邮件是否正确,ζi∈[0,1],M值越大,样本的分类难度值越有统计学意义;邮件样本的分类难度指的是在现有的M个分类器中,将当前邮件样本错误分类的分类器所占的比重;一个邮件样本的分类难度值越大,对该邮件样本进行错误分类就更加符合认知规律;相反,一个邮件样本的分类难度值越小,则对该邮件样本进行错误分类就越不符合认知规律。
所述的步骤二中根据邮件样本的分类难度值计算邮件样本的误分类代价,计算方式为
ζ={ζi|i=1,2,...,N}为数据集D中各邮件样本的分类难度值,邮件样本χi的误分类代价为:
Figure GDA0003674537850000031
δ>0是控制数据集D中邮件样本的误分类代价值离散程度的参数,e是自然常数。
所述的步骤三中根据邮件样本的误分类代价初始化邮件样本权重,邮件样本权重的计算公式为:
Figure GDA0003674537850000032
其中:wi,1为邮件样本权重,j属于1到N。
所述的步骤四中依次训练弱分类器的具体过程为:
根据当前次迭代中邮件样本的权重wt,选择权重值排在前2/3的邮件样本作为训练集来训练弱分类器φt,根据φt的分类情况重新调整训练集中的训练样本分布情况;
首先,根据公式
Figure GDA0003674537850000033
计算得到当前弱分类器φt的权重wt,其中
Figure GDA0003674537850000034
其中:wi,t是第t次迭代权重的更新结果,yi是标签,当yi为-1代表垃圾邮件,当yi为1代表非垃圾邮件,φt是针对训练样本的弱分类器,然后根据权值更新规则
Figure GDA0003674537850000035
更新训练集中训练样本的权重,其中Zt是使得wt+1成为一个分布的规一化因子,重复操作,直到迭代结束。
所述的步骤五中对得到的全部弱分类器进行加权组合,具体计算方式为:
Figure GDA0003674537850000036
本方法的有益效果:
本方法所提出的基于样本难度的垃圾邮件分类方法,在不损失分类准确率的前提下,提高了垃圾邮件分类的准确性,大大降低了非垃圾邮件被误分的可能性。此外,该方法满足了课程学习的一般学习策略,即从易到难选择训练数据并训练分类器,进而提高了分类器的泛化性能(鉴别未知邮件是否为垃圾邮件的能力)。
附图说明
图1为本发明方法的流程图。
图2为不同难度区间上邮件样本的误分率分布趋势图。
具体实施方式
下面对本发明进行详细阐述,以便本领域的技术人员更好地理解本发明。需要指出的是,在不脱离本发明核心思想的前提下,本领域的技术人员可以对本发明做出一些改进,这些都属于本发明的保护范围。
本发明提出的一种更可靠、更稳定的一种基于样本难度的垃圾邮件分类方法,其步骤如图1所示,包括:
步骤一:从统计学的角度,采用一个统一的计算规则来计算邮件样本的分类难度值,并将带有分类难度值的训练样本输入到分类器中,让分类器进行学习,得到弱分类器,使其具有较强的现实意义。即在现有邮件分类器中,将当前邮件样本错误分类的分类器所占的比重越大,则该样本的分类难度越大。带有分类难度值的训练样本指的是带标签的邮件训练样本,即带有标签为垃圾邮件的训练样本和标签为非垃圾邮件的训练样本;
这里所述的分类器代表着用于邮件分类的分类器,具体是指数据挖掘中对样本进行分类的方法的统称,包含决策树、逻辑回归、朴素贝叶斯、神经网络等算法。
步骤二:根据邮件样本的分类难度值计算邮件样本的误分类代价;
步骤三:根据邮件样本的误分类代价初始化邮件样本权重;
步骤四:根据初始邮件样本权重按照以下方法来训练步骤一中得到的弱分类器:
根据第一个弱分类器h1的表现对带有分类难度值的训练样本的分布进行调整,使得被前一个弱分类器错分的训练样本在后续迭代中更受重视,即增加其权重;同时,训练样本权重的更新规则还和训练样本的分类难度值成负相关,即在错分的训练样本中样本的分类难度值越小,样本获得的权重越大,则其在错分的训练样本中更受重视,而后根据调整后的训练样本分布来训练下一个弱分类器,如此重复训练直到迭代结束,即达到最大迭代次数或者权值不再变化;
步骤五:步骤五:运用基于自适应学习的函数模型
Figure GDA0003674537850000041
将得到的全部弱分类器进行加权投票,获得最终结果,其中,f(χi)是指全部弱分类器进行加权投票后得到的最终分类器,即邮件分类结果,φt是按序调整数据分布而得到的第t个弱分类器,χi代表邮件样本,w是弱分类器的权重,w0是初始化权重,wt是指训练弱分类器的权重,T是迭代次数。
步骤一所述的基于统计度量的邮件样本分类难度的计算过程为:
给定一个数据集D={(χ1,y1),(χ2,y2),...,(χN,yN)},每个邮件样本χi∈Rk且每个标签yi∈{-1,+1}表示垃圾邮件或非垃圾邮件,i属于1到N,Rk是指所有邮件样本实例,M表示分类器的总数,Cmi)(m=1,2,…,M)表示从分类器Cm获得的邮件样本χi的预测标签yi,即指分类器对邮件分类是否正确,对于任意样本χi(i=1,2,…,N),它的分类难度ζi被量化为
Figure GDA0003674537850000051
指示函数计算方式如下:
Figure GDA0003674537850000052
这里,I(Cm(xi)≠yi)=I(Ω),I为定义的函数,用来判断此分类器分类邮件是否正确,ζi∈[0,1],M值越大,样本的分类难度值越有统计学意义;从分类难度的定义可以看出,邮件样本的分类难度指的是在现有的M个分类器中,将当前邮件样本错误分类的分类器所占的比重;一个邮件样本的分类难度值越大(即能找到一个正确分类该邮件样本的分类器的概率越小),对该邮件样本进行错误分类就更加符合认知规律,即对该邮件样本进行错误分类的可接受程度越大;相反,一个邮件样本的分类难度值越小(即能找到一个正确分类该邮件样本的分类器的概率越大),则对该邮件样本进行错误分类就越不符合认知规律,即对该邮件样本进行错误分类通常是不可接受的(现有分类器可以对这个邮件样本进行正确分类,因此选择一个做出错误分类的分类器显然是不合适的)。
步骤二所述的计算邮件样本的误分类代价,计算方式为:
ζ={ζi|i=1,2,...,N}为数据集D中各邮件样本的分类难度值,邮件样本χi的误分类代价为
Figure GDA0003674537850000053
δ>0是控制数据集D中邮件样本的误分类代价值离散程度的参数,e是自然常数。
步骤三所述的初始化样本权重,计算方式为:
Figure GDA0003674537850000054
其中:wi,1为邮件样本权重,j属于1到N,初始权重就是用1到N中每个实例的误分代价去除以1到N中所有实例误分代价之和,所以j就是为了区别i用来求1到N误分代价之和的。
步骤四所述的依次训练弱分类器,具体过程为:
根据当前次迭代中邮件样本的权重wt,选择权重值排在前2/3的邮件样本作为训练集来训练弱分类器φt,根据φt的分类情况重新调整训练集中的训练样本分布情况;每次迭代中只选择前2/3的样本作为训练集;
首先,根据公式
Figure GDA0003674537850000061
计算得到当前弱分类器φt的权重wt(置信度),其中
Figure GDA0003674537850000062
其中:wi,t是第t次迭代权重的更新结果,yi是标签,当yi为-1代表垃圾邮件,当yi为1代表非垃圾邮件,φt是针对训练样本的弱分类器;然后根据权值更新规则
Figure GDA0003674537850000063
更新训练集中训练样本的权重,其中Zt是使得wt+1成为一个分布的规一化因子,一次迭代一更新,重复操作,直到迭代结束。
具体地说:首先,在第一次迭代中训练弱分类器φt,使得分类难度较低的训练样本被赋予相对较高的权重,相反,具有较高分类难度的训练样本将被分配相对低的权重。
对于被当前分类器误分的训练样本(尤其是低分类难度的误分训练样本),该规则可以通过调整训练数据的分布来增加其被选择的概率;然后,这样的实例更有可能出现在下一次迭代的训练集中;具体来说,如果具有相对低ζi的实例χi被误分,它的误分代价l(ζi)根据公式
Figure GDA0003674537850000064
将会相对较大,然后根据公式
Figure GDA0003674537850000065
χi的权重将会在下一次迭代中增加。继而,实例χi将会有更大的概率被选中去训练下一个弱分类器。
步骤五所述的对得到的弱分类器进行加权组合,计算方式为:
Figure GDA0003674537850000066
按照这个公式得到误分类损失函数。在误分率大致相当的情况下,该分类器在分类难度值越小的邮件样本上误分率越低。因为在现实生活中,难度较高的邮件是少的,所以在误分率大致相当的情况下,垃圾邮件分类器在低难度样本上的误分率越小,该分类器的性能越好,这样可以大大降低非垃圾邮件被误分的可能性。
如图2所示为不同难度区间上邮件样本的误分率分布趋势图,不同难度区间上邮件样本的误分率是被错误分类的样本在所有样本中所占的比重。
对于被当前分类器误分的样本(尤其是低分类难度的误分样本),该规则可以通过调整训练数据的分布来增加其被选择的概率。在第一次迭代中训练弱分类器φt时,样本权重分布服从如下规律:分类难度较低的样本将被赋予相对较高的权重;相反,分类难度较高的样本将被赋予相对较低的权重。此外,训练集的整体难度随着迭代次数的增加也会逐渐增大。在第一次迭代中,弱分类器φt从完整的训练集D中选择相对简单的样本作为其训练集d1。子集(D-d1)表示为d1'。可以得出分类难度值的期望E为:
Figure GDA0003674537850000067
事实上,d1可以分为两个子集:
Figure GDA0003674537850000071
Figure GDA0003674537850000072
子集
Figure GDA0003674537850000073
由子集d1中被φt误分的样本组成,对于任一样本
Figure GDA0003674537850000074
其权重在下一次迭代中增加为
Figure GDA0003674537850000075
子集
Figure GDA0003674537850000076
由子集d1中被φ1正确分类的样本组成,对于任一样本
Figure GDA0003674537850000077
其权重在下一次迭代中降为
Figure GDA0003674537850000078
此外,子集d1'也可以分为两个子集
Figure GDA0003674537850000079
Figure GDA00036745378500000710
子集
Figure GDA00036745378500000711
由集合d1'中被φ1误分的样本组成,这些样本的权重将会增加;子集
Figure GDA00036745378500000712
由集和d1'中被φ1正确分类的样本组成,这些样本的权重将会减小。在下一次迭代中,弱分类器φ2将关注数据集D中权重排在前2/3的样本(主要是
Figure GDA00036745378500000713
Figure GDA00036745378500000714
中的样本)作为训练集d2。因此,d2可以近似地表示为
Figure GDA00036745378500000715
其中
Figure GDA00036745378500000716
由于
Figure GDA00036745378500000717
(d1和d2的大小相同),可以得出:
Figure GDA00036745378500000718
由此类推,在第t次和第(t+1)次迭代中,有:
Figure GDA00036745378500000719
由此,得到本基于样本难度的垃圾邮件分类器的性质如下:
性质1.随着迭代次数的增加,分类器会依次增加每个训练集的整体难度。
从性质1可以看出,基于样本难度的垃圾邮件分类器符合课程学习策略,这有助于提高分类器的泛化性能。基于样本难度的垃圾邮件分类器的目的是在没有任何精度损失的情况下,减少相对简单的样本的训练误差。本分类器所采用算法的损失函数如下:
Figure GDA00036745378500000720
可以看出,分类器的误分率越低、样本的分类难度越小,样本的累积误分类损失就越小。为了最小化损失函数L(H),得到L(H)的上界如下:
性质2.假设弱学习器φt的范围是[-1,+1]。样本χi的真实标签yi∈{-1,+1},最小化损失函数L(H)的上界为:
Figure GDA00036745378500000721
其中
Figure GDA00036745378500000722
从性质2得到的一个重要结论是,通过最小化性质2中的上界来最小化本分类器的代价函数L(H),即在基于样本难度的垃圾邮件分类器的每次迭代中最小化Zt。为了简化符号,忽略常数s,固定迭代索引t,设θi=yiφti)l(ζi),Z=Zt,φ=φt以及w=wt。然后将Z改写为:
Figure GDA0003674537850000081
由于弱分类器φ∈[-1,+1],误分代价l(ζj)∈(0,1](i=1,2,…,N),并且yi∈{-1,+1}(i=1,2,…,N),得出θi∈[-1,+1]。继而可以得到Z的上界如下:
Figure GDA0003674537850000082
通过分析找到恰当的w来最小化Z的上界:
Figure GDA0003674537850000083
其中
Figure GDA0003674537850000084
由此得到Z的上界:
Figure GDA0003674537850000085
因此,基于样本难度的垃圾邮件分类器所采用算法的损失函数上界为:
Figure GDA0003674537850000086
这里
Figure GDA0003674537850000087
可以看出,wt不仅由φt的精度决定,还由样本的误分代价l(ζi)决定。如果φt的精度很低,则必有很多样本χi∈dt使得yiφti)<0。于是,γt将会减小,使得弱分类器φt的权重wt也变小。也就是说,φt的精度越低,φt的可信性(置信度)就越低,这符合人类的直观判断。由于样本的误分代价与样本的分类难度成负相关,且
Figure GDA0003674537850000088
可以得出:
Figure GDA0003674537850000089
现假设φt的精度近似等于φt+1的精度。注意,在每次迭代中,弱分类器φ更关注于正确分类相对简单的样本,并且大多数误分样本都是相对较难的。综上分析,对于取值范围是{-1,+1}以及准确率不低于0.5的弱分类器φ,可以得出:γtt+1。根据
Figure GDA00036745378500000810
可以得出:
wt>wt+1
性质3.对于不同数据集Di和Dj(i≠j),其对应的分类难度值的期望分别为Ei和Ej,若Ei<Ej,则在数据集Di上训练出来的分类器的权重(可信度)wi大于在数据集Dj上训练出来的分类器的权重(可信度)wj
性质3反映出,基于样本难度的垃圾邮件分类器更加关注于对相对简单的样本进行正确分类,也即非垃圾邮件都会被正确分类,不会出现将非垃圾邮件屏蔽掉的风险,因此本分类器在对于垃圾邮件分类方面有着更好的效果。
根据表1中每个数据集的难度分布,可以发现分类器的精度与数据集的平均难度密切相关。也就是说,数据集的平均难度越低,分类器的精度越好。这一发现也符合人类认知。此外,基于样本难度的垃圾邮件分类器稳定性的提升与数据集难度分布的方差密切相关,当数据集的平均难度大致相当时,样本分类难度的方差越大,本分类器就越稳定。
根据表2显示的分类器10折交叉验证的评估结果可以看出,基于样本难度的垃圾邮件分类器基乎达到了最高的分类精度和最小的方差。这一结果表明,本分类器可以在保证更高可信度的同时,实现更好的分类精度和稳定性。
表3显示了各个分类器在多个测试集上的平均准确度和对应方差。“Γ”表示每个数据集中的测试集数。在表3中,由于基于样本难度的垃圾邮件分类器所采用的算法基本实现了最优平均精度和对应方差,所以本难分类器的稳定性确实优于大多数传统的垃圾邮件分类器。
表1:邮件样本分类难度的分布趋势
Figure GDA0003674537850000091
表2:10折交叉验证的评估结果
Figure GDA0003674537850000101
表3:本算法的泛化性能评估
Figure GDA0003674537850000102

Claims (4)

1.一种基于样本难度的垃圾邮件分类方法,其特征在于包括如下步骤:
步骤一:从统计学的角度,采用一个统一的计算规则来计算邮件样本的分类难度值,并将带有分类难度值的训练样本输入到分类器中,让分类器进行学习,得到弱分类器,带有分类难度值的训练样本指的是带标签的邮件训练样本,即带有标签为垃圾邮件的训练样本和标签为非垃圾邮件的训练样本;
其中计算邮件样本分类难度值的计算过程为:
给定一个数据集D={(χ1,y1),(χ2,y2),...,(χN,yN)},每个邮件样本χi∈Rk且每个标签yi∈{-1,+1}表示垃圾邮件或非垃圾邮件,i属于1到N,Rk是指所有邮件样本实例,M表示分类器的总数,Cmi)表示从分类器Cm获得的邮件样本χi的预测标签yi,即指分类器对邮件分类是否正确,其中m=1,2,…,M,对于任意样本χi,它的分类难度ζi被量化为:
Figure FDA0003674537840000011
指示函数计算方式如下:
Figure FDA0003674537840000012
这里,I(Cm(xi)≠yi)=I(Ω),I为定义的函数,用来判断此分类器分类邮件是否正确,ζi∈[0,1],M值越大,样本的分类难度值越有统计学意义;邮件样本的分类难度指的是在现有的M个分类器中,将当前邮件样本错误分类的分类器所占的比重;一个邮件样本的分类难度值越大,对该邮件样本进行错误分类就更加符合认知规律;相反,一个邮件样本的分类难度值越小,则对该邮件样本进行错误分类就越不符合认知规律;
步骤二:根据邮件样本的分类难度值计算邮件样本的误分类代价,计算方式为:ζ={ζi|i=1,2,...,N}为数据集D中各邮件样本的分类难度值,邮件样本χi的误分类代价为:
Figure FDA0003674537840000021
δ>0是控制数据集D中邮件样本的误分类代价值离散程度的参数,e是自然常数;
步骤三:根据邮件样本的误分类代价初始化邮件样本权重;
步骤四:根据初始邮件样本权重按照以下方法来训练步骤一中得到的弱分类器:
根据第一个弱分类器的表现对带有分类难度值的训练样本的分布进行调整,使得被前一个弱分类器错分的训练样本在后续迭代中更受重视,即增加其权重;同时,训练样本权重的更新规则还和训练样本的分类难度值成负相关,即在错分的训练样本中样本的分类难度值越小,样本获得的权重越大,则其在错分的训练样本中更受重视,而后根据调整后的训练样本分布来训练下一个弱分类器,如此重复训练直到迭代结束;
步骤五:运用基于自适应学习的函数模型
Figure FDA0003674537840000022
将得到的全部弱分类器进行加权投票,获得最终结果,其中,f(χi)是指全部弱分类器进行加权投票后得到的最终分类器,即邮件分类结果,φt是按序调整数据分布而得到的第t个弱分类器,χi代表邮件样本,w是弱分类器的权重,w0是初始化权重,wt是指训练弱分类器的权重,T是弱分类器的个数。
2.根据权利要求1所述的一种基于样本难度的垃圾邮件分类方法,其特征在于所述的步骤三中根据邮件样本的误分类代价初始化邮件样本权重,邮件样本权重的计算公式为:
Figure FDA0003674537840000023
其中:wi,1为邮件样本权重,j属于1到N。
3.根据权利要求2所述的一种基于样本难度的垃圾邮件分类方法,其特征在于所述的步骤四中依次训练弱分类器的具体过程为:
根据当前次迭代中邮件样本的权重wt,选择权重值排在前2/3的邮件样本作为训练集来训练弱分类器φt,根据φt的分类情况重新调整训练集中的训练样本分布情况;
首先,根据公式
Figure FDA0003674537840000031
计算得到当前弱分类器φt的权重wt,其中
Figure FDA0003674537840000032
其中:wi,t是第t次迭代权重的更新结果,yi是标签,当yi为-1代表垃圾邮件,当yi为1代表非垃圾邮件,φt是针对训练样本的弱分类器,
Figure FDA0003674537840000033
表示第t次迭代对应的训练集dt中各邮件样本预测后的误分类代价的期望值;然后根据权值更新规则
Figure FDA0003674537840000034
更新训练集中训练样本的权重,其中Zt是使得wt+1成为一个分布的规一化因子,重复操作,直到迭代结束。
4.根据权利要求3所述的一种基于样本难度的垃圾邮件分类方法,其特征在于所述的步骤五中对得到的全部弱分类器进行加权组合,计算方式为:
Figure FDA0003674537840000035
CN202010374804.3A 2020-05-06 2020-05-06 一种基于样本难度的垃圾邮件分类方法 Expired - Fee Related CN111582365B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010374804.3A CN111582365B (zh) 2020-05-06 2020-05-06 一种基于样本难度的垃圾邮件分类方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010374804.3A CN111582365B (zh) 2020-05-06 2020-05-06 一种基于样本难度的垃圾邮件分类方法

Publications (2)

Publication Number Publication Date
CN111582365A CN111582365A (zh) 2020-08-25
CN111582365B true CN111582365B (zh) 2022-07-22

Family

ID=72124689

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010374804.3A Expired - Fee Related CN111582365B (zh) 2020-05-06 2020-05-06 一种基于样本难度的垃圾邮件分类方法

Country Status (1)

Country Link
CN (1) CN111582365B (zh)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113743426A (zh) * 2020-05-27 2021-12-03 华为技术有限公司 一种训练方法、装置、设备以及计算机可读存储介质
CN113205082B (zh) * 2021-06-22 2021-10-15 中国科学院自动化研究所 基于采集不确定性解耦的鲁棒虹膜识别方法
CN115618238B (zh) * 2022-12-14 2023-03-14 湖南工商大学 基于参数偏移修正集成学习的信用卡欺诈检测方法

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP4482796B2 (ja) * 2004-03-26 2010-06-16 ソニー株式会社 情報処理装置および方法、記録媒体、並びにプログラム
EP3576020A1 (en) * 2018-05-30 2019-12-04 Siemens Healthcare GmbH Methods for generating synthetic training data and for training deep learning algorithms for tumor lesion characterization, method and system for tumor lesion characterization, computer program and electronically readable storage medium
CN109902805A (zh) * 2019-02-22 2019-06-18 清华大学 自适应样本合成的深度度量学习及装置
CN110399839B (zh) * 2019-07-26 2021-07-16 北京达佳互联信息技术有限公司 人脸识别方法、装置、设备及存储介质

Also Published As

Publication number Publication date
CN111582365A (zh) 2020-08-25

Similar Documents

Publication Publication Date Title
CN111582365B (zh) 一种基于样本难度的垃圾邮件分类方法
CN113326731B (zh) 一种基于动量网络指导的跨域行人重识别方法
Hoffmann Combining boosting and evolutionary algorithms for learning of fuzzy classification rules
CN107256245B (zh) 面向垃圾短信分类的离线模型改进与选择方法
US9311609B2 (en) Techniques for evaluation, building and/or retraining of a classification model
CN110197286A (zh) 一种基于混合高斯模型和稀疏贝叶斯的主动学习分类方法
US7587374B1 (en) Data clustering method for bayesian data reduction
CN107273818B (zh) 遗传算法融合差分进化的选择性集成人脸识别方法
US20150161232A1 (en) Noise-enhanced clustering and competitive learning
CN109919055B (zh) 一种基于AdaBoost-KNN的动态人脸情感识别方法
CN110059756A (zh) 一种基于多目标优化的多标签分类系统
CN113222035B (zh) 基于强化学习和知识蒸馏的多类别不平衡故障分类方法
CN108109612A (zh) 一种基于自适应降维的语音识别分类方法
CN109919236A (zh) 一种基于标签相关性的bp神经网络多标签分类方法
Dinakaran et al. Ensemble method of effective AdaBoost algorithm for decision tree classifiers
CN107832722B (zh) 一种基于AdaBoost的人脸检测分类器构造方法
WO2022177581A1 (en) Improved two-stage machine learning for imbalanced datasets
Nguyen et al. A hybrid evolutionary computation approach to inducing transfer classifiers for domain adaptation
CN116229333A (zh) 基于难易等级自适应动态调整的难易目标解耦检测方法
CN114140645B (zh) 基于改进自监督特征学习的摄影图像美学风格分类方法
CN109409231B (zh) 基于自适应隐马尔可夫的多特征融合手语识别方法
CN109492664A (zh) 一种基于特征加权模糊支持向量机的音乐流派分类方法及系统
CN109858546B (zh) 一种基于稀疏表示的图像识别方法
Kolakowska et al. Fisher sequential classifiers
CN115049006A (zh) 基于自适应前馈神经网络的通信信号识别方法和系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20220722

CF01 Termination of patent right due to non-payment of annual fee