CN114254997B - 基于密度自适应过采样的垃圾邮件分类系统及方法 - Google Patents

基于密度自适应过采样的垃圾邮件分类系统及方法 Download PDF

Info

Publication number
CN114254997B
CN114254997B CN202111488827.8A CN202111488827A CN114254997B CN 114254997 B CN114254997 B CN 114254997B CN 202111488827 A CN202111488827 A CN 202111488827A CN 114254997 B CN114254997 B CN 114254997B
Authority
CN
China
Prior art keywords
data set
sample
spam
sample points
sample point
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202111488827.8A
Other languages
English (en)
Other versions
CN114254997A (zh
Inventor
张莉
魏真
赵雷
王邦军
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Suzhou University
Original Assignee
Suzhou University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Suzhou University filed Critical Suzhou University
Priority to CN202111488827.8A priority Critical patent/CN114254997B/zh
Publication of CN114254997A publication Critical patent/CN114254997A/zh
Application granted granted Critical
Publication of CN114254997B publication Critical patent/CN114254997B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/10Office automation; Time management
    • G06Q10/107Computer-aided management of electronic mailing [e-mailing]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F17/00Digital computing or data processing equipment or methods, specially adapted for specific functions
    • G06F17/10Complex mathematical operations
    • G06F17/18Complex mathematical operations for evaluating statistical data, e.g. average values, frequency distributions, probability functions, regression analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/22Matching criteria, e.g. proximity measures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques

Landscapes

  • Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Business, Economics & Management (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Human Resources & Organizations (AREA)
  • Evolutionary Biology (AREA)
  • General Engineering & Computer Science (AREA)
  • Entrepreneurship & Innovation (AREA)
  • Computational Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Artificial Intelligence (AREA)
  • Strategic Management (AREA)
  • Evolutionary Computation (AREA)
  • Pure & Applied Mathematics (AREA)
  • Operations Research (AREA)
  • Mathematical Optimization (AREA)
  • Mathematical Analysis (AREA)
  • Economics (AREA)
  • General Business, Economics & Management (AREA)
  • Tourism & Hospitality (AREA)
  • Quality & Reliability (AREA)
  • Probability & Statistics with Applications (AREA)
  • Marketing (AREA)
  • Algebra (AREA)
  • Computer Hardware Design (AREA)
  • Databases & Information Systems (AREA)
  • Software Systems (AREA)
  • Information Transfer Between Computers (AREA)

Abstract

本发明涉及一种基于密度自适应过采样的垃圾邮件分类系统,包括数据输入模块用于输入原始邮件数据集合,其中原始邮件数据集合包括垃圾邮件数据集合和非垃圾邮件数据集合;过采样模块用于剔除垃圾邮件数据集合中的噪音样本点,使噪音样本点不参与过采样的过程,获得第一垃圾邮件数据集合,计算第一垃圾邮件数据集合中的每个样本点的密度,生成第二垃圾邮件数据集合;数据训练模块用于获得最终的邮件数据集合,利用其对神经网络模型进行训练,获得邮件识别模型;邮件识别模块用于将待识别的邮件数据输入至邮件识别模型,并输出识别结果。本发明能够达到数据样本数量的平衡,克服现有技术因数据样本数量不平衡而导致的对垃圾邮件检测率较低的问题。

Description

基于密度自适应过采样的垃圾邮件分类系统及方法
技术领域
本发明涉及数据挖掘技术领域,尤其是指一种基于密度自适应过采样的垃圾邮件分类系统及方法。
背景技术
随着互联网技术的日趋发展,电子邮件已成为人们日常交流和获取信息的一种方式。在电子邮件的使用过程中,难免会遇到广告邮件、骚扰邮件、欺诈邮件等垃圾邮件。某些商家和不法分子会利用垃圾邮件传播广告信息,甚至获取用户的消费行为等信息。因此,分辨这些垃圾邮件并将其归类为至垃圾邮件存放会大大提升用户使用电子邮件的交流体验感,并破坏不法分子利用垃圾邮件来获取利益的企图。
目前,机器学习方法已经被用到了垃圾邮件识别中,然而,在日常生活中,一般收到的都是非垃圾邮件,垃圾邮件较少,这是典型的数据分布不平衡的问题,因此经典的学习模型对垃圾邮件检测率往往较低。因此,需要一种方法使得垃圾邮件和非垃圾邮件的数量达到平衡。过采样方法就是使得数量达到平衡的一种方法,其中SMOTE(SyntheticMinority Oversampling Technique)是最为经典的过采样技术之一,SMOTE是通过线性插值的方式在少数类样本之间进行插值,生成新的样本点,但是这个方法存在对无用的样本点过采样以及类边界重叠的问题。然后Borderline-SMOTE是SMOTE的一种改进方法,其能够解决SMOTE样本重叠问题。但是该方法选择样本的生成区域有限,存在一定的局限性。因此,如何选择哪些样本点进行过采样以及如何选择合适的位置进行样本点生成是过采样方法中值得研究的问题。
发明内容
为此,本发明所要解决的技术问题在于克服现有技术存在的问题,提出一种基于密度自适应过采样的垃圾邮件分类系统及方法,其通过去除数据集合中的噪音样本,计算每个样本点的密度大小,并生成新的样本点,从而达到数据样本数量的平衡,克服了现有技术因数据样本数量不平衡而导致的对垃圾邮件检测率较低的问题。
为解决上述技术问题,本发明提供一种基于密度自适应过采样的垃圾邮件分类系统,包括:
数据输入模块,所述数据输入模块用于输入原始邮件数据集合,其中所述原始邮件数据集合包括垃圾邮件数据集合和非垃圾邮件数据集合;
过采样模块,所述过采样模块用于剔除所述垃圾邮件数据集合中的噪音样本点,获得剔除噪音样本点后的第一垃圾邮件数据集合,计算所述第一垃圾邮件数据集合中的每个样本点的密度,并生成第二垃圾邮件数据集合;
数据训练模块,所述数据训练模块用于将所述生成的第二垃圾邮件数据集合和原始邮件数据集合进行求和,获得最终的邮件数据集合,利用最终的邮件数据集合对神经网络模型进行训练,获得邮件识别模型;
邮件识别模块,所述邮件识别模块用于接收待识别的邮件数据,并将其输入至所述邮件识别模型,输出所述邮件数据的识别结果。
在本发明的一个实施例中,所述过采样模块包括:
噪音样本点剔除子模块,所述噪音样本点剔除子模块用于计算所述垃圾邮件数据集合中的样本点的均值以及标准差,并基于所述样本点的均值和标准差判断所述样本点是否为噪音样本点,若为噪音样本点,则不参与后续样本生成;
样本密度计算子模块,所述样本密度计算子模块用于计算第一垃圾邮件数据集合中的每个样本点的密度值,并对密度值进行归一化处理,并计算第一邮件数据集合中每个样本点周围应生成的样本点个数;
样本生成子模块,所述样本生成子模块用于依据每个样本点周围应生成的样本点个数生成新的样本点,获得第二垃圾邮件数据集合。
在本发明的一个实施例中,所述噪音样本点剔除子模块包括:
计算单元,所述计算单元用于计算所述垃圾邮件数据集合中的样本点的均值以及标准差;
判决单元,所述判决单元用于基于所述样本点的均值和标准差判断所述样本点是否为噪音样本点,若判断结果为是,则剔除该样本点,并更新所述垃圾邮件数据集合中的样本点,若判断结果为否,则保留该样本点,剔除的噪音样本点不参与后续样本生成。
在本发明的一个实施例中,所述样本密度计算子模块包括:
密度计算单元,所述密度计算单元用于在第一垃圾邮件数据集合中针对样本点寻找其同类近邻,基于样本点与其近邻之间的欧氏距离计算每个样本点的密度值;
数据处理单元,所述数据处理单元用于对所述密度值进行归一化处理;
样本点个数生成单元,所述样本点个数生成单元用于计算第一垃圾邮件数据集合中每个样本点周围应生成的样本点个数。
在本发明的一个实施例中,所述样本生成子模块包括:
样本生成单元,所述样本生成子单元用于在第一垃圾邮件数据集合中的某一个样本点周围生成新的样本;
样本数据更新单元,所述样本数据更新单元用于对第一垃圾邮件数据集合中的所有样本点重复新样本生成的步骤,获得第二垃圾邮件数据集合。
此外,本发明还提供一种基于密度自适应过采样的垃圾邮件分类方法,包括:
输入原始邮件数据集合,其中所述原始邮件数据集合包括垃圾邮件数据集合和非垃圾邮件数据集合;
剔除所述垃圾邮件数据集合中的噪音样本点,获得剔除噪音样本点后的第一垃圾邮件数据集合,计算所述第一垃圾邮件数据集合中的每个样本点的密度,并生成第二垃圾邮件数据集合;
将所述生成的第二垃圾邮件数据集合和原始邮件数据集合进行求和,获得最终的邮件数据集合,利用最终的邮件数据集合对神经网络模型进行训练,获得邮件识别模型;
接收待识别的邮件数据,并将其输入至所述邮件识别模型,输出所述邮件数据的识别结果。
7.根据权利要求6所述的基于密度自适应过采样的垃圾邮件分类方法,其特征在于,剔除所述垃圾邮件数据集合中的噪音样本点,获得剔除噪音样本点后的第一垃圾邮件数据集合,计算所述第一垃圾邮件数据集合中的每个样本点的密度,并生成第二垃圾邮件数据集合,包括:
计算所述垃圾邮件数据集合中的样本点的均值以及标准差,并基于所述样本点的均值和标准差判断所述样本点是否为噪音样本点;
计算第一垃圾邮件数据集合中的每个样本点的密度值,并对密度值进行归一化处理,并计算第一垃圾邮件数据集合中每个样本点周围应生成的样本点个数;
依据每个样本点周围应生成的样本点个数生成新的样本点,获得第二垃圾邮件数据集合。
在本发明的一个实施例中,计算所述垃圾邮件数据集合中的样本点的均值以及标准差,并基于所述样本点的均值和标准差判断所述样本点是否为噪音样本点,包括:
计算所述垃圾邮件数据集合中的样本点的均值以及标准差;
基于所述样本点的均值和标准差判断所述样本点是否为噪音样本点,若判断结果为是,则剔除该样本点,并更新所述垃圾邮件数据集合中的样本点,若判断结果为否,则保留该样本点。
在本发明的一个实施例中,计算第一垃圾邮件数据集合中的每个样本点的密度值,并对密度值进行归一化处理,并计算第一垃圾邮件数据集合中每个样本点周围应生成的样本点个数,包括:
在第一垃圾邮件数据集合中针对样本点寻找其同类近邻,基于样本点与其近邻之间的欧氏距离计算每个样本点的密度值
Figure BDA0003397649390000051
其中,
Figure BDA0003397649390000052
表示样本点xi和其近邻
Figure BDA0003397649390000053
之间的欧氏距离;
对所述密度值进行归一化处理为
Figure BDA0003397649390000054
计算第一垃圾邮件数据集合中每个样本点周围应生成的样本点个数为Nnew(xi)=nnew×nor_density(xi)(i=1,…,n'min)。
在本发明的一个实施例中,依据每个样本点周围应生成的样本点个数生成新的样本点,获得第二垃圾邮件数据集合,包括:
在第一垃圾邮件数据集合中的某一个样本点周围生成新的样本
Figure BDA0003397649390000061
对第一垃圾邮件数据集合中的所有样本点重复新样本生成的步骤,获得第二垃圾邮件数据集合。
本发明的上述技术方案相比现有技术具有以下优点:
本发明提出了基于密度自适应过采样的垃圾邮件识别系统及方法,其通过去除数据集合中的噪音样本,计算每个样本点的密度大小,并生成新的样本点,从而达到数据样本数量的平衡,克服了现有技术因数据样本数量不平衡而导致的对垃圾邮件检测率较低的问题。
附图说明
为了使本发明的内容更容易被清楚的理解,下面根据本发明的具体实施例并结合附图,对本发明作进一步详细的说明。
图1是本发明基于密度自适应过采样的垃圾邮件分类系统的硬件结构示意图。
图2是本发明基于密度自适应过采样的垃圾邮件分类方法的流程示意图。
其中,附图标记说明如下:10、数据输入模块;20、过采样模块;21、噪音样本点剔除子模块;22、样本密度计算子模块;23、样本生成子模块;30、数据训练模块;40、邮件识别模块。
具体实施方式
下面结合附图和具体实施例对本发明作进一步说明,以使本领域的技术人员可以更好地理解本发明并能予以实施,但所举实施例不作为对本发明的限定。
请参阅图1所示,本发明实施例提供一种基于密度自适应过采样的垃圾邮件分类系统,包括:
数据输入模块10,所述数据输入模块10用于输入原始邮件数据集合,其中所述原始邮件数据集合包括垃圾邮件数据集合和非垃圾邮件数据集合;
过采样模块20,所述过采样模块20用于剔除所述垃圾邮件数据集合中的噪音样本点,获得剔除噪音样本点后的第一垃圾邮件数据集合,计算所述第一垃圾邮件数据集合中的每个样本点的密度,并生成第二垃圾邮件数据集合;
数据训练模块30,所述数据训练模块30用于将所述生成的第二垃圾邮件数据集合和原始邮件数据集合进行求和,获得最终的邮件数据集合,利用最终的邮件数据集合对神经网络模型进行训练,获得邮件识别模型;
邮件识别模块40,所述邮件识别模块40用于接收待识别的邮件数据,并将其输入至所述邮件识别模型,输出所述邮件数据的识别结果。
本发明提出了基于密度自适应过采样的垃圾邮件识别系统,其通过去除数据集合中的噪音样本,计算每个样本点的密度大小,并生成新的样本点,从而达到数据样本数量的平衡,克服了现有技术因数据样本数量不平衡而导致的对垃圾邮件检测率较低的问题。
在本发明公开的一种基于密度自适应过采样的垃圾邮件分类系统中,所述过采样模块20包括:
噪音样本点剔除子模块21,所述噪音样本点剔除子模块21用于计算所述垃圾邮件数据集合中的样本点的均值以及标准差,并基于所述样本点的均值和标准差判断所述样本点是否为噪音样本点,若为噪音样本点,则不参与后续样本生成。
样本密度计算子模块22,所述样本密度计算子模块22用于计算第一垃圾邮件数据集合中的每个样本点的密度值,并对密度值进行归一化处理,并计算第一邮件数据集合中每个样本点周围应生成的样本点个数;
样本生成子模块23,所述样本生成子模块23用于依据每个样本点周围应生成的样本点个数生成新的样本点,获得第二垃圾邮件数据集合。
在本发明公开的一种基于密度自适应过采样的垃圾邮件分类系统中,所述噪音样本点剔除子模块21包括:
计算单元,所述计算单元用于计算所述垃圾邮件数据集合中的样本点的均值以及标准差;
判决单元,所述判决单元用于基于所述样本点的均值和标准差判断所述样本点是否为噪音样本点,若判断结果为是,则剔除该样本点,并更新所述垃圾邮件数据集合中的样本点,若判断结果为否,则保留该样本点,剔除的噪音样本点不参与后续样本生成。
在本发明公开的一种基于密度自适应过采样的垃圾邮件分类系统中,所述样本密度计算子模块22包括:
密度计算单元,所述密度计算单元用于在第一垃圾邮件数据集合中针对样本点寻找其同类近邻,基于样本点与其近邻之间的欧氏距离计算每个样本点的密度值;
数据处理单元,所述数据处理单元用于对所述密度值进行归一化处理;
样本点个数生成单元,所述样本点个数生成单元用于计算第一垃圾邮件数据集合中每个样本点周围应生成的样本点个数。
在本发明公开的一种基于密度自适应过采样的垃圾邮件分类系统中,所述样本生成子模块23包括:
样本生成单元,所述样本生成子单元用于在第一垃圾邮件数据集合中的某一个样本点周围生成新的样本;
样本数据更新单元,所述样本数据更新单元用于对第一垃圾邮件数据集合中的所有样本点重复新样本生成的步骤,获得第二垃圾邮件数据集合。
此外,请参阅图2所示,本发明实施例还提供一种基于密度自适应过采样的垃圾邮件分类方法,包括:
S1:输入原始邮件数据集合,其中所述原始邮件数据集合包括垃圾邮件数据集合和非垃圾邮件数据集合;
S2:剔除所述垃圾邮件数据集合中的噪音样本点,获得剔除噪音样本点后的第一垃圾邮件数据集合,计算所述第一垃圾邮件数据集合中的每个样本点的密度,并生成第二垃圾邮件数据集合;
S3:将所述生成的第二垃圾邮件数据集合和原始邮件数据集合进行求和,获得最终的邮件数据集合,利用最终的邮件数据集合对神经网络模型进行训练,获得邮件识别模型;
S4:接收待识别的邮件数据,并将其输入至所述邮件识别模型,输出所述邮件数据的识别结果。
本发明提出了基于密度自适应过采样的垃圾邮件识别方法,其通过去除数据集合中的噪音样本,计算每个样本点的密度大小,并生成新的样本点,从而达到数据样本数量的平衡,克服了现有技术因数据样本数量不平衡而导致的对垃圾邮件检测率较低的问题。
在本发明公开的一种基于密度自适应过采样的垃圾邮件分类方法中,对于上述实施方式的输入原始邮件数据集合,其中所述原始邮件数据集合包括垃圾邮件数据集合和非垃圾邮件数据集合S1,包括:
输入原始邮件数据集合D={(xi,yi)|xi∈Rd,yi∈{0,1},i=1,…,n},n是原始邮件数据集合中样本的总数,d是原始邮件数据集合的特征数,xi表示第i条邮件数据,yi是其标签。若yi=0,则xi为非垃圾邮件;若yi=1,则xi为垃圾邮件。令D=Dmaj∪Dmin,其中Dmaj为多数类数据集合,即非垃圾邮件数据集合,其样本数记为nmaj;Dmin为少数类数据集合,即垃圾邮件数据集合,其样本数记为nmin。令所需新生成的样本点个数为nnew=nmaj-nmin
在本发明公开的一种基于密度自适应过采样的垃圾邮件分类方法中,对于上述实施方式的剔除所述垃圾邮件数据集合中的噪音样本点,获得剔除噪音样本点后的第一垃圾邮件数据集合,计算所述第一垃圾邮件数据集合中的每个样本点的密度,并生成第二垃圾邮件数据集合S2,包括:
S2.1:计算所述垃圾邮件数据集合中的样本点的均值以及标准差,并基于所述样本点的均值和标准差判断所述样本点是否为噪音样本点,若判断结果为是,则剔除该样本点,并更新所述垃圾邮件数据集合中的样本点,若判断结果为否,则保留该样本点。具体地,计算垃圾邮件数据集合中的样本点的均值μ=[μ12,...,μd]T以及标准差σ=[σ12,...,σd]T,若对i∈[1,…,nmin],j=1,…,d,只要|xijj|>4σj成立,则该样本点被认为是噪音样本点,若样本点为噪音样本点,则去除这些样本点,得到第一垃圾邮件数据集合D'min,其样本点个数记为n'min
S2.2:计算第一垃圾邮件数据集合中的每个样本点的密度值,并对密度值进行归一化处理,并计算第一垃圾邮件数据集合中每个样本点周围应生成的样本点个数。具体地,在第一垃圾邮件数据集合D'min中,对于样本点xi(xi∈D'min,i=1,…,n'min)寻找其K个同类近邻
Figure BDA0003397649390000101
Figure BDA0003397649390000102
表示样本点xi和其近邻
Figure BDA0003397649390000103
之间的欧氏距离,则第一垃圾邮件数据集合中每个样本点的密度计算为
Figure BDA0003397649390000111
得到D'min中每个样本点的密度之后,先对密度值大小进行归一化操作,即
Figure BDA0003397649390000112
然后,再计算D'min中每个样本点周围应生成的样本点个数:Nnew(xi)=nnew×nor_density(xi)(i=1,…,n'min)。
S2.3:依据每个样本点周围应生成的样本点个数生成新的样本点,获得第二垃圾邮件数据集合。具体地,由样本点xi∈D'min生成一个新样本第j个特征的方案:
Figure BDA0003397649390000113
其中αj∈(0,1)是为第j个特征随机产生的生成系数,函数
Figure BDA0003397649390000114
表示从xi的近邻集合中
Figure BDA0003397649390000115
中随机选择一个近邻并取其第j个特征值。由此,在xi周围生成的新样本为:
Figure BDA0003397649390000116
并将其加入到集合Dnew中,对样本点xi,需要在其周围生成Nnew(xi)个新样本,重复新样本生成的步骤即可;对D'min中的所有样本点,重复新样本生成的步骤,直到所有样本点都被遍历过。由此,得到第二垃圾邮件数据集合Dnew
在本发明公开的一种基于密度自适应过采样的垃圾邮件分类方法中,对于上述实施方式的将所述生成的第二垃圾邮件数据集合和原始邮件数据集合进行求和,获得最终的邮件数据集合,利用最终的邮件数据集合对神经网络模型进行训练,获得邮件识别模型S3,包括:
令D'=D∪Dnew为过采样之后的最终的邮件数据集合,将D'作为训练模型的输入数据,采用成熟的分类技术,例如决策树或者朴素贝叶斯分类器来训练得到邮件识别模型。
在本发明公开的一种基于密度自适应过采样的垃圾邮件分类方法中,对于上述实施方式的接收待识别的邮件数据,并将其输入至所述邮件识别模型,输出所述邮件数据的识别结果S4,包括:
将接收到的待识别的邮件数据x∈Rd输入到邮件识别模型中,由输出来判断该邮件数据是否为垃圾邮件。
为了验证本发明提出的基于密度自适应过采样的垃圾邮件分类系统及其方法的性能。本发明在Spambase数据集上进行五折交叉验证实验。将数据集随机划分成五份,其中一份最为测试集,其余四份作为训练集进行新数据样本的生成。在样本生成后,对测试集进行分类,采用决策树CART(max_depth=10)和GaussianNB(高斯分布朴素贝叶斯)来对过采样之后得到新的数据集进行分类,我们取十次五折交叉验证得到的平均值作为该实验的结果。在过采样方法中,对比方法采用SMOTE和BorderLine-SMOTE。
采用AUC,F1-score,G-mean三个不同评价指标下对分类效果进行评估,混淆矩阵如表1所示:
表1混淆矩阵
预测值=1 预测值=0
真实值=1 TP FN
真实值=0 FP TN
Figure BDA0003397649390000121
Figure BDA0003397649390000122
Figure BDA0003397649390000123
Figure BDA0003397649390000124
AUC=Area Under Receiver Operating Characteristic Curve
分类结果如表2所示,本发明与SMOTE和BorderLineSMOTE相比,在AUC,F1-score,G-mean这三个指标下均取得了比较好的效果。
表2三种过采样方法的结果对比
Figure BDA0003397649390000131
本领域内的技术人员应明白,本申请的实施例可提供为方法、系统、或计算机程序产品。因此,本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本申请是参照根据本申请实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
显然,上述实施例仅仅是为清楚地说明所作的举例,并非对实施方式的限定。对于所属领域的普通技术人员来说,在上述说明的基础上还可以做出其它不同形式变化或变动。这里无需也无法对所有的实施方式予以穷举。而由此所引申出的显而易见的变化或变动仍处于本发明创造的保护范围之中。

Claims (5)

1.一种基于密度自适应过采样的垃圾邮件分类系统,其特征在于,包括:
数据输入模块,所述数据输入模块用于输入原始邮件数据集合,其中所述原始邮件数据集合包括垃圾邮件数据集合和非垃圾邮件数据集合,包括输入原始邮件数据集合D={(xi,yi)|xi∈Rd,yi∈{0,1},i=1,L,n},n是原始邮件数据集合中样本的总数,d是原始邮件数据集合的特征数,xi表示第i条邮件数据,yi是其标签,若yi=0,则xi为非垃圾邮件;若yi=1,则xi为垃圾邮件,令D=Dmaj∪Dmin,其中Dmaj为多数类数据集合,即非垃圾邮件数据集合,其样本数记为nmaj;Dmin为少数类数据集合,即垃圾邮件数据集合,其样本数记为nmin,令所需新生成的样本点个数为nnew=nmaj-nmin
过采样模块,所述过采样模块用于剔除所述垃圾邮件数据集合中的噪音样本点,获得剔除噪音样本点后的第一垃圾邮件数据集合,计算所述第一垃圾邮件数据集合中的每个样本点的密度,并生成第二垃圾邮件数据集合;
数据训练模块,所述数据训练模块用于将生成的第二垃圾邮件数据集合和原始邮件数据集合进行求和,获得最终的邮件数据集合,利用最终的邮件数据集合对神经网络模型进行训练,获得邮件识别模型;
邮件识别模块,所述邮件识别模块用于接收待识别的邮件数据,并将其输入至所述邮件识别模型,输出所述邮件数据的识别结果;
其中,所述过采样模块包括:
噪音样本点剔除子模块,其用于计算所述垃圾邮件数据集合中的样本点的均值以及标准差,并基于所述样本点的均值和标准差判断所述样本点是否为噪音样本点,若判断结果为是,则剔除该样本点,并更新所述垃圾邮件数据集合中的样本点,若判断结果为否,则保留该样本点,具体包括计算垃圾邮件数据集合中的样本点的均值μ=[μ12,...,μd]T以及标准差σ=[σ12,...,σd]T,若对i∈[1,L,nmin],j=1,L,d,只要|xijj|>4σj成立,则该样本点被认为是噪音样本点,若样本点为噪音样本点,则去除这些样本点,得到第一垃圾邮件数据集合D'min,其样本点个数记为n'min
样本密度计算子模块,其用于计算第一垃圾邮件数据集合中的每个样本点的密度值,并对密度值进行归一化处理,并计算第一垃圾邮件数据集合中每个样本点周围应生成的样本点个数,具体包括在第一垃圾邮件数据集合D'min中,对于样本点xi(xi∈D'min,i=1,L,n'min)寻找其K个同类近邻
Figure FDA0003928538510000021
Figure FDA0003928538510000022
表示样本点xi和其近邻
Figure FDA0003928538510000023
之间的欧氏距离,则第一垃圾邮件数据集合中每个样本点的密度计算为
Figure FDA0003928538510000024
得到D'min中每个样本点的密度之后,先对密度值大小进行归一化操作,即
Figure FDA0003928538510000025
然后,再计算D'min中每个样本点周围应生成的样本点个数:Nnew(xi)=nnew×nor_density(xi)(i=1,L,n'min);
样本生成子模块,其用于依据每个样本点周围应生成的样本点个数生成新的样本点,获得第二垃圾邮件数据集合,具体包括由样本点xi∈D'min生成一个新样本第j个特征的方案:
Figure FDA0003928538510000026
其中αj∈(0,1)是为第j个特征随机产生的生成系数,函数
Figure FDA0003928538510000027
表示从xi的近邻集合中
Figure FDA0003928538510000028
中随机选择一个近邻并取其第j个特征值,由此,在xi周围生成的新样本为:
Figure FDA0003928538510000029
并将其加入到集合Dnew中,对样本点xi,需要在其周围生成Nnew(xi)个新样本,重复新样本生成的步骤即可;对D'min中的所有样本点,重复新样本生成的步骤,直到所有样本点都被遍历过,由此,得到第二垃圾邮件数据集合Dnew
2.根据权利要求1所述的基于密度自适应过采样的垃圾邮件分类系统,其特征在于:所述噪音样本点剔除子模块包括:
计算单元,所述计算单元用于计算所述垃圾邮件数据集合中的样本点的均值以及标准差;
判决单元,所述判决单元用于基于所述样本点的均值和标准差判断所述样本点是否为噪音样本点,若判断结果为是,则剔除该样本点,并更新所述垃圾邮件数据集合中的样本点,若判断结果为否,则保留该样本点。
3.根据权利要求1所述的基于密度自适应过采样的垃圾邮件分类系统,其特征在于:所述样本密度计算子模块包括:
密度计算单元,所述密度计算单元用于在第一垃圾邮件数据集合中针对样本点寻找其同类近邻,基于样本点与其近邻之间的欧氏距离计算每个样本点的密度值;
数据处理单元,所述数据处理单元用于对所述密度值进行归一化处理;
样本点个数生成单元,所述样本点个数生成单元用于计算第一垃圾邮件数据集合中每个样本点周围应生成的样本点个数。
4.根据权利要求1所述的基于密度自适应过采样的垃圾邮件分类系统,其特征在于:所述样本生成子模块包括:
样本生成单元,所述样本生成子单元用于在第一垃圾邮件数据集合中的某一个样本点周围生成新的样本;
样本数据更新单元,所述样本数据更新单元用于对第一垃圾邮件数据集合中的所有样本点重复新样本生成的步骤,获得第二垃圾邮件数据集合。
5.一种基于密度自适应过采样的垃圾邮件分类方法,其特征在于,包括:
S1:输入原始邮件数据集合,其中所述原始邮件数据集合包括垃圾邮件数据集合和非垃圾邮件数据集合,包括输入原始邮件数据集合D={(xi,yi)|xi∈Rd,yi∈{0,1},i=1,L,n},n是原始邮件数据集合中样本的总数,d是原始邮件数据集合的特征数,xi表示第i条邮件数据,yi是其标签,若yi=0,则xi为非垃圾邮件;若yi=1,则xi为垃圾邮件,令D=Dmaj∪Dmin,其中Dmaj为多数类数据集合,即非垃圾邮件数据集合,其样本数记为nmaj;Dmin为少数类数据集合,即垃圾邮件数据集合,其样本数记为nmin,令所需新生成的样本点个数为nnew=nmaj-nmin
S2:剔除所述垃圾邮件数据集合中的噪音样本点,获得剔除噪音样本点后的第一垃圾邮件数据集合,计算所述第一垃圾邮件数据集合中的每个样本点的密度,并生成第二垃圾邮件数据集合;
S3:将所述生成的第二垃圾邮件数据集合和原始邮件数据集合进行求和,获得最终的邮件数据集合,利用最终的邮件数据集合对神经网络模型进行训练,获得邮件识别模型;
S4:接收待识别的邮件数据,并将其输入至所述邮件识别模型,输出所述邮件数据的识别结果;
其中,步骤S2包括以下步骤:
S2.1:噪音样本点剔除子模块,其用于计算所述垃圾邮件数据集合中的样本点的均值以及标准差,并基于所述样本点的均值和标准差判断所述样本点是否为噪音样本点,若判断结果为是,则剔除该样本点,并更新所述垃圾邮件数据集合中的样本点,若判断结果为否,则保留该样本点,具体包括计算垃圾邮件数据集合中的样本点的均值μ=[μ12,...,μd]T以及标准差σ=[σ12,...,σd]T,若对i∈[1,L,nmin],j=1,L,d,只要|xijj|>4σj成立,则该样本点被认为是噪音样本点,若样本点为噪音样本点,则去除这些样本点,得到第一垃圾邮件数据集合D'min,其样本点个数记为n'min
S2.2:样本密度计算子模块,其用于计算第一垃圾邮件数据集合中的每个样本点的密度值,并对密度值进行归一化处理,并计算第一垃圾邮件数据集合中每个样本点周围应生成的样本点个数,具体包括在第一垃圾邮件数据集合D'min中,对于样本点xi(xi∈D'min,i=1,L,n'min)寻找其K个同类近邻
Figure FDA0003928538510000051
Figure FDA0003928538510000052
表示样本点xi和其近邻
Figure FDA0003928538510000053
之间的欧氏距离,则第一垃圾邮件数据集合中每个样本点的密度计算为
Figure FDA0003928538510000054
得到D'min中每个样本点的密度之后,先对密度值大小进行归一化操作,即
Figure FDA0003928538510000055
然后,再计算D'min中每个样本点周围应生成的样本点个数:Nnew(xi)=nnew×nor_density(xi)(i=1,L,n'min);
S2.3:样本生成子模块,其用于依据每个样本点周围应生成的样本点个数生成新的样本点,获得第二垃圾邮件数据集合,具体包括由样本点xi∈D'min生成一个新样本第j个特征的方案:
Figure FDA0003928538510000056
其中αj∈(0,1)是为第j个特征随机产生的生成系数,函数
Figure FDA0003928538510000057
表示从xi的近邻集合中
Figure FDA0003928538510000058
中随机选择一个近邻并取其第j个特征值,由此,在xi周围生成的新样本为:
Figure FDA0003928538510000059
并将其加入到集合Dnew中,对样本点xi,需要在其周围生成Nnew(xi)个新样本,重复新样本生成的步骤即可;对D'min中的所有样本点,重复新样本生成的步骤,直到所有样本点都被遍历过,由此,得到第二垃圾邮件数据集合Dnew
CN202111488827.8A 2021-12-07 2021-12-07 基于密度自适应过采样的垃圾邮件分类系统及方法 Active CN114254997B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202111488827.8A CN114254997B (zh) 2021-12-07 2021-12-07 基于密度自适应过采样的垃圾邮件分类系统及方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111488827.8A CN114254997B (zh) 2021-12-07 2021-12-07 基于密度自适应过采样的垃圾邮件分类系统及方法

Publications (2)

Publication Number Publication Date
CN114254997A CN114254997A (zh) 2022-03-29
CN114254997B true CN114254997B (zh) 2023-03-10

Family

ID=80791810

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111488827.8A Active CN114254997B (zh) 2021-12-07 2021-12-07 基于密度自适应过采样的垃圾邮件分类系统及方法

Country Status (1)

Country Link
CN (1) CN114254997B (zh)

Family Cites Families (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR100473051B1 (ko) * 2002-07-29 2005-03-10 삼성에스디에스 주식회사 스팸메일 자동분류 방법
CN109492673A (zh) * 2018-10-19 2019-03-19 南京理工大学 一种基于谱聚类采样的不平衡数据预测方法
CN110443281B (zh) * 2019-07-05 2023-09-26 重庆信科设计有限公司 基于hdbscan聚类的文本分类自适应过采样方法
CN110852388A (zh) * 2019-11-13 2020-02-28 吉林大学 基于K-means改进的SMOTE算法
US12067571B2 (en) * 2020-03-11 2024-08-20 Synchrony Bank Systems and methods for generating models for classifying imbalanced data
CN113723514B (zh) * 2021-08-31 2023-10-20 重庆邮电大学 一种基于混合采样的安全接入日志数据平衡处理方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
"基于过采样与集成学习的不平衡数据分类方法研究";李刘杰;《中国优秀硕士学位论文全文数据库信息科技辑(月刊)》;20200215;正文第20-44页 *

Also Published As

Publication number Publication date
CN114254997A (zh) 2022-03-29

Similar Documents

Publication Publication Date Title
CN108898479B (zh) 信用评价模型的构建方法及装置
CN111414849B (zh) 一种基于演化卷积神经网络的人脸识别方法
CN111291816A (zh) 针对用户分类模型进行特征处理的方法及装置
CN108564117B (zh) 一种基于svm的贫困生辅助认定方法
CN110765266B (zh) 一种裁判文书相似争议焦点合并方法及系统
CN110111113A (zh) 一种异常交易节点的检测方法及装置
Salunkhe et al. A hybrid approach for class imbalance problem in customer churn prediction: A novel extension to under-sampling
CN111079427A (zh) 一种垃圾邮件识别方法及系统
Kaur et al. Improved email spam classification method using integrated particle swarm optimization and decision tree
CN111274390B (zh) 一种基于对话数据的情感原因确定方法及装置
CN112634022B (zh) 基于不平衡数据处理的信贷风险评估方法与系统
CN109101574B (zh) 一种数据防泄漏系统的任务审批方法和系统
CN110471854A (zh) 一种基于高维数据混合约简的缺陷报告指派方法
CN108268461A (zh) 一种基于混合分类器的文本分类装置
CN114254997B (zh) 基于密度自适应过采样的垃圾邮件分类系统及方法
CN112418987A (zh) 交通运输单位信用评级方法、系统、电子设备及存储介质
CN111368131A (zh) 用户关系识别方法、装置、电子设备及存储介质
CN108615124B (zh) 基于词频分析的企业评价方法及系统
Abdulla et al. A hybrid approach to detect credit card fraud
Le et al. Optimizing genetic algorithm in feature selection for named entity recognition
CN114511329A (zh) 账户识别方法、装置、存储介质和电子设备
CN113657808A (zh) 一种人员评定方法、装置、设备及存储介质
CN112396507A (zh) 基于阴影划分的集成svm个人信用评估方法
CN112131369A (zh) 一种业务类别确定方法和装置
CN110610213A (zh) 一种邮件分类方法、装置、设备及计算机可读存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant