CN111461199B - 基于分布的垃圾邮件分类数据的安全属性选择方法 - Google Patents
基于分布的垃圾邮件分类数据的安全属性选择方法 Download PDFInfo
- Publication number
- CN111461199B CN111461199B CN202010235982.8A CN202010235982A CN111461199B CN 111461199 B CN111461199 B CN 111461199B CN 202010235982 A CN202010235982 A CN 202010235982A CN 111461199 B CN111461199 B CN 111461199B
- Authority
- CN
- China
- Prior art keywords
- attribute
- attributes
- data
- data set
- samples
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/211—Selection of the most significant subset of features
- G06F18/2113—Selection of the most significant subset of features by ranking or filtering the set of features, e.g. using a measure of variance or of feature cross-correlation
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L51/00—User-to-user messaging in packet-switching networks, transmitted according to store-and-forward or real-time protocols, e.g. e-mail
- H04L51/21—Monitoring or handling of messages
- H04L51/212—Monitoring or handling of messages using filtering or selective blocking
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L51/00—User-to-user messaging in packet-switching networks, transmitted according to store-and-forward or real-time protocols, e.g. e-mail
- H04L51/42—Mailbox-related aspects, e.g. synchronisation of mailboxes
Landscapes
- Engineering & Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Theoretical Computer Science (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Signal Processing (AREA)
- Evolutionary Biology (AREA)
- Evolutionary Computation (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Computer Networks & Wireless Communication (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开了一种基于分布的垃圾邮件分类数据的安全属性选择方法,包括步骤:1)获取给垃圾邮件分类算法使用的邮件数据集、需要选择的属性个数;2)计算数据集每个属性的泛化能力,即属性与类别之间的对称不确定性;计算数据集每个属性的安全性,即属性的两类样本之间的EM距离值;3)对每个属性的泛化能力和安全性进行加权和,得到属性的评估值;4)根据属性的评估值和需要选择的属性个数选择出若干个属性;5)让数据集的数据部分仅保留已选择属性,供后续垃圾邮件分类算法使用。本发明解决了传统属性选择方法对安全性问题缺乏考虑的不足,同时改善了现有安全属性选择方法,减少计算泛化能力的时间开销,能更精确地评估属性的安全性。
Description
技术领域
本发明涉及计算机数据处理和机器学习的技术领域,尤其是指一种基于分布的垃圾邮件分类数据的安全属性选择方法。
背景技术
随着机器学习的数据集规模的增大和复杂性的增加,数据集的样本、属性数目均越来越多,一些数据集拥有数万甚至数十万个样本或属性,这导致了机器学习过程的时间开销过大。除此之外,机器学习本身所存在的安全性问题也逐渐开始暴露出来。一些机器学习系统如垃圾邮件分类系统、无线入侵检测系统均对安全问题极为敏感,攻击者对系统的了解和进行攻击的手段均越来越多。
为降低计算机运行机器学习程序的时间和空间成本,去除冗余属性以避免它们干扰学习器的正常学习,数据降维成为了机器学习领域中的重要课题,属性选择是对机器学习数据集进行降维的重要方法之一。而传统的属性选择方法只考虑了如何给机器学习分类器提供更利于其分类的属性,没有考虑这些属性是否容易被攻击者恶意修改。为了让选出的属性既能有利于机器学习方法对数据进行分类(泛化能力强),又保证攻击者难以修改这些属性(安全性高),目前已有的研究提出了采用对属性的泛化能力、安全性进行加权和的思路来平衡这两者在属性中的重要性。目前在这种思路下已有的属性选择手段有两种:1、在给定具体分类器的情况下,以属性的分类准确率作为泛化能力;样本在分类器中通过梯度下降方式进行修改以跨过分类边界时,攻击前的样本、攻击后形成的新样本之间的欧式距离作为安全性。该方法的优点是能为给定分类器较为精准地选出最合适的属性,但也存在两大问题:它仅针对特定分类器设计,若更换分类器则需重新进行属性选择;属性选择过程中用到了机器学习方法,需要频繁进行训练和测试,时间开销较大。2、用属性和类别的相关性减去属性之间的冗余度作为泛化能力;正样本到最邻近负样本距离的平均值作为安全性。相较于手段1),其优势在于完成属性选择的时间开销更少,且使用了数据的固有特性来评估属性的好坏,因此所选属性适用于不同类型的分类器。但取最邻近样本的距离的这个评估安全性的指标对数据中的异常值会比较敏感,当负样本的异常值落在正样本空间中的时候,该异常值负样本会成为大多数正样本的最邻近样本,而实际分类器的决策边界并不会因少量异常值而轻易改变,即该方法对安全性的计算会因少量异常值样本的存在而变得不准确;除此之外对二值型变量(又称布尔变量)的安全性计算也不准确:由于正样本和负样本的二值属性的取值都只能为0或1,前n个属性对应的取值有2n种,当数据集样本的总数多于100个,甚至上千个时,在选前几个甚至十几个属性的时候,正样本到最邻近负样本的距离会衡为零(所有样本在所选的少数属性中,总能找到取值和它完全相同的样本)。
发明内容
本发明的目的在于克服现有技术的缺点与不足,提出了一种基于分布的垃圾邮件分类数据的安全属性选择方法,解决传统属性选择方法对属性的安全性欠缺考虑、现有安全属性选择方法无法同时兼顾分类器适用性和准确性的问题。沿用背景技术中提及的将泛化能力和安全性加权和的形式,从数据的固有特性出发,用时间开销进一步减小的对称不确定性作为衡量属性的泛化能力的指标,用精确度更高的基于分布的EM距离作为衡量属性的安全性的指标。
为实现上述目的,本发明所提供的技术方案为:基于分布的垃圾邮件分类数据的安全属性选择方法,包括以下步骤:
1)获取基本数据,包括给垃圾邮件分类算法使用的邮件数据集、需要选择的属性个数;其中,所述邮件数据集包含数据和类别两部分,所述需要选择的属性个数为不大于数据集属性总数的正整数,根据实际需要而定,在此设其为k;
2)计算数据集每个属性的泛化能力,即属性与类别之间的对称不确定性;计算数据集每个属性的安全性,即属性的两类样本之间的EM距离值;
3)对每个属性的泛化能力和安全性进行加权和,得到属性的评估值;
4)根据属性的评估值和步骤1)中需要选择的属性个数选择出若干个属性;
5)让数据集的数据部分仅保留已选择属性,供后续垃圾邮件分类算法使用。
在步骤1)中,所述邮件数据集是指含有数据和类别的若干个邮件样本组成的集合;所述数据集的数据部分是一个行、列数目相同的二维数据表,每一行是样本,每一列是属性;所述类别部分为数据集当中有别于属性的一列,用于表示数据部分的每一行样本分别属于哪一类,对于邮件数据集,样本分为正常邮件、垃圾邮件两类;所述垃圾邮件分类算法是指能通过邮件数据集的数据部分来预测其类别的机器学习算法。
在步骤2)中,所述泛化能力是指用来衡量属性能为分类算法对类别的预测提供多少有效信息的指标的统称,所述对称不确定性SU是一个衡量属性能给类别的预测提供多少信息的指标;对称不确定性的计算包括以下步骤:
2.1)假设数据集要计算的属性为f,类别为C;
2.2)分别计算属性f和类别C的取值熵H(f)和H(C),对于给定的数据列X,即对应数据集的属性列或类别列,取值熵H的计算公式为其中,t为X中互不相同的取值个数,xi代表所有的互不相同取值中的第i个取值,i=1,2,…,t,P(xi)代表X取值为xi的样本占X所有样本的比例;
2.3)计算f与C之间的互信息I(f,C):I(f,C)=H(f)-H(f|C),其中H(f)在步骤2.2)中已计算,H(f|C)为已知类别C时属性f的条件取值熵,对于给定的数据列X和Y,H(X|Y)为数据列X关于数据列Y的条件取值熵,其中t1、t2分别为X、Y中互不相同的取值个数,xi、yj分别代表X、Y中所有的互不相同的取值中的第i、j个取值,i=1,2,…,t1,j=1,2,…,t2,P(yj)代表Y取值为yj的样本占Y所有样本的比例;P(xi|yj)代表当Y的取值为yj时,X取值为xi的样本占Y取值为yj的所有样本的比例;
在步骤2)中,所述安全性是用来衡量通过对属性进行修改来误导、欺骗分类算法,让其产生错误预测的难度的指标的统称;所述EM距离是衡量两个一维变量分布差异大小的指标,用EM距离计算一个属性中两类样本的分布差异的时候有以下特点:
a、假设一个属性中两类样本的分布的概率密度函数为p1(x1)和p2(x2),那么它们之间的EM距离为其中,x1、x2分别为p1、p2的两个连续随机变量,ρ(x1,x2)为变量x1、x2的所有能取到的联合分布,d(x1,x2)为计算变量x1、x2之间的距离的函数,的作用是找出一个联合分布ρ,使得∫∫ρ(x1,x2)d(x1,x2)dx1dx2的值最小;
b、实际数据集由若干个样本组成,即数据集提供的数据对于EM距离来说是离散的,因此a中的公式不能直接用来给两个变量作计算,需要将这个二重积分问题离散化,即将其转换为线性规划问题;
c、联合分布ρ和距离d这两个连续变量需转换为向量,假设邮件数据集的样本类别有正、负两类,正类代表邮件样本为垃圾邮件,负类代表邮件样本为正常邮件,正、负类样本的个数分别有m、n个,正类样本的取值为x1i,负类样本的取值为x2j,其中i=1,2,…,m,j=1,2,…,n,分别用:Ω=(ρ(x11,x21),…,ρ(x11,x2n);…;ρ(x1m,x21),…,ρ(x1m,x2n))T表示每一对正、负样本之间的联合分布关系,D=(d(x11,x21),…,d(x11,x2n);…;d(x1m,x21),…,d(x1m,x2n))T表示每一对正、负样本之间的距离关系,其中,T为向量或矩阵的转置符号,此时EM距离中的积分公式∫∫ρ(x1,x2)d(x1,x2)dx1dx2转换成<Ω,D>,即Ω和D的内积;
d、联合分布ρ作为一个二维概率密度函数,需满足以下三个条件:ρ(x1,x2)≥0,∫ρ(x1,x2)dx2=p1(x1),∫ρ(x1,x2)dx1=p2(x2),下面e中将叙述这些约束条件如何转换为能够以样本取值为单位来计算的公式;
e、分别令P=(p1(x11),…,p1(x1m);p2(x21),…,p2(x2n))T,M1i为一个第i行全为1、其余行全为0的m×n矩阵,M2j为n阶单位矩阵,i,j=1,2,…,m,再令此时M是一个(m+n)×mn的矩阵,d中的约束条件就转变成了
f、综上c至e所述,原积分问题转变为求解minΩ{<Ω,D>|MΩ=P,Ω≥0}的线性规划问题,但该线性规划问题不易求解,需将原线性规划问题转换成其对偶形式:假设原线性规划问题取得最小值的极值点为Ω0,在MΩ0=P两边同时左乘一个m+n维向量θ=(θ1,θ2,…,θm+n)T使θTMΩ0=θTP,此时的θ中的θ1,θ2,…,θm+n为未确定的变量,原问题将转换为maxθ{PTθ|MTθ≤D};不等式MTθ≤D形成了一个约束区域,在此约束区域中求解出PTθ的最大值即可,设PTθ的最大值在θ0处取到,EM距离的值即等于PTθ0。
在步骤3)中,所述加权和形式为其中,fi为数据集的第i个属性,nf为数据集属性总数,i,j=1,2,…,nf,G和S分别为属性的泛化能力和安全性,和的作用是平衡泛化能力G和安全性S在属性选择中的权重,分别为每个属性的泛化能力、安全性的平均值的倒数,A为所述属性的评估值,A的值越大,说明属性越优。
在步骤4)中,选择出若干个属性,包括如下步骤:
4.1)对步骤3)中计算出的属性的评估值进行降序排序;
4.2)在降序排序序列中选出前k个属性,即步骤1)所提及的k个属性。
在步骤5)中,所述已选择属性是指在步骤4)中已选择出的k个属性,即步骤1)所提及的k个属性;数据集的数据部分仅保留这k列的属性,类别部分不变,得到的新数据集即可用来给垃圾邮件分类算法使用。
本发明与现有技术相比,具有如下优点与有益效果:
1、本发明解决了传统属性选择方法对邮件数据集安全性欠缺考虑的问题。
2、本发明相较于现有基于具体分类器的安全属性选择方法,使用了数据的固有特性,而不是分类器的性能指标来评估数据集属性的优劣,因此适用于所有的垃圾邮件分类器而非仅特定分类器。
3、本发明降低了现有的从数据固有特性出发的安全属性选择方法的泛化能力部分的时间开销。
4、本发明相较于现有的从数据固有特性出发的安全属性选择方法,评估安全性的指标对数据集当中的异常值不敏感,同时该安全性评估指标也适用于二值型变量。
总之,本发明从数据的固有特性出发,兼顾了数据属性的泛化能力和安全性,为机器学习分类算法选择出有利于其分类且安全的属性,解决了传统属性选择方法对安全性问题缺乏考虑的不足,同时改善了现有安全属性选择方法,减少计算泛化能力的时间开销,能更精确地评估属性的安全性。
附图说明
图1为本发明对垃圾邮件数据集进行属性选择的逻辑关系示意图。
图2为两类邮件样本在一个普通属性下分布差异和修改的示意图。图2最左图展示的是在数据集当中,一个普通属性的两类样本中常见的两个分布是存在一定差异的,本发名中的EM距离可以算出两个分布差异的大小,图2中间、最右两图分别是图2最左图的两个分布,表示攻击者可以修改其中的数据使得分布产生改变。
图3为两类邮件样本在一个二值型属性下修改的示意图。是图2情形的特例,它是一个特殊的属性:二值属性(如只能取0和1的属性)。
图4为描述属性在不同情形下的泛化能力和安全性的示意图。图4中(A)分别表示两类邮件样本(浅色与深色圆点)在横轴、纵轴两个属性下的空间分布情况。图4中(B)表示两类邮件样本(浅色与深色密度曲线)在横轴、纵轴两个维度下取值的密度函数的分布差异,(a)、(b)、(c)、(d)分别是泛化能力和安全性均好、泛化能力较好但安全性较差、泛化能力较差但安全性较好、泛化能力和安全性均差的四种情况。
具体实施方式
下面结合具体实施例对本发明作进一步说明。
如图1至图4所示,本实施例所提供的基于分布的垃圾邮件分类数据的安全属性选择方法,包括以下步骤:
1)获取基本数据,包括给分类算法使用的垃圾邮件分类数据集(含数据和类别两部分)、需要选择的属性个数,其中,所述邮件数据集是指含有数据和类别的若干个邮件样本组成的集合;所述数据集的数据部分是一个行、列数目相同的二维数据表,每一行是样本,每一列是属性;所述类别部分为数据集当中有别于属性的一列,用于表示数据部分的每一行样本分别属于哪一类,对于邮件数据集,样本分为正常邮件、垃圾邮件两类;所述垃圾邮件分类算法是指能通过邮件数据集的数据部分来预测其类别的机器学习算法;所述需要选择的属性个数为不大于数据集属性总数的正整数,根据实际需要而定,在此设其为k。
获取的数据集如表1所示,数据集共有5个属性,2个类别(正类和负类),每个类别分别有5个样本,表中的数值为每个样本在每个属性下的取值;现需要从数据集当中选取出2个属性,即k=2。
表1获取的数据集
属性1 | 属性2 | 属性3 | 属性4 | 属性5 | 类别 |
0.4867 | 0.5263 | 0.0000 | 0.2500 | 0.8805 | 正类 |
0.7724 | 0.2456 | 1.0000 | 0.0000 | 0.8673 | 正类 |
0.0000 | 0.0351 | 0.0000 | 0.5000 | 0.9140 | 正类 |
0.6877 | 0.9649 | 0.0000 | 0.3750 | 0.8382 | 正类 |
0.1247 | 0.2982 | 0.0000 | 0.5000 | 1.0000 | 正类 |
0.4806 | 0.2456 | 1.0000 | 0.5000 | 0.0000 | 负类 |
1.0000 | 0.2632 | 1.0000 | 0.8750 | 0.2099 | 负类 |
0.5533 | 1.0000 | 0.0000 | 0.3750 | 0.0758 | 负类 |
0.6877 | 0.0000 | 1.0000 | 1.0000 | 0.1472 | 负类 |
0.9310 | 0.5439 | 1.0000 | 0.7500 | 0.1020 | 负类 |
2)计算数据集每个属性的泛化能力,即属性与类别之间的对称不确定性,其中,所述泛化能力是指用来衡量属性能为分类算法对类别的预测提供多少有效信息的指标的统称,所述对称不确定性(Symmetrical Uncertainty,SU)是一个衡量属性能给类别的预测提供多少信息的指标,该指标减少了现有的安全属性选择方法计算泛化能力的时间开销;对称不确定性的计算包括以下步骤:
2.1)假设数据集要计算的属性为f,类别为C;
2.2)分别计算属性f和类别C的取值熵H(f)和H(C),对于给定的数据列X(对应数据集的属性列或类别列),取值熵H的计算公式为其中t为X中互不相同的取值个数,xi代表所有的互不相同取值中的第i个取值,i=1,2,…,t,P(xi)代表X取值为xi的样本占X所有样本的比例;
2.3)计算f与C之间的互信息I(f,C):I(f,C)=H(f)-H(f|C),其中H(f)在2.2)中已计算,H(f|C)为已知类别C时属性f的条件取值熵,对于给定的数据列X和Y,H(X|Y)为数据列X关于数据列Y的条件取值熵,其中t1、t2分别为X、Y中互不相同的取值个数,xi、yj分别代表X、Y中所有的互不相同的取值中的第i、j个取值,i=1,2,…,t1,j=1,2,…,t2,P(yj)代表Y取值为yj的样本占Y所有样本的比例,P(xi|yj)代表当Y的取值为yj时,X取值为xi的样本占Y取值为yj的所有样本的比例;
采用上述步骤计算,得到表1中的属性的对称不确定性值如表2所示:
表2属性的对称不确定性
属性1 | 属性2 | 属性3 | 属性4 | 属性5 |
0.3904 | 0.3904 | 0.2315 | 0.2714 | 0.4764 |
计算数据集每个属性的安全性,即属性的两类样本之间的EM距离值,其中,所述安全性是用来衡量通过对属性进行修改来误导、欺骗分类算法,让其产生错误预测的难度的指标的统称;所述EM距离(Earth Mover’s Distance,EMD)是衡量两个一维变量分布差异大小的指标,该指标弥补了传统属性选择方法没有考虑安全性的不足之处,同时提升了现有基于数据固有特性来选择属性的安全属性选择方法评估属性的准确性;用EM距离计算一个属性中两类样本的分布差异的时候有以下特点:
a、假设一个属性中两类样本的分布的概率密度函数为p1(x1)和p2(x2),那么它们之间的EM距离为其中x1、x2分别为p1、p2的两个连续随机变量,ρ(x1,x2)为变量x1、x2的所有能取到的联合分布,d(x1,x2)为计算变量x1、x2之间的距离的函数,可以是|x1-x2|、|x1-x2|2等,的作用是找出一个联合分布ρ,使得∫∫ρ(x1,x2)d(x1,x2)dx1dx2的值最小;
b、实际数据集由若干个样本组成,即数据集提供的数据对于EM距离来说是离散的,因此a中的公式不能直接用来给两个变量作计算,需要将这个二重积分问题“离散化”,即将其转换为线性规划问题;
c、联合分布ρ和距离d这两个连续变量需转换为向量,假设邮件数据集的样本类别有正、负两类(正类代表邮件样本为垃圾邮件,负类代表邮件样本为正常邮件),正、负类样本的个数分别有m、n个,正类样本的取值为x1i,负类样本的取值为x2j,其中i=1,2,…,m,j=1,2,…,n,分别用:Ω=(ρ(x11,x21),…,ρ(x11,x2n);…;ρ(x1m,x21),…,ρ(x1m,x2n))T表示每一对正、负样本之间的联合分布关系,D=(d(x11,x21),…,d(x11,x2n);…;d(x1m,x21),…,d(x1m,x2n))T表示每一对正、负样本之间的距离关系,其中T为向量或矩阵的转置符号,此时EM距离中的积分公式∫∫ρ(x1,x2)d(x1,x2)dx1dx2转换成了<Ω,D>,即Ω和D的内积;
d、联合分布ρ作为一个二维概率密度函数,需满足以下三个条件:ρ(x1,x2)≥0,∫ρ(x1,x2)dx2=p1(x1),∫ρ(x1,x2)dx1=p2(x2),下面e中将叙述这些约束条件如何转换为可以以样本取值为单位来计算的公式;
e、分别令P=(p1(x11),…,p1(x1m);p2(x21),…,p2(x2n))T,M1i为一个第i行全为1,其余行全为0的m×n矩阵,M2j为n阶单位矩阵,i,j=1,2,…,m,再令此时M是一个(m+n)×mn的矩阵,d中的约束条件就转变成了
f、综上c至e所述,原积分问题转变为求解minΩ{<Ω,D>|MΩ=P,Ω≥0}的线性规划问题,但该线性规划问题不易求解,需将原线性规划问题转换成其对偶形式:假设原线性规划问题取得最小值的极值点为Ω0,在MΩ0=P两边同时左乘一个m+n维向量θ=(θ1,θ2,…,θm+n)T使θTMΩ0=θTP(此时的θ中的θ1,θ2,…,θm+n为未确定的变量),原问题将转换为maxθ{PTθ|MTθ≤D};不等式MTθ≤D形成了一个约束区域,在此约束区域中求解出PTθ的最大值即可(目前现有适合于此情形的求解算法有对偶单纯形法、Benders分解、DW分解等),设PTθ的最大值在θ0处取到,EM距离的值即等于PTθ0。
采用上述步骤计算,得到表1中的属性两类样本间的EM距离如表3所示:
表3属性两类样本间的EM距离
属性1 | 属性2 | 属性3 | 属性4 | 属性5 |
0.3343 | 0.0877 | 0.5500 | 0.3562 | 0.7979 |
3)对每个属性的泛化能力和安全性进行加权和,得到属性的评估值。其中,所述加权和形式为其中fi为数据集的第i个属性,nf为数据集属性总数,i,j=1,2,…,nf,G和S分别为属性的泛化能力和安全性,这在前面步骤中已计算,和的作用是平衡泛化能力G和安全性S在属性选择中的权重,分别为每个属性的泛化能力、安全性的平均值的倒数,A即为所述属性的评估值;A的值越大,说明属性越优。
采用上述步骤计算,得到表1中所有属性泛化能力和安全性的平均值、每个属性的评估值如表4所示:
表4所有属性泛化能力和安全性的平均值、每个属性的评估值
4)根据属性的评估值和步骤1)中需要选择的属性个数选择出若干个属性,包括如下步骤:
4.1)对步骤3)中计算出的属性的评估值进行降序排序;
4.2)在降序排序序列中选出前k个属性,即步骤1)所提及的k个属性。
根据上述步骤,经降序排序后,评估值从高到低的属性依次为属性5、属性3、属性1、属性4、属性2,因此选出的前k=2个属性分别为属性5、属性3。
5)让数据集的数据部分仅保留已选择属性,供后续分类算法使用,其中,所述已选择属性是指在步骤4)中已选择出的k个属性;数据集的数据部分仅保留这k列的属性,类别部分不变,得到的新数据集即可用来给垃圾邮件分类算法使用。
留给垃圾邮件分类算法使用的新数据集如表5所示,保留了属性3和属性5:
表5留给机器学习分类算法使用的新数据集
综上所述,在采用以上方案后,本发明为机器学习领域中的垃圾邮件分类算法提供了新的安全且精确的属性选择方法。在垃圾邮件分类算法进行分类前,执行本发明中的属性选择方法,有效地从数据中筛选出有利于垃圾邮件分类算法分类的属性的同时,又能使所选属性具备一定的抗修改能力,攻击者通过修改这些属性来欺骗垃圾邮件分类算法的难度也较大,在如今机器学习方法已广泛应用在各个领域中的情况下,具有实际应用价值,值得推广。
以上所述实施例只为本发明之较佳实施例,并非以此限制本发明的实施范围,故凡依本发明之形状、原理所作的变化,均应涵盖在本发明的保护范围内。
Claims (6)
1.基于分布的垃圾邮件分类数据的安全属性选择方法,其特征在于,包括以下步骤:
1)获取基本数据,包括给垃圾邮件分类算法使用的邮件数据集、需要选择的属性个数;其中,所述邮件数据集包含数据和类别两部分,所述需要选择的属性个数为不大于数据集属性总数的正整数,根据实际需要而定,在此设其为k;
2)计算数据集每个属性的泛化能力,即属性与类别之间的对称不确定性;计算数据集每个属性的安全性,即属性的两类样本之间的EM距离值;
所述安全性是用来衡量通过对属性进行修改来误导、欺骗分类算法,让其产生错误预测的难度的指标的统称;所述EM距离是衡量两个一维变量分布差异大小的指标,用EM距离计算一个属性中两类样本的分布差异的时候有以下特点:
a、假设一个属性中两类样本的分布的概率密度函数为p1(x1)和p2(x2),那么它们之间的EM距离为其中,x1、x2分别为p1、p2的两个连续随机变量,ρ(x1,x2)为变量x1、x2的所有能取到的联合分布,d(x1,x2)为计算变量x1、x2之间的距离的函数,的作用是找出一个联合分布ρ,使得∫∫ρ(x1,x2)d(x1,x2)dx1dx2的值最小;
b、实际数据集由若干个样本组成,即数据集提供的数据对于EM距离来说是离散的,因此a中的公式不能直接用来给两个变量作计算,需要将这个二重积分问题离散化,即将其转换为线性规划问题;
c、联合分布ρ和距离d这两个连续变量需转换为向量,假设邮件数据集的样本类别有正、负两类,正类代表邮件样本为垃圾邮件,负类代表邮件样本为正常邮件,正、负类样本的个数分别有m、n个,正类样本的取值为x1i,负类样本的取值为x2j,其中i=1,2,…,m,j=1,2,…,n,分别用:Ω=(ρ(x11,x21),…,ρ(x11,x2n);…;ρ(x1m,x21),…,ρ(x1m,x2n))T表示每一对正、负样本之间的联合分布关系,D=(d(x11,x21),…,d(x11,x2n);…;d(x1m,x21),…,d(x1m,x2n))T表示每一对正、负样本之间的距离关系,其中,T为向量或矩阵的转置符号,此时EM距离中的积分公式∫∫ρ(x1,x2)d(x1,x2)dx1dx2转换成<Ω,D>,即Ω和D的内积;
d、联合分布ρ作为一个二维概率密度函数,需满足以下三个条件:ρ(x1,x2)≥0,∫ρ(x1,x2)dx2=p1(x1),∫ρ(x1,x2)dx1=p2(x2),下面e中将叙述这些约束条件如何转换为能够以样本取值为单位来计算的公式;
e、分别令P=(p1(x11),…,p1(x1m);p2(x21),…,p2(x2n))T,M1i为一个第i行全为1、其余行全为0的m×n矩阵,M2j为n阶单位矩阵,i,j=1,2,…,m,再令此时M是一个(m+n)×mn的矩阵,d中的约束条件就转变成了
f、综上c至e所述,原积分问题转变为求解minΩ{<Ω,D>|MΩ=P,Ω≥0}的线性规划问题,但该线性规划问题不易求解,需将原线性规划问题转换成其对偶形式:假设原线性规划问题取得最小值的极值点为Ω0,在MΩ0=P两边同时左乘一个m+n维向量θ=(θ1,θ2,…,θm+n)T使θTMΩ0=θTP,此时的θ中的θ1,θ2,…,θm+n为未确定的变量,原问题将转换为maxθ{PTθ|MTθ≤D};不等式MTθ≤D形成了一个约束区域,在此约束区域中求解出PTθ的最大值即可,设PTθ的最大值在θ0处取到,EM距离的值即等于PTθ0;
3)对每个属性的泛化能力和安全性进行加权和,得到属性的评估值;
4)根据属性的评估值和步骤1)中需要选择的属性个数选择出若干个属性;
5)让数据集的数据部分仅保留已选择属性,供后续垃圾邮件分类算法使用。
2.根据权利要求1所述的基于分布的垃圾邮件分类数据的安全属性选择方法,其特征在于:在步骤1)中,所述邮件数据集是指含有数据和类别的若干个邮件样本组成的集合;所述数据集的数据部分是一个行、列数目相同的二维数据表,每一行是样本,每一列是属性;所述类别部分为数据集当中有别于属性的一列,用于表示数据部分的每一行样本分别属于哪一类,对于邮件数据集,样本分为正常邮件、垃圾邮件两类;所述垃圾邮件分类算法是指能通过邮件数据集的数据部分来预测其类别的机器学习算法。
3.根据权利要求1所述的基于分布的垃圾邮件分类数据的安全属性选择方法,其特征在于:在步骤2)中,所述泛化能力是指用来衡量属性能为分类算法对类别的预测提供多少有效信息的指标的统称,所述对称不确定性SU是一个衡量属性能给类别的预测提供多少信息的指标;对称不确定性的计算包括以下步骤:
2.1)假设数据集要计算的属性为f,类别为C;
2.2)分别计算属性f和类别C的取值熵H(f)和H(C),对于给定的数据列X,即对应数据集的属性列或类别列,取值熵H的计算公式为其中,t为X中互不相同的取值个数,xi代表所有的互不相同取值中的第i个取值,i=1,2,…,t,P(xi)代表X取值为xi的样本占X所有样本的比例;
2.3)计算f与C之间的互信息I(f,C):I(f,C)=H(f)-H(f|C),其中H(f)在步骤2.2)中已计算,H(f|C)为已知类别C时属性f的条件取值熵,对于给定的数据列X和Y,H(X|Y)为数据列X关于数据列Y的条件取值熵,其中t1、t2分别为X、Y中互不相同的取值个数,xi、yj分别代表X、Y中所有的互不相同的取值中的第i、j个取值,i=1,2,…,t1,j=1,2,…,t2,P(yj)代表Y取值为yj的样本占Y所有样本的比例;P(xi|yj)代表当Y的取值为yj时,X取值为xi的样本占Y取值为yj的所有样本的比例;
5.根据权利要求1所述的基于分布的垃圾邮件分类数据的安全属性选择方法,其特征在于:在步骤4)中,选择出若干个属性,包括如下步骤:
4.1)对步骤3)中计算出的属性的评估值进行降序排序;
4.2)在降序排序序列中选出前k个属性,即步骤1)所提及的k个属性。
6.根据权利要求1所述的基于分布的垃圾邮件分类数据的安全属性选择方法,其特征在于:在步骤5)中,所述已选择属性是指在步骤4)中已选择出的k个属性,即步骤1)所提及的k个属性;数据集的数据部分仅保留这k列的属性,类别部分不变,得到的新数据集即可用来给垃圾邮件分类算法使用。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010235982.8A CN111461199B (zh) | 2020-03-30 | 2020-03-30 | 基于分布的垃圾邮件分类数据的安全属性选择方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010235982.8A CN111461199B (zh) | 2020-03-30 | 2020-03-30 | 基于分布的垃圾邮件分类数据的安全属性选择方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111461199A CN111461199A (zh) | 2020-07-28 |
CN111461199B true CN111461199B (zh) | 2023-04-28 |
Family
ID=71678496
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010235982.8A Active CN111461199B (zh) | 2020-03-30 | 2020-03-30 | 基于分布的垃圾邮件分类数据的安全属性选择方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111461199B (zh) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117932411B (zh) * | 2024-03-22 | 2024-05-31 | 广东北斗翔晨科技有限公司 | 基于大数据的回收物可循环度评估分类方法及系统 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103166830A (zh) * | 2011-12-14 | 2013-06-19 | 中国电信股份有限公司 | 一种智能选择训练样本的垃圾邮件过滤系统和方法 |
CN103490974A (zh) * | 2012-06-14 | 2014-01-01 | 中国移动通信集团广西有限公司 | 一种垃圾邮件检测方法及装置 |
CN104834891A (zh) * | 2015-02-16 | 2015-08-12 | 北京建筑大学 | 一种中文图像型垃圾邮件过滤方法及系统 |
CN104967558A (zh) * | 2015-06-10 | 2015-10-07 | 东软集团股份有限公司 | 一种垃圾邮件的检测方法及装置 |
CN109347719A (zh) * | 2018-09-11 | 2019-02-15 | 内蒙古工业大学 | 一种基于机器学习的图像垃圾邮件过滤方法 |
-
2020
- 2020-03-30 CN CN202010235982.8A patent/CN111461199B/zh active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103166830A (zh) * | 2011-12-14 | 2013-06-19 | 中国电信股份有限公司 | 一种智能选择训练样本的垃圾邮件过滤系统和方法 |
CN103490974A (zh) * | 2012-06-14 | 2014-01-01 | 中国移动通信集团广西有限公司 | 一种垃圾邮件检测方法及装置 |
CN104834891A (zh) * | 2015-02-16 | 2015-08-12 | 北京建筑大学 | 一种中文图像型垃圾邮件过滤方法及系统 |
CN104967558A (zh) * | 2015-06-10 | 2015-10-07 | 东软集团股份有限公司 | 一种垃圾邮件的检测方法及装置 |
CN109347719A (zh) * | 2018-09-11 | 2019-02-15 | 内蒙古工业大学 | 一种基于机器学习的图像垃圾邮件过滤方法 |
Also Published As
Publication number | Publication date |
---|---|
CN111461199A (zh) | 2020-07-28 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110852881B (zh) | 风险账户识别方法、装置、电子设备及介质 | |
CN105354595B (zh) | 一种鲁棒视觉图像分类方法及系统 | |
CN111753044B (zh) | 一种基于正则化的去社会偏见的语言模型及应用 | |
CN111178611B (zh) | 一种日电量预测的方法 | |
CN106651057A (zh) | 一种基于安装包序列表的移动端用户年龄预测方法 | |
Wahid et al. | NaNOD: A natural neighbour-based outlier detection algorithm | |
Xiao et al. | Addressing Overfitting Problem in Deep Learning‐Based Solutions for Next Generation Data‐Driven Networks | |
WO2018006631A1 (zh) | 一种用户等级自动划分方法及系统 | |
CN110348516B (zh) | 数据处理方法、装置、存储介质及电子设备 | |
AlBdairi et al. | Identifying ethnics of people through face recognition: A deep CNN approach | |
CN103927550A (zh) | 一种手写体数字识别方法及系统 | |
Yang et al. | Automatic classification of remote sensing images using multiple classifier systems | |
CN114048468A (zh) | 入侵检测的方法、入侵检测模型训练的方法、装置及介质 | |
CN113269647A (zh) | 基于图的交易异常关联用户检测方法 | |
Jung et al. | Prediction Data Processing Scheme using an Artificial Neural Network and Data Clustering for Big Data. | |
CN111461199B (zh) | 基于分布的垃圾邮件分类数据的安全属性选择方法 | |
Fan et al. | ACD‐YOLO: Improved YOLOv5‐based method for steel surface defects detection | |
CN111639688B (zh) | 一种基于线性核svm的物联网智能模型的局部解释方法 | |
Jingzhong et al. | Strip steel surface defects recognition based on socp optimized multiple kernel RVM | |
CN110837853A (zh) | 一种快速分类模型构建方法 | |
Du et al. | [Retracted] A Dynamic Density Peak Clustering Algorithm Based on K‐Nearest Neighbor | |
Wang et al. | Robust proximal support vector regression based on maximum correntropy criterion | |
Ärje et al. | Breaking the curse of dimensionality in quadratic discriminant analysis models with a novel variant of a Bayes classifier enhances automated taxa identification of freshwater macroinvertebrates | |
Liu et al. | A Big Data-Based Anti-Fraud Model for Internet Finance. | |
Li et al. | A fuzzy linear programming-based classification method |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |