CN106230690B

CN106230690B - 一种结合用户属性的邮件分类方法及系统

Info

Publication number: CN106230690B
Application number: CN201610592259.9A
Authority: CN
Inventors: 周可; 王桦; 沈慧羊
Original assignee: Huazhong University of Science and Technology
Current assignee: Huazhong University of Science and Technology
Priority date: 2016-07-25
Filing date: 2016-07-25
Publication date: 2019-06-11
Anticipated expiration: 2036-07-25
Also published as: CN106230690A

Abstract

本发明公开了一种结合用户属性的邮件分类方法及系统，属于数据挖掘技术领域，首先利用分类器初始化新邮件垃圾邮件概率，然后在搭建好的用户属性网中匹配到新邮件的用户爱好属性、邮件主题属性、用户亲近度属性和用户行为属性，之后依次利用用户爱好属性、邮件主题属性、用户亲近度和用户行为属性对垃圾邮件概率的影响，更新邮件的垃圾邮件概率。本发明还提供了实现上述方法的系统。本发明通过结合用户属性对邮件进行分类判定，提高了现有邮件分类技术的精准性。

Description

一种结合用户属性的邮件分类方法及系统

技术领域

本发明属于数据挖掘技术领域，更具体地，涉及一种结合用户属性邮件分类方法及系统。

背景技术

互联网的发展让电子邮件成为现代人们工作生活当中一个不可或缺的重要工具和交流媒介。生活中，我们通过邮件进行信息交流，事务提醒；在工作中，更是经常作为会议请求，文件传输，事务通知的重要渠道。

电子邮件在方便大家的同时，垃圾邮件的出现给人们的生活工作带来了很大的困扰。垃圾邮件给电子邮件用户带来的危害主要有浪费人们的时间，浪费设备和网络资源，阻碍正常邮件的收发，有些垃圾邮件中隐藏了钓鱼网站，诱导用户点击，从而盗取用户账号、密码等个人信息，侵犯了用户隐私信息，更有通过窃取用户银行账号信息诈骗用户钱财的案例。

目前国内外针对邮件分类的技术主要有以下几种：黑白名单法，该技术黑白名单维护比较困难，可扩展性同样很差，只适合作为一种辅助手段和其他技术相结合；关键词匹配法，该技术需要关键词库经常更新来应对这些变化，这样带来的维护成本太大，而且局限性也很大；群发过滤法，该技术面对可不停变换发件邮箱的垃圾邮件无能为力，只适合作为一种辅助手段和其他技术相结合；朴素贝叶斯分类法，通过训练朴素贝叶斯分类器来分类邮件，该技术有一定精确性，但是由于垃圾邮件总数逐年递增，所以我们需要一种精度更高的邮件分类算法。

发明内容

针对现有技术的以上缺陷或改进需求，本发明提供了一种结合用户属性的邮件分类方法及系统，其目的在于利用电子邮件用户亲近关系属性、用户行为属性、用户爱好属性和邮件主题等构建用户属性网，量化用户属性网对垃圾邮件分类的影响，结合现有邮件分类技术手段，提升邮件分类算法的准确率性。

为了实现本发明的技术目的，本发明提供了一种结合用户属性的邮件分类方法，包括以下步骤：

(1)初始化垃圾邮件概率：

从待分类邮件中提取关键词，使用预先训练的邮件分类器对关键词分类，得到每个关键词的垃圾邮件概率值P(Spam|w)，其中Spam表示垃圾邮件，w表示关键词；

(2)根据用户爱好更新垃圾邮件概率：

提取一个关键词，将其与预先构建的用户属性网中的收件人爱好进行匹配，如果匹配成功，则降低该关键词垃圾邮件概率值即P(Spam|w)＝P(Spam|w)*ξ，否则，保持关键词垃圾邮件概率值P(Spam|w)不变。其中ξ为兴趣爱好因子；

将关键词的垃圾邮件概率P(Spam|w)输入给预先训练的分类器，邮件分类器输出垃圾邮件概率P(Spam|E)其中Spam表示垃圾邮件，E表示邮件；

重复本步骤，直到所有关键词和用户爱好完成对比；

(3)根据邮件主题更新垃圾邮件概率：

由邮件主题判断邮件是否是回复邮件，如果是则根据P(Spam|E)＝P(Spam|E)*θ计算降低本邮件的垃圾邮件的概率，如果不是回复邮件则P(Spam|E)不变。其中θ是回复因子；

(4)根据收发件人亲密度更新垃圾邮件概率：

在用户属性网中统计收发件人历史通信次数；

如果历史通信次数大于0则收发件人间的亲近度表示为

其中u表示用户u，表示用户，表示用户u和用户之间的亲近度，t_i(1≤i≤m)表示通信次数，T_j(1≤j≤n)表示通信次数范围，c_k(1≤k≤n)表示在不同通信次数范围内的取值；

如果历史通信次数为零，亲近度则随收发件人之间的间隔人数增加而减小，即其中i是用户v和用户u之间的间隔用户人数，表示用户，用户是用户v和用户u的间隔用户，且用户和用户u有通信历史，α为亲近度值下降系数；

如果历史通信次数为零，但是收发件人之间有多条路径可以连接，亲近度则随收发件人之间连接路径的数量题高而提高，即其中p代表用户u可以到达用户v的路径数目，这里收发件人之间的路径指：虽然收发件人之间通信次数为0，但是收发件人可以通过一个或多个有通信历史的其他用户建立连接，那么这个连接就称为路径；

根据收发件人的亲近度更新垃圾邮件概率其中是设置的亲近度阈值，e是自然常数；

最后判断P(Spam|E)是否大于垃圾邮件阈值T，如果大于T，则将本邮件放入垃圾箱中，如果小于等于T，则放入收件箱中；

(5)根据用户行为更新垃圾邮件概率：

判断用户行为，如果用户将放入垃圾箱中的邮件恢复，则根据公式降低该邮件中所有关键词的垃圾邮件概率值；如果用户将放入收件箱中的邮件删除，则根据公式增大该邮件中所有关键词的垃圾邮件概率值，其中w_R代表恢复邮件中的关键词，w_D代表删除邮件中的关键词，ρ_R表示恢复系数，ρ_D表示删除系数，e是自然常数。

进一步的，所述用户属性网的构建方法分为以下步骤：

(11)信息提取：

提取邮件的收发件人、邮件主题信息、用户行为和用户爱好信息；

(12)构建用户节点:

判断用户属性网中是否含有发件人用户或收件人用户，如果有则将属性网中用户节点资料和邮件中用户资料对比更新；

如果不含发件人或发件人用户，则在用户属性网中创建用户节点；

判断收发件人用户之间是否有通信历史，如没有则创建这两个用户间的连接关系，连接关系中通信次数初始化为1，如有则两个用户节点间的连接关系中通信次数累加一次；

(13)构建邮件节点：

根据邮件信息创建邮件节点属性和邮件收发关系属性，之后判断用户是否删除或恢复邮件，如果有则创建用户节点和邮件节点的删除或者恢复关系。

进一步的，所述分类器为朴素贝叶斯分类器。

一种结合用户属性的邮件分类系统，包括以下模块：

初始化概率模块，从待分类邮件中提取关键词，使用预先训练的邮件分类器对关键词分类，得到每个关键词的垃圾邮件概率值P(Spam|w)，其中Spam表示垃圾邮件，w表示关键词；

邮件主题更新概率模块，用于从邮件主题判断邮件是否是回复邮件，如果是则根据P(Spam|E)＝P(Spam|E)*θ计算降低本邮件的垃圾邮件的概率，其中θ是回复因子，如果不是回复邮件则P(Spam|E)不变；

收发件人亲密度更新概率模块，包括：

统计子模块，用于在用户属性网中统计收发件人历史通信次数；

亲近度判定子模块，用于判定用户间亲近度，如果历史通信次数大于0则收发件人间的亲近度表示为

其中u表示用户u，表示用户，表示用户u和用户之间的亲近度，t_i，i＝1，2，...，m表示通信次数，T_j，j＝1，2，...，n表示通信次数范围，c_k，k＝1，2，...，n表示在不同通信次数范围内的取值；

如果历史通信次数为零，亲近度则随收发件人之间的间隔人数增加而减小，即其中i是用户υ和用户u之间的间隔用户人数，表示用户，用户是用户υ和用户u的间隔用户，且用户和用户u有通信历史，α为亲近度值下降系数；

垃圾邮件概率更新子模块，用于更新垃圾邮件概率，根据收发件人的亲近度更新垃圾邮件概率其中是设置的亲近度阈值，e是自然常数，在判断P(Spam|E)是否大于垃圾邮件阈值T，如果大于T，则将本邮件放入垃圾箱中，如果小于等于T，则放入收件箱中；

用户行为更新概率模块，用于判断用户行为，如果用户将放入垃圾箱中的邮件恢复，则根据公式降低该邮件中所有关键词的垃圾邮件概率值；如果用户将放入收件箱中的邮件删除，则根据公式增大该邮件中所有关键词的垃圾邮件概率值，其中w_R代表恢复邮件中的关键词，w_D代表删除邮件中的关键词，ρ_R表示恢复系数，ρ_D表示删除系数，e是自然常数。

进一步的，所述用户属性网包含以下几个单元：

信息提取单元，用于提取邮件的收发件人、邮件主题信息、用户行为和用户爱好信息；

用户节点单元，用于判断用户属性网中是否含有发件人用户或收件人用户，如果有则将属性网中用户节点资料和邮件中用户资料对比更新；如果不含发件人或发件人用户，则在用户属性网中创建用户节点；

判断收发件人用户之间是否有通信历史，如没有则创建这两个用户间的连接关系，如有则连接关系中通信次数累加一次；

邮件节点单元，用于根据邮件信息创建邮件节点属性和邮件收发关系属性，判断用户是否删除或恢复邮件，如果有则创建用户节点和邮件节点的删除或者恢复关系。

进一步的，所述分类器为朴素贝叶斯分类器。

总体而言，通过本发明所构思的以上技术方案与现有技术相比，由于本发明利用邮件中收发件人用户资料属性、邮件主题属性、用户亲近度属性、用户行为属性构建用户属性网，并量化用户属性网对垃圾邮件判断的影响，结合分类模型算法对邮件进行分类判断，提升邮件分类算法的准确率性。

附图说明

图1是本发明实施列的流程图；

图2是本发明实施例构建用户属性网的流程图；

图3是本发明用户属性网的示意图；

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅用以解释本发明，并不用于限定本发明。此外，下面所描述的本发明各个实施方式中所涉及到的技术特征只要彼此之间未构成冲突就可以相互组合。

图1是用户属性网构建方法步骤：

(11)信息提取：

提取邮件收发件人、邮件主题信息、用户行为和用户爱好信息等；

(12)构建用户节点：

判断收发件人用户之间是否有通信历史，如没有则创建这两个用户间的连接关系，并将连接关系中的通信次数初始化为1，如有则连接关系中通信次数累加一次；

(13)构建邮件节点：

根据邮件信息创建邮件节点属性和邮件收发关系属性，之后判断用户是否删除或恢复邮件，如果有则创建用户节点和邮件节点的删除或者恢复关系；

(14)判断是否还有新邮件，如果有则回到步骤(11)，没有则结束。

如图3所示是用户属性网结构示意图。

预先利用样本邮件建立朴素贝叶斯分类模型。

如图2所示为本发明一种结合用户属性的邮件分类方法的工作流程图，包括以下步骤：

(21)初始化垃圾邮件概率：

收到新邮件后提取邮件收发件人、邮件主题信息、用户行为和用户爱好信息等，并利用这些信息更新用户属性网。同时解析邮件得到邮件中所有关键词列表，在训练好的朴素贝叶斯分类器中得到关键词垃圾邮件概率值P(Spam|w)，其中Spam表示垃圾邮件，w表示关键词；

(22)根据用户爱好更新垃圾邮件概率：

将邮件中关键词k和获取的用户爱好进行匹配，如果匹配成功，则根据

P(Spam|w)＝P(Spam|w)*ξ (1)

降低关键词k垃圾邮件概率值，其中P(Spam|w)为关键词k垃圾概率值，如果匹配失败则参与对比的关键词垃圾概率不变。其中ξ为兴趣爱好因子，根据实际经验ξ的取值范围为0＜ξ≤1，优选ξ＝0.8；

根据得到的关键词k垃圾邮件概率利用朴素贝叶斯分类算法计算本邮件的垃圾邮件概率P(Spam|E)，其中Spam表示垃圾邮件，E表示邮件，之后重复本步骤，直到所有关键词和用户爱好完成对比；

(23)根据邮件主题更新垃圾邮件概率：

如果邮件主题是回复邮件，则根据

P(Spam|E)＝P(Spam|E)*θ (2)

降低本邮件的垃圾邮件概率，P(Spam|E)是本邮件的垃圾邮件概率值。如不是则P(Spam|E)不变，其中θ是回复因子，根据实际经验θ的取值范围为0＜θ≤1，优选θ＝0.6；

(24)根据收发件人亲近度更新垃圾邮件概率：

根据收发件人查找用户属性网，如果在用户属性网中收发件人有过邮件联系历史，他们的亲近度为

其中u表示用户u，表示用户，表示用户u和用户之间的亲近度，t_i，i＝1，2，...，m表示通信次数，T_j，j＝1，2，...，n表示通信次数范围，c_k，k＝1，2，...，n表示在不同通信次数范围内的取值，根据实际经验1≤c_k≤2；

如果在用户属性网中收发件人没有邮件通信历史，则他们的亲近度为

i是用户υ和用户u之间的间隔用户人数，指用户用户和用户u之间有通信历史，且用户是用户υ和用户u之间的间隔用户，α为亲近度值下降系数，根据实际经验α的取值范围为α≥1，优选α＝1.3；

如果在用户属性网中收发件人没有邮件通信历史，但是可能他们之间有多条路径可以连接，那么他们之间的亲近度会比只有一条路径连接的用户之间的亲近度值高，这种情况下两户用亲近度为

其中p代表用户u可以到达用户v的路径数目；

可根据发件人和收件人亲近度更新本邮件的垃圾邮件概率，如下公式计算

其中是设置的亲近度阈值，e是自然常数，根据实际经验的取值范围为优选

判断P(Spam|E)是否大于垃圾邮件阈值T，如果大于T，则将本邮件放入垃圾箱中，如果小于等于T，则放入收件箱中，根据实际经验T的取值范围为0＜T＜1，优选T＝0.5；

(25)根据用户行为更新垃圾邮件概率：

如果用户将放入垃圾箱中的邮件恢复，则根据公式

降低该邮件中所有关键词的垃圾邮件概率值。如果用户将放入收件箱中的邮件删除，则根据公式

增大该邮件中所有关键词的垃圾邮件概率值，其中w_R代表恢复邮件中的关键词，w_D代表删除邮件中的关键词，ρ_R表示恢复系数，ρ_D表示删除系数，e是自然常数，根据实际经验ρ_R的取值范围为0≤ρ_R＜1，优选ρ_R＝1.0，ρ_D的取值范围为0≤ρ_D＜1，优选ρ_D＝0.5；

(27)最后判断是否还有新邮件，有则回到步骤(21)，否则结束。

以上所述，仅为仅为本发明的较佳实施例而已，并不用以限制本发明，凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等，均应包含在本发明的保护范围之内。

Claims

1.一种结合用户属性的邮件分类方法，其特征在于，包括以下步骤：

(1)初始化垃圾邮件概率：

(2)根据用户爱好更新垃圾邮件概率：

提取一个关键词，将其与预先构建的用户属性网中的收件人爱好进行匹配，如果匹配成功，则降低该关键词垃圾邮件概率值即P(Spam|w)＝P(Spam|w)*ξ，ξ为兴趣爱好因子，否则，保持关键词垃圾邮件概率值P(Spam|w)不变；

重复本步骤，直到所有关键词和用户爱好完成对比；

(3)根据邮件主题更新垃圾邮件概率：

由邮件主题判断邮件是否是回复邮件，如果是则根据P(Spam|E)＝P(Spam|E)*θ计算降低本邮件的垃圾邮件的概率，其中θ是回复因子，如果不是回复邮件则P(Spam|E)不变；

(4)根据收发件人亲密度更新垃圾邮件概率：

在用户属性网中统计收发件人历史通信次数；

如果历史通信次数大于0则收发件人间的亲近度表示为其中u表示用户u，表示用户表示用户u和用户之间的亲近度，t_i，i＝1，2，...，m表示通信次数，T_j，j＝1，2，...，n表示通信次数范围，c_k，k＝1，2，...，n表示在不同通信次数范围内的取值；

如果历史通信次数为零，亲近度则随收发件人之间的间隔人数增加而减小，即其中i是用户υ和用户u之间的间隔用户人数，表示用户用户是用户υ和用户u的间隔用户，且用户和用户u有通信历史，α为亲近度值下降系数；

如果历史通信次数为零，但是收发件人之间有多条路径可以连接，亲近度则随收发件人之间连接路径的数量提高而提高，即其中p代表用户u可以到达用户v的路径数目；

根据收发件人的亲近度更新垃圾邮件概率其中是设置的亲近度阈值，e是自然常数，判断P(Spam|E)是否大于垃圾邮件阈值T，如果大于T，则将本邮件放入垃圾箱中，如果小于等于T，则放入收件箱中；

(5)根据用户行为更新垃圾邮件概率：

判断用户行为，如果用户将放入垃圾箱中的邮件恢复，则根据公式降低该邮件中所有关键词的垃圾邮件概率值；如果用户将放入收件箱中的邮件删除，则根据公式增大该邮件中所有关键词的垃圾邮件概率值，其中w_R代表恢复邮件中的关键词，w_D代表删除邮件中的关键词，ρ_R表示恢复系数，ρ_D表示删除系数，e是自然常数；

所述用户属性网的构建方法为：

(11)信息提取：

(12)构建用户节点：

(13)构建邮件节点：

2.根据权利要求1所述的一种结合用户属性的邮件分类方法，其特征在于，所述分类器为朴素贝叶斯分类器。

3.一种结合用户属性的邮件分类系统，其特征在于，包括以下模块：

收发件人亲密度更新概率模块，包括：

亲近度判定子模块，用于判定用户间亲近度，如果历史通信次数大于0则收发件人间的亲近度表示为其中u表示用户u，表示用户表示用户u和用户之间的亲近度，t_i，i＝1，2，...，m表示通信次数，T_j，j＝1，2，...，n表示通信次数范围，c_k，k＝1，2，...，n表示在不同通信次数范围内的取值；

用户行为更新概率模块，用于判断用户行为，如果用户将放入垃圾箱中的邮件恢复，则根据公式降低该邮件中所有关键词的垃圾邮件概率值；如果用户将放入收件箱中的邮件删除，则根据公式增大该邮件中所有关键词的垃圾邮件概率值，其中w_R代表恢复邮件中的关键词，w_D代表删除邮件中的关键词，ρ_R表示恢复系数，ρ_D表示删除系数，e是自然常数；

所述用户属性网包含以下几个单元：

4.根据权利要求3所述的一种结合用户属性的邮件分类系统，其特征在于，所述分类器为朴素贝叶斯分类器。