CN106230690B - 一种结合用户属性的邮件分类方法及系统 - Google Patents

一种结合用户属性的邮件分类方法及系统 Download PDF

Info

Publication number
CN106230690B
CN106230690B CN201610592259.9A CN201610592259A CN106230690B CN 106230690 B CN106230690 B CN 106230690B CN 201610592259 A CN201610592259 A CN 201610592259A CN 106230690 B CN106230690 B CN 106230690B
Authority
CN
China
Prior art keywords
user
mail
spam
probability
keyword
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201610592259.9A
Other languages
English (en)
Other versions
CN106230690A (zh
Inventor
周可
王桦
沈慧羊
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Huazhong University of Science and Technology
Original Assignee
Huazhong University of Science and Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Huazhong University of Science and Technology filed Critical Huazhong University of Science and Technology
Priority to CN201610592259.9A priority Critical patent/CN106230690B/zh
Publication of CN106230690A publication Critical patent/CN106230690A/zh
Application granted granted Critical
Publication of CN106230690B publication Critical patent/CN106230690B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L51/00User-to-user messaging in packet-switching networks, transmitted according to store-and-forward or real-time protocols, e.g. e-mail
    • H04L51/56Unified messaging, e.g. interactions between e-mail, instant messaging or converged IP messaging [CPM]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/10Office automation; Time management
    • G06Q10/107Computer-aided management of electronic mailing [e-mailing]

Landscapes

  • Engineering & Computer Science (AREA)
  • Business, Economics & Management (AREA)
  • Theoretical Computer Science (AREA)
  • Human Resources & Organizations (AREA)
  • Entrepreneurship & Innovation (AREA)
  • Data Mining & Analysis (AREA)
  • General Physics & Mathematics (AREA)
  • Physics & Mathematics (AREA)
  • Strategic Management (AREA)
  • Marketing (AREA)
  • Databases & Information Systems (AREA)
  • Computer Hardware Design (AREA)
  • Economics (AREA)
  • General Engineering & Computer Science (AREA)
  • Operations Research (AREA)
  • Quality & Reliability (AREA)
  • Tourism & Hospitality (AREA)
  • General Business, Economics & Management (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Signal Processing (AREA)
  • Information Transfer Between Computers (AREA)

Abstract

本发明公开了一种结合用户属性的邮件分类方法及系统,属于数据挖掘技术领域,首先利用分类器初始化新邮件垃圾邮件概率,然后在搭建好的用户属性网中匹配到新邮件的用户爱好属性、邮件主题属性、用户亲近度属性和用户行为属性,之后依次利用用户爱好属性、邮件主题属性、用户亲近度和用户行为属性对垃圾邮件概率的影响,更新邮件的垃圾邮件概率。本发明还提供了实现上述方法的系统。本发明通过结合用户属性对邮件进行分类判定,提高了现有邮件分类技术的精准性。

Description

一种结合用户属性的邮件分类方法及系统
技术领域
本发明属于数据挖掘技术领域,更具体地,涉及一种结合用户属性邮件分类方法及系统。
背景技术
互联网的发展让电子邮件成为现代人们工作生活当中一个不可或缺的重要工具和交流媒介。生活中,我们通过邮件进行信息交流,事务提醒;在工作中,更是经常作为会议请求,文件传输,事务通知的重要渠道。
电子邮件在方便大家的同时,垃圾邮件的出现给人们的生活工作带来了很大的困扰。垃圾邮件给电子邮件用户带来的危害主要有浪费人们的时间,浪费设备和网络资源,阻碍正常邮件的收发,有些垃圾邮件中隐藏了钓鱼网站,诱导用户点击,从而盗取用户账号、密码等个人信息,侵犯了用户隐私信息,更有通过窃取用户银行账号信息诈骗用户钱财的案例。
目前国内外针对邮件分类的技术主要有以下几种:黑白名单法,该技术黑白名单维护比较困难,可扩展性同样很差,只适合作为一种辅助手段和其他技术相结合;关键词匹配法,该技术需要关键词库经常更新来应对这些变化,这样带来的维护成本太大,而且局限性也很大;群发过滤法,该技术面对可不停变换发件邮箱的垃圾邮件无能为力,只适合作为一种辅助手段和其他技术相结合;朴素贝叶斯分类法,通过训练朴素贝叶斯分类器来分类邮件,该技术有一定精确性,但是由于垃圾邮件总数逐年递增,所以我们需要一种精度更高的邮件分类算法。
发明内容
针对现有技术的以上缺陷或改进需求,本发明提供了一种结合用户属性的邮件分类方法及系统,其目的在于利用电子邮件用户亲近关系属性、用户行为属性、用户爱好属性和邮件主题等构建用户属性网,量化用户属性网对垃圾邮件分类的影响,结合现有邮件分类技术手段,提升邮件分类算法的准确率性。
为了实现本发明的技术目的,本发明提供了一种结合用户属性的邮件分类方法,包括以下步骤:
(1)初始化垃圾邮件概率:
从待分类邮件中提取关键词,使用预先训练的邮件分类器对关键词分类,得到每个关键词的垃圾邮件概率值P(Spam|w),其中Spam表示垃圾邮件,w表示关键词;
(2)根据用户爱好更新垃圾邮件概率:
提取一个关键词,将其与预先构建的用户属性网中的收件人爱好进行匹配,如果匹配成功,则降低该关键词垃圾邮件概率值即P(Spam|w)=P(Spam|w)*ξ,否则,保持关键词垃圾邮件概率值P(Spam|w)不变。其中ξ为兴趣爱好因子;
将关键词的垃圾邮件概率P(Spam|w)输入给预先训练的分类器,邮件分类器输出垃圾邮件概率P(Spam|E)其中Spam表示垃圾邮件,E表示邮件;
重复本步骤,直到所有关键词和用户爱好完成对比;
(3)根据邮件主题更新垃圾邮件概率:
由邮件主题判断邮件是否是回复邮件,如果是则根据P(Spam|E)=P(Spam|E)*θ计算降低本邮件的垃圾邮件的概率,如果不是回复邮件则P(Spam|E)不变。其中θ是回复因子;
(4)根据收发件人亲密度更新垃圾邮件概率:
在用户属性网中统计收发件人历史通信次数;
如果历史通信次数大于0则收发件人间的亲近度表示为
其中u表示用户u,表示用户表示用户u和用户之间的亲近度,ti(1≤i≤m)表示通信次数,Tj(1≤j≤n)表示通信次数范围,ck(1≤k≤n)表示在不同通信次数范围内的取值;
如果历史通信次数为零,亲近度则随收发件人之间的间隔人数增加而减小,即其中i是用户v和用户u之间的间隔用户人数,表示用户,用户是用户v和用户u的间隔用户,且用户和用户u有通信历史,α为亲近度值下降系数;
如果历史通信次数为零,但是收发件人之间有多条路径可以连接,亲近度则随收发件人之间连接路径的数量题高而提高,即 其中p代表用户u可以到达用户v的路径数目,这里收发件人之间的路径指:虽然收发件人之间通信次数为0,但是收发件人可以通过一个或多个有通信历史的其他用户建立连接,那么这个连接就称为路径;
根据收发件人的亲近度更新垃圾邮件概率 其中是设置的亲近度阈值,e是自然常数;
最后判断P(Spam|E)是否大于垃圾邮件阈值T,如果大于T,则将本邮件放入垃圾箱中,如果小于等于T,则放入收件箱中;
(5)根据用户行为更新垃圾邮件概率:
判断用户行为,如果用户将放入垃圾箱中的邮件恢复,则根据公式降低该邮件中所有关键词的垃圾邮件概率值;如果用户将放入收件箱中的邮件删除,则根据公式 增大该邮件中所有关键词的垃圾邮件概率值,其中wR代表恢复邮件中的关键词,wD代表删除邮件中的关键词,ρR表示恢复系数,ρD表示删除系数,e是自然常数。
进一步的,所述用户属性网的构建方法分为以下步骤:
(11)信息提取:
提取邮件的收发件人、邮件主题信息、用户行为和用户爱好信息;
(12)构建用户节点:
判断用户属性网中是否含有发件人用户或收件人用户,如果有则将属性网中用户节点资料和邮件中用户资料对比更新;
如果不含发件人或发件人用户,则在用户属性网中创建用户节点;
判断收发件人用户之间是否有通信历史,如没有则创建这两个用户间的连接关系,连接关系中通信次数初始化为1,如有则两个用户节点间的连接关系中通信次数累加一次;
(13)构建邮件节点:
根据邮件信息创建邮件节点属性和邮件收发关系属性,之后判断用户是否删除或恢复邮件,如果有则创建用户节点和邮件节点的删除或者恢复关系。
进一步的,所述分类器为朴素贝叶斯分类器。
一种结合用户属性的邮件分类系统,包括以下模块:
初始化概率模块,从待分类邮件中提取关键词,使用预先训练的邮件分类器对关键词分类,得到每个关键词的垃圾邮件概率值P(Spam|w),其中Spam表示垃圾邮件,w表示关键词;
用户爱好更新概率模块,用于提取一个关键词,将其与预先构建的用户属性网中的收件人爱好进行匹配,如果匹配成功,则降低该关键词垃圾邮件概率值即P(Spam|w)=P(Spam|w)*ξ,ξ为兴趣爱好因子,否则,保持关键词垃圾邮件概率值P(Spam|w)不变;将关键词的垃圾邮件概率P(Spam|w)输入给预先训练的分类器,邮件分类器输出垃圾邮件概率P(Spam|E),其中Spam表示垃圾邮件,E表示邮件;重复本步骤,直到所有关键词和用户爱好完成对比;
邮件主题更新概率模块,用于从邮件主题判断邮件是否是回复邮件,如果是则根据P(Spam|E)=P(Spam|E)*θ计算降低本邮件的垃圾邮件的概率,其中θ是回复因子,如果不是回复邮件则P(Spam|E)不变;
收发件人亲密度更新概率模块,包括:
统计子模块,用于在用户属性网中统计收发件人历史通信次数;
亲近度判定子模块,用于判定用户间亲近度,如果历史通信次数大于0则收发件人间的亲近度表示为
其中u表示用户u,表示用户表示用户u和用户之间的亲近度,ti,i=1,2,...,m表示通信次数,Tj,j=1,2,...,n表示通信次数范围,ck,k=1,2,...,n表示在不同通信次数范围内的取值;
如果历史通信次数为零,亲近度则随收发件人之间的间隔人数增加而减小,即其中i是用户υ和用户u之间的间隔用户人数,表示用户,用户是用户υ和用户u的间隔用户,且用户和用户u有通信历史,α为亲近度值下降系数;
如果历史通信次数为零,但是收发件人之间有多条路径可以连接,亲近度则随收发件人之间连接路径的数量题高而提高,即 其中p代表用户u可以到达用户v的路径数目,这里收发件人之间的路径指:虽然收发件人之间通信次数为0,但是收发件人可以通过一个或多个有通信历史的其他用户建立连接,那么这个连接就称为路径;
垃圾邮件概率更新子模块,用于更新垃圾邮件概率,根据收发件人的亲近度更新垃圾邮件概率其中是设置的亲近度阈值,e是自然常数,在判断P(Spam|E)是否大于垃圾邮件阈值T,如果大于T,则将本邮件放入垃圾箱中,如果小于等于T,则放入收件箱中;
用户行为更新概率模块,用于判断用户行为,如果用户将放入垃圾箱中的邮件恢复,则根据公式降低该邮件中所有关键词的垃圾邮件概率值;如果用户将放入收件箱中的邮件删除,则根据公式增大该邮件中所有关键词的垃圾邮件概率值,其中wR代表恢复邮件中的关键词,wD代表删除邮件中的关键词,ρR表示恢复系数,ρD表示删除系数,e是自然常数。
用户行为更新概率模块,用于判断用户行为,如果用户将放入垃圾箱中的邮件恢复,则根据公式降低该邮件中所有关键词的垃圾邮件概率值;如果用户将放入收件箱中的邮件删除,则根据公式增大该邮件中所有关键词的垃圾邮件概率值,其中wR代表恢复邮件中的关键词,wD代表删除邮件中的关键词,ρR表示恢复系数,ρD表示删除系数,e是自然常数。
进一步的,所述用户属性网包含以下几个单元:
信息提取单元,用于提取邮件的收发件人、邮件主题信息、用户行为和用户爱好信息;
用户节点单元,用于判断用户属性网中是否含有发件人用户或收件人用户,如果有则将属性网中用户节点资料和邮件中用户资料对比更新;如果不含发件人或发件人用户,则在用户属性网中创建用户节点;
判断收发件人用户之间是否有通信历史,如没有则创建这两个用户间的连接关系,如有则连接关系中通信次数累加一次;
邮件节点单元,用于根据邮件信息创建邮件节点属性和邮件收发关系属性,判断用户是否删除或恢复邮件,如果有则创建用户节点和邮件节点的删除或者恢复关系。
进一步的,所述分类器为朴素贝叶斯分类器。
总体而言,通过本发明所构思的以上技术方案与现有技术相比,由于本发明利用邮件中收发件人用户资料属性、邮件主题属性、用户亲近度属性、用户行为属性构建用户属性网,并量化用户属性网对垃圾邮件判断的影响,结合分类模型算法对邮件进行分类判断,提升邮件分类算法的准确率性。
附图说明
图1是本发明实施列的流程图;
图2是本发明实施例构建用户属性网的流程图;
图3是本发明用户属性网的示意图;
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅用以解释本发明,并不用于限定本发明。此外,下面所描述的本发明各个实施方式中所涉及到的技术特征只要彼此之间未构成冲突就可以相互组合。
图1是用户属性网构建方法步骤:
(11)信息提取:
提取邮件收发件人、邮件主题信息、用户行为和用户爱好信息等;
(12)构建用户节点:
判断用户属性网中是否含有发件人用户或收件人用户,如果有则将属性网中用户节点资料和邮件中用户资料对比更新;
如果不含发件人或发件人用户,则在用户属性网中创建用户节点;
判断收发件人用户之间是否有通信历史,如没有则创建这两个用户间的连接关系,并将连接关系中的通信次数初始化为1,如有则连接关系中通信次数累加一次;
(13)构建邮件节点:
根据邮件信息创建邮件节点属性和邮件收发关系属性,之后判断用户是否删除或恢复邮件,如果有则创建用户节点和邮件节点的删除或者恢复关系;
(14)判断是否还有新邮件,如果有则回到步骤(11),没有则结束。
如图3所示是用户属性网结构示意图。
预先利用样本邮件建立朴素贝叶斯分类模型。
如图2所示为本发明一种结合用户属性的邮件分类方法的工作流程图,包括以下步骤:
(21)初始化垃圾邮件概率:
收到新邮件后提取邮件收发件人、邮件主题信息、用户行为和用户爱好信息等,并利用这些信息更新用户属性网。同时解析邮件得到邮件中所有关键词列表,在训练好的朴素贝叶斯分类器中得到关键词垃圾邮件概率值P(Spam|w),其中Spam表示垃圾邮件,w表示关键词;
(22)根据用户爱好更新垃圾邮件概率:
将邮件中关键词k和获取的用户爱好进行匹配,如果匹配成功,则根据
P(Spam|w)=P(Spam|w)*ξ (1)
降低关键词k垃圾邮件概率值,其中P(Spam|w)为关键词k垃圾概率值,如果匹配失败则参与对比的关键词垃圾概率不变。其中ξ为兴趣爱好因子,根据实际经验ξ的取值范围为0<ξ≤1,优选ξ=0.8;
根据得到的关键词k垃圾邮件概率利用朴素贝叶斯分类算法计算本邮件的垃圾邮件概率P(Spam|E),其中Spam表示垃圾邮件,E表示邮件,之后重复本步骤,直到所有关键词和用户爱好完成对比;
(23)根据邮件主题更新垃圾邮件概率:
如果邮件主题是回复邮件,则根据
P(Spam|E)=P(Spam|E)*θ (2)
降低本邮件的垃圾邮件概率,P(Spam|E)是本邮件的垃圾邮件概率值。如不是则P(Spam|E)不变,其中θ是回复因子,根据实际经验θ的取值范围为0<θ≤1,优选θ=0.6;
(24)根据收发件人亲近度更新垃圾邮件概率:
根据收发件人查找用户属性网,如果在用户属性网中收发件人有过邮件联系历史,他们的亲近度为
其中u表示用户u,表示用户表示用户u和用户之间的亲近度,ti,i=1,2,...,m表示通信次数,Tj,j=1,2,...,n表示通信次数范围,ck,k=1,2,...,n表示在不同通信次数范围内的取值,根据实际经验1≤ck≤2;
如果在用户属性网中收发件人没有邮件通信历史,则他们的亲近度为
i是用户υ和用户u之间的间隔用户人数,指用户用户和用户u之间有通信历史,且用户是用户υ和用户u之间的间隔用户,α为亲近度值下降系数,根据实际经验α的取值范围为α≥1,优选α=1.3;
如果在用户属性网中收发件人没有邮件通信历史,但是可能他们之间有多条路径可以连接,那么他们之间的亲近度会比只有一条路径连接的用户之间的亲近度值高,这种情况下两户用亲近度为
其中p代表用户u可以到达用户v的路径数目;
可根据发件人和收件人亲近度更新本邮件的垃圾邮件概率,如下公式计算
其中是设置的亲近度阈值,e是自然常数,根据实际经验的取值范围为优选
判断P(Spam|E)是否大于垃圾邮件阈值T,如果大于T,则将本邮件放入垃圾箱中,如果小于等于T,则放入收件箱中,根据实际经验T的取值范围为0<T<1,优选T=0.5;
(25)根据用户行为更新垃圾邮件概率:
如果用户将放入垃圾箱中的邮件恢复,则根据公式
降低该邮件中所有关键词的垃圾邮件概率值。如果用户将放入收件箱中的邮件删除,则根据公式
增大该邮件中所有关键词的垃圾邮件概率值,其中wR代表恢复邮件中的关键词,wD代表删除邮件中的关键词,ρR表示恢复系数,ρD表示删除系数,e是自然常数,根据实际经验ρR的取值范围为0≤ρR<1,优选ρR=1.0,ρD的取值范围为0≤ρD<1,优选ρD=0.5;
(27)最后判断是否还有新邮件,有则回到步骤(21),否则结束。
以上所述,仅为仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明的保护范围之内。

Claims (4)

1.一种结合用户属性的邮件分类方法,其特征在于,包括以下步骤:
(1)初始化垃圾邮件概率:
从待分类邮件中提取关键词,使用预先训练的邮件分类器对关键词分类,得到每个关键词的垃圾邮件概率值P(Spam|w),其中Spam表示垃圾邮件,w表示关键词;
(2)根据用户爱好更新垃圾邮件概率:
提取一个关键词,将其与预先构建的用户属性网中的收件人爱好进行匹配,如果匹配成功,则降低该关键词垃圾邮件概率值即P(Spam|w)=P(Spam|w)*ξ,ξ为兴趣爱好因子,否则,保持关键词垃圾邮件概率值P(Spam|w)不变;
将关键词的垃圾邮件概率P(Spam|w)输入给预先训练的分类器,邮件分类器输出垃圾邮件概率P(Spam|E)其中Spam表示垃圾邮件,E表示邮件;
重复本步骤,直到所有关键词和用户爱好完成对比;
(3)根据邮件主题更新垃圾邮件概率:
由邮件主题判断邮件是否是回复邮件,如果是则根据P(Spam|E)=P(Spam|E)*θ计算降低本邮件的垃圾邮件的概率,其中θ是回复因子,如果不是回复邮件则P(Spam|E)不变;
(4)根据收发件人亲密度更新垃圾邮件概率:
在用户属性网中统计收发件人历史通信次数;
如果历史通信次数大于0则收发件人间的亲近度表示为其中u表示用户u,表示用户 表示用户u和用户之间的亲近度,ti,i=1,2,...,m表示通信次数,Tj,j=1,2,...,n表示通信次数范围,ck,k=1,2,...,n表示在不同通信次数范围内的取值;
如果历史通信次数为零,亲近度则随收发件人之间的间隔人数增加而减小,即其中i是用户υ和用户u之间的间隔用户人数,表示用户用户是用户υ和用户u的间隔用户,且用户和用户u有通信历史,α为亲近度值下降系数;
如果历史通信次数为零,但是收发件人之间有多条路径可以连接,亲近度则随收发件人之间连接路径的数量提 高而提高,即其中p代表用户u可以到达用户v的路径数目;
根据收发件人的亲近度更新垃圾邮件概率 其中是设置的亲近度阈值,e是自然常数,判断P(Spam|E)是否大于垃圾邮件阈值T,如果大于T,则将本邮件放入垃圾箱中,如果小于等于T,则放入收件箱中;
(5)根据用户行为更新垃圾邮件概率:
判断用户行为,如果用户将放入垃圾箱中的邮件恢复,则根据公式降低该邮件中所有关键词的垃圾邮件概率值;如果用户将放入收件箱中的邮件删除,则根据公式 增大该邮件中所有关键词的垃圾邮件概率值,其中wR代表恢复邮件中的关键词,wD代表删除邮件中的关键词,ρR表示恢复系数,ρD表示删除系数,e是自然常数;
所述用户属性网的构建方法为:
(11)信息提取:
提取邮件的收发件人、邮件主题信息、用户行为和用户爱好信息;
(12)构建用户节点:
判断用户属性网中是否含有发件人用户或收件人用户,如果有则将属性网中用户节点资料和邮件中用户资料对比更新;
如果不含发件人或发件人用户,则在用户属性网中创建用户节点;
判断收发件人用户之间是否有通信历史,如没有则创建这两个用户间的连接关系,连接关系中通信次数初始化为1,如有则两个用户节点间的连接关系中通信次数累加一次;
(13)构建邮件节点:
根据邮件信息创建邮件节点属性和邮件收发关系属性,之后判断用户是否删除或恢复邮件,如果有则创建用户节点和邮件节点的删除或者恢复关系。
2.根据权利要求1所述的一种结合用户属性的邮件分类方法,其特征在于,所述分类器为朴素贝叶斯分类器。
3.一种结合用户属性的邮件分类系统,其特征在于,包括以下模块:
初始化概率模块,从待分类邮件中提取关键词,使用预先训练的邮件分类器对关键词分类,得到每个关键词的垃圾邮件概率值P(Spam|w),其中Spam表示垃圾邮件,w表示关键词;
用户爱好更新概率模块,用于提取一个关键词,将其与预先构建的用户属性网中的收件人爱好进行匹配,如果匹配成功,则降低该关键词垃圾邮件概率值即P(Spam|w)=P(Spam|w)*ξ,ξ为兴趣爱好因子,否则,保持关键词垃圾邮件概率值P(Spam|w)不变;将关键词的垃圾邮件概率P(Spam|w)输入给预先训练的分类器,邮件分类器输出垃圾邮件概率P(Spam|E),其中Spam表示垃圾邮件,E表示邮件;重复本步骤,直到所有关键词和用户爱好完成对比;
邮件主题更新概率模块,用于从邮件主题判断邮件是否是回复邮件,如果是则根据P(Spam|E)=P(Spam|E)*θ计算降低本邮件的垃圾邮件的概率,其中θ是回复因子,如果不是回复邮件则P(Spam|E)不变;
收发件人亲密度更新概率模块,包括:
统计子模块,用于在用户属性网中统计收发件人历史通信次数;
亲近度判定子模块,用于判定用户间亲近度,如果历史通信次数大于0则收发件人间的亲近度表示为其中u表示用户u,表示用户 表示用户u和用户之间的亲近度,ti,i=1,2,...,m表示通信次数,Tj,j=1,2,...,n表示通信次数范围,ck,k=1,2,...,n表示在不同通信次数范围内的取值;
如果历史通信次数为零,亲近度则随收发件人之间的间隔人数增加而减小,即其中i是用户υ和用户u之间的间隔用户人数,表示用户用户是用户υ和用户u的间隔用户,且用户和用户u有通信历史,α为亲近度值下降系数;
如果历史通信次数为零,但是收发件人之间有多条路径可以连接,亲近度则随收发件人之间连接路径的数量提 高而提高,即其中p代表用户u可以到达用户v的路径数目;
垃圾邮件概率更新子模块,用于更新垃圾邮件概率,根据收发件人的亲近度更新垃圾邮件概率其中是设置的亲近度阈值,e是自然常数,在判断P(Spam|E)是否大于垃圾邮件阈值T,如果大于T,则将本邮件放入垃圾箱中,如果小于等于T,则放入收件箱中;
用户行为更新概率模块,用于判断用户行为,如果用户将放入垃圾箱中的邮件恢复,则根据公式降低该邮件中所有关键词的垃圾邮件概率值;如果用户将放入收件箱中的邮件删除,则根据公式增大该邮件中所有关键词的垃圾邮件概率值,其中wR代表恢复邮件中的关键词,wD代表删除邮件中的关键词,ρR表示恢复系数,ρD表示删除系数,e是自然常数;
所述用户属性网包含以下几个单元:
信息提取单元,用于提取邮件的收发件人、邮件主题信息、用户行为和用户爱好信息;
用户节点单元,用于判断用户属性网中是否含有发件人用户或收件人用户,如果有则将属性网中用户节点资料和邮件中用户资料对比更新;如果不含发件人或发件人用户,则在用户属性网中创建用户节点;
判断收发件人用户之间是否有通信历史,如没有则创建这两个用户间的连接关系,如有则连接关系中通信次数累加一次;
邮件节点单元,用于根据邮件信息创建邮件节点属性和邮件收发关系属性,判断用户是否删除或恢复邮件,如果有则创建用户节点和邮件节点的删除或者恢复关系。
4.根据权利要求3所述的一种结合用户属性的邮件分类系统,其特征在于,所述分类器为朴素贝叶斯分类器。
CN201610592259.9A 2016-07-25 2016-07-25 一种结合用户属性的邮件分类方法及系统 Active CN106230690B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201610592259.9A CN106230690B (zh) 2016-07-25 2016-07-25 一种结合用户属性的邮件分类方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201610592259.9A CN106230690B (zh) 2016-07-25 2016-07-25 一种结合用户属性的邮件分类方法及系统

Publications (2)

Publication Number Publication Date
CN106230690A CN106230690A (zh) 2016-12-14
CN106230690B true CN106230690B (zh) 2019-06-11

Family

ID=57533248

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201610592259.9A Active CN106230690B (zh) 2016-07-25 2016-07-25 一种结合用户属性的邮件分类方法及系统

Country Status (1)

Country Link
CN (1) CN106230690B (zh)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106357508A (zh) * 2016-08-31 2017-01-25 成都启力慧源科技有限公司 基于用户行为关系的邮件分类方法
CN106789590B (zh) * 2017-01-03 2020-03-31 青岛海信移动通信技术股份有限公司 邮件发送方的分类方法和装置
CN108347367B (zh) * 2017-01-24 2021-01-15 中国移动通信有限公司研究院 一种电子邮件处理方法、装置、服务器及客户端

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101764765A (zh) * 2009-12-21 2010-06-30 北京大学 基于用户兴趣的垃圾邮件过滤方法
CN103384198A (zh) * 2013-06-03 2013-11-06 华中科技大学 一种基于邮箱的用户身份认证服务方法和系统
CN103595614A (zh) * 2012-08-16 2014-02-19 无锡华御信息技术有限公司 一种基于用户反馈的垃圾邮件检测方法

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101764765A (zh) * 2009-12-21 2010-06-30 北京大学 基于用户兴趣的垃圾邮件过滤方法
CN103595614A (zh) * 2012-08-16 2014-02-19 无锡华御信息技术有限公司 一种基于用户反馈的垃圾邮件检测方法
CN103384198A (zh) * 2013-06-03 2013-11-06 华中科技大学 一种基于邮箱的用户身份认证服务方法和系统

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
Leveraging Social Networks for Effective Spam Filtering;Haiying Shen, and Ze Li;《IEEE TRANSACTIONS ON COMPUTERS》;20141111;第2743-2759页
SOAP: A Social Network Aided Personalized and Effective Spam Filter to Clean Your E-mail Box;Ze Li and Haiying Shen;《IEEE INFOCOM》;20111231;第1835-1843页
基于用户行为的个性化邮件分类算法;陈宇;《福建工程学院学报》;20140228;第83-87页
基于行为的垃圾邮件检测技术;秦逸;《计算机科学》;20121130;第86-89页

Also Published As

Publication number Publication date
CN106230690A (zh) 2016-12-14

Similar Documents

Publication Publication Date Title
US10044656B2 (en) Statistical message classifier
CN103441924B (zh) 一种基于短文本的垃圾邮件过滤方法及装置
US7930351B2 (en) Identifying undesired email messages having attachments
US8489689B1 (en) Apparatus and method for obfuscation detection within a spam filtering model
Alurkar et al. A proposed data science approach for email spam classification using machine learning techniques
US8112484B1 (en) Apparatus and method for auxiliary classification for generating features for a spam filtering model
CN101674264B (zh) 基于用户关系挖掘及信誉评价的垃圾邮件检测装置及方法
CN107086952A (zh) 一种基于tf‑idf中文分词的贝叶斯垃圾邮件过滤方法
CN106230690B (zh) 一种结合用户属性的邮件分类方法及系统
Christina et al. Email spam filtering using supervised machine learning techniques
CN101699432A (zh) 基于排序策略的信息过滤系统
CN101330473A (zh) 一种多协议支持的网络垃圾信息过滤方法和装置
CN1760901A (zh) 电子邮件过滤系统
Zhang et al. Filtering junk mail with a maximum entropy model
CN101299729B (zh) 一种基于拓扑行为的垃圾邮件判定方法
CN103812826A (zh) 垃圾邮件识别方法和识别系统、以及过滤系统
CN106156105A (zh) 电子邮件聚合分类方法和装置
CN110213152B (zh) 识别垃圾邮件的方法、装置、服务器及存储介质
Bhat et al. Classification of email using BeaKS: Behavior and keyword stemming
CN108347367B (zh) 一种电子邮件处理方法、装置、服务器及客户端
CN105721539B (zh) 一种基于行为特征的短信分类装置及方法
US8356076B1 (en) Apparatus and method for performing spam detection and filtering using an image history table
Anitha et al. Email spam classification using neighbor probability based Naïve Bayes algorithm
JP4686724B2 (ja) 迷惑メールのフィルタ機能を有する電子メールシステム
CN102655484B (zh) 通过电子邮件添加联系人的方法、客户端及系统

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant