CN106357508A - 基于用户行为关系的邮件分类方法 - Google Patents
基于用户行为关系的邮件分类方法 Download PDFInfo
- Publication number
- CN106357508A CN106357508A CN201610791731.1A CN201610791731A CN106357508A CN 106357508 A CN106357508 A CN 106357508A CN 201610791731 A CN201610791731 A CN 201610791731A CN 106357508 A CN106357508 A CN 106357508A
- Authority
- CN
- China
- Prior art keywords
- user behavior
- address
- classification
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Classifications
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L51/00—User-to-user messaging in packet-switching networks, transmitted according to store-and-forward or real-time protocols, e.g. e-mail
- H04L51/56—Unified messaging, e.g. interactions between e-mail, instant messaging or converged IP messaging [CPM]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
- G06F18/2415—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on parametric or probabilistic models, e.g. based on likelihood ratio or false acceptance rate versus a false rejection rate
- G06F18/24155—Bayesian classification
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L51/00—User-to-user messaging in packet-switching networks, transmitted according to store-and-forward or real-time protocols, e.g. e-mail
- H04L51/42—Mailbox-related aspects, e.g. synchronisation of mailboxes
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Signal Processing (AREA)
- Data Mining & Analysis (AREA)
- Computer Networks & Wireless Communication (AREA)
- Theoretical Computer Science (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Bioinformatics & Computational Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Evolutionary Biology (AREA)
- Evolutionary Computation (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Artificial Intelligence (AREA)
- Life Sciences & Earth Sciences (AREA)
- Probability & Statistics with Applications (AREA)
- Information Transfer Between Computers (AREA)
Abstract
本发明公开了一种基于用户行为关系的邮件分类方法,针对现有的邮件分类方法对于用户行为关系考虑较少的问题,将邮件地址对作为一个最为重要的特征参与到分类器的构建,采用贝叶斯的思想,计算每一个邮箱地址对与邮件类别的相关性,充分的考虑了邮件数据集中的信息,大大的提高了正类样本,即重要邮件的召回率和邮件分类准确率。本发明通过对用户的收发行为进行统计,将用户之间的行为关系考虑进去,更加适合现实中的邮件,更适合对特定用户进行重要邮件的推荐。
Description
技术领域
本发明属于网络通信技术领域,具体涉及一种基于用户行为关系的邮件分类方法的设计。
背景技术
在网络进入万千大众的生活的同时,网络通信也就变得越来越频繁了,邮件通信正是网络通信的重要手段。然而,就在电子邮件逐渐成为一种不可或缺的重要信息交流工具的同时,日益增长的邮件数量也给人们的生活和工作带来了极大的困扰。尤其是对于公司和国家机关部门,面对现在大量的推荐邮件,问候邮件和掺杂在其中的重要邮件和急需处理的邮件,人们需要付出极大的工作量,造成大量的人力浪费和经济损失。
为了应对这些问题,目前通常采用邮件过滤,但是常见的邮件过滤算法主要是考虑邮件的内容,实际上就是文本的分类算法,另外通用的算法对不同的用户没有进行区别对待。在现有的一些解决方案中,包括基于概率的邮件分类方法、基于统计学习的邮件分类方法、基于相似度聚类的邮件分类方法等。
基于概率的邮件分类方法,如经典的贝叶斯方法,其原理是计算各个类别在给定这组属性值时的条件概率,并将条件概率最大的类标号作为分类的结果,采用该方法的缺点是前提条件一般不能满足。
基于统计学习的邮件分类方法,如SVM、决策树等。SVM方法是目前比较好的邮件分类方法之一,它主要是应对数据集在低纬度上无法正确分类,通道不是线性变换的函数对原始的特征空间进行映射,转换成一个更高维度的特征空间,在新的空间上实现对数据集的正确分类,根据邮件所在的平面来决定邮件所属的类别,其缺点是核函数的选择有一定的盲目性,缺乏有效的指导,很难针对某个具体问题选择最佳的核函数。决策树是比较有效率的一个方法,其原理是先将属性值进行离散化,然后按离散化的值进行建树,依次进行,直到该分支满足预定的要求,否则继续下去,直到该分支为单个邮件。其缺点是很容易过拟合。
基于相似度聚类的邮件分类方法,如KNN,其原理是计算邮件之间的距离,样本离哪个类别近就认为该封邮件属于哪个类别。其缺点是需要计算邮件之间的距离,分类效率较低。
这些方法都有各自的优势,同时也有各自的缺点。现有的邮件分类方法中对于用户的行为关系的考虑是欠缺的,用户之间的收发关系对于一封邮件的重要与否有时候会起到关键性的作用。在不考虑这种关系的时候,邮件的错分几率会大大的增加。
发明内容
本发明的目的是为了解决现有技术中邮件分类方法欠缺对于用户行为关系的考虑的问题,提出了一种基于用户行为关系的邮件分类方法。
本发明的技术方案为:基于用户行为关系的邮件分类方法,包括以下步骤:
S1、对原始邮件数据集进行解析,生成新的邮件数据集EmailDatas;
S2、获取邮件数据集EmailDatas中收发件人的邮件地址对(x,y);
S3、遍历邮件数据集EmailDatas中的所有邮件样本,统计和存储每一个地址对(x,y);
S4、计算每一个地址对(x,y)与类别c的条件概率;
S5、计算每一个地址对(x,y)属于重要邮件的条件概率与属于不重要邮件的条件概率的比值φ(x,y);
S6、根据φ(x,y)判定每个邮件样本是否为重要邮件。
进一步地,步骤S1具体为:
获取原始邮件数据集,对其中的每一封邮件调用JavaMail jar包中的方法,获取邮件的内容、主题、发件人地址、发件时间、收件人地址以及附件信息;遍历原始邮件数据集中的所有邮件,对解析得到的结果进行存储,从而生成新的邮件数据集EmailDatas。
进一步地,步骤S4具体为:
通过公式(1)计算每一个地址对(x,y)与类别c的条件概率:
其中,|V|表示给邮件词典集Dictionary的邮件地址对的数量,邮件词典集Dictionary由对邮件数据集EmailDatas中的每一封邮件的主题和内容利用IK分词器进行分词后得到;nc表示类别c中出现的所有邮件地址对的数量;n(x,y),c表示地址对(x,y)在类别c中出现的次数;类别c的取值为“重要”或“不重要”。
进一步地,步骤S5中计算φ(x,y)的公式为:
进一步地,步骤S6具体为:
若φ(x,y)>1,则该邮件判定为重要邮件,否则该邮件判定为不重要邮件。
本发明的有益效果是:本发明针对现有的邮件分类方法对于用户行为关系考虑较少的问题,提出了基于用户行为关系的邮件分类方法,将邮件地址对作为一个最为重要的特征参与到分类器的构建,采用贝叶斯的思想,计算每一个邮箱地址对与邮件类别的相关性,充分的考虑了邮件数据集中的信息,大大的提高了正类样本,即重要邮件的召回率和邮件分类准确率。本发明通过对用户的收发行为进行统计,将用户之间的行为关系考虑进去,更加适合现实中的邮件,更适合对特定用户进行重要邮件的推荐。
附图说明
图1为本发明提供的基于用户行为关系的邮件分类方法流程图。
图2为本发明与现有邮件分类方法各项指标对比示意图。
具体实施方式
下面结合附图对本发明的实施例作进一步的说明。
本发明提供了一种基于用户行为关系的邮件分类方法,如图1所示,包括以下步骤:
S1、对原始邮件数据集进行解析,生成新的邮件数据集EmailDatas。
原始邮件数据集中的邮件是Email格式的半结构化的文档,无法直接作为文本进行处理,需要先对其进行解析,然后进行内容提取,具体过程如下:
获取原始邮件数据集,对其中的每一封邮件调用JavaMail jar包中的方法,获取邮件的内容、主题、发件人地址、发件时间、收件人地址以及附件信息;遍历原始邮件数据集中的所有邮件,对解析得到的结果进行存储,从而生成新的邮件数据集EmailDatas。
S2、获取邮件数据集EmailDatas中收发件人的邮件地址对(x,y)。
S3、遍历邮件数据集EmailDatas中的所有邮件样本,统计和存储每一个地址对(x,y)。这里当收件人和发件人调换时是两种不同的情况,要区别对待,即(x,y)和(y,x)是不同的地址对。
S4、计算每一个地址对(x,y)与类别c的条件概率:
其中,|V|表示给邮件词典集Dictionary的邮件地址对的数量,邮件词典集Dictionary由对邮件数据集EmailDatas中的每一封邮件的主题和内容利用IK分词器进行分词后得到;nc表示类别c中出现的所有邮件地址对的数量;n(x,y),c表示地址对(x,y)在类别c中出现的次数;类别c的取值为“重要”或“不重要”。
S5、计算每一个地址对(x,y)属于重要邮件的条件概率与属于不重要邮件的条件概率的比值φ(x,y):
S6、根据φ(x,y)判定每个邮件样本是否为重要邮件:
若φ(x,y)>1,则该邮件判定为重要邮件,否则该邮件判定为不重要邮件。
与现有的邮件分类方法相比,本发明考虑了用户之间的行为关系(即用户的邮件收发关系),将邮件地址对作为一个最为重要的特征参与到分类器的构建。如图2所示,与不考虑用户之间行为关系的现有邮件分类方法相比,本发明提供的方法在正类样本(即重要邮件)的召回率、邮件分类准确率以及整个分类器的F1-measure(综合评价指标)上都有显著提高,更适合对特定用户进行重要邮件的推荐。
本领域的普通技术人员将会意识到,这里所述的实施例是为了帮助读者理解本发明的原理,应被理解为本发明的保护范围并不局限于这样的特别陈述和实施例。本领域的普通技术人员可以根据本发明公开的这些技术启示做出各种不脱离本发明实质的其它各种具体变形和组合,这些变形和组合仍然在本发明的保护范围内。
Claims (5)
1.基于用户行为关系的邮件分类方法,其特征在于,包括以下步骤:
S1、对原始邮件数据集进行解析,生成新的邮件数据集EmailDatas;
S2、获取邮件数据集EmailDatas中收发件人的邮件地址对(x,y);
S3、遍历邮件数据集EmailDatas中的所有邮件样本,统计和存储每一个地址对(x,y);
S4、计算每一个地址对(x,y)与类别c的条件概率;
S5、计算每一个地址对(x,y)属于重要邮件的条件概率与属于不重要邮件的条件概率的比值φ(x,y);
S6、根据φ(x,y)判定每个邮件样本是否为重要邮件。
2.根据权利要求1所述的基于用户行为关系的邮件分类方法,其特征在于,所述步骤S1具体为:
获取原始邮件数据集,对其中的每一封邮件调用JavaMail jar包中的方法,获取邮件的内容、主题、发件人地址、发件时间、收件人地址以及附件信息;遍历原始邮件数据集中的所有邮件,对解析得到的结果进行存储,从而生成新的邮件数据集EmailDatas。
3.根据权利要求1所述的基于用户行为关系的邮件分类方法,其特征在于,所述步骤S4具体为:
通过公式(1)计算每一个地址对(x,y)与类别c的条件概率:
其中,|V|表示给邮件词典集Dictionary的邮件地址对的数量,所述邮件词典集Dictionary由对邮件数据集EmailDatas中的每一封邮件的主题和内容利用IK分词器进行分词后得到;nc表示类别c中出现的所有邮件地址对的数量;n(x,y),c表示地址对(x,y)在类别c中出现的次数;类别c的取值为“重要”或“不重要”。
4.根据权利要求3所述的基于用户行为关系的邮件分类方法,其特征在于,所述步骤S5中计算φ(x,y)的公式为:。
5.根据权利要求4所述的基于用户行为关系的邮件分类方法,其特征在于,所述步骤S6具体为:
若φ(x,y)>1,则该邮件判定为重要邮件,否则该邮件判定为不重要邮件。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201610791731.1A CN106357508A (zh) | 2016-08-31 | 2016-08-31 | 基于用户行为关系的邮件分类方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201610791731.1A CN106357508A (zh) | 2016-08-31 | 2016-08-31 | 基于用户行为关系的邮件分类方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN106357508A true CN106357508A (zh) | 2017-01-25 |
Family
ID=57856501
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201610791731.1A Pending CN106357508A (zh) | 2016-08-31 | 2016-08-31 | 基于用户行为关系的邮件分类方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN106357508A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109543050A (zh) * | 2018-11-29 | 2019-03-29 | 北京航空航天大学 | 一种基于会话网络的邮件重要性评价方法 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103136266A (zh) * | 2011-12-01 | 2013-06-05 | 中兴通讯股份有限公司 | 邮件分类的方法及装置 |
CN105447505A (zh) * | 2015-11-09 | 2016-03-30 | 成都数之联科技有限公司 | 一种多层次重要邮件检测方法 |
CN106230690A (zh) * | 2016-07-25 | 2016-12-14 | 华中科技大学 | 一种结合用户属性的邮件分类方法及系统 |
-
2016
- 2016-08-31 CN CN201610791731.1A patent/CN106357508A/zh active Pending
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103136266A (zh) * | 2011-12-01 | 2013-06-05 | 中兴通讯股份有限公司 | 邮件分类的方法及装置 |
CN105447505A (zh) * | 2015-11-09 | 2016-03-30 | 成都数之联科技有限公司 | 一种多层次重要邮件检测方法 |
CN106230690A (zh) * | 2016-07-25 | 2016-12-14 | 华中科技大学 | 一种结合用户属性的邮件分类方法及系统 |
Non-Patent Citations (2)
Title |
---|
赵静: "基于内容特征分析的垃圾邮件过滤关键技术研究", 《中国优秀硕士学位论文全文数据库信息科技辑》 * |
陈宇: "基于用户行为的个性化邮件分类算法", 《福建工程学院学报》 * |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109543050A (zh) * | 2018-11-29 | 2019-03-29 | 北京航空航天大学 | 一种基于会话网络的邮件重要性评价方法 |
CN109543050B (zh) * | 2018-11-29 | 2021-08-27 | 北京航空航天大学 | 一种基于会话网络的邮件重要性评价方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN106453033B (zh) | 基于邮件内容的多层次邮件分类方法 | |
Alurkar et al. | A proposed data science approach for email spam classification using machine learning techniques | |
CN103514174B (zh) | 一种文本分类方法和装置 | |
CN101674264B (zh) | 基于用户关系挖掘及信誉评价的垃圾邮件检测装置及方法 | |
CN107086952A (zh) | 一种基于tf‑idf中文分词的贝叶斯垃圾邮件过滤方法 | |
Sharma et al. | A novel method for detecting spam email using KNN classification with spearman correlation as distance measure | |
CN105871887A (zh) | 基于客户端的个性化电子邮件过滤系统和过滤方法 | |
CN102842078B (zh) | 一种基于社群特征分析的电子邮件取证分析方法 | |
CN105447505B (zh) | 一种多层次重要邮件检测方法 | |
Hershkop et al. | Combining email models for false positive reduction | |
CN101540017B (zh) | 基于字节级n元文法的特征提取方法及垃圾邮件过滤器 | |
CN103024746A (zh) | 一种电信运营商垃圾短信处理系统及处理方法 | |
CN103136266A (zh) | 邮件分类的方法及装置 | |
CN109800852A (zh) | 一种多模态的垃圾邮件识别方法 | |
CN106156105A (zh) | 电子邮件聚合分类方法和装置 | |
CN102404249A (zh) | 一种基于协同训练的垃圾邮件过滤方法和装置 | |
Ruskanda | Study on the effect of preprocessing methods for spam email detection | |
Agarwal et al. | SMS spam detection for Indian messages | |
Bhat et al. | Classification of email using BeaKS: Behavior and keyword stemming | |
CN110213152A (zh) | 识别垃圾邮件的方法、装置、服务器及存储介质 | |
Krause et al. | Recognizing email spam from meta data only | |
CN106341303A (zh) | 基于邮件用户行为的发件人信誉生成方法 | |
CN107992508B (zh) | 一种基于机器学习的中文邮件签名提取方法及系统 | |
CN106357508A (zh) | 基于用户行为关系的邮件分类方法 | |
CN106230690B (zh) | 一种结合用户属性的邮件分类方法及系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
WD01 | Invention patent application deemed withdrawn after publication |
Application publication date: 20170125 |
|
WD01 | Invention patent application deemed withdrawn after publication |