CN106357508A

CN106357508A - 基于用户行为关系的邮件分类方法

Info

Publication number: CN106357508A
Application number: CN201610791731.1A
Authority: CN
Inventors: 盛泳潘; 蒋欣志; 肖逸飞
Original assignee: Chengdu Qili Juxiantang Technology Co Ltd
Current assignee: Chengdu Qili Juxiantang Technology Co Ltd
Priority date: 2016-08-31
Filing date: 2016-08-31
Publication date: 2017-01-25

Abstract

本发明公开了一种基于用户行为关系的邮件分类方法，针对现有的邮件分类方法对于用户行为关系考虑较少的问题，将邮件地址对作为一个最为重要的特征参与到分类器的构建，采用贝叶斯的思想，计算每一个邮箱地址对与邮件类别的相关性，充分的考虑了邮件数据集中的信息，大大的提高了正类样本，即重要邮件的召回率和邮件分类准确率。本发明通过对用户的收发行为进行统计，将用户之间的行为关系考虑进去，更加适合现实中的邮件，更适合对特定用户进行重要邮件的推荐。

Description

基于用户行为关系的邮件分类方法

技术领域

本发明属于网络通信技术领域，具体涉及一种基于用户行为关系的邮件分类方法的设计。

背景技术

在网络进入万千大众的生活的同时，网络通信也就变得越来越频繁了，邮件通信正是网络通信的重要手段。然而，就在电子邮件逐渐成为一种不可或缺的重要信息交流工具的同时，日益增长的邮件数量也给人们的生活和工作带来了极大的困扰。尤其是对于公司和国家机关部门，面对现在大量的推荐邮件，问候邮件和掺杂在其中的重要邮件和急需处理的邮件，人们需要付出极大的工作量，造成大量的人力浪费和经济损失。

为了应对这些问题，目前通常采用邮件过滤，但是常见的邮件过滤算法主要是考虑邮件的内容，实际上就是文本的分类算法，另外通用的算法对不同的用户没有进行区别对待。在现有的一些解决方案中，包括基于概率的邮件分类方法、基于统计学习的邮件分类方法、基于相似度聚类的邮件分类方法等。

基于概率的邮件分类方法，如经典的贝叶斯方法，其原理是计算各个类别在给定这组属性值时的条件概率，并将条件概率最大的类标号作为分类的结果，采用该方法的缺点是前提条件一般不能满足。

基于统计学习的邮件分类方法，如SVM、决策树等。SVM方法是目前比较好的邮件分类方法之一，它主要是应对数据集在低纬度上无法正确分类，通道不是线性变换的函数对原始的特征空间进行映射，转换成一个更高维度的特征空间，在新的空间上实现对数据集的正确分类，根据邮件所在的平面来决定邮件所属的类别，其缺点是核函数的选择有一定的盲目性，缺乏有效的指导，很难针对某个具体问题选择最佳的核函数。决策树是比较有效率的一个方法，其原理是先将属性值进行离散化，然后按离散化的值进行建树，依次进行，直到该分支满足预定的要求，否则继续下去，直到该分支为单个邮件。其缺点是很容易过拟合。

基于相似度聚类的邮件分类方法，如KNN，其原理是计算邮件之间的距离，样本离哪个类别近就认为该封邮件属于哪个类别。其缺点是需要计算邮件之间的距离，分类效率较低。

这些方法都有各自的优势，同时也有各自的缺点。现有的邮件分类方法中对于用户的行为关系的考虑是欠缺的，用户之间的收发关系对于一封邮件的重要与否有时候会起到关键性的作用。在不考虑这种关系的时候，邮件的错分几率会大大的增加。

发明内容

本发明的目的是为了解决现有技术中邮件分类方法欠缺对于用户行为关系的考虑的问题，提出了一种基于用户行为关系的邮件分类方法。

本发明的技术方案为：基于用户行为关系的邮件分类方法，包括以下步骤：

S1、对原始邮件数据集进行解析，生成新的邮件数据集EmailDatas；

S2、获取邮件数据集EmailDatas中收发件人的邮件地址对(x,y)；

S3、遍历邮件数据集EmailDatas中的所有邮件样本，统计和存储每一个地址对(x,y)；

S4、计算每一个地址对(x,y)与类别c的条件概率；

S5、计算每一个地址对(x,y)属于重要邮件的条件概率与属于不重要邮件的条件概率的比值φ(x,y)；

S6、根据φ(x,y)判定每个邮件样本是否为重要邮件。

进一步地，步骤S1具体为：

获取原始邮件数据集，对其中的每一封邮件调用JavaMail jar包中的方法，获取邮件的内容、主题、发件人地址、发件时间、收件人地址以及附件信息；遍历原始邮件数据集中的所有邮件，对解析得到的结果进行存储，从而生成新的邮件数据集EmailDatas。

进一步地，步骤S4具体为：

通过公式(1)计算每一个地址对(x,y)与类别c的条件概率：

P ((x, y) | c) = \frac{n_{(x, y), c} + 1}{n_{c} + | V |} - - - (1)

其中，|V|表示给邮件词典集Dictionary的邮件地址对的数量，邮件词典集Dictionary由对邮件数据集EmailDatas中的每一封邮件的主题和内容利用IK分词器进行分词后得到；n_c表示类别c中出现的所有邮件地址对的数量；n_(x,y),c表示地址对(x,y)在类别c中出现的次数；类别c的取值为“重要”或“不重要”。

进一步地，步骤S5中计算φ(x,y)的公式为：

进一步地，步骤S6具体为：

若φ(x,y)＞1，则该邮件判定为重要邮件，否则该邮件判定为不重要邮件。

本发明的有益效果是：本发明针对现有的邮件分类方法对于用户行为关系考虑较少的问题，提出了基于用户行为关系的邮件分类方法，将邮件地址对作为一个最为重要的特征参与到分类器的构建，采用贝叶斯的思想，计算每一个邮箱地址对与邮件类别的相关性，充分的考虑了邮件数据集中的信息，大大的提高了正类样本，即重要邮件的召回率和邮件分类准确率。本发明通过对用户的收发行为进行统计，将用户之间的行为关系考虑进去，更加适合现实中的邮件，更适合对特定用户进行重要邮件的推荐。

附图说明

图1为本发明提供的基于用户行为关系的邮件分类方法流程图。

图2为本发明与现有邮件分类方法各项指标对比示意图。

具体实施方式

下面结合附图对本发明的实施例作进一步的说明。

本发明提供了一种基于用户行为关系的邮件分类方法，如图1所示，包括以下步骤：

S1、对原始邮件数据集进行解析，生成新的邮件数据集EmailDatas。

原始邮件数据集中的邮件是Email格式的半结构化的文档，无法直接作为文本进行处理，需要先对其进行解析，然后进行内容提取，具体过程如下：

S2、获取邮件数据集EmailDatas中收发件人的邮件地址对(x,y)。

S3、遍历邮件数据集EmailDatas中的所有邮件样本，统计和存储每一个地址对(x,y)。这里当收件人和发件人调换时是两种不同的情况，要区别对待，即(x,y)和(y,x)是不同的地址对。

S4、计算每一个地址对(x,y)与类别c的条件概率：

P ((x, y) | c) = \frac{n_{(x, y), c} + 1}{n_{c} + | V |} - - - (1)

S5、计算每一个地址对(x,y)属于重要邮件的条件概率与属于不重要邮件的条件概率的比值φ(x,y)：

S6、根据φ(x,y)判定每个邮件样本是否为重要邮件：

与现有的邮件分类方法相比，本发明考虑了用户之间的行为关系(即用户的邮件收发关系)，将邮件地址对作为一个最为重要的特征参与到分类器的构建。如图2所示，与不考虑用户之间行为关系的现有邮件分类方法相比，本发明提供的方法在正类样本(即重要邮件)的召回率、邮件分类准确率以及整个分类器的F1-measure(综合评价指标)上都有显著提高，更适合对特定用户进行重要邮件的推荐。

本领域的普通技术人员将会意识到，这里所述的实施例是为了帮助读者理解本发明的原理，应被理解为本发明的保护范围并不局限于这样的特别陈述和实施例。本领域的普通技术人员可以根据本发明公开的这些技术启示做出各种不脱离本发明实质的其它各种具体变形和组合，这些变形和组合仍然在本发明的保护范围内。

Claims

1.基于用户行为关系的邮件分类方法，其特征在于，包括以下步骤：

S2、获取邮件数据集EmailDatas中收发件人的邮件地址对(x,y)；

S4、计算每一个地址对(x,y)与类别c的条件概率；

S6、根据φ(x,y)判定每个邮件样本是否为重要邮件。

2.根据权利要求1所述的基于用户行为关系的邮件分类方法，其特征在于，所述步骤S1具体为：

3.根据权利要求1所述的基于用户行为关系的邮件分类方法，其特征在于，所述步骤S4具体为：

通过公式(1)计算每一个地址对(x,y)与类别c的条件概率：

其中，|V|表示给邮件词典集Dictionary的邮件地址对的数量，所述邮件词典集Dictionary由对邮件数据集EmailDatas中的每一封邮件的主题和内容利用IK分词器进行分词后得到；n_c表示类别c中出现的所有邮件地址对的数量；n_(x,y),c表示地址对(x,y)在类别c中出现的次数；类别c的取值为“重要”或“不重要”。

4.根据权利要求3所述的基于用户行为关系的邮件分类方法，其特征在于，所述步骤S5中计算φ(x,y)的公式为：。

5.根据权利要求4所述的基于用户行为关系的邮件分类方法，其特征在于，所述步骤S6具体为：