CN103473218A

CN103473218A - 一种电子邮件分类方法及其装置

Info

Publication number: CN103473218A
Application number: CN2013103966353A
Authority: CN
Inventors: 林延中; 潘庆峰
Original assignee: MAIMAILTECH (BEIJING) CO Ltd
Current assignee: Critics of science and Technology (Guangzhou) Co. Ltd.
Priority date: 2013-09-04
Filing date: 2013-09-04
Publication date: 2013-12-25
Anticipated expiration: 2033-09-04
Also published as: WO2015032124A1; CN103473218B

Abstract

本发明实施例公开了一种电子邮件分类方法及其装置，其中，该方法包括：对电子邮件中的文本进行分词处理并获得分词结果；使用TF-IDF技术对所述分词结果进行排序处理；获取每两个电子邮件之间的相似性；根据所述相似性对电子邮件进行聚类处理并获得聚类结果；将所述聚类结果进行显示。实施本发明实施例，在用户不希望对电子邮件进行任何操作的情况下，可以智能地根据电子邮件的内容对电子邮件进行分类，可减少用户的工作；在用户对分类结果进行干预时，也可以根据用户自己设定的规则进行优先级排序，提高了操作灵活性，提高了电子邮件用户的体验性及便利性。

Description

一种电子邮件分类方法及其装置

技术领域

本发明涉及网络通信技术领域，特别是涉及一种电子邮件分类方法及其装置。

背景技术

随着移动终端技术的不断发展，手机、掌上电脑、平板、笔记本等各种移动设备已经成为人们工作、生活中必不可缺的一部分，而电子邮件是人们办公、通信最常用的功能之一。特别是对于商务人士，每天因为工作都可能产生几百个电子邮件，长时间使用电子邮件功能后，如何在大量的邮件中方便、有效地找到一条特定电子邮件，尤其是和当前环境相关的邮件，成了一大问题。

对于商务人士而言，如何面对邮箱里每天繁杂的电子邮件是一个令人头疼的问题。为了满足顾客的需求，许多电子邮件服务商都提供了自定义邮件分类服务。用户通过设置个性化收件规则，可将来自特定发件人、特定域名或是邮件中带有特定词汇的电子邮件分为一类，方便阅读和管理。

现有方案中，对于电子邮件一般仅保存内容、收信人或发信人、时间等信息，比如简单地按时间、主题等排序显示，或者简单地按联系人分类排序显示，或者简单的提供搜索功能，让用户按联系人或者电子邮件内容来查找。上述方式只是简单把用户的邮件列出来，对电子邮件的区分度较低，当用户想要查看某一个邮件时，一般用户很难记得其中的详细信息，只能根据电子邮件的时间或联系人或者邮件的部分内容去手动查找，对于存储了大量电子邮件。

然而，以上功能存在一定的局限性。首先，使用该功能需要用户进行多步骤的预设置；其次，即使邮件已经进行了分类，用户依旧不能立马从海量的未读邮件中判断出哪些是最需要优先处理的；最后，该功能基本对手机用户不适用。现有技术中存在一种根据邮件发件人的重要性进行分级的方案，会依照发件人的地址对邮件进行优先级评级，也会通过发件人填写的收件人信息来判断邮件的重要程度。如果该邮件来自 workboss.com，邮箱系统将自动给予该邮件较高评级；如果该邮件是发件人对用户一对一发送的，邮箱会自动判定它的优先级比群发邮件更高；如果该邮件由发件人群发至“家人”分组，则收件方也会把这邮件判定为家庭邮件。与传统的邮箱系统不同，这套智能信息系统的分类标准建立在对发件人信息的判断，并且依据判断结果把邮件的重要性分为各等级，为收件人在短时间内判断阅读顺序给予参考。

在现有技术中，在使用“智能”分类功能之前，必须首先整理好联系人列表，并标记联系人属于哪个分组，否则该分类系统也无法获知哪个联系人是“老板”，哪个联系人是“家人”；现有技术主要是基于发信人或者收信人进行排序，但是没有考虑邮件内容。一般情况下，老板和家人的邮件优先级高是正确的，但是除了这些明显的分类之外，其他联系人的分类等级相对模糊。比如同样是同事，有时候是本部门同事应该优先，有时候是外部门同事优先，更复杂的情况是外部门的经理比本部门的一般职别同事优先。这些复杂的关系每个人都可能有不同的定义，而且最终的逻辑可能会非常复杂，很难定义清楚。

发明内容

本发明的目的在于克服现有技术的不足，本发明提供了一种电子邮件分类方法及其装置，在用户不希望对电子邮件进行任何操作的情况下，可以智能地根据电子电子邮件的内容对电子邮件进行分类，可减少用户的工作。

为了解决上述问题，本发明提出了一种电子邮件分类方法，所述方法包括：

对电子邮件中的文本进行分词处理并获得分词结果；

使用TF-IDF技术对所述分词结果进行排序处理；

获取每两个电子邮件之间的相似性；

根据所述相似性对电子邮件进行聚类处理并获得聚类结果；

将所述聚类结果进行显示。

优选地，所述对电子邮件中的文本进行分词处理的步骤包括：

对文本进行预处理并抽取出中文文本和/或英文文本；

分别对所述中文文本和英文文本进行分词处理，并获得分词结果。

优选地，所述获取每两个电子邮件之间的相似性的步骤具体为：通过两个电子邮件的分词向量内积空间的夹角的余弦值来获取两个电子邮件之间的相似性。

优选地，所述根据所述相似性对电子邮件进行聚类处理并获得聚类结果的步骤包括：

通过K-means算法对所述电子邮件进行聚类处理；

根据所述相似性将所述电子邮件分成两个簇，把相似的电子邮件归在同一簇中。

通过K-means算法对所述电子邮件进行聚类处理；

相应地，本发明还提供一种电子邮件分类装置，所述装置包括：

分词模块，用于对电子邮件中的文本进行分词处理并获得分词结果；

排序模块，用于使用TF-IDF技术对所述分词模块所获得的分词结果进行排序处理；

相似性获取模块，用于获取每两个电子邮件之间的相似性；

聚类模块，用于根据所述相似性获取模块所获取的相似性对电子邮件进行聚类处理并获得聚类结果；

显示模块，用于将所述聚类模块所获得的聚类结果进行显示。

优选地，所述分词模块包括：

文本预处理单元，用于对文本进行预处理并抽取出中文文本和/或英文文本；

分词单元，用于分别对所述文本预处理单元所抽取的中文文本和英文文本进行分词处理，并获得分词结果。

优选地，所述相似性获取模块还用于通过两个电子邮件的分词向量内积空间的夹角的余弦值来获取两个电子邮件之间的相似性。

优选地，所述聚类模块包括：

聚类单元，用于通过K-means算法对所述电子邮件进行聚类处理；

分簇单元，用于根据所述相似性将所述电子邮件分成两个簇，把相似的电子邮件归在同一簇中。

优选地，所述装置还包括：模式设定模块，用于获取任意一个簇中的电子邮件的数量，并根据所述电子邮件的数量设定该簇对应的相似性的电子邮件模式。

实施本发明实施例，在用户不希望对电子邮件进行任何操作的情况下，可以智能地根据电子邮件的内容对电子邮件进行分类，可减少用户的工作；在用户对分类结果进行干预时，也可以根据用户自己设定的规则进行优先级排序，提高了操作灵活性，提高了电子邮件用户的体验性及便利性。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1是本发明实施例的电子邮件分类方法的流程示意图；

图2是本发明实施例的电子邮件分类装置的结构组成示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

图1是本发明实施例的电子邮件分类方法的流程示意图，如图1所示，该方法包括：

S101，对电子邮件中的文本进行分词处理并获得分词结果；

S102，使用TF-IDF技术对分词结果进行排序处理；

S103，获取每两个电子邮件之间的相似性；

S104，根据相似性对电子邮件进行聚类处理并获得聚类结果；

S105，将聚类结果进行显示。

其中，S101进一步包括：

对文本进行预处理并抽取出中文文本和/或英文文本；

分别对中文文本和英文文本进行分词处理，并获得分词结果。

具体实施中，首先获取电子邮件，并对电子邮件中的文本进行预处理。对于超文本标记语言（Hypertext Markup Language，HTML）文档，将其中的HTML标记（tag）提取出来单独处理；针对剩余的信息，将中文字符和英文字符分离出来，转换成只有英文字符的文本和只有中文字符的文本。对于英文文本，使用传统的分词方式（以标点符号和空格分隔各个分词）；对于中文文本，则使用机械的排列组合方式从句子中分离出词语。分离的方法如下：对于一个中文序列L；扫描其中的每一个中文文字C，并将C后面步长为S的文字逐个提取出来，组成文字组合。比如句子：我是中国人，假定扫描步长为3，分词最大长度为3的，则可能的分词为：我、我是、我是中、是、是中、是中国、中、中国、中国人、国、国人、人。

使用此分词方式的好处是无需中文词典，由于中文的特性，使用此办法分词肯定可以覆盖到绝大部分的中文词语。另外可以处理带有干扰信息的文本，比如：我a是a中a国a人的。

使用此分词的劣势是分词的结果有很多对人来说是没有意义的词组，但是后续通过S102的处理，会将这些分词按照区分能力进行排序，区分能力低的词语会排到较后的位置。另外一些对于用户来说没有意义的词语，实际上是对文本分类有较大作用的。比如“芙王”这个词语，经过处理之后，可以发现这个词语是垃圾邮件中一个有较大区分作用的分词，经验证，发现这个词语来源于销售假烟“芙蓉王”的垃圾邮件样本，而“芙蓉”这个词语可能会在其他正常邮件中经常出现，所以“芙蓉”这个词语对于垃圾邮件的区分作用不如“芙王”。

在S102中，使用TF-IDF技术对S101中所获得的分词进行排序处理。经排序后，分词结果会按照区分能力从高到低排序。具体实施中，排序后只保留排名靠前的50%分词（50%为经验值）。TF-IDF技术（term frequency–inverse document frequency）是一种用于资讯检索与资讯探勘的常用加权技术。TF-IDF是一种统计方法，用以评估一个字词对于一个文件集或一个语料库中的其中一份文件的重要程度。

在S103中，获取每两个电子邮件之间的相似性，具体是，通过两个电子邮件的分词向量内积空间的夹角的余弦值来获取两个电子邮件之间的相似性。在实施过程中，0度角的余弦值是1，而其他任何角度的余弦值都不大于1；并且其最小值是-1。从而可以通过两个向量之间的角度的余弦值确定两个向量是否大致指向相同的方向。两个向量有相同的指向时，余弦相似度的值为1；两个向量夹角为90°时，余弦相似度的值为0；两个向量指向完全相反的方向时，余弦相似度的值为-1。在比较过程中，向量的规模大小不予考虑，仅仅考虑到向量的指向方向。余弦相似度通常用于两个向量的夹角小于90°之内，因此余弦相似度的值为0到1之间。

进一步地，S104包括：

通过K-means算法对电子邮件进行聚类处理；

根据相似性将电子邮件分成两个簇，把相似的电子邮件归在同一簇中。

而在根据相似性对电子邮件进行聚类处理并获得聚类结果过程中，聚类电子邮件通过K-means算法实现。在具体实施中，K-means算法的k为2，也就是聚类后电子邮件将会被分成两个簇（即电子邮件将会被划分成两种类型）。假定两个簇分别是A和B，实际上计算机并无法知道这么划分的原因，单纯是通过计算每两个电子邮件之间的相似性，把相似的电子邮件归并在一起。由此，可以获得簇A（互相之间比较相似的邮件）和簇B（除了簇A之外的邮件）。

在根据相似性将电子邮件分成两个簇，把相似的电子邮件归在同一簇中的步骤之后，还包括：获取任意一个簇中的电子邮件的数量；并根据数量设定该簇对应的相似性的电子邮件模式。

假如在S104过程中获得簇A的电子邮件数量大于电子邮件总数的20%（20%是经验值，即A/(A+B)>0.2），则可以认为分离出了一类比较相似的电子邮件模式，将簇A的聚类质心点记录下来（以后新到达的电子邮件如果靠近簇A的聚类质心点的，将判定其属于簇A)。将簇B作为S104的输入，继续尝试获取下一个电子邮件模式。

如果在S104过程中获得簇A的电子邮件数量小于等于电子邮件总数的20%（即A/(A+B)<=0.2），则可以认为剩下的电子邮件互相之间没有明显的不同，则无法再获取新的电子邮件模式。

在S105中，将聚类结果进行显示，呈现给用户，由用户自行排列每个聚类的呈现优先关系（如果用户不选择的，则按照找到聚类的先后关系呈现电子邮件顺序）。在这里，已经帮用户基于电子邮件内容对电子邮件进行分组，用户只需要大致看一下已经做好的分组，便可获知这批电子邮件的分组原因以及安排优先级。常见的分组原因可能是账单邮件、订阅的邮件列表、公司事务讨论邮件等，用户可对分类分配其显示的优先级即可。如果用户不进行相关操作，则会使用聚类发现的先后顺序呈现电子邮件，结果将是聚类中电子邮件数量较多的，其聚类电子邮件优先呈现。

具体实施中，还可以提取聚类中的发信人地址，如果聚类中的大部分电子邮件都是来自一个或者几个发信人（最常见的就是账单类邮件），则可以自动提醒用户是否添加一个规则，将这一个或者几个发信人的电子邮件都标记为这个聚类的电子邮件。

实施本发明实施例的方法，在用户不希望对电子邮件进行任何操作的情况下，可以智能地根据电子邮件的内容对电子邮件进行分类，可减少用户的工作；在用户对分类结果进行干预时，也可以根据用户自己设定的规则进行优先级排序，提高了操作灵活性；并可以协助用户在较少工作量的情况下，添加可将电子邮件自动分类的规则，为电子邮件的用户带来极大的便利。

本发明实施例还提供了一种电子邮件分类装置，如图2所示，该装置包括：

分词模块1，用于对电子邮件中的文本进行分词处理并获得分词结果；

排序模块2，用于使用TF-IDF技术对分词模块1所获得的分词结果进行排序处理；

相似性获取模块3，用于获取每两个电子邮件之间的相似性；

聚类模块4，用于根据相似性获取模块3所获取的相似性对电子邮件进行聚类处理并获得聚类结果；

显示模块5，用于将聚类模块4所获得的聚类结果进行显示。

进一步地，分词模块1包括：

分词单元，用于分别对文本预处理单元所抽取的中文文本和英文文本进行分词处理，并获得分词结果。

而相似性获取模块3还用于通过两个电子邮件的分词向量内积空间的夹角的余弦值来获取两个电子邮件之间的相似性。

聚类模块4则进一步包括：

聚类单元，用于通过K-means算法对电子邮件进行聚类处理；

分簇单元，用于根据相似性将电子邮件分成两个簇，把相似的电子邮件归在同一簇中。

具体实施中，该装置还可以包括模式设定模块（图中未示出），用于获取任意一个簇中的电子邮件的数量，并根据电子邮件的数量设定该簇对应的相似性的电子邮件模式。

本发明实施例中的电子邮件分类装置的模块功能原理可参见本发明的电子邮件分类方法的实现过程及原理的描述，这里不再赘述。

实施本发明实施例的装置，在用户不希望对电子邮件进行任何操作的情况下，可以智能地根据电子邮件的内容对电子邮件进行分类，可减少用户的工作；在用户对分类结果进行干预时，也可以根据用户自己设定的规则进行优先级排序，提高了操作灵活性；并可以协助用户在较少工作量的情况下，添加可将电子邮件自动分类的规则，为电子邮件的用户带来极大的便利。

本发明的应用包括但不限于服务器、个人计算机（Personal Computer，PC）以及移动终端，包括手机、个人数字助理（Personal Digital Assistant，PDA）等。

本领域普通技术人员可以理解上述实施例的各种方法中的全部或部分步骤是可以通过程序来指令相关的硬件来完成，该程序可以存储于一计算机可读存储介质中，存储介质可以包括：只读存储器（ROM，Read Only Memory）、随机存取存储器（RAM，Random Access Memory）、磁盘或光盘等。

另外，以上对本发明实施例所提供的基于短信的移动互联网搜索系统及实现方法进行了详细介绍，本文中应用了具体个例对本发明的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本发明的方法及其核心思想；同时，对于本领域的一般技术人员，依据本发明的思想，在具体实施方式及应用范围上均会有改变之处，综上所述，本说明书内容不应理解为对本发明的限制。

Claims

1.一种电子邮件分类方法，其特征在于，所述方法包括：

对电子邮件中的文本进行分词处理并获得分词结果；

使用TF-IDF技术对所述分词结果进行排序处理；

获取每两个电子邮件之间的相似性；

根据所述相似性对电子邮件进行聚类处理并获得聚类结果；

将所述聚类结果进行显示。

2.如权利要求1所述的电子邮件分类方法，其特征在于，所述对电子邮件中的文本进行分词处理的步骤包括：

对文本进行预处理并抽取出中文文本和/或英文文本；

3.如权利要求1所述的电子邮件分类方法，其特征在于，所述获取每两个电子邮件之间的相似性的步骤具体为：通过两个电子邮件的分词向量内积空间的夹角的余弦值来获取两个电子邮件之间的相似性。

4.如权利要求1所述的电子邮件分类方法，其特征在于，所述根据所述相似性对电子邮件进行聚类处理并获得聚类结果的步骤包括：

通过K-means算法对所述电子邮件进行聚类处理；

5.如权利要求4所述的电子邮件分类方法，其特征在于，在所述根据所述相似性将所述电子邮件分成两个簇，把相似的电子邮件归在同一簇中的步骤之后，还包括：

获取任意一个簇中的电子邮件的数量；

根据所述数量设定该簇对应的相似性的电子邮件模式。

6.一种电子邮件分类装置，其特征在于，所述装置包括：

相似性获取模块，用于获取每两个电子邮件之间的相似性；

7.如权利要求6所述的电子邮件分类装置，其特征在于，所述分词模块包括：

8.如权利要求6所述的电子邮件分类装置，其特征在于，所述相似性获取模块还用于通过两个电子邮件的分词向量内积空间的夹角的余弦值来获取两个电子邮件之间的相似性。

9.如权利要求6所述的电子邮件分类装置，其特征在于，所述聚类模块包括：

10.如权利要求6所述的电子邮件分类装置，其特征在于，所述装置还包括：模式设定模块，用于获取任意一个簇中的电子邮件的数量，并根据所述电子邮件的数量设定该簇对应的相似性的电子邮件模式。