CN110213152B

CN110213152B - 识别垃圾邮件的方法、装置、服务器及存储介质

Info

Publication number: CN110213152B
Application number: CN201810410771.6A
Authority: CN
Inventors: 林初仁; 蔡龙健; 李晶; 王建华; 马创洪
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2018-05-02
Filing date: 2018-05-02
Publication date: 2021-09-14
Anticipated expiration: 2038-05-02
Also published as: CN110213152A

Abstract

本发明公开了一种识别垃圾邮件的方法、装置、服务器及存储介质，属于网络技术领域。方法包括：当接收到电子邮件时，提取电子邮件的邮件特征，邮件特征至少包括电子邮件的文本特征；根据电子邮件的收信地址，调用收信地址对应的识别模型，该识别模型用于根据收信地址的多封历史电子邮件的邮件特征来识别电子邮件是否为垃圾邮件；将电子邮件的邮件特征输入识别模型进行识别，输出电子邮件的识别结果。本发明通过将邮件特征输入该收信地址的识别模型，由于该识别模型可以针对收信方用户的实际收信情况，进行垃圾邮件的识别，提高了每个收信地址的垃圾邮件识别的准确率。

Description

识别垃圾邮件的方法、装置、服务器及存储介质

技术领域

本发明涉及网络技术领域，特别涉及一种识别垃圾邮件的方法、装置、服务器及存储介质。

背景技术

随着邮件通信的广泛应用，用户每天接收的电子邮件的数量繁多，这些电子邮件中往往会有垃圾邮件，例如，携带广告、病毒、恶意代码等信息的垃圾邮件。服务器可以对接收的电子邮件进行识别，对垃圾邮件进行拦截，以使用户免于受到垃圾邮件的骚扰。

相关技术中，当服务器接收到电子邮件时，获取发信方的发信特征，例如，发信地址的纬度信息；并通过垃圾邮件的筛选条件，确定该电子邮件是否为垃圾邮件。其中，该筛选条件是事先从大量垃圾邮件中提取、用于指示垃圾邮件的发信方的发信特征。当该电子邮件为垃圾邮件时，服务器删除该垃圾邮件。

在实现本发明的过程中，发明人发现相关技术至少存在以下问题：

由于筛选条件确定的时候是基于一定数量范围的垃圾邮件的发信特征得到。对于收信方来说，如果接收到的邮件为该筛选条件所指示的范围以外垃圾邮件，上述方法则不能识别该垃圾邮件。多种实际情况下，每个收信方的用户差异度较大，所收到的电子邮件也千差万别，上述筛选条件并不能涵盖每个收信方的垃圾邮件，从而导致垃圾邮件识别的准确率较低。

发明内容

本发明实施例提供了一种识别垃圾邮件的方法、装置、服务器及存储介质，可以解决相关技术中识别垃圾邮件的准确率较低的问题，所述技术方案如下：

第一方面，提供了一种识别垃圾邮件的方法，所述方法包括：

当接收到电子邮件时，提取所述电子邮件的邮件特征，所述邮件特征至少包括所述电子邮件的文本特征；

根据所述电子邮件的收信地址，调用所述收信地址对应的识别模型，所述识别模型用于根据所述收信地址的多封历史电子邮件的邮件特征来识别电子邮件是否为垃圾邮件；

将所述电子邮件的邮件特征输入所述识别模型进行识别，输出所述电子邮件的识别结果。

第二方面，提供了一种识别垃圾邮件的装置，所述装置包括：

提取模块，用于当接收到电子邮件时，提取所述电子邮件的邮件特征，所述邮件特征至少包括所述电子邮件的文本特征；

调用模块，用于根据所述电子邮件的收信地址，调用所述收信地址对应的识别模型，所述识别模型用于根据所述收信地址的多封历史电子邮件的邮件特征来识别电子邮件是否为垃圾邮件；

识别模块，用于将所述电子邮件的邮件特征输入所述识别模型进行识别，输出所述电子邮件的识别结果。

第三方面，提供了一种服务器，所述服务器包括处理器和存储器，所述存储器中存储有至少一条指令，所述指令由所述处理器加载并执行以实现如第一方面所述的识别垃圾邮件的方法所执行的操作。

第四方面，提供了一种计算机可读存储介质，所述存储介质中存储有至少一条指令，所述指令由处理器加载并执行以实现如第一方面所述的识别垃圾邮件的方法所执行的操作。

本发明实施例提供的技术方案带来的有益效果是：

本发明实施例中，服务器可以对接收到的电子邮件进行邮件特征提取，并调用该电子邮件的收信地址所对应的识别模型，通过将邮件特征输入识别模型进行垃圾邮件的识别，由于该识别模型为基于该收信地址的历史电子邮件训练得到，更贴近于每个收信地址的实际收信情况，即使用户之间差异化较大，也可满足单个用户的识别需求，从而提高了每个收信地址的垃圾邮件识别的准确率。

附图说明

为了更清楚地说明本发明实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本发明实施例提供的一种实施环境的示意图；

图2是本发明实施例提供的一种识别模型的训练过程的流程图；

图3是本发明实施例提供的一种识别垃圾邮件的方法流程图；

图4是本发明实施例提供的一种离线建模和线上实时识别的流程图；

图5是本发明实施例提供的一种识别垃圾邮件的装置的结构示意图；

图6是本发明实施例提供的一种服务器的结构示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

图1是本发明实施例提供的一种实施环境的示意图，该实施环境包括：终端101、服务器102和终端103，该终端101可以为发信地址所属用户的终端，该终端103可以为收信地址所属用户的终端，该服务器102用于提供电子邮件的邮件收发服务，以及在邮件收发过程中对垃圾邮件进行拦截。

其中，该服务器102中配备了历史电子邮件数据库和用户属性信息数据库，该历史电子邮件数据库中存储了每个用户的多封历史电子邮件，该用户属性信息数据库中可以用于存储用户的用户资料信息等，该服务器102可以通过该识别模型识别垃圾邮件，该多封历史电子邮件用于对该识别模型的训练和优化。另外，该服务器102还可以配备操作记录数据库，用于存储用户历史操作记录，服务器102也可基于该多封历史电子邮件和该用户历史操作记录来训练识别模型。当然，上述数据库可以是多个独立的数据库或一个整合的数据库。

该终端101可以通过网页或邮件客户端向收信地址发送电子邮件，该终端101先将该电子邮件发送至服务器102，该服务器102接收该电子邮件，并基于用户属性信息库中该收信地址对应的识别模型，对该电子邮件进行识别，以确定该电子邮件是否为垃圾邮件。当该电子邮件为垃圾邮件时，服务器将该垃圾邮件丢弃到该收信地址的垃圾箱，当然，该服务器102还可以直接删除或者拒收该垃圾邮件，从而将该垃圾邮件拦截在该收信地址的收件箱以外。当该电子邮件不是垃圾邮件时，该服务器102将该电子邮件发送至收信地址的收件箱，例如，该服务器102可以周期性将收信地址的收件箱内的电子邮件发送至终端103，当然，用户还可以通过终端103登录该收信地址的收件箱来查看电子邮件。

下面给出上述过程中出现的一些名词的解释：

垃圾邮件：被用户举报、删除和/或标记为垃圾邮件的电子邮件，或者，垃圾邮件还可以是被服务器识别为垃圾邮件的电子邮件。通常，垃圾邮件中会携带一些垃圾词汇、广告、病毒、恶意代码等信息。除上述垃圾邮件以外的邮件，可以称为非垃圾邮件。

历史操作记录：用于表示用户的收信习惯；该历史操作记录可以包括：该收信地址所属用户对历史电子邮件中垃圾邮件的举报、删除或标记为垃圾邮件的操作，以及对非垃圾邮件的阅读操作。

风险等级：收信地址所面临的接收到垃圾邮件的风险的大小。

为了实现针对收信地址的垃圾邮件识别，本申请可以为每个收信地址训练对应的识别模型，并在后续接收到发往该收信地址的电子邮件时，对电子邮件进行有针对性的识别。下面先对识别模型的训练过程进行介绍。

图2是本发明实施例提供的一种识别模型的训练过程的流程图，该训练过程的执行主体可以为服务器，参见图2，该过程包括：

201、服务器获取收信地址的多封历史电子邮件。

服务器基于收信地址，获取该收信地址所接收的历史电子邮件。在一种实现方式中，该服务器可以读取该多封历史电子邮件的邮件文本内容，并获取该电子邮件中邮件文本内容以外的邮件属性信息，，以便于后续从该邮件文本内容和/或邮件属性信息中提取训练模型所需的数据，该邮件文本内容包括每封历史电子邮件的邮件主题和邮件正文。该邮件属性信息包括但不限于电子邮件的发信时间、发信地址、该电子邮件所使用的语言等。

在一种实现方式中，服务器可以基于该多封历史电子邮件，获取该收信地址的历史收信记录，以便于后续将该历史收信记录作为判断该用户风险等级的参考。该历史收信记录是指该历史收到的垃圾邮件的记录和收到非垃圾邮件的记录。

202、服务器获取对该收信地址的历史操作记录。

服务器获取用户基于该多封历史电子邮件所执行的操作，该操作可以包括：所属用户对历史电子邮件中垃圾邮件的举报、删除或标记为垃圾邮件的操作，以及对非垃圾邮件的阅读操作。

203、服务器根据该多封历史电子邮件以及对该收信地址的历史操作记录，获取该收信地址的风险等级。

服务器可以从该多封历史电子邮件的历史收信记录和历史操作记录中提取用户特征，该用户特征可以为该收信地址在指定时间段的收信量、收信地址所属用户对垃圾邮件的举报量，并从收信量、举报量和用户风险等级的对应关系中，获取该收信量和举报量对应的风险等级。

需要说明的是，当该收信量和举报量较大时，说明该收信地址比较容易受到垃圾邮件的骚扰，也即是，该收信地址的风险等级也较高。服务器可以事先设置并存储收信量、举报量和用户风险等级之前的对应关系，从而后续可以直接基于该对应关系进行风险等级的判断，大大提高了处理效率。另外，该对应关系可以基于需要进行更改，本发明实施例对此不做具体限定。

以该风险等级可以分为高、中、低三个等级为例。

风险等级高：收信量属于[第一预设阈值，第二预设阈值]数值区间；举报量属于[第三预设阈值、小于第四预设阈值]数值区间；

风险等级中：收信量属于[第五预设阈值，第六预设阈值]数值区间；举报量属于[第七预设阈值、小于第八预设阈值]数值区间；

风险等级低：收信量属于[第九预设阈值，第十预设阈值]数值区间；举报量属于[第十一预设阈值、小于第十二预设阈值]数值区间；

当然，还可以基于需要进行其他等级设置和数值区间划分，本发明实施例对此不做具体限定。

例如，当该收信量处于0封/月～50封/月、举报量0封/月～5封/月时，对应的风险等级为低；当该收信量处于51封/月～150封/月、举报量6封/月～15封/月时，对应的风险等级为中；当该收信量处于151封/月～300封/月、举报量16封/月～35封/月时，对应的风险等级为高。当然，服务器还可以根据需要设置有其他等级，例如，该收信量达到1000封/月、举报量达到100封/月时，对应的风险等级为极高等级。

在一种可能的设计中，该服务器还可以将收信地址的属性特征也作为风险等级的评价因素，则服务器获取该收信地址的风险等级的步骤可以替换为：服务器获取该收信地址所属用户的属性特征，根据该多封历史电子邮件、对该收信地址的历史操作记录以及该属性特征，获取该收信地址的风险等级。其中，该属性特征包括该收信地址的域名和所属用户的名称。

需要说明的是，服务器还可以事先存储收信量、举报量、属性特征和用户风险等级之间的对应关系，服务器基于该对应关系确定风险等级，其具体实现方式同上述基于收信量和举报量确定风险等级时相同，此处不再赘述。

204、服务器根据该收信地址的风险等级，获取模型复杂度与该风险等级匹配的预设模型。

服务器可以事先关联存储多个风险等级和与该风险等级匹配的多个预设模型。因此，服务器可以根据该收信地址的风险等级，从该风险等级和预设模型之间的对应关系中，获取该收信地址的风险等级对应的预设模型。其中，不同预设模型的模型复杂度也不相同，收信地址的风险等级越高，对应的预设模型的模型复杂度也高。

需要说明的是，该模型复杂度用于指示待训练的预设模型的邮件特征所包含的元素数目，当风险等级较高时，模型复杂度也较高，相应的，训练该预设模型时所需的邮件特征包含的元素数目也多。当然，后续基于训练得到的识别模型进行识别时所需的邮件特征包含的元素数目也多。

205、服务器提取该多封历史电子邮件中非垃圾邮件的文本特征作为正样本。

服务器可以基于历史电子邮件的邮件文本内容来提取文本特征。文本特征可以由邮件文本内容中表征历史电子邮件的邮件类别的词汇组成。该邮件类别可以包括垃圾邮件和非垃圾邮件。对于每封非垃圾邮件，服务器对该邮件文本内容进行语义分析，选取该邮件文本内容中表征该邮件类别为非垃圾邮件的词汇，根据该多个词汇，确定非垃圾邮件的文本特征，并将非垃圾邮件的文本特征作为该正样本。

进一步的，服务器还可以基于每封非垃圾邮件的重要程度，确定非垃圾邮件的文本特征。在一种实现方式中，服务器可以选取能够有效表征该非垃圾邮件的重要程度的有效词汇，根据所每封非垃圾邮件所包括的有效词汇，生成该封非垃圾邮件的文本特征。

其中，服务器可以基于每封非垃圾邮件所包括的有效词汇的数量，定义该封非垃圾邮件的文本特征。在一种实现方式中，对于该多封历史电子邮件中的每封非垃圾邮件，服务器根据该各个有效词汇在每封非垃圾邮件中的出现次数，来生成该每封非垃圾邮件的文本特征。其中，服务器可以将各个有效词汇的出现次数组成特征向量，用该特征向量来表示该非垃圾邮件的文本特征。

其中，该有效词汇用于指示该非垃圾邮件的重要程度。该有效词汇的确定过程包括：服务器对该每封非垃圾邮件进行语义分析，得到多个词汇，从该多个词汇中筛选，得到至少一个有效词汇。

在实际处理时，服务器可以先从该收信地址的历史电子邮件中获取指定数目的非垃圾邮件，在该指定数目的非垃圾邮件中初步筛选，以得到多个有效词汇。然后，服务器统计分析该初步筛选得到的多个有效词汇在种子样本中的出现次数。基于该统计分析结果，得到至少一个有效词汇。其中，该种子样本为从非垃圾邮件中挑选的重要邮件。当然，该种子样本所包括的重要邮件的数量可以根据需要进行设置，本发明实施例对此不作具体限定。

需要说明的是，该指定数目的非垃圾邮件的数量可以根据需要进行设置，本发明实施例对此不作具体限定。该种子邮件可以为该指定数目的非垃圾邮件中挑选的重要邮件。例如，该指定数目的非垃圾邮件可以为收信地址的收件箱中的所有非垃圾邮件。该种子邮件则可以为收件箱中的重要邮件。

其中，服务器可以基于预设检验算法对指定数目的非垃圾邮件的有效词汇进行初步筛选，并通过预设分析算法在种子样本中进行分析，从而得到至少一个有效词汇。该本发明实施例对该预设检验算法和该预设分析算法不作具体限定，下面以该预设检验算法为卡方检验(Chi-Squared Test)、该预设分析算法为逻辑回归(Logistic Regression)算法为例进行说明。该过程可以通过以下步骤a-c实现：

a、从收信地址的历史电子邮件中选取重要邮件作为种子样本。

服务器可以基于与该收信地址通信的频繁程度来确定重要邮件。本步骤中，服务器获取该多封非垃圾邮件中每封非垃圾邮件的发信地址与该收信地址之间的通信次数，将通信次数超过次数阈值的发信地址所发的邮件作为重要邮件。

b、通过卡方检验初步筛选有效词汇。

本步骤中，服务器先确定出指定数目的非垃圾邮件中的重要邮件和不重要邮件。对于每个词汇，服务器统计该词汇在重要邮件中的出现次数、在不重要邮件的出现次数，并且，统计该词汇在重要邮件中没有出现的次数、在不重要邮件中没有出现的次数，并通过以下有效性判断公式，确定该词汇的有效程度，服务器将有效程度大于预设阈值的词汇确定为有效词汇：

有效性判断公式：

其中，如下表1所示，以词汇W为例，Q为该词汇的有效性程度，A为多封重要邮件中出现该词汇的重要邮件的数目，也即是该词汇在重要邮件中的出现次数；B为多封不重要邮件中出现该词汇的不重要邮件的数目；C为多封重要邮件中未出现该词汇的重要邮件的数目；D多封不重要邮件中未出现该词汇的不重要邮件的数目。其中，Q值越大，说明该词汇的有效程度越大，该词汇更能有效的表征一封邮件的重要性。另外，该预设阈值可以根据需要设置并更改，本发明实施例对此不做具体限定。

表1

	重要邮件数目	不重要邮件数目
			W出现	A	B
W未出现	C	D

需要说明的是，卡方校验的基本思想就是通过观察实际值和理论值的偏差来确定理论的正确与否。具体来说，上述表1中表示了指定数目的非垃圾邮件中，该词汇W在重要邮件或不重要邮件中的分布情况，该指定数目为N，其中，该N＝A+B+C+D。

当某一词汇在指定数目的非垃圾邮件中均匀分布，也即是，该词汇在该每封非垃圾邮件的出现概率相等时，该词汇与非垃圾邮件的重要性无关，为无法指示该电子邮件的重要程度的无效词汇，例如，“的”、“地”、“得”等词汇。当然，对于每个词汇，其在多封重要邮件中包含该词汇的重要邮件的数目的预估值

与A的差值越小，说明该词汇与邮件重要性的相关程度越小，如果其对应的预估值

与A的差值越大，说明该词汇越能表征邮件重要程度，也即是该词汇的有效性越大。同理，得到如下关系公式：

其中，E₁、E₂、E₃、E₄分别为多封重要邮件中出现该词汇的重要邮件的数目的预估值、多封不重要邮件中出现该词汇的不重要邮件的数目的预估值、多封重要邮件中未出现该词汇的重要邮件的数目的预估值和多封不重要邮件中未出现该词汇的不重要邮件的数目的预估值。E₁、E₂、E₃、E₄越大，则表明该词汇越能表征一封邮件重要性。通过以下偏离期望公式，确定各个预估值的偏离期望值：

偏离期望公式：

F₁、F₂、F₃、F₄分别为E₁、E₂、E₃、E₄的偏离期望值。可以综合各个偏离期望值，来确定该词汇是否为有效词汇。因此，各个词汇的有效性程度可以表示为：F₁+F₂+F₃+F₄，化简可得：

也即是Q，因此，可将Q作为判断词汇是否为有效词汇的依据。

c、服务器根据步骤a选取的种子样本和步骤b中选取的有效词汇，将种子样本中每封重要邮件转换为特征向量：X＝(x₁，x₂，……，x_N)，其中，N为有效词汇的个数，x₁，x₂，……，x_N分别为各个有效词汇在该封重要邮件中的出现次数。然后，服务器通过预设分析算法对种子正样本对应的多个特征向量进行拟合，得到全量正样本，该全量正样本包括该多个有效词汇在重要邮件中的出现次数。

其中，该各个有效词汇在重要邮件中的出现次数表征了该有效词汇的重要程度以及与用户的相关性等。并且，由上述方法得到的全量正样本相比其他邮件有更高的有效词汇出现频次，可以更准确的匹配出重要邮件的实际特征。该预设分析算法可以根据需要进行设置并更改，本发明实施例对此不做具体限定。例如，该预设分析算法可以为逻辑回归算法。

进一步的，对于历史电子邮件中每封非垃圾邮件，服务器根据该全量正样本至少一个有效词汇，提取该封非垃圾邮件中每个有效词汇的出现次数，将该至少一个有效词汇在该非垃圾邮件中的出现次数作为该非垃圾邮件的文本特征，服务器将多封非垃圾邮件的文本特征作为正样本。其中，服务器可将该每封非垃圾邮件的文本特征表示为一个特征向量。该正样本也即是多封非垃圾邮件对应的特征向量的集合。

其中，服务器可以根据模型复杂度所指示的邮件特征所包含的元素数目，确定所需的有效词汇的实际所需数目，从全量正样本中选取实际所需数目的有效词汇，并根据所选取的有效词汇所包括的各个有效词汇，提取非垃圾邮件中各个有效词汇的出现次数，将其作为非垃圾邮件的文本特征，并将多封非垃圾邮件的文本特征作为正样本。

206、服务器提取该多封历史电子邮件中垃圾邮件的文本特征作为负样本。

对于垃圾邮件，服务器获取该收信地址的多封历史电子邮件中的垃圾邮件，并提取多封垃圾邮件的文本特征，将多封垃圾邮件的文本特征作为负样本。其中，服务器可以基于用户的举报、删除或移动至垃圾收件箱等等历史操作记录，从多封历史电子邮件中筛选出垃圾邮件。服务器从该垃圾邮件中提取文本特征的方式，为与上述从非垃圾邮件中提取文本特征的同理的过程，此处不再赘述。

在一种实现方式中，服务器还可以直接基于该历史操作记录，获取垃圾邮件的文本特征。用户对垃圾邮件执行举报操作时，可以输入举报信息，例如，该垃圾邮件中所包括的垃圾词汇、用户对该垃圾邮件的描述信息。服务器可以获取该收信地址所属用户的历史举报信息，从该历史举报信息中提取垃圾邮件的文本特征。其中，该历史举报信息包含历史垃圾邮件的有效词汇，服务器可以从该历史举报信息中提取至少一个有效词汇。对于每封垃圾邮件，服务器统计该各个有效词汇在该封历史垃圾邮件中的出现次数，将各个有效词汇在该封历史垃圾邮件的出现次数作为该封垃圾邮件的文本特征。服务器将多封垃圾邮件的文本特征组成负样本。

在一种可能的设计中，每个用户历史电子邮件中的垃圾邮件的数目可能较少，服务器还可以参考其他用户的垃圾邮件，综合多个用户的垃圾邮件来确定负样本，在一种实现方式中，服务器提取至少一个该收信地址以外的其他收信地址的垃圾邮件的文本特征；服务器将该至少一个其他收信地址的垃圾邮件的文本特征作为该负样本。其中，服务器提取其他收信地址的垃圾邮件的文本特征的方式，同上述当前收信地址的历史垃圾邮件的方式同理，此处不再赘述。

当然，服务器还可以参考其他用户的历史举报信息，进行垃圾邮件文本特征的提取。其中，服务器获取收信地址以外的其他收信地址的历史举报信息，和收信地址所属用户的历史举报信息，从该其他收信地址的历史举报信息和本收信地址的历史举报信息中提取垃圾邮件的文本特征。其中，该提取过程与上述提取过程一致，此处不再赘述。

本发明实施例中，服务器也可以将用户习惯作为识别垃圾邮件时所考虑的因素，当用户接收到某一电子邮件时，用户不仅可以基于该电子邮件本身的邮件内容，将该电子邮件举报为垃圾邮件，还有可能基于该电子邮件的发信时间、发信地址等因素，将该电子邮件作为垃圾邮件处理。例如，删除凌晨时刻所收到的邮件、删除邮件语言为系统语言以外的其他语言的邮件等。因此，服务器还可以根据用户对不同电子邮件所执行的历史操作记录，分析用户的收信习惯，以得到用户的个性化数据，从而后续可以基于该用户的个性化数据进行模型训练。其中，服务器还可以通过以下步骤206，获取用户的收信特征，后续综合该收信特征进行模型的训练。

207、服务器提取该多封历史电子邮件的收信特征。

该收信特征用于指示该收信地址的所属用户对发信特征的反馈，该发信特征包括但不限于该电子邮件的发信时间、发信地址、该电子邮件所使用的语言和是否属于广告邮件等。服务器从每封历史电子邮件的邮件属性信息中获取该每封历史电子邮件的发信时间、发信地址和该电子邮件所使用的语言，并通过对每封历史电子邮件的邮件文本内容进行识别，确定该电子邮件是否为广告邮件。并且，服务器从收信地址的历史操作记录中获取该用户对每封历史电子邮件的操作记录，基于每封历史电子邮件的发信特征，以及该封历史电子邮件的历史操作记录，统计用户对于多个发信特征反馈的收信特征，也即是多封历史电子邮件的收信特征。

需要说明的是，用户在接收到广告邮件时，有可能对该邮件提供的广告感兴趣，从而对该广告邮件执行阅读操作，或者，对该广告不感兴趣时，对该广告邮件执行删除或者举报操作。进一步的，服务器可以分析多封广告邮件的邮件内容，以确定每封广告邮件的广告类别，并结合该用户对多封广告邮件的历史操作记录，分析该用户感兴趣的广告，从而得到用户的一些收信习惯。

本发明实施例中，用户可以根据个人需求举报、删除垃圾邮件或者阅读非垃圾邮件，服务器可以将用户分别对于垃圾邮件和非垃圾邮件的收信习惯作为训练模型的数据，在一种实现方式中，对于该多封历史电子邮件，服务器可以分别提取多封历史电子邮件中垃圾邮件的收信特征和非垃圾邮件的收信特征。

在一种实现方式中，以提取多封历史电子邮件中垃圾邮件的收信特征为例，服务器可以提取该多封垃圾邮件的发信特征，并获取收信地址的所属用户对该每封垃圾邮件所做出的反馈，基于该多封垃圾邮件的反馈，统计对应的用户习惯数据，例如，和非垃圾邮件的阅读操作将统计的用户习惯数据作为该多封垃圾邮件的收信特征。其中，服务器还可以以向量形式表示用户习惯数据，也即是，该收信特征可以为特征向量。

同理，该非垃圾邮件的收信特征的提取方式同上述过程相同，此处不再赘述。

本发明实施例中，服务器还可以综合该用户的收信特征，来训练收信地址的识别模型，以使识别模型更贴合对应用户的实际需求，从而大大提高了所训练出的识别模型的个性化和准确性。后续基于识别模型进行识别时，该识别模型可以根据该收信特征，将该用户个性化删除的邮件也作为该用户的垃圾邮件，从而大大提高了用户体验。

208、服务器基于该正样本、该负样本和该收信特征对该预设模型进行训练，得到该收信地址对应的识别模型。

本发明实施例中，该正样本也即是多封历史电子邮件中非垃圾邮件的特征向量组成的集合，表征了非垃圾邮件的文本特征。该负样本也即是历史电子邮件中垃圾邮件的特征向量组成的集合，表征了垃圾邮件的文本特征。该收信特征包括历史电子邮件中非垃圾邮件的特征向量和垃圾邮件的特征向量，分别表征了用户对非垃圾邮件的发信特征的反馈和垃圾邮件的发信特征的反馈。

因此，服务器根据该多封历史非垃圾邮件的特征向量集合、该多封历史垃圾邮件的特征向量集合，通过预设训练算法，对预设模型进行训练，训练出该识别模型。该识别模型后续即可根据电子邮件的特征向量确定该电子邮件是否为垃圾邮件，该电子邮件的特征向量可以包括该表征该电子邮件的文本特征的特征向量和表征该电子邮件的发信特征的特征向量。

其中，该预设训练算法可以根据需要设置并更改，本发明实施例对此不做具体限定。例如，该预设训练算法可以为决策树(Decision Tree，DT)算法，相应的，该识别模型为决策树模型。该预设训练算法还可以为回归算法，相应的，该识别模型还可以为回归模型。

在一种可能的设计中，本发明实施例中，服务器还可以仅获取正样本和负样本，并通过正样本和负样本训练出识别模型。也即是，服务器在执行步骤201-206之后，直接执行208，以获取预设模型，相应的，该确定识别模型的步骤可以为：服务器基于该正样本和该负样本对预设模型进行训练，得到该收信地址对应的识别模型。

其中，该基于正样本、该负样和该预设模型本得到识别模型的过程，为步骤208的同理过程，此处不再赘述。

进一步的，服务器存储该收信地址和该识别模型之间的对应关系，以便于后续通过该识别模型对该收信地址接收到电子邮件进行识别。

需要说明的是，由于服务器可以为每个收信地址存储对应的识别模型，从而使得后续垃圾邮件识别时，每个收信地址仅通过自己专属的识别模型进行识别，大大提高了识别模型的个性化和准确性。并且，服务器还可以基于收信地址的风险等级，为每个收信地址匹配实际所需复杂度的识别模型，减少了该识别模型所占空间，提高了存储空间的有效利用率，使得大型邮件服务器内部也可通过本发明实施例的方式，为每个收信地址单独建立并存储识别模型，从而提高了垃圾邮件识别的适用性。

本发明实施例中，服务器可以基于收信地址的多封历史电子邮件中非垃圾邮件的文本特征作为正样本，垃圾邮件的文本特征作为负样本，使得训练模型的数据更贴合于收信用户的实际需求，基于正样本和负样本对预设模型进行训练，得到收信地址对应的识别模型，使得该识别模型后续可以针对收信方用户实际收信时情况，进行垃圾邮件的识别，进而提高了基于该识别模型进行识别时的准确率。

并且，服务器还可以综合考虑用户的收信习惯，提取历史电子邮件的收信特征，同时综合该收信特征进行训练，得到更具个性化的、用户专属的识别模型，进一步识别模型进行识别时的准确率。

服务器为每个收信地址建立并存储对应的识别模型后，并可在后续收到电子邮件时，实时基于该收信地址对应的识别模型进行垃圾邮件识别。下面介绍线上垃圾邮件识别的过程。

图3是本发明实施例提供的一种识别垃圾邮件的方法流程图。该发明实施例的执行主体为服务器，参见图3，该方法包括：

301、当接收到电子邮件时，服务器提取该电子邮件的邮件特征。

本发明实施例中，当接收到电子邮件时，该服务器获取该电子邮件的邮件内容，从该邮件内容中提取邮件特征。

其中，该邮件特征包括该电子邮件的文本特征和/或发信特征。基于该邮件特征所包括内容的不同，本步骤可以通过以下两种方式实现。

第一种方式、当该邮件特征包括该电子邮件的文本特征时，服务器提取该电子邮件的文本特征。

本发明实施例中，服务器可以从该电子邮件的邮件文本内容来提取文本特征，该邮件文本内容可以包括邮件主题和邮件正文，服务器对该电子邮件的邮件主题和邮件正文进行语义分析，服务器根据该电子邮件的各个有效词汇的出现次数，生成该电子邮件的文本特征。

其中，该电子邮件的文本特征可以特征向量的形式来表示，服务器可以事先存储该收信地址的至少一个有效词汇，服务器可以先对邮件主题和邮件正文进行分词，得到多个词汇，基于存储的至少一个有效词汇，查找该多个词汇所包括有效词汇，并统计每个有效词汇的数目，根据每个有效词汇的数目，构造特征向量。也即是，服务器将各个有效词汇的出现次数组成特征向量，用该特征向量表示该电子邮件的文本特征。例如，该文本特征可以表示为特征向量：Y＝(y₁，y₂，……，y_k)，其中，k为该电子邮件所包括的有效词汇的个数，y₁，y₂，……，y_k分别为该电子邮件所包括的各个词汇在该封电子邮件中的出现次数。

第二种方式、当该邮件特征包括该电子邮件的文本特征和发信特征时，服务器提取该电子邮件的文本特征和发信特征。

本步骤中，服务器可以从该电子邮件的邮件属性信息中提取该电子邮件的发信特征，该发信特征包括该电子邮件的发信时间、发信地址、该电子邮件所使用的语言和是否属于广告邮件。其中，服务器可以以向量形式表示发信特征，也即是，该收信特征可以为一个特征向量。另外，服务器提取该电子邮件的文本特征与上述第一种方式相同，此处不在赘述。

302、服务器根据该电子邮件的收信地址，调用该收信地址对应的识别模型。

其中，该收信地址对应的识别模型用于根据该多封历史电子邮件的邮件特征来识别电子邮件是否为垃圾邮件。本发明实施例中，服务器存储该收信地址和该识别模型之间的对应关系，服务器可以根据该电子邮件的收信地址，从该收信地址和该识别模型之间的对应关系中，确定该收信地址对应的识别模型，调用该识别模型。

303、服务器将该电子邮件的邮件特征输入该识别模型进行识别，输出该电子邮件的识别结果。

其中，该邮件特征可以用该电子邮件的特征向量来表示，服务器将该邮件特征的特征向量输入该识别模型中，由于该识别模型为基于该收信地址的历史电子邮件中垃圾邮件的特征向量和非垃圾邮件的特征向量训练得到，因此，该识别模型根据该电子邮件的特征向量对该电子邮件进行识别，并输出该电子邮件的识别结果，即，该电子邮件为垃圾邮件，或者不是垃圾邮件。

基于所训练该识别模型的数据的不同，本步骤可以通过以下两种方式实现。

第一种方式、当该识别模型为基于正样本、负样本训练得到时，服务器将该表示该文本特征的特征向量输入该识别模型中，该识别模型根据该文本特征的特征向量对该电子邮件进行识别，输出该电子邮件是垃圾邮件或者不是垃圾邮件的识别结果。

第二种方式、当该识别模型为基于正样本、负样本和该收信特征训练得到时，服务器只提取该电子邮件的文本特征时，将表示该文本特征的特征向量和表示该发信特征的特征向量输入该识别模型中，该识别模型根据该文本特征的特征向量和发信特征的特征向量对该电子邮件进行识别，输出该电子邮件是垃圾邮件或者不是垃圾邮件的识别结果。

进一步的，该识别模型的模型复杂度与该收信地址的风险等级相匹配，因此，服务器还可以基于该风险等级输入邮件特征，该过程可以为：服务器根据该收信地址的风险等级，将该电子邮件的邮件特征中与该风险等级匹配的部分邮件特征输入该识别模型进行识别，输出该电子邮件的识别结果。

以表示该文本特征的特征向量为例，服务器根据该风险等级，确定该识别模型进行识别时所需的邮件特征包含的元素数量，从表示该文本特征的特征向量中提取数据量为识别模型所需数量的特征向量，输入到该识别模型中进行识别。

进一步的，当识别结果为该电子邮件是垃圾邮件时，服务器丢弃该垃圾邮件，当识别结果为该电子邮件不是垃圾邮件时，服务器将电子邮件下发到该收信地址。当该电子邮件不是垃圾邮件时，该服务器将该电子邮件存储至该收信地址的收件箱，并将该电子邮件发送至该收信地址所属用户的终端。

304、当服务器接收到该收信地址的所属用户反馈的该识别结果不正确的信息时，服务器根据反馈的信息，更新该收信地址对应的识别模型。

本发明实施例中，该收信地址所属用户还可以基于该服务器的识别结果进行反馈，在一种实现方式中，服务器可以为每封电子邮件提供反馈入口，并提供多个反馈选项。当服务器的识别结果不正确时，收信地址的所属用户可以通过该反馈入口输入该识别结果不正确的信息。服务器通过该反馈入口获取该反馈的信息，并根据该反馈的信息，更新该收信地址的历史操作记录，以及该收信地址的历史电子邮件。并基于更新的历史操作记录和历史电子邮件，更新该收信地址对应的识别模型。

例如，如果服务器没有识别出某封垃圾邮件，该收信地址所属用户可以选择“举报该电子邮件为垃圾邮件”的选项。服务器将该垃圾邮件记录到该收信地址的负样本中，并基于该垃圾邮件的发信特征提取用户的收信特征，以记录用户收信偏好。如果服务器将某封非垃圾邮件误判成垃圾邮件，用户可以选择“该电子邮件不是垃圾邮件”的选项，服务器将该非垃圾邮件记录到该收信地址的正样本中，并基于该非垃圾邮件的发信特征提取用户的收信特征，以记录用户收信偏好。

需要说明的是，服务器通过该反馈入口，收集用户反馈的信息，并将该反馈信息不断优化识别模型，并更新该用户对应的识别模型，从而大大提高了该识别模型的鲁棒性和实用性。

实际应用时，上述模型训练和垃圾邮件识别实际上是线下和线上执行，为了更加清晰的说明离线建模和线上实时识别的过程，仅以图4所示的流程图为例对整个方案的流程进行说明。参见图4，服务器先基于收信地址中历史电子邮件的历史收信记录和历史操作记录(例如，上述步骤201至202的过程)，例如垃圾邮件举报操作、读信操作等，提取用户特征，基于该用户特征，确定收信地址的风险等级，并基于该风险等级选择预设模型的模型复杂度(例如，上述步骤203至204的过程)。服务器基于该收信地址的历史电子邮件中的垃圾邮件和非垃圾邮件，得到训练预设模型所需的正样本和负样本(例如，上述步骤205至206的过程)，另外，还可以提取一些用户的收信特征(例如，上述步骤207的过程)，基于该正样本、负样本和收信特征，对该预设模型进行训练，得到识别模型(例如，上述步骤208的过程)。服务器基于该识别模型，进行线上实时拦截的：当接收到电子邮件时，服务器基于该识别模型和电子邮件的邮件特征进行垃圾邮件识别(例如，上述步骤301至303的过程)，并获取用户对该识别结果的反馈信息，基于该反馈信息更新该识别模型(例如，上述步骤304的过程)。

图5是本发明实施例提供的一种识别垃圾邮件的装置的结构示意图。参见图5，该装置包括：提取模块501、调用模块502和识别模块503。

提取模块501，用于当接收到电子邮件时，提取该电子邮件的邮件特征，该邮件特征至少包括该电子邮件的文本特征；

调用模块502，用于根据该电子邮件的收信地址，调用该收信地址对应的识别模型，该识别模型用于根据该收信地址的多封历史电子邮件的邮件特征识别电子邮件是否为垃圾邮件；

识别模块503，用于将该电子邮件的邮件特征输入该识别模型进行识别，输出该电子邮件的识别结果。

可选的，该识别模块503，用于根据该收信地址的风险等级，将该电子邮件的邮件特征中与该风险等级匹配的部分邮件特征输入该识别模型进行识别，输出该电子邮件的识别结果。

可选的，该装置还包括：

第一获取模块，用于获取该收信地址的多封历史电子邮件；

该提取模块501，还用于提取该多封历史电子邮件中非垃圾邮件的文本特征作为正样本，提取该多封历史电子邮件中垃圾邮件的文本特征作为负样本；

训练模块，用于基于该正样本和该负样本对预设模型进行训练，得到该收信地址对应的识别模型。

可选的，该训练模块，还用于提取该多封历史电子邮件的收信特征，基于该正样本、该负样本和该收信特征对该预设模型进行训练，得到该收信地址对应的识别模型，该收信特征用于指示该收信地址的所属用户对该发信特征的反馈。

可选的，该发信特征包括该电子邮件的发信时间、发信地址、该电子邮件所使用的语言和是否属于广告邮件。

可选的，该提取模块501，用于对于该多封历史电子邮件中的每封非垃圾邮件，将各个有效词汇在该每封非垃圾邮件中的出现次数，生成组成该每封非垃圾邮件的文本特征。

可选的，该提取模块501，还用于对该每封非垃圾邮件进行语义分析，得到多个词汇，从该多个词组中筛选，得到至少一个有效词汇。

可选的，该装置还包括：

确定模块，用于提取至少一个收信地址以外的其他收信地址的垃圾邮件的文本特征，将所述至少一个其他收信地址的垃圾邮件的文本特征作为所述负样本。

可选的，该装置还包括：

第二获取模块，用于根据该多封历史电子邮件以及对该收信地址的历史操作记录，获取该收信地址的风险等级，该历史操作记录用于表示用户的收信习惯；

该第二获取模块，还用于根据该收信地址的风险等级，获取模型复杂度与该风险等级匹配的预设模型。

可选的，该历史操作记录包括：该收信地址所属用户对历史电子邮件中垃圾邮件的举报操作和非垃圾邮件的阅读操作。

可选的，该装置还包括：

获取该收信地址所属用户的属性特征；

根据该多封历史电子邮件、对该收信地址的历史操作记录以及该属性特征，执行获取该收信地址的风险等级的步骤。

可选的，该属性特征包括该收信地址的域名和所属用户的名称。

可选的，该装置还包括：

更新模块，用于当接收到该收信地址的所属用户反馈的该识别结果不正确的信息时，根据反馈的信息，更新该识别模型。

上述所有可选技术方案，可以采用任意结合形成本公开的可选实施例，在此不再一一赘述。

需要说明的是：上述实施例提供的识别垃圾邮件的装置在识别垃圾邮件时，仅以上述各功能模块的划分进行举例说明，实际应用中，可以根据需要而将上述功能分配由不同的功能模块完成，即将设备的内部结构划分成不同的功能模块，以完成以上描述的全部或者部分功能。另外，上述实施例提供的识别垃圾邮件的装置与识别垃圾邮件的方法实施例属于同一构思，其具体实现过程详见方法实施例，这里不再赘述。

图6是本发明实施例提供的一种服务器的结构示意图，该服务器600可因配置或性能不同而产生比较大的差异，可以包括一个或一个以上处理器(central processingunits，CPU)601和一个或一个以上的存储器602，其中，所述存储器602中存储有至少一条指令，所述至少一条指令由所述处理器601加载并执行以实现上述各个方法实施例提供的识别垃圾邮件的方法。当然，该服务器还可以具有有线或无线网络接口、键盘以及输入输出接口等部件，以便进行输入输出，该服务器还可以包括其他用于实现设备功能的部件，在此不做赘述。

在示例性实施例中，还提供了一种计算机可读存储介质，例如包括指令的存储器，上述指令可由终端中的处理器执行以完成下述实施例中的识别垃圾邮件的方法。例如，所述计算机可读存储介质可以是ROM、随机存取存储器(RAM)、CD-ROM、磁带、软盘和光数据存储设备等。

本领域普通技术人员可以理解实现上述实施例的全部或部分步骤可以通过硬件来完成，也可以通过程序来指令相关的硬件完成，所述的程序可以存储于一种计算机可读存储介质中，上述提到的存储介质可以是只读存储器，磁盘或光盘等。

以上所述仅为本发明的较佳实施例，并不用以限制本发明，凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种识别垃圾邮件的方法，其特征在于，所述方法包括：

根据所述电子邮件的收信地址，调用所述收信地址对应的识别模型，所述识别模型用于根据所述收信地址的多封历史电子邮件的邮件特征来识别电子邮件是否为垃圾邮件，且所述识别模型由预设模型训练得到，所述预设模型为根据所述收信地址的风险等级，获取的模型复杂度与所述风险等级匹配的模型，所述收信地址的风险等级为根据所述多封历史电子邮件以及对所述收信地址的历史操作记录获取的；

根据所述收信地址的风险等级，将所述电子邮件的邮件特征中与所述风险等级匹配的部分邮件特征输入所述识别模型进行识别，输出所述电子邮件的识别结果。

2.根据权利要求1所述的方法，其特征在于，所述收信地址对应的识别模型的训练过程包括：

获取所述收信地址的多封历史电子邮件；

提取所述多封历史电子邮件中非垃圾邮件的文本特征作为正样本，提取所述多封历史电子邮件中垃圾邮件的文本特征作为负样本；

基于所述正样本和所述负样本对所述预设模型进行训练，得到所述收信地址对应的识别模型。

3.根据权利要求2所述的方法，其特征在于，所述邮件特征还包括所述电子邮件的发信特征，相应的，所述基于所述正样本和所述负样本对所述预设模型进行训练，得到所述收信地址对应的识别模型包括：

提取所述多封历史电子邮件的收信特征，基于所述正样本、所述负样本和所述收信特征对所述预设模型进行训练，得到所述收信地址对应的识别模型，所述收信特征用于指示所述收信地址的所属用户对所述发信特征的反馈。

4.根据权利要求3所述的方法，其特征在于，所述发信特征包括所述电子邮件的发信时间、发信地址、所述电子邮件所使用的语言和是否属于广告邮件。

5.根据权利要求2所述的方法，其特征在于，所述提取所述多封历史电子邮件中非垃圾邮件的文本特征作为正样本包括：

对于所述多封历史电子邮件中的每封非垃圾邮件，将各个有效词汇在所述每封非垃圾邮件中的出现次数，生成所述每封非垃圾邮件的文本特征。

6.根据权利要求5所述的方法，其特征在于，所述有效词汇的确定过程包括：

对所述每封非垃圾邮件进行语义分析，得到多个词汇，从所述多个词汇中筛选，得到至少一个有效词汇。

7.根据权利要求2所述的方法，其特征在于，所述方法还包括：

提取至少一个收信地址以外的其他收信地址的垃圾邮件的文本特征，将所述至少一个其他收信地址的垃圾邮件的文本特征作为所述负样本。

8.根据权利要求1所述的方法，其特征在于，所述历史操作记录用于表示用户的收信习惯；

所述历史操作记录包括：所述收信地址所属用户对历史电子邮件中垃圾邮件的举报操作和非垃圾邮件的阅读操作。

9.根据权利要求1所述的方法，其特征在于，所述方法还包括：

获取所述收信地址所属用户的属性特征；

根据所述多封历史电子邮件、对所述收信地址的历史操作记录以及所述属性特征，获取所述收信地址的风险等级。

10.根据权利要求1所述的方法，其特征在于，所述方法还包括：

当接收到所述收信地址的所属用户反馈的所述识别结果不正确的信息时，根据反馈的信息，更新所述识别模型。

11.一种识别垃圾邮件的装置，其特征在于，所述装置包括：

调用模块，用于根据所述电子邮件的收信地址，调用所述收信地址对应的识别模型，所述识别模型用于根据所述收信地址的多封历史电子邮件的邮件特征来识别电子邮件是否为垃圾邮件，且所述识别模型由预设模型训练得到，所述预设模型为根据所述收信地址的风险等级，获取的模型复杂度与所述风险等级匹配的模型，所述收信地址的风险等级为根据所述多封历史电子邮件以及对所述收信地址的历史操作记录获取的；

识别模块，用于根据所述收信地址的风险等级，将所述电子邮件的邮件特征中与所述风险等级匹配的部分邮件特征输入所述识别模型进行识别，输出所述电子邮件的识别结果。

12.一种服务器，其特征在于，所述服务器包括处理器和存储器，所述存储器中存储有至少一条指令，所述指令由所述处理器加载并执行以实现如权利要求1至权利要求10任一项所述的识别垃圾邮件的方法所执行的操作。

13.一种计算机可读存储介质，其特征在于，所述存储介质中存储有至少一条指令，所述指令由处理器加载并执行以实现如权利要求1至权利要求10任一项所述的识别垃圾邮件的方法所执行的操作。