CN111221970A

CN111221970A - 基于行为结构和语义内容联合分析的邮件分类方法及装置

Info

Publication number: CN111221970A
Application number: CN201911425936.8A
Authority: CN
Inventors: 陈磊华; 张琦
Original assignee: Coremail Technology Guangzhou Co ltd
Current assignee: Coremail Technology Guangzhou Co ltd
Priority date: 2019-12-31
Filing date: 2019-12-31
Publication date: 2020-06-02
Anticipated expiration: 2039-12-31
Also published as: WO2021136315A1; CN111221970B

Abstract

本发明提供了一种基于行为结构和语义内容联合分析的邮件分类方法、装置、设备及可读存储介质，方法包括：提取电子邮件的行为结构信息和文本内容信息；通过特征向量计算方式计算得到电子邮件的行为结构特征，并采用预先训练好的fasttext模型计算得到电子邮件的文本语义特征；分别对行为结构特征和文本语义特征进行归一化处理并进行特征融合，得到电子邮件融合特征；利用电子邮件融合特征对分类器进行训练；采用训练好的分类器对待测电子邮件进行分类，以获取待测电子邮件的类别。本发明同时利用了邮件的行为结构信息和文本内容信息以对电子邮件进行分类，从而有效提高了电子邮件类别判断的精度。

Description

基于行为结构和语义内容联合分析的邮件分类方法及装置

技术领域

本发明涉及邮件分类领域，尤其是涉及一种基于行为结构和语义内容联合分析的邮件分类方法、装置、终端设备及可读存储介质。

背景技术

随着互联网技术的快速发展，电子邮件由于其传输信息迅速方便，易于保存，不轻易丢失等特点，已经成为现代人际交流的主要通讯方式之一。但是，随着其广泛应用，电子邮件也成为商业广告，恶意软件和非法文件传播的载体，严重影响着人们生活和网路安全。如何能够精确地将垃圾邮件过滤出来成为亟待解决的问题。

现有的电子邮件分类方法主要有三种：

(1)基于信件源的邮件分类技术，通过研究发信的源头而进行垃圾邮件过滤的过程。主要包括黑白名单过滤技术，反向DNS查询技术等。其中黑白名单过滤优点是速度快，简单并且内存消耗小，在SMTP连接阶段通过判断是否命中黑白名单来阻止垃圾邮件进入。反向DNS查询技术提供IP地址到域名的对应关系，可以拦截使用动态分配或者没有注册域名的IP地址发送的垃圾邮件。

(2)基于规则的邮件分类技术，通过对邮件的某些特征进行提取，预定义一些过滤规则来检测判定电子邮件的类型，每条规则对应一个分数，当邮件符合某一条规则时，就将邮件判定为垃圾邮件。

(3)基于邮件内容统计的分类方法。对已经分类的训练样本和测试样本进行学习，提取出非垃圾邮件和垃圾邮件的特征向量和特征值，然后根据学习到的模型对测试集中的样本进行计算判断邮件类别。

现有的电子邮件分类技术具有如下缺点：

1、基于信件源的邮件分类技术，要对每一封邮件的发信源头进行查询，黑白名单也要不断更新，效率较低。同时也会出现大规模的误判。

2、基于规则的邮件分类技术，由于邮件的规则特征在不断改变，所以需要不断的更新规则库，人力成本较大。

3、基于邮件内容统计的方法虽然考虑到了文本内容的统计信息，但是忽略了其语义信息和其他的一些特征，导致邮件特征判别性较弱，分类精度较差。

发明内容

本发明实施例所要解决的技术问题在于，提供一种基于行为结构和语义内容联合分析的邮件分类方法、装置、终端设备及可读存储介质，能够利用电子邮件的行为结构特征和文本语义特征，实现对邮件进行高精度的分类。

为了解决上述技术问题，本发明实施例提供了一种基于行为结构和语义内容联合分析的邮件分类方法，包括：

提取电子邮件的行为结构信息和文本内容信息；其中，所述行为结构信息包括邮件大小、邮件附件大小、邮件附件图片数量、邮件附件图片大小、发件人ip单位时间内发件次数、邮件域名信誉度中的一种或多种；

通过特征向量计算方式对所述行为结构信息进行编码，得到电子邮件的行为结构特征，同时，采用预先训练好的fasttext模型对所述文本内容信息进行编码，得到电子邮件的文本语义特征；

分别对所述行为结构特征和所述文本语义特征进行归一化处理，并将归一化处理后的行为结构特征和文本语义特征进行特征融合，得到电子邮件融合特征；

利用所述电子邮件融合特征对分类器进行训练；

采用训练好的分类器对待测电子邮件进行分类，以获取所述待测电子邮件的类别。

进一步地，所述采用预先训练好的fasttext模型对所述文本内容信息进行编码，得到电子邮件的文本语义特征，具体为：

将提取到的所述文本内容信息进行预处理，以将所述文本内容信息的格式转为符合所述fasttext模型处理的输入格式；

采用所述fasttext模型计算所述文本内容信息中每个分词的特征向量，并对所有计算得到的特征向量进行平均运算，得到所述文本语义特征。

进一步地，所述分类器为SVM分类器。

为了解决相同的技术问题，本发明还提供了一种基于行为结构和语义内容联合分析的邮件分类装置，包括：

信息提取模块，用于提取电子邮件的行为结构信息和文本内容信息；其中，所述行为结构信息包括邮件大小、邮件附件大小、邮件附件图片数量、邮件附件图片大小、发件人ip单位时间内发件次数、邮件域名信誉度中的一种或多种；

特征计算模块，用于通过特征向量计算方式对所述行为结构信息进行编码，得到电子邮件的行为结构特征，同时，采用预先训练好的fasttext模型对所述文本内容信息进行编码，得到电子邮件的文本语义特征；

特征融合模块，用于分别对所述行为结构特征和所述文本语义特征进行归一化处理，并将归一化处理后的行为结构特征和文本语义特征进行特征融合，得到电子邮件融合特征；

分类器训练模块，用于利用所述电子邮件融合特征对分类器进行训练；

邮件分类模块，用于采用训练好的分类器对待测电子邮件进行分类，以获取所述待测电子邮件的类别。

进一步地，所述分类器为SVM分类器。

为了解决相同的技术问题，本发明还提供了一种基于行为结构和语义内容联合分析的邮件分类终端设备，包括处理器、存储器以及存储在所述存储器中且被配置为由所述处理器执行的计算机程序，所述存储器与所述处理器耦接，且所述处理器执行所述计算机程序时，实现任一项所述的基于行为结构和语义内容联合分析的邮件分类方法。

为了解决相同的技术问题，本发明还提供了一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，其中，在所述计算机程序运行时控制所述计算机可读存储介质所在的设备执行任一项所述的基于行为结构和语义内容联合分析的邮件分类方法。

与现有技术相比，本发明具有如下有益效果：

本发明实施例提供了一种基于行为结构和语义内容联合分析的邮件分类方法、装置、终端设备及可读存储介质，所述方法包括：提取电子邮件的行为结构信息和文本内容信息；通过特征向量计算方式对所述行为结构信息进行编码，得到电子邮件的行为结构特征，同时，采用预先训练好的fasttext模型对所述文本内容信息进行编码，得到电子邮件的文本语义特征；分别对所述行为结构特征和所述文本语义特征进行归一化处理，并将归一化处理后的行为结构特征和文本语义特征进行特征融合，得到电子邮件融合特征；利用所述电子邮件融合特征对分类器进行训练；采用训练好的分类器对待测电子邮件进行分类，以获取所述待测电子邮件的类别。本发明同时利用了邮件的行为结构信息和文本内容信息以对电子邮件进行分类，克服了现有电子邮件由于判别性信息利用不足导致的邮件分类精度差的缺陷，从而有效提高了电子邮件类别判断的精度。

附图说明

图1是本发明一实施例提供的基于行为结构和语义内容联合分析的邮件分类方法的流程示意图；

图2是本发明一实施例提供的文本语义特征的计算过程示意图；

图3是本发明一实施例提供的基于行为结构和语义内容联合分析的邮件分类装置的结构示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整的描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

请参见图1，本发明实施例提供了一种基于行为结构和语义内容联合分析的邮件分类方法，包括步骤：

S1、提取电子邮件的行为结构信息和文本内容信息；其中，所述行为结构信息包括邮件大小、邮件附件大小、邮件附件图片数量、邮件附件图片大小、发件人ip单位时间内发件次数、邮件域名信誉度中的一种或多种；

S2、通过特征向量计算方式对所述行为结构信息进行编码，得到电子邮件的行为结构特征，同时，采用预先训练好的fasttext模型对所述文本内容信息进行编码，得到电子邮件的文本语义特征；

在本发明实施例中，进一步地，所述采用预先训练好的fasttext模型对所述文本内容信息进行编码，得到电子邮件的文本语义特征，具体为：

S3、分别对所述行为结构特征和所述文本语义特征进行归一化处理，并将归一化处理后的行为结构特征和文本语义特征进行特征融合，得到电子邮件融合特征；

S4、利用所述电子邮件融合特征对分类器进行训练；在本发明实施例中，进一步地，所述分类器为SVM分类器。

S5、采用训练好的分类器对待测电子邮件进行分类，以获取所述待测电子邮件的类别。

需要说明的是，针对上述现有电子邮件分类技术的缺点，本发明提出了一种同时利用电子邮件的行为结构特征和文本语义特征的邮件分类方法，以增强电子邮件特征的判别性，从而使电子邮件分类精度更高。

以下列举具体例子对本发明方案进行详细说明：

本发明实施例提供了一种基于行为结构和语义内容联合分析的邮件分类方法，主要包括五个步骤：

1、提取电子邮件的行为结构信息和文本内容信息；行为结构信息指代表了邮件本身的结构信息和邮件发信方的一些操作行为信息，如邮件大小，邮件附件大小，邮件附件图片数量，邮件附件图片大小，邮件发信人ip在一段时间内发信次数，邮件域名信誉度等。

2、采用计算特征向量的方式对行为结构信息进行编码，采用预先训练好的fasttext模型对邮件的文本内容信息进行编码，获取电子邮件的行为结构特征和文本语义特征；

其中，电子邮件行为结构特征计算方式如下：

RuleVector[size]＝m_nSize/1024；

RuleVector[fngref]＝m_nFngRef；

RuleVector[attref]＝m_nAttRef；

RuleVector[gifx]＝m_nGifX/128；

RuleVector[gify]＝m_nGifY/128；

RuleVector[gifcnt]＝m_nGifCnt；

RuleVector[Sender_size_diff]＝m_n.SenderSizeDiff；

RuleVector[url_size_diff]＝m_nURLSizeDiff；

RuleVector[domail_today_cnt]＝m_nDomainTodayCnt；

其中，RuleVector表示邮件的行为结构特征，每一维代表一个特征，size代表邮件大小，fngref代表邮件指纹出现次数，attref代表附件个数，gifx代表图像长度，gify代表图像宽度，gifcnt代表图像次数，Sender_size_diff代表发件人发信尺寸与平均发信尺寸之间的差异，url_size_diff代表邮url尺寸与平均url尺寸之间的差异，domail_today_cnt代表该域名当天发信数量。

请参见图2，电子邮件文本语义特征计算方式如下：

对提取到的文本内容信息进行预处理，得到fasttext模型型输入格式文件，然后计算出邮件文本内容信息中每个词的特征向量，并对所有词特征向量进行平均，得到最终的电子邮件文本语义特征TextVector。表达式如下：

WordVector＝ft(Text)；

其中，Text代表邮件的文本内容，ft代表预训练的fasttext模型，WordVector代表邮件文本分词词向量，n是词向量的个数，TextVector代表邮件文本最终特征。

3、对所述邮件行为结构特征和所述文本语义特征进行归一化；

对邮件行为结构特征进行归一化:

RuleVector_N＝Normalize(RuleVector)；

对邮件文本语义特征进行归一化:

TextVector_N＝Normalize(TextVector)；

其中，Normalize代表归一化操作，RuleVector_N代表归一化之后的电子邮件行为结构特征，TextVector_N代表归一化之后的电子邮件文本语义特征。

(4)对所述邮件行为结构特征和所述文本语义特征进行联合表达，作为邮件最终的特征表达，并训练分类器；

MailVector＝Con(RuleVector_N，TextVector_N)；

其中，Con代表串联操作，MailVector代表电子邮件的融合特征表达。

(5)采用训练好的分类器对测试集电子邮件进行分类，获取所述测试集电子邮件的类别。可选地，所述分类器为支持向量机(SVM)分类器。

需要说明的是，本发明实施例提供的电子邮件类别获取方法，通过融合邮件行为结构和邮件内容语义信息，充分利用了电子邮件的行为结构特征和文本语义特征，对电子邮件进行更好的表达，克服了现有电子邮件由于判别性信息不足导致的分类精度差的缺陷，提高了电子邮件类别获取方法的精度。

需要说明的是，对于以上方法或流程实施例，为了简单描述，故将其都表述为一系列的动作组合，但是本领域技术人员应该知悉，本发明实施例并不受所描述的动作顺序的限制，因为依据本发明实施例，某些步骤可以采用其他顺序或者同时进行。其次，本领域技术人员也应该知悉，说明书中所描述的实施例均属于可选实施例，所涉及的动作并不一定是本发明实施例所必须的。

请参见图3，为了解决相同的技术问题，本发明还提供了一种基于行为结构和语义内容联合分析的邮件分类装置，包括：

信息提取模块1，用于提取电子邮件的行为结构信息和文本内容信息；其中，所述行为结构信息包括邮件大小、邮件附件大小、邮件附件图片数量、邮件附件图片大小、发件人ip单位时间内发件次数、邮件域名信誉度中的一种或多种；

特征计算模块2，用于通过特征向量计算方式对所述行为结构信息进行编码，得到电子邮件的行为结构特征，同时，采用预先训练好的fasttext模型对所述文本内容信息进行编码，得到电子邮件的文本语义特征；

特征融合模块3，用于分别对所述行为结构特征和所述文本语义特征进行归一化处理，并将归一化处理后的行为结构特征和文本语义特征进行特征融合，得到电子邮件融合特征；

分类器训练模块4，用于利用所述电子邮件融合特征对分类器进行训练；

邮件分类模块5，用于采用训练好的分类器对待测电子邮件进行分类，以获取所述待测电子邮件的类别。

进一步地，所述分类器为SVM分类器。

可以理解的是上述装置项实施例，是与本发明方法项实施例相对应的，本发明实施例提供的一种基于行为结构和语义内容联合分析的邮件分类装置，可以实现本发明任意一项方法项实施例提供的基于行为结构和语义内容联合分析的邮件分类方法。

所述基于行为结构和语义内容联合分析的邮件分类终端设备可以是桌上型计算机、笔记本、掌上电脑及云端服务器等计算设备。所述处理器可以是中央处理单元(CentralProcessing Unit，CPU)，还可以是其他通用处理器、数字信号处理器(Digital SignalProcessor，DSP)、专用集成电路(Application Specific Integrated Circuit，ASIC)、现成可编程门阵列(Field-Programmable Gate Array，FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等，所述处理器是所述基于行为结构和语义内容联合分析的邮件分类终端设备的控制中心，利用各种接口和线路连接整个基于行为结构和语义内容联合分析的邮件分类终端设备的各个部分。

所述存储器可主要包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需的应用程序等；存储数据区可存储根据手机的使用所创建的数据等。此外，存储器可以包括高速随机存取存储器，还可以包括非易失性存储器，例如硬盘、内存、插接式硬盘，智能存储卡(Smart Media Card,SMC)，安全数字(Secure Digital,SD)卡，闪存卡(Flash Card)、至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。

所述的计算机程序可存储于一计算机可读存储介质中，该计算机程序在被处理器执行时，可实现上述各个方法实施例的步骤。其中，所述计算机程序包括计算机程序代码，所述计算机程序代码可以为源代码形式、对象代码形式、可执行文件或某些中间形式等。所述计算机可读介质可以包括：能够携带所述计算机程序代码的任何实体或装置、记录介质、U盘、移动硬盘、磁碟、光盘、计算机存储器、只读存储器(Read-Only Memory，ROM)、随机存取存储器(Random Access Memory，RAM)、电载波信号、电信信号以及软件分发介质等。需要说明的是，所述计算机可读介质包含的内容可以根据司法管辖区内立法和专利实践的要求进行适当的增减，例如在某些司法管辖区，根据立法和专利实践，计算机可读介质不包括电载波信号和电信信号。

需说明的是，以上所描述的装置实施例仅仅是示意性的，其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。另外，本发明提供的装置实施例附图中，模块之间的连接关系表示它们之间具有通信连接，具体可以实现为一条或多条通信总线或信号线。本领域普通技术人员在不付出创造性劳动的情况下，即可以理解并实施。

以上所述是本发明的优选实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明原理的前提下，还可以做出若干改进和润饰，这些改进和润饰也视为本发明的保护范围。

Claims

1.一种基于行为结构和语义内容联合分析的邮件分类方法，其特征在于，包括：

利用所述电子邮件融合特征对分类器进行训练；

2.根据权利要求1所述的基于行为结构和语义内容联合分析的邮件分类方法，其特征在于，所述采用预先训练好的fasttext模型对所述文本内容信息进行编码，得到电子邮件的文本语义特征，具体为：

3.根据权利要求1所述的基于行为结构和语义内容联合分析的邮件分类方法，其特征在于，所述分类器为SVM分类器。

4.一种基于行为结构和语义内容联合分析的邮件分类装置，其特征在于，包括：

5.根据权利要求4所述的基于行为结构和语义内容联合分析的邮件分类装置，其特征在于，所述采用预先训练好的fasttext模型对所述文本内容信息进行编码，得到电子邮件的文本语义特征，具体为：

6.根据权利要求4所述的基于行为结构和语义内容联合分析的邮件分类装置，其特征在于，所述分类器为SVM分类器。

7.一种基于行为结构和语义内容联合分析的邮件分类终端设备，其特征在于，包括处理器、存储器以及存储在所述存储器中且被配置为由所述处理器执行的计算机程序，所述存储器与所述处理器耦接，且所述处理器执行所述计算机程序时，实现如权利要求1至3任一项所述的基于行为结构和语义内容联合分析的邮件分类方法。

8.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质存储有计算机程序，其中，在所述计算机程序运行时控制所述计算机可读存储介质所在的设备执行如权利要求1至3任一项所述的基于行为结构和语义内容联合分析的邮件分类方法。