CN115134147A

CN115134147A - 电子邮件检测方法及装置

Info

Publication number: CN115134147A
Application number: CN202210748398.1A
Authority: CN
Inventors: 唐琴; 王善民; 邓荣峰; 李肖
Original assignee: Industrial and Commercial Bank of China Ltd ICBC
Current assignee: Industrial and Commercial Bank of China Ltd ICBC
Priority date: 2022-06-29
Filing date: 2022-06-29
Publication date: 2022-09-30

Abstract

本申请提供了一种电子邮件检测方法及装置，该方法包括：接收电子邮件；解析所述电子邮件，获得所述电子邮件的邮件内容，所述邮件内容至少包括邮件头、正文、超链接和附件；检测所述邮件头、所述正文、所述超链接和所述附件，以对所述电子邮件进行威胁检测。本申请通过检测电子邮件的邮件头、正文文本、超链接、附件，对电子邮件进行深度分析，检测范围广、程度深，从而可以更加准确地对电子邮件进行威胁检测。

Description

电子邮件检测方法及装置

技术领域

本申请涉及金融领域，尤其涉及一种电子邮件检测方法及装置。

背景技术

随着Internet的发展，电子邮件可以传输大量HTML、图像、声音以及各种格式的附件，电子邮件的攻击威胁也持续增长。攻击者利用精心设计的高欺骗性邮件，通过伪造发件人信息以获得收件人信任，诱使收件人对邮件进行直接回复、点击邮件正文中的恶意链接、打开隐藏恶意程序的附件文件等，从而实现非法收集收件人敏感信息、执行恶意代码等攻击目的，为下一步攻击做准备。钓鱼邮件操作简单，欺骗性强，危害巨大，而且具有很强的针对性，可以对运维部门及高管等有价值的目标实施精准攻击。因此，需要对电子邮件威胁进行全面检测。

目前常见的电子邮件检测方法包括对电子邮件的来源与内容的检测。其中，检测电子邮件的来源的最典型的方法是采用黑白名单过滤方法，通过对比识别电子邮件的发件人IP地址或域名进行检测。检测电子邮件的内容的方法是对邮件的文本内容进行分析，提取其头部信息、正文信息、附件信息的静态特征进行检测。

虽然，以上两种方法具有良好的空间特性，黑白名单和静态特征匹配的规则可以很容易地在邮件服务器之间共享。但是，由于恶意邮件的迷惑性越来越强，仅依赖以上两种方法对电子邮件进行检测是不充分的。

发明内容

为了解决上述问题中的至少一个，本申请实施例提供一种电子邮件检测方法及装置，通过检测电子邮件的邮件头、正文文本、超链接、附件，对电子邮件进行深度分析，检测范围广、程度深，从而可以更加准确地对电子邮件进行威胁检测。

根据本申请的实施例，提供一种电子邮件检测方法，所述方法包括：

接收电子邮件；

解析所述电子邮件，获得所述电子邮件的邮件内容，所述邮件内容至少包括邮件头、正文、超链接和附件；

检测所述邮件头、所述正文、所述超链接和所述附件，以对所述电子邮件进行威胁检测。

在一个或多个实施例中，所述检测所述邮件头、所述正文、所述超链接和所述附件包括：

检测所述邮件头包含的关键字段；

检测所述正文的词向量；

检测所述超链接的结构与内容；

对所述附件进行深度检测。

在一个或多个实施例中，所述关键字段至少包括：authentication-results字段、DKIM-Signature字段、Return-Path字段、From字段。

在一个或多个实施例中，所述检测所述正文的词向量包括：

对所述正文进行预处理；

从经过预处理后的所述正文中提取词向量；

将所述词向量与欺诈词库或安全威胁词库进行比较。

在一个或多个实施例中，所述将所述词向量与欺诈词库或安全威胁词库进行比较包括：

利用余弦相似度或敏感哈希计算所述正文的所述词向量与所述欺诈词库或所述安全威胁词库中的词向量的相似度，根据所述相似度对所述正文的所述词向量与所述欺诈词库或所述安全威胁词库中的词向量进行比较。

在一个或多个实施例中，所述检测所述超链接的结构包括：

对所述超链接中的http地址的数量进行统计；

识别所述http地址是否为白名单跳转；

对所述http地址进行黑名单匹配。

在一个或多个实施例中，所述检测所述超链接的内容包括：

对所述超链接中的网页进行预访问；

对所述网页进行HTML解析与内容解析；

根据恶意邮件规则对所述网页进行分析。

在一个或多个实施例中，所述对所述附件进行深度检测包括：

对所述附件进行迭代解析以获得所述附件中的所有文件；

根据所述附件中的文件的文件类型相应地进行检测。

根据本申请的实施例，提供一种电子邮件检测装置，所述装置包括：

接收模块，其用于接收电子邮件；

解析模块，其用于解析所述电子邮件，获得所述电子邮件的邮件内容，所述邮件内容至少包括邮件头、正文、超链接和附件；

检测模块，其用于检测所述邮件头、所述正文、所述超链接和所述附件，以对所述电子邮件进行威胁检测。

根据本申请的实施例，提供一种计算机设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现上述电子邮件检测方法。

根据本申请的实施例，提供一种计算机可读存储介质，所述计算机可读存储介质存储有执行上述电子邮件检测方法的计算机程序。

本申请实施例的有益效果之一在于，通过检测电子邮件的邮件头、正文文本、超链接、附件，对电子邮件进行深度分析，检测范围广、程度深，从而可以更加准确地对电子邮件进行威胁检测。

参照后文的说明和附图，详细公开了本申请的实施方式。应该理解，本申请的实施方式在范围上并不因此而受到限制。在所附权利要求的精神和条款的范围内，本申请的实施方式包括许多改变、修改和等同。

针对一种实施方式描述和/或示出的特征可以以相同或类似的方式在一个或更多个其他实施方式中使用，与其他实施方式中的特征相组合，或替代其他实施方式中的特征。

附图说明

为了更清楚地说明本申请实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本申请实施例的电子邮件检测装置的一个示意图；

图2是本申请实施例的检测模块的一个示意图；

图3为本申请实施例的正文检测单元的一个示意图；

图4为本申请实施例的超链接检测单元的一个示意图；

图5为本申请实施例的电子邮件检测方法的一个流程图；

图6为本申请实施例的检测邮件头、正文、超链接和附件的一个流程图；

图7是本申请实施例的检测正文文本的词向量的一个流程图；

图8是本申请实施例的检测超链接的结构与内容的一个流程图；

图9是本申请实施例的检测超链接的结构的一个流程图；

图10是本申请实施例的检测超链接的内容的一个流程图；

图11是本申请实施例的对附件进行深度检测的一个流程图；

图12是本申请的计算机设备的一个示意图。

具体实施方式

参照附图，通过下面的说明书，本申请的前述以及其它特征将变得明显。在说明书和附图中，具体公开了本申请的特定实施方式，其表明了其中可以采用本申请的原则的部分实施方式，应了解的是，本申请不限于所描述的实施方式，相反，本申请包括落入所附权利要求的范围内的全部修改、变型以及等同物。

在本申请实施例中，术语“和/或”包括相关联列出的术语的一种或多个中的任何一个和所有组合。术语“包含”、“包括”、“具有”等是指所陈述的特征、元素、元件或组件的存在，但并不排除存在或添加一个或多个其他特征、元素、元件或组件。

在本申请实施例中，单数形式“一”、“该”等可以包括复数形式，应广义地理解为“一种”或“一类”而并不是限定为“一个”的含义；此外术语“所述”应理解为既包括单数形式也包括复数形式，除非上下文另外明确指出。此外术语“根据”应理解为“至少部分根据……”，术语“基于”应理解为“至少部分基于……”，除非上下文另外明确指出。

需要说明的是，本申请公开的电子邮件检测方法及装置可用于金融领域，也可用于除金融领域之外的任意领域，本申请对此不做限定。

本申请实施例提供一种电子邮件检测装置。图1是本申请实施例的电子邮件检测装置的示意图。如图1所示，本申请实施例提供的电子邮件检测装置1包括接收模块10、解析模块20和检测模块30。

在一些实施例中，接收模块10用于接收电子邮件。

在一些实施例中，解析模块20用于解析电子邮件，获得所述电子邮件的邮件内容。例如，解析模块20使用解析EML文件的工具，从电子邮件中提取邮件头、正文、超链接和附件。解析EML文件的工具包括但不限于apachetika、javamail、Exchange Service等。

在一些实施例中，检测模块30用于检测邮件头、正文、超链接和附件，以判断电子邮件是否具有威胁性。

图2是本申请实施例的检测模块的示意图。如图2所示，检测模块30包括邮件头检测单元301、正文检测单元302、超链接检测单元303和附件检测单元304。

在一些实施例中，邮件头检测单元301用于检测邮件头包含的关键字段，以判断邮件头是否具有威胁性。关键字段是指通过邮件客户端的发信者策略架构(Sender PolicyFramework，SPF)、域名密钥识别邮件标准(Domain Keys Identified Mail，DKIM)、DMARC(Domain-based Message Authentication)等邮件安全验证机制填充的值，以保障邮件的安全性。其中，SPF用于校验发信服务器IP地址，防止发件人伪造Return-path字段；DKIM用于校验邮件标头签名信息，防止邮件内容被篡改；DMARC通过引入标志符对齐机制确保用户最终看到的来源地址是真实可信的，可以防止authentication-results字段、Return-path字段、From字段的伪造。

关键字段包括但不限于：authentication-results字段、DKIM-Signature字段、Return-Path字段、From字段等。其中，authentication-results字段用于消息验证，DKIM-Signature字段用于电子邮件身份验证，Return-Path字段代表邮件的回复地址，From字段用于指定的发件人地址。

若邮件头检测单元301检测出电子邮件缺少关键字段，则该电子邮件极有可能是攻击者伪造的。

在一些实施例中，正文检测单元302用于检测正文文本的词向量，以判断正文文本是否具有威胁。

图3是本申请实施例的正文检测单元的示意图。如图3所示，正文检测单元302包括预处理子单元3021、词向量处理子单元3022和相似度处理子单元3023。

在一些实施例中，预处理子单元3021对正文文本进行预处理，预处理包括但不限于：清洗、去重以及删除文本中的标点符号与特殊符号。

在一些实施例中，词向量子单元3022对预处理后的正文文本进行处理，提取正文文本中的词向量。

例如，词向量子单元3022使用词袋模型与TF-IDF(term frequency-inversedocument frequency)算法对预处理后的正文文本进行处理，提取正文文本中的词向量。词袋模型包括但不限于中文分词工具、N-gram语言模型、Word2vec分布式模型、embedding模型等。另外，词袋模型也可与OneHot编码、TextRank、LSA、LDA、LDA2Vec等算法相结合进行词向量的提取。

下面以中文分词工具与TF-IDF算法结合为例进行说明。

词向量子单元3022使用中文分词工具对预处理后的正文文本分词处理，去除停用词，获得正文文本包含的所有词，构成词集合。中文分词工具包括但不限于：Jieba、HanLP、FudanNLP、LTP、THULAC、NLPIR、BosonNLP、百度NLP、腾讯文智、阿里云NLP等。

词向量子单元3022使用TF-IDF算法将词集合转换为词向量。TF-IDF算法基于词频而不考虑词序统计每个词的重要性，识别出词集合中的关键词，将词集合转换成词向量。TF-IDF算法根据下述公式(1)计算词频TF(Term Frequency)：

TF-IDF算法根据下述公式(2)计算词频逆文本频率IDF(inverse documentfrequency)：

TF-IDF算法根据下述公式(3)计算词的TF-IDF值：

TF-IDF(w)＝TF(w)*IDF(w) 公式(3)

词的TF-IDF值越大说明该词越重要。

在一些实施例中，相似度处理子单元3023将词向量与欺诈词库或安全威胁词库中的词向量进行比较，从而判断正文文本是否具有威胁。例如，相似度处理子单元3024利用余弦相似度或敏感哈希计算电子邮件正文文本的词向量与欺诈词库或安全威胁词库中的词向量的相似度，根据该相似度对二者进行比较。

在一些实施例中，超链接检测单元303检测超链接的结构与内容，以判断超链接是否具有威胁。电子邮件中的超链接可以出现在邮件正文、主题或附件中。

图4是本申请实施例的超链接检测单元的示意图。如图4所示，超链接检测单元303包括结构检测子单元3031和内容检测子单元3032。

在一些实施例中，结构检测子单元3031对超链接的结构进行检测，以判断超链接是否具有威胁。

具体地，结构检测子单元3031对超链接中的http地址数量进行统计，检测单个超链接中是否包含多个http/https链接。结构检测子单元3031识别http地址是否为白名单跳转。例如，结构检测子单元3031对多个http/https链接之间的调用关系进行还原，提取出IP类型链接、域名、链接中域名的注册时间，检测其涉及的域名是否存在于白名单中，是否是白域名跳转攻击。结构检测子单元3031对http地址进行黑名单匹配。

在一些实施例中，内容检测子单元3031对超链接的内容进行检测，以判断超链接是否具有威胁。

具体地，内容检测子单元3031对超链接中的网页进行预访问获取对应的网页内容，对网页进行HTML解析与内容解析，并根据从大量恶意邮件中提取出来的判定规则分析网页内容的页面特征和页面目的。例如，超链接为图片格式，则检测其对应的文字信息是否与图片匹配。若检测到的文字信息为图片，但超链接实际为“HTML”、“ASP”等文件，则该超链接极有可能为威胁链接。

在一些实施例中，附件检测单元304对附件进行深度检测，以判断附件是否具有威胁。

例如，附件检测单元304对附件进行迭代解析，直到获取附件中的所有文件；识别附件中的所有文件的文件类型，并根据文件类型选择相应的检测方法，实现对文件的深度检测。例如，针对Lnk文件，提取Lnk文件中的命令，检测其命令行是否调用了其他进程，或者其命令行是否包含了下载命令等非正常操作；针对办公文档，例如，Office文档与PDF文档等，对文档格式与宏进行检测；针对可移植的可执行的(Portable Executable，PE)文件，比如EXE、DLL、OCX、SYS、COM文件等，通过字符串分析、导入表分析、编译信息分析检测其是否具有威胁。

由上述实施例可知，本申请通过检测电子邮件的邮件头、正文文本、超链接、附件，对电子邮件进行深度分析，检测范围广、程度深，从而可以更加准确地对电子邮件进行威胁检测。

另外，本申请的邮件头检测单元301利用SPF、DKIM、DMARC等邮件安全验证机制对邮件头的特定属性进行检测，可以有效检测电子邮件的伪造威胁。

另外，本申请的正文检测单元302采用词袋模型与TF-IDF算法提取邮件正文文本的词向量，能够基于词向量检测电子邮件中的欺诈风险。

另外，由于部分邮件中的钓鱼链接采用google白域名转发的形式，因此可以绕过邮件检测，例如https://www.google.com/url？q＝http://{domain}/index.php？addr＝XXX&rc＝XXX&source＝gmail&ust＝XXX&usg＝XXX。还有部分威胁邮件中包含了多个链接，进行白名单跳转，例如http://dict.XXXXX.com/appapi/redirect？module＝compose.ComposeModule&amp；redirectUrl＝http://oversea-cnki[.]net/ccps/20191031.pdf，其中第一个链接为探针，第二个链接使用了某域名的白名单跳转，最后跳转到http://datasectioninfo[.]net/ccps/20191031.pdf。针对上述情况，本申请的超链接检测单元303可以对电子邮件中的超链接进行深度分析与检测，由此能够检测出使用了某域名的白名单跳转的具有威胁的超链接。

另外，本申请的超链接检测单元303对超链接进行跳转解析与网页预访问解析，由此能够有效检测钓鱼网站、仿冒网站、跨站跳转、一次性域名等高级APT邮件攻击手段。

另外，本申请的附件检测单元304对附件进行迭代解析，根据文件的类型采用相应的方法检测文件可能携带的威胁，由此，相较于传统的基于杀毒引擎和恶意域名库的邮件安全防护手段，威胁检测能力大幅提高。

本申请实施例还提供一种电子邮件检测方法，由于电子邮件检测方法所解决问题的原理与电子邮件检测装置相似，因此电子邮件检测方法的实施可以参见电子邮件检测装置的实施，重复之处不再赘述。

图5是本申请实施例的电子邮件检测方法的流程图。如图5所示，电子邮件检测方法的步骤如下：

步骤51、接收电子邮件。

步骤52、解析电子邮件，获得电子邮件的邮件内容。

例如，使用解析EML文件的工具，从电子邮件中提取邮件头、正文、超链接和附件。解析EML文件的工具包括但不限于apachetika、javamail、Exchange Service等。

步骤53、检测邮件头、正文、超链接和附件，以判断电子邮件是否具有威胁性。

图6是本申请实施例的检测邮件头、正文、超链接和附件的流程图。如图6所示，检测邮件头、正文、超链接和附件的步骤如下：

步骤531、检测邮件头包含的关键字段，以判断邮件头是否具有威胁性。

若检测出电子邮件缺少关键字段，则该电子邮件极有可能是攻击者伪造的。

步骤532、检测正文文本的词向量，以判断正文文本是否具有威胁。

图7是本申请实施例的检测正文文本的词向量的流程图。如图7所示，检测正文文本的词向量的步骤如下：

步骤5321、对正文文本进行预处理，预处理包括但不限于：清洗、去重以及删除文本中的标点符号与特殊符号。

步骤5322、对预处理后的正文文本进行处理，提取正文文本中的词向量。

例如，使用词袋模型与TF-IDF(term frequency-inverse document frequency)算法对预处理后的正文文本进行处理，提取正文文本中的词向量。

例如，使用中文分词工具对预处理后的正文文本分词处理，去除停用词，获得正文文本包含的所有词，构成词集合。

例如，使用TF-IDF算法将词集合转换为词向量。TF-IDF算法基于词频而不考虑词序统计每个词的重要性，识别出词集合中的关键词，将词集合转换成词向量。

步骤5323、将词向量与欺诈词库或安全威胁词库中的词向量进行比较，从而判断正文文本是否具有威胁。

例如，相似度处理子单元3024利用余弦相似度或敏感哈希计算电子邮件正文文本的词向量与欺诈词库或安全威胁词库中的词向量的相似度，根据该相似度对二者进行比较。

步骤533、检测超链接的结构与内容，以判断超链接是否具有威胁。

图8是本申请实施例的检测超链接的结构与内容的流程图。如图8所示，检测超链接的结构与内容的步骤如下：

步骤5331、对超链接的结构进行检测，以判断超链接是否具有威胁。

图9是本申请实施例的检测超链接的结构的流程图。如图9所示，对超链接中的http地址数量进行统计，检测单个超链接中是否包含多个http/https链接。识别http地址是否为白名单跳转。例如，对多个http/https链接之间的调用关系进行还原，提取出IP类型链接、域名、链接中域名的注册时间，检测其涉及的域名是否存在于白名单中，是否是白域名跳转攻击。对http地址进行黑名单匹配。

步骤5332、对超链接的内容进行检测，以判断超链接是否具有威胁。

图10是本申请实施例的检测超链接的内容的流程图。如图10所示，对超链接中的网页进行预访问获取对应的网页内容，对网页进行HTML解析与内容解析，并根据从大量恶意邮件中提取出来的判定规则分析网页内容的页面特征和页面目的。例如，超链接为图片格式，则检测其对应的文字信息是否与图片匹配。若检测到的文字信息为图片，但超链接实际为“HTML”、“ASP”等文件，则该超链接极有可能为威胁链接。

步骤534、对附件进行深度检测，以判断附件是否具有威胁。

图11是本申请实施例的对附件进行深度检测的流程图。如图11所示，对附件进行迭代解析，直到获取附件中的所有文件；识别附件中的所有文件的文件类型，并根据文件类型选择相应的检测方法，实现对文件的深度检测。例如，针对Lnk文件，提取Lnk文件中的命令，检测其命令行是否调用了其他进程，或者其命令行是否包含了下载命令等非正常操作；针对办公文档，例如，Office文档与PDF文档等，对文档格式与宏进行检测；针对可移植的可执行的(Portable Executable，PE)文件，比如EXE、DLL、OCX、SYS、COM文件等，通过字符串分析、导入表分析、编译信息分析检测其是否具有威胁。

另外，本申请利用SPF、DKIM、DMARC等邮件安全验证机制对邮件头的特定属性进行检测，可以有效检测电子邮件的伪造威胁。

另外，本申请采用词袋模型与TF-IDF算法提取邮件正文文本的词向量，能够基于词向量检测电子邮件中的欺诈风险。

另外，本申请对超链接进行跳转解析与网页预访问解析，由此能够有效检测钓鱼网站、仿冒网站、跨站跳转、一次性域名等高级APT邮件攻击手段。

另外，本申请对附件进行迭代解析，根据文件的类型采用相应的方法检测文件可能携带的威胁，由此，相较于传统的基于杀毒引擎和恶意域名库的邮件安全防护手段，威胁检测能力大幅提高。

本申请实施例还提供一种计算机设备。图12是本申请实施例的计算机设备的示意图。计算机设备2包括存储器21、处理器22及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现上述电子邮件检测方法。

本申请实施例还提供一种计算机可读存储介质，所述计算机可读存储介质存储有执行上述电子邮件检测方法的计算机程序。

需要说明的是，本申请中技术方案中对数据的获取、存储、使用、处理等均符合国家法律法规的相关规定。

本申请实施例中的用户信息均是通过合法合规途径获得，并且对用户信息的获取、存储、使用、处理等经过客户授权同意的。

虽然本申请提供了如实施例或流程图所述的方法操作步骤，但基于常规或者无创造性的劳动可以包括更多或者更少的操作步骤。实施例中列举的步骤顺序仅仅为众多步骤执行顺序中的一种方式，不代表唯一的执行顺序。在实际中的装置或客户端产品执行时，可以按照实施例或者附图所示的方法顺序执行或者并行执行(例如并行处理器或者多线程处理的环境)。

本领域技术人员应明白，本说明书的实施例可提供为方法、装置(系统)或计算机程序产品。因此，本说明书实施例可采用完全硬件实施例、完全软件实施例或结合软件和硬件方面的实施例的形式。而且，本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本申请是参照根据本申请实施例的方法、装置(系统)和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

本说明书中的各个实施例均采用递进的方式描述，各个实施例之间相同相似的部分互相参见即可，每个实施例重点说明的都是与其他实施例的不同之处。尤其，对于系统实施例而言，由于其基本相似于方法实施例，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。术语“上”、“下”等指示的方位或位置关系为基于附图所示的方位或位置关系，仅是为了便于描述本申请和简化描述，而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作，因此不能理解为对本申请的限制。除非另有明确的规定和限定，术语“安装”、“相连”、“连接”应做广义理解，例如，可以是固定连接，也可以是可拆卸连接，或一体地连接；可以是机械连接，也可以是电连接；可以是直接相连，也可以通过中间媒介间接相连，可以是两个元件内部的连通。对于本领域的普通技术人员而言，可以根据具体情况理解上述术语在本申请中的具体含义。需要说明的是，在不冲突的情况下，本申请中的实施例及实施例中的特征可以相互组合。本申请并不局限于任何单一的方面，也不局限于任何单一的实施例，也不局限于这些方面和/或实施例的任意组合和/或置换。而且，可以单独使用本申请的每个方面和/或实施例或者与一个或更多其他方面和/或其实施例结合使用。

最后应说明的是：以上各实施例仅用以说明本申请的技术方案，而非对其限制；尽管参照前述各实施例对本申请进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分或者全部技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本申请各实施例技术方案的范围，其均应涵盖在本申请的权利要求和说明书的范围当中。

Claims

1.一种电子邮件检测方法，其特征在于，所述方法包括：

接收电子邮件；

2.根据权利要求1所述的电子邮件检测方法，其特征在于，

所述检测所述邮件头、所述正文、所述超链接和所述附件包括：

检测所述邮件头包含的关键字段；

检测所述正文的词向量；

检测所述超链接的结构与内容；

对所述附件进行深度检测。

3.根据权利要求2所述的电子邮件检测方法，其特征在于，

所述关键字段至少包括：authentication-results字段、DKIM-Signature字段、Return-Path字段、From字段。

4.根据权利要求2所述的电子邮件检测方法，其特征在于，

所述检测所述正文的词向量包括：

对所述正文进行预处理；

从经过预处理后的所述正文中提取词向量；

将所述词向量与欺诈词库或安全威胁词库进行比较。

5.根据权利要求4所述的电子邮件检测方法，其特征在于，

所述将所述词向量与欺诈词库或安全威胁词库进行比较包括：

6.根据权利要求2所述的电子邮件检测方法，其特征在于，

所述检测所述超链接的结构包括：

对所述超链接中的http地址的数量进行统计；

识别所述http地址是否为白名单跳转；

对所述http地址进行黑名单匹配。

7.根据权利要求2所述的电子邮件检测方法，其特征在于，所述方法还包括：

所述检测所述超链接的内容包括：

对所述超链接中的网页进行预访问；

对所述网页进行HTML解析与内容解析；

根据恶意邮件规则对所述网页进行分析。

8.根据权利要求2所述的电子邮件检测方法，其特征在于，

所述对所述附件进行深度检测包括：

对所述附件进行迭代解析以获得所述附件中的所有文件；

根据所述附件中的文件的文件类型相应地进行检测。

9.一种电子邮件检测装置，其特征在于，所述装置包括：

接收模块，其用于接收电子邮件；

10.一种计算机设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，其特征在于，所述处理器执行所述计算机程序时实现权利要求1～8任一项所述的电子邮件检测方法。

11.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质存储有执行权利要求1～8任一项所述的电子邮件检测方法的计算机程序。