CN110149266B - 垃圾邮件识别方法及装置 - Google Patents

垃圾邮件识别方法及装置 Download PDF

Info

Publication number
CN110149266B
CN110149266B CN201810799196.3A CN201810799196A CN110149266B CN 110149266 B CN110149266 B CN 110149266B CN 201810799196 A CN201810799196 A CN 201810799196A CN 110149266 B CN110149266 B CN 110149266B
Authority
CN
China
Prior art keywords
mail
target
spam
junk
normal
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201810799196.3A
Other languages
English (en)
Other versions
CN110149266A (zh
Inventor
王斌
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tencent Technology Beijing Co Ltd
Original Assignee
Tencent Technology Beijing Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tencent Technology Beijing Co Ltd filed Critical Tencent Technology Beijing Co Ltd
Priority to CN201810799196.3A priority Critical patent/CN110149266B/zh
Publication of CN110149266A publication Critical patent/CN110149266A/zh
Application granted granted Critical
Publication of CN110149266B publication Critical patent/CN110149266B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L51/00User-to-user messaging in packet-switching networks, transmitted according to store-and-forward or real-time protocols, e.g. e-mail
    • H04L51/21Monitoring or handling of messages
    • H04L51/212Monitoring or handling of messages using filtering or selective blocking
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L51/00User-to-user messaging in packet-switching networks, transmitted according to store-and-forward or real-time protocols, e.g. e-mail
    • H04L51/42Mailbox-related aspects, e.g. synchronisation of mailboxes

Abstract

本发明公开了一种垃圾邮件识别方法及装置,属于网络技术领域。所述方法包括:获取目标邮件的头信息,调用邮件分类规则库,将头信息与该邮件分类规则库中的多个垃圾邮件规则分别进行比较;如果根据比较结果确定目标邮件不是垃圾邮件,则对目标邮件的正文进行特征提取,得到目标邮件的文本特征;调用第一邮件识别模型对目标邮件的文本特征进行识别,输出第一识别结果;根据第一识别结果,确定目标邮件是否为垃圾邮件。本发明通过先利用邮件的头信息和邮件分类规则库进行预判,再利用邮件的文本特征和邮件识别模型进一步进行识别,能够更为精准地识别出垃圾邮件,避免了对垃圾邮件的漏检和误检。

Description

垃圾邮件识别方法及装置
技术领域
本发明涉及网络技术领域,特别涉及一种垃圾邮件识别方法及装置。
背景技术
随着互联网技术的普及和高速发展,电子邮件以其快捷、方便和低成本的特点,成为了人们工作和生活的重要通信方式。但是,随之而来的却是垃圾邮件的泛滥,垃圾邮件是指未经用户许可就强行发送到用户邮箱中或与用户无关的邮件。由于垃圾邮件不仅会占用有限的网络资源、耗费用户大量的处理时间,还可能会携带蠕虫、病毒、钓鱼式攻击等网络安全问题,因此需要快速有效的对垃圾邮件进行识别。
相关技术中提供了一种垃圾邮件识别方法,包括:技术人员通过对大量垃圾邮件的头信息和正文进行分析,统计出垃圾邮件的规律信息,并根据统计出的规律信息制定邮件分类规则库。其中,头信息包括邮件的收件人信息、发件人信息、邮件主题或发件地址信息等,邮件分类规则库包括多个垃圾邮件规则,而且,这多个垃圾邮件规则根据重要程度均设置有对应的分数。在对目标邮件进行识别时,先提取目标邮件的头信息和正文,当提取的信息满足该邮件分类规则库中的至少一个垃圾邮件规则,且该至少一个垃圾邮件规则对应的分数之和大于或等于目标分数阈值时,判定目标邮件为垃圾邮件。
由于邮件分类规则库、垃圾邮件规则对应的分数以及目标分数阈值都是人为归纳和设置的,因此识别过程中存在人为误差,识别准确度较低,进而未被判定为垃圾邮件的一些邮件中也可能会存在垃圾邮件,造成垃圾邮件的漏检。
发明内容
本发明实施例提供了一种垃圾邮件识别方法及装置,可以用于解决相关技术中存在的垃圾邮件的识别准确度较低,以及容易造成漏检的问题。所述技术方案如下:
一方面,提供了一种垃圾邮件识别方法,所述方法包括:
获取目标邮件的头信息,所述头信息包括所述目标邮件的收件人信息、发件人信息、邮件主题或发件地址信息;
调用邮件分类规则库,将所述头信息与所述邮件分类规则库中的多个垃圾邮件规则分别进行比较;
如果根据比较结果,确定所述目标邮件不是垃圾邮件,则对所述目标邮件的正文进行特征提取,得到所述目标邮件的文本特征;
调用第一邮件识别模型对所述目标邮件的文本特征进行识别处理,输出第一识别结果,所述第一邮件识别模型用于根据任一邮件的文本特征,识别所述邮件是否为垃圾邮件;
根据所述第一识别结果,确定所述目标邮件是否为垃圾邮件。
一方面,提供了一种垃圾邮件识别装置,所述装置包括:
第一获取模块,用于获取目标邮件的头信息,所述头信息包括所述目标邮件的收件人信息、发件人信息、邮件主题或发件地址信息;
第一比较模块,用于调用邮件分类规则库,将所述头信息与所述邮件分类规则库中的多个垃圾邮件规则分别进行比较;
第一特征提取模块,用于如果根据比较结果,确定所述目标邮件不是垃圾邮件,则对所述目标邮件的正文进行特征提取,得到所述目标邮件的文本特征;
第一识别模块,用于调用第一邮件识别模型对所述目标邮件的文本特征进行识别,输出第一识别结果,所述第一邮件识别模型用于根据任一邮件的文本特征,识别所述邮件是否为垃圾邮件;
第一确定模块,用于根据所述第一识别结果,确定所述目标邮件是否为垃圾邮件。
一方面,提供了一种垃圾邮件识别装置,所述装置包括处理器和存储器,所述存储器中存储有至少一条指令、至少一段程序、代码集或指令集,所述指令、所述程序、所述代码集或所述指令集由所述处理器加载并执行以实现上述垃圾邮件识别方法。
一方面,提供了一种计算机可读存储介质,所述存储介质中存储有至少一条指令、至少一段程序、代码集或指令集,所述指令、所述程序、所述代码集或所述指令集由处理器加载并执行以实现上述垃圾邮件识别方法。
本发明实施例提供的技术方案带来的有益效果是:
本发明实施例中,通过先获取目标邮件的头信息,并调用邮件分类规则库,将头信息与该邮件分类规则库中的多个垃圾邮件规则分别进行比较,可以快速地确定目标邮件是否为可能性较高的垃圾邮件,也即是,可以快速地对目标邮件进行预判。当根据比较结果,确定目标邮件不是垃圾邮件时,说明目标邮件不是可能性较高的垃圾邮件,但是也存在属于垃圾邮件的可能,这种情况下,通过对目标邮件的正文进行特征提取,得到目标邮件的文本特征,然后调用第一邮件识别模型对目标邮件的文本特征进行识别,可以结合邮件正文的文本特征,通过机器学习模型进一步对目标邮件进行精准识别。如此,可以更为精准地识别出垃圾邮件,提高了识别准确度,避免了对垃圾邮件的漏检。
附图说明
为了更清楚地说明本发明实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本发明实施例提供的一种邮件识别系统的示意图;
图2是本发明实施例提供的另一种邮件识别系统的示意图;
图3是本发明实施例提供的垃圾邮件识别逻辑示意图;
图4是本发明实施例提供的一种垃圾邮件识别方法的流程图;
图5是本发明实施例提供的一种垃圾邮件识别结果的示意图;
图6是本发明实施例提供的另一种垃圾邮件识别方法的流程图;
图7是本发明实施例提供的一种邮件识别模型的训练阶段示意图;
图8是本发明实施例提供的一种邮件样本的处理流程图;
图9是本发明实施例提供的一种垃圾邮件识别装置的结构示意图;
图10是本发明实施例提供的一种服务器的结构示意图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚,下面将结合附图对本发明实施方式作进一步地详细描述。
在对本发明实施例进行详细地解释说明之前,先对本发明实施例的应用场景予以说明。
本发明实施例提供的垃圾邮件识别方法可以用于识别用户邮箱接收的邮件是否为垃圾邮件,以便对识别出的垃圾邮件进行拦截,或者,将识别出的垃圾邮件存储在特定的垃圾邮件文件夹中等。当然,本发明实施例提供的垃圾邮件识别方法也可以应用于其他场景,本发明实施例对此不做限定。
接下来对本发明实施例的实施环境进行介绍。
本发明实施例提供的邮件识别方法可以应用于邮件识别系统中,图1是本发明实施例提供的一种邮件识别系统的示意图,如图1所示,该系统包括目标邮件11和邮件服务器12。其中,目标邮件11为发起用户向目标用户发送的邮件。邮件服务器12用于接收发起用户发送的目标邮件11,并将目标邮件11转发给目标用户。示例的,邮件服务器12可以为服务于企业邮箱的企业邮件服务器,用于接收发送给企业邮箱的每一封邮件。
本发明实施例中,在邮件服务器12上还额外部署了垃圾邮件识别策略,用于对发送给邮件服务器12的每一封邮件进行识别,以判断每一封邮件是否为垃圾邮件。比如,可以对进入企业邮箱的每一封邮件进行垃圾邮件识别,从而第一时间在企业邮件服务器上发现垃圾邮件。
具体地,邮件服务器12接收到目标邮件之后,可以先获取目标邮件的头信息,调用邮件分类规则库,将头信息与邮件分类规则库中的多个垃圾邮件规则分别进行比较,若根据比较结果确定目标邮件不是垃圾邮件,再对目标邮件的正文进行特征提取,得到目标邮件的文本特征,然后调用第一邮件识别模型对目标邮件的文本特征进行识别,输出第一识别结果,并根据第一识别结果,确定目标邮件是否为垃圾邮件。其中,头信息包括目标邮件的收件人信息、发件人信息、邮件主题或发件地址信息,邮件分类规则库包括多个垃圾邮件规则,第一邮件识别模型用于根据任一邮件的文本特征,识别该邮件是否为垃圾邮件。
需要说明的是,该邮件识别策略可以直接部署在邮件服务器12,由邮件服务器12对接收的邮件进行垃圾邮件识别,也可以部署在其他服务器中,在邮件服务器12接收到邮件之前,由其他服务器对发送给邮件服务器12的邮件进行垃圾邮件识别。图2是本发明实施例提供的另一种邮件识别系统的示意图,如图2所示,该系统包括目标邮件11、检测服务器13和邮件服务器12,检测服务器11和邮件服务器12可以通过网络进行连接。其中,检测服务器13部署在邮件服务器12之前,可以在邮件服务器12接收到邮件之前,对发送给邮件服务器12的每封邮件进行垃圾识别。
在一个实施例中,以本发明实施例提供的垃圾邮件识别方法应用于图2所示的检测服务器13为例,该检测服务器13的垃圾邮件识别逻辑可以如图3所示,参见图3,整个垃圾邮件识别流程主要包括接收邮件识别请求、邮件识别和返回邮件识别结果这三个阶段。具体地,在邮件进入邮件服务器之前,检测服务器13可以接收邮件识别请求,该邮件识别请求携带待识别邮件的邮件信息,然后将邮件信息维护在待识别邮件队列中。为了提高识别效率,检测服务器13还可以采用多进程并发的方式进行垃圾邮件识别,也即是,检测服务器13可以维护多个识别进程,每个识别进程均可以采用本发明实施例提供的垃圾邮件识别方法对邮件进行识别。具体地,每个进程均可以从待识别邮件队列获取邮件信息,然后对获取的邮件信息对应的邮件进行邮件识别,并将识别结果写入垃圾邮件识别结果队列中,以便检测服务器13根据垃圾邮件识别结果队列返回垃圾邮件识别结果。
需要说明的是,本发明实施例仅是以图3所示的垃圾邮件识别流程为例进行说明,而实际应用中,该垃圾邮件识别流程还可以按照企业邮件的规模动态配置,本发明实施例对此不做限定。
图4是本发明实施例提供的一种垃圾邮件识别方法的流程图,该方法应用于服务器中,该服务器可以为上述邮件服务器或检测服务器等。参见图4,该方法包括:
步骤401:获取目标邮件的头信息,该头信息包括目标邮件的收件人信息、发件人信息、邮件主题或发件地址信息。
其中,目标邮件为待识别的邮件,具体可以为向邮件服务器发送的邮件、邮件服务器接收的邮件或用户邮箱存储的邮件等。收件人信息可以为收件人的名称或邮箱地址等。发件人信息可以为发件人的名称或邮箱地址等。发件地址信息用于指示发件人或发送端的位置,具体可以为发件人的邮箱地址、发送端的IP(Internet Protocol,网络协议)地址或MAC(Media Access Contro,媒体访问控制)地址等。
在本发明实施例中,对于待识别的目标邮件,可以先获取目标邮件的头信息,以便根据目标邮件的头信息,对目标邮件是否为垃圾邮件进行预判。其中,该头信息可以包括收件人信息、发件人信息、邮件主题和发件地址信息中的至少一种。
具体地,获取目标邮件的头信息包括:确定目标邮件的头信息字段,对目标邮件的头信息字段进行解析,从解析后的信息中提取目标邮件的头信息。其中,头信息字段是指目标邮件的头信息所在的字段,比如,头信息字段可以为header信息字段。
在一个实施例中,当目标邮件的头信息包括目标邮件的收件人信息、发件人信息、邮件主题和发件地址信息时,从解析后的信息中提取目标邮件的头信息可以包括:从解析后的信息中分别提取目标邮件的收件人信息、发件人信息、邮件主题和发件地址信息,将提取的信息组成目标邮件的头信息。
步骤402:调用邮件分类规则库,将头信息与该邮件分类规则库中的多个垃圾邮件规则分别进行比较,根据比较结果,判断目标邮件是否为垃圾邮件。
其中,该邮件分类规则库包括多个垃圾邮件规则,该多个垃圾邮件规则为垃圾邮件的头信息符合的规则,可以预先根据多个垃圾邮件样本的头信息进行统计得到。比如,该多个垃圾邮件规则可以包括垃圾邮件的发件人信息规则、收件人信息规则、邮件主题规则或发件地址信息规则等。示例的,垃圾邮件的邮件主题规则可以包括统计出的垃圾邮件的邮件主题中经常出现的关键字或语义特征等。示例的,垃圾邮件的发件地址信息规则可以包括统计出的垃圾邮件的发件地址信息中经常出现的发件地址信息,相当于发件地址信息的黑名单,比如,圾邮件的发件地址信息规则可以包括多个恶意邮箱地址或多个恶意IP地址等。
在一个实施例中,可以获取多个垃圾邮件样本,并获取多个垃圾邮件样本的发件人信息、收件人信息、邮件主题和发件地址信息,然后对多个垃圾邮件样本的发件人信息、收件人信息、邮件主题和发件地址信息分别进行分析,统计出该多个垃圾邮件样本的规律信息,并根据统计出的规律信息确定垃圾邮件的发件人信息规则、收件人信息规则、邮件主题规则或发件地址信息规则等。
具体地,根据比较结果,判断目标邮件是否为垃圾邮件包括:当该头信息满足该分类规则库中的至少一个垃圾邮件规则,且该至少一个垃圾邮件规则对应的分数之和大于或等于第一分数阈值时,确定目标邮件为垃圾邮件;当该头信息满足该邮件分类规则库中的至少一个垃圾邮件规则,且该至少一个垃圾邮件规则对应的分数之和小于第一分数阈值时,或者,当该头信息不满足该邮件分类规则库中的任一垃圾邮件规则时,确定目标邮件不是垃圾邮件。
其中,该多个垃圾邮件规则预先根据重要程度设置有对应的分数,目标邮件的头信息满足的垃圾邮件规则对应的分数越大,表示目标邮件为垃圾邮件的可能性越高。第一分数阈值是预先设置的用于判断目标邮件是否为垃圾邮件的阈值,且第一分数阈值可以由终端默认设置,也可以由技术人员根据需要进行设置,或者由用户进行更改,本发明实施例对此不做限定。
需要说明的是,本发明实施例中,可以先利用目标邮件的头信息和邮件分类规则库,对目标邮件是否为垃圾邮件进行预判,由于规则的匹配方式简便,因此预判过程所需时间较短,速度较快,当待识别的目标邮件较多时,能够较为快速地从大量目标邮件中先过滤出一批可能性较高的垃圾邮件,减轻了后续识别的负担。
还需要说明的是,相关技术中在利用邮件分类规则库识别垃圾邮件时,需要对多个垃圾邮件的头信息和正文均进行分析和统计,来制定垃圾邮件规则,以根据制定的垃圾邮件规则维护邮件分类规则库。由于需要对垃圾邮件的头信息和正文均进行统计和分析,因此对邮件分类规则库的维护成本较高。而本发明实施例中,仅需对多个垃圾邮件样本的头信息进行统计和分析,即可得到多个垃圾邮件规则,因此节约了邮件分类规则库的维护成本。
在另一实施例中,该邮件分类规则库还可以包括多个正常邮件规则,该多个正常邮件规则是指正常邮件的头信息符合的规则,可以预先根据多个正常邮件样本的头信息进行统计得到。比如,该多个正常邮件规则可以包括正常邮件的发件人信息规则、收件人信息规则、邮件主题规则或发件地址信息规则等。示例的,正常邮件的发件人信息规则可以包括统计出的正常邮件的发件人信息中经常出现的发件人信息,相当于发件人信息白名单,比如,正常邮件的发件人信息规则可以包括常用联系人信息、权威机构的官方发件人信息等。
在一个实施例中,可以获取多个正常邮件样本,并获取多个正常邮件样本的发件人信息、收件人信息、邮件主题和发件地址信息,然后对多个正常邮件样本的发件人信息、收件人信息、邮件主题和发件地址信息分别进行分析,统计出该多个正常邮件样本的规律信息,并根据统计出的规律信息确定正常邮件的发件人信息规则、收件人信息规则、邮件主题规则或发件地址信息规则等。
当邮件分类规则库还包括多个正常邮件规则时,在根据该头信息和邮件分类规则库,判断目标邮件是否为垃圾邮件的同时,还可以根据该头信息和邮件分类规则库,判断目标邮件是否为正常邮件。具体地,可以调用邮件分类规则库,将头信息与该邮件分类规则库中的多个垃圾邮件规则和多个正常邮件规则分别进行比较,然后根据比较结果,判断目标邮件是否为正常邮件和垃圾邮件。
具体地,根据比较结果,判断目标邮件是否为正常邮件和垃圾邮件包括:当该头信息满足该分类规则库中的至少一个垃圾邮件规则,且该至少一个垃圾邮件规则对应的分数之和大于或等于第一分数阈值时,确定目标邮件为垃圾邮件;当该头信息满足该分类规则库中的至少一个正常邮件规则,且该至少一个正常邮件规则对应的分数之和大于或等于第二分数阈值时,确定目标邮件为正常邮件;当该头信息满足该邮件分类规则库中的至少一个垃圾邮件规则,且该至少一个垃圾邮件规则对应的分数之和小于第一分数阈值时,或者,当该头信息满足该邮件分类规则库中的至少一个正常邮件规则,且该至少一个正常邮件规则对应的分数之和小于第二分数阈值时,或者,当该头信息不满足该邮件分类规则库中的任一垃圾邮件规则,且不满足该邮件分类规则库中的任一正常邮件规则时,确定目标邮件不是垃圾邮件和正常邮件,也即是,确定目标邮件既不是垃圾邮件,也不是正常邮件。
其中,该多个正常邮件规则也预先根据重要程度设置有对应的分数,目标邮件的头信息满足的正常邮件规则对应的分数越大,表示目标邮件为正常邮件的可能性越高。第二分数阈值是预先设置的用于判断目标邮件是否为正常邮件的阈值,且第二分数阈值可以由终端默认设置,也可以由技术人员根据需要进行设置,或者由用户进行更改,本发明实施例对此不做限定。
步骤403:如果根据比较结果,确定目标邮件为垃圾邮件,则将确定结果作为目标邮件的最终识别结果。
也即是,如果根据邮件分类规则库的比较结果确定目标邮件为垃圾邮件,则直接判定目标邮件为垃圾邮件。如此,当待识别的目标邮件较多时,也就能够从大量目标邮件中快速过滤出一批可能性较高的垃圾邮件,从而减小了后续的识别负担。
在另一实施例中,当邮件分类规则库包括多个垃圾邮件规则和多个正常邮件规则时,还可以在根据邮件分类规则库的比较结果确定目标邮件为垃圾邮件或正常邮件时,将确定结果作为目标邮件的最终识别结果。
在另一实施例中,当邮件分类规则库仅包括多个正常邮件规则,而不包括多个垃圾邮件规则时,还可以在根据邮件分类规则库的比较结果确定目标邮件是正常邮件时,将确定结果作为目标邮件的最终识别结果。
其中,根据比较结果确定目标邮件是正常邮件包括:当该头信息满足该分类规则库中的至少一个正常邮件规则,且该至少一个正常邮件规则对应的分数之和大于或等于第二分数阈值时,确定目标邮件为正常邮件。而根据比较结果确定目标邮件不是正常邮件包括:当该头信息满足该邮件分类规则库中的至少一个正常邮件规则,且该至少一个正常邮件规则对应的分数小于第二分数阈值时,或者,当该头信息不满足该邮件分类规则库中的任一正常邮件规则时,确定目标邮件不是正常邮件。
步骤404:如果根据比较结果,确定目标邮件不是垃圾邮件,则对目标邮件的正文进行特征提取,得到目标邮件的文本特征。
由于根据该头信息和邮件分类规则库仅能识别出可能性较高的垃圾邮件,而如果根据该头信息和邮件分类规则库,确定目标邮件不是垃圾邮件,则说明目标邮件是垃圾邮件的可能性较低,但并不能说明目标邮件肯定是正常邮件,因此为了进一步对目标邮件进行判定,本发明实施例采用了进一步对目标邮件的正文进行特征提取,得到目标邮件的文本特征的方式,以根据目标邮件的文本特征进一步识别目标邮件是否为垃圾邮件。
具体地,对目标邮件的正文进行特征提取,得到目标邮件的文本特征的操作可以包括:获取目标邮件的正文;对目标邮件的正文进行分词处理,得到多个分词;对多个分词进行关键词提取,得到多个关键词;对多个关键词进行词嵌入处理,得到数字矩阵;将该数字矩阵确定为目标邮件的文本特征。
在一个实施例中,获取目标邮件的正文包括:获取目标邮件的正文字段,对目标邮件的正文字段进行转码,对转码后的正文字段进行解析,得到目标邮件的正文。在一个实施例中,可以采用tf-idf(term frequency–inverse document frequency,信息检索数据挖掘的常用加权技术)技术进行关键词提取,tf-idf技术可以用于评估一个词对于文本集或语料库中的一份文件的重要程度。对多个关键词进行词嵌入处理是指将每个关键词转换成向量空间中的向量,然后将多个关键词对于的向量组成数字矩阵,该数字矩阵是一种机器能够处理的机器语言,将多个关键词转换成数字矩阵后,便于后续的邮件识别模型进行处理。
在另一实施例中,当邮件分类规则库包括多个垃圾邮件规则和多个正常邮件规则时,还可以在根据该头信息和邮件分类规则库确定目标邮件不是垃圾邮件和正常邮件时,对目标邮件的正文进行特征提取,得到目标邮件的文本特征,然后根据目标邮件的文本特征,进一步识别目标邮件是否为垃圾邮件。
当邮件分类规则库同时包括多个垃圾邮件规则和多个正常邮件规则时,根据邮件分类规则库仅能识别出可能性较高的垃圾邮件和可能性较高的正常邮件,而其他可能性较低的垃圾邮件和正常邮件,根据该邮件分类规则库将无法准确识别。本发明实施例中,当根据该头信息和邮件分类规则库确定目标邮件不是垃圾邮件和正常邮件时,为了进一步对目标邮件进行识别,采用了进一步对目标邮件的正文进行特征提取,得到目标邮件的文本特征的方式,以根据目标邮件的文本特征进一步识别目标邮件是否为垃圾邮件。
在另一实施例中,当邮件分类规则库仅包括多个正常邮件规则,而不包括多个垃圾邮件规则时,还可以在根据该头信息和邮件分类规则库,确定目标邮件不是正常邮件时,对目标邮件的正文进行特征提取,得到目标邮件的文本特征,然后根据目标邮件的文本特征,进一步识别目标邮件是否为垃圾邮件。
步骤405:调用第一邮件识别模型对目标邮件的文本特征输进行识别,输出第一识别结果。
其中,第一邮件识别模型用于根据任一邮件的文本特征,识别该邮件是否为垃圾邮件。也即是,第一识别结果包括垃圾邮件或正常邮件。
另外,为了得到第一邮件识别模型,需要预先获取多个样本数据,并根据多个样本数据对待训练识别模型进行训练。在一个实施例中,第一邮件识别模型的训练过程可以包括:获取多个垃圾邮件样本和多个正常邮件样本;对该多个垃圾邮件样本的正文进行特征提取,得到该多个垃圾邮件样本的文本特征,以及对该多个正常邮件样本的正文进行特征提取,得到该多个正常邮件样本的文本特征;根据该多个垃圾邮件样本和该多个正常邮件样本的文本特征,对第一待训练邮件识别模型进行训练,得到该第一邮件识别模型。
其中,对该多个垃圾邮件样本的正文进行特征提取,以及对该多个正常邮件样本的正文进行特征提取的方式,与上述对目标邮件的正文进行特征提取的方式相同,具体实现过程可以参考上述相关描述,本发明实施例在此不再赘述。
通过根据该多个垃圾邮件样本和该多个正常邮件样本的文本特征,对第一待训练邮件识别模型进行训练,可以使得第一待训练邮件识别模型在训练过程中能够学习得到多个垃圾邮件样本的文本特征,以及多个正常邮件样本的文本特征,训练完成后,即能够根据任一邮件的文本特征对该邮件进行准确识别。
具体地,根据该多个垃圾邮件样本和该多个正常邮件样本的文本特征,对第一待训练邮件识别模型进行训练可以包括:根据该多个垃圾邮件样本和对应的垃圾邮件标签,以及该多个正常邮件样本的文本特征和对应的正常邮件标签,对第一待训练邮件识别模型进行训练。
在训练过程中,可以将该多个垃圾邮件样本的文本特征和该多个正常邮件样本的文本特征输入到第一待训练识别模型,得到每个邮件的输出结果,然后将每个邮件的输出结果和真实邮件标签进行比较,根据比较结果对第一待训练识别模型的模型参数进行调整,以使第一待训练识别模型的输出结果逐渐趋近于真实邮件标签,进而得到能够根据任一邮件的文本特征,识别该邮件是否为垃圾邮件的第一邮件识别模型。在一个实施例中,可以根据比较结果,采用随机梯度下降法对第一待训练识别模型的模型参数进行调整。
需要说明的是,第一邮件识别模型和第一待训练识别模型可以为机器学习模块,具体可以为CNN(Convolutional Neural Network,卷积神经网络)模型或LSTM(LongShort-Term Memory,长短期记忆网络)模型,当然也可以为其他机器学习模型,本发明实施例对此不做限定。其中,CNN模型是一种前馈神经网络模型,人工神经元可以响应周围单元,可以进行大型图像处理。LSTM模型是一种时间递归神经网络模型,适合于处理和预测时间序列中间隔和延迟相对较长的重要事件。
本发明实施例中,将传统的规则库识别方法与先进的机器学习算法进行了结合,相比传统识别方法,机器学习算法能够以更接近人类的思考方式,提取文本特征并做情感色彩分析,从而能够更有效、更准确地对垃圾邮件做出判断。
需要说明是,本发明实施例仅是以先获取目标邮件的头信息,当根据该头信息和邮件分类规则库,确定目标邮件不是垃圾邮件,再对目标邮件的正文进行特征提取,得到目标邮件的文本特征为例,而实际应用中,还可以先对目标邮件进行预处理,对目标邮件进行预处理包括获取目标邮件的头信息,以及对目标邮件的正文进行特征提取,得到目标邮件的文本特征,然后根据该头信息和邮件分类规则库,判断目标邮件是否为垃圾邮件,当判断是垃圾邮件时,直接输出结果,当判断不是垃圾邮件时,再利用目标邮件的文本特征,通过第一邮件识别模型做进一步识别。
步骤406:根据第一识别结果,确定目标邮件是否为垃圾邮件,并将确定结果作为目标邮件的最终识别结果。
具体地,根据第一识别结果,确定目标邮件是否为垃圾邮件包括:当第一识别结果为垃圾邮件时,确定目标邮件为垃圾邮件,当第一识别结果为正常邮件时,确定目标邮件为正常邮件。
进一步地,为了更准确地判断目标邮件是否为垃圾邮件,本发明实施例中,在得到目标邮件的文本特征之后,除了调用第一邮件识别模型对目标邮件的文本特征进行识别,输出第一识别结果之外,还可以调用第二邮件识别模型对目标邮件的文本特征进行识别,输出第二识别结果,然后根据第一识别结果和第二识别结果,综合确定目标邮件是否为垃圾邮件。这种通过两种识别模型进一步确定目标邮件是否为垃圾邮件方法,将在下述图6实施例中进行详细描述,本发明实施例在此先不做赘述。
进一步地,在识别出目标邮件为垃圾邮件之后,还可以获取目标邮件的邮件信息,并对目标邮件的邮件信息和识别结果进行存储或上报。其中,目标邮件的邮件信息可以包括目标邮件的头信息和发送时间等。
在一个实施例中,当一个企业邮件服务器在一天之内接收到大量邮件时,则对这一天之内接收到的邮件进行垃圾邮件识别的识别结果可以如图5所示。
图5是本发明实施例提供的一种垃圾邮件识别结果的示意图,如图5所示,该示意图中包括检测到的垃圾邮件总数、今日垃圾总数以及垃圾邮件详情列表,根据该示意图能够直观地分析出识别到的垃圾邮件的分布情况。
本发明实施例中,本通过先获取目标邮件的头信息,并调用邮件分类规则库,将头信息与该邮件分类规则库中的多个垃圾邮件规则分别进行比较,可以快速地确定目标邮件是否为可能性较高的垃圾邮件,也即是,可以快速地对目标邮件进行预判。当根据比较结果,确定目标邮件不是垃圾邮件时,说明目标邮件不是可能性较高的垃圾邮件,但是也存在属于垃圾邮件的可能,这种情况下,通过对目标邮件的正文进行特征提取,得到目标邮件的文本特征,然后调用第一邮件识别模型对目标邮件的文本特征进行识别,可以结合邮件正文的文本特征,通过机器学习模型进一步对目标邮件进行精准识别。如此,可以更为精准地识别出垃圾邮件,提高了识别准确度,避免了对垃圾邮件的漏检
图6是本发明实施例提供的另一种垃圾邮件识别方法的流程图,该方法应用于服务器中,该服务器可以为上述邮件服务器或检测服务器等。参见图6,该方法包括:
步骤601:获取目标邮件的头信息,该头信息包括目标邮件的收件人信息、发件人信息、邮件主题或发件地址信息。
步骤602:调用邮件分类规则库,将头信息与该邮件分类规则库中的多个垃圾邮件规则分别进行比较,根据比较结果,判断目标邮件是否为垃圾邮件。
步骤603:如果根据比较结果,确定目标邮件为垃圾邮件,并将该确定结果作为目标邮件的最终识别结果。
在另一实施例中,当邮件分类规则库包括多个垃圾邮件规则和多个正常邮件规则时,还可以在根据该头信息和邮件分类规则库,确定目标邮件为垃圾邮件或正常邮件时,将确定结果作为目标邮件的最终识别结果。
步骤604:如果根据比较结果,确定目标邮件不是垃圾邮件,则对目标邮件的正文进行特征提取,得到目标邮件的文本特征。
在另一实施例中,当邮件分类规则库包括多个垃圾邮件规则和多个正常邮件规则时,还可以在根据该头信息和邮件分类规则库确定目标邮件不是垃圾邮件和正常邮件时,对目标邮件的正文进行特征提取,得到目标邮件的文本特征,然后根据目标邮件的文本特征,进一步识别目标邮件是否为垃圾邮件。
步骤605:调用第一邮件识别模型对目标邮件的文本特征进行识别,输出第一识别结果。
其中,第一邮件识别模型用于根据任一邮件的文本特征,识别该邮件是否为垃圾邮件。也即是,第一识别结果包括垃圾邮件或正常邮件。
需要说明的是,步骤501-505的实现方法与上述步骤401-405同理,具体实现过程可以参考上述步骤401-405的相关描述,本发明实施例在此不再赘述。
步骤606:调用第二邮件识别模型对目标邮件的文本特征进行识别,输出第二识别结果。
其中,第二邮件识别模型也用于根据任一邮件的文本特征,识别该邮件是否为垃圾邮件,第二识别结果也包括垃圾邮件或正常邮件。但是,第二邮件识别模型和第一邮件识别模型的模型算法不同,属于两种不同的机器学习模型。例如,第一邮件识别模型为CNN模型,第二邮件识别模型为LSTM模型。或者,第一邮件识别模型为LSTM模型,第二邮件识别模型为CNN模型。当然,第一邮件识别模型和第二邮件识别模型也可以为其他机器学习模型,只要保证两者的模型算法不同即可,本发明实施例对此不做限定。
需要说明的是,在上述图4实施例中,得到目标邮件的文本特征之后,仅需调用一个邮件识别模型来对目标邮件是否为垃圾邮件作进一步识别,而与上述图4实施例不同的是,在本发明实施例中,在得到目标邮件的文本特征之后,可以分别调用两种邮件识别模型,即第一邮件识别模型和第二邮件识别模型,然后通过这两种邮件识别模型综合对目标邮件是否为垃圾邮件进行识别,如此,进一步了提高邮件识别的准确性。
另外,为了得到第一邮件识别模型和第二邮件识别模型,需要预先获取多个样本数据,并根据多个样本数据对待训练识别模型进行训练。在一个实施例中,第一邮件识别模型和第二邮件识别模型的训练过程可以包括:获取多个垃圾邮件样本和多个正常邮件样本;对该多个垃圾邮件样本的正文进行特征提取,得到该多个垃圾邮件样本的文本特征,以及对该多个正常邮件样本的正文进行特征提取,得到该多个正常邮件样本的文本特征;根据该多个垃圾邮件样本和该多个正常邮件样本的文本特征,对第一待训练邮件识别模型进行训练,得到该第一邮件识别模型,以及根据该多个垃圾邮件样本和该多个正常邮件样本的文本特征,对第二待训练邮件识别模型进行训练,得到第二邮件识别模型。
其中,根据该多个垃圾邮件样本和该多个正常邮件样本的文本特征,对第二待训练邮件识别模型进行训练的训练方法,与上述步骤405中所述的根据该多个垃圾邮件样本和该多个正常邮件样本的文本特征,对第一待训练邮件识别模型进行训练的训练方法同理,具体训练过程可以参考上述步骤405的相关描述,本发明实施例在此不再赘述。
以第一邮件识别模型为CNN模型,第二邮件识别模型为LSTM模型为例,图7是本发明实施例提供的一种邮件识别模型的训练阶段示意图,如图7所示,第一邮件识别模型和第二邮件识别模型在训练阶段识别垃圾邮件的准确率均可达到99%以上,且损失率均可控制在1%以下,也即是,这两种邮件识别模型均可对垃圾邮件进行准确识别。其中,损失率用于衡量模型识别的损失和错误程度,与准确率呈反比,准确度越高,损失率越低。
进一步地,利用该多个垃圾邮件样本和该多个正常邮件样本训练邮件识别模型的同时,还可以利用该多个垃圾邮件样本和该多个正常邮件样本,确定邮件分类规则库。在一个实施例中,参见图8,对邮件样本的处理流程可以包括如下步骤:
1、获取样本集合,样本集合包括多个垃圾邮件样本和该多个正常邮件样本。
2、对样本集合进行预处理。具体地,对于该多个垃圾邮件样本和该多个正常邮件样本中的每个邮件样本,一方面,提取每个邮件样本的头信息,另一方面,对每个邮件样本的正文进行特征提取,得到每个邮件样本的文本特征。
3、规则库更新和模型训练。具体地,一方面,对该多个垃圾邮件样本和该多个正常邮件样本的头信息分别进行统计,以归纳出多个垃圾邮件规则和多个正常邮件规则,并根据归纳出的多个垃圾邮件规则和多个正常邮件规则,对初始规则库进行更新。另一方面,利用该多个垃圾邮件样本和该多个正常邮件样本的文本特征,分别对第一待训练识别模型和第二待训练识别模型进行训练。
4、规则库输出和模型输出。一方面,将对初始规则库进行更新得到的邮件分类规则库进行输出,另一方面,将对第一待训练识别模型进行训练得到的第一邮件识别模型,以及对第二待训练识别模型进行训练得到的第二邮件识别模型进行输出。
步骤607:根据第一识别结果和第二识别结果,确定目标邮件是否为垃圾邮件,并将该确定结果作为目标邮件的邮件识别结果。
也即是,可以根据两种具有不同模型算法的邮件识别模型的识别结果,综合确定目标邮件是否为垃圾邮件,提高了邮件识别的准确性。
具体地,根据第一识别结果和第二识别结果,确定目标邮件是否为垃圾邮件包括:若第一识别结果和第二识别结果均为垃圾邮件,则确定目标邮件为垃圾邮件;若第一识别结果和第二识别结果均为正常邮件,或第一识别结果和第二识别结果不一致,则确定目标邮件为正常邮件。
若第一识别结果和第二识别结果不一致,说明有一个邮件识别模型将目标邮件识别为正常邮件,目标邮件有可能是正常邮件,因此,为了避免将可能是正常邮件的目标邮件拦截或放置到垃圾邮箱中,导致用户无法及时接收或查看到目标邮件,本发明实施例中可以先将这种目标邮件判定为正常邮件。
需要说明的是,本发明实施例仅是以在第一识别结果和第二识别结果不一致时,将目标邮件判定为正常邮件为例,而在其他实现方式中,当第一识别结果和第二识别结果不一致时,还可以判定目标邮件为垃圾邮件,或者采用其他方式进行处理,本发明实施例对此不做限定。
进一步地,若第一识别结果和第二识别结果不一致,说明有一个邮件识别模型的识别结果是错误的,因此,为了提高两个邮件识别模型的准确度,当两个邮件识别模型的识别结果不一致时,在确定目标邮件为正常邮件之后,还可以获取目标邮件的真实邮件类别;若该真实邮件类别和第一识别结果不一致,则根据目标邮件的真实邮件类别和文本特征,对第一邮件识别模型进行训练;若该真实邮件类别和第二识别结果不一致,则根据目标邮件的真实邮件类别和文本特征,对第二邮件识别模型进行训练。其中,真实邮件类别包括垃圾邮件和正常邮件。
通过对识别结果和目标邮件的真实邮件类别不一致的邮件识别模型进行训练,可以使得该邮件识别模型能够在训练过程中进一步进行学习和完善,避免对同类邮件再次识别错误,提高了后续识别的准确度。
本发明实施例中,通过先获取目标邮件的头信息,并调用邮件分类规则库,将头信息与该邮件分类规则库中的多个垃圾邮件规则分别进行比较,可以快速地确定目标邮件是否为可能性较高的垃圾邮件,也即是,可以快速地对目标邮件进行预判。当根据比较结果,确定目标邮件不是垃圾邮件时,说明目标邮件不是可能性较高的垃圾邮件,但是也存在属于垃圾邮件的可能,这种情况下,通过对目标邮件的正文进行特征提取,得到目标邮件的文本特征,然后调用第一邮件识别模型对目标邮件的文本特征进行识别,并调用第二邮件识别模型对目标邮件的文本特征进行识别,可以结合邮件正文的文本特征,通过两种机器学习模型进一步对目标邮件进行精准识别。本发明通过先利用邮件的头信息和邮件分类规则库进行预判,再利用邮件的文本特征和邮件识别模型进一步进行识别,且利用两种不同的邮件识别模型综合进行识别,能够更为精准地识别出垃圾邮件,提高了识别准确度,避免了对垃圾邮件的漏检。
图9是本发明实施例提供的一种垃圾邮件识别装置的结构示意图,如图9所示,该装置包括第一获取模块901、第一特征提取模块902、第一识别模型903和第一确定模块904。
第一获取模块901,用于获取目标邮件的头信息,该头信息包括该目标邮件的收件人信息、发件人信息、邮件主题或发件地址信息;
第一比较模块902,用于调用邮件分类规则库,将所述头信息与所述邮件分类规则库中的多个垃圾邮件规则分别进行比较;
第一特征提取模块903,用于如果根据比较结果,确定该目标邮件不是垃圾邮件,则对该目标邮件的正文进行特征提取,得到该目标邮件的文本特征;
第一识别模块904,用于调用第一邮件识别模型对目标邮件的文本特征进行识别,输出第一识别结果,该第一邮件识别模型用于根据任一邮件的文本特征,识别该邮件是否为垃圾邮件;
第一确定模块905,用于根据该第一识别结果,确定该目标邮件是否为垃圾邮件。
可选地,第一特征提取模块903包括:
分词处理单元,用于对该目标邮件的正文进行分词处理,得到多个分词;
关键字提取单元,用于对该多个分词进行关键词提取,得到多个关键词;
词嵌入处理单元,用于对该多个关键词进行词嵌入处理,得到数字矩阵;
确定单元,用于将该数字矩阵确定为该目标邮件的文本特征。
可选地,该装置还包括:
第二识别模块,用于调用第二邮件识别模型对目标邮件的文本特征进行识别,输出第二识别结果,该第二邮件识别模型用于根据任一邮件的文本特征,识别该邮件是否为垃圾邮件,且该第二邮件识别模型和该第一邮件识别模型的模型算法不同;
该第一确定模块用于:
若该第一识别结果和该第二识别结果均为垃圾邮件,则确定该目标邮件为垃圾邮件;
若该第一识别结果和该第二识别结果均为正常邮件,或该第一识别结果和该第二识别结果不一致,则确定该目标邮件为正常邮件。
可选地,该装置还包括:
第二获取模块,用于获取该目标邮件的真实邮件类别,该真实邮件类别包括垃圾邮件和正常邮件;
第一训练模块,用于若该真实邮件类别和该第一识别结果不一致,则根据该目标邮件的真实邮件类别和文本特征,对该第一邮件识别模型进行训练;
第二训练模块,用于若该真实邮件类别和该第二识别结果不一致,则根据该目标邮件的真实邮件类别和文本特征,对该第二邮件识别模型进行训练。
可选地,该第一邮件识别模型为卷积神经网络CNN模型,该第二邮件识别模型为长短期记忆网络LSTM模型。
可选地,该装置还包括:
第二确定模块,用于当该头信息满足该邮件分类规则库中的至少一个垃圾邮件规则,且该至少一个垃圾邮件规则对应的分数之和小于第一分数阈值时,或者,当该头信息不满足该邮件分类规则库中的任一垃圾邮件规则时,确定该目标邮件不是垃圾邮件。
可选地,该邮件分类规则库还包括多个正常邮件规则;
第二比较模块,用于调用邮件分类规则库,将头信息与该邮件分类规则库中的多个垃圾邮件规则和多个正常邮件规则分别进行比较;
第一特征提取模块903,还用于如果根据比较结果,确定该目标邮件不是垃圾邮件和正常邮件,则对该目标邮件的正文进行特征提取,得到该目标邮件的文本特征。
可选地,该装置还包括:
第三确定模块,用于当该头信息满足该邮件分类规则库中的至少一个垃圾邮件规则,且该至少一个垃圾邮件规则对应的分数之和小于第一分数阈值时,或者,当该头信息满足该邮件分类规则库中的至少一个正常邮件规则,且该至少一个正常邮件规则对应的分数之和小于第二分数阈值时,或者,当该头信息不满足该邮件分类规则库中的任一垃圾邮件规则,且不满足该邮件分类规则库中的任一正常邮件规则时,确定该目标邮件不是垃圾邮件和正常邮件。
可选地,该装置还包括:
第三获取模块,用于获取多个垃圾邮件样本和多个正常邮件样本;
第二特征提取模块,用于对该多个垃圾邮件样本的正文进行特征提取,得到该多个垃圾邮件样本的文本特征,以及对该多个正常邮件样本的正文进行特征提取,得到该多个正常邮件样本的文本特征;
第三训练模块,用于根据该多个垃圾邮件样本和该多个正常邮件样本的文本特征,对第一待训练邮件识别模型进行训练,得到该第一邮件识别模型。
可选地,该装置还包括:
第四训练模块,用于根据该多个垃圾邮件样本和该多个正常邮件样本的文本特征,对第二待训练邮件识别模型进行训练,得到第二邮件识别模型。
本发明实施例中,通过先获取目标邮件的头信息,并调用邮件分类规则库,将头信息与该邮件分类规则库中的多个垃圾邮件规则分别进行比较,可以快速地确定目标邮件是否为可能性较高的垃圾邮件,也即是,可以快速地对目标邮件进行预判。当根据比较结果,确定目标邮件不是垃圾邮件时,说明目标邮件不是可能性较高的垃圾邮件,但是也存在属于垃圾邮件的可能,这种情况下,通过对目标邮件的正文进行特征提取,得到目标邮件的文本特征,然后调用第一邮件识别模型对目标邮件的文本特征进行识别,可以结合邮件正文的文本特征,通过机器学习模型进一步对目标邮件进行精准识别。如此,可以更为精准地识别出垃圾邮件,提高了识别准确度,避免了对垃圾邮件的漏检。
需要说明的是:上述实施例提供的垃圾邮件识别装置在对识别垃圾邮件时,仅以上述各功能模块的划分进行举例说明,实际应用中,可以根据需要而将上述功能分配由不同的功能模块完成,即将装置的内部结构划分成不同的功能模块,以完成以上描述的全部或者部分功能。另外,上述实施例提供的垃圾邮件识别装置与垃圾邮件识别方法实施例属于同一构思,其具体实现过程详见方法实施例,这里不再赘述。
图10是本发明实施例提供的一种服务器1000的结构示意图,该服务器1000可因配置或性能不同而产生比较大的差异,可以包括一个或一个以上处理器(centralprocessing units,CPU)1001和一个或一个以上的存储器1002,其中,所述存储器1002中存储有至少一条指令,所述至少一条指令由所述处理器1001加载并执行以实现上述各个方法实施例提供的应用耗电监控方法。当然,该服务器1000还可以具有有线或无线网络接口、键盘以及输入输出接口等部件,以便进行输入输出,该服务器1000还可以包括其他用于实现设备功能的部件,在此不做赘述。
在示例性实施例中,还提供了一种计算机可读存储介质,例如包括指令的存储器,上述指令可由上述终端或服务器中的处理器执行以完成上述实施例中的应用耗电监控方法。例如,所述计算机可读存储介质可以是ROM、随机存取存储器(RAM)、CD-ROM、磁带、软盘和光数据存储设备等。
本领域普通技术人员可以理解实现上述实施例的全部或部分步骤可以通过硬件来完成,也可以通过程序来指令相关的硬件完成,所述的程序可以存储于一种计算机可读存储介质中,上述提到的存储介质可以是只读存储器,磁盘或光盘等。
以上所述仅为本发明的较佳实施例,并不用以限制本发明,凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (15)

1.一种垃圾邮件识别方法,其特征在于,所述方法包括:
获取目标邮件的头信息,所述头信息包括所述目标邮件的收件人信息、发件人信息、邮件主题或发件地址信息;
调用邮件分类规则库,将所述头信息与所述邮件分类规则库中的多个垃圾邮件规则分别进行比较;
如果根据比较结果,确定所述目标邮件不是垃圾邮件,则对所述目标邮件的正文进行特征提取,得到所述目标邮件的文本特征;
调用第一邮件识别模型对所述目标邮件的文本特征进行识别处理,输出第一识别结果,所述第一邮件识别模型用于根据任一邮件的文本特征,识别所述邮件是否为垃圾邮件;
调用第二邮件识别模型对所述目标邮件的文本特征进行识别处理,输出第二识别结果,所述第二邮件识别模型用于根据任一邮件的文本特征,识别所述邮件是否为垃圾邮件,且所述第二邮件识别模型和所述第一邮件识别模型的模型算法不同;
根据所述第一识别结果和所述第二识别结果,确定所述目标邮件是否为垃圾邮件。
2.如权利要求1所述的方法,其特征在于,所述对所述目标邮件的正文进行特征提取,得到所述目标邮件的文本特征,包括:
对所述目标邮件的正文进行分词处理,得到多个分词;
对所述多个分词进行关键词提取,得到多个关键词;
对所述多个关键词进行词嵌入处理,得到数字矩阵;
将所述数字矩阵确定为所述目标邮件的文本特征。
3.如权利要求1所述的方法,其特征在于,所述根据所述第一识别结果和第二识别结果,确定所述目标邮件是否为垃圾邮件,包括:
若所述第一识别结果和所述第二识别结果均为垃圾邮件,则确定所述目标邮件为垃圾邮件;
若所述第一识别结果和所述第二识别结果均为正常邮件,或所述第一识别结果和所述第二识别结果不一致,则确定所述目标邮件为正常邮件。
4.如权利要求3所述的方法,其特征在于,所述若所述第一识别结果和所述第二识别结果不一致,则确定所述目标邮件为正常邮件之后,还包括:
获取所述目标邮件的真实邮件类别,所述真实邮件类别包括垃圾邮件和正常邮件;
若所述真实邮件类别和所述第一识别结果不一致,则根据所述目标邮件的真实邮件类别和文本特征,对所述第一邮件识别模型进行训练;
若所述真实邮件类别和所述第二识别结果不一致,则根据所述目标邮件的真实邮件类别和文本特征,对所述第二邮件识别模型进行训练。
5.如权利要求3所述的方法,其特征在于,所述第一邮件识别模型为卷积神经网络CNN模型,所述第二邮件识别模型为长短期记忆网络LSTM模型。
6.如权利要求1所述的方法,其特征在于,所述根据比较结果,确定所述目标邮件不是垃圾邮件,包括:
当所述头信息满足所述邮件分类规则库中的至少一个垃圾邮件规则,且所述至少一个垃圾邮件规则对应的分数之和小于第一分数阈值时,或者,当所述头信息不满足所述邮件分类规则库中的任一垃圾邮件规则时,确定所述目标邮件不是垃圾邮件。
7.如权利要求1所述的方法,其特征在于,所述邮件分类规则库还包括多个正常邮件规则,所述方法还包括:
调用所述邮件分类规则库,将所述头信息与所述邮件分类规则库中的所述多个垃圾邮件规则和所述多个正常邮件规则分别进行比较;
如果根据比较结果,确定所述目标邮件不是垃圾邮件和正常邮件,则对所述目标邮件的正文进行特征提取,得到所述目标邮件的文本特征。
8.如权利要求7所述的方法,其特征在于,所述根据比较结果,确定所述目标邮件不是垃圾邮件和正常邮件,包括:
当所述头信息满足所述邮件分类规则库中的至少一个垃圾邮件规则,且所述至少一个垃圾邮件规则对应的分数之和小于第一分数阈值时,或者,当所述头信息满足所述邮件分类规则库中的至少一个正常邮件规则,且所述至少一个正常邮件规则对应的分数之和小于第二分数阈值时,或者,当所述头信息不满足所述邮件分类规则库中的任一垃圾邮件规则,且不满足所述邮件分类规则库中的任一正常邮件规则时,确定所述目标邮件不是垃圾邮件和正常邮件。
9.如权利要求1-8任一所述的方法,其特征在于,所述调用第一邮件识别模型之前,还包括:
获取多个垃圾邮件样本和多个正常邮件样本;
对所述多个垃圾邮件样本的正文进行特征提取,得到所述多个垃圾邮件样本的文本特征,以及对所述多个正常邮件样本的正文进行特征提取,得到所述多个正常邮件样本的文本特征;
根据所述多个垃圾邮件样本和所述多个正常邮件样本的文本特征,对第一待训练邮件识别模型进行训练,得到所述第一邮件识别模型。
10.如权利要求9所述的方法,其特征在于,所述方法还包括:
根据所述多个垃圾邮件样本和所述多个正常邮件样本的文本特征,对第二待训练邮件识别模型进行训练,得到第二邮件识别模型。
11.一种垃圾邮件识别装置,其特征在于,所述装置包括:
第一获取模块,用于获取目标邮件的头信息,所述头信息包括所述目标邮件的收件人信息、发件人信息、邮件主题或发件地址信息;
第一比较模块,用于调用邮件分类规则库,将所述头信息与所述邮件分类规则库中的多个垃圾邮件规则分别进行比较;
第一特征提取模块,用于如果根据比较结果,确定所述目标邮件不是垃圾邮件,则对所述目标邮件的正文进行特征提取,得到所述目标邮件的文本特征;
第一识别模块,用于调用第一邮件识别模型对所述目标邮件的文本特征进行识别处理,输出第一识别结果,所述第一邮件识别模型用于根据任一邮件的文本特征,识别所述邮件是否为垃圾邮件;
第二识别模块,用于调用第二邮件识别模型对所述目标邮件的文本特征进行识别处理,输出第二识别结果,所述第二邮件识别模型用于根据任一邮件的文本特征,识别所述邮件是否为垃圾邮件,且所述第二邮件识别模型和所述第一邮件识别模型的模型算法不同;
第一确定模块,用于根据所述第一识别结果和所述第二识别结果,确定所述目标邮件是否为垃圾邮件。
12.如权利要求11所述的装置,其特征在于,所述第一特征提取模块包括:
分词处理单元,用于对所述目标邮件的正文进行分词处理,得到多个分词;
关键字提取单元,用于对所述多个分词进行关键词提取,得到多个关键词;
词嵌入处理单元,用于对所述多个关键词进行词嵌入处理,得到数字矩阵;
确定单元,用于将所述数字矩阵确定为所述目标邮件的文本特征。
13.如权利要求11所述的装置,其特征在于,所述第一确定模块用于:
若所述第一识别结果和所述第二识别结果均为垃圾邮件,则确定所述目标邮件为垃圾邮件;
若所述第一识别结果和所述第二识别结果均为正常邮件,或所述第一识别结果和所述第二识别结果不一致,则确定所述目标邮件为正常邮件。
14.一种服务器,其特征在于,所述服务器包括处理器和存储器,所述存储器中存储有至少一条指令、至少一段程序、代码集或指令集,所述指令、所述程序、所述代码集或所述指令集由所述处理器加载并执行以实现如权利要求1-10任一项所述的垃圾邮件识别方法。
15.一种计算机可读存储介质,其特征在于,所述存储介质中存储有至少一条指令、至少一段程序、代码集或指令集,所述指令、所述程序、所述代码集或所述指令集由处理器加载并执行以实现如权利要求1-10任一项所述的垃圾邮件识别方法。
CN201810799196.3A 2018-07-19 2018-07-19 垃圾邮件识别方法及装置 Active CN110149266B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201810799196.3A CN110149266B (zh) 2018-07-19 2018-07-19 垃圾邮件识别方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810799196.3A CN110149266B (zh) 2018-07-19 2018-07-19 垃圾邮件识别方法及装置

Publications (2)

Publication Number Publication Date
CN110149266A CN110149266A (zh) 2019-08-20
CN110149266B true CN110149266B (zh) 2022-06-24

Family

ID=67589222

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810799196.3A Active CN110149266B (zh) 2018-07-19 2018-07-19 垃圾邮件识别方法及装置

Country Status (1)

Country Link
CN (1) CN110149266B (zh)

Families Citing this family (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113132325A (zh) * 2019-12-31 2021-07-16 奇安信科技集团股份有限公司 邮件分类模型训练方法、装置以及计算机设备
CN113315741B (zh) * 2020-02-27 2022-11-22 深信服科技股份有限公司 检测方法及检测设备、存储介质
CN111753086A (zh) * 2020-06-11 2020-10-09 北京天空卫士网络安全技术有限公司 一种垃圾邮件识别方法和装置
CN111882379A (zh) * 2020-06-29 2020-11-03 南京意博软件科技有限公司 一种基于邮件的订单确认方法和装置
CN112039874B (zh) * 2020-08-28 2023-03-24 绿盟科技集团股份有限公司 一种恶意邮件的识别方法及装置
CN113051400A (zh) * 2021-03-31 2021-06-29 北京字节跳动网络技术有限公司 标注数据确定方法、装置、可读介质及电子设备
CN113343229A (zh) * 2021-06-30 2021-09-03 重庆广播电视大学重庆工商职业学院 一种基于人工智能的网络安全防护系统及方法
CN113746814B (zh) * 2021-08-17 2024-01-09 上海硬通网络科技有限公司 邮件处理方法、装置、电子设备及存储介质
CN116150684A (zh) * 2023-01-17 2023-05-23 中国科学院自动化研究所 基于注意力机制的触觉属性识别方法及装置

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102214320A (zh) * 2010-04-12 2011-10-12 宋威 神经网络训练方法及采用该方法的垃圾邮件过滤方法
CN102255922A (zh) * 2011-08-24 2011-11-23 山东师范大学 一种多层次的垃圾邮件智能过滤方法
CN103186845A (zh) * 2011-12-29 2013-07-03 盈世信息科技(北京)有限公司 一种垃圾邮件过滤方法
CN106096005A (zh) * 2016-06-23 2016-11-09 康佳集团股份有限公司 一种基于深度学习的垃圾邮件过滤方法及系统
CN106453423A (zh) * 2016-12-08 2017-02-22 黑龙江大学 一种基于用户个性化设置的垃圾邮件的过滤系统及方法

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
AUPQ363299A0 (en) * 1999-10-25 1999-11-18 Silverbrook Research Pty Ltd Paper based information inter face
CN107294834A (zh) * 2016-03-31 2017-10-24 阿里巴巴集团控股有限公司 一种识别垃圾邮件的方法和装置
CN107171948B (zh) * 2017-07-04 2020-08-25 彩讯科技股份有限公司 一种过滤垃圾邮件的方法、装置及邮件服务器

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102214320A (zh) * 2010-04-12 2011-10-12 宋威 神经网络训练方法及采用该方法的垃圾邮件过滤方法
CN102255922A (zh) * 2011-08-24 2011-11-23 山东师范大学 一种多层次的垃圾邮件智能过滤方法
CN103186845A (zh) * 2011-12-29 2013-07-03 盈世信息科技(北京)有限公司 一种垃圾邮件过滤方法
CN106096005A (zh) * 2016-06-23 2016-11-09 康佳集团股份有限公司 一种基于深度学习的垃圾邮件过滤方法及系统
CN106453423A (zh) * 2016-12-08 2017-02-22 黑龙江大学 一种基于用户个性化设置的垃圾邮件的过滤系统及方法

Also Published As

Publication number Publication date
CN110149266A (zh) 2019-08-20

Similar Documents

Publication Publication Date Title
CN110149266B (zh) 垃圾邮件识别方法及装置
US11544459B2 (en) Method and apparatus for determining feature words and server
CN106357618B (zh) 一种Web异常检测方法和装置
CN111738011A (zh) 违规文本的识别方法及装置、存储介质、电子装置
CN111460446B (zh) 基于模型的恶意文件检测方法及装置
US20170289082A1 (en) Method and device for identifying spam mail
CN109446299B (zh) 基于事件识别的搜索电子邮件内容的方法及系统
US11956196B2 (en) Bulk messaging detection and enforcement
CN110362826A (zh) 基于人工智能的期刊投稿方法、设备及可读存储介质
Kadir et al. Spam detection by using machine learning based binary classifier
Hosseinpour et al. An ensemble learning approach for sms spam detection
CN112039874B (zh) 一种恶意邮件的识别方法及装置
CN111259207A (zh) 短信的识别方法、装置及设备
CN115858776B (zh) 一种变体文本分类识别方法、系统、存储介质和电子设备
CN113746814B (zh) 邮件处理方法、装置、电子设备及存储介质
CN112087473A (zh) 文档下载方法、装置、计算机可读存储介质和计算机设备
CN113095073B (zh) 语料标签生成方法、装置、计算机设备和存储介质
CN115238799A (zh) 基于ai随机森林恶意流量检测方法和系统
CN114330280A (zh) 敏感数据识别方法及装置
CN113255368A (zh) 针对文本数据进行情感分析的方法、装置及相关设备
CN113850283A (zh) 一种rcs消息的违规识别方法及装置
CN113298101A (zh) 数据报文识别方法、装置及系统
CN110263082A (zh) 数据库的数据分布分析方法、装置,电子设备及存储介质
Podorozhniak et al. Research Application of the Spam Filtering and Spammer Detection Algorithms on Social Media and Messengers
US11907658B2 (en) User-agent anomaly detection using sentence embedding

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant