CN109474509A - 垃圾邮件的识别方法和装置 - Google Patents

垃圾邮件的识别方法和装置 Download PDF

Info

Publication number
CN109474509A
CN109474509A CN201710798951.1A CN201710798951A CN109474509A CN 109474509 A CN109474509 A CN 109474509A CN 201710798951 A CN201710798951 A CN 201710798951A CN 109474509 A CN109474509 A CN 109474509A
Authority
CN
China
Prior art keywords
address
mail
domain name
spam
target
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201710798951.1A
Other languages
English (en)
Other versions
CN109474509B (zh
Inventor
黄福昌
李玉杰
金永刚
贾小华
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
BEIJING 263 ENTERPRISE COMMUNICATION Co Ltd
Original Assignee
BEIJING 263 ENTERPRISE COMMUNICATION Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by BEIJING 263 ENTERPRISE COMMUNICATION Co Ltd filed Critical BEIJING 263 ENTERPRISE COMMUNICATION Co Ltd
Priority to CN201710798951.1A priority Critical patent/CN109474509B/zh
Publication of CN109474509A publication Critical patent/CN109474509A/zh
Application granted granted Critical
Publication of CN109474509B publication Critical patent/CN109474509B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L51/00User-to-user messaging in packet-switching networks, transmitted according to store-and-forward or real-time protocols, e.g. e-mail
    • H04L51/21Monitoring or handling of messages
    • H04L51/212Monitoring or handling of messages using filtering or selective blocking
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L51/00User-to-user messaging in packet-switching networks, transmitted according to store-and-forward or real-time protocols, e.g. e-mail
    • H04L51/42Mailbox-related aspects, e.g. synchronisation of mailboxes
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L61/00Network arrangements, protocols or services for addressing or naming
    • H04L61/45Network directories; Name-to-address mapping
    • H04L61/4505Network directories; Name-to-address mapping using standardised directories; using standardised directory access protocols
    • H04L61/4511Network directories; Name-to-address mapping using standardised directories; using standardised directory access protocols using domain name system [DNS]

Abstract

本发明提供一种垃圾邮件的识别方法和装置。本发明垃圾邮件的识别方法,包括:对接收到的邮件进行解析,获取邮件中链接地址的域名;根据域名对应的IP地址记录,获取链接地址对应的IP地址;判断垃圾邮件样本中是否包括IP地址,其中,垃圾邮件样本中存储有不同的垃圾邮件中链接地址对应的IP地址;若垃圾邮件样本中包括IP地址,则识别邮件为垃圾邮件。本发明提供的方法及装置能够基于不同垃圾邮件中链接地址对应的IP地址相同的特征对邮件进行识别,能够提高垃圾邮件的识别率。

Description

垃圾邮件的识别方法和装置
技术领域
本发明涉及垃圾邮件识别技术,尤其涉及一种垃圾邮件的识别方法和装置。
背景技术
随着互联网的广泛普及,邮件已经成为常用的通信工具之一,但用户常会收到带有链接地址的垃圾邮件,一般这种垃圾邮件的链接地址最终会指向一个色情网站、赌博网站、药品网站或交友网站等,常常会引导用户去链接地址对应的网站进行访问、注册和购买等行为,从而严重影响用户对正常邮件的查收和处理。因此,识别出垃圾邮件越来越重要。
由于发送者发生带链接地址的垃圾邮件时会经常改变链接对应的域名,因此,目前垃圾邮件的识别方法是通过关键字的方式识别链接地址中的域名,从而识别出垃圾邮件。
然而,这种识别方法须要先获取垃圾邮件的样本提取关键字后,才能识别垃圾邮件。一旦垃圾邮件变种,链接地址对应的域名发生变化,就无法识别垃圾邮件,导致识别垃圾邮件的时效性差。
发明内容
本发明提供一种垃圾邮件的识别方法和装置,以解决现有基于关键字的方式的垃圾邮件的识别方法由于需要首先获取垃圾邮件样本而导致识别的时效性低的问题。
本发明提供一种垃圾邮件的识别方法,包括:
对接收到的邮件进行解析,获取所述邮件中链接地址的域名;
根据所述域名对应的IP地址记录,获取所述链接地址对应的IP地址;
判断垃圾邮件样本中是否包括所述IP地址,其中,所述垃圾邮件样本中存储有不同的垃圾邮件中链接地址对应的IP地址;
若所述垃圾邮件样本中包括所述IP地址,则识别所述邮件为垃圾邮件。
可选地,若所述垃圾邮件样本中不包括所述IP地址,所述方法还包括:
确定当前邮件中链接地址对应的IP地址为目标IP地址;
根据所述目标IP地址、所述当前邮件中链接地址的域名以及已接收到的邮件中链接地址的域名和对应的IP地址,确定所述目标IP地址对应的域名的个数;
判断所述目标IP地址对应的域名的个数是否大于预设阀值;
若所述个数大于预设阈值,则识别所述邮件为垃圾邮件,并将所述目标IP地址写入到所述垃圾邮件样本中。
可选地,若所述目标IP地址所对应的域名的个数小于预设阀值,所述方法还包括:
根据所述链接地址,获取网页内容;
判断所述网页内容是否包括预设关键字;
若所述网页内容包括预设关键字,则识别所述邮件为垃圾邮件,并将所述目标IP地址写入到所述垃圾邮件样本中;
若所述网页内容不包括预设关键字,则识别所述邮件为正常邮件。
可选地,所述判断所述目标IP地址对应的域名的个数是否大于预设阀值,包括:
判断临时缓存中是否存储有与所述目标IP地址相同的IP地址,所述临时缓存中存储有所述已接收到的邮件中链接地址对应的不同的IP地址和各所述IP地址对应的域名集合;
若是,则将所述当前邮件中链接地址的域名写入到与所述目标IP地址相同的IP地址对应的域名集合中,并判断所述目标IP地址所对应的域名的个数是否大于预设阀值;
若否,则将所述当前邮件中链接地址对应的IP地址和域名写入到所述临时缓存中,并判断所述目标IP地址所对应的域名的个数是否大于预设阀值。
可选地,所述方法还包括:
获取所述临时缓存中写入IP地址的写入时刻距当前时刻的间隔时长;
判断所述间隔时长是否大于预设时长;
若是,则释放所述临时缓存。
本发明提供一种垃圾邮件的识别装置,包括:
获取模块,用于对接收到的邮件进行解析,获取所述邮件中链接地址的域名;
所述获取模块,还用于根据所述域名对应的IP地址记录,获取所述链接地址对应的IP地址;
判断模块,用于判断垃圾邮件样本中是否包括所述IP地址,其中,所述垃圾邮件样本中存储有不同的垃圾邮件中链接地址对应的IP地址;
识别模块,用于所述垃圾邮件样本中包括所述IP地址时,识别所述邮件为垃圾邮件。
可选地,
确定模块,用于在所述垃圾邮件样本中不包括所述IP地址时,确定当前邮件中链接地址对应的IP地址为目标IP地址;
所述确定模块,还用于根据所述目标IP地址、所述当前邮件中链接地址的域名以及已接收到的邮件中链接地址的域名和对应的IP地址,确定所述目标IP地址对应的域名的个数;
所述判断模块,还用于判断所述目标IP地址所对应的域名的个数是否大于预设阀值;
所述识别模块,还用于在所述个数大于预设阈值时,识别所述邮件为垃圾邮件,并将所述目标IP地址写入到所述垃圾邮件样本中。
可选地,
所述获取模块,还用于在所述目标IP地址所对应的域名的个数小于预设阀值时,根据所述链接地址,获取网页内容;
所述判断模块,还用于判断所述网页内容是否包括预设关键字;
所述识别模块,还用于在所述网页内容包括预设关键字时,识别所述邮件为垃圾邮件,并将所述目标IP地址写入到所述垃圾邮件样本中;
所述识别模块,还用于在所述网页内容不包括预设关键字时,识别所述邮件为正常邮件。
可选地,
所述判断模块,还用于判断临时缓存中是否存储有与所述当前邮件中IP地址相同的IP地址,所述临时缓存中存储有所述已接收到的邮件中链接地址对应的不同的IP地址和各所述IP地址对应的域名集合;
所述识别模块,还用于在所述判断模块的判断结果为是时,将所述当前邮件中链接地址的域名写入到与所述目标IP地址相同的IP地址对应的域名集合中,并判断所述目标IP地址所对应的域名的个数是否大于预设阀值;
所述识别模块,还用于在所述判断模块的判断结果为否时,将所述当前邮件中链接地址对应的IP地址和域名写入到所述临时缓存中,并判断所述目标IP地址所对应的域名的个数是否大于预设阀值。
可选地,所述装置还包括:
所述获取模块,还用于获取所述临时缓存中写入IP地址的写入时刻距当前时刻的间隔时长;
所述判断模块,还用于判断所述间隔时长是否大于预设时长;
释放模块,用于在所述间隔时长大于预设时长时,释放所述临时缓存。
本发明提供的垃圾邮件的识别方法和装置,通过对接收到的邮件进行解析,获得邮件中链接地址的域名,再根据域名对应的IP地址记录确定链接地址对应的IP地址,接着判断链接地址对应的IP地址是否存在于垃圾邮件样本中,其中,垃圾邮件样本中存储有不同的垃圾邮件中链接地址对应的IP地址。若邮件中链接地址对应的IP地址存在于垃圾邮件样本中,则识别邮件为垃圾邮件。本实施例以不同垃圾邮件中的链接地址所对应的IP地址相同为特征,通过识别链接地址对应的IP地址是否存在垃圾邮件样本中来判断接收到的邮件是否为垃圾邮件。本发明解决了现有基于关键字的垃圾邮件的识别方法时效性差和准确率低的问题,且识别过程省时省力,易于实现,还能提高垃圾邮件的识别率。
附图说明
图1为本发明提供的垃圾邮件的识别方法的场景示意图;
图2为本发明提供的垃圾邮件的识别方法的流程图一;
图3为本发明提供的垃圾邮件的识别方法的流程图二;
图4为本发明提供的垃圾邮件的识别方法中一种存储方式的流程图;
图5为本发明提供的垃圾邮件的识别方法中一种释放方式的流程图;
图6为本发明提供的垃圾邮件的识别装置的结构示意图。
具体实施方式
图1为本发明提供的垃圾邮件的识别方法的场景示意图,如图1所示,邮件是由外域服务器或本域服务器发送的邮件,再由邮件服务器进行接收。通常,发送者在外域服务器或本域服务器上会发送大量的垃圾邮件。对于带有链接地址的垃圾邮件,发送者会通过变换链接地址对应的域名来避免邮件被拦截,给垃圾邮件的识别方法带来了很大的难度。进一步地,由于这种邮件的最终目的是链接地址,进而会引导用户进行访问、注册或购买等行为。且链接地址对应域名虽然变化,但链接地址对应域名对应的IP地址通常是固定或相对固定的,因此,本实施例可利用这种垃圾邮件的链接地址所指向的服务器的IP地址固定来对识别邮件,以识别出邮件是垃圾邮件还是正常邮件。
图2为本发明提供的垃圾邮件的识别方法的流程图一,本实施例的执行主体可以为图1所示的邮件服务器,如图2所示,本实施例垃圾邮件的识别方法包括:
S101、对接收到的邮件进行解析,获取邮件中链接地址的域名。
S102、根据域名对应的IP地址记录,获取链接地址对应的IP地址。
具体地,由于带链接的垃圾邮件的最终目的是为了让用户访问该链接地址,并进行注册或购买等行为,且发送者会发送大量只变换链接地址对应的域名而未改变域名对应的IP地址的垃圾邮件,因此,本实施例可对接收到的邮件进行解析,得到邮件中链接地址的域名。且域名对应的IP地址记录可用来得到域名对应的IP地址,即链接地址对应的IP地址。其中IP地址记录可为A记录,本技术领域人员可以理解,A记录是用来指定域名对应的IP地址记录的。因此,本实施例便可通过域名对应的A记录得到域名对应的IP地址,即链接地址对应的IP地址。本实施例不限于通过A记录得到链接地址对应的IP地址。
S103、判断垃圾邮件样本中是否包括IP地址,其中,垃圾邮件样本中存储有不同的垃圾邮件中链接地址对应的IP地址。
S104、若垃圾邮件样本中包括IP地址,则识别邮件为垃圾邮件。
具体地,本实施例可直接利用垃圾邮件样本中存储的IP地址判断邮件是否为垃圾邮件。由于垃圾邮件样本存储着不同垃圾邮件中链接地址对应的IP地址,因此,在确定某邮件中链接地址对应的IP地址之后,便可在垃圾邮件样本中进行搜索,看能否找到相同的IP地址。当该邮件中链接地址对应的IP地址存在于垃圾邮件样本中时,本实施例便可快速、准确的识别出该邮件为垃圾邮件。
本实施例提供的垃圾邮件的识别方法,通过对接收到的邮件进行解析,获得邮件中链接地址的域名,再根据域名对应的IP地址记录确定链接地址对应的IP地址,接着判断链接地址对应的IP地址是否存在于垃圾邮件样本中,其中,垃圾邮件样本中存储有不同的垃圾邮件中链接地址对应的IP地址。若邮件中链接地址对应的IP地址存在于垃圾邮件样本中,则识别邮件为垃圾邮件。本实施例以不同垃圾邮件中的链接地址所对应的IP地址相同为特征,通过识别链接地址对应的IP地址是否存在垃圾邮件样本中来判断接收到的邮件是否为垃圾邮件。本实施例解决了现有基于关键字的垃圾邮件的识别方法时效性差和准确率低的问题,且识别过程省时省力,易于实现,还能提高垃圾邮件的识别率。
现有的基于关键字的垃圾邮件的识别方法往往需要通过用户举报等方式中得到垃圾邮件样本,进而才能够识别垃圾邮件,时效性会严重滞后。然而本实施例可将识别过程化被动为主动,垃圾邮件样本可通过接收到的邮件获得,而不需事先由用户举报等方式获得,进而能够及时有效的过滤垃圾邮件。下面结合图3,对本实施例垃圾邮件的识别方法的具体实现方式进行详细说明。图3为本发明提供的垃圾邮件的识别方法的流程图二,如图3所示,该方法包括:
S201、对接收到的邮件进行解析,获取邮件中链接地址的域名。
S202、根据域名对应的IP地址记录,获取链接地址对应的IP地址。
S203、判断垃圾邮件样本中是否包括IP地址,其中,垃圾邮件样本中存储有不同的垃圾邮件中链接地址对应的IP地址。若是,则执行S204,若否,则执行S205。
S204、识别邮件为垃圾邮件。
其中,S201、S202、S203与S204与图2实施例中的S101、S102、S103与S104等实现方式类似,本实施例此处不再赘述。
S205、确定当前邮件中链接地址对应的IP地址为目标IP地址。
S206、根据目标IP地址、当前邮件中链接地址的域名以及已接收到的邮件中链接地址的域名和对应的IP地址,确定目标IP地址对应的域名的个数。
S207、判断目标IP地址对应的域名的个数是否大于预设阀值。若是,则执行S208,若否,则执行S209。
具体地,本实施例中已接收到的邮件是由邮件服务器接收到当前邮件之前的邮件,本实施例可将已接收到的邮件中链接地址的域名和对应的IP地址保存在临时缓存或数据库中。本实施例对域名和IP地址的具体存储形式对此不做限定。
进一步地,在邮件服务器接收到当前邮件时,本实施例获取当前邮件中链接地址域名和对应的IP地址,将链接地址域名作为第一个数。本实施例还可将当前邮件中链接地址对应的IP地址确定为目标IP地址。若在已收到的邮件中链接地址对应的IP地址中,找到与目标IP地址相同的IP地址,便可根据此目标IP地址将已收到的邮件中链接地址的域名的个数作为第二个数。若在已收到的邮件中链接地址对应的IP地址中,没有与目标IP地址相同的IP地址,根据此目标IP地址知道已收到的邮件中链接地址的域名的个数为0,可将0作为第二个数。接着,本实施例可将第一个数和第二个数之和作为目标IP地址对应的域名的个数。本实施例便可判断目标IP地址对应的域名的个数是否大于预设阈值,其中,预设阈值可根据经验进行设定,本实施例对此不做限定。
S208、识别邮件为垃圾邮件,并将目标IP地址写入到垃圾邮件样本中。
具体地,由于目标IP地址所对应的域名个数达到了预设阀值,因此,本实施例可确定与目标IP地址对应的邮件为垃圾邮件。为了便于提高对接下来邮件的识别速率,本实施例可将目标IP地址写入到垃圾邮件样本中,以便对接下来接收到的邮件进行识别,省时省力且识别率能够提高。
进一步地,当目标IP地址所对应的域名个数未达到预设阀值时,本实施例可通过其他垃圾邮件的识别方法再次对邮件进行识别,以确定邮件是否为垃圾邮件。为了便于说明,本实施例可通过关键字的方式对邮件进行识别。
S209、根据链接地址,获取网页内容。
S210、判断网页内容是否包括预设关键字。若是,则执行S211,若否,则执行S212。
S211、识别邮件为垃圾邮件,并将目标IP地址写入到垃圾邮件样本中。
S212、识别邮件为正常邮件。
具体地,本实施例中可通过链接地址得到对应的网页内容,再判断网页内容是否包括预设关键字,其中关键字可根据实际情况而定,本实施例对此不做限定。当网页内容包括预设关键字时,识别出邮件为垃圾邮件,并将该邮件中链接地址对应的目标IP地址写入到垃圾邮件样本中,以便对后续接收到的邮件进行识别。当网页内容不包括预设关键字时,识别出邮件为正常邮件。
本实施例可结合其他垃圾邮件方法得到垃圾邮件样本,识别出的正常邮件还可采用其他垃圾邮件的识别方法进行再次识别,且本实施例中接收到的邮件可为其他垃圾邮件的识别方法识别出的正常邮件,以提高对垃圾邮件的识别准确率。而且,本实施例能够对接收到的邮件进行及时和快速的识别,以区分出是正常邮件还是垃圾邮件,且识别过程易于实现,不会依赖于事先由用户举报等方式获得的垃圾邮件样本。
在上述图3实施例的基础上,为了便于说明,本实施例可采用多种存储方式将已接收到的邮件中链接地址对应的IP地址和域名保存在临时缓存中。
一种可行的存储方式,如表1所示,本实施例具体可将邮件中链接地址对应的IP地址和域名这两者一组一组的存入到临时缓存中。例如,存入链接一对应的IP地址一和域名一,存入链接二对应的IP地址二和域名二,存入链接三对应的IP地址三和域名三,……,等等,其中IP地址一、IP地址二和IP地址三可能相同也可能不同。本实施例中无论邮件中链接地址对应的IP地址是否相同,都需将链接地址对应的IP地址和域名以一组组的形式直接存储到临时缓存中。
表1临时缓存中链接地址对应的IP地址和域名的存储方式一
IP地址一 域名一
IP地址二 域名二
IP地址三 域名三
…… ……
另一种可行的存储方式,如表2所示,本实施例还可将邮件中链接地址对应的不同的IP地址和各IP地址对应的域名以集合的方式存到临时缓存中,即相同的IP地址对应的域名写入一个集合中,不同的IP地址对应的域名写入到另一个集合中。例如,可将相同的IP地址对应的域名写入到相同IP地址集合中,将不同的IP地址对应的域名写入到不同IP地址集合中。例如,若域名一与域名二所对应的IP地址相同,均为IP地址一,则可将域名一、域名二放在IP地址一的集合中。若域名三与域名四所对应的IP地址相同,均为IP地址二,则可将域名三、域名四放在IP地址二的集合中。若域名五与域名六所对应的IP地址相同,均为IP地址三,则可将域名五、域名六放在IP地址三的集合中,等等。其中,IP地址一、IP地址二和IP地址三皆不相同。
表2临时缓存中链接地址对应的IP地址和域名的存储方式二
IP地址一 (域名一,域名二,……)
IP地址二 (域名三,域名四,……)
IP地址三 (域名五,域名六,……)
…… ……
进一步地,本实施例对链接地址对应的IP地址和域名的存储方式不做限定。为了方便说明,结合图4,本实施例S205中通过第二种存储方式将邮件中链接地址对应的IP地址和域名存到临时缓存中的具体实现方式进行详细说明。图4为本发明提供的垃圾邮件的识别方法中一种存储方式的流程图,如图4所示,该方法包括:
S301、判断临时缓存中是否存储有与目标IP地址相同的IP地址,临时缓存中存储有已接收到的邮件中链接地址对应的不同的IP地址和各IP地址对应的域名集合。若是,则执行S302;若否,则执行S303。
S302、将当前邮件中链接地址的域名写入到与目标IP地址相同的IP地址对应的域名集合中,并判断目标IP地址所对应的域名的个数是否大于预设阀值。
S303、将当前邮件中链接地址对应的IP地址和域名写入到临时缓存中,并判断目标IP地址所对应的域名的个数是否大于预设阀值。
具体地,由于临时缓存中已经存储了已接收到的邮件中链接地址对应的IP地址和对应的域名,因此,可直接判断临时缓存中是否存储有与当前邮件中链接地址对应的IP地址相同的IP地址,即目标IP地址。若临时缓存中有存储与目标IP地址相同的IP地址,则将当前邮件中链接地址对应的IP地址所对应的域名存储到相同IP地址对应的域名集合中,再计算目标IP地址对应的域名的个数。例如,当前邮件中链接地址对应的IP地址为A,将A作为目标IP地址,在已接收到的邮件中链接地址对应的IP地址中寻找A,当找到A后,将当前邮件中链接地址的域名的个数写入到目标IP地址对应的域名集合中,且计算当前邮件中链接地址的域名的个数与已接收到的邮件中链接地址对应的IP地址所对应的域名的个数的综合,将两者进行叠加,得到的总个数就是目标IP地址对应的域名的个数。
进一步地,若临时缓存中没有存储与目标IP地址相同的IP地址,则将当前邮件中链接地址对应的IP地址和域名均存到临时缓存中,则当前邮件中链接地址对应的IP地址所对应的域名的个数就为目标IP地址对应的域名的个数。
在上述图3实施例的基础上,由于临时缓存中存储着大量IP地址和域名,会占用较多的内存,严重影响识别垃圾邮件的速率,因此,为了加快垃圾邮件的识别速率,结合图5,对本实施例中释放临时缓存的具体过程进行详细说明。图5为本发明提供的垃圾邮件的识别方法中一种释放方式的流程图,如图5所示,该方法还包括:
S401、获取临时缓存中写入IP地址的写入时刻距当前时刻的间隔时长。
具体地,由于临时缓存会在预设时长之后释放变为空,因此,本实施例可会记录向空的临时缓存写入IP地址的写入时刻,再用当前时刻减去写入时刻得到间隔时长,这样随着时间的流逝,间隔时长会越来越大。
S402、判断间隔时长是否大于预设时长,若是,则执行S403;若否,则执行S404。
S403、释放临时缓存。
S404、返回执行S201接收邮件并对邮件进行解析,以获取邮件中链接地址的域名。
具体地,本实施例中预设时长可为经验设置,可为半天,也可为1个小时,本实施例对此不做限定。若间隔时长大于预设时长,则释放临时缓存,这样临时缓存中存储的IP地址和域名不会占用过多的内存资源,能够加快识别速率。若间隔时长小于预设时长,则不释放临时缓存,继续接收新的邮件执行S201,直至识别出该邮件是否为垃圾邮件还是正常邮件。
图6为本发明提供的垃圾邮件的识别装置的结构示意图,如图6所示,本实施例垃圾邮件的识别装置包括:
获取模块10,用于对接收到的邮件进行解析,获取所述邮件中链接地址的域名;
所述获取模块10,用于根据所述域名对应的IP地址记录,获取所述链接地址对应的IP地址;
判断模块20,用于判断垃圾邮件样本中是否包括所述IP地址,其中,所述垃圾邮件样本中存储有不同的垃圾邮件中链接地址对应的IP地址;
识别模块30,用于在所述垃圾邮件样本中包括所述IP地址时,识别所述邮件为垃圾邮件。
可选地,
确定模块40,用于在所述垃圾邮件样本中不包括所述IP地址时,确定当前邮件中链接地址对应的IP地址为目标IP地址;
所述确定模块40,还用于根据所述目标IP地址、所述当前邮件中链接地址的域名以及已接收到的邮件中链接地址的域名和对应的IP地址,确定所述目标IP地址对应的域名的个数;
所述判断模块20,还用于判断所述目标IP地址所对应的域名的个数是否大于预设阀值;
所述识别模块30,还用于在所述个数大于预设阈值时,识别所述邮件为垃圾邮件,并将所述目标IP地址写入到所述垃圾邮件样本中。
可选地,
所述获取模块10,还用于在所述目标IP地址所对应的域名的个数小于预设阀值时,根据所述链接地址,获取网页内容;
所述判断模块20,还用于判断所述网页内容是否包括预设关键字;
所述识别模块30,还用于在所述网页内容包括预设关键字时,识别所述邮件为垃圾邮件,并将所述目标IP地址写入到所述垃圾邮件样本中;
所述识别模块30,还用于在所述网页内容不包括预设关键字时,识别所述邮件为正常邮件。
可选地,
所述判断模块20,还用于判断临时缓存中是否存储有与所述当前邮件中链接地址对应的IP地址相同的IP地址,所述临时缓存中存储有所述已接收到的邮件中链接地址对应的不同的IP地址和各所述IP地址对应的域名集合;
所述识别模块30,还用于在所述判断模块的判断结果为是时,将所述当前邮件中链接地址的域名写入到与所述目标IP地址相同的IP地址对应的域名集合中,并判断所述目标IP地址所对应的域名的个数是否大于预设阀值;
所述识别模块30,还用于在所述判断模块的判断结果为否时,将所述当前邮件中链接地址对应的IP地址和域名写入到所述临时缓存中,并判断所述目标IP地址所对应的域名的个数是否大于预设阀值。
可选地,所述装置还包括:
所述获取模块10,还用于获取所述临时缓存中写入IP地址的写入时刻距当前时刻的间隔时长;
所述判断模块20,还用于判断所述间隔时长是否大于预设时长;
释放模块50,用于在所述间隔时长大于预设时长时,释放所述临时缓存。
本发明实施例提供的垃圾邮件的识别装置,可执行上述方法实施例,其具体实现原理和技术效果,可参见上述方法实施例,本实施例此处不再赘述。
本领域普通技术人员可以理解:实现上述各方法实施例的全部或部分步骤可以通过程序指令相关的硬件来完成。前述的程序可以存储于一计算机可读取存储介质中。该程序在执行时,执行包括上述各方法实施例的步骤;而前述的存储介质包括:ROM、RAM、磁碟或者光盘等各种可以存储程序代码的介质。
最后应说明的是:以上各实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述各实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分或者全部技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的范围。

Claims (10)

1.一种垃圾邮件的识别方法,其特征在于,包括:
对接收到的邮件进行解析,获取所述邮件中链接地址的域名;
根据所述域名对应的IP地址记录,获取所述链接地址对应的IP地址;
判断垃圾邮件样本中是否包括所述IP地址,其中,所述垃圾邮件样本中存储有不同的垃圾邮件中链接地址对应的IP地址;
若所述垃圾邮件样本中包括所述IP地址,则识别所述邮件为垃圾邮件。
2.根据权利要求1所述的方法,其特征在于,若所述垃圾邮件样本中不包括所述IP地址,所述方法还包括:
确定当前邮件中链接地址对应的IP地址为目标IP地址;
根据所述目标IP地址、所述当前邮件中链接地址的域名以及已接收到的邮件中链接地址的域名和对应的IP地址,确定所述目标IP地址对应的域名的个数;
判断所述目标IP地址对应的域名的个数是否大于预设阀值;
若所述个数大于预设阈值,则识别所述邮件为垃圾邮件,并将所述目标IP地址写入到所述垃圾邮件样本中。
3.根据权利要求2所述的方法,其特征在于,若所述目标IP地址所对应的域名的个数小于预设阀值,所述方法还包括:
根据所述链接地址,获取网页内容;
判断所述网页内容是否包括预设关键字;
若所述网页内容包括预设关键字,则识别所述邮件为垃圾邮件,并将所述目标IP地址写入到所述垃圾邮件样本中;
若所述网页内容不包括预设关键字,则识别所述邮件为正常邮件。
4.根据权利要求2所述的方法,其特征在于,所述判断所述目标IP地址对应的域名的个数是否大于预设阀值,包括:
判断临时缓存中是否存储有与所述目标IP地址相同的IP地址,所述临时缓存中存储有所述已接收到的邮件中链接地址对应的不同的IP地址和各所述IP地址对应的域名集合;
若是,则将所述当前邮件中链接地址的域名写入到与所述目标IP地址相同的IP地址对应的域名集合中,并判断所述目标IP地址所对应的域名的个数是否大于预设阀值;
若否,则将所述当前邮件中链接地址对应的IP地址和域名写入到所述临时缓存中,并判断所述目标IP地址所对应的域名的个数是否大于预设阀值。
5.根据权利要求4所述的方法,其特征在于,所述方法还包括:
获取所述临时缓存中写入IP地址的写入时刻距当前时刻的间隔时长;
判断所述间隔时长是否大于预设时长;
若是,则释放所述临时缓存。
6.一种垃圾邮件的识别装置,其特征在于,包括:
获取模块,用于对接收到的邮件进行解析,获取所述邮件中链接地址的域名;
所述获取模块,还用于根据所述域名对应的IP地址记录,获取所述链接地址对应的IP地址;
判断模块,用于判断垃圾邮件样本中是否包括所述IP地址,其中,所述垃圾邮件样本中存储有不同的垃圾邮件中链接地址对应的IP地址;
识别模块,用于所述垃圾邮件样本中包括所述IP地址时,识别所述邮件为垃圾邮件。
7.根据权利要求6所述的装置,其特征在于,
确定模块,用于在所述垃圾邮件样本中不包括所述IP地址时,确定当前邮件中链接地址对应的IP地址为目标IP地址;
所述确定模块,还用于根据所述目标IP地址、所述当前邮件中链接地址的域名以及已接收到的邮件中链接地址的域名和对应的IP地址,确定所述目标IP地址对应的域名的个数;
所述判断模块,还用于判断所述目标IP地址所对应的域名的个数是否大于预设阀值;
所述识别模块,还用于在所述个数大于预设阈值时,识别所述邮件为垃圾邮件,并将所述目标IP地址写入到所述垃圾邮件样本中。
8.根据权利要求7所述的装置,其特征在于,
所述获取模块,还用于在所述目标IP地址所对应的域名的个数小于预设阀值时,根据所述链接地址,获取网页内容;
所述判断模块,还用于判断所述网页内容是否包括预设关键字;
所述识别模块,还用于在所述网页内容包括预设关键字时,识别所述邮件为垃圾邮件,并将所述目标IP地址写入到所述垃圾邮件样本中;
所述识别模块,还用于在所述网页内容不包括预设关键字时,识别所述邮件为正常邮件。
9.根据权利要求7所述的装置,其特征在于,
所述判断模块,还用于判断临时缓存中是否存储有与所述当前邮件中IP地址相同的IP地址,所述临时缓存中存储有所述已接收到的邮件中链接地址对应的不同的IP地址和各所述IP地址对应的域名集合;
所述识别模块,还用于在所述判断模块的判断结果为是时,将所述当前邮件中链接地址的域名写入到与所述目标IP地址相同的IP地址对应的域名集合中,并判断所述目标IP地址所对应的域名的个数是否大于预设阀值;
所述识别模块,还用于在所述判断模块的判断结果为否时,将所述当前邮件中链接地址对应的IP地址和域名写入到所述临时缓存中,并判断所述目标IP地址所对应的域名的个数是否大于预设阀值。
10.根据权利要求9所述的装置,其特征在于,所述装置还包括:
所述获取模块,还用于获取所述临时缓存中写入IP地址的写入时刻距当前时刻的间隔时长;
所述判断模块,还用于判断所述间隔时长是否大于预设时长;
释放模块,用于在所述间隔时长大于预设时长时,释放所述临时缓存。
CN201710798951.1A 2017-09-07 2017-09-07 垃圾邮件的识别方法和装置 Active CN109474509B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201710798951.1A CN109474509B (zh) 2017-09-07 2017-09-07 垃圾邮件的识别方法和装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201710798951.1A CN109474509B (zh) 2017-09-07 2017-09-07 垃圾邮件的识别方法和装置

Publications (2)

Publication Number Publication Date
CN109474509A true CN109474509A (zh) 2019-03-15
CN109474509B CN109474509B (zh) 2022-07-12

Family

ID=65657679

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201710798951.1A Active CN109474509B (zh) 2017-09-07 2017-09-07 垃圾邮件的识别方法和装置

Country Status (1)

Country Link
CN (1) CN109474509B (zh)

Citations (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20040249895A1 (en) * 2003-03-21 2004-12-09 Way Gregory G. Method for rejecting SPAM email and for authenticating source addresses in email servers
CN101014020A (zh) * 2006-02-03 2007-08-08 国际商业机器公司 用于识别垃圾电子邮件的方法和系统
CN1332333C (zh) * 2002-02-19 2007-08-15 波斯蒂尼公司 电子邮件管理服务
US20080028029A1 (en) * 2006-07-31 2008-01-31 Hart Matt E Method and apparatus for determining whether an email message is spam
CN101188580A (zh) * 2007-12-05 2008-05-28 中国联合通信有限公司 一种实时垃圾电子邮件过滤方法及系统
US20100011420A1 (en) * 2008-07-02 2010-01-14 Barracuda Networks Inc. Operating a service on a network as a domain name system server
US20110225244A1 (en) * 2008-02-13 2011-09-15 Barracuda Networks Inc. Tracing domains to authoritative servers associated with spam
US20120054869A1 (en) * 2010-08-31 2012-03-01 Chui-Tin Yen Method and apparatus for detecting botnets
CN102404249A (zh) * 2011-11-18 2012-04-04 北京语言大学 一种基于协同训练的垃圾邮件过滤方法和装置
CN101288060B (zh) * 2004-05-25 2012-11-07 波斯蒂尼公司 电子消息源信誉信息系统
US20140007238A1 (en) * 2012-06-29 2014-01-02 Vigilant Inc. Collective Threat Intelligence Gathering System
CN105656950A (zh) * 2016-04-13 2016-06-08 南京烽火软件科技有限公司 一种基于域名的http访问劫持检测与净化装置及方法
US20160352772A1 (en) * 2015-05-27 2016-12-01 Cisco Technology, Inc. Domain Classification And Routing Using Lexical and Semantic Processing
CN106230867A (zh) * 2016-09-29 2016-12-14 北京知道创宇信息技术有限公司 预测域名是否恶意的方法、系统及其模型训练方法、系统

Patent Citations (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1332333C (zh) * 2002-02-19 2007-08-15 波斯蒂尼公司 电子邮件管理服务
US20040249895A1 (en) * 2003-03-21 2004-12-09 Way Gregory G. Method for rejecting SPAM email and for authenticating source addresses in email servers
CN101288060B (zh) * 2004-05-25 2012-11-07 波斯蒂尼公司 电子消息源信誉信息系统
CN101014020A (zh) * 2006-02-03 2007-08-08 国际商业机器公司 用于识别垃圾电子邮件的方法和系统
US20080028029A1 (en) * 2006-07-31 2008-01-31 Hart Matt E Method and apparatus for determining whether an email message is spam
CN101188580A (zh) * 2007-12-05 2008-05-28 中国联合通信有限公司 一种实时垃圾电子邮件过滤方法及系统
US20110225244A1 (en) * 2008-02-13 2011-09-15 Barracuda Networks Inc. Tracing domains to authoritative servers associated with spam
US20100011420A1 (en) * 2008-07-02 2010-01-14 Barracuda Networks Inc. Operating a service on a network as a domain name system server
US20120054869A1 (en) * 2010-08-31 2012-03-01 Chui-Tin Yen Method and apparatus for detecting botnets
CN102404249A (zh) * 2011-11-18 2012-04-04 北京语言大学 一种基于协同训练的垃圾邮件过滤方法和装置
US20140007238A1 (en) * 2012-06-29 2014-01-02 Vigilant Inc. Collective Threat Intelligence Gathering System
US20160352772A1 (en) * 2015-05-27 2016-12-01 Cisco Technology, Inc. Domain Classification And Routing Using Lexical and Semantic Processing
CN105656950A (zh) * 2016-04-13 2016-06-08 南京烽火软件科技有限公司 一种基于域名的http访问劫持检测与净化装置及方法
CN106230867A (zh) * 2016-09-29 2016-12-14 北京知道创宇信息技术有限公司 预测域名是否恶意的方法、系统及其模型训练方法、系统

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
华师傅资讯: "《谁动了我的电脑》", 28 February 2005, 济南:山东电子音像出版社 *
武文: "《Turbo Linux 6.0网络配置及系统管理指南》", 30 November 2000, 北京:人民邮电出版社 *
袁福祥等: "基于历史数据的异常域名检测算法", 《通信学报》 *
辽宁省通信学会: "《通信网络与信息技术》", 31 August 2016 *

Also Published As

Publication number Publication date
CN109474509B (zh) 2022-07-12

Similar Documents

Publication Publication Date Title
CN103927307B (zh) 一种识别网站用户的方法和装置
CN106202028B (zh) 一种地址信息识别方法及装置
CN102024045B (zh) 信息分类处理方法、装置和终端
CN109347827B (zh) 网络攻击行为预测的方法、装置、设备及存储介质
CN104008111B (zh) 一种数据的存储管理方法及装置
CN103384213A (zh) 一种检测规则优化配置方法及设备
CN109600258A (zh) 工业协议报文记录装置及方法
CN106095575B (zh) 一种日志审计的装置、系统和方法
CN107844914B (zh) 基于集团管理的风险管控系统和实现方法
CN102193948A (zh) 特征匹配方法和装置
CN108322463A (zh) DDoS攻击检测方法、装置、计算机设备和存储介质
CN102467525A (zh) 单据关联方法及系统
CN104966189A (zh) 一种用于信息提醒的方法及设备
CN107944866B (zh) 交易记录排重方法及计算机可读存储介质
US10372702B2 (en) Methods and apparatus for detecting anomalies in electronic data
CN103179024B (zh) 邮件过滤方法及装置
CN104902498A (zh) 用户重入网识别方法和装置
CN101572713A (zh) 蠕虫检测方法及系统
CN101478482B (zh) 报文分类中的非规则匹配方法、装置和系统
CN111861733B (zh) 基于地址模糊匹配的欺诈防控系统及方法
CN109474509A (zh) 垃圾邮件的识别方法和装置
CN101986611A (zh) 基于两级缓存的快速组流方法
CN104065617B (zh) 一种骚扰邮件处理方法、装置和系统
CN107885489A (zh) 一种快速检测实名登记数据指标的方法和系统
CN111160797A (zh) 风控模型的构建方法、装置、存储介质及终端

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant