CN116318781A - 钓鱼邮件检测方法、装置、电子设备及可读存储介质 - Google Patents

钓鱼邮件检测方法、装置、电子设备及可读存储介质 Download PDF

Info

Publication number
CN116318781A
CN116318781A CN202211541938.5A CN202211541938A CN116318781A CN 116318781 A CN116318781 A CN 116318781A CN 202211541938 A CN202211541938 A CN 202211541938A CN 116318781 A CN116318781 A CN 116318781A
Authority
CN
China
Prior art keywords
mail
detection
detected
url
phishing
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202211541938.5A
Other languages
English (en)
Inventor
黄传明
李刚
张卓
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Qianxin Technology Group Co Ltd
Secworld Information Technology Beijing Co Ltd
Original Assignee
Qianxin Technology Group Co Ltd
Secworld Information Technology Beijing Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Qianxin Technology Group Co Ltd, Secworld Information Technology Beijing Co Ltd filed Critical Qianxin Technology Group Co Ltd
Priority to CN202211541938.5A priority Critical patent/CN116318781A/zh
Publication of CN116318781A publication Critical patent/CN116318781A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L63/00Network architectures or network communication protocols for network security
    • H04L63/14Network architectures or network communication protocols for network security for detecting or protecting against malicious traffic
    • H04L63/1441Countermeasures against malicious traffic
    • H04L63/1483Countermeasures against malicious traffic service impersonation, e.g. phishing, pharming or web spoofing

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Security & Cryptography (AREA)
  • Computer Hardware Design (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Signal Processing (AREA)
  • Information Transfer Between Computers (AREA)

Abstract

本申请提供一种钓鱼邮件检测方法、装置、电子设备及可读存储介质,方法包括:根据待测邮件的邮件内容对所述待测邮件进行检测,得到第一检测结果;所述待测邮件的邮件内容包括邮件头、邮件正文和邮件脚本;根据所述第一检测结果确定所述待测邮件是否为钓鱼邮件。本申请通过结合待测邮件的邮件头、邮件正文和邮件脚本进行检测,从而基于钓鱼邮件与正常邮件之间在邮件头、邮件正文和邮件脚本之间的差异,实现了对于钓鱼邮件的准确检测。

Description

钓鱼邮件检测方法、装置、电子设备及可读存储介质
技术领域
本申请涉及钓鱼邮件检测技术领域,具体而言,涉及一种钓鱼邮件检测方法、装置、电子设备及计算机可读存储介质。
背景技术
钓鱼邮件攻击是指攻击者伪装成同事、合作伙伴、朋友、家人等用户信任的人,通过发送电子邮件的方式,诱使用户回复邮件、点击嵌入邮件正文的恶意链接、或者运行邮件中的恶意附件,进而窃取用户敏感数据(例如个人银行账户和密码、OA(OfficeAutomation,办公自动化)帐号和密码、办公邮箱和密码等信息),或者在设备上执行恶意代码的网络攻击活动。
目前钓鱼邮件检测的方法主要是基于黑名单的方法,使用的主要工具是黑名单,包括发件人黑名单和URL(Uniform Resource Locator,统一资源定位器)黑名单。检测的方法是提取邮件中的发件人地址和邮件正文中的URL,查看是否在相应的黑名单中。这种方法的检出效果完全依赖于黑名单,但是黑名单的收集具有较大的局限性和滞后性,无法有效检测出钓鱼邮件。
发明内容
本申请实施例的目的在于提供一种钓鱼邮件检测方法、装置、电子设备及计算机可读存储介质,用以实现对于钓鱼邮件的准确检测。
本申请实施例提供了一种钓鱼邮件检测方法,包括:根据待测邮件的邮件内容对所述待测邮件进行检测,得到第一检测结果;所述待测邮件的邮件内容包括邮件头、邮件正文和邮件脚本;根据所述第一检测结果确定所述待测邮件是否为钓鱼邮件。
在上述实现过程中,通过结合待测邮件的邮件头、邮件正文和邮件脚本进行检测,从而基于钓鱼邮件与正常邮件之间在邮件头、邮件正文和邮件脚本之间的差异,实现了对于钓鱼邮件的准确检测。
进一步地,所述根据待测邮件的邮件内容对所述待测邮件进行检测,得到第一检测结果,包括:采用多个不同的分类模型分别对所述待测邮件的邮件内容进行检测,得到各所述分类模型的检测结果;根据各所述分类模型的检测结果确定所述第一检测结果。
在上述实现过程中,通过采用多个不同的分类模型分别对待测邮件的邮件内容进行检测,进而综合各个分类模型的检测结果得到第一检测结果,这就可以综合不同分类模型的优势,使得对于钓鱼邮件的检测可以更为准确,避免因某一类模型的性能而影响钓鱼邮件的识别准确性。
进一步地,在所述待测邮件的邮件正文中携带有URL时,所述方法还包括:对所述URL进行检测,得到第二检测结果;根据所述第一检测结果确定所述待测邮件是否为钓鱼邮件,包括:根据所述第一检测结果和所述第二检测结果确定所述待测邮件是否为钓鱼邮件。
URL是钓鱼邮件中的重要特征之一,许多钓鱼邮件都是通过在邮件中携带钓鱼URL,从而仿冒真实网站的URL地址以及页面内容,以此来骗取用户银行卡号或信用卡账号、密码等私人资料。在上述实现过程中,通过专门对URL进行检测得到第二检测结果,并综合第一检测结果和第二检测结果来确定待测邮件是否为钓鱼邮件,从而可以使得检测结果更为可靠。
进一步地,对所述URL进行检测,得到第二检测结果,包括:在处于联网状态时,采用第一策略对所述URL进行联网检测,得到所述第二检测结果;在处于未联网状态时,采用第二策略对所述URL进行本地检测,得到所述第二检测结果。
在上述实现过程中,通过在联网状态时对URL进行联网检测,从而可以利用网络优势,进行更为全面可靠的URL检测,从而提高检测结果的可靠性。而在未联网状态时,对URL进行本地检测,也可以保证无论何种网络状态,都可进行URL检测,使得检测结果更为可靠。
进一步地,采用第一策略对所述URL进行联网检测,包括:采用云端URL检测模型对所述URL进行检测,且打开所述URL所对应目标页面,检测所述目标页面中是否包含敏感登录元素,并检测所述目标页面中是否包含登录框;其中,所述云端URL检测模型为保存在云端的URL检测模型。上述云端URL检测模型接收到URL后,会模拟浏览器打开URL对应的目标页面,并基于打开后的目标页面来检测是否包含敏感登录元素,其中,云端可基于新收集到的URL来定期训练和更新云端URL检测模型,从而提升检测效果。
在上述实现过程中,通过云端URL检测模型对URL进行检测,实现了从机器学习角度的正常URL与钓鱼URL之间的区分,而通过进一步结合目标页面中是否包含敏感登录元素,以及是否包含登录框,从而综合了多个维度,降低了仅基于URL检测模型进行检测所存在的漏检以及泛化性不足的问题,提高了检测准确性。
进一步地,检测所述目标页面中是否包含登录框,包括:采用图片登录框检测模型检测所述目标页面中是否包含登录框;其中,所述图片登录框检测模型通过以下方式训练得到:使用K-means算法对训练集中标注的登录框按照尺寸大小进行分类,并根据每类中的登录框的尺寸大小确定出各类对应的先验框的尺寸大小;使用EfficientNet网络对所述训练集进行特征提取并输出检测出的候选框;其中,所述特征提取过程中存在多次下采样,每次下采样过程中使用与该次下采样相对应的尺寸大小的先验框进行特征框选,以输出所述候选框;根据各所述候选框的位置和所述训练集中的标注的登录框的位置将所述训练集的样本分为正样本和负样本;将所述正样本和所述负样本输入至图片登录框检测模型进行迭代训练;其中,所述图片登录框检测模型的主干网络为EfficientNet网络。
在上述实现过程中,通过K-means算法可以快速实现对于已标记的登录框的归类,从而快速总结出各类登录框的尺寸特点,得到可信度高的先验框。而EfficientNet网络通过对网络的宽度、深度和分辨率统一进行缩放,能够达到更高的精度上限,大幅度地缩小网络参数的同时提高预测准确度,从而使得对于目标页面中是否包含登录框的检测结果更为准确与可靠。
进一步地,在采用URL检测模型对所述URL进行检测,且打开所述URL所对应目标页面之前,所述方法还包括:确定所述URL是否存在于预设的钓鱼URL库中。
在上述实现过程中,通过先基于预设的钓鱼URL库对待测邮件中的URL进行过滤,从而可以过滤掉明确具有钓鱼URL的待测邮件。
进一步地,采用第二策略对所述URL进行本地检测,包括:采用本地URL检测模型对所述URL进行检测;其中,所述本地URL检测模型为本地保存的URL检测模型。
在上述实现过程中,通过在本地设置URL检测模型,可以保证即使在未联网的状态下,也可以进行对URL进行检测,从而保证最终对于待测邮件的检测结果。
进一步地,所述待测邮件的中携带有附件;所述方法还包括:根据所述附件的类型,对所述附件进行处理。
在上述实现过程中,通过对待测邮件的中携带的附件进行处理,从而可以实现对于附件内的内容的检测,提高待测邮件的检测可靠性。
进一步地,根据所述附件的类型,对所述附件进行处理,包括:若所述附件为邮件格式,将所述附件的内容合并至所述邮件正文中。
邮件格式的附件为邮件软件本身所支持的格式,因此在上述实现过程中,通过将附件的内容合并至邮件正文中,从而可以在对待测邮件的邮件内容进行检测时,一并对附件进行检测,从而保证待测邮件的检测可靠性。
进一步地,根据所述附件的类型,对所述附件进行处理,包括:若所述附件为网页文件格式,对所述附件中携带的URL进行检测,并检测所述附件中是否包含敏感登录元素,以得到第三检测结果;根据所述第一检测结果确定所述待测邮件是否为钓鱼邮件,包括:根据所述第一检测结果和所述第三检测结果确定所述待测邮件是否为钓鱼邮件。
在上述实现过程中,通过对于网页文件格式的附件进行URL检测,并进行敏感登录元素检测,从而可以综合两方面的检测结果以得到最终的检测结果,使得检测可靠性更高,并提高本申请方案的泛化能力。
进一步地,根据所述附件的类型,对所述附件进行处理,包括:若所述附件为文本文件格式,检测所述附件是否携带有URL,并在携带有所述URL时,提取所述URL进行检测,以得到第四检测结果;根据所述第一检测结果确定所述待测邮件是否为钓鱼邮件,包括:根据所述第一检测结果和所述第四检测结果确定所述待测邮件是否为钓鱼邮件。
在上述实现过程中,通过提取出文本文件格式的附件中携带的URL进行检测,从而保证待测邮件的检测可靠性。
进一步地,在根据所述附件的类型,对所述附件进行处理之前,所述方法还包括:采用沙箱检测技术对所述附件的动态特征和静态特征进行检测。
在上述实现过程中,通过先对附件的动态特征和静态特征进行沙箱检测,从而可以实现对于附件的初筛,排除掉明确存在安全隐患的附件,从而降低需进行后续检测的待测邮件数量,降低功耗,提高检测效率。
进一步地,在根据待测邮件的邮件内容对所述待测邮件进行检测,得到第一检测结果之前,所述方法还包括:根据所述待测邮件的发件人和/或收件人的收发件历史行为数据,确定所述待测邮件是否为可疑邮件。
在上述实现过程中,通过先根据待测邮件的发件人和/或收件人的收发件历史行为数据,对待测邮件进行初筛,从而使得只需对可疑邮件进行是否为钓鱼邮件的检测,降低需进行后续检测的待测邮件数量,降低功耗,提高检测效率。
进一步地,在根据所述待测邮件的发件人和/或收件人的收发件历史行为数据,确定所述待测邮件为可疑邮件之后,根据待测邮件的邮件内容对所述待测邮件进行检测,得到第一检测结果之前,所述方法还包括:采用分类模型对所述待测邮件的邮件内容进行检查,确定所述待测邮件是否为风险邮件,若检查结果为风险邮件,则转入执行根据待测邮件的邮件内容对所述待测邮件进行检测,得到第一检测结果的步骤。
在上述实现过程中,通过采用分类模型对可疑邮件进行风险排查,从而基于机器学习技术滤除掉不存在风险的邮件,从而进一步降低需进行后续检测的待测邮件数量,降低功耗,提高检测效率。
本申请实施例还提供了一种钓鱼邮件检测装置,包括:钓鱼邮件内容检测模块,用于根据待测邮件的邮件内容对所述待测邮件进行检测,得到第一检测结果;所述待测邮件的邮件内容包括邮件头、邮件正文和邮件脚本;结果确定模块,用于根据所述第一检测结果确定所述待测邮件是否为钓鱼邮件。
本申请实施例还提供了一种电子设备,包括处理器和存储器;所述处理器用于执行存储器中存储的一个或者多个程序,以实现上述任一种的钓鱼邮件检测方法。
本申请实施例中还提供了一种计算机可读存储介质,所述计算机可读存储介质存储有一个或者多个程序,所述一个或者多个程序可被一个或者多个处理器执行,以实现上述任一种的钓鱼邮件检测方法。
附图说明
为了更清楚地说明本申请实施例的技术方案,下面将对本申请实施例中所需要使用的附图作简单地介绍,应当理解,以下附图仅示出了本申请的某些实施例,因此不应被看作是对范围的限定,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他相关的附图。
图1为本申请实施例提供的一种钓鱼邮件检测方法的流程示意图;
图2为本申请实施例提供的一种URL检测方式的示意图;
图3为本申请实施例提供的一种钓鱼邮件检测装置的结构示意图;
图4为本申请实施例提供的一种具体的钓鱼邮件检测装置中的检测流程示意图;
图5为本申请实施例提供的一种电子设备的结构示意图。
具体实施方式
下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行描述。
实施例一:
为了实现对于钓鱼邮件的准确检测,本申请实施例中提供了一种钓鱼邮件检测方法。可以参见图1所示,图1为本申请实施例中提供的一种钓鱼邮件检测方法的流程示意图,包括:
S101:根据待测邮件的邮件内容对该待测邮件进行检测,得到第一检测结果。
在本申请实施例中,待测邮件的邮件内容包括待测邮件的邮件头、邮件正文和邮件脚本。其中,邮件头可以包括发件人地址、收件人地址、主题等,邮件正文是指邮件的正文部分,其内可以具有文本、URL、图片等,待测邮件的邮件脚本指待测邮件的源代码。
在本申请实施例中,可以通过从待测邮件的邮件头、邮件正文和邮件脚本中提取出所需的特征输入至预先训练好的网络模型中,从而实现对于待测邮件的检测,得到第一检测结果。
示例性的,在本申请实施例中,可以从待测邮件的邮件头、邮件正文和邮件脚本中提取出长度特征、数量特征、发件人地址、收件人地址、关键词、语义特征等特征中的一种或多种作为所需的特征输入至预先训练好的网络模型中。对于特征的选取,可以由工程师按照设计需求或者采用选优算法进行选取,对此本申请实施例中不做限制。
在一种可选实施方式中,可以采用多个不同的分类模型分别对待测邮件的邮件内容进行检测,得到各分类模型的检测结果,然后再根据各分类模型的检测结果确定第一检测结果。
示例性的,在本申请实施例中,可以但不限于采用逻辑回归、随机森林、SVM(Support Vector Machine,支持向量机)、GBDT(Gradient Boosting Decision Tree,梯度提升决策树),XGBoost(eXtreme Gradient Boosting,极端梯度提升)五个算法建立五个不同的分类模型,进而采用这五个不同的分类模型分别对待测邮件的邮件内容进行检测。
示例性的,在本申请实施例中,可以通过投票机制,取各分类模型的检测结果中,多数的检测结果作为第一检测结果。例如,假设5种分类模型分别对待测邮件的邮件内容进行检测,假设3种分类模型的检测结果为表征待测邮件为钓鱼邮件的第一结果,两种分类模型的检测结果为表征待测邮件不为钓鱼邮件的第二结果,则确定第一检测结果为第一结果。
在另一种可选实施方式中,也可以仅采用一种分类模型对待测邮件的邮件内容进行检测,得到第一检测结果。例如,可以采用逻辑回归、随机森林、SVM(Support VectorMachine,支持向量机)、GBDT(Gradient Boosting Decision Tree,梯度提升决策树),XGBoost(eXtreme Gradient Boosting,极端梯度提升)五个算法中的任一种算法建立的分类模型对待测邮件的邮件内容进行检测,但不作为限制。
S102:根据第一检测结果确定待测邮件是否为钓鱼邮件。
在本申请实施例中,可以但不限于通过以下方式确定待测邮件是否为钓鱼邮件:
方式一:可以直接以第一检测结果作为最终的检测结果,确定待测邮件是否为钓鱼邮件。
也即,当第一检测结果为表征待测邮件为钓鱼邮件的第一结果时,最终结果就是待测邮件为钓鱼邮件,当第一检测结果为表征待测邮件不为钓鱼邮件的第二结果时,最终结果就是待测邮件不为钓鱼邮件。
方式二:考虑到URL是钓鱼邮件中的重要特征之一,许多钓鱼邮件都是通过在邮件中携带钓鱼URL,从而仿冒真实网站的URL地址以及页面内容,以此来骗取用户银行卡号或信用卡账号、密码等私人资料。因此,可以对待测邮件的正文进行检测,以在邮件正文中携带有URL时,获取邮件正文中携带的URL,对该URL进行检测,以得到第二检测结果,并根据第一检测结果和第二检测结果综合确定待测邮件是否为钓鱼邮件。
例如,可以设定在第一检测结果和第二检测结果中的任一个检测结果为表征待测邮件为钓鱼邮件的第一结果时,确定待测邮件为钓鱼邮件;否则,确定待测邮件不为钓鱼邮件。
又例如,可以设定在第一检测结果和第二检测结果均为表征待测邮件为钓鱼邮件的第一结果时,才确定待测邮件为钓鱼邮件;否则,确定待测邮件不为钓鱼邮件。
可以理解,以上仅为本申请实施例示例的两种可选的根据第一检测结果和第二检测结果综合确定待测邮件是否为钓鱼邮件的具体实现方式,不作为对本申请实施例的限制。
可选的,在方式二中,可以在设备处于联网状态时,采用第一策略对URL进行联网检测,得到第二检测结果;而在设备处于未联网状态时,采用第二策略对URL进行本地检测,得到第二检测结果。从而在联网状态时,利用网络优势,进行更为全面可靠的URL检测,提高检测结果的可靠性。而在未联网状态时,对URL进行本地检测,保证无论何种网络状态,都可进行URL检测,使得检测结果更为可靠。
其中,采用第一策略对URL进行联网检测的过程可以包括:采用云端URL检测模型(云端URL检测模型为保存在云端的URL检测模型)对待测邮件中携带的URL进行检测,且打开该URL所对应目标页面,检测目标页面中是否包含敏感登录元素,并检测目标页面中是否包含登录框。
示例性的,云端URL检测模型可以采用LightGBM(Light Gradient BoostingMachine,光梯度提升机)算法训练得到,但不作为限制,例如,云端URL检测模型也可以采用诸如GBDT、XGBoost等算法得到。
在本申请实施例中,云端URL检测模型可以基于新收集到的URL来定期训练和更新,以提升检测效果。
示例性的,为实现对于目标页面中是否包含登录框的检测,可以基于YOLO3算法训练出一个图片登录框检测模型,进而通过将目标页面截图为图片后,输入至该图片登录框检测模型中,实现对于登录框的有效检出。
其中,图片登录框检测模型可以通过以下方式训练得到:
首先,使用K-means算法对训练集中标注的登录框按照尺寸大小进行分类,并根据每类中的登录框的尺寸大小确定出各类对应的先验框的尺寸大小。
可以理解,在本申请实施例中,可以在公共钓鱼网站收集浏览器打开钓鱼链接后的页面截图,以及标注截图中的登录框,得到所需的样本,构成训练集。
在本申请实施例中,可以设定所需分类的数量,例如可以设定将训练集中的登录框按照尺寸大小(即登录框的宽高)分成9类。
在本申请实施例中,根据每类中的登录框的尺寸大小确定出各类对应的先验框的尺寸大小,可以是根据每类中的登录框的尺寸大小求平均值,此时求得的尺寸大小基于该类登录框对应的先验框的尺寸大小。这样,有多少类登录框,即会确定出多少个先验框。以上例中分成9类为例,则可以得到9个先验框。
接着,使用EfficientNet网络对训练集进行特征提取并输出检测出的候选框。其中,特征提取过程中存在多次下采样,每次下采样过程中使用与该次下采样相对应的尺寸大小的先验框进行特征框选,以输出候选框。
在本申请实施例中,可以构建三种下采样来得到三个不同的有效特征,并为每种下采样配置相应尺寸大小的先验框供该种下采样使用,以输出该种下采样后检测出的候选框。例如,可以进行32倍的下采样,16倍的下采样和8倍的下采样,32倍的下采样对应使用9个先验框中的尺寸最大的3个先验框,16倍的下采样对应使用9个先验框中的尺寸中等的3个先验框,8倍的下采样对应使用9个先验框中的尺寸最下的3个先验框。这样,由于32倍的下采样可以感受图像的大视野,因此使用尺寸最大的3个先验框可以有效与下采样后的图像情况相匹配,相应的,16倍下采样可以感受图像的中视野,8倍下采样可以感受图像的小视野,因此使用相应尺寸的先验框,可以保证候选框大小与特征情况的匹配性。
接着,根据各候选框的位置和训练集中的标注的登录框的位置将训练集的样本分为正样本和负样本。
在本申请实施例中,可以计算各样本中的候选框和标注出的真实的登录框之间的IOU(Intersection over Union,交并比),对于IOU大于预设IOU阈值的样本确定为正样本,对于IOU小于等于预设IOU阈值的样本确定为负样本。
在本申请实施例中,正样本和负样本可以具有不同的损失函数。其中,对于正样本,损失函数包含了位置误差、置信度和类别的计算,对于负样本则可以只具有置信度的计算。其中,置信度即为IOU值。
最后,将正样本和负样本输入至图片登录框检测模型进行迭代训练;其中,图片登录框检测模型的主干网络为EfficientNet网络。
可以理解,在本申请实施例的一种可选实施方式中,图片登录框检测模型可以采用yolo模型实现,此时可以将yolo模型的主干网络darknet53替换成EfficientNet网络。
在本申请实施例中,将正样本和负样本输入至图片登录框检测模型后,可以不断迭代拟合损失函数,不断缩小损失函数的值,直至损失函数收敛或者迭代次数达到预设阈值,从而得到训练好的图片登录框检测模型。
在本申请实施例中,对于训练好的图片登录框检测模型还可以进行测试。测试过程中,可以通过调节候选框大小、增加样本、或填鸭式方法对模型进行优化。相关优化方式可参见相关的已有技术文献,在此不再赘述。
可选的,在上述实施例中,可以在云端URL检测模型对待测邮件中携带的URL进行检测不通过,或目标页面中包含敏感登录元素,或目标页面中包含登录框时,即确定第二检测结果为表征待测邮件为钓鱼邮件的第一结果。
可选的,在上述实施例中,也可以对三种检测方式的检测结果进行打分,进而对各检测方式的打分加权求和得到总打分,基于总打分确定第二检测结果。例如,假设在云端URL检测模型对待测邮件中携带的URL进行检测不通过时得分为1,在云端URL检测模型对待测邮件中携带的URL进行检测通过时得分为0,假设在目标页面中包含敏感登录元素得分为1,目标页面中不包含敏感登录元素得分为0,假设在目标页面中包含登录框时得分为1,在目标页面中不包含登录框时得分为0,假设各检测方式的权重分别为0.5、0.3和0.2,得分阈值为0.7,假设检测结果为:云端URL检测模型对待测邮件中携带的URL进行检测不通过,目标页面中包含敏感登录元素,但目标页面中不包含登录框。则总打分等于1*0.5+1*0.3+0*0.2=0.8,总打分大于0.7,确定第二检测结果为表征待测邮件为钓鱼邮件的第一结果。
可以理解,权重值可以根据实际需要进行设置,并不限于上述0.5、0.3和0.2。
还可以理解,上述两种确定第二检测结果的方式仅为本申请实施例所示例出的可选实施方式,不作为对本申请实施例的限制。
可选的,在采用URL检测模型对待测邮件中的URL进行检测,且打开URL所对应目标页面进行检测之前,还可以先检测该URL是否存在于预设的钓鱼URL库中。若该URL存在于预设的钓鱼URL库中,则可以直接确定第二检测结果为表征该待测邮件为钓鱼邮件的第一结果。若该URL不存在于预设的钓鱼URL库中,则再采用URL检测模型对待测邮件中的URL进行检测,并打开该URL所对应目标页面,检测目标页面中是否包含敏感登录元素,并检测目标页面中是否包含登录框。
其中,钓鱼URL库可以是通过收集开源钓鱼URL情报以及检测出的钓鱼URL构建得到。
可选的,在一种实施例中,也可以如图2所示,同时进行以下4种检测:
检测该URL是否存在于预设的钓鱼URL库中(即图2中的威胁情报检测);采用URL检测模型对待测邮件中的URL进行检测(即图2中的钓鱼URL检测);打开URL所对应目标页面,检测目标页面中是否包含敏感登录元素(即图2中的URL页面登录元素检测);检测目标页面中是否包含登录框(即图2中的URL页面截图登录框检测)。
在这4种检测中的任一种检测未通过(该URL存在于预设的钓鱼URL库中,或URL检测模型检测出该URL为钓鱼URL,或目标页面中包含敏感登录元素,或目标页面中是否包含登录框)时,确定第二检测结果为表征待测邮件为钓鱼邮件的第一结果。
在本实施例中,在采用第二策略对URL进行联网检测的过程中还可以包括:采用本地URL检测模型(本地URL检测模型为本地保存的URL检测模型)对所述URL进行检测。
可选的,本地URL检测模型可以采用与云端URL检测模型相同类型的模型实现,例如也采用LightGBM算法训练得到。此时,由于本地URL检测模型和云端URL检测模型的类型相同,且功能也相同,因此可以定期或在设备联网后,即下载云端URL检测模型到本地,作为最新的本地URL检测模型,以提高本地URL检测模型的检测能力。
方式三:考虑到在实际应用过程中,部分钓鱼邮件的钓鱼内容存在于附件之中,其隐蔽性更强,不易检测。为此,在本申请实施例中,还可以先检测待测邮件是否存在附件,进而在存在附件时对附件进行处理。
示例性的,若附件为邮件格式(例如Eml或msg格式),则将附件的内容合并至邮件正文中。
此时,按照图1所示的流程即可一并对附件的内容进行检测。
示例性的,若附件为网页文件格式(例如Html或htm格式),则可以对附件中携带的URL进行检测,并检测附件中是否包含敏感登录元素,以得到第三检测结果。
此时,可以根据第一检测结果和第三检测结果确定待测邮件是否为钓鱼邮件。
例如,可以设定在第一检测结果和第三检测结果中的任一个检测结果为表征待测邮件为钓鱼邮件的第一结果时,确定待测邮件为钓鱼邮件;否则,确定待测邮件不为钓鱼邮件。
又例如,可以设定在第一检测结果和第三检测结果均为表征待测邮件为钓鱼邮件的第一结果时,才确定待测邮件为钓鱼邮件;否则,确定待测邮件不为钓鱼邮件。
可以理解,以上仅为本申请实施例示例的两种可选的根据第一检测结果和第三检测结果综合确定待测邮件是否为钓鱼邮件的具体实现方式,不作为对本申请实施例的限制。
还可以理解的是,对附件中携带的URL进行检测的方式可以参考方式二中记载的对邮件中URL进行检测的方式实现,在此不再赘述。
示例性的,若附件为文本文件格式(例如Word格式或PDF格式等),则可以检测附件是否携带有URL,并在携带有URL时,提取该URL进行检测,以得到第四检测结果。
此时,可以根据第一检测结果和第四检测结果确定待测邮件是否为钓鱼邮件。
类似的,例如,可以设定在第一检测结果和第四检测结果中的任一个检测结果为表征待测邮件为钓鱼邮件的第一结果时,确定待测邮件为钓鱼邮件;否则,确定待测邮件不为钓鱼邮件。又例如,可以设定在第一检测结果和第四检测结果均为表征待测邮件为钓鱼邮件的第一结果时,才确定待测邮件为钓鱼邮件;否则,确定待测邮件不为钓鱼邮件。
可选的,在方式三中,在根据附件的类型,对附件进行处理之前,还可以先采用沙箱检测技术对所述附件的动态特征和静态特征进行检测,进而在沙箱检测通过后再按照前述方式,根据附件的类型对附件进行处理。
若沙箱检测未通过,则可以直接确定待测邮件为钓鱼邮件。或者,若沙箱检测未通过,可以确定一个第五检测结果,第五检测结果为表征待测邮件为钓鱼邮件的第一结果,然后根据第一检测结果和第五检测结果确定待测邮件是否为钓鱼邮件。
根据第一检测结果和第五检测结果确定待测邮件是否为钓鱼邮件的具体方式与前文类似,例如可以在第一检测结果和第五检测结果中的任一个检测结果为表征待测邮件为钓鱼邮件的第一结果时,确定待测邮件为钓鱼邮件;否则,确定待测邮件不为钓鱼邮件。又例如,可以在第一检测结果和第五检测结果均为表征待测邮件为钓鱼邮件的第一结果时,才确定待测邮件为钓鱼邮件;否则,确定待测邮件不为钓鱼邮件。
在本申请实施例中,在进行沙箱检测时,可以使用沙箱检测技术对附件进行静态检测和动态检测,并基于静态检测结果和动态检测结果来确定沙箱检测是否通过。示例性的,可以设定在静态检测结果和动态检测结果中的任一结果表征检测通过时,确定沙箱检测通过。示例性的,也可以设定在静态检测结果和动态检测结果均表征检测通过时,才确定沙箱检测通过。其中,使用沙箱检测技术对附件进行静态检测时所检测的特征为附件的静态特征。使用沙箱检测技术对附件进行动态检测时所检测的特征为附件的动态特征。而使用沙箱检测技术进行静态检测和动态检测的具体实现方式可参考现有技术,在本申请实施例中不错限制。
可选的,也可以在对附件进行沙箱检测的同时,按照前述方式,根据附件的类型对附件进行处理,从而在附件为邮件格式时,根据第一检测结果和第五检测结果确定待测邮件是否为钓鱼邮件;在附件为网页文件格式时,根据第一检测结果、第三检测结果和第五检测结果确定待测邮件是否为钓鱼邮件;在附件为文本文件格式时,根据第一检测结果、第四检测结果和第五检测结果确定待测邮件是否为钓鱼邮件。
其中,根据第一检测结果、第三检测结果和第五检测结果确定待测邮件是否为钓鱼邮件的方式,以及根据第一检测结果、第四检测结果和第五检测结果确定待测邮件是否为钓鱼邮件的方式,具体可以是:任一检测结果为表征待测邮件为钓鱼邮件的第一结果时,确定待测邮件为钓鱼邮件;也可以是所有检测结果均为表征待测邮件为钓鱼邮件的第一结果时,确定待测邮件为钓鱼邮件;还可以是在至少两个检测结果为表征待测邮件为钓鱼邮件的第一结果时,确定待测邮件为钓鱼邮件,对此本申请实施例中不做限制。
方式四:可以结合方式二和方式三进行执行。也即,可以在根据待测邮件的邮件内容对待测邮件进行检测,得到第一检测结果的同时,对待测邮件的邮件正文中的URL进行检测得到第二检测结果,并对待测邮件所携带的附件进行检测得到附件检测结果,然后基于第一检测结果、第二检测结果和附件检测结果确定待测邮件是否为钓鱼邮件的方式。
基于第一检测结果、第二检测结果和附件检测结果确定待测邮件是否为钓鱼邮件的方式具体可以是:任一检测结果为表征待测邮件为钓鱼邮件的第一结果时,确定待测邮件为钓鱼邮件;也可以是所有检测结果均为表征待测邮件为钓鱼邮件的第一结果时,确定待测邮件为钓鱼邮件;还可以是在至少两个检测结果为表征待测邮件为钓鱼邮件的第一结果时,确定待测邮件为钓鱼邮件;还可以是,在第一检测结果和第二检测结果均为表征待测邮件为钓鱼邮件的第一结果时,确定待测邮件为钓鱼邮件,或者,在附件检测结果为表征待测邮件为钓鱼邮件的第一结果时,确定待测邮件为钓鱼邮件,否则确定待测邮件不为钓鱼邮件。对于具体的判断方式,在本申请实施例中不做限制。
在本申请实施例中,在根据待测邮件的邮件内容对所述待测邮件进行检测,得到第一检测结果之前,还可以先根据待测邮件的发件人和/或收件人的收发件历史行为数据,确定待测邮件是否为可疑邮件。在确定待测邮件为可疑邮件时,才进一步执行本申请实施例所提供的方案。在确定待测邮件为非可疑邮件时,可结束检测流程,从而节约检测资源,提高检测效率。
示例性的,在本申请实施例中,可以对各用户的历史邮件情况进行统计,并统计待测邮件的发件人的回复邮件数量,若该发件人的回复邮件数量低于阈值,可以认为是可疑邮件;反之,可以认为是非可疑邮件。
又示例性的,在本申请实施例中,可以预先收集邮箱用户的历史收发件数据(包括收发件时间、收发件数量等),并采用聚类算法对各邮箱用户的历史收发件数据进行聚类,然后按照各类用户的历史收发件数据构建各类用户的收发件行为曲线,从而计算待测邮件的发件人发送本次待测邮件的行为与对应的发件行为曲线的偏离程度,计算待测邮件的收件人接收本次待测邮件的行为与对应的收件行为曲线的偏离程度,基于偏离程度估计是否待测邮件是否为可疑邮件。
在本申请实施例的一种可选实施方式中,在根据待测邮件的发件人和/或收件人的收发件历史行为数据,确定待测邮件为可疑邮件之后,根据待测邮件的邮件内容对待测邮件进行检测,得到第一检测结果之前,还可以采用分类模型对待测邮件的邮件内容进行检查,若待测邮件为风险邮件,则按照前文所述方案进行待测邮件是否为钓鱼邮件。若待测邮件不为风险邮件,则可以不再继续进行检测。
其中,检测待测邮件是否为风险邮件的分类模型可以但不限于是随机森林、SVM、GBDT等模型。
可选的,在本申请实施例中,在采用分类模型对待测邮件的邮件内容进行检查的同时,无论待测邮件是否为风险邮件,均还可以同时进行待测邮件的附件的检测,以避免因分类模型对无法获取到附件的内容,而造成漏检风险。此时,无论分类模型检测待测邮件是否为风险邮件,只要附件检测结果为表征待测邮件为钓鱼邮件的第一结果,即可确定待测邮件为钓鱼邮件。
本申请实施例所提供的钓鱼邮件检测方法,通过结合待测邮件的邮件头、邮件正文和邮件脚本进行检测,从而基于钓鱼邮件与正常邮件之间在邮件头、邮件正文和邮件脚本之间的差异,实现了对于钓鱼邮件的准确检测。
此外,本申请实施例所提供的钓鱼邮件检测方法,在结合待测邮件的邮件头、邮件正文和邮件脚本进行检测的同时,还可以结合专门对URL进行检测的第二检测结果以及对附件进行检测的附件检测结果进行待测邮件是否为钓鱼邮件的确定,使得检测结果更为可靠,且泛化性更好。
此外,本申请实施例所提供的钓鱼邮件检测方法,在未联网的状态下也可以实现对于待测邮件的良好检测。
此外,本申请实施例可以预先根据待测邮件的发件人和/或收件人的收发件历史行为数据,检测待测邮件是否为可疑邮件,进而使得大多低风险邮件不用经过钓鱼邮件检测,节约了开销,提高了检测效率。
此外,本申请实施例在联网状态下可以基于URL的真实页面信息,结合机器学习,深度学习和威胁情报(即预设的钓鱼URL库)从多个维度进行深度检测,可给出更为准确的判断。
实施例二:
基于同一发明构思,本申请实施例中还提供了一种钓鱼邮件检测装置300。请参阅图3所示,图3示出了采用图1所示的方法的钓鱼邮件检测装置。应理解,装置300具体的功能可以参见上文中的描述,为避免重复,此处适当省略详细描述。装置300包括至少一个能以软件或固件的形式存储于存储器中或固化在装置300的操作系统中的软件功能模块。具体地:
参见图3所示,装置300可以包括:
钓鱼邮件内容检测模块301,用于根据待测邮件的邮件内容对所述待测邮件进行检测,得到第一检测结果;所述待测邮件的邮件内容包括邮件头、邮件正文和邮件脚本;
结果确定模块302,用于根据所述第一检测结果确定所述待测邮件是否为钓鱼邮件。
在本申请实施例中,钓鱼邮件内容检测模块301具体可以用于采用多个不同的分类模型分别对所述待测邮件的邮件内容进行检测,得到各所述分类模型的检测结果,根据各所述分类模型的检测结果确定所述第一检测结果。
在本申请实施例中,装置300还可以包括URL检测模块,用于在待测邮件的邮件正文中携带有URL时,对所述URL进行检测,得到第二检测结果。此时,结果确定模块302具体用于根据所述第一检测结果和所述第二检测结果确定所述待测邮件是否为钓鱼邮件。
在本申请实施例中,URL检测模块可以包括钓鱼URL检测模块和在线检测模块。在线检测模块用于在处于联网状态时,采用第一策略对所述URL进行联网检测,得到所述第二检测结果;钓鱼URL检测模块在在处于未联网状态时,采用第二策略对所述URL进行本地检测,得到所述第二检测结果。
在本申请实施例中,在线检测模块具体用于采用云端URL检测模型对所述URL进行检测,且打开所述URL所对应目标页面,检测所述目标页面中是否包含敏感登录元素,并检测所述目标页面中是否包含登录框。
在本申请实施例中,在线检测模块还具体用于在采用URL检测模型对所述URL进行检测,且打开所述URL所对应目标页面之前,确定所述URL未存在于预设的钓鱼URL库中。
在本申请实施例中,钓鱼URL检测模块具体用于采用本地URL检测模型对所述URL进行检测。
在本申请实施例中,装置300还可以包括邮件附件检测模块,用于在所述待测邮件的中携带有附件的情况下,根据所述附件的类型,对所述附件进行处理。
在本申请实施例中,邮件附件检测模块具体用于,若所述附件为邮件格式,将所述附件的内容合并至所述邮件正文中。
在本申请实施例中,邮件附件检测模块具体用于,若所述附件为网页文件格式,对所述附件中携带的URL进行检测,并检测所述附件中是否包含敏感登录元素,以得到第三检测结果。此时,结果确定模块302具体用于,根据所述第一检测结果和所述第三检测结果确定所述待测邮件是否为钓鱼邮件。
在本申请实施例中,邮件附件检测模块具体用于,若所述附件为文本文件格式,检测所述附件是否携带有URL,并在携带有所述URL时,提取所述URL进行检测,以得到第四检测结果。此时,结果确定模块302具体用于,根据所述第一检测结果和所述第四检测结果确定所述待测邮件是否为钓鱼邮件。
在本申请实施例中,邮件附件检测模块还具体用于,在根据所述附件的类型,对所述附件进行处理之前,对所述附件进行沙箱检测,并确定所述沙箱检测通过。
在本申请实施例中,装置300还可以包括自适应行为学习模块,用于在根据待测邮件的邮件内容对所述待测邮件进行检测,得到第一检测结果之前,根据所述待测邮件的发件人和/或收件人的收发件历史行为数据,确定所述待测邮件为可疑邮件。
在本申请实施例中,装置300还可以包括异常邮件检测模块,用于在根据所述待测邮件的发件人和/或收件人的收发件历史行为数据,确定所述待测邮件为可疑邮件之后,根据待测邮件的邮件内容对所述待测邮件进行检测,得到第一检测结果之前,采用分类模型对所述待测邮件的邮件内容进行检查,确定所述待测邮件为风险邮件。
需要理解的是,出于描述简洁的考量,部分实施例一中描述过的内容在本实施例中不再赘述。
实施例三:
本实施例在实施例二的基础上,以一种具体的钓鱼邮件处理装置300为例,为本申请做进一步示例说明。
钓鱼邮件处理装置300包括自适应行为学习模块、离线检测模块和在线检测模块三大部分,检测流程参见图4所示。
一、自适应行为学习模块
自适应行为学习模块通过预先收集邮箱用户的历史收发件数据(包括收发件时间、收发件数量等),并采用聚类算法对各邮箱用户的历史收发件数据进行聚类,然后按照各类用户的历史收发件数据构建各类用户的收发件行为曲线,从而计算待测邮件的发件人发送本次待测邮件的行为与对应的发件行为曲线的偏离程度,计算待测邮件的收件人接收本次待测邮件的行为与对应的收件行为曲线的偏离程度,基于偏离程度估计是否待测邮件是否为可疑邮件。若为可疑邮件则确定需要进行钓鱼检测,若非可疑邮件,则无需进行钓鱼检测。这样可以过滤掉很多低风险的邮件,从而提高后续离线检测模块和在线检测模型的效率和效果。
二、离线检测模块
离线检测模块可保证在离线环境下对钓鱼邮件的检测效果。从邮件的发送方法和邮件内容来看,垃圾邮件和钓鱼邮件的相似度很高,为了提升钓鱼邮件的检测效果,离线检测模块将邮件检测分为了四个子模块,分别为异常邮件检测模块,邮件内容钓鱼检测模块,钓鱼URL检测模块和邮件附件检测模块。大部分基于机器学习算法的钓鱼邮件检测方法只对邮件进行了一次检测来进行分类,这样分类的结果准确率不高,且对新数据的泛化性不够好。为了提升钓鱼邮件检测的召回率和降低误报率,离线检测模块同时对邮件进行四个维度的检测,分别为:
a)异常邮件检测
b)钓鱼邮件内容检测
c)钓鱼URL检测
d)钓鱼邮件附件检测
当异常邮件检测、钓鱼邮件内容检测和钓鱼URL检测同时检测到钓鱼时,可判断该邮件为钓鱼邮件。当钓鱼邮件附件检测到邮件中包含钓鱼附件时,即可判断该邮件为钓鱼邮件。
1.异常邮件检测模块
异常邮件检测模块使用机器学习的方法,先将大量样本分为正常邮件和异常邮件(包含钓鱼邮件,垃圾邮件等非正常业务邮件)进行训练。异常邮件检测模块的训练过程中,基于邮件头、邮件正文的文本、邮件正文中的URL和邮件脚本抽取样本的多个不同维度的特征,并进行特征优化选择,最后使用随机森林算法建立邮件分类模型。
检测过程中通过抽取待测邮件中相同的特征输入异常邮件检测模块中即可实现对于异常邮件(即前文所述的风险邮件)的识别。
2.钓鱼邮件内容检测模块301
当邮件被检测为异常邮件后,再使用钓鱼邮件内容检测模块301对异常邮件检测检测,从异常邮件中检测出包含钓鱼内容的钓鱼邮件。
钓鱼邮件检测模块使用组合模型,具体使用逻辑回归、随机森林、SVM、GBDT、XGBoost五个算法建立五个不同的分类模型,训练时训练集区别于异常邮件检测模块,需具体标注出钓鱼邮件、垃圾邮件等各类非正常业务邮件。
模型训练过程中,基于邮件头、邮件正文的文本、邮件正文的URL和邮件脚本来抽取了多个不同维度的特征,进行特征选择优化,然后在特征选择的基础上,分别对各个模型做参数寻优来得到最后的分类模型。
检测待测邮件时,抽取待测邮件中相同的特征输入各分类模型中。钓鱼邮件检测模块采用投票机制,当有三个模型的检测结果为表征待测邮件包含钓鱼内容时,则判定该待测邮件包含钓鱼内容。
3.钓鱼URL检测模块
当邮件被检测为异常邮件后,使用钓鱼URL检测对待测邮件中的URL进行检测,用来判断URL是否是钓鱼URL。
钓鱼URL检测模块也应用了机器学习的算法,基于URL抽取特征并建立了URL分类模型。该模块可以从URL的语义和统计维度上抽取并选择了多个不同维度的特征,并基于LightGBM算法训练并参数寻优得到分类模型。
检测时,从待测邮件的URL中抽取相同的特征输入至钓鱼URL检测模块,得到检测结果。
4.邮件附件检测模块
a)沙箱检测。使用沙箱检测技术对待测邮件中的附件做静态检测和动态检测,并基于静态检测和动态检测的检测结果判断附件是否是钓鱼文件。
b)Eml和msg格式的附件检测
Eml和msg格式都是outlook支持的邮件格式,对该类附件进行检测时,可提取附件的内容后合并到待测邮件的邮件正文中,通过前述三个模块一并进行检测。
c)Html和htm格式的附件检测
部分钓鱼邮件将钓鱼URL,隐私信息填写模块等钓鱼信息保存在html或htm类别附件中,钓鱼内容均在html或htm文件中,只对邮件内容做检测就无法检出了。在对html或htm文件进行检测时,html或htm页面中的URL可通过钓鱼URL检测模块来检测。对包含隐私信息填写内容的html或htm文件,可同时检测html或htm文件中是否包含账号密码登录信息,若包含,确定html或htm文件是钓鱼附件。
d)Word和pdf格式附件检测
部分钓鱼邮件会将钓鱼URL或钓鱼URL生成的二维码放在word和pdf类别附件中,只对邮件内容进行检测可能会导致漏检。在对word和pdf附件进行检测时,可以提取出附件中的URL,然后通过钓鱼URL检测模块进行检测。
在本实施例中,在进行附件检测时,以上4个检测方式中任一检测方式未通过,即可认为附件为钓鱼附件,从而确定待测邮件为钓鱼邮件。
三、在线检测模块
若检测环境可联网,在自适应行为学习模块和离线检测模块的基础上,结合使用在线检测模块,可对邮件中的URL做更准确的检测。
在线检测模块仅对URL进行检测。在线检测包含四个模块,分别为威胁情报检测模块,钓鱼URL检测模块,URL页面登录元素检测模块和URL页面截图登录框检测模块。四个模块的检测,任何一个检出为钓鱼即可判断包含该URL的邮件是钓鱼邮件。
1.威胁情报检测模块
基于收集到的开源钓鱼URL情报和云端钓鱼URL数据,构建和丰富钓鱼URL库。检测待测邮件中的URL是否存在于钓鱼URL库中,从而快速对URL进行判断。
2.云端钓鱼URL检测模块
与离线检测模块中的钓鱼URL检测模块实现方式一致,区别在于云端钓鱼URL检测模块可基于新收集到的URL来定期训练和更新URL检测模型,从而提升检测效果。
3.URL页面登录元素检测模块
URL页面登录元素检测模块接收到新的没有检测过的URL后,模拟浏览器打开该URL,并基于打开后的URL页面来检测是否包含登录元素。
4.URL页面截图登录框检测模块
在模拟浏览器打开URL后,对页面进行截图,并使用图片登录框检测模型来判断页面中是否包含登录框。
URL页面登录元素检测模块使用了基于深度学习的图片定位检测技术,基于YOLO3训练一个图片登录框检测模型,利用该图片登录框检测模型实现对图片中登录框的有效检出。其中,图片登录框检测模型的训练过程参见实施例一的记载,在此不再赘述。
需要说明的是,离线检测模块主要有三个大类别的检测模型,即异常邮件检测模型、邮件钓鱼内容检测模型、钓鱼URL检测模型。建立模型和使用的过程中主要有两个步骤,分别为模型训练和模型预测。其中异常邮件检测模型、邮件钓鱼内容检测模型的训练过程可参见下述过程所示:
1.样本收集。
可以在用户所在企业内部和网络公开数据上收集正常邮件和钓鱼邮件样本,并对收集到的邮件进行去重。
2.数据预处理。
可以读取邮件内容,对邮件内容进行预处理,包括编码转换,无效内容去除等操作。
3.特征工程。
基于数据预处理的数据,对邮件头、邮件正文的文本、邮件正文的URL,邮件脚本提取不同的统计特征,包括但不限于长度特征、数量特征等共计几十维特征。异常邮件分类模型和钓鱼邮件分类模型用到的特征均从这几十维维特种中选取。
4.模型训练。
将样本集随机打乱,按比例划分训练集和测试集。抽取特征工程后的特征,使用随机森林算法训练得到异常邮件分类模型,使用逻辑回归、SVM、随机森林、GBDT、XGBoost算法训练得到不同的邮件钓鱼内容检测模型。
5.模型测试及优化。
用测试集对训练得到的模型进行测试。通过调参、分析漏报误报样本、增删特征、调整训练集等方式对模型进行优化。调参、分析漏报误报样本、增删特征、调整训练集等方式可以参考已有技术,在此不做赘述。
6.模型加密压缩。
对优化以后的模型进行加密和压缩,保证模型的机密性。加密和压缩可采用已有技术,在此不做赘述。
实施例四:
本实施例提供了一种电子设备,参见图5所示,其包括处理器501和存储器502。其中:
处理器501用于执行存储器502中存储的一个或多个程序,以实现上述实施例一所描述的钓鱼邮件检测方法。
可以理解,图5所示的结构仅为示意,电子设备还可包括比图5中所示更多或者更少的组件,或者具有与图5所示不同的配置。
例如,处理器501和存储器502之间可以是通过通信总线的方式进行的连接。又例如,电子设备还可包括诸如显示器、鼠标、键盘等部件。
在本申请实施例中,处理器501可以为中央处理器、微处理器、单片机等,但不作为限制。存储器502可以为随机存取存储器,只读存储器,可编程只读存储器,可擦除只读存储器,电可擦除只读存储器等,但不作为限制。
在本申请实施例中,电子设备可以是,但不限于台式机、笔记本电脑、智能手机、智能穿戴设备、车载设备等实体设备,还可以是虚拟机等虚拟设备。另外,电子设备也不一定是单台设备,还可以是多台设备的组合,例如服务器集群,等等。
本实施例还提供了一种计算机可读存储介质,如软盘、光盘、硬盘、闪存、U盘、SD(Secure Digital Memory Card,安全数码卡)卡、MMC(Multimedia Card,多媒体卡)卡等,在该计算机可读存储介质中存储有实现上述各个步骤的一个或者多个程序,这一个或者多个程序可被一个或者多个处理器执行,以实现上述实施例一的钓鱼邮件检测方法。在此不再赘述。
在本申请所提供的实施例中,应该理解到,所揭露装置和方法,可以通过其它的方式实现。以上所描述的装置实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,又例如,多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。
在本申请各个实施例中的各功能模块可以集成在一起形成一个独立的部分,也可以是各个模块单独存在,也可以两个或两个以上模块集成形成一个独立的部分。
在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。
在本文中,多个是指两个或两个以上。
以上所述仅为本申请的实施例而已,并不用于限制本申请的保护范围,对于本领域的技术人员来说,本申请可以有各种更改和变化。凡在本申请的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本申请的保护范围之内。

Claims (18)

1.一种钓鱼邮件检测方法,其特征在于,包括:
根据待测邮件的邮件内容对所述待测邮件进行检测,得到第一检测结果;所述待测邮件的邮件内容包括邮件头、邮件正文和邮件脚本;
根据所述第一检测结果确定所述待测邮件是否为钓鱼邮件。
2.如权利要求1所述的钓鱼邮件检测方法,其特征在于,所述根据待测邮件的邮件内容对所述待测邮件进行检测,得到第一检测结果,包括:
采用多个不同的分类模型分别对所述待测邮件的邮件内容进行检测,得到各所述分类模型的检测结果;
根据各所述分类模型的检测结果确定所述第一检测结果。
3.如权利要求1所述的钓鱼邮件检测方法,其特征在于,在所述待测邮件的邮件正文中携带有URL时,所述方法还包括:
对所述URL进行检测,得到第二检测结果;
根据所述第一检测结果确定所述待测邮件是否为钓鱼邮件,包括:
根据所述第一检测结果和所述第二检测结果确定所述待测邮件是否为钓鱼邮件。
4.如权利要求3所述的钓鱼邮件检测方法,其特征在于,对所述URL进行检测,得到第二检测结果,包括:
在处于联网状态时,采用第一策略对所述URL进行联网检测,得到所述第二检测结果;
在处于未联网状态时,采用第二策略对所述URL进行本地检测,得到所述第二检测结果。
5.如权利要求4所述的钓鱼邮件检测方法,其特征在于,采用第一策略对所述URL进行联网检测,包括:
采用云端URL检测模型对所述URL进行检测,且打开所述URL所对应目标页面,检测所述目标页面中是否包含敏感登录元素,并检测所述目标页面中是否包含登录框;
其中,所述云端URL检测模型为保存在云端的URL检测模型。
6.如权利要求5所述的钓鱼邮件检测方法,其特征在于,检测所述目标页面中是否包含登录框,包括:
采用图片登录框检测模型检测所述目标页面中是否包含登录框;其中,所述图片登录框检测模型通过以下方式训练得到:
使用K-means算法对训练集中标注的登录框按照尺寸大小进行分类,并根据每类中的登录框的尺寸大小确定出各类对应的先验框的尺寸大小;
使用EfficientNet网络对所述训练集进行特征提取并输出检测出的候选框;其中,所述特征提取过程中存在多次下采样,每次下采样过程中使用与该次下采样相对应的尺寸大小的先验框进行特征框选,以输出所述候选框;
根据各所述候选框的位置和所述训练集中的标注的登录框的位置将所述训练集的样本分为正样本和负样本;
将所述正样本和所述负样本输入至图片登录框检测模型进行迭代训练;其中,所述图片登录框检测模型的主干网络为EfficientNet网络。
7.如权利要求5所述的钓鱼邮件检测方法,其特征在于,在采用URL检测模型对所述URL进行检测,且打开所述URL所对应目标页面之前,所述方法还包括:
确定所述URL是否存在于预设的钓鱼URL库中。
8.如权利要求4所述的钓鱼邮件检测方法,其特征在于,采用第二策略对所述URL进行本地检测,包括:
采用本地URL检测模型对所述URL进行检测;其中,所述本地URL检测模型为本地保存的URL检测模型。
9.如权利要求1所述的钓鱼邮件检测方法,其特征在于,所述待测邮件的中携带有附件;所述方法还包括:
根据所述附件的类型,对所述附件进行处理。
10.如权利要求9所述的钓鱼邮件检测方法,其特征在于,根据所述附件的类型,对所述附件进行处理,包括:
若所述附件为邮件格式,将所述附件的内容合并至所述邮件正文中。
11.如权利要求9所述的钓鱼邮件检测方法,其特征在于,根据所述附件的类型,对所述附件进行处理,包括:
若所述附件为网页文件格式,对所述附件中携带的URL进行检测,并检测所述附件中是否包含敏感登录元素,以得到第三检测结果;
根据所述第一检测结果确定所述待测邮件是否为钓鱼邮件,包括:
根据所述第一检测结果和所述第三检测结果确定所述待测邮件是否为钓鱼邮件。
12.如权利要求9所述的钓鱼邮件检测方法,其特征在于,根据所述附件的类型,对所述附件进行处理,包括:
若所述附件为文本文件格式,检测所述附件是否携带有URL,并在携带有所述URL时,提取所述URL进行检测,以得到第四检测结果;
根据所述第一检测结果确定所述待测邮件是否为钓鱼邮件,包括:
根据所述第一检测结果和所述第四检测结果确定所述待测邮件是否为钓鱼邮件。
13.如权利要求9所述的钓鱼邮件检测方法,其特征在于,在根据所述附件的类型,对所述附件进行处理之前,所述方法还包括:
采用沙箱检测技术对所述附件的动态特征和静态特征进行检测。
14.如权利要求1-13任一项所述的钓鱼邮件检测方法,其特征在于,在根据待测邮件的邮件内容对所述待测邮件进行检测,得到第一检测结果之前,所述方法还包括:
根据所述待测邮件的发件人和/或收件人的收发件历史行为数据,确定所述待测邮件是否为可疑邮件。
15.如权利要求14所述的钓鱼邮件检测方法,其特征在于,在确定所述待测邮件为可疑邮件之后,所述方法还包括:
采用分类模型对所述待测邮件的邮件内容进行检查,确定所述待测邮件是否为风险邮件;
若检查结果为风险邮件,则转入执行根据待测邮件的邮件内容对所述待测邮件进行检测,得到第一检测结果的步骤。
16.一种钓鱼邮件检测装置,其特征在于,包括:
钓鱼邮件内容检测模块,用于根据待测邮件的邮件内容对所述待测邮件进行检测,得到第一检测结果;所述待测邮件的邮件内容包括邮件头、邮件正文和邮件脚本;
结果确定模块,用于根据所述第一检测结果确定所述待测邮件是否为钓鱼邮件。
17.一种电子设备,其特征在于,包括:处理器及存储器;所述处理器用于执行所述存储器中存储的程序,以实现如权利要求1至15中任一项所述的钓鱼邮件检测方法。
18.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质存储有一个或者多个程序,所述一个或者多个程序可被一个或者多个处理器执行,以实现如权利要求1至15中任一项所述的钓鱼邮件检测方法。
CN202211541938.5A 2022-12-02 2022-12-02 钓鱼邮件检测方法、装置、电子设备及可读存储介质 Pending CN116318781A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202211541938.5A CN116318781A (zh) 2022-12-02 2022-12-02 钓鱼邮件检测方法、装置、电子设备及可读存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202211541938.5A CN116318781A (zh) 2022-12-02 2022-12-02 钓鱼邮件检测方法、装置、电子设备及可读存储介质

Publications (1)

Publication Number Publication Date
CN116318781A true CN116318781A (zh) 2023-06-23

Family

ID=86831142

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202211541938.5A Pending CN116318781A (zh) 2022-12-02 2022-12-02 钓鱼邮件检测方法、装置、电子设备及可读存储介质

Country Status (1)

Country Link
CN (1) CN116318781A (zh)

Similar Documents

Publication Publication Date Title
US11516223B2 (en) Secure personalized trust-based messages classification system and method
US9621570B2 (en) System and method for selectively evolving phishing detection rules
JP5990284B2 (ja) キャラクター・ヒストグラムを用いるスパム検出のシステムおよび方法
RU2601190C2 (ru) Система и способы обнаружения спама с помощью частотных спектров строк символов
CN111107048B (zh) 一种钓鱼网站检测方法、装置和存储介质
WO2019067993A1 (en) DETECTION OF STRIKING ATTACK
US20170289082A1 (en) Method and device for identifying spam mail
Naiemi et al. An efficient character recognition method using enhanced HOG for spam image detection
US20220030029A1 (en) Phishing Protection Methods and Systems
RU2676247C1 (ru) Способ и компьютерное устройство для кластеризации веб-ресурсов
US9332031B1 (en) Categorizing accounts based on associated images
Prusty et al. SMS Fraud detection using machine learning
CN116738369A (zh) 一种流量数据的分类方法、装置、设备及存储介质
US11632395B2 (en) Method for detecting webpage spoofing attacks
US20230171287A1 (en) System and method for identifying a phishing email
CN115688107A (zh) 一种涉诈app检测系统和方法
Dhavale Advanced image-based spam detection and filtering techniques
CN116318781A (zh) 钓鱼邮件检测方法、装置、电子设备及可读存储介质
CN113746814A (zh) 邮件处理方法、装置、电子设备及存储介质
Youn et al. Improved spam filter via handling of text embedded image e-mail
Tham et al. Phishing message detection based on keyword matching
Joshi et al. Strengthening Cybersecurity: A Comparative Study of KNN and Random Forest for Spam Detection
US20220358289A1 (en) User-agent anomaly detection using sentence embedding
US20230291764A1 (en) Content-based socially-engineered threat classifier
EP4044503A1 (en) System and method for creating heuristic rules to detect fraudulent emails classified as business email compromise attacks

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination