CN117857197A - 确定风险邮件的方法、装置、处理设备及存储介质 - Google Patents

确定风险邮件的方法、装置、处理设备及存储介质 Download PDF

Info

Publication number
CN117857197A
CN117857197A CN202410070821.6A CN202410070821A CN117857197A CN 117857197 A CN117857197 A CN 117857197A CN 202410070821 A CN202410070821 A CN 202410070821A CN 117857197 A CN117857197 A CN 117857197A
Authority
CN
China
Prior art keywords
mail
risk
information
detected
result
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202410070821.6A
Other languages
English (en)
Inventor
盛洋
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sina Technology China Co Ltd
Original Assignee
Sina Technology China Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sina Technology China Co Ltd filed Critical Sina Technology China Co Ltd
Priority to CN202410070821.6A priority Critical patent/CN117857197A/zh
Publication of CN117857197A publication Critical patent/CN117857197A/zh
Pending legal-status Critical Current

Links

Landscapes

  • Information Transfer Between Computers (AREA)
  • Data Exchanges In Wide-Area Networks (AREA)

Abstract

本公开实施例公开了一种确定风险邮件的方法、装置、处理设备及存储介质。所述方法包括:获取待检测邮件的特征信息;比较所述特征信息与参考信息,获得比较结果,所述参考信息包括风险邮件具备的风险特征;将所述特征信息输入预先训练的识别模型进行风险邮件的特征识别,获得识别结果;基于所述比较结果和所述识别结果,确定所述待检测邮件是否为风险邮件。本公开实施例的确定结果更加准确且确定效率高。

Description

确定风险邮件的方法、装置、处理设备及存储介质
技术领域
本公开涉及且不限于邮件技术领域,尤其涉及一种确定风险邮件的方法、装置、处理设备及存储介质。
背景技术
邮件安全是提升信息安全的重要方面。其中,钓鱼垃圾邮件的识别至关重要。相关技术中,用于对钓鱼垃圾邮件进行威胁判断的邮件威胁检测系统单一,且受制于邮件威胁判断的策略,导致无法高效且准确地确定出钓鱼垃圾邮件,从而会带来各种安全风险。
发明内容
有鉴于此,本公开实施例公开了一种确定风险邮件的方法、装置、处理设备及存储介质,以至少实现高效且准确地识别风险邮件。
根据本公开实施例的第一方面,提供一种确定风险邮件的方法,所述方法包括:
获取待检测邮件的特征信息,所述特征信息表征所述待检测邮件相关的属性信息和/或告警信息;
比较所述特征信息与参考信息,获得比较结果,所述参考信息包括风险邮件具备的风险特征;
将所述特征信息输入预先训练的识别模型进行风险邮件的特征识别,获得识别结果;所述识别结果用于指示所述待检测邮件为风险邮件的风险程度;
基于所述比较结果和所述识别结果,确定所述待检测邮件是否为风险邮件。
在一些实施例中,所述方法还包括:
更新所述参考信息。
在一些实施例中,所述特征信息包括至少两个特征;所述比较结果包括所述至少两个特征分别与所述参考信息包括的风险特征进行比较后,获得的至少两个比较子结果;所述识别结果包括所述识别模型分别对所述至少两个特征进行风险邮件的特征识别后,获得的至少两个识别子结果。
在一些实施例中,所述方法还包括:
获取对所述至少两个所述比较子结果进行加权求和处理得到的第一加权结果;
获取对所述至少两个识别子结果进行加权求和处理得到的第二加权结果;
所述基于所述比较结果和所述识别结果,确定所述待检测邮件是否为风险邮件,包括:
基于所述第一加权结果和所述第二加权结果确定所述待检测邮件对应的加权值;
基于所述加权值确定所述待检测邮件是否为风险邮件。
在一些实施例中,所述方法还包括:
基于所述加权值确定所述待检测邮件的风险等级;
其中,所述风险等级包括以下至少之一:低风险等级、中风险等级和高风险等级;
基于所述风险等级生成相应的告警信息,并输出所述告警信息。
在一些实施例中,所述获取待检测邮件的特征信息,包括:
基于预定信息获取所述待检测邮件的特征信息;
其中,所述预定信息包括以下至少之一:
防火墙邮件告警信息,所述防火墙邮件告警信息基于防火墙的邮件检测策略对经由所述防火墙的邮件进行检测得到;
网络流量镜像邮件分析系统信息,所述网络流量镜像邮件分析系统信息包括对网络流量进行镜像后分析得到的邮件属性信息。
在一些实施例中,所述方法还包括:
利用防火墙邮件告警信息包含的样本邮件的特征信息训练初始化的第一识别模型直至满足预定条件,得到训练后的所述识别模型。
在一些实施例中,所述特征信息包括以下特征中至少之一:发件人、收件人、邮件标题、邮件正文、恶意外部链接、威胁名称和时间戳。
根据本公开实施例的第二方面,提供一种确定风险邮件的装置,所述装置包括:
获取模块,被配置为:获取待检测邮件的特征信息,所述特征信息表征所述待检测邮件相关的属性信息和/或告警信息;
比较模块,被配置为:比较所述特征信息与参考信息,获得比较结果,所述参考信息包括风险邮件具备的风险特征;
获取模块,还被配置为:将所述特征信息输入预先训练的识别模型进行风险邮件的特征识别,获得识别结果;所述识别结果用于指示所述待检测邮件为风险邮件的风险程度;
确定模块,被配置为:基于所述比较结果和所述识别结果,确定所述待检测邮件是否为风险邮件。
根据本公开实施例的第三方面,提供一种处理设备,所述处理设备包括:
存储器,用于存储可执行程序;
处理器,用于执行所述存储器中存储的可执行程序时,实现如本公开实施例中任一所述的方法。
根据本公开实施例的第四方面,提供一种计算机存储介质,所述计算机存储介质存储有可执行程序,所述可执行程序被处理器执行时,实现如本公开实施例中任一所述的方法。
本公开实施例中,获取待检测邮件的特征信息,所述特征信息表征所述待检测邮件相关的属性信息和/或告警信息。如此,在获取到所述待检测邮件的特征信息后,可以将所述特征信息用于确定所述待检测邮件是否为风险邮件。比较所述特征信息与参考信息,获得比较结果,所述参考信息包括风险邮件具备的风险特征。如此,可以基于所述参考信息通过比较获得所述特征信息是否为风险邮件具备的风险特征的比较结果。将所述特征信息输入预先训练的识别模型进行风险邮件的特征识别,获得识别结果;所述识别结果用于指示所述待检测邮件为风险邮件的风险程度。如此,可以通过利用识别模型识别所述待检测邮件为风险邮件的风险程度。基于所述比较结果和所述识别结果,确定所述待检测邮件是否为风险邮件。如此,可以融合所述比较结果和所述识别结果,共同确定所述待检测邮件是否为风险邮件。一方面,相较于利用单方面的确定结果判断所述待检测邮件是否为风险邮件的方式,综合所述比较结果和所述识别结果获得的判断结果会更加准确。另一方面,由于比较结果是基于参考信息确定的,参考信息的更新可以非常快捷,可以随时更新所述参考信息,无需进行训练,简单方面,效率更高,能够高效快捷地确定出所述待检测邮件是否为风险邮件。
附图说明
图1为根据一示例性实施例示出的一种确定风险邮件的方法的流程示意图。
图2为根据一示例性实施例示出的一种确定风险邮件的系统示意图。
图3为根据一示例性实施例示出的一种数据处理的处理模块的示意图。
图4为根据一示例性实施例示出的一种确定风险邮件的装置的示意图。
具体实施方式
为了使本发明的目的、技术方案和优点更加清楚,下面将结合附图对本发明作进一步地详细描述,所描述的实施例不应视为对本发明的限制,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例,都属于本发明保护的范围。
在以下的描述中,涉及到“一些实施例”,其描述了所有可能实施例的子集,但是可以理解,“一些实施例”可以是所有可能实施例的相同子集或不同子集,并且可以在不冲突的情况下相互结合。
在以下的描述中,所涉及的术语“第一\第二\第三”仅仅是区别类似的对象,不代表针对对象的特定排序,可以理解地,“第一\第二\第三”在允许的情况下可以互换特定的顺序或先后次序,以使这里描述的本发明实施例能够以除了在这里图示或描述的以外的顺序实施。
除非另有定义,本文所使用的所有的技术和科学术语与属于本发明的技术领域的技术人员通常理解的含义相同。本文中所使用的术语只是为了描述本发明实施例的目的,不是旨在限制本发明。
为了更好地理解本公开实施例,以下通过示例性实施例对相关技术中的场景进行说明:
在一些实施例中,基于单一邮件威胁检测系统,对企业的钓鱼垃圾邮件进行威胁判断,由于独立监测系统或者闭源商业系统,受到自身邮件威胁判断策略限制,会出现因策略不全或者更新不及时产生威胁邮件检测遗漏。同时,对于本地新增加的钓鱼垃圾邮件,实时更新检测策略的响应速度慢。因此在判断的威胁的完整性与即时型方面有提升效率的空间。面对复杂的多变的外部邮件投递威胁,采用多系统联合策略判定邮件威胁、即时更新自定义威胁策略并采用大型语言模型建模技术方法,判断钓鱼垃圾邮件,能够更准确的判断邮件威胁性,采用大型语言模型对话方式的威胁判定与应用程序接口(API,ApplicationProgramming Interface)式的邮件威胁判定,提高用户和安全运营人员对威胁邮件的判断的便利性与准确性,减少因为钓鱼垃圾邮件产生的安全事件带来的损失,提高邮件系统的安全性。
在一些实施例中,单一系统维度判定钓鱼垃圾邮件,会出现因检测策略不全,或者威胁邮件判断的遗漏或者新邮件威胁判定策略增加更新不及时所产生安全事件带来的损失的问题。随着外部钓鱼垃圾邮件和复杂多样的投递形式出现。单一邮件检测系统或者单一维度的钓鱼垃圾邮件的判定,依赖本身系统策略的全面性,如果系统策略遗漏,会造威胁邮件判定的遗漏,需要复合各种系统判定策略,采用新的威胁判定联联机制,减少钓鱼垃圾邮件判断处理的遗漏,相关技术中的封闭的邮件检测系统缺少人为策略的即时追加更新、随着大型语言模型技术的发展,基于传统模式的威胁邮件判定机制,引入大语言模型系统模式,基于规则策略的判定模式之外,引于大型语言模型的模式判断机制,基于告警信息生成样本数据进行训练,在传统基于邮件判定模式外,可以实现钓鱼垃圾邮件的风险预测推理,检测策略可以发现的基于邮件的攻击更多,同时降低邮件威胁分析策略的维护成本。通过日志聚合的关联分析,大型语言模型的训练数据样本的设计、即时更新的钓鱼垃圾邮件判定策略机制的加入,让钓鱼垃圾邮件,发现更及时,判断更准确,提高企业邮件系统的安全性,减少邮件安全带来的各种损失。
如图1所示,本公开实施例中提供了一种确定风险邮件的方法,所述方法包括:
步骤S11、获取待检测邮件的特征信息,所述特征信息表征所述待检测邮件相关的属性信息和/或告警信息;
步骤S12、比较所述特征信息与参考信息,获得比较结果,所述参考信息包括风险邮件具备的风险特征;
步骤S13、将所述特征信息输入预先训练的识别模型进行风险邮件的特征识别,获得识别结果;所述识别结果用于指示所述待检测邮件为风险邮件的风险程度;
步骤S14、基于所述比较结果和所述识别结果,确定所述待检测邮件是否为风险邮件。
本公开实施例可以应用于各类与邮件传输相关的处理模块、装置和设备中。例如,可以应用于终端中,也可以应用于服务器中,在此不做限定。
在一些实施例中,待检测邮件可能是风险邮件也可能不是风险邮件。风险邮件可以是携带风险信息的邮件或者为可能带来安全风险的邮件。示例性地,风险邮件可以是钓鱼垃圾邮件。
在一些实施例中,属性特征可以是与邮件属性相关的属性信息和/或告警信息,示例性地,所述特征信息包括以下特征中至少之一的属性特征:发件人、收件人、邮件标题、邮件正文、恶意外部链接、威胁名称和时间戳。
示例性地,如果特征信息包括第一发件人,第一发件人为黑名单中的发件人,则第一发件人为风险邮件的特征。
在一些实施例中,可以是周期性地获取所述待检测邮件的特征信息。
在一些实施例中,基于预定信息获取所述待检测邮件的特征信息;其中,所述预定信息包括以下至少之一:防火墙邮件告警信息;网络流量镜像邮件分析系统信息;所述特征信息表征所述待检测邮件的属性特征。比较所述特征信息与参考信息,获得比较结果,所述参考信息包括风险邮件具备的风险特征。将所述特征信息输入预先训练的识别模型进行风险邮件的特征识别,获得识别结果;所述识别结果用于指示所述待检测邮件为风险邮件的风险程度。基于所述比较结果和所述识别结果,确定所述待检测邮件是否为风险邮件。
在一些实施例中,所述防火墙邮件告警信息基于防火墙的邮件检测策略对经由所述防火墙的邮件进行检测得到。
在一些实施例中,所述网络流量镜像邮件分析系统信息包括对网络流量进行镜像后分析得到的邮件属性信息。
在一些实施例中,预定信息可以是防火墙邮件告警信息。防火墙系统可以基于防火墙自身的邮件检测策略分析邮件的风险,获得防火墙邮件告警信息。
在一些实施例中,基于防火墙的邮件检测策略对经由所述防火墙的邮件进行检测,获取所述防火墙邮件告警信息。
示例性地,防火墙可以通过邮件的标题、正文和/或发送者等相关信息的判断,确定邮件是否是钓鱼垃圾邮件,并输出威胁告警信息,即防火墙邮件告警信息。
在一些实施例中,防火墙邮件告警信息可以是Syslog告警日志。防火墙可以对外输出Syslog告警日志。
例如,防火墙邮件告警信息发送给日志中心进行日志聚合,日志中心在接收到Syslog告警日志的数据后,可以将数据保存到数据库中,如此,可以直接从数据库获取Syslog告警日志,即所述预定信息。
在一些实施例中,日志中心可以是Graylog日志中心,Graylog日志中心创建一个用户数据报协议(UDP,User Datagram Protocol)的用于网络数据接收的监听应用服务,防火墙服务通过Graylog服务器创建的UDP端口向数据监听应用服务发送告警数据。Graylog日志中心数据监听应用服务在收到数据后对数据格式进行格式整型,保存到ElasticSearch集群数据库中。
示例性地,日志格式如下:
【发件人】【收件人】【邮件标题】【邮件正文】【恶意外链】【威胁名称】【时间戳】
在一些实施例中,可以将上述日志写入ElasticSearch数据库索引表中保存。示例性地,形成下面信息日志,拆分的字段如下:
【索引名】【发件人】【收件人】【邮件标题】【邮件正文】【恶意外链】【威胁名称】【时间戳】
需要说明的是,【索引名】是指ElasticSearch的表索引名,相当于MYSQL中的表名。
在一些实施例中,预定信息可以是网络流量镜像邮件分析系统信息。
在一些实施例中,网络流量镜像邮件分析系统,对网络流量先进行网络流量镜像,再分析出网络流量中的邮件信息(本公开中,也可以是邮件属性信息),并将邮件信息生成文本,然后由Nxlog软件将邮件相关信息以Syslog协议形式发送给Graylog日志中心,日志中心创建数据监听应用,收到数据后,整理数据格式,保存到数据库中。
在一些实施例中,Nxlog将从流量中找到并保存到本地的邮件文本日志信息,发给Graylog创建的用于网络数据接收的监听应用服务,监听应用服务在收到数据格后做格式整理,保存到数据库中,数据格式,如下:
【发件人】【收件人】【邮件标题】【邮件正文】【时间戳】
在一个实施例中,写入ElasticSearch数据库索引表中保存,形成下面信息,拆分的字段如下:
【索引名】【发件人】【收件人】【邮件标题】【邮件正文】【时间戳】
在一些实施例中,【索引名】是指ElasticSearch的表索引名,相当于MYSQL中的表名。
在一些实施例中,可以更新所述参考信息。例如,响应于出现新的钓鱼垃圾邮件,更新所述参考信息。如此,可以将最新出现的风险邮件的特征应用于风险邮件的判断中。
在一些实施例中,获取待检测邮件的特征信息,所述特征信息表征所述待检测邮件相关的属性信息和/或告警信息。更新参考信息,比较所述特征信息与所述参考信息,获得比较结果,所述参考信息包括风险邮件具备的风险特征。将所述特征信息输入预先训练的识别模型进行风险邮件的特征识别,获得识别结果;所述识别结果用于指示所述待检测邮件为风险邮件的风险程度。基于所述比较结果和所述识别结果,确定所述待检测邮件是否为风险邮件。
在一些实施例中,参考信息即为风险邮件的风险特征的信息,如此,可以直接对比所述特征信息和所述风险邮件的风险特征,从而可以确定包含所述特征信息的待检测邮件是否为风险邮件。
在一些实施例中,参考信息可以是由风险邮件的风险特征形成的规则信息,如此可以通过对比确定所述特征信息是否符合所述规则信息指示的规则,从而可以确定包含所述特征信息的待检测邮件是否为风险邮件。
在一些实施例中,所述参考信息可以是与风险邮件关联的风险特征。
在一些实施例中,可以基于规则创建API创建所述参考信息。示例性的,可以是通过用户界面(UI,User Interface)调用规则创建API创建所述参考信息。
在一些实施例中,可以将所述参考信息写入数据库,参考信息的格式字段可以是:
【规则名】【规则类型】【检测规则】【威胁名称】【创建时间】
在一些实施例中,可以将参考信息写入MySQL数据库索引表中保存,形成下面信息日志。示例性地,拆分的字段如下。
【表名】【规则名】【规则类型】【检测规则】【威胁名称】【创建时间】
需要说明的是:【表名】是指MySQL数据的的表名。
在一些实施例中,获取待检测邮件的特征信息,所述特征信息表征所述待检测邮件相关的属性信息和/或告警信息。比较所述特征信息与参考信息,获得比较结果,所述参考信息包括风险邮件具备的风险特征。利用防火墙邮件告警信息包含的样本邮件的特征信息训练初始化的第一识别模型直至满足预定条件,得到训练后的所述识别模型。将所述特征信息输入识别模型进行风险邮件的特征识别,获得识别结果;所述识别结果用于指示所述待检测邮件为风险邮件的风险程度。基于所述比较结果和所述识别结果,确定所述待检测邮件是否为风险邮件。
在一些实施例中,识别模型可以是大型语言模型。可以从Graylog日志中心读取防火墙钓鱼垃圾邮件告警信息,将钓鱼垃圾邮件告警信息的数据转换成大型语言模型样本数据需要的数据格式。在利用样本数据训练大型语言模型成功后,将待检测邮件的特征信息输入大型语言模型,用大型语言模型预测判断待检测邮件是否为钓鱼垃圾邮件。
示例性地,通过Graylog日志中心提供的数据查询API,取得防火墙邮件告警信息,并将防火墙邮件告警信息转换成大型语言模型样本数据需要的数据格式,供大型语言模型的训练使用,并保存数据。例如,保存数据的格式如下:
【正文】【总结】
大型语言模型需要的训练样本数据字段,对应【防火墙邮件告警信息】的规则,可以如下:
【威胁名称】对应值:钓鱼垃圾邮件
在一些实施例中,大型语言模型字段的【正文】的取值,对应【防火墙邮件告警信息】中的【发件人】【邮件标题】【邮件正文】【恶意外链】任意一个值,就形成为一条样本记录,一条【防火墙邮件告警信息】告警信息,对应多条大型模型样本数据的多条数据记录。上述恶意外链可以是恶意外部链接。
示例性地,数据样本样例,如下:
【正文】【总结】【时间戳】
【发件人】【威胁名称】【时间戳】
【邮件标题】【威胁名称】【时间戳】
【邮件正文】【威胁名称】【时间戳】
【恶意外链】【威胁名称】【时间戳】
在一些实施例中,将上述数据写入ElasticSearch数据库索引表中保存,形成下面信息日志,拆分的字段如下:
【索引名】【正文】【总结】【时间戳】。
在一些实施例中,获取待检测邮件的特征信息,所述特征信息表征所述待检测邮件相关的属性信息和/或告警信息。比较所述特征信息与参考信息,获得比较结果,所述参考信息包括风险邮件具备的风险特征;所述特征信息包括至少两个特征;所述比较结果包括所述至少两个特征分别与所述参考信息包括的风险特征进行比较后,获得的至少两个比较子结果。将所述特征信息输入识别模型进行待检测邮件是否为风险邮件的特征识别,获得识别结果;所述识别结果包括所述识别模型分别对所述至少两个特征进行风险邮件的特征识别后,获得的至少两个识别子结果。基于所述比较结果和所述识别结果,确定所述待检测邮件是否为风险邮件。
在一些实施例中,所述特征信息包括至少两个特征。
在一些实施例中,所述比较结果包括所述至少两个特征分别与所述参考信息包括的风险特征进行比较后,获得至少两个的比较子结果。
在一些实施例中,参考信息可以是自定义邮件检测规则的信息。
在一些实施例中,周期定时读取【网络流量镜像邮件分析系统信息】中邮件信息的【发件人】【收件人】【邮件标题】【邮件正文】【时间戳】信息,用【发件人】【邮件标题】【邮件正文】的内容分别与【自定义邮件报警规则信息】的不同的【检测类型】的【检测规则】进行对比(或者匹配),对应获得对比结果,可以根据对比结果进行计分。
在一些实施例中,计分规则可以是:周期性地取得邮件信息记录多条(多个待检测邮件),从第一条读取到最后一条记录,其中,针对每一条邮件信息,处理包括以下至少之一:
当邮件信息中的【发件人】有匹配【自定义邮件检测规则】中对应【检测类型】是【发件人】的规则时,安全威胁分加1分(可以作为第一比较结果);
当邮件信息中的【邮件标题】有匹配【自定义邮件检测规则】中对应【检测类型】是【邮件标题】的规则时,安全威胁分加1分(可以作为第二比较结果);
当邮件信息中的【邮件正文】有匹配【自定义邮件检测规则】中对应【检测类型】是【邮件正文】的规则时,安全威胁分加1分(可以作为第三比较结果)。
从邮件信息中的【邮件正文】中取得所有的URL(1...N个),有匹配【自定义邮件检测规则】中对应【检测类型】是【恶意链接】的规则时,安全威胁分加1分(可以作为第四比较结果)。
在一些实施例中,所述识别结果包括所述识别模型分别对所述至少两个特征进行风险邮件的特征识别后,获得的至少两个识别子结果。
在一些实施例中,用取得的邮件信息的【发件人】【邮件标题】【邮件正文】分别作为提示词(特征信息),向大语言模型系统进行提问(即将特征信息输入识别模型),可以对提问的结果进行计分。
在一些实施例中,计分规则可以包括以下至少之一:
将【发件人】信息输入大型语言模型,大型语言模型的判定结果是“钓鱼垃圾邮件”,安全威胁分加1分(对应第一识别结果);
将【邮件标题】信息输入大型语言模型,大型语言模型的判定结果是“钓鱼垃圾邮件”,安全威胁分加1分(对应第二识别结果);
将【邮件正文】信息输入大型语言模型,大型语言模型的判定结果是“钓鱼垃圾邮件”,安全威胁分加1分(对应第三识别结果);
将【邮件正文】中的所有的URL链接信息(1...N个)输入大型语言模型,大型语言模型的判定结果是“钓鱼垃圾邮件”,安全威胁分加1分(对应第四识别结果)。
在一些实施例中,获取待检测邮件的特征信息,所述特征信息表征所述待检测邮件相关的属性信息和/或告警信息。比较所述特征信息与参考信息,获得比较结果,所述参考信息包括风险邮件具备的风险特征。将所述特征信息输入预先训练的识别模型进行风险邮件的特征识别,获得识别结果;所述识别结果用于指示所述待检测邮件为风险邮件的风险程度。获取对所述至少两个比较子结果进行加权求和处理得到的第一加权结果;获取对所述至少两个识别子结果进行加权求和处理得到的第二加权结果;基于所述第一加权结果和所述第二加权结果确定所述待检测邮件对应的加权值;基于所述加权值确定所述待检测邮件是否为风险邮件。
示例性地,第一加权结果为第一比较结果、第二比较结果、第三比较结果和第四比较结果的加权和(即各自计分的总计分)。
示例性地,第二加权结果为第一识别结果、第二识别结果、第三识别结果和第四识别结果的加权和(即各自计分的总计分)。
在一些实施例中,加权值大于阈值,确定待检测邮件为风险邮件,加权值小于阈值,确定待检测邮件不为风险邮件。
在一些实施例中,获取待检测邮件的特征信息,;所述识别结果用于指示所述待检测邮件为风险邮件的风险程度。比较所述特征信息与参考信息,获得比较结果,所述参考信息包括风险邮件的特征。将所述特征信息输入预先训练的识别模型进行风险邮件的特征识别,获得识别结果;所述识别结果用于指示所述待检测邮件为风险邮件的风险程度。基于所述比较结果和所述识别结果,确定所述待检测邮件是否为风险邮件。基于所述加权值确定所述待检测邮件的风险等级;其中,所述风险等级包括以下至少之一:低风险等级、中风险等级和高风险等级。
需要说明的是,加权值越高,安全风险越大、分数越大,待检测邮件是钓鱼垃圾邮件的可信度越高。
示例性地,示出了加权值与风险等级之间的关系:
【1-2分】:低风险等级(低可信);
【3-4分】:中风险等级(中可信);
【>4分】:高风险等级(高可信)。
在一些实施例中,获取待检测邮件的特征信息,所述特征信息表征所述待检测邮件相关的属性信息和/或告警信息。比较所述特征信息与参考信息,获得比较结果,所述参考信息包括风险邮件具备的风险特征。将所述特征信息输入预先训练的识别模型进行风险邮件的特征识别,获得识别结果;所述识别结果用于指示所述待检测邮件为风险邮件的风险程度。基于所述比较结果和所述识别结果,确定所述待检测邮件是否为风险邮件。确定所述待检测邮件的风险等级;其中,所述风险等级包括以下至少之一:低风险等级、中风险等级和高风险等级。基于所述风险等级生成响应的告警信息;输出所述告警信息。
本公开实施例中,获取待检测邮件的特征信息,所述特征信息表征所述待检测邮件相关的属性信息和/告警信息。如此,在获取到所述待检测邮件的特征信息后,可以将所述特征信息用于确定所述待检测邮件是否为风险邮件。比较所述特征信息与参考信息,获得比较结果,所述参考信息包括风险邮件具备的风险特征。如此,可以基于所述参考信息通过比较获得所述特征信息是否为风险邮件具备的风险特征的比较结果。将所述特征信息输入预先训练的识别模型进行风险邮件的特征识别,获得识别结果;所述识别结果用于指示所述待检测邮件为风险邮件的风险程度。如此,可以通过利用识别模型识别所述待检测邮件为风险邮件的风险程度。基于所述比较结果和所述识别结果,确定所述待检测邮件是否为风险邮件。如此,可以融合所述比较结果和所述识别结果,共同确定所述待检测邮件是否为风险邮件。一方面,相较于利用单方面的确定结果判断所述待检测邮件是否为风险邮件的方式,综合所述比较结果和所述识别结果获得的判断结果会更加准确。另一方面,由于比较结果是基于参考信息确定的,参考信息的更新可以非常快捷,可以随时更新所述参考信息,无需进行训练,简单方面,效率更高,能够高效快捷地确定出所述待检测邮件是否为风险邮件。
需要说明的是,本领域内技术人员可以理解,本公开实施例提供的方法,可以被单独执行,也可以与本公开实施例中一些方法或相关技术中的一些方法一起被执行。
为了更好地理解本公开实施例,以下通过一个示例性实施例对本公开技术方案进行进一步说明:
本公开实施例的方案可以对待检测的钓鱼垃圾邮件进行关联分析,可以通过日志聚合后的数据关联分析,包括利用大语言模型判断钓鱼垃圾邮件,用防火墙邮件告警信息训练大语言模型。取得网络流量镜像中邮件信息,判断邮件的发件人、邮件正文、正文中恶意链接、邮件标题、是否符合自定义钓鱼垃圾邮件的特征规则定义。将邮件的发件人、邮件正文、正文中恶意链接、邮件标题,作为提示词,提问用防火墙告警日志作为样本数据,训练出的大型语言模型,判断回答中,是否明确表示提示词输入的内容属于钓鱼垃圾邮件威胁,再用打分计数机制,综合计算两种钓鱼垃圾邮件判定过程中的得分,基于得分算出,邮件的风险级别,风险级别用于判断钓鱼垃圾邮件的可信度,最后定位的收件人,生成告警信息,通知安全运营人员进行安全应急事件处理,减少因钓鱼垃圾邮件产生的安全事件、及带来的各种损失。
在一些实施例中,请参见图2,本公开实施例的方法应用的系统包括防火墙系统21、邮件检测规则管理系统22、网络流量镜像邮件分析系统23、钓鱼垃圾邮件分析日志采集系统24、Elastic Search日志采集数据库集群25、大型语言模型邮件威胁分析系统26、钓鱼垃圾邮件关联分析(系统)27、钓鱼垃圾邮件关联分析展示(系统)28、钓鱼垃圾邮件关联分析结果入库(系统)29和钓鱼垃圾邮件分析结果展示服务器30。
在一些实施例中,请参见图3,本公开实施例的方法应用的模块包括:防火墙邮件告警信息处理模块31、自定义邮件报警规则信息处理模块32、网络流量镜像分析邮件信息处理模块33、大模型邮件威胁检测规则样本信息处理模块34、钓鱼垃圾邮件关联分析模块35、钓鱼垃圾邮件关联分析结果入库模块36和钓鱼垃圾邮件关联分析结果展示模块37。
在一些实施例中,将防火墙邮件告警信息、网络流量镜像邮件分析系统信息、自定义邮件报警规则信息、大型语言模型威胁检测规则样本信息进行关联分析,涉及到如下至少之一的字段信息关联关系:
1、防火墙邮件告警信息
示例性地,格式如下:【发件人】【收件人】【邮件标题】【邮件正文】【恶意外链】【威胁名称】【时间戳】
2、网络流量镜像邮件分析系统信息
示例性地,格式如下:【发件人】【收件人】【邮件标题】【邮件正文】【时间戳】
3、自定义邮件报警规则信息
示例性地,格式如下:【规则名】【规则类型】【检测规则】【威胁名称】【创建时间】
其中,【检测类型】包括,正文内容文案检测、正文内含恶意外链检测、标题名检测、发送人邮箱地址检测。【创建时间】控制规则的有效期时间。
4、大型语言模型样本信息
大型语言模型威胁检测规则样本信息:
示例性地,将防火墙钓鱼垃圾告警信息、转换成大型语言模型样本进行训练,通过形成模型的API进行新邮件的威胁判断,样本数据格式,如下:
【发件人】【威胁名称】
【邮件标题】【威胁名称】
【邮件正文】【威胁名称】
【恶意链接】【威胁名称】
示例性地,对样本数据进行训练,形成大型语言模型判断威胁的API,通过API输入提示词(prompt),返回威胁名称。
【提示词】【模型回答】
示例性地,提示词输入的内容是,邮件标题、邮件正文内容、发件人邮箱、恶意链接,大型语言模型返回的回答中,含有明确的【威胁名称】是“钓鱼垃圾邮件”,可判定是钓鱼垃圾邮件。
5、防火墙告警信息到自定义邮件检测规则转换
示例性地,告警生成的过程,收集各种防火墙的【防火墙邮件告警信息】,将信息中的【发件人】【邮件标题】【恶意外链】【威胁名称】字段,自动转换成【自定义邮件报警规则信息】的规则格式形式,【规则名】【规则类型】【检测规则】【创建时间】。
示例性地,样例数据可以是:
规则1、恶意链接、abc.com、2023-08-10 15:00
规则2、邮件标题、测试邮件名、2023-08-10 15:00
规则3、发件人、abc@abc.com、2023-08-10 15:00
自定义规则内容,一种是从防火墙邮件告警日志中转化,一种是通过规则管理系统前端创建。
6、自定义邮件检测规则到大型语言模型样本的转换
示例性地,将【防火墙邮件告警信息】的【发件人】【邮件标题】【邮件正文】【威胁名称】【恶意链接】字段,进行大型语言模型训练用的样本数据转换格式。
【正文】|【总结】
--------------------
【发件人】【威胁名称】
【邮件标题】【威胁名称】
【邮件正文】【威胁名称】
【恶意链接】【威胁名称】
--------------------
样例数据:
abc@abc.com、钓鱼垃圾邮件
邮件标题名例1、钓鱼垃圾邮件
abc.com、钓鱼垃圾邮件
邮件正文例1、钓鱼垃圾邮件
示例性地,对样本数据进行训练,通过API询问大型语言模型、判定输入提示词内容从,是否有钓鱼垃圾邮件的特征,根据回答中是否有威胁名名称是“钓鱼垃圾邮件”判定。
7、威胁关联关系判定
a)自定义规则威胁关联关系判定
示例性地,周期定时读取【网络流量镜像邮件分析系统信息】中邮件信息的【发件人】【收件人】【邮件标题】【邮件正文】【时间戳】信息,用【发件人】【邮件标题】【邮件正文】的内容分别与【自定义邮件报警规则信息】的不同的【检测类型】的【检测规则】进行匹配,命中的计分规则,如下:
每一秒种,取得所有邮件信息记录多条,从第一条读取到最后一条记录,其中一条邮件信息,如下:
当邮件信息中的【发件人】有匹配【自定义邮件检测规则】对应【检测类型】是【发件人】的规则时,安全威胁分+1分
当邮件信息中的【邮件标题】有匹配【自定义邮件检测规则】对应【检测类型】是【邮件标题】的规则时,安全威胁分+1分
当邮件信息中的【邮件正文】有匹配【自定义邮件检测规则】对应【检测类型】是【邮件正文】的规则时,安全威胁分+1分
从邮件信息中的【邮件正文】中取得所有的URL(1...N个),有匹配【自定义邮件检测规则】命中对应【检测类型】是【恶意链接】的规则时,安全威胁分+1分
b)大型语言模型威胁关联关系判定:
用取得的邮件信息的【发件人】【邮件标题】【邮件正文】分别作为提示词,向大语言模型系统进行提问。
取得【发件人】信息作为提示词提问,大型语言模型回答判定是“钓鱼垃圾邮件”,安全威胁分+1分。
取得【邮件标题】信息作为提示词提问,大型语言模型回答判定是“钓鱼垃圾邮件”,安全威胁分+1分
取得【邮件正文】信息作为提示词提问,大型语言模型回答判定是“钓鱼垃圾邮件”,安全威胁分+1分
取得【邮件正文】中的所有的URL链接信息(1...N个),作为提示词提问,大型语言模型回答判定是“钓鱼垃圾邮件”,安全威胁分+1分
计算当前邮件信息的【收件人】,累计获得的安全威胁分数,进行安全等打分,分危险等级,分数越高,安全风险越大、分数越大,是钓鱼垃圾邮件的可信度越高。
【1-2分】:低危(低可信)
【3-4分】:中危(中可信)
【>4分】:高危(高可信)
在一些实施例中,生成告警信息,格式如下:
【发件人】【收件人】【邮件标题】【邮件正文】【威胁名称】【危险等级】【时间戳】。
需要说明的是,本领域内技术人员可以理解,本公开实施例提供的方法,可以被单独执行,也可以与本公开实施例中一些方法或相关技术中的一些方法一起被执行。
如图4所示,本公开实施例中提供了一种确定风险邮件的装置,所述装置包括:
获取模块41,被配置为:获取待检测邮件的特征信息,所述特征信息表征所述待检测邮件相关的属性和/或告警信息;
比较模块42,被配置为:比较所述特征信息与参考信息,获得比较结果,所述参考信息包括风险邮件具备的风险特征;
获取模块41,还被配置为:将所述特征信息输入预先训练的识别模型进行风险邮件的特征识别,获得识别结果;所述识别结果用于指示所述待检测邮件为风险邮件的风险程度;
确定模块43,被配置为:基于所述比较结果和所述识别结果,确定所述待检测邮件是否为风险邮件。
需要说明的是,本领域内技术人员可以理解,本公开实施例提供的方法,可以被单独执行,也可以与本公开实施例中一些方法或相关技术中的一些方法一起被执行。
本公开实施例提供了一种处理设备,所述处理设备包括:
存储器,用于存储可执行程序;
处理器,用于执行所述存储器中存储的可执行程序时,实现如本公开实施例中任一所述的方法。
可以理解,存储器可以是易失性存储器或非易失性存储器,也可包括易失性和非易失性存储器两者。其中,非易失性存储器可以是只读存储器(ROM,Read Only Memory)、可编程只读存储器(PROM,Programmable Read-Only Memory)、可擦除可编程只读存储器(EPROM,Erasable Programmable Read-Only Memory)、电可擦除可编程只读存储器(EEPROM,Electrically Erasable Programmable Read-Only Memory)、磁性随机存取存储器(FRAM,ferromagnetic random access memory)、快闪存储器(Flash Memory)、磁表面存储器、光盘、或只读光盘(CD-ROM,Compact Disc Read-Only Memory);磁表面存储器可以是磁盘存储器或磁带存储器。易失性存储器可以是随机存取存储器(RAM,Random AccessMemory),其用作外部高速缓存。通过示例性但不是限制性说明,许多形式的RAM可用,例如静态随机存取存储器(SRAM,Static Random Access Memory)、同步静态随机存取存储器(SSRAM,Synchronous Static Random Access Memory)、动态随机存取存储器(DRAM,Dynamic Random Access Memory)、同步动态随机存取存储器(SDRAM,SynchronousDynamic Random Access Memory)、双倍数据速率同步动态随机存取存储器(DDRSDRAM,Double Data Rate Synchronous Dynamic Random Access Memory)、增强型同步动态随机存取存储器(ESDRAM,Enhanced Synchronous Dynamic Random Access Memory)、同步连接动态随机存取存储器(SLDRAM,SyncLink Dynamic Random Access Memory)、直接内存总线随机存取存储器(DRRAM,Direct Rambus Random Access Memory)。本申请实施例描述的存储器旨在包括但不限于这些和任意其它适合类型的存储器。
其中,本发明揭示的方法可以应用于所述处理器中,或者由所述处理器实现。处理器可以是一种集成电路芯片,具有信号的处理能力。在实现过程中,语音转换的方法的各步骤可以通过处理器中的硬件的集成逻辑电路或者软件形式的指令完成。上述的处理器可以是通用处理器、数字信号处理器(DSP,Digital Signal Processor),或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。处理器可以实现或者执行本发明中的公开的各方法、步骤及逻辑框图。通用处理器可以是微处理器或者任何常规的处理器等。结合本发明所公开的方法的步骤,可以直接体现为硬件译码处理器执行完成,或者用译码处理器中的硬件及软件模块组合执行完成。软件模块可以位于存储介质中,该存储介质位于存储器,处理器读取存储器中的信息,结合其硬件完成本申请实施例提供的语音转换的方法的步骤。
本发明还提供了一种计算机存储介质,所述计算机存储介质存储有可执行程序,所述可执行程序被处理器执行时,实现如本公开实施例中任一所述的方法。具体可以是计算机可读存储介质,例如包括存储计算机程序的存储器,上述计算机程序可由处理设备的处理器执行,以完成本申请实施例方法所述的步骤。计算机可读存储介质可以是ROM、PROM、EPROM、EEPROM、Flash Memory、磁表面存储器、光盘、或CD-ROM等存储器。
以上所述,仅为本发明的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明披露的技术范围内,可轻易想到变化或替换,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应以权利要求的保护范围为准。

Claims (11)

1.一种确定风险邮件的方法,其特征在于,所述方法包括:
获取待检测邮件的特征信息,所述特征信息表征所述待检测邮件相关的属性信息和/或告警信息;
比较所述特征信息与参考信息,获得比较结果,所述参考信息包括风险邮件具备的风险特征;
将所述特征信息输入预先训练的识别模型进行风险邮件的特征识别,获得识别结果;所述识别结果用于指示所述待检测邮件为风险邮件的风险程度;
基于所述比较结果和所述识别结果,确定所述待检测邮件是否为风险邮件。
2.根据权利要求1所述的方法,其特征在于,所述方法还包括:
更新所述参考信息。
3.根据权利要求1所述的方法,其特征在于,所述特征信息包括至少两个特征;所述比较结果包括所述至少两个特征分别与所述参考信息包括的风险特征进行比较后,获得的至少两个比较子结果;所述识别结果包括所述识别模型分别对所述至少两个特征进行风险邮件的特征识别后,获得的至少两个识别子结果。
4.根据权利要求3所述的方法,其特征在于,所述方法还包括:
获取对所述至少两个比较子结果进行加权求和处理得到的第一加权结果;
获取对所述至少两个识别子结果进行加权求和处理得到的第二加权结果;
所述基于所述比较结果和所述识别结果,确定所述待检测邮件是否为风险邮件,包括:
基于所述第一加权结果和所述第二加权结果确定所述待检测邮件对应的加权值;
基于所述加权值确定所述待检测邮件是否为风险邮件。
5.根据权利要求4所述的方法,其特征在于,所述方法还包括:
基于所述加权值确定所述待检测邮件的风险等级;其中,所述风险等级包括以下至少之一:低风险等级、中风险等级和高风险等级;
基于所述风险等级生成相应的告警信息,并输出所述告警信息。
6.根据权利要求1所述的方法,其特征在于,所述获取待检测邮件的特征信息,包括:
基于预定信息获取所述待检测邮件的特征信息;
其中,所述预定信息包括以下至少之一:
防火墙邮件告警信息,所述防火墙邮件告警信息基于防火墙的邮件检测策略对经由所述防火墙的邮件进行检测得到;
网络流量镜像邮件分析系统信息,所述网络流量镜像邮件分析系统信息包括对网络流量进行镜像后分析得到的邮件属性信息。
7.根据权利要求1所述的方法,其特征在于,所述方法还包括:
利用防火墙邮件告警信息包含的样本邮件的特征信息训练初始化的第一识别模型直至满足预定条件,得到训练后的所述识别模型。
8.根据权利要求1至7中任一项所述的方法,其特征在于,所述特征信息包括以下特征中至少之一:发件人、收件人、邮件标题、邮件正文、恶意外部链接、威胁名称和时间戳。
9.一种确定风险邮件的装置,其特征在于,所述装置包括:
获取模块,被配置为:获取待检测邮件的特征信息,所述特征信息表征所述待检测邮件相关的属性信息和/或告警信息;
比较模块,被配置为:比较所述特征信息与参考信息,获得比较结果,所述参考信息包括风险邮件具备的风险特征;
获取模块,还被配置为:将所述特征信息输入预先训练的识别模型进行风险邮件的特征识别,获得识别结果;所述识别结果用于指示所述待检测邮件为风险邮件的风险程度;
确定模块,被配置为:基于所述比较结果和所述识别结果,确定所述待检测邮件是否为风险邮件。
10.一种处理设备,其特征在于,所述处理设备包括:
存储器,用于存储可执行程序;
处理器,用于执行所述存储器中存储的可执行程序时,实现如权利要求1至9任一所述的方法。
11.一种计算机存储介质,其特征在于,所述计算机存储介质存储有可执行程序,所述可执行程序被处理器执行时,实现如权利要求1至9任一所述的方法。
CN202410070821.6A 2024-01-17 2024-01-17 确定风险邮件的方法、装置、处理设备及存储介质 Pending CN117857197A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202410070821.6A CN117857197A (zh) 2024-01-17 2024-01-17 确定风险邮件的方法、装置、处理设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202410070821.6A CN117857197A (zh) 2024-01-17 2024-01-17 确定风险邮件的方法、装置、处理设备及存储介质

Publications (1)

Publication Number Publication Date
CN117857197A true CN117857197A (zh) 2024-04-09

Family

ID=90546096

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202410070821.6A Pending CN117857197A (zh) 2024-01-17 2024-01-17 确定风险邮件的方法、装置、处理设备及存储介质

Country Status (1)

Country Link
CN (1) CN117857197A (zh)

Similar Documents

Publication Publication Date Title
CN109816397B (zh) 一种欺诈判别方法、装置及存储介质
US7899769B2 (en) Method for identifying emerging issues from textual customer feedback
CN107612893B (zh) 短信的审核系统和方法以及构建短信审核模型方法
US7853544B2 (en) Systems and methods for automatically categorizing unstructured text
US8527436B2 (en) Automated parsing of e-mail messages
CN108259415B (zh) 一种邮件检测的方法及装置
US8131742B2 (en) Method and system for processing fraud notifications
KR101130357B1 (ko) 외부 데이터를 사용하는 검색 엔진 스팸 검출
US20060036693A1 (en) Spam filtering with probabilistic secure hashes
US11539726B2 (en) System and method for generating heuristic rules for identifying spam emails based on fields in headers of emails
WO2017173093A1 (en) Method and device for identifying spam mail
CN104067567A (zh) 用于使用字符直方图进行垃圾邮件检测的系统和方法
WO2023272850A1 (zh) 基于决策树的产品匹配方法、装置、设备及存储介质
Mitra et al. Combating fake cyber threat intelligence using provenance in cybersecurity knowledge graphs
CN113706176A (zh) 一种结合云计算的信息反欺诈处理方法及服务平台系统
WO2023273303A1 (zh) 基于树模型的事件影响度获取方法、装置及计算机设备
CN111861733B (zh) 基于地址模糊匹配的欺诈防控系统及方法
US20130145289A1 (en) Real-time duplication of a chat transcript between a person of interest and a correspondent of the person of interest for use by a law enforcement agent
CN110972086A (zh) 短信息处理方法、装置、电子设备及计算机可读存储介质
CN109918638B (zh) 一种网络数据监测方法
CN117857197A (zh) 确定风险邮件的方法、装置、处理设备及存储介质
CN116545768A (zh) 一种信息安全风险预警方法及系统
Bednár et al. Semantic Models for Network Intrusion Detection.
CN117614748B (zh) 一种基于大语言模型的钓鱼邮件检测方法
CN109495372B (zh) 垃圾邮件的识别方法和装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination