CN113347079B - 邮件识别方法、邮件识别装置、电子设备及可读存储介质 - Google Patents

邮件识别方法、邮件识别装置、电子设备及可读存储介质 Download PDF

Info

Publication number
CN113347079B
CN113347079B CN202110605890.9A CN202110605890A CN113347079B CN 113347079 B CN113347079 B CN 113347079B CN 202110605890 A CN202110605890 A CN 202110605890A CN 113347079 B CN113347079 B CN 113347079B
Authority
CN
China
Prior art keywords
mail
sample
target
mails
phishing
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202110605890.9A
Other languages
English (en)
Other versions
CN113347079A (zh
Inventor
黄程
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Industrial and Commercial Bank of China Ltd ICBC
Original Assignee
Industrial and Commercial Bank of China Ltd ICBC
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Industrial and Commercial Bank of China Ltd ICBC filed Critical Industrial and Commercial Bank of China Ltd ICBC
Priority to CN202110605890.9A priority Critical patent/CN113347079B/zh
Publication of CN113347079A publication Critical patent/CN113347079A/zh
Application granted granted Critical
Publication of CN113347079B publication Critical patent/CN113347079B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L51/00User-to-user messaging in packet-switching networks, transmitted according to store-and-forward or real-time protocols, e.g. e-mail
    • H04L51/21Monitoring or handling of messages
    • H04L51/212Monitoring or handling of messages using filtering or selective blocking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/23Clustering techniques
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L51/00User-to-user messaging in packet-switching networks, transmitted according to store-and-forward or real-time protocols, e.g. e-mail
    • H04L51/42Mailbox-related aspects, e.g. synchronisation of mailboxes
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L63/00Network architectures or network communication protocols for network security
    • H04L63/14Network architectures or network communication protocols for network security for detecting or protecting against malicious traffic
    • H04L63/1441Countermeasures against malicious traffic
    • H04L63/1483Countermeasures against malicious traffic service impersonation, e.g. phishing, pharming or web spoofing

Landscapes

  • Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Computer Security & Cryptography (AREA)
  • Signal Processing (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • General Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Evolutionary Computation (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • General Physics & Mathematics (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Artificial Intelligence (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Computer Hardware Design (AREA)
  • Computing Systems (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Information Transfer Between Computers (AREA)

Abstract

本公开实施例提供了邮件识别方法、邮件识别装置、电子设备及可读存储介质,可应用于信息安全和人工智能技术领域,该邮件识别方法包括:获取待识别邮件;将待识别邮件输入钓鱼邮件识别模型,输出用于表征待识别邮件是否为钓鱼邮件的识别结果,其中,钓鱼邮件识别模型是利用基于密度的聚类算法对目标训练样本进行训练得到的。

Description

邮件识别方法、邮件识别装置、电子设备及可读存储介质
技术领域
本公开涉及信息安全和人工智能技术领域,更具体地,涉及一种邮件识别方法、邮件识别装置、电子设备、计算机可读存储介质及计算机程序产品。
背景技术
随着互联网技术的不断发展,一种较为特殊的网络攻击形式呈现出逐年上升的趋势,例如,钓鱼邮件。钓鱼邮件是指利用伪装的邮件,欺骗收件人将账号或口令等信息回复给指定的接收者,或引导收件人连接到特制的网页,这些特制的网页会伪装成真实网站的网页,令收件人信以为真,输入用户信息,从而获得用户信息。
钓鱼邮件为了避免被邮件系统检测到,不断升级其真实度和诱导性,使其变为正常邮件,这种隐藏在正常邮件之中的钓鱼邮件较难被用户发现。
在实现本公开构思的过程中,发明人发现相关技术中至少存在如下问题:钓鱼邮件的识别效率较低,进而导致敏感信息被泄露的风险较大。
发明内容
有鉴于此,本公开实施例提供了一种邮件识别方法、邮件识别装置、电子设备、计算机可读存储介质及计算机程序产品。
本公开实施例的一个方面提供了一种邮件识别方法,包括:
获取待识别邮件;以及,将上述待识别邮件输入钓鱼邮件识别模型,输出用于表征上述待识别邮件是否为钓鱼邮件的识别结果,其中,上述钓鱼邮件识别模型是利用基于密度的聚类算法对目标训练样本进行训练得到的。
本公开实施例的另一个方面提供了一种邮件识别装置,包括:第一获取模块,用于获取待识别邮件;以及,第一输出模块,用于将上述待识别邮件输入钓鱼邮件识别模型,输出用于表征上述待识别邮件是否为钓鱼邮件的识别结果,其中,上述钓鱼邮件识别模型是利用基于密度的聚类算法对目标训练样本进行训练得到的。
本公开实施例的另一个方面提供了一种电子设备,包括:一个或多个处理器;存储器,用于存储一个或多个程序,其中,当上述一个或多个程序被上述一个或多个处理器执行时,使得上述一个或多个处理器实现如上所述的方法。
本公开实施例的另一个方面提供了一种计算机可读存储介质,存储有计算机可执行指令,上述指令在被执行时用于实现如上所述的方法。
本公开实施例的另一个方面提供了一种计算机程序产品,上述计算机程序产品包括计算机可执行指令,上述指令在被执行时用于实现如上所述的方法。
根据本公开的实施例,通过利用基于密度的聚类算法对目标训练样本进行训练得到的钓鱼邮件识别模型对待识别邮件进行识别,得到用于表征待识别邮件是否为钓鱼邮件的识别结果,由于利用基于密度的聚类算法训练得到的钓鱼邮件识别模型能够具有较高的识别效率,进而降低了敏感信息被泄露的风险,因此,至少部分地克服了钓鱼邮件的识别效率较低,进而导致敏感信息被泄露的风险较大的技术问题。
附图说明
通过以下参照附图对本公开实施例的描述,本公开的上述以及其他目的、特征和优点将更为清楚,在附图中:
图1示意性示出了根据本公开实施例的可以应用邮件识别方法和装置的示例性系统架构;
图2示意性示出了根据本公开实施例的邮件识别方法的流程图;
图3示意性示出了根据本公开实施例的检测页面的示意图;
图4示意性示出了根据本公开实施例的邮件识别装置的框图;以及
图5示意性示出了根据本公开实施例的适于实现机器人的电子设备的框图。
具体实施方式
以下,将参照附图来描述本公开的实施例。但是应该理解,这些描述只是示例性的,而并非要限制本公开的范围。在下面的详细描述中,为便于解释,阐述了许多具体的细节以提供对本公开实施例的全面理解。然而,明显地,一个或多个实施例在没有这些具体细节的情况下也可以被实施。此外,在以下说明中,省略了对公知结构和技术的描述,以避免不必要地混淆本公开的概念。
在此使用的术语仅仅是为了描述具体实施例,而并非意在限制本公开。在此使用的术语“包括”、“包含”等表明了所述特征、步骤、操作和/或部件的存在,但是并不排除存在或添加一个或多个其他特征、步骤、操作或部件。
在此使用的所有术语(包括技术和科学术语)具有本领域技术人员通常所理解的含义,除非另外定义。应注意,这里使用的术语应解释为具有与本说明书的上下文相一致的含义,而不应以理想化或过于刻板的方式来解释。
在使用类似于“A、B和C等中至少一个”这样的表述的情况下,一般来说应该按照本领域技术人员通常理解该表述的含义来予以解释(例如,“具有A、B和C中至少一个的系统”应包括但不限于单独具有A、单独具有B、单独具有C、具有A和B、具有A和C、具有B和C、和/或具有A、B、C的系统等)。在使用类似于“A、B或C等中至少一个”这样的表述的情况下,一般来说应该按照本领域技术人员通常理解该表述的含义来予以解释(例如,“具有A、B或C中至少一个的系统”应包括但不限于单独具有A、单独具有B、单独具有C、具有A和B、具有A和C、具有B和C、和/或具有A、B、C的系统等)。
在实现本公开构思的过程中,发现存在钓鱼邮件的识别效率不高,进而导致敏感信息被泄露的风险较大的问题。为了提高识别效率,提出一种利用基于密度的聚类算法对目标训练样本进行训练得到的钓鱼邮件识别模型来识别钓鱼邮件的方案。上述方案可以提高识别效率的原因在于,由于基于密度的聚类算法的时间或空间复杂度都是线性的,因此,基于密度的聚类算法的处理速度较快,由此,利用基于密度的聚类算法训练得到的钓鱼邮件识别模型能够具有较高的识别效率。
此外,利用基于密度的聚类算法进行钓鱼邮件识别时,由于簇的形状往往不是规则或固定的,而基于密度的聚类算法能够识别出噪声点,因此,利用基于密度的聚类算法进行钓鱼邮件识别的准确性也能够得到保证。其中,噪声点是不属于任何簇的样本点。
本公开的实施例提供了一种邮件识别方法以及能够应用该方法的邮件识别装置、电子设备、计算机可读存储介质及计算机程序产品,可以应用于信息安全或人工智能领域。该方法包括:获取待识别邮件,将待识别邮件输入利用基于密度的聚类算法对目标训练样本进行训练得到的钓鱼邮件识别模型,输出用于表征待识别邮件是否为钓鱼邮件的识别结果。
图1示意性示出了根据本公开实施例的可以应用邮件识别方法的示例性系统架构100。需要注意的是,图1所示仅为可以应用本公开实施例的系统架构的示例,以帮助本领域技术人员理解本公开的技术内容,但并不意味着本公开实施例不可以用于其他设备、系统、环境或场景。
如图1所示,根据该实施例的系统架构100可以包括终端设备101、102、103,网络104和服务器105。网络104用以在终端设备101、102、103和服务器105之间提供通信链路的介质。网络104可以包括各种连接类型,例如有线和/或无线通信链路等。
用户可以使用终端设备101、102、103通过网络104与服务器105交互,以接收或发送消息等。终端设备101、102、103上可以安装有各种通讯客户端应用,例如购物类应用、网页浏览器应用、搜索类应用、即时通信工具、邮箱客户端和/或社交平台软件等(仅为示例)。
终端设备101、102、103可以是具有显示屏并且支持网页浏览的各种电子设备,包括但不限于智能手机、平板电脑、膝上型便携计算机和台式计算机等。
服务器105可以是提供各种服务的服务器,例如对用户利用终端设备101、102、103所浏览的网站提供支持的后台管理服务器(仅为示例)。后台管理服务器可以对接收到的账户请求等数据进行分析等处理,并将处理结果(例如根据账户请求获取或生成的网页、信息、或数据等)反馈给终端设备。
需要说明的是,本公开实施例所提供的邮件识别方法可以一般可以由终端设备101、102、或103执行,或者也可以由不同于终端设备101、102、或103的其他终端设备执行。相应地,本公开实施例所提供的邮件识别装置也可以设置于终端设备101、102、或103中,或设置于不同于终端设备101、102、或103的其他终端设备中。或者,
本公开实施例所提供的邮件识别方法也可以由服务器105执行。相应地,本公开实施例所提供的邮件识别装置可以设置于服务器105中。本公开实施例所提供的邮件识别方法也可以由不同于服务器105且能够与终端设备101、102、103和/或服务器105通信的服务器或服务器集群执行。相应地,本公开实施例所提供的邮件识别装置也可以设置于不同于服务器105且能够与终端设备101、102、103和/或服务器105通信的服务器或服务器集群中。
例如,服务器105获取待识别邮件,将待识别邮件输入钓鱼邮件识别模型,输出用于表征待识别邮件是否为钓鱼邮件的识别结果。
应该理解,图1中的终端设备、网络和服务器的数目仅仅是示意性的。根据实现需要,可以具有任意数目的终端设备、网络和服务器。
图2示意性示出了根据本公开实施例的邮件识别方法的流程图。
如图2所示,该方法可以包括操作S210~S220。
在操作S210,获取待识别邮件。
在操作S220,将待识别邮件输入钓鱼邮件识别模型,输出用于表征待识别邮件是否为钓鱼邮件的识别结果,其中,钓鱼邮件识别模型是利用基于密度的聚类算法对目标训练样本进行训练得到的。
根据本公开的实施例,基于密度的聚类算法可以包括DBSCAN(Density-BasedSpatial Clustering of Applications with Noise)聚类算法。根据本公开的实施例,DBSCAN聚类算法具有良好的离群点检测效果,可以处理不同大小和不同形状的簇。DBSCAN聚类算法的时间复杂度为O(n2),若采用空间索引的方法可降低时间复杂度到O(nlogn)。
根据本公开的实施例,将获取到的待识别邮件输入到钓鱼邮件识别模型,通过钓鱼邮件识别模型能够对待识别邮件进行识别,并输出待识别邮件的识别结果。识别结果可以包括正常邮件或钓鱼邮件。
根据本公开的实施例,通过利用基于密度的聚类算法对目标训练样本进行训练得到的钓鱼邮件识别模型对待识别邮件进行识别,得到用于表征待识别邮件是否为钓鱼邮件的识别结果,由于基于密度的聚类算法的时间或空间复杂度都是线性的,因此,基于密度的聚类算法的处理速度较快,由此,利用基于密度的聚类算法训练得到的钓鱼邮件识别模型能够具有较高的识别效率,进而降低了敏感信息被泄露的风险,因而,至少部分地克服了钓鱼邮件的识别效率较低,进而导致敏感信息被泄露的风险较大的技术问题。
根据本公开的实施例,钓鱼邮件识别模型是利用基于密度的聚类算法对目标训练样本进行训练得到的,可以包括如下操作。
从目标训练样本中选择一个目标样本邮件作为第一未访问样本邮件,其中,目标训练样本包括多个目标样本邮件和与每个目标样本邮件对应的真实标注信息。在确定第一未访问样本邮件的第一邻域半径包括的目标样本邮件的数量大于或等于第一最小邮件数量的情况下,创建以第一未访问样本邮件作为核心样本邮件的密度可达的簇。在确定第一未访问样本邮件的第一邻域半径包括的目标样本邮件的数量小于第一最小邮件数量的情况下,从目标训练样本中选择一个其他目标样本邮件作为第一未访问样本邮件。重复执行创建以第一未访问样本邮件作为核心样本邮件的密度可达的簇的操作,直至多个目标样本邮件中的每个目标样本邮件均被处理。根据全部密度可达的簇和与每个目标样本邮件对应的真实标注信息,调整第一邻域半径和/或第一最小邮件数量,直至满足第一预设条件。将在满足第一预设条件的情况下得到的密度可达的簇确定为钓鱼邮件识别模型。
根据本公开的实施例,为了便于理解,首先对DBSCAN聚类算法的基本概念进行说明。
样本点的Eps邻域可以指以该样本点为圆心,Eps为半径的球形空间内所包括的样本点的集合。
样本点的密度可以指该样本点的Eps邻域所包括的样本点的数量。
直接密度可达可以指在确定Eps邻域和最小样本数量(即Min_samples)的情况下,对于样本点x和y,如果y是核心点,且x属于y的Eps邻域,则可以称从x到y直接密度可达。
密度可达可以指对于在确定Eps邻域和最小样本数量的情况下,如果存在样本点链x1,x2,……,xi,……,xn-1,xn,且从xi到xi+1直接密度可达,则由传递性可以认为点x1到点xn密度可达。
密度相连可以指在确定Eps邻域和最小样本数量的情况下,如果存在样本点p,使得样本点x和样本点y都可以从样本点p密度可达,则可以称样本点x和样本点y密度相连。
核心样本点可以指针对某个样本点,如果该样本点的Eps邻域所包括的样本点的数量大于或等于最小样本数量,则可以称该样本点为核心样本点。
根据本公开的实施例,可以将基于DBSCAN聚类算法的处理过程划分为三步,即第一步,确定样本点集中每个样本点的Eps邻域来搜索簇,如果样本点的Eps邻域包括的样本点的数量大于或等于最小样本数量,则创建以该样本点为核心样本点的簇。第二步,以迭代的方式将从核心样本点的直接密度可达的样本点进行聚类,并将密度可达的簇合并,得到密度可达的簇。第三步,如果没有新的样本点添加到任何簇,则聚类结束。
根据本公开的实施例,在本公开的实施例中,样本点可以用目标样本邮件表征,Eps邻域可以用第一邻域半径表征,最小样本数量可以用第一最小邮件数量表征。核心样本点可以用核心样本邮件表征。
根据本公开的实施例,真实标注信息可以包括正常邮件和钓鱼邮件。第一预设条件可以用于表征评价钓鱼邮件识别模型的性能的条件,第一预设条件可以包括AUC(AreaUnder Curve,ROC曲线下的面积)、P(即准确率)、R(即召回率)和F1值中的至少一项。其中,AUC可以用于评价钓鱼邮件识别模型的聚类效果,F1值可以用于评价钓鱼邮件识别模型的识别效果。由于目标训练样本中的钓鱼邮件和正常邮件的数量可能不平衡,因此,在采用准确率和召回率作为评价标准的同时,还可以采用F1值作为评价标准来弥补正负样本数量的不平衡。
根据本公开的实施例,可以将目标训练样本所包括的目标样本邮件均标记为未访问样本邮件。在目标训练样本中任意选择一个目标样本邮件作为第一未访问样本邮件。如果确定第一未访问样本邮件为核心样本邮件,则可以创建以第一未访问样本邮件作为核心样本邮件的密度可达的簇。如果确定第一未访问样本邮件不为核心样本邮件,则可以从目标样本邮件中再选择一个目标样本邮件作为第一未访问样本邮件,再重复执行上述确定第一未访问样本邮件是否为核心样本邮件,以及,创建以第一未访问邮件为核心样本邮件的密度可达的簇的操作,直至目标训练样本所包括的全部目标样本邮件都被处理过。需要说明的是,在上述处理过程中,存在某个或某几个目标样本邮件并不属于任何一个密度可达的簇。
根据本公开的实施例,在确定目标训练样本所包括的全部目标样本邮件都被处理过的情况下,根据全部密度可达的簇和与每个目标样本邮件对应的真实标注信息,调整第一邻域半径和/或第一最小邮件数量,直至满足第一预设条件。将满足第一预设条件的密度可达的簇确定为钓鱼邮件识别模型。
根据本公开的实施例,钓鱼邮件识别模型是利用基于密度的聚类算法结合差分隐私算法对目标训练样本进行训练得到的。
根据本公开的实施例,差分隐私对目标样本邮件的数据集的计算处理中时,其对具体某个属性值的变化是不敏感的,即单个记录在数据集中或者不在数据集中,对最终结果的影响是可忽略不计的。因此,一个记录加入到数据集中所产生的隐私泄露风险能够被控制在安全的范围内,在这种情况下,攻击者无法通过逆向攻击得到确切的待识别邮件的信息。
根据本公开的实施例,在实现本公开构思的过程中,发现在数据挖掘过程中,还可能存在隐私信息泄露的问题。在利用基于DBSCAN聚类算法训练目标训练样本得到钓鱼邮件识别模型的过程中,根据DBSCAN聚类算法的原理可知,导致隐私信息泄露的主要原因在于Eps邻域内的点密度,即如果攻击者拥有较为丰富的背景知识,能够获知两个样本点之间的距离,则便可以从其已知的样本点的Eps邻域间接推断出样本点的信息,使得该样本点存在隐私信息泄露的风险。
为了解决上述问题,发现可以采用将差分隐私算法引入基于密度的聚类算法的方式,这是由于差分隐私算法假设在最坏的情况下,即攻击者的背景知识达到了最大化,已拥有除该样本点以外其他样本点的信息,由于添加随机噪声之后发布的是点密度的近似值,因此,攻击者难以进行有效推断来获知该样本点的信息,进而达到保护该样本点的隐私信息不被泄露的目的。同时,由于差分隐私算法假设的是攻击者能够获得除该样本点以外其他样本点的信息,即背景知识最大化,在最大背景知识的假设条件下,由于其他背景知识难以提供比最大背景知识更为丰富的信息,因此,差分隐私算法的保护对于攻击者所拥有的任何可能的背景知识都是无需顾虑的。此外,差分隐私算法具有较为坚实的数学理论,这主要体现在差分隐私算法对隐私保护进行了较为严格的定义并提供了量化评价方法,使得其即使在不同模型参数的情况下,对样本点集所提供的隐私保护水平也能够具有可比性。
根据本公开的实施例,由于差分隐私算法的隐私预算参数的可量化评价的性质,使得对于其隐私保护力度的分析变为对隐私预算参数的取值分析,可以通过建立F1值或AUC值与隐私预算参数的变化曲线,来分析隐私预算参数的取值对于差分隐私算法的性能的影响。其中,隐私预算参数与隐私保护级别之间是负相关的关系,即隐私预算参数越小,隐私保护级别越高,隐私泄露风险越低;隐私预算参数越大,隐私保护级别越低,隐私泄露风险越高。
根据本公开的实施例,钓鱼邮件识别模型是利用基于密度的聚类算法结合差分隐私算法对目标训练样本进行训练得到的,可以包括如下操作。
从目标训练样本中选择一个目标样本邮件作为第二未访问样本邮件,其中,目标训练样本包括多个目标样本邮件和与每个目标样本邮件对应的真实标注信息。在确定第二未访问样本邮件的第二邻域半径包括的目标样本邮件的数量大于或等于第二最小邮件数量的情况下,创建以第二未访问样本邮件作为核心样本邮件的密度可达的簇,其中,第二邻域半径是根据原始邻域半径和服从拉普拉斯分布的数量得到。在确定第二未访问样本邮件的第二邻域半径包括的目标样本邮件的数量小于第二最小邮件数量的情况下,从目标训练样本中选择一个其他目标样本邮件作为第二未访问样本邮件。重复执行创建以第二未访问样本邮件作为核心样本邮件的密度可达的簇的操作,直至多个目标样本邮件中的每个目标样本邮件均被处理。根据全部密度可达的簇和与每个目标样本邮件的真实标注信息,调整原始邻域半径、第二最小邮件数量和隐私预算参数中的至少一项,直至满足第二预设条件。将在满足第二预设条件的情况下得到的密度可达的簇确定为钓鱼邮件识别模型。
根据本公开的实施例,在本公开的实施例中,样本点可以用目标样本邮件表征,Eps邻域可以用第二邻域半径表征,最小样本数量可以用第二最小邮件数量表征。核心样本点可以用核心样本邮件表征。
根据本公开的实施例,第二预设条件可以用于表征评价钓鱼邮件识别模型的性能的条件,第二预设条件可以包括AUC(Area Under Curve,ROC曲线下的面积)、P(即准确率)、R(即召回率)和F1值中的至少一项。
根据本公开的实施例,将差分隐私算法引入DBSCAN聚类算法之后,可以通过设置有效的隐私保护参数,实现在满足隐私保护的同时使其能够较为高效地对钓鱼邮件进行识别。
根据本公开的实施例,利用基于密度的聚类算法结合差分隐私算法对目标训练样本进行训练得到的钓鱼邮件识别模型,实现了信息安全性的优化和算法效能的优化。对于信息安全性的优化,引入差分隐私算法,实现了信息安全性的优化。将利用基于密度的聚类算法和基于密度的距离算法结合差分隐私算法得到的钓鱼邮件识别模型的模型评价参数进行比较,确定两者模型评价参数相近,由此,可以说明同时检测DP-DBSCAN算法和原生的DBSCAN算法对于检测模型的影响,证实其达到了在算法性能和隐私保护两个方面的平衡。对于算法效能的优化,在差分隐私保护的前提下,通过分析AUC和F1等,确定合适的隐私保护预算参数。
根据本公开的实施例,上述邮件识别方法还可以包括如下操作。
输出与待识别邮件对应的特征信息。对与待识别邮件对应的特征信息和识别结果进行可视化展示。
根据本公开的实施例,可以在检测页面对待识别邮件进行识别结果和特征信息的展示。其中,特征信息可以通过特征饼图的形式展示各个特征信息的占比。
根据本公开的实施例,上述邮件识别方法还可以包括如下操作。
在确定识别结果为表征待识别邮件为钓鱼邮件的情况下,展示举报控件,以便根据由用户触发举报控件生成的举报信息对待识别邮件进行举报。
根据本公开的实施例,邮件识别方法可以在检测页面中设置举报控件,以便根据由用户通过举报控件对钓鱼邮件进行举报。
根据本公开的实施例,邮件识别方法还可以包括如下操作。
展示状态控件,用于展示用户的邮箱信息,其中,邮箱信息包括账户名、邮箱地址和收件箱的待识别邮件数等。
根据本公开的实施例,邮件识别方法还可以包括如下操作。
调整与待识别邮件对应的特征信息的可视化展示形式。
根据本公开的实施例,可以对特征信息的可视化展示形式进行调整,以便能够更为直观和清楚地展示特征信息。
根据本公开的实施例,邮件识别方法还可以包括如下操作。
对待识别邮件进行可视化展示。
根据本公开的实施例,响应于用户针对邮件选择框的选择操作,得到待识别邮件的邮件列表,并在检测页面对待识别邮件的邮件列表进行可视化展示。
根据本公开的实施例,邮件识别方法还可以包括如下操作。
获取初始训练样本,其中,初始训练样本包括多个初始样本邮件和与每个初始样本邮件对应的真实标注信息。对多个初始样本邮件中的每个初始样本邮件进行预处理,得到多个处理后的初始样本邮件,其中,预处理包括如下至少一项:数据清洗、数据补充、数据类型转换和数据标准化。对多个处理后的初始样本邮件中的每个处理后的初始样本邮件进行特征提取,得到与每个处理后的初始样本邮件对应的目标样本邮件。根据多个目标样本邮件和与每个目标样本邮件对应的真实标注信息,得到目标训练样本。
根据本公开的实施例,可以采用Python的第三方机器学习库,例如,Pandas库和Numpy库等,将初始训练样本转化为DataFrame的形式,并对转换后的初始训练样本进行预处理,得到处理后的初始训练样本。预处理可以包括数据清洗、数据补充、数据类型转换和数据标准化中的至少一项。
根据本公开的实施例,数据清洗可以包括删除缺失率大于或等于缺失率阈值的初始训练样本和/或删除与钓鱼邮件识别无关的特征数据,例如,缺失率阈值可以包括50%,无关的特征数据可以包括发件人的用户标识。可以利用DataFrame的drop操作删除与钓鱼邮件识别无关的特征数据。
根据本公开的实施例,数据补充可以用于对初始样本邮件中缺少的特征数据进行补充,数据补充可以包括均值补充、中位数补充或众数补充。例如,针对初始样本邮件中的称呼的缺失,可以采用均值补充的方式。
根据本公开的实施例,数据类型转换可以包括字符向量化,即将非数字特征转换为数字特征,例如,将发件日期和发件人等转化为对应的数字。利用Pandas库的factorize操作将相近的发件时间转化为相同的数字。其中,缺失的特征数据可以用0表征。
根据本公开的实施例,为了消除不同属性之间的量纲影响以进行数据比较,可以对初始训练样本进行数据标准化处理。数据标准化可以包括最值归一化或均值方差归一化。本公开的实施例可以采用最值归一化处理,这是由于最值归一化可以将所有数据映射到0~1之间,它适用于数据分布具有明显边界,容易受到异常值的影响的情况。此外,由于异常值会造成数据的整体偏斜,因此,可以在数据标准化之前采用三西格玛准则去除粗大误差。
根据本公开的实施例,由于经过预处理之后得到的处理后的初始样本邮件是高维的,而不同特征数据的重要程度可能不同,可能存在冗余的特征数据,上述将影响模型的训练速度和识别准确性,因此,为了提高模型的训练速度和识别准确性,可以对处理后的初始样本邮件进行特征提取,以实现数据降维。此外,如果将处理后的初始样本邮件的特征维度降低到三维或三维以下,则还可以对处理后的初始样本邮件的特征信息进行可视化展示,以便于对数据进行分析。
根据本公开的实施例,可以利用基于树的特征选择来实现对处理后的初始样本邮件进行特征提取,其中,基于树的特征选择可以包括ExtraTreesClassifier基于树的特征选择。可以采用特征选取实验的方式选择合适的特征。例如,将特征数据按照重要程度从大到小的顺序进行排序,根据排序结果,从中选择一个或几个特征数据作为目标样本邮件所包括的特征数据,将目标样本邮件输入基于DBSCAN聚类算法训练的钓鱼邮件识别模型,输出识别结果,并利用模型评价参数对识别结果进行分析,来确定选择的特征数据是否合适。
根据本公开的实施例,获取初始训练样本可以包括如下操作。
获取多个初始样本邮件。根据第三预设条件,对多个初始样本邮件中的每个初始样本邮件进行等级标注,得到与每个初始样本邮件对应的等级信息,其中,等级信息用于表征初始样本邮件为钓鱼邮件的可能性程度。根据与每个初始样本邮件对应的等级信息,确定与每个初始样本邮件对应的真实标注信息。根据多个初始样本邮件和与每个初始样本邮件对应的真实标注信息,得到初始训练样本。
根据本公开的实施例,第三预设条件可以理解为对邮件进行等级判定的条件。对获取到的初始样本邮件进行等级标注以确定等级信息,进而得到每个初始样本邮件对应的真实标注信息,根据初始样本邮件和对应的真实标注信息,得到初始训练样本,初始训练样本的数据结构可以包括CSV(Comma-Separated Values,逗号分隔值)。
根据本公开的实施例,人工标注可以包括两个部分。其中,第一部分,根据钓鱼邮件的各个特点,将符合该特点的一项数据,对该初始样本邮件的等级信息的等级值加一。第二部分,确定初始样本邮件的邮件内容和发件人,结合第一部分的钓鱼邮件等级值对初始样本邮件进行标注,其中,钓鱼邮件可以标注1,正常邮件可以标注0,不确定邮件可以标注2。
根据本公开的实施例,根据与每个初始样本邮件对应的等级信息,确定与每个初始样本邮件对应的真实标注信息,可以包括如下操作。
针对多个初始样本邮件中的每个初始样本邮件,在确定与初始样本邮件对应的等级信息满足第四预设条件的情况下,根据与初始样本邮件对应的等级信息,确定与初始样本邮件对应的真实标注信息。在确定与初始样本邮件对应的等级信息不满足第四预设条件的情况下,根据与初始样本邮件对应的等级信息和小组投票信息,确定与初始样本邮件对应的真实标注信息。
根据本公开的实施例,第四预设条件可以包括将邮件标注为不确定所对应的等级阈值“不确定”的值。
根据本公开的实施例,为降低人为因素造成的的标注误差,还可以采用小组投票的方式来解决,即,小组可以包括三个或三个以上的奇数的用户。不同用户对同一初始样本邮件样本进行标注,根据标注结果,确定初始样本邮件的真实标注信息。
根据本公开的实施例,如果确定与初始样本邮件对应的等级信息确定初始样本邮件为不确定邮件的条件,则可以采用小组投票方式对初始样本邮件进行处理,以得到与初始样本邮件对应的真实标注信息。如果确定与初始样本邮件对应的等级信息确定初始样本邮件为钓鱼邮件或正常邮件,则可以不再进行小组投票,将初始样本邮件的真实标注信息确定为钓鱼邮件或正常邮件。
根据本公开的实施例,获取多个初始样本邮件,可以包括如下操作。
利用爬虫工具从目标数据源获取多个初始样本邮件,其中,爬虫工具是基于Scrapy爬虫框架编写得到的。
根据本公开的实施例,可以利用Scrapy爬虫框架编写的爬虫工具从目标数据源获取多个初始样本邮件。即分析初始样本邮件的位置,并利用Xpath Helper第三方插件以Xpath形式对初始样本邮件进行精确定位,返回Spider文件中,设置cookie值模拟登录状态以防止登录限制爬虫爬取,利用request请求页面信息构建单样本信息。编写代码对之前的初始样本邮件定位操作进行复现,重复上述过程直至所需的初始样本邮件获取完毕。
根据本公开的实施例,采用利用Scrapy爬虫框架编写的爬虫工具从目标数据源获取多个初始样本邮件,有效克服了网站的反爬阻碍,此外,由于能够采用多线程的方式,因此,降低了对大数据量爬取的时间消耗。
需要说明的是,在本公开实施例的技术方案中,所涉及的邮件的获取、存储和应用等,均符合相关法律法规的规定,采取了必要保密措施,且不违背公序良俗。
图3示意性示出了根据本公开实施例的检测页面的示意图。
如图3所示,检测页面300可以包括第一显示框301、第二显示框302、举报控件303、特征展示页面304、邮件选择框305、邮件查询框306、邮件列表框307、状态显示框308和模型评价参数显示框309。
第一显示框301,可以用于显示特征信息。第二显示框302,可以用于显示识别结果。举报控件303,可以用于对钓鱼邮件进行举报的控件。
特征展示页面304,可以用于展示邮件的特征信息。邮件选择框305,可以用于选择待识别邮件的控件。邮件查询框306,看一看用于查询待识别邮件的控件,其中,邮件查询框306可以包括输入框和搜索控件,可以在输入框中输入待识别邮件包括输入关键词和输入待识别邮件的主题名称。
邮件列表框307,可以用于响应于邮件查询框306,生成待识别邮件的列表,邮件列表框307可以包括检测控件和选择控件。状态显示框308,可以用于显示用户信息和邮件信息,其中,用户信息可以包括账户名、邮箱地址、邮件总数等,邮件信息可以包括字符数和链接数等。
模型评价参数显示框309,可以用于显示钓鱼邮件识别模型的各个模型评价参数。模型评价参数可以包括AUC值和F1值。
根据本公开的实施例,可以利用Django作为主要框架搭建钓鱼邮件识别系统。其中,Django能够简单和快捷地开发由数据库驱动的网站。它的优势在于代码复用,即组件可以方便地以第三方插件形式嵌入到整个框架,Django包括较多功能完善的第三方插件,这使得Django具有很强的可扩展性。例如,针对Django中的用户登录注册功能模块,可以利用Captcha插件可以较为方便地实现对于用户登录的验证功能。为了实现在完成钓鱼邮件的识别之后,能够较为直观的展示相关信息,可以利用第三方Javascript的图表库ECharts提供直观、生动、可交互和可高度个性化定制的数据可视化图表。
根据本公开的实施例,用户登录该检测页面300后,状态显示框308显示基本的用户信息,用户在邮件查询框306输入关键词,例如,可以为“美食”,在邮件列表框307中显示包括关键词的一个或多个待识别邮件,通过在邮件选择框305框选需要进行识别的待识别邮件,此时,状态显示框308显示基本的邮件信息。
根据本公开的实施例,对需要进行识别的待识别邮件进行检测,在第一显示框301显示进行识别的待识别邮件的特征信息,可以通过饼图的形式进行展示,在特征展示页面304展示待识别邮件的各个特征信息。在第二显示框302中显示待识别邮件的识别结果。如果待识别邮件的识别结果为钓鱼邮件,用户可以通过点击举报控件303,对待识别邮件进行举报。
图4示意性示出了根据本公开的实施例的邮件识别装置的框图。
如图4所示,邮件识别装置400可以包括第一获取模块410和第一输出模块420。
第一获取模块410,用于获取待识别邮件。
第一输出模块420,用于将待识别邮件输入钓鱼邮件识别模型,输出用于表征待识别邮件是否为钓鱼邮件的识别结果,其中,钓鱼邮件识别模型是利用基于密度的聚类算法对目标训练样本进行训练得到的。
根据本公开的实施例,通过利用基于密度的聚类算法对目标训练样本进行训练得到的钓鱼邮件识别模型对待识别邮件进行识别,得到用于表征待识别邮件是否为钓鱼邮件的识别结果,由于基于密度的聚类算法的时间或空间复杂度都是线性的,因此,基于密度的聚类算法的处理速度较快,由此,利用基于密度的聚类算法训练得到的钓鱼邮件识别模型能够具有较高的识别效率,进而降低了敏感信息被泄露的风险,因而,至少部分地克服了钓鱼邮件的识别效率较低,进而导致敏感信息被泄露的风险较大的技术问题。
根据本公开的实施例,钓鱼邮件识别模型是利用基于密度的聚类算法对目标训练样本进行训练得到的,包括如下操作。
从目标训练样本中选择一个目标样本邮件作为第一未访问样本邮件,其中,目标训练样本包括多个目标样本邮件和与每个目标样本邮件对应的真实标注信息。在确定第一未访问样本邮件的第一邻域半径包括的目标样本邮件的数量大于或等于第一最小邮件数量的情况下,创建以第一未访问样本邮件作为核心样本邮件的密度可达的簇。在确定第一未访问样本邮件的第一邻域半径包括的目标样本邮件的数量小于第一最小邮件数量的情况下,从目标训练样本中选择一个其他目标样本邮件作为第一未访问样本邮件。重复执行创建以第一未访问样本邮件作为核心样本邮件的密度可达的簇的操作,直至多个目标样本邮件中的每个目标样本邮件均被处理。根据全部密度可达的簇和与每个目标样本邮件对应的真实标注信息,调整第一邻域半径和/或第一最小邮件数量,直至满足第一预设条件。将在满足第一预设条件的情况下得到的密度可达的簇确定为钓鱼邮件识别模型。
根据本公开的实施例,钓鱼邮件识别模型是利用基于密度的聚类算法结合差分隐私算法对目标训练样本进行训练得到的。
根据本公开的实施例,钓鱼邮件识别模型是利用基于密度的聚类算法结合差分隐私算法对目标训练样本进行训练得到的,可以包括如下操作。
从目标训练样本中选择一个目标样本邮件作为第二未访问样本邮件,其中,目标训练样本包括多个目标样本邮件和与每个目标样本邮件对应的真实标注信息。在确定第二未访问样本邮件的第二邻域半径包括的目标样本邮件的数量大于或等于第二最小邮件数量的情况下,创建以第二未访问样本邮件作为核心样本邮件的密度可达的簇,其中,第二邻域半径是根据原始邻域半径和服从拉普拉斯分布的数量得到的。在确定第二未访问样本邮件的第二邻域半径包括的目标样本邮件的数量小于第二最小邮件数量的情况下,从目标训练样本中选择一个其他目标样本邮件作为第二未访问样本邮件。重复执行创建以第二未访问样本邮件作为核心样本邮件的密度可达的簇的操作,直至多个目标样本邮件中的每个目标样本邮件均被处理。根据全部密度可达的簇和与每个目标样本邮件的真实标注信息,调整原始邻域半径、第二最小邮件数量和隐私预算参数中的至少一项,直至满足第二预设条件。将在满足第二预设条件的情况下得到的密度可达的簇确定为钓鱼邮件识别模型。
根据本公开的实施例,上述邮件识别装置400还可以包括输出模块和展示模块。
输出模块,用于输出与待识别邮件对应的特征信息。
展示模块,用于对与待识别邮件对应的特征信息和识别结果进行可视化展示。
根据本公开的实施例,上述邮件识别装置400还可以包括举报模块。
举报模块,用于在确定识别结果为表征待识别邮件为钓鱼邮件的情况下,展示举报控件,以便根据由用户触发举报控件生成的举报信息对待识别邮件进行举报。
根据本公开的实施例,上述邮件识别装置400还可以包括调整模块。
调整模块,用于调整与待识别邮件对应的特征信息的可视化展示形式。
根据本公开的实施例,第一获取模块410可以包括页面展示单元和第一确定单元。
页面展示单元,用于展示检测页面,其中,检测页面包括邮件选择框,其中,邮件选择框是用于选择待识别邮件的控件。
第一确定单元,用于响应于用户针对邮件选择框的选择操作,得到待识别邮件,其中,待识别邮件的数量包括一个或多个。
根据本公开的实施例,第一获取模块410可以包括邮件展示单元。
邮件展示单元,用于对待识别邮件进行可视化展示。
根据本公开的实施例,邮件识别装置400还可以包括第二获取模块、预处理模块、第一确定模块和第二确定模块。
第二获取模块,用于获取初始训练样本,其中,初始训练样本包括多个初始样本邮件和与每个初始样本邮件对应的真实标注信息。
预处理模块,用于对多个初始样本邮件中的每个初始样本邮件进行预处理,得到多个处理后的初始样本邮件,其中,预处理包括如下至少一项:数据清洗、数据补充、数据类型转换和数据标准化。
第一确定模块,用于对多个处理后的初始样本邮件中的每个处理后的初始样本邮件进行特征提取,得到与每个处理后的初始样本邮件对应的目标样本邮件。
第二确定模块,用于根据多个目标样本邮件和与每个目标样本邮件对应的真实标注信息,得到目标训练样本。
根据本公开的实施例,第二获取模块可以包括获取单元、标注单元、第二确定单元和第三确定单元。
获取单元,用于获取多个初始样本邮件。
标注单元,用于根据第三预设条件,对多个初始样本邮件中的每个初始样本邮件进行等级标注,得到与每个初始样本邮件对应的等级信息,其中,等级信息用于表征初始样本邮件为钓鱼邮件的可能性程度。
第二确定单元,用于根据与每个初始样本邮件对应的等级信息,确定与每个初始样本邮件对应的真实标注信息。
第三确定单元,用于根据多个初始样本邮件和与每个初始样本邮件对应的真实标注信息,得到初始训练样本。
根据本公开的实施例,第二确定单元可以包括第一确定子单元和第二确定子单元。
第一确定子单元,用于针对多个初始样本邮件中的每个初始样本邮件,在确定与初始样本邮件对应的等级信息满足第四预设条件的情况下,根据与初始样本邮件对应的等级信息,确定与初始样本邮件对应的真实标注信息。
第二确定子单元,用于在确定与初始样本邮件对应的等级信息不满足第四预设条件的情况下,根据与初始样本邮件对应的等级信息和小组投票信息,确定与初始样本邮件对应的真实标注信息。
根据本公开的实施例,获取单元可以包括获取子单元。
获取子单元,用于利用爬虫工具从目标数据源获取多个初始样本邮件,其中,爬虫工具是基于Scrapy爬虫框架编写得到的。
根据本公开的实施例的模块、单元、子单元中的任意多个、或其中任意多个的至少部分功能可以在一个模块中实现。根据本公开实施例的模块、单元、子单元中的任意一个或多个可以被拆分成多个模块来实现。根据本公开实施例的模块、单元、子单元中的任意一个或多个可以至少被部分地实现为硬件电路,例如现场可编程门阵列(Field ProgrammableGate Array,FPGA)、可编程逻辑阵列(Programmable Logic Arrays,PLA)、片上系统、基板上的系统、封装上的系统、专用集成电路(Application Specific Integrated Circuit,ASIC),或可以通过对电路进行集成或封装的任何其他的合理方式的硬件或固件来实现,或以软件、硬件以及固件三种实现方式中任意一种或以其中任意几种的适当组合来实现。或者,根据本公开实施例的模块、单元、子单元中的一个或多个可以至少被部分地实现为计算机程序模块,当该计算机程序模块被运行时,可以执行相应的功能。
例如,第一获取模块410和第一输出模块420中的任意多个可以合并在一个模块/子模块/单元中实现,或者其中的任意一个模块/单元/子单元可以被拆分成多个模块/单元/子单元。或者,这些模块/单元/子单元中的一个或多个模块/单元/子单元的至少部分功能可以与其他模块/单元/子单元的至少部分功能相结合,并在一个模块/单元/子单元中实现。根据本公开的实施例,第一获取模块410和第一输出模块420中的至少一个可以至少被部分地实现为硬件电路,例如现场可编程门阵列(FPGA)、可编程逻辑阵列(PLA)、片上系统、基板上的系统、封装上的系统、专用集成电路(ASIC),或可以通过对电路进行集成或封装的任何其他的合理方式等硬件或固件来实现,或以软件、硬件以及固件三种实现方式中任意一种或以其中任意几种的适当组合来实现。或者,第一获取模块410和第一输出模块420中的至少一个可以至少被部分地实现为计算机程序模块,当该计算机程序模块被运行时,可以执行相应的功能。
需要说明的是,本公开的实施例中邮件识别装置部分与本公开的实施例中邮件识别方法部分是相对应的,邮件识别装置部分的描述具体参考邮件识别方法部分,在此不再赘述。
图5示意性示出了根据本公开实施例的适于实现上文描述的方法的电子设备的框图。图5示出的电子设备仅仅是一个示例,不应对本公开实施例的功能和使用范围带来任何限制。
如图5所示,根据本公开实施例的电子设备500包括处理器501,其可以根据存储在只读存储器(Read-Only Memory,ROM)502中的程序或者从存储部分508加载到随机访问存储器(Random Access Memory,RAM)503中的程序而执行各种适当的动作和处理。处理器501例如可以包括通用微处理器(例如CPU)、指令集处理器和/或相关芯片组和/或专用微处理器(例如,专用集成电路(ASIC)),等等。处理器501还可以包括用于缓存用途的板载存储器。处理器501可以包括用于执行根据本公开实施例的方法流程的不同动作的单一处理单元或者是多个处理单元。
在RAM 503中,存储有电子设备500操作所需的各种程序和数据。处理器501、ROM502以及RAM 503通过总线504彼此相连。处理器501通过执行ROM 502和/或RAM 503中的程序来执行根据本公开实施例的方法流程的各种操作。需要注意,所述程序也可以存储在除ROM502和RAM 503以外的一个或多个存储器中。处理器501也可以通过执行存储在所述一个或多个存储器中的程序来执行根据本公开实施例的方法流程的各种操作。
根据本公开的实施例,电子设备500还可以包括输入/输出(I/O)接口505,输入/输出(I/O)接口505也连接至总线504。电子设备500还可以包括连接至I/O接口505的以下部件中的一项或多项:包括键盘、鼠标等的输入部分506;包括诸如阴极射线管(CRT)、液晶显示器(Liquid Crystal Display,LCD)等以及扬声器等的输出部分507;包括硬盘等的存储部分508;以及包括诸如LAN卡、调制解调器等的网络接口卡的通信部分509。通信部分509经由诸如因特网的网络执行通信处理。驱动器510也根据需要连接至I/O接口505。可拆卸介质511,诸如磁盘、光盘、磁光盘、半导体存储器等等,根据需要安装在驱动器510上,以便于从其上读出的计算机程序根据需要被安装入存储部分508。
根据本公开的实施例,根据本公开实施例的方法流程可以被实现为计算机软件程序。例如,本公开的实施例包括一种计算机程序产品,其包括承载在计算机可读存储介质上的计算机程序,该计算机程序包含用于执行流程图所示的方法的程序代码。在这样的实施例中,该计算机程序可以通过通信部分509从网络上被下载和安装,和/或从可拆卸介质511被安装。在该计算机程序被处理器501执行时,执行本公开实施例的系统中限定的上述功能。根据本公开的实施例,上文描述的系统、设备、装置、模块、单元、子单元等可以通过计算机程序模块来实现。
本公开还提供了一种计算机可读存储介质,该计算机可读存储介质可以是上述实施例中描述的设备/装置/系统中所包含的;也可以是单独存在,而未装配入该设备/装置/系统中。上述计算机可读存储介质承载有一个或者多个程序,当上述一个或者多个程序被执行时,实现根据本公开实施例的方法。
根据本公开的实施例,计算机可读存储介质可以是非易失性的计算机可读存储介质。例如可以包括但不限于:便携式计算机磁盘、硬盘、随机访问存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM(Erasable Programmable Read Only Memory,EPROM)或闪存)、便携式紧凑磁盘只读存储器(Computer Disc Read-Only Memory,CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本公开中,计算机可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。
例如,根据本公开的实施例,计算机可读存储介质可以包括上文描述的ROM 502和/或RAM 503和/或ROM 502和RAM 503以外的一个或多个存储器。
本公开的实施例还包括一种计算机程序产品,其包括计算机程序,该计算机程序包含用于执行本公开实施例所提供的方法的程序代码,当计算机程序产品在电子设备上运行时,该程序代码用于使电子设备实现本公开实施例所提供的邮件识别方法。
在该计算机程序被处理器501执行时,执行本公开实施例的系统/装置中限定的上述功能。根据本公开的实施例,上文描述的系统、装置、模块、单元等可以通过计算机程序模块来实现。
在一种实施例中,该计算机程序可以依托于光存储器件、磁存储器件等有形存储介质。在另一种实施例中,该计算机程序也可以在网络介质上以信号的形式进行传输、分发,并通过通信部分509被下载和安装,和/或从可拆卸介质511被安装。该计算机程序包含的程序代码可以用任何适当的网络介质传输,包括但不限于:无线、有线等,或者上述的任意合适的组合。
根据本公开的实施例,可以以一种或多种程序设计语言的任意组合来编写用于执行本公开实施例提供的计算机程序的程序代码,具体地,可以利用高级过程和/或面向对象的编程语言、和/或汇编/机器语言来实施这些计算程序。程序设计语言包括但不限于诸如Java,C++,Python,C语言或类似的程序设计语言。程序代码可以完全地在账户计算设备上执行、部分地在账户设备上执行、部分在远程计算设备上执行、或者完全在远程计算设备或服务器上执行。在涉及远程计算设备的情形中,远程计算设备可以通过任意种类的网络,包括局域网(Local Area Network,LAN)或广域网(Wide Area Networks,WAN),连接到账户计算设备,或者,可以连接到外部计算设备(例如利用因特网服务提供商来通过因特网连接)。
附图中的流程图和框图,图示了按照本公开各种实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分,上述模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意,在有些作为替换的实现中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个接连地表示的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图或流程图中的每个方框、以及框图或流程图中的方框的组合,可以用执行规定的功能或操作的专用的基于硬件的系统来实现,或者可以用专用硬件与计算机指令的组合来实现。本领域技术人员可以理解,本公开的各个实施例和/或权利要求中记载的特征可以进行多种组合和/或结合,即使这样的组合或结合没有明确记载于本公开中。特别地,在不脱离本公开精神和教导的情况下,本公开的各个实施例和/或权利要求中记载的特征可以进行多种组合和/或结合。所有这些组合和/或结合均落入本公开的范围。
以上对本公开的实施例进行了描述。但是,这些实施例仅仅是为了说明的目的,而并非为了限制本公开的范围。尽管在以上分别描述了各实施例,但是这并不意味着各个实施例中的措施不能有利地结合使用。本公开的范围由所附权利要求及其等同物限定。不脱离本公开的范围,本领域技术人员可以做出多种替代和修改,这些替代和修改都应落在本公开的范围之内。

Claims (15)

1.一种邮件识别方法,包括:
获取待识别邮件;以及
将所述待识别邮件输入钓鱼邮件识别模型,输出用于表征所述待识别邮件是否为钓鱼邮件的识别结果,其中,所述钓鱼邮件识别模型是利用基于密度的聚类算法对目标训练样本进行训练得到的;
其中,所述钓鱼邮件识别模型是利用基于密度的聚类算法对目标训练样本进行训练得到的,包括:
从所述目标训练样本中选择一个目标样本邮件作为第一未访问样本邮件,其中,所述目标训练样本包括多个所述目标样本邮件和与每个所述目标样本邮件对应的真实标注信息;
在确定所述第一未访问样本邮件的第一邻域半径包括的目标样本邮件的数量大于或等于第一最小邮件数量的情况下,创建以所述第一未访问样本邮件作为核心样本邮件的密度可达的簇;
在确定所述第一未访问样本邮件的第一邻域半径包括的目标样本邮件的数量小于所述第一最小邮件数量的情况下,从所述目标训练样本中选择一个其他目标样本邮件作为所述第一未访问样本邮件;
重复执行所述创建以所述第一未访问样本邮件作为核心样本邮件的密度可达的簇的操作,直至所述多个目标样本邮件中的每个目标样本邮件均被处理;
根据全部所述密度可达的簇和与每个所述目标样本邮件对应的真实标注信息,调整所述第一邻域半径和/或所述第一最小邮件数量,直至满足第一预设条件,其中,所述第一预设条件包括AUC、准确率、召回率和F1值中的至少一项;以及
将在满足所述第一预设条件的情况下得到的密度可达的簇确定为所述钓鱼邮件识别模型。
2.一种邮件识别方法,包括:
获取待识别邮件;以及
将所述待识别邮件输入钓鱼邮件识别模型,输出用于表征所述待识别邮件是否为钓鱼邮件的识别结果,其中,所述钓鱼邮件识别模型是利用基于密度的聚类算法结合差分隐私算法对目标训练样本进行训练得到的;
其中,所述钓鱼邮件识别模型是利用基于密度的聚类算法结合差分隐私算法对目标训练样本进行训练得到的,包括:
从所述目标训练样本中选择一个目标样本邮件作为第二未访问样本邮件,其中,所述目标训练样本包括多个所述目标样本邮件和与每个所述目标样本邮件对应的真实标注信息;
在确定所述第二未访问样本邮件的第二邻域半径包括的目标样本邮件的数量大于或等于第二最小邮件数量的情况下,创建以所述第二未访问样本邮件作为核心样本邮件的密度可达的簇,其中,所述第二邻域半径是根据原始邻域半径和服从拉普拉斯分布的数量得到的;
在确定所述第二未访问样本邮件的第二邻域半径包括的目标样本邮件的数量小于所述第二最小邮件数量的情况下,从所述目标训练样本中选择一个其他目标样本邮件作为所述第二未访问样本邮件;
重复执行所述创建以所述第二未访问样本邮件作为核心样本邮件的密度可达的簇的操作,直至所述多个目标样本邮件中的每个目标样本邮件均被处理;
根据全部所述密度可达的簇和与每个所述目标样本邮件的真实标注信息,调整所述原始邻域半径、所述第二最小邮件数量和隐私预算参数中的至少一项,直至满足第二预设条件,其中,所述第二预设条件包括AUC、准确率、召回率和F1值中的至少一项;以及
将在满足所述第二预设条件的情况下得到的密度可达的簇确定为所述钓鱼邮件识别模型。
3.根据权利要求1~2中任一项所述的方法,还包括:
输出与所述待识别邮件对应的特征信息;以及
对与所述待识别邮件对应的特征信息和识别结果进行可视化展示。
4.根据权利要求3所述的方法,还包括:
在确定所述识别结果为表征所述待识别邮件为所述钓鱼邮件的情况下,展示举报控件,以便根据由用户触发所述举报控件生成的举报信息对所述待识别邮件进行举报。
5.根据权利要求3所述的方法,还包括:
调整与所述待识别邮件对应的特征信息的可视化展示形式。
6.根据权利要求1~2中任一项所述的方法,其中,所述获取待识别邮件,包括:
展示检测页面,其中,所述检测页面包括邮件选择框,其中,所述邮件选择框是用于选择所述待识别邮件的控件;以及
响应于用户针对所述邮件选择框的选择操作,得到所述待识别邮件,其中,所述待识别邮件的数量包括一个或多个。
7.根据权利要求6所述的方法,还包括:
对所述待识别邮件进行可视化展示。
8.根据权利要求1~2中任一项所述的方法,还包括:
获取初始训练样本,其中,所述初始训练样本包括多个初始样本邮件和与每个所述初始样本邮件对应的真实标注信息;
对所述多个初始样本邮件中的每个初始样本邮件进行预处理,得到多个处理后的初始样本邮件,其中,所述预处理包括如下至少一项:数据清洗、数据补充、数据类型转换和数据标准化;
对所述多个处理后的初始样本邮件中的每个处理后的初始样本邮件进行特征提取,得到与所述每个处理后的初始样本邮件对应的目标样本邮件;以及
根据多个所述目标样本邮件和与每个所述目标样本邮件对应的真实标注信息,得到所述目标训练样本。
9.根据权利要求8所述的方法,其中,所述获取初始训练样本,包括:
获取所述多个初始样本邮件;
根据第三预设条件,对所述多个初始样本邮件中的每个初始样本邮件进行等级标注,得到与每个所述初始样本邮件对应的等级信息,其中,所述等级信息用于表征所述初始样本邮件为钓鱼邮件的可能性程度;
根据与每个所述初始样本邮件对应的等级信息,确定与每个所述初始样本邮件对应的真实标注信息;以及
根据所述多个初始样本邮件和与每个所述初始样本邮件对应的真实标注信息,得到所述初始训练样本。
10.根据权利要求9所述的方法,其中,所述根据与每个所述初始样本邮件对应的等级信息,确定与每个所述初始样本邮件对应的真实标注信息,包括:
针对所述多个初始样本邮件中的每个初始样本邮件,在确定与所述初始样本邮件对应的等级信息满足第四预设条件的情况下,根据与所述初始样本邮件对应的等级信息,确定与所述初始样本邮件对应的真实标注信息;以及
在确定与所述初始样本邮件对应的等级信息不满足所述第四预设条件的情况下,根据与所述初始样本邮件对应的等级信息和小组投票信息,确定与所述初始样本邮件对应的真实标注信息。
11.根据权利要求9所述的方法,其中,所述获取所述多个初始样本邮件,包括:
利用爬虫工具从目标数据源获取所述多个初始样本邮件,其中,所述爬虫工具是基于Scrapy爬虫框架编写得到的。
12.一种邮件识别装置,包括:
第一获取模块,用于获取待识别邮件;以及
第一输出模块,用于将所述待识别邮件输入钓鱼邮件识别模型,输出用于表征所述待识别邮件是否为钓鱼邮件的识别结果,其中,所述钓鱼邮件识别模型是利用基于密度的聚类算法对目标训练样本进行训练得到的;
其中,所述钓鱼邮件识别模型是利用基于密度的聚类算法对目标训练样本进行训练得到的,包括:
从所述目标训练样本中选择一个目标样本邮件作为第一未访问样本邮件,其中,所述目标训练样本包括多个所述目标样本邮件和与每个所述目标样本邮件对应的真实标注信息;
在确定所述第一未访问样本邮件的第一邻域半径包括的目标样本邮件的数量大于或等于第一最小邮件数量的情况下,创建以所述第一未访问样本邮件作为核心样本邮件的密度可达的簇;
在确定所述第一未访问样本邮件的第一邻域半径包括的目标样本邮件的数量小于所述第一最小邮件数量的情况下,从所述目标训练样本中选择一个其他目标样本邮件作为所述第一未访问样本邮件;
重复执行所述创建以所述第一未访问样本邮件作为核心样本邮件的密度可达的簇的操作,直至所述多个目标样本邮件中的每个目标样本邮件均被处理;
根据全部所述密度可达的簇和与每个所述目标样本邮件对应的真实标注信息,调整所述第一邻域半径和/或所述第一最小邮件数量,直至满足第一预设条件,其中,所述第一预设条件包括AUC、准确率、召回率和F1值中的至少一项;以及
将在满足所述第一预设条件的情况下得到的密度可达的簇确定为所述钓鱼邮件识别模型。
13.一种邮件识别装置,包括:
第一获取模块,用于获取待识别邮件;以及
第一输出模块,用于将所述待识别邮件输入钓鱼邮件识别模型,输出用于表征所述待识别邮件是否为钓鱼邮件的识别结果,其中,所述钓鱼邮件识别模型是利用基于密度的聚类算法结合差分隐私算法对目标训练样本进行训练得到的;
其中,所述钓鱼邮件识别模型是利用基于密度的聚类算法结合差分隐私算法对目标训练样本进行训练得到的,包括:
从所述目标训练样本中选择一个目标样本邮件作为第二未访问样本邮件,其中,所述目标训练样本包括多个所述目标样本邮件和与每个所述目标样本邮件对应的真实标注信息;
在确定所述第二未访问样本邮件的第二邻域半径包括的目标样本邮件的数量大于或等于第二最小邮件数量的情况下,创建以所述第二未访问样本邮件作为核心样本邮件的密度可达的簇,其中,所述第二邻域半径是根据原始邻域半径和服从拉普拉斯分布的数量得到的;
在确定所述第二未访问样本邮件的第二邻域半径包括的目标样本邮件的数量小于所述第二最小邮件数量的情况下,从所述目标训练样本中选择一个其他目标样本邮件作为所述第二未访问样本邮件;
重复执行所述创建以所述第二未访问样本邮件作为核心样本邮件的密度可达的簇的操作,直至所述多个目标样本邮件中的每个目标样本邮件均被处理;
根据全部所述密度可达的簇和与每个所述目标样本邮件的真实标注信息,调整所述原始邻域半径、所述第二最小邮件数量和隐私预算参数中的至少一项,直至满足第二预设条件,其中,所述第二预设条件包括AUC、准确率、召回率和F1值中的至少一项;以及
将在满足所述第二预设条件的情况下得到的密度可达的簇确定为所述钓鱼邮件识别模型。
14.一种电子设备,包括:
一个或多个处理器;
存储器,用于存储一个或多个程序,
其中,当所述一个或多个程序被所述一个或多个处理器执行时,使得所述一个或多个处理器实现权利要求1~11中任一项所述的方法。
15.一种计算机可读存储介质,其上存储有可执行指令,该指令被处理器执行时使处理器实现权利要求1~11中任一项所述的方法。
CN202110605890.9A 2021-05-31 2021-05-31 邮件识别方法、邮件识别装置、电子设备及可读存储介质 Active CN113347079B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110605890.9A CN113347079B (zh) 2021-05-31 2021-05-31 邮件识别方法、邮件识别装置、电子设备及可读存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110605890.9A CN113347079B (zh) 2021-05-31 2021-05-31 邮件识别方法、邮件识别装置、电子设备及可读存储介质

Publications (2)

Publication Number Publication Date
CN113347079A CN113347079A (zh) 2021-09-03
CN113347079B true CN113347079B (zh) 2022-12-09

Family

ID=77473665

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110605890.9A Active CN113347079B (zh) 2021-05-31 2021-05-31 邮件识别方法、邮件识别装置、电子设备及可读存储介质

Country Status (1)

Country Link
CN (1) CN113347079B (zh)

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111753086A (zh) * 2020-06-11 2020-10-09 北京天空卫士网络安全技术有限公司 一种垃圾邮件识别方法和装置
CN111949429A (zh) * 2020-08-17 2020-11-17 山东超越数控电子股份有限公司 基于密度聚类算法的服务器故障监测方法及系统

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11620471B2 (en) * 2016-11-30 2023-04-04 Cylance Inc. Clustering analysis for deduplication of training set samples for machine learning based computer threat analysis
US11599774B2 (en) * 2019-03-29 2023-03-07 International Business Machines Corporation Training machine learning model

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111753086A (zh) * 2020-06-11 2020-10-09 北京天空卫士网络安全技术有限公司 一种垃圾邮件识别方法和装置
CN111949429A (zh) * 2020-08-17 2020-11-17 山东超越数控电子股份有限公司 基于密度聚类算法的服务器故障监测方法及系统

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
基于差分隐私保护的DP-DBScan聚类算法研究;吴伟民等;《计算机工程与科学》;20150430;第37卷(第4期);全文 *
基于深度学习的钓鱼邮件检测系统的设计与实现;苏冠宇;《中国优秀博硕士学位论文全文数据库(硕士) 信息科技辑》;20210415;第2.4.3节,第4.4节,第3.1.2节第一段 *
基于聚类匿名化的差分隐私保护数据发布方法;刘晓迁等;《通信学报》;20160531;第 37 卷(第 5 期);第1和3节 *

Also Published As

Publication number Publication date
CN113347079A (zh) 2021-09-03

Similar Documents

Publication Publication Date Title
US10764297B2 (en) Anonymized persona identifier
US20150032504A1 (en) Influence scores for social media profiles
US10504028B1 (en) Techniques to use machine learning for risk management
CN108241867B (zh) 一种分类方法及装置
WO2016130372A1 (en) Security scanner
US20200134497A1 (en) Probabilistic framework for determining device associations
CN110135978B (zh) 用户金融风险评估方法、装置、电子设备和可读介质
CN107644106B (zh) 自动挖掘业务中间人的方法、终端设备及存储介质
CN114036398A (zh) 内容推荐和排序模型训练方法、装置、设备以及存储介质
WO2023246146A1 (zh) 基于优化规则决策树的目标安全识别方法及装置
CN113836128A (zh) 一种异常数据识别方法、系统、设备及存储介质
CN107256231B (zh) 一种团队成员识别设备、方法及系统
CN114462532A (zh) 模型训练方法、预测交易风险的方法、装置、设备及介质
US20180089594A1 (en) Intelligence generation based on adaptive learning
US20240086736A1 (en) Fault detection and mitigation for aggregate models using artificial intelligence
Burnicki et al. Propagating error in land-cover-change analyses: impact of temporal dependence under increased thematic complexity
CN113347079B (zh) 邮件识别方法、邮件识别装置、电子设备及可读存储介质
CN113869904B (zh) 可疑数据识别方法、装置、电子设备、介质和计算机程序
US20230118341A1 (en) Inline validation of machine learning models
CN113568739B (zh) 用户资源额度分配方法、装置及电子设备
US20190065987A1 (en) Capturing knowledge coverage of machine learning models
CN114154477A (zh) 文本数据处理方法及装置、电子设备和可读存储介质
CN114925275A (zh) 产品推荐方法、装置、计算机设备及存储介质
CN114492364A (zh) 相同漏洞的判断方法、装置、设备和存储介质
CN114219601A (zh) 信息处理方法、装置、设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant