CN110807468A - 检测异常邮件的方法、装置、设备和存储介质 - Google Patents
检测异常邮件的方法、装置、设备和存储介质 Download PDFInfo
- Publication number
- CN110807468A CN110807468A CN201910886104.XA CN201910886104A CN110807468A CN 110807468 A CN110807468 A CN 110807468A CN 201910886104 A CN201910886104 A CN 201910886104A CN 110807468 A CN110807468 A CN 110807468A
- Authority
- CN
- China
- Prior art keywords
- ocsvm
- parameters
- mail information
- user
- classifier
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Classifications
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L51/00—User-to-user messaging in packet-switching networks, transmitted according to store-and-forward or real-time protocols, e.g. e-mail
- H04L51/42—Mailbox-related aspects, e.g. synchronisation of mailboxes
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
- G06F18/2411—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on the proximity to a decision surface, e.g. support vector machines
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Evolutionary Computation (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Computing Systems (AREA)
- Software Systems (AREA)
- Molecular Biology (AREA)
- Computational Linguistics (AREA)
- Biophysics (AREA)
- Biomedical Technology (AREA)
- Mathematical Physics (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Biology (AREA)
- Computer Networks & Wireless Communication (AREA)
- Signal Processing (AREA)
- Information Transfer Between Computers (AREA)
Abstract
本申请涉及人工智能领域,尤其涉及一种检测异常邮件的方法、装置、设备和存储介质,方法包括:获取多个用户的邮件信息,并标注多个用户的邮件信息;填充存在缺失的用户邮件信息,以将多个存在缺失的用户邮件信息补充完整;将用户的邮件信息计算变换以得到特征,并选择与用户异常行为相关性高于阈值的特征作为有效特征;将有效特征输入至多组参数下的单类支持向量机OCSVM分类器,通过OCSVM的核函数以对OCSVM分类器进行训练;获取计算训练好的所述多组参数下的OCSVM分类器的得分,以得到每一组参数下的OCSVM分类器的评估结果;选择得分最高的参数下的所述OCSVM分类器作为目标分类模型进行部署。以解决实际状况中正负样本不均衡导致的误判率过高的问题。
Description
技术领域
本申请涉及智能决策领域,尤其涉及一种检测异常邮件的方法、装置、设 备和存储介质。
背景技术
在企业信息安全中心中,邮件的异常行为模式识别目标是将有异常行为 的用户从海量的正常用户中分离出来,目前常用的方法有根据有标注负样本 利用有监督机器学习方法进行异常行为模式和正常行为模式的学习,进而对 用户进行分类预测,该种方法需要积累大量的负样本并提取合适的特征,方 可得到较好的分类效果。但是实际情况中,由于正样本的数量远远的多于负 样本,造成了正负样本的不均衡,从而导致正样本可以很好识别到,而负样 本无法很好的进行识别,导致负样本识别的错误率远高于正样本识别的错误 率,进而无法较好的判断出用户的异常行为模式。
发明内容
本申请提供了一种通过配置检测异常邮件的方法,能够解决现正负样本 不均衡导致检测不准确的问题。
第一方面,本申请提供一种检测异常邮件的方法,包括:
获取多个用户的邮件信息,并标注所述多个用户的邮件信息,得到目标 标签,所述多个用户的邮件信息包括多个正常邮件信息以及多个存在缺失的 用户邮件信息,所述目标标签为正常行为标签或者异常行为标签;
填充所述存在缺失的用户邮件信息,以将多个所述存在缺失的用户邮件 信息补充完整;
将所述用户的邮件信息计算变换以得到特征,并选择与用户异常行为相 关性高于阈值的特征作为有效特征;
将所述有效特征输入至多组参数下的单类支持向量机OCSVM分类器,通 过所述OCSVM的核函数以对所述OCSVM分类器进行训练,所述OCSVM的核函 数是指其中K(x,z)是指所述OCSVM的核函数,||x-z||指 的所述有效特征x与所述OCSVM特征点z的欧式距离,所述参数包括误差的 容忍能力C与所述核函数中的σ;
计算训练好的所述多组参数下的OCSVM分类器的得分,以得到每一组参 数下的所述OCSVM分类器的评估结果,所述得分通过权衡损失函数的值、准 确率、精确度和召回率的权重加权求和得到,所述精确度是指预测正确的正 常行为标签的数量与所有被预测正常行为标签数量的比值,所述召回率是指 预测正确的异常行为标签的数量与所有被预测异常行为标签数量的比值;
根据每一组参数下所述OCSVM分类器的评估结果,选择得分最高的所述 OCSVM分类器参数作为目标分类模型进行部署;
获取客户端发送的邮件信息,将所述客户端发送的邮件信息输入至目标 分类模型,以得到分类结果,并将所述分类结果发送给客户端。
在一些可能的设计中,所述计算训练好的所述多组参数下的OCSVM分类 器的得分,包括:
获取多个邮件信息的标注信息以及对应的所述OCSVM分类器输出结果;
通过损失函数计算每一组参数下的所述OCSVM分类器的误差,其中θ*为损失函数的输出值,argmin为经验风险函数, N为样本数量,yi为所述OCSVM的理想输出结果,f(xi,θ)为所述OCSVM的实际 输出结果,L的函数表达式为L(mi)=max(0,1-mi(w)),Φ是正则化项;
选取损失函数值最小的所述OCSVM参数作为目标参数并部署至所述OCSVM 分类器。
在一些可能的设计中,所述选择与用户异常行为相关性高于阈值的特征 作为有效特征,包括:
通过计算所述特征信息的特征值,所述y是指 用户是否为异常行为,x为各项所述特征,分别为所述用户是否为异常行 为以及所述特征的均值;
判断所述特征值是否大于或等于阈值;
将所述特征值小于阈值对应的特征剔除。
在一些可能的设计中,所述将所述有效特征输入至多组参数下的单类支 持向量机OCSVM分类器,通过所述OCSVM的核函数以对所述OCSVM分类器进 行训练之前,所述方法还包括:
在一些可能的设计中,所述填充所述存在缺失的用户邮件信息,包括:
删除含有所述缺失值的所述用户邮件信息;
或者,接收用户的输入数据,使用所述输入数据替换所述缺失值;
或者,使用一个全局常量替换所述缺失值;
或者,使用回归方程或者决策树归纳,将所述缺失值以外的特征输入到 所述回归方程或者所述决策树,通过所述回归方程或者所述决策树的输出结 果填充所述缺失值。
在一些可能的设计中,所述将所述用户的邮件信息计算变换以得到特征, 包括:
通过特征变换将所述特征变换成0或1的特征;
或者,将连续特征离散化成多个数值特征分段;
或者,对不同所述特征组合以产生新的特征。
在一些可能的设计中,所述将所述有效特征输入至多组参数下的单类支 持向量机OCSVM分类器,通过所述OCSVM的核函数以对所述OCSVM分类器进 行训练之后,所述计算训练好的所述多组参数下的OCSVM分类器的得分,以 得到每一组参数下的所述OCSVM分类器的评估结果之前,所述方法还包括:
计算每组参数下的所述OCSVM分类器的精确度及召回率,并计算精确度 与召回率的调和平均数;
判断每组参数下所述OCSVM分类器中的所述调和平均数的大小;
判断是否存在多组所述参数使得所述调和平均数具有相同的最大值;
若不存在多组所述参数使得所述调和平均数具有相同的最大值,则在所 述调和平均数中选择最大的调和平均数所对应的参数作为所述OCSVM分类器 的参数;
若存在多组所述参数使得所述调和平均数具有相同的最大值,则选取所 述调和平均数最大值的参数中损失函数值最小的所述OCSVM参数。
第二方面,本申请提供一种检测异常邮件的装置,具有实现对应于上述 第一方面提供的检测异常邮件的平台的方法的功能。所述功能可以通过硬件 实现,也可以通过硬件执行相应的软件实现。硬件或软件包括一个或多个 与上述功能相对应的模块,所述模块可以是软件和/或硬件。
所述检测异常邮件的装置包括:
输入输出模块,用于获取多个用户信息,所述多个用户的邮件信息包括 多个正常邮件信息以及多个存在缺失的用户邮件信息;
处理模块,用于标注所述多个用户的邮件信息,得到目标标签。所述目 标标签为正常行为标签或者异常行为标签。填充所述存在缺失用户的邮件信 息,以将多个所述存在缺失的所述用户邮件信息补充完整,将所述用户的邮 件信息计算变换以得到特征,并选择与用户异常行为相关性高于阈值的特征 作为有效特征;通过所述输入输出模块将所述有效特征输入至多组参数下的 单类支持向量机OCSVM分类器,通过所述OCSVM的核函数以对所述OCSVM分 类器进行训练,所述OCSVM的核函数是指其中K(x,z)是指所述OCSVM的核函数,||x-z||指的所述有效特征x与所述OCSVM特征点z 的欧式距离,所述参数包括误差的容忍能力C与所述核函数中的σ;计算训 练好的所述多组参数下的OCSVM分类器的得分,以得到每一组参数下的的所 述OCSVM分类器的评估结果,所述得分通过权衡损失函数的值、准确率、精 确度和召回率的权重加权求和得到,所述精确度是指预测正确的正常行为标 签的数量与所有被预测正常行为标签数量的比值,所述召回率是指预测正确 的异常行为标签的数量与所有被预测异常行为标签数量的比值;根据每一组 参数下所述OCSVM分类器的评估结果,选择得分最高的参数所述OCSVM分类 器参数作为目标分类模型进行部署;获取客户端发送的邮件信息,将所述客 户端发送的邮件信息输入至目标分类模型,以得到分类结果,并将所述分类 结果发送给客户端。
在一些可能的设计中,所述处理模块还用于:
获取多个邮件信息的标注信息以及对应的所述OCSVM分类器输出结果;
通过损失函数计算每一组参数下的所述OCSVM分类器的误差,其中θ*为损失函数的输出值,argmin为经验风险函数, N为样本数量,yi为所述OCSVM的理想输出结果,f(xi,θ)为所述OCSVM的实际 输出结果,L的函数表达式为L(mi)=max(0,1-mi(w)),Φ是正则化项;
选取损失函数值最小的所述OCSVM参数作为目标参数并部署至所述OCSVM 分类器。
在一些可能的设计中,所述处理模块还用于:
判断所述特征值是否大于或等于阈值;
将所述特征值小于阈值对应的特征剔除。
在一些可能的设计中,所述处理模块还用于:
在一些可能的设计中,所述处理模块还用于:
删除含有所述缺失值的所述用户邮件信息;
或者,接收用户的输入数据,使用所述输入数据替换所述缺失值;
或者,使用一个全局常量替换所述缺失值;
或者,使用回归方程或者决策树归纳,将所述缺失值以外的特征输入到 所述回归方程或者所述决策树,通过所述回归方程或者所述决策树的输出结 果填充所述缺失值。
在一些可能的设计中,所述处理模块还用于:
通过特征变换将所述特征变换成0或1的特征;
或者,将连续特征离散化成多个数值特征分段;
或者,对不同所述特征组合以产生新的特征。
在一些可能的设计中,所述处理模块还用于:
计算每组参数下的所述OCSVM分类器的精确度及召回率,并计算精确度 与召回率的调和平均数;
判断每组参数下所述OCSVM分类器中的所述调和平均数的大小;
判断是否存在多组所述参数使得所述调和平均数具有相同的最大值;
若不存在多组所述参数使得所述调和平均数具有相同的最大值,则在所 述调和平均数中选择最大的调和平均数所对应的参数作为所述OCSVM分类器 的参数;
若存在多组所述参数使得所述调和平均数具有相同的最大值,则选取所 述调和平均数最大值的参数中损失函数值最小的所述OCSVM参数。
本申请又一方面提供了一种检测异常邮件的设备,其包括至少一个连接 的处理器、存储器、输入输出单元,其中,所述存储器用于存储程序代码, 所述处理器用于调用所述存储器中的程序代码来执行上述各方面所述的方 法。
本申请又一方面提供了一种计算机存储介质,其包括指令,当其在计算 机上运行时,使得计算机执行上述各方面所述的方法。
本申请提出的OCSVM算法模型基于用户一段时间内的历史行为信息进行 用户行为模式的学习和异常判断,通过将多个特征导入机器学习模型,考虑 邮件是否是节假日发送等特征,通过这些特征刻画邮件的时间序列性,可有 效判断用户随时间推移形成的工作行为模式,而且该模型考虑到了不同用户 的差异化工作流程以及操作习惯,进而进行异常行为的识别,相比其他用户 异常行为模式识别方法可有效降低误判率。
附图说明
图1为本申请实施例中检测异常邮件的方法的流程示意图;
图2为本申请实施例中检测异常邮件的装置的结构示意图;
图3为本申请实施例中检测异常邮件的设备的结构示意图。
本申请目的的实现、功能特点及优点将结合实施例,参照附图做进一步 说明。
具体实施方式
应当理解,此处所描述的具体实施例仅用以解释本申请,并不用于限定 本申请。本申请的说明书和权利要求书及上述附图中的术语“第一”、“第 二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应 该理解这样使用的数据在适当情况下可以互换,以便这里描述的实施例能够 以除了在这里图示或描述的内容以外的顺序实施。此外,术语“包括”和“具 有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系 列步骤或模块的过程、方法、系统、产品或设备不必限于清楚地列出的那些 步骤或模块,而是可包括没有清楚地列出的或对于这些过程、方法、产品或 设备固有的其它步骤或模块,本申请中所出现的模块的划分,仅仅是一种逻 辑上的划分,实际应用中实现时可以有另外的划分方式,例如多个模块可以 结合成或集成在另一个系统中,或一些特征可以忽略,或不执行。
请参照图1,以下对本申请提供一种检测异常邮件的方法进行举例说明, 所述方法包括:
101、获取多个用户的邮件信息,并标注所述多个用户的邮件信息,得到 目标标签。
所述多个用户的邮件信息包括多个正常邮件信息以及多个存在缺失的用 户邮件信息,所述目标标签为正常行为标签或者异常行为标签。
所述用户信息包括用户安全审计日志信息以及用户基础属性信息。所述 用户安全审计日志信息是指针对计算机文件的操作行为日志。所述操作行为 至少包括文件打印、文件传输等、邮件收发、USB以及鼠标等外部设备的使用 记录日志、浏览邮件信息日志,以及用户登录行为以及权限申请信息。所述 用户基础信息至少包括个人信息、公司信息、部门信息以及考勤记录信息。 将所述用户信息进行标注,所述标注至少将所述用户信息分类成正常行为标 签或者异常行为标签。
102、填充所述存在缺失的用户邮件信息,以将多个所述存在缺失的用户 邮件信息补充完整。
103、将所述用户的邮件信息计算变换以得到特征,并选择与用户异常行 为相关性高于阈值的特征作为有效特征。
所述特征是指用户信息经过计算变换得到后的数据属性,所述用户信息 是指衍生后的用户信息或者原始的用户信息。
104、将所述有效特征输入至多组参数下的单类支持向量机OCSVM分类器, 通过所述OCSVM的核函数以对所述OCSVM分类器进行训练。
105、计算训练好的所述多组参数下的OCSVM分类器的得分,以得到每一 组参数下的所述OCSVM分类器的评估结果。
所述得分通过权衡损失函数的值、准确率、精确度和召回率的权重加权 求和得到。所述精确度是指预测正确的正常行为标签的数量与所有被预测正 常行为标签数量的比值。所述召回率是指预测正确的异常行为标签的数量与 所有被预测异常行为标签数量的比值。
所述准确率是指预测正确的样本的数量与所有被预测样本数量的比值;
所述精确度是指预测正确的正常行为标签的数量与所有被预测正常行为 标签数量的比值;
所述召回率是指预测正确的异常行为标签的数量与所有被预测异常行为 标签数量的比值。
精确度与召回率的具体数学表达式如下:
所述TP是指实际是正常行为标签的数据点,被预测为正常行为。所述FN 是指实际上是异常行为标签的数据点,被预测为异常行为。所述TN是指实际 上是异常行为标签的数据点,被预测为异常行为。所述FN是指实际上是正常 行为的数据点,被预测为异常行为。
106、根据每一组参数下所述OCSVM分类器的评估结果,选择最优的参数 下的所述OCSVM分类器作为目标分类模型进行部署。
所述部署是指对应用目标神经网络模型软件的配置文件、用户手册、帮 助文档进行打包、安装、配置以及发布。
107、获取客户端发送的邮件信息,将所述客户端发送的邮件信息输入至 目标分类模型,以得到分类结果,并将所述分类结果发送给客户端。
上述实施方式中,提出的OCSVM算法模型基于用户一段时间内的历史行为 信息进行用户行为模式的学习和异常判断,具有时间序列性,可有效刻画用 户随时间推移形成的工作行为模式,而且该模型考虑到了不同用户的差异化 工作流程以及操作习惯,进而进行异常行为的识别,相比其他用户异常行为 模式识别方法可有效降低误判率。
一些实施方式中,所述计算训练好的所述多组参数下的OCSVM分类器的 得分,包括:
获取多个邮件信息的标注信息以及对应的所述OCSVM分类器输出结果;
通过损失函数计算每一组参数下的所述OCSVM分类器的误差,其中θ*为损失函数的输出值,argmin为经验风险函数, N为样本数量,yi为所述OCSVM的理想输出结果,f(xi,θ)为所述OCSVM的实际 输出结果,L的函数表达式为L(mi)=max(0,1-mi(w)),Φ是正则化项;
选取损失函数值最小的所述OCSVM参数作为目标参数并部署至所述OCSVM 分类器。
上述实施方式中,表达的含义是指如果标识分类正确损失是0,否则损失 1-mi(w),后面的Φ是正则化项(regularizer)或者叫惩罚项(penaltyterm), 它可以是L1,也可以是L2,或者其他的正则函数。整个式子表示的意思是找 到使目标函数最小时的θ值。
xi是指第i个输入的有效特征,yi是指第i个输入的行为标签信息,通 过将xi输入至所述OCSVM中,获得预测行为标签与标注的行为标签之间的误 差,即通过损失函数估量模型的预测值f(x)与真实值Y的不一致程度,它 是一个非负实值函数。通过损失函数用于描述所述OCSVM的分类器边界与异 常行为之间的误差,通过所述误差确认所述OCSVM中边界的分类效果,用于 评判正常行为样本与异常行为偏离分界线的程度,通过选择所述误差最小的 参数作为所述OCSVM中的参数,使得所述正常行为样本以及异常行为样本偏 离程度最小,获得最佳的分界线。
由于正常行为与异常行为样本都分居在N维坐标系中,通过所述损失函 数测试集中的样本与样本分界线的偏移量,找到多组参数下的单类支持向量 机中训练出的最佳神经网络,以获得最好的分界线。
一些实施方式中,所述选择与用户异常行为相关性高于阈值的特征作为 有效特征,包括:
判断所述特征值是否大于或等于阈值;
将所述特征值小于阈值对应的特征剔除。
上述实施方式中,r表示X,Y的相关性,r越高,X,Y就越相关,若X, Y是二维向量,就说明X,Y两个向量越接近(可以被互相表示)。通过计算 出的相关性r,选择相关性r高于阈值的特征。通过筛选掉无用的特征,减少 训练的特征的数量,以减少神经网络模型的输入,以加快模型的精确度,减 少无关变量对模型的干扰。
通常情况下通过以下取值范围判断变量的。
一些实施方式中,所述将所述有效特征输入至多组参数下的单类支持向 量机OCSVM分类器,通过所述OCSVM的核函数以对所述OCSVM分类器进行训 练之前,所述方法还包括:
通过所述权值初始化可以加快所述OCSVM的训练速度以及减少训练的误 差。因为如果W初始化为0则对于每个隐藏层对应的每个神经元的输出都是 相同的,这样即使梯度下降训练,无论训练多少次,这些神经元都是对称的, 无论隐藏层内有多少个结点,都相当于在训练同一个函数。导致训练没有任 何作用,出来的函数不会发生任何变化。若初始化为一个其他固定值,则增 加了人为干扰因素在这上面,容易影响神经网络的训练。
一些实施方式中,所述填充所述存在缺失的用户邮件信息,包括:
删除含有所述缺失值的所述用户邮件信息;
或者,接收用户的输入数据,使用所述输入数据替换所述缺失值;
或者,使用一个全局常量替换所述缺失值;
或者,使用回归方程或者决策树归纳,将所述缺失值以外的特征输入到 所述回归方程或者所述决策树,通过所述回归方程或者所述决策树的输出结 果填充所述缺失值。
上述实施方式中,以使用一个全局常量替换所述缺失值为例,例如收入 数据中,不存在负数,将这个缺失值用负数记录成一种状态进行标记,将这 种状态作为输入至模型训练,可以提高模型预测的精确度。
一些实施方式中,所述将所述用户的邮件信息计算变换以得到特征,包 括:
通过特征变换将所述特征变换成0或1的特征;
或者,将连续特征离散化成多个数值特征分段;
或者,对不同所述特征组合以产生新的特征。
上述实施方式中,通过衍生的特征可以产生更多有效的数据,并且可以 获得更多的输入特征,从而让模型学习时回考虑更多的特征以及使用更多的 数据,模型预测时将会获得更加精确的结果。
一些实施方式中,所述将所述有效特征输入至多组参数下的单类支持向 量机OCSVM分类器,通过所述OCSVM的核函数以对所述OCSVM分类器进行训 练之后,所述计算训练好的所述多组参数下的OCSVM分类器的得分,以得到 每一组参数下的所述OCSVM分类器的评估结果之前,所述方法还包括:
计算每组参数下的所述OCSVM分类器的精确度及召回率,并计算精确度 与召回率的调和平均数;
判断每组参数下所述OCSVM分类器中的所述调和平均数的大小;
判断是否存在多组所述参数使得所述调和平均数具有相同的最大值;
若不存在多组所述参数使得所述调和平均数具有相同的最大值,则在所 述调和平均数中选择最大的调和平均数所对应的参数作为所述OCSVM分类器 的参数;
若存在多组所述参数使得所述调和平均数具有相同的最大值,则选取所 述调和平均数最大值的参数中损失函数值最小的所述OCSVM参数。
上述实施方式中,以两个神经网络模型A模型以及B模型为例,实际用户 的异常行为1%,用户的正常行为99%,A模型所有样本的准确率为99%,但是 他的异常行为的准确率为0%,正常行为的准确率100%,由于正常行为的样本 数比异常行为的样本数大很多,导致A模型的准确率为99%。B模型所有样本 的准确率为98%,但是他的正常行为样本的准确率为97%,异常行为的100%, 由于正常的样本比异常的样本多很多,导致B的准确率比A的准确率低,但 是B能更好的预测异常行为样本,实际B的模型的效果会更好,因此除了准确率外,需要其他指标对模型的好坏进行评估。以下公式指的是如何建立新 的评判指标以及对新指标的权衡。所述A模型的准确率为99%, Precision=100%,Recall=0%。所述B模型的准确率为98%,Precision=97%, Recall=100%。A的F1为0,B的F1为0.985,因为B的F1大于A的F1,因 此选择B模型更合适。
如图2所示的一种检测异常邮件的装置20的结构示意图,其可应用于检 测异常邮件的。本申请实施例中的检测异常邮件的装置能够实现对应于上述 图1所对应的实施例中所执行的检测异常邮件的方法的步骤。检测异常邮件 的装置20实现的功能可以通过硬件实现,也可以通过硬件执行相应的软件实 现。硬件或软件包括一个或多个与上述功能相对应的模块,所述模块可以是 软件和/或硬件。所述检测异常邮件的装置可包括输入输出模块201和处理模 块202,所述处理模块202和输入输出模块201的功能实现可参考图1所对应的实施例中所执行的操作,此处不作赘述。输入输出模块201可用于控制所 述输入输出模块201的输入、输出以及获取操作。
一些实施方式中,所述输入输出模块201可用于获取多个用户信息,所 述多个用户的邮件信息包括多个正常邮件信息以及多个存在缺失的用户邮件 信息;
所述处理模块202可用于标注所述多个用户的邮件信息,得到目标标签, 所述目标标签为正常行为标签或者异常行为标签;填充所述存在缺失用户的 邮件信息,以将多个所述存在缺失的所述用户邮件信息补充完整,将所述用 户的邮件信息计算变换以得到特征,并选择与用户异常行为相关性高于阈值 的特征作为有效特征;通过所述输入输出模块将所述有效特征输入至多组参 数下的单类支持向量机OCSVM分类器,通过所述OCSVM的核函数以对所述 OCSVM分类器进行训练,所述OCSVM的核函数是指其中K(x,z)是指所述OCSVM的核函数,||x-z||指的所述有效特征x与所述OCSVM 计算训练好的所述多组参数下的OCSVM分类器的得分,以得到每一组参数下 的的所述OCSVM分类器的评估结果,所述得分通过权衡损失函数的值、准确 率、精确度和召回率的权重加权求和得到,所述精确度是指预测正确的正常 行为标签的数量与所有被预测正常行为标签数量的比值,所述召回率是指预 测正确的异常行为标签的数量与所有被预测异常行为标签数量的比值;根据 每一组参数下所述OCSVM分类器的评估结果,选择得分最高的参数所述OCSVM分类器参数作为目标分类模型进行部署;获取客户端发送的邮件信息,将所 述客户端发送的邮件信息输入至目标分类模型,以得到分类结果,并将所述 分类结果发送给客户端。特征点z的欧式距离,所述参数包括误差的容忍能 力C与所述核函数中的σ;
一些实施方式中,所述处理模块202还用于:
获取多个邮件信息的标注信息以及对应的所述OCSVM分类器输出结果;
通过损失函数计算每一组参数下的所述OCSVM分类器的误差,其中θ*为损失函数的输出值,argmin为经验风险函数,N为样本数量,yi为所述OCSVM的理想输出结果,f(xi,θ)为所述OCSVM的实际 输出结果,L的函数表达式为L(mi)=max(0,1-mi(w)),Φ是正则化项;
选取损失函数值最小的所述OCSVM参数作为目标参数并部署至所述OCSVM 分类器。
一些实施方式中,所述处理模块202还用于:
判断所述特征值是否大于或等于阈值;
将所述特征值小于阈值对应的特征剔除。
一些实施方式中,所述处理模块202还用于:
一些实施方式中,所述处理模块202还用于:
删除含有所述缺失值的所述用户邮件信息;
或者,接收用户的输入数据,使用所述输入数据替换所述缺失值;
或者,使用一个全局常量替换所述缺失值;
或者,使用回归方程或者决策树归纳,将所述缺失值以外的特征输入到 所述回归方程或者所述决策树,通过所述回归方程或者所述决策树的输出结 果填充所述缺失值。
一些实施方式中,所述处理模块202还用于:
通过特征变换将所述特征变换成0或1的特征;
或者,将连续特征离散化成多个数值特征分段;
或者,对不同所述特征组合以产生新的特征。
一些实施方式中,所述处理模块202还用于:
计算每组参数下的所述OCSVM分类器的精确度及召回率,并计算精确度 与召回率的调和平均数;
判断每组参数下所述OCSVM分类器中的所述调和平均数的大小;
判断是否存在多组所述参数使得所述调和平均数具有相同的最大值;
若不存在多组所述参数使得所述调和平均数具有相同的最大值,则在所 述调和平均数中选择最大的调和平均数所对应的参数作为所述OCSVM分类器 的参数;
若存在多组所述参数使得所述调和平均数具有相同的最大值,则选取所 述调和平均数最大值的参数中损失函数值最小的所述OCSVM参数。
上面从模块化功能实体的角度分别介绍了本申请实施例中的创建装置, 以下从硬件角度介绍一种检测异常邮件的设备,如图3所示,其包括:处理 器、存储器、输入输出单元(也可以是收发器,图3中未标识出)以及存储 在所述存储器中并可在所述处理器上运行的计算机程序。例如,该计算机程 序可以为图1所对应的实施例中检测异常邮件的方法对应的程序。例如,当 计算机设备实现如图2所示的检测异常邮件的装置20的功能时,所述处理器 执行所述计算机程序时实现上述图2所对应的实施例中由检测异常邮件的装 置20执行的检测异常邮件的方法中的各步骤。或者,所述处理器执行所述计 算机程序时实现上述图2所对应的实施例的检测异常邮件的装置20中各模块 的功能。又例如,该计算机程序可以为图1所对应的实施例中检测异常邮件 的方法对应的程序。
所称处理器可以是中央处理单元(central processing unit,CPU),还 可以是其他通用处理器、数字信号处理器(digital signal processor,DSP)、 专用集成电路(application specific integrated circuit,ASIC)、现成 可编程门阵列(field-programmable gate array,FPGA)或者其他可编程逻 辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是 微处理器或者该处理器也可以是任何常规的处理器等,所述处理器是所述计 算机装置的控制中心,利用各种接口和线路连接整个计算机装置的各个部分。
所述存储器可用于存储所述计算机程序和/或模块,所述处理器通过运行 或执行存储在所述存储器内的计算机程序和/或模块,以及调用存储在存储器 内的数据,实现所述计算机装置的各种功能。所述存储器可主要包括存储程 序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需 的应用程序(比如声音播放功能、图像播放功能等)等;存储数据区可存储 根据手机的使用所创建的数据(比如音频数据、视频数据等)等。此外,存 储器可以包括高速随机存取存储器,还可以包括非易失性存储器,例如硬盘、内存、插接式硬盘,智能存储卡(smart media card,SMC),安全数字(secure digital,SD)卡,闪存卡(Flash Card)、至少一个磁盘存储器件、闪存器 件、或其他易失性固态存储器件。
所述输入输出单元也可以用接收器和发送器代替,可以为相同或者不同 的物理实体。为相同的物理实体时,可以统称为输入输出单元。该输入输出 可以为收发器。
所述存储器可以集成在所述处理器中,也可以与所述处理器分开设置。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到上述 实施例方法可借助软件加必需的通用硬件平台的方式来实现,当然也可以通 过硬件,但很多情况下前者是更佳的实施方式。基于这样的理解,本申请的 技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体 现出来,该计算机软件产品存储在一个存储介质(如ROM/RAM)中,包括若干 指令用以使得一台终端(可以是手机,计算机,服务器或者网络设备等)执 行本申请各个实施例所述的方法。
上面结合附图对本申请的实施例进行了描述,但是本申请并不局限于上 述的具体实施方式,上述的具体实施方式仅仅是示意性的,而不是限制性的, 本领域的普通技术人员在本申请的启示下,在不脱离本申请宗旨和权利要求 所保护的范围情况下,还可做出很多形式,凡是利用本申请说明书及附图内 容所作的等效结构或等效流程变换,或直接或间接运用在其他相关的技术领 域,这些均属于本申请的保护之内。
Claims (10)
1.一种检测异常邮件的方法,其特征在于,所述方法包括:
获取多个用户的邮件信息,并标注所述多个用户的邮件信息,得到目标标签,所述多个用户的邮件信息包括多个正常邮件信息以及多个存在缺失的用户邮件信息,所述目标标签为正常行为标签或者异常行为标签;
填充所述存在缺失的用户邮件信息,以将多个所述存在缺失的用户邮件信息补充完整;
将所述用户的邮件信息计算变换以得到特征,并选择与用户异常行为相关性高于阈值的特征作为有效特征;
将所述有效特征输入至多组参数下的单类支持向量机OCSVM分类器,通过所述OCSVM的核函数以对所述OCSVM分类器进行训练,所述OCSVM的核函数是指其中K(x,z)是指所述OCSVM的核函数,||x-z||指的所述有效特征x与所述OCSVM特征点z的欧式距离,所述参数包括误差的容忍能力C与所述核函数中的σ;
计算训练好的所述多组参数下的OCSVM分类器的得分,以得到每一组参数下的所述OCSVM分类器的评估结果,所述得分通过权衡损失函数的值、准确率、精确度和召回率的权重加权求和得到,所述精确度是指预测正确的正常行为标签的数量与所有被预测正常行为标签数量的比值,所述召回率是指预测正确的异常行为标签的数量与所有被预测异常行为标签数量的比值;
根据每一组参数下所述OCSVM分类器的评估结果,选择得分最高的所述OCSVM分类器参数作为目标分类模型进行部署;
获取客户端发送的邮件信息,将所述客户端发送的邮件信息输入至目标分类模型,以得到分类结果,并将所述分类结果发送给客户端。
5.根据权利要求1所述的方法,其特征在于,所述填充所述存在缺失的用户邮件信息,包括:
删除含有所述缺失值的所述用户邮件信息;
或者,接收用户的输入数据,使用所述输入数据替换所述缺失值;
或者,使用一个全局常量替换所述缺失值;
或者,使用回归方程或者决策树归纳,将所述缺失值以外的特征输入到所述回归方程或者所述决策树,通过所述回归方程或者所述决策树的输出结果填充所述缺失值。
6.根据权利要求1所述的方法,其特征在于,所述将所述用户的邮件信息计算变换以得到特征,包括:
通过特征变换将所述特征变换成0或1的特征;
或者,将连续特征离散化成多个数值特征分段;
或者,对不同所述特征组合以产生新的特征。
7.根据权利要求1-6中任一项所述的方法,其特征在于,所述将所述有效特征输入至多组参数下的单类支持向量机OCSVM分类器,通过所述OCSVM的核函数以对所述OCSVM分类器进行训练之后,所述计算训练好的所述多组参数下的OCSVM分类器的得分,以得到每一组参数下的所述OCSVM分类器的评估结果之前,所述方法还包括:
计算每组参数下的所述OCSVM分类器的精确度及召回率,并计算精确度与召回率的调和平均数;
判断每组参数下所述OCSVM分类器中的所述调和平均数的大小;
判断是否存在多组所述参数使得所述调和平均数具有相同的最大值;
若不存在多组所述参数使得所述调和平均数具有相同的最大值,则在所述调和平均数中选择最大的调和平均数所对应的参数作为所述OCSVM分类器的参数;
若存在多组所述参数使得所述调和平均数具有相同的最大值,则选取所述调和平均数最大值的参数中损失函数值最小的所述OCSVM参数。
8.一种检测异常邮件的装置,其特征在于,所述装置包括:
输入输出模块,用于获取多个用户信息,所述多个用户的邮件信息包括多个正常邮件信息以及多个存在缺失的用户邮件信息;
处理模块,用于标注所述多个用户的邮件信息,得到目标标签;所述目标标签为正常行为标签或者异常行为标签;填充所述存在缺失用户的邮件信息,以将多个所述存在缺失的所述用户邮件信息补充完整,将所述用户的邮件信息计算变换以得到特征,并选择与用户异常行为相关性高于阈值的特征作为有效特征;通过所述输入输出模块将所述有效特征输入至多组参数下的单类支持向量机OCSVM分类器,通过所述OCSVM的核函数以对所述OCSVM分类器进行训练,所述OCSVM的核函数是指其中K(x,z)是指所述OCSVM的核函数,||x-z||指的所述有效特征x与所述OCSVM特征点z的欧式距离,所述参数包括误差的容忍能力C与所述核函数中的σ;计算训练好的所述多组参数下的OCSVM分类器的得分,以得到每一组参数下的的所述OCSVM分类器的评估结果,所述得分通过权衡损失函数的值、准确率、精确度和召回率的权重加权求和得到,所述精确度是指预测正确的正常行为标签的数量与所有被预测正常行为标签数量的比值,所述召回率是指预测正确的异常行为标签的数量与所有被预测异常行为标签数量的比值;根据每一组参数下所述OCSVM分类器的评估结果,选择得分最高的参数所述OCSVM分类器参数作为目标分类模型进行部署;获取客户端发送的邮件信息,将所述客户端发送的邮件信息输入至目标分类模型,以得到分类结果,并将所述分类结果发送给客户端。
9.一种检测异常邮件的设备,其特征在于,所述计算机设备包括:
至少一个处理器、存储器和输入输出单元;
其中,所述存储器用于存储程序代码,所述处理器用于调用所述存储器中存储的程序代码来执行如权利要求1-7中任一项所述的方法。
10.一种计算机存储介质,其特征在于,其包括指令,当其在计算机上运行时,使得计算机执行如权利要求1-7中任一项所述的方法。
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910886104.XA CN110807468B (zh) | 2019-09-19 | 2019-09-19 | 检测异常邮件的方法、装置、设备和存储介质 |
PCT/CN2019/117062 WO2021051530A1 (zh) | 2019-09-19 | 2019-11-11 | 检测异常邮件的方法、装置、设备和存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910886104.XA CN110807468B (zh) | 2019-09-19 | 2019-09-19 | 检测异常邮件的方法、装置、设备和存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN110807468A true CN110807468A (zh) | 2020-02-18 |
CN110807468B CN110807468B (zh) | 2023-06-20 |
Family
ID=69487676
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910886104.XA Active CN110807468B (zh) | 2019-09-19 | 2019-09-19 | 检测异常邮件的方法、装置、设备和存储介质 |
Country Status (2)
Country | Link |
---|---|
CN (1) | CN110807468B (zh) |
WO (1) | WO2021051530A1 (zh) |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111404939A (zh) * | 2020-03-16 | 2020-07-10 | 深信服科技股份有限公司 | 邮件威胁检测方法、装置、设备及存储介质 |
WO2021179712A1 (zh) * | 2020-10-22 | 2021-09-16 | 平安科技(深圳)有限公司 | 心电信号分类模型的训练方法、心电信号分类方法及装置 |
CN113554090A (zh) * | 2021-07-23 | 2021-10-26 | 中信银行股份有限公司 | 一种基于机器学习的银行设备故障预警方法及系统 |
CN114816825A (zh) * | 2022-06-23 | 2022-07-29 | 光谷技术有限公司 | 一种物联网网关数据纠错方法 |
CN117648607A (zh) * | 2023-11-13 | 2024-03-05 | 南京金鼎嘉崎信息科技有限公司 | 一种基于云计算的数据综合研判分析系统及方法 |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114330090B (zh) * | 2021-09-24 | 2024-08-13 | 腾讯科技(深圳)有限公司 | 一种缺陷检测方法、装置、计算机设备和存储介质 |
CN116938610B (zh) * | 2023-09-19 | 2023-11-17 | 北京傲星科技有限公司 | 基于拟态架构的邮件系统 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106453033A (zh) * | 2016-08-31 | 2017-02-22 | 电子科技大学 | 基于邮件内容的多层次邮件分类方法 |
CN107392015A (zh) * | 2017-07-06 | 2017-11-24 | 长沙学院 | 一种基于半监督学习的入侵检测方法 |
CN109462521A (zh) * | 2018-11-26 | 2019-03-12 | 华北电力大学 | 一种适用于源网荷互动工控系统的网络流量异常检测方法 |
CN109889436A (zh) * | 2019-02-20 | 2019-06-14 | 北京航空航天大学 | 一种社交网络中垃圾邮件发送者的发现方法 |
Family Cites Families (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US9646226B2 (en) * | 2013-04-16 | 2017-05-09 | The Penn State Research Foundation | Instance-weighted mixture modeling to enhance training collections for image annotation |
CN106506556B (zh) * | 2016-12-29 | 2019-11-19 | 北京神州绿盟信息安全科技股份有限公司 | 一种网络流量异常检测方法及装置 |
CN107196942B (zh) * | 2017-05-24 | 2020-05-15 | 山东省计算中心(国家超级计算济南中心) | 一种基于用户语言特征的内部威胁检测方法 |
-
2019
- 2019-09-19 CN CN201910886104.XA patent/CN110807468B/zh active Active
- 2019-11-11 WO PCT/CN2019/117062 patent/WO2021051530A1/zh active Application Filing
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106453033A (zh) * | 2016-08-31 | 2017-02-22 | 电子科技大学 | 基于邮件内容的多层次邮件分类方法 |
CN107392015A (zh) * | 2017-07-06 | 2017-11-24 | 长沙学院 | 一种基于半监督学习的入侵检测方法 |
CN109462521A (zh) * | 2018-11-26 | 2019-03-12 | 华北电力大学 | 一种适用于源网荷互动工控系统的网络流量异常检测方法 |
CN109889436A (zh) * | 2019-02-20 | 2019-06-14 | 北京航空航天大学 | 一种社交网络中垃圾邮件发送者的发现方法 |
Cited By (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111404939A (zh) * | 2020-03-16 | 2020-07-10 | 深信服科技股份有限公司 | 邮件威胁检测方法、装置、设备及存储介质 |
WO2021179712A1 (zh) * | 2020-10-22 | 2021-09-16 | 平安科技(深圳)有限公司 | 心电信号分类模型的训练方法、心电信号分类方法及装置 |
CN113554090A (zh) * | 2021-07-23 | 2021-10-26 | 中信银行股份有限公司 | 一种基于机器学习的银行设备故障预警方法及系统 |
CN114816825A (zh) * | 2022-06-23 | 2022-07-29 | 光谷技术有限公司 | 一种物联网网关数据纠错方法 |
CN114816825B (zh) * | 2022-06-23 | 2022-09-09 | 光谷技术有限公司 | 一种物联网网关数据纠错方法 |
CN117648607A (zh) * | 2023-11-13 | 2024-03-05 | 南京金鼎嘉崎信息科技有限公司 | 一种基于云计算的数据综合研判分析系统及方法 |
CN117648607B (zh) * | 2023-11-13 | 2024-05-14 | 南京金鼎嘉崎信息科技有限公司 | 一种基于云计算的数据综合研判分析系统及方法 |
Also Published As
Publication number | Publication date |
---|---|
CN110807468B (zh) | 2023-06-20 |
WO2021051530A1 (zh) | 2021-03-25 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110807468B (zh) | 检测异常邮件的方法、装置、设备和存储介质 | |
CN111079639B (zh) | 垃圾图像分类模型构建的方法、装置、设备及存储介质 | |
Bianco et al. | Combination of video change detection algorithms by genetic programming | |
Mishra et al. | Credit card fraud detection on the skewed data using various classification and ensemble techniques | |
CN108111489B (zh) | Url攻击检测方法、装置以及电子设备 | |
CN107577945B (zh) | Url攻击检测方法、装置以及电子设备 | |
US8923608B2 (en) | Pre-screening training data for classifiers | |
CN112989035B (zh) | 基于文本分类识别用户意图的方法、装置及存储介质 | |
JP4697670B2 (ja) | 識別用データ学習システム、学習装置、識別装置及び学習方法 | |
CN111181939A (zh) | 一种基于集成学习的网络入侵检测方法及装置 | |
US20070065003A1 (en) | Real-time recognition of mixed source text | |
CN109840413B (zh) | 一种钓鱼网站检测方法及装置 | |
JP6897749B2 (ja) | 学習方法、学習システム、および学習プログラム | |
CN110019790B (zh) | 文本识别、文本监控、数据对象识别、数据处理方法 | |
Barros et al. | Malware‐SMELL: A zero‐shot learning strategy for detecting zero‐day vulnerabilities | |
CN111291773A (zh) | 特征识别的方法及装置 | |
Vizcarra et al. | The Peruvian Amazon forestry dataset: A leaf image classification corpus | |
CN113051486A (zh) | 基于交友场景的推荐模型的训练方法、装置、电子设备和计算机可读存储介质 | |
CN110619528A (zh) | 行为验证数据处理方法、装置、设备及存储介质 | |
CN114581702A (zh) | 图像分类方法、装置、计算机设备及计算机可读存储介质 | |
CN117992765B (zh) | 基于动态新兴标记的偏标签学习方法、装置、设备及介质 | |
Liu et al. | Exploiting local data uncertainty to boost global outlier detection | |
CN108717511A (zh) | 一种Android应用威胁度评估模型建立方法、评估方法及系统 | |
CN108875060B (zh) | 一种网站识别方法及识别系统 | |
CN114282684B (zh) | 训练用户相关的分类模型、进行用户分类的方法及装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |