CN110807468A

CN110807468A - 检测异常邮件的方法、装置、设备和存储介质

Info

Publication number: CN110807468A
Application number: CN201910886104.XA
Authority: CN
Inventors: 刘玉洁; 杨冬艳
Original assignee: Ping An Technology Shenzhen Co Ltd
Current assignee: Ping An Technology Shenzhen Co Ltd
Priority date: 2019-09-19
Filing date: 2019-09-19
Publication date: 2020-02-18
Anticipated expiration: 2039-09-19
Also published as: WO2021051530A1; CN110807468B

Abstract

本申请涉及人工智能领域，尤其涉及一种检测异常邮件的方法、装置、设备和存储介质，方法包括：获取多个用户的邮件信息，并标注多个用户的邮件信息；填充存在缺失的用户邮件信息，以将多个存在缺失的用户邮件信息补充完整；将用户的邮件信息计算变换以得到特征，并选择与用户异常行为相关性高于阈值的特征作为有效特征；将有效特征输入至多组参数下的单类支持向量机OCSVM分类器，通过OCSVM的核函数以对OCSVM分类器进行训练；获取计算训练好的所述多组参数下的OCSVM分类器的得分，以得到每一组参数下的OCSVM分类器的评估结果；选择得分最高的参数下的所述OCSVM分类器作为目标分类模型进行部署。以解决实际状况中正负样本不均衡导致的误判率过高的问题。

Description

检测异常邮件的方法、装置、设备和存储介质

技术领域

本申请涉及智能决策领域，尤其涉及一种检测异常邮件的方法、装置、设备和存储介质。

背景技术

在企业信息安全中心中，邮件的异常行为模式识别目标是将有异常行为的用户从海量的正常用户中分离出来，目前常用的方法有根据有标注负样本利用有监督机器学习方法进行异常行为模式和正常行为模式的学习，进而对用户进行分类预测，该种方法需要积累大量的负样本并提取合适的特征，方可得到较好的分类效果。但是实际情况中，由于正样本的数量远远的多于负样本，造成了正负样本的不均衡，从而导致正样本可以很好识别到，而负样本无法很好的进行识别，导致负样本识别的错误率远高于正样本识别的错误率，进而无法较好的判断出用户的异常行为模式。

发明内容

本申请提供了一种通过配置检测异常邮件的方法，能够解决现正负样本不均衡导致检测不准确的问题。

第一方面，本申请提供一种检测异常邮件的方法，包括：

获取多个用户的邮件信息，并标注所述多个用户的邮件信息，得到目标标签，所述多个用户的邮件信息包括多个正常邮件信息以及多个存在缺失的用户邮件信息，所述目标标签为正常行为标签或者异常行为标签；

填充所述存在缺失的用户邮件信息，以将多个所述存在缺失的用户邮件信息补充完整；

将所述用户的邮件信息计算变换以得到特征，并选择与用户异常行为相关性高于阈值的特征作为有效特征；

将所述有效特征输入至多组参数下的单类支持向量机OCSVM分类器，通过所述OCSVM的核函数以对所述OCSVM分类器进行训练，所述OCSVM的核函数是指其中K(x,z)是指所述OCSVM的核函数，||x-z||指的所述有效特征x与所述OCSVM特征点z的欧式距离，所述参数包括误差的容忍能力C与所述核函数中的σ；

计算训练好的所述多组参数下的OCSVM分类器的得分，以得到每一组参数下的所述OCSVM分类器的评估结果，所述得分通过权衡损失函数的值、准确率、精确度和召回率的权重加权求和得到，所述精确度是指预测正确的正常行为标签的数量与所有被预测正常行为标签数量的比值，所述召回率是指预测正确的异常行为标签的数量与所有被预测异常行为标签数量的比值；

根据每一组参数下所述OCSVM分类器的评估结果，选择得分最高的所述 OCSVM分类器参数作为目标分类模型进行部署；

获取客户端发送的邮件信息，将所述客户端发送的邮件信息输入至目标分类模型，以得到分类结果，并将所述分类结果发送给客户端。

在一些可能的设计中，所述计算训练好的所述多组参数下的OCSVM分类器的得分，包括：

获取多个邮件信息的标注信息以及对应的所述OCSVM分类器输出结果；

通过损失函数

计算每一组参数下的所述OCSVM分类器的误差，其中θ^*为损失函数的输出值，argmin为经验风险函数， N为样本数量，y_i为所述OCSVM的理想输出结果，f(x_i,θ)为所述OCSVM的实际输出结果，L的函数表达式为L(m_i)＝max(0,1-m_i(w))，Φ是正则化项；

选取损失函数值最小的所述OCSVM参数作为目标参数并部署至所述OCSVM 分类器。

在一些可能的设计中，所述选择与用户异常行为相关性高于阈值的特征作为有效特征，包括：

通过计算所述特征信息的特征值，所述y是指用户是否为异常行为，x为各项所述特征，分别为所述用户是否为异常行为以及所述特征的均值；

判断所述特征值是否大于或等于阈值；

将所述特征值小于阈值对应的特征剔除。

在一些可能的设计中，所述将所述有效特征输入至多组参数下的单类支持向量机OCSVM分类器，通过所述OCSVM的核函数以对所述OCSVM分类器进行训练之前，所述方法还包括：

若所述OCSVM的输出y_j与n个所述有效特征输入x₁，x₂，…，x_n对应连接的权值为w_1j，w_2j，…，w_nj，则将所述OCSVM分类器通过

b＝0初始化权值。

在一些可能的设计中，所述填充所述存在缺失的用户邮件信息，包括：

删除含有所述缺失值的所述用户邮件信息；

或者，接收用户的输入数据，使用所述输入数据替换所述缺失值；

或者，使用一个全局常量替换所述缺失值；

或者，使用回归方程或者决策树归纳，将所述缺失值以外的特征输入到所述回归方程或者所述决策树，通过所述回归方程或者所述决策树的输出结果填充所述缺失值。

在一些可能的设计中，所述将所述用户的邮件信息计算变换以得到特征，包括：

通过特征变换将所述特征变换成0或1的特征；

或者，将连续特征离散化成多个数值特征分段；

或者，对不同所述特征组合以产生新的特征。

在一些可能的设计中，所述将所述有效特征输入至多组参数下的单类支持向量机OCSVM分类器，通过所述OCSVM的核函数以对所述OCSVM分类器进行训练之后，所述计算训练好的所述多组参数下的OCSVM分类器的得分，以得到每一组参数下的所述OCSVM分类器的评估结果之前，所述方法还包括：

计算每组参数下的所述OCSVM分类器的精确度及召回率，并计算精确度与召回率的调和平均数；

判断每组参数下所述OCSVM分类器中的所述调和平均数的大小；

判断是否存在多组所述参数使得所述调和平均数具有相同的最大值；

若不存在多组所述参数使得所述调和平均数具有相同的最大值，则在所述调和平均数中选择最大的调和平均数所对应的参数作为所述OCSVM分类器的参数；

若存在多组所述参数使得所述调和平均数具有相同的最大值，则选取所述调和平均数最大值的参数中损失函数值最小的所述OCSVM参数。

第二方面，本申请提供一种检测异常邮件的装置，具有实现对应于上述第一方面提供的检测异常邮件的平台的方法的功能。所述功能可以通过硬件实现，也可以通过硬件执行相应的软件实现。硬件或软件包括一个或多个与上述功能相对应的模块，所述模块可以是软件和/或硬件。

所述检测异常邮件的装置包括：

输入输出模块，用于获取多个用户信息，所述多个用户的邮件信息包括多个正常邮件信息以及多个存在缺失的用户邮件信息；

处理模块，用于标注所述多个用户的邮件信息，得到目标标签。所述目标标签为正常行为标签或者异常行为标签。填充所述存在缺失用户的邮件信息，以将多个所述存在缺失的所述用户邮件信息补充完整，将所述用户的邮件信息计算变换以得到特征，并选择与用户异常行为相关性高于阈值的特征作为有效特征；通过所述输入输出模块将所述有效特征输入至多组参数下的单类支持向量机OCSVM分类器，通过所述OCSVM的核函数以对所述OCSVM分类器进行训练，所述OCSVM的核函数是指

其中K(x,z)是指所述OCSVM的核函数，||x-z||指的所述有效特征x与所述OCSVM特征点z 的欧式距离，所述参数包括误差的容忍能力C与所述核函数中的σ；计算训练好的所述多组参数下的OCSVM分类器的得分，以得到每一组参数下的的所述OCSVM分类器的评估结果，所述得分通过权衡损失函数的值、准确率、精确度和召回率的权重加权求和得到，所述精确度是指预测正确的正常行为标签的数量与所有被预测正常行为标签数量的比值，所述召回率是指预测正确的异常行为标签的数量与所有被预测异常行为标签数量的比值；根据每一组参数下所述OCSVM分类器的评估结果，选择得分最高的参数所述OCSVM分类器参数作为目标分类模型进行部署；获取客户端发送的邮件信息，将所述客户端发送的邮件信息输入至目标分类模型，以得到分类结果，并将所述分类结果发送给客户端。

在一些可能的设计中，所述处理模块还用于：

通过损失函数计算每一组参数下的所述OCSVM分类器的误差，其中θ^*为损失函数的输出值，argmin为经验风险函数， N为样本数量，y_i为所述OCSVM的理想输出结果，f(x_i,θ)为所述OCSVM的实际输出结果，L的函数表达式为L(m_i)＝max(0,1-m_i(w))，Φ是正则化项；

在一些可能的设计中，所述处理模块还用于：

通过

计算所述特征信息的特征值，所述y是指用户是否为异常行为，x为各项所述特征，

分别为所述用户是否为异常行为以及所述特征的均值；

判断所述特征值是否大于或等于阈值；

将所述特征值小于阈值对应的特征剔除。

在一些可能的设计中，所述处理模块还用于：

b＝0初始化权值。

在一些可能的设计中，所述处理模块还用于：

删除含有所述缺失值的所述用户邮件信息；

或者，使用一个全局常量替换所述缺失值；

在一些可能的设计中，所述处理模块还用于：

通过特征变换将所述特征变换成0或1的特征；

或者，将连续特征离散化成多个数值特征分段；

或者，对不同所述特征组合以产生新的特征。

在一些可能的设计中，所述处理模块还用于：

本申请又一方面提供了一种检测异常邮件的设备，其包括至少一个连接的处理器、存储器、输入输出单元，其中，所述存储器用于存储程序代码，所述处理器用于调用所述存储器中的程序代码来执行上述各方面所述的方法。

本申请又一方面提供了一种计算机存储介质，其包括指令，当其在计算机上运行时，使得计算机执行上述各方面所述的方法。

本申请提出的OCSVM算法模型基于用户一段时间内的历史行为信息进行用户行为模式的学习和异常判断，通过将多个特征导入机器学习模型，考虑邮件是否是节假日发送等特征，通过这些特征刻画邮件的时间序列性，可有效判断用户随时间推移形成的工作行为模式，而且该模型考虑到了不同用户的差异化工作流程以及操作习惯，进而进行异常行为的识别，相比其他用户异常行为模式识别方法可有效降低误判率。

附图说明

图1为本申请实施例中检测异常邮件的方法的流程示意图；

图2为本申请实施例中检测异常邮件的装置的结构示意图；

图3为本申请实施例中检测异常邮件的设备的结构示意图。

本申请目的的实现、功能特点及优点将结合实施例，参照附图做进一步说明。

具体实施方式

应当理解，此处所描述的具体实施例仅用以解释本申请，并不用于限定本申请。本申请的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的实施例能够以除了在这里图示或描述的内容以外的顺序实施。此外，术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或模块的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或模块，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或模块，本申请中所出现的模块的划分，仅仅是一种逻辑上的划分，实际应用中实现时可以有另外的划分方式，例如多个模块可以结合成或集成在另一个系统中，或一些特征可以忽略，或不执行。

请参照图1，以下对本申请提供一种检测异常邮件的方法进行举例说明，所述方法包括：

101、获取多个用户的邮件信息，并标注所述多个用户的邮件信息，得到目标标签。

所述多个用户的邮件信息包括多个正常邮件信息以及多个存在缺失的用户邮件信息，所述目标标签为正常行为标签或者异常行为标签。

所述用户信息包括用户安全审计日志信息以及用户基础属性信息。所述用户安全审计日志信息是指针对计算机文件的操作行为日志。所述操作行为至少包括文件打印、文件传输等、邮件收发、USB以及鼠标等外部设备的使用记录日志、浏览邮件信息日志，以及用户登录行为以及权限申请信息。所述用户基础信息至少包括个人信息、公司信息、部门信息以及考勤记录信息。将所述用户信息进行标注，所述标注至少将所述用户信息分类成正常行为标签或者异常行为标签。

102、填充所述存在缺失的用户邮件信息，以将多个所述存在缺失的用户邮件信息补充完整。

103、将所述用户的邮件信息计算变换以得到特征，并选择与用户异常行为相关性高于阈值的特征作为有效特征。

所述特征是指用户信息经过计算变换得到后的数据属性，所述用户信息是指衍生后的用户信息或者原始的用户信息。

104、将所述有效特征输入至多组参数下的单类支持向量机OCSVM分类器，通过所述OCSVM的核函数以对所述OCSVM分类器进行训练。

所述OCSVM的核函数是指

其中K(x,z)是指所述OCSVM 的核函数，||x-z||指的所述有效特征x与所述OCSVM特征点z的欧式距离。所述参数包括误差的容忍能力C与所述核函数中的σ。

105、计算训练好的所述多组参数下的OCSVM分类器的得分，以得到每一组参数下的所述OCSVM分类器的评估结果。

所述得分通过权衡损失函数的值、准确率、精确度和召回率的权重加权求和得到。所述精确度是指预测正确的正常行为标签的数量与所有被预测正常行为标签数量的比值。所述召回率是指预测正确的异常行为标签的数量与所有被预测异常行为标签数量的比值。

所述准确率是指预测正确的样本的数量与所有被预测样本数量的比值；

所述精确度是指预测正确的正常行为标签的数量与所有被预测正常行为标签数量的比值；

所述召回率是指预测正确的异常行为标签的数量与所有被预测异常行为标签数量的比值。

精确度与召回率的具体数学表达式如下：

所述TP是指实际是正常行为标签的数据点，被预测为正常行为。所述FN 是指实际上是异常行为标签的数据点，被预测为异常行为。所述TN是指实际上是异常行为标签的数据点，被预测为异常行为。所述FN是指实际上是正常行为的数据点，被预测为异常行为。

106、根据每一组参数下所述OCSVM分类器的评估结果，选择最优的参数下的所述OCSVM分类器作为目标分类模型进行部署。

所述部署是指对应用目标神经网络模型软件的配置文件、用户手册、帮助文档进行打包、安装、配置以及发布。

107、获取客户端发送的邮件信息，将所述客户端发送的邮件信息输入至目标分类模型，以得到分类结果，并将所述分类结果发送给客户端。

上述实施方式中，提出的OCSVM算法模型基于用户一段时间内的历史行为信息进行用户行为模式的学习和异常判断，具有时间序列性，可有效刻画用户随时间推移形成的工作行为模式，而且该模型考虑到了不同用户的差异化工作流程以及操作习惯，进而进行异常行为的识别，相比其他用户异常行为模式识别方法可有效降低误判率。

一些实施方式中，所述计算训练好的所述多组参数下的OCSVM分类器的得分，包括：

通过损失函数

上述实施方式中，表达的含义是指如果标识分类正确损失是0，否则损失 1-m_i(w),后面的Φ是正则化项(regularizer)或者叫惩罚项(penaltyterm)，它可以是L1，也可以是L2，或者其他的正则函数。整个式子表示的意思是找到使目标函数最小时的θ值。

x_i是指第i个输入的有效特征，yi是指第i个输入的行为标签信息，通过将x_i输入至所述OCSVM中，获得预测行为标签与标注的行为标签之间的误差，即通过损失函数估量模型的预测值f(x)与真实值Y的不一致程度，它是一个非负实值函数。通过损失函数用于描述所述OCSVM的分类器边界与异常行为之间的误差，通过所述误差确认所述OCSVM中边界的分类效果，用于评判正常行为样本与异常行为偏离分界线的程度，通过选择所述误差最小的参数作为所述OCSVM中的参数，使得所述正常行为样本以及异常行为样本偏离程度最小，获得最佳的分界线。

由于正常行为与异常行为样本都分居在N维坐标系中，通过所述损失函数测试集中的样本与样本分界线的偏移量，找到多组参数下的单类支持向量机中训练出的最佳神经网络，以获得最好的分界线。

一些实施方式中，所述选择与用户异常行为相关性高于阈值的特征作为有效特征，包括：

通过

分别为所述用户是否为异常行为以及所述特征的均值；

判断所述特征值是否大于或等于阈值；

将所述特征值小于阈值对应的特征剔除。

上述实施方式中，r表示X，Y的相关性，r越高，X，Y就越相关，若X， Y是二维向量，就说明X，Y两个向量越接近(可以被互相表示)。通过计算出的相关性r，选择相关性r高于阈值的特征。通过筛选掉无用的特征，减少训练的特征的数量，以减少神经网络模型的输入，以加快模型的精确度，减少无关变量对模型的干扰。

通常情况下通过以下取值范围判断变量的。

一些实施方式中，所述将所述有效特征输入至多组参数下的单类支持向量机OCSVM分类器，通过所述OCSVM的核函数以对所述OCSVM分类器进行训练之前，所述方法还包括：

初始化权值。

通过所述权值初始化可以加快所述OCSVM的训练速度以及减少训练的误差。因为如果W初始化为0则对于每个隐藏层对应的每个神经元的输出都是相同的，这样即使梯度下降训练，无论训练多少次，这些神经元都是对称的，无论隐藏层内有多少个结点，都相当于在训练同一个函数。导致训练没有任何作用，出来的函数不会发生任何变化。若初始化为一个其他固定值，则增加了人为干扰因素在这上面，容易影响神经网络的训练。

一些实施方式中，所述填充所述存在缺失的用户邮件信息，包括：

删除含有所述缺失值的所述用户邮件信息；

或者，使用一个全局常量替换所述缺失值；

上述实施方式中，以使用一个全局常量替换所述缺失值为例，例如收入数据中，不存在负数，将这个缺失值用负数记录成一种状态进行标记，将这种状态作为输入至模型训练，可以提高模型预测的精确度。

一些实施方式中，所述将所述用户的邮件信息计算变换以得到特征，包括：

通过特征变换将所述特征变换成0或1的特征；

或者，将连续特征离散化成多个数值特征分段；

或者，对不同所述特征组合以产生新的特征。

上述实施方式中，通过衍生的特征可以产生更多有效的数据，并且可以获得更多的输入特征，从而让模型学习时回考虑更多的特征以及使用更多的数据，模型预测时将会获得更加精确的结果。

一些实施方式中，所述将所述有效特征输入至多组参数下的单类支持向量机OCSVM分类器，通过所述OCSVM的核函数以对所述OCSVM分类器进行训练之后，所述计算训练好的所述多组参数下的OCSVM分类器的得分，以得到每一组参数下的所述OCSVM分类器的评估结果之前，所述方法还包括：

上述实施方式中，以两个神经网络模型A模型以及B模型为例,实际用户的异常行为1％，用户的正常行为99％，A模型所有样本的准确率为99％，但是他的异常行为的准确率为0％，正常行为的准确率100％，由于正常行为的样本数比异常行为的样本数大很多，导致A模型的准确率为99％。B模型所有样本的准确率为98％，但是他的正常行为样本的准确率为97％，异常行为的100％，由于正常的样本比异常的样本多很多，导致B的准确率比A的准确率低，但是B能更好的预测异常行为样本，实际B的模型的效果会更好，因此除了准确率外，需要其他指标对模型的好坏进行评估。以下公式指的是如何建立新的评判指标以及对新指标的权衡。所述A模型的准确率为99％， Precision＝100％，Recall＝0％。所述B模型的准确率为98％，Precision＝97％， Recall＝100％。A的F1为0，B的F1为0.985，因为B的F1大于A的F1，因此选择B模型更合适。

如图2所示的一种检测异常邮件的装置20的结构示意图，其可应用于检测异常邮件的。本申请实施例中的检测异常邮件的装置能够实现对应于上述图1所对应的实施例中所执行的检测异常邮件的方法的步骤。检测异常邮件的装置20实现的功能可以通过硬件实现，也可以通过硬件执行相应的软件实现。硬件或软件包括一个或多个与上述功能相对应的模块，所述模块可以是软件和/或硬件。所述检测异常邮件的装置可包括输入输出模块201和处理模块202，所述处理模块202和输入输出模块201的功能实现可参考图1所对应的实施例中所执行的操作，此处不作赘述。输入输出模块201可用于控制所述输入输出模块201的输入、输出以及获取操作。

一些实施方式中，所述输入输出模块201可用于获取多个用户信息，所述多个用户的邮件信息包括多个正常邮件信息以及多个存在缺失的用户邮件信息；

所述处理模块202可用于标注所述多个用户的邮件信息，得到目标标签，所述目标标签为正常行为标签或者异常行为标签；填充所述存在缺失用户的邮件信息，以将多个所述存在缺失的所述用户邮件信息补充完整，将所述用户的邮件信息计算变换以得到特征，并选择与用户异常行为相关性高于阈值的特征作为有效特征；通过所述输入输出模块将所述有效特征输入至多组参数下的单类支持向量机OCSVM分类器，通过所述OCSVM的核函数以对所述 OCSVM分类器进行训练，所述OCSVM的核函数是指其中K(x,z)是指所述OCSVM的核函数，||x-z||指的所述有效特征x与所述OCSVM 计算训练好的所述多组参数下的OCSVM分类器的得分，以得到每一组参数下的的所述OCSVM分类器的评估结果，所述得分通过权衡损失函数的值、准确率、精确度和召回率的权重加权求和得到，所述精确度是指预测正确的正常行为标签的数量与所有被预测正常行为标签数量的比值，所述召回率是指预测正确的异常行为标签的数量与所有被预测异常行为标签数量的比值；根据每一组参数下所述OCSVM分类器的评估结果，选择得分最高的参数所述OCSVM分类器参数作为目标分类模型进行部署；获取客户端发送的邮件信息，将所述客户端发送的邮件信息输入至目标分类模型，以得到分类结果，并将所述分类结果发送给客户端。特征点z的欧式距离，所述参数包括误差的容忍能力C与所述核函数中的σ；

一些实施方式中，所述处理模块202还用于：

通过损失函数

计算每一组参数下的所述OCSVM分类器的误差，其中θ^*为损失函数的输出值，argmin为经验风险函数，N为样本数量，y_i为所述OCSVM的理想输出结果，f(x_i,θ)为所述OCSVM的实际输出结果，L的函数表达式为L(m_i)＝max(0,1-m_i(w))，Φ是正则化项；

一些实施方式中，所述处理模块202还用于：

通过

分别为所述用户是否为异常行为以及所述特征的均值；

判断所述特征值是否大于或等于阈值；

将所述特征值小于阈值对应的特征剔除。

一些实施方式中，所述处理模块202还用于：

b＝0初始化权值。

一些实施方式中，所述处理模块202还用于：

删除含有所述缺失值的所述用户邮件信息；

或者，使用一个全局常量替换所述缺失值；

一些实施方式中，所述处理模块202还用于：

通过特征变换将所述特征变换成0或1的特征；

或者，将连续特征离散化成多个数值特征分段；

或者，对不同所述特征组合以产生新的特征。

一些实施方式中，所述处理模块202还用于：

上面从模块化功能实体的角度分别介绍了本申请实施例中的创建装置，以下从硬件角度介绍一种检测异常邮件的设备，如图3所示，其包括：处理器、存储器、输入输出单元(也可以是收发器，图3中未标识出)以及存储在所述存储器中并可在所述处理器上运行的计算机程序。例如，该计算机程序可以为图1所对应的实施例中检测异常邮件的方法对应的程序。例如，当计算机设备实现如图2所示的检测异常邮件的装置20的功能时，所述处理器执行所述计算机程序时实现上述图2所对应的实施例中由检测异常邮件的装置20执行的检测异常邮件的方法中的各步骤。或者，所述处理器执行所述计算机程序时实现上述图2所对应的实施例的检测异常邮件的装置20中各模块的功能。又例如，该计算机程序可以为图1所对应的实施例中检测异常邮件的方法对应的程序。

所称处理器可以是中央处理单元(central processing unit，CPU)，还可以是其他通用处理器、数字信号处理器(digital signal processor，DSP)、专用集成电路(application specific integrated circuit，ASIC)、现成可编程门阵列(field-programmable gate array，FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等，所述处理器是所述计算机装置的控制中心，利用各种接口和线路连接整个计算机装置的各个部分。

所述存储器可用于存储所述计算机程序和/或模块，所述处理器通过运行或执行存储在所述存储器内的计算机程序和/或模块，以及调用存储在存储器内的数据，实现所述计算机装置的各种功能。所述存储器可主要包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需的应用程序(比如声音播放功能、图像播放功能等)等；存储数据区可存储根据手机的使用所创建的数据(比如音频数据、视频数据等)等。此外，存储器可以包括高速随机存取存储器，还可以包括非易失性存储器，例如硬盘、内存、插接式硬盘，智能存储卡(smart media card,SMC)，安全数字(secure digital,SD)卡，闪存卡(Flash Card)、至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。

所述输入输出单元也可以用接收器和发送器代替，可以为相同或者不同的物理实体。为相同的物理实体时，可以统称为输入输出单元。该输入输出可以为收发器。

所述存储器可以集成在所述处理器中，也可以与所述处理器分开设置。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件，但很多情况下前者是更佳的实施方式。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质(如ROM/RAM)中，包括若干指令用以使得一台终端(可以是手机，计算机，服务器或者网络设备等)执行本申请各个实施例所述的方法。

上面结合附图对本申请的实施例进行了描述，但是本申请并不局限于上述的具体实施方式，上述的具体实施方式仅仅是示意性的，而不是限制性的，本领域的普通技术人员在本申请的启示下，在不脱离本申请宗旨和权利要求所保护的范围情况下，还可做出很多形式，凡是利用本申请说明书及附图内容所作的等效结构或等效流程变换，或直接或间接运用在其他相关的技术领域，这些均属于本申请的保护之内。

Claims

1.一种检测异常邮件的方法，其特征在于，所述方法包括：

根据每一组参数下所述OCSVM分类器的评估结果，选择得分最高的所述OCSVM分类器参数作为目标分类模型进行部署；

2.根据权利要求1所述的方法，其特征在于，所述计算训练好的所述多组参数下的OCSVM分类器的得分，包括：

通过损失函数

选取损失函数值最小的所述OCSVM参数作为目标参数并部署至所述OCSVM分类器。

3.根据权利要求1所述的方法，其特征在于，所述选择与用户异常行为相关性高于阈值的特征作为有效特征，包括：

通过

分别为所述用户是否为异常行为以及所述特征的均值；

判断所述特征值是否大于或等于阈值；

将所述特征值小于阈值对应的特征剔除。

4.根据权利要求1所述的方法，其特征在于，所述将所述有效特征输入至多组参数下的单类支持向量机OCSVM分类器，通过所述OCSVM的核函数以对所述OCSVM分类器进行训练之前，所述方法还包括：

b＝0初始化权值。

5.根据权利要求1所述的方法，其特征在于，所述填充所述存在缺失的用户邮件信息，包括：

删除含有所述缺失值的所述用户邮件信息；

或者，使用一个全局常量替换所述缺失值；

6.根据权利要求1所述的方法，其特征在于，所述将所述用户的邮件信息计算变换以得到特征，包括：

通过特征变换将所述特征变换成0或1的特征；

或者，将连续特征离散化成多个数值特征分段；

或者，对不同所述特征组合以产生新的特征。

7.根据权利要求1-6中任一项所述的方法，其特征在于，所述将所述有效特征输入至多组参数下的单类支持向量机OCSVM分类器，通过所述OCSVM的核函数以对所述OCSVM分类器进行训练之后，所述计算训练好的所述多组参数下的OCSVM分类器的得分，以得到每一组参数下的所述OCSVM分类器的评估结果之前，所述方法还包括：

8.一种检测异常邮件的装置，其特征在于，所述装置包括：

处理模块，用于标注所述多个用户的邮件信息，得到目标标签；所述目标标签为正常行为标签或者异常行为标签；填充所述存在缺失用户的邮件信息，以将多个所述存在缺失的所述用户邮件信息补充完整，将所述用户的邮件信息计算变换以得到特征，并选择与用户异常行为相关性高于阈值的特征作为有效特征；通过所述输入输出模块将所述有效特征输入至多组参数下的单类支持向量机OCSVM分类器，通过所述OCSVM的核函数以对所述OCSVM分类器进行训练，所述OCSVM的核函数是指其中K(x,z)是指所述OCSVM的核函数，||x-z||指的所述有效特征x与所述OCSVM特征点z的欧式距离，所述参数包括误差的容忍能力C与所述核函数中的σ；计算训练好的所述多组参数下的OCSVM分类器的得分，以得到每一组参数下的的所述OCSVM分类器的评估结果，所述得分通过权衡损失函数的值、准确率、精确度和召回率的权重加权求和得到，所述精确度是指预测正确的正常行为标签的数量与所有被预测正常行为标签数量的比值，所述召回率是指预测正确的异常行为标签的数量与所有被预测异常行为标签数量的比值；根据每一组参数下所述OCSVM分类器的评估结果，选择得分最高的参数所述OCSVM分类器参数作为目标分类模型进行部署；获取客户端发送的邮件信息，将所述客户端发送的邮件信息输入至目标分类模型，以得到分类结果，并将所述分类结果发送给客户端。

9.一种检测异常邮件的设备，其特征在于，所述计算机设备包括：

至少一个处理器、存储器和输入输出单元；

其中，所述存储器用于存储程序代码，所述处理器用于调用所述存储器中存储的程序代码来执行如权利要求1-7中任一项所述的方法。

10.一种计算机存储介质，其特征在于，其包括指令，当其在计算机上运行时，使得计算机执行如权利要求1-7中任一项所述的方法。