CN109145298B

CN109145298B - 一种非合法外发邮箱的识别系统、方法、设备及存储介质

Info

Publication number: CN109145298B
Application number: CN201810922011.3A
Authority: CN
Inventors: 马敏; 黄丽诗; 胡泽柱
Original assignee: SF Technology Co Ltd
Current assignee: SF Technology Co Ltd
Priority date: 2018-08-14
Filing date: 2018-08-14
Publication date: 2022-12-27
Anticipated expiration: 2038-08-14
Also published as: CN109145298A

Abstract

本发明涉及一种非合法外发邮箱的识别系统、方法、设备及存储介质。根据预设时段内部邮箱与待识别外发邮箱之间待测往来邮件数据、内部邮箱对应用户的岗位信息、待识别外发邮箱的属性标签信息中的至少一项提取第二特征信息，并将所述第二特征信息输入至外发邮箱识别模型生成待识别外发邮箱是否合法的识别结果。通过上述方法识别出非合法外发邮箱，对企业员工外发邮件至私人邮箱等非合法外发邮箱的行为进行有效的识别监督，且在调查数据泄漏事件时，通过本发明所述方法可将客户邮箱、供应商邮箱等外部合法发送对象的邮箱区分出来，仅对非合法外发邮箱有针对性的调查，不会混淆调查重点，大大缩短了调查时长，提高了调查精度。

Description

一种非合法外发邮箱的识别系统、方法、设备及存储介质

技术领域

本发明涉及数据挖掘领域，尤其涉及一种非合法外发邮箱的识别系统、方法、设备及存储介质。

背景技术

企业普遍存在因邮件外发导致的内部数据泄露事件；在调查泄漏事件时，客户邮箱、供应商邮箱等外部合法发送对象的邮箱会混淆调查重点，增加调查时长，降低调查精度；目前尚未存在完善的私人邮箱识别技术。

发明内容

为了解决上述技术问题，本发明的目的在于提供一种用户异常行为检测方法、系统及设备。

根据本发明的一个方面，提供了一种非合法外发邮箱的识别方法，包括以下步骤：

根据预设时段内部邮箱与待识别外发邮箱之间待测往来邮件数据、内部邮箱对应用户的岗位信息、待识别外发邮箱的属性标签信息中的至少一项提取第二特征信息，并将所述第二特征信息输入至外发邮箱识别模型生成待识别外发邮箱是否合法的识别结果，所述外发邮箱识别模型用于表征第二特征信息与所述识别结果的对应关系，

其中，外发邮箱识别模型是将根据预设时段内部邮箱与外发邮箱之间历史往来邮件数据、内部邮箱对应用户的岗位信息、外发邮箱的属性标签信息中的至少一项提取的第一特征信息输入至预设初始外发邮箱识别模型训练所得。

第一特征信息、第二特征信息均包括：往来邮件的数据量信息、往来次数信息、与内部预设岗位用户往来邮件的数据量及往来次数信息、首末往来邮件的时长信息、往来邮件的平均效率及频次信息、往来邮件的高效率及高频次信息、往来邮件的数据量及次数的聚合信息、内部用户的数量及对应的岗位数量信息、往来内部邮箱是否仅为一个、往来邮件的标题信息、转发合法外发邮箱邮件的数量信息的至少一种。

标题信息包括标题长度信息、包含和/或不包含预设字符和/或字符串长度不超阈值的标题的数量信息。

转发合法外发邮箱邮件的数量信息的获取过程，包括：

获取外发邮箱发送至内部邮箱的邮件标题，并去除回复和/或转发字样或等同字样，得第一邮件标题；

获取内部邮箱发送至外发邮箱的邮件标题，筛选出包含转发或等同字样的邮件标题，得第二邮件标题；

将第一邮件标题与第二邮件标题匹配，若匹配度超过阈值，则为内部邮箱转发合法外发邮箱邮件，并统计得转发合法外发邮箱邮件的数量信息。

预设初始外发邮箱识别模型及外发邮箱识别模型为单分类模型或分类模型。

合法的外发邮箱/非合法外发邮箱超过阈值时，预设初始外发邮箱识别模型及外发邮箱识别模型为单分类模型。

单分类模型为oneclass svm分类模型。

合法的外发邮箱/非合法外发邮箱小于阈值时，预设初始外发邮箱识别模型及外发邮箱识别模型为分类模型。

分类模型为随机森林分类模型。

根据本发明的另一个方面，提供了一种非合法外发邮箱的识别系统，包括：

预测识别单位，配置用于根据预设时段内部邮箱与待识别外发邮箱之间待测往来邮件数据、内部邮箱对应用户的岗位信息、待识别外发邮箱的属性标签信息中的至少一项提取第二特征信息，并将所述第二特征信息输入至外发邮箱识别模型生成待识别外发邮箱是否合法的识别结果，所述外发邮箱识别模型用于表征第二特征信息与所述识别结果的对应关系，

外发邮箱识别模型生成单元，配置用于将根据预设时段内部邮箱与外发邮箱之间历史往来邮件数据、内部邮箱对应用户的岗位信息、外发邮箱的属性标签信息中的至少一项提取的第一特征信息输入至预设初始外发邮箱识别模型训练得到外发邮箱识别模型。

预测识别单位、外发邮箱识别模型生成单元均配置用于：

单分类模型为oneclass svm分类模型。

分类模型为随机森林分类模型。

根据本发明的另一个方面，提供了一种设备，所述设备包括：

一个或多个处理器；

存储器，用于存储一个或多个程序，

当所述一个或多个程序被所述一个或多个处理器执行时，使得所述一个或多个处理器执行如上任一项所述的方法。

根据本发明的另一个方面，提供了一种存储有计算机程序的计算机可读存储介质，该程序被处理器执行时实现如上任一项所述的方法。

与现有技术相比，本发明具有以下有益效果：

1、本发明示例的非合法外发邮箱的识别方法，本发明根据预设时段内部邮箱与外发邮箱之间历史往来邮件数据、内部邮箱对应用户的岗位信息、外发邮箱的属性标签信息中的至少一项提取的第一特征信息，将第一特征信息输入至预设初始外发邮箱识别模型训练得外发邮箱识别模型，根据预设时段内部邮箱与待识别外发邮箱之间待测往来邮件数据、内部邮箱对应用户的岗位信息、待识别外发邮箱的属性标签信息中的至少一项提取第二特征信息，并将所述第二特征信息输入至外发邮箱识别模型生成待识别外发邮箱是否合法的识别结果，所述外发邮箱识别模型用于表征第二特征信息与所述识别结果的对应关系。通过上述方法识别出非合法外发邮箱，对企业员工外发邮件至私人邮箱等非合法外发邮箱的行为进行有效的识别监督，且在调查数据泄漏事件时，通过本发明所述方法可将客户邮箱、供应商邮箱等外部合法发送对象的邮箱区分出来，仅对非合法外发邮箱有针对性的调查，不会混淆调查重点，大大缩短了调查时长，有效提高了调查精度。

2、本发明示例的非合法外发邮箱的识别系统，通过各个单元的协同合作，可有效识别出非合法外发邮箱，对企业员工外发邮件至私人邮箱等非合法外发邮箱的行为进行有效的识别监督。

3、本发明示例的登录异常检测设备、通过存储有计算机程序的计算机可读介质,便于非合法外发邮箱的识别技术的推广。

附图说明

图1为本发明流程图。

具体实施方式

为了更好的了解本发明的技术方案，下面结合具体实施例、说明书附图对本发明作进一步说明。

实施例一：

本实施例提供了一种非合法外发邮箱的识别方法，包括以下步骤：

S1、将根据预设时段内部邮箱与外发邮箱之间历史往来邮件数据、内部邮箱对应用户的岗位信息、外发邮箱的属性标签信息中的至少一项提取的第一特征信息输入至预设初始外发邮箱识别模型训练得外发邮箱识别模型；

S2、根据预设时段内部邮箱与待识别外发邮箱之间待测往来邮件数据、内部邮箱对应用户的岗位信息、待识别外发邮箱的属性标签信息中的至少一项提取第二特征信息，并将所述第二特征信息输入至外发邮箱识别模型生成待识别外发邮箱是否合法的识别结果，所述外发邮箱识别模型用于表征第二特征信息与所述识别结果的对应关系。

转发合法外发邮箱邮件的数量信息的获取过程，包括：

单分类模型为oneclass svm分类模型。

分类模型为随机森林分类模型。

上述识别方法步骤具体为：

1、数据准备：

准备至少1周以上的邮件往来数据、内部邮箱对应的人力岗位信息(如无此部分的信息，则该信息相关的特征可不需要构造)、外部邮箱的属性标签信息(例如是否客户邮箱、供应商等外部合法的邮箱以及是否私人邮箱)。

数据集一般可分为训练集和测试集，训练集用来训练模型，测试集用来测试模型的准确率。此模型的训练集就是非合法外发邮箱的特征数据，让模型自己学习非合法外发邮箱的特征，完成学习后，当输入一个未知的邮箱，模型才会判断这个邮箱的特征是否属于非合法外发邮箱。

其中，特征构造：

2、根据特征构建的训练数据，建立分类器进行训练并预测。

(1)情况一：如正负样本不平衡情况下，已知合法的外发邮箱(客户邮箱、供应商邮箱等)/私人邮箱≥0.8,则采用单分类(例如使用oneclass svm)学习方法学习合法的外发邮箱(客户邮箱、供应商邮箱等)的逻辑；

(2)情况二：如正负样本相对平衡情况下，已知合法的外发邮箱(客户邮箱、供应商邮箱等)/私人邮箱＜0.8,则采用分类模型(例如使用随机森林)学习方法学习合法的外发邮箱(客户邮箱、供应商邮箱等)以及私人邮箱逻辑。

模型的建立需要有测试集才能研究。测试集是给到模型的一些真实数据，如私人邮箱数据，则会学习私人邮箱的特征，反之，给予合法邮箱，则会学习合法邮箱的特征。

3、模型应用

(1)情况一单分类模型的应用：将测试样本使用已训练好的单分类模型中进行预测，如所获得的概率值大于某阀值则为合法邮箱，小于则为私人邮箱。阀值的选择，根据业务情况定义，若业务对误报容忍低，则可以相应选择高阀值例如0.95，若业务对误报容忍高，则可以相应选择高阀值例如0.7。

(2)情况二分类模型的应用：将测试样本使用已训练好的分类模型中进行预测，得要模型对该样本的类型的预测结果。

本实施例提供了一种非合法外发邮箱的识别系统，包括：

预测识别单位，配置用于根据预设时段内部邮箱与待识别外发邮箱之间待测往来邮件数据、内部邮箱对应用户的岗位信息、待识别外发邮箱的属性标签信息中的至少一项提取第二特征信息，并将所述第二特征信息输入至外发邮箱识别模型生成待识别外发邮箱是否合法的识别结果，所述外发邮箱识别模型用于表征第二特征信息与所述识别结果的对应关系；

预测识别单位、外发邮箱识别模型生成单元均配置用于：

单分类模型为oneclass svm分类模型。

分类模型为随机森林分类模型。

本实施例还提供了一种设备，所述设备包括：

一个或多个处理器；

存储器，用于存储一个或多个程序，

本实施例还提供了一种存储有计算机程序的计算机可读存储介质，该程序被处理器执行时实现如上任一项所述的方法。

实施例二

本实施例与实施例一相同的特征不再赘述，本实施例与实施例一不同的特征在于：

S1、将根据预设时段内部邮箱与外发邮箱之间历史往来邮件数据、外发邮箱的属性标签信息提取的第一特征信息输入至预设初始外发邮箱识别模型训练得外发邮箱识别模型；

S2、根据预设时段内部邮箱与待识别外发邮箱之间待测往来邮件数据、待识别外发邮箱的属性标签信息提取第二特征信息，并将所述第二特征信息输入至外发邮箱识别模型生成待识别外发邮箱是否合法的识别结果，所述外发邮箱识别模型用于表征第二特征信息与所述识别结果的对应关系。

第一特征信息、第二特征信息均包括：往来邮件的数据量信息、往来次数信息、首末往来邮件的时长信息、往来邮件的平均效率及频次信息、往来邮件的高效率及高频次信息、往来邮件的数据量及次数的聚合信息、内部用户的数量信息、往来内部邮箱是否仅为一个、往来邮件的标题信息、转发合法外发邮箱邮件的数量信息的至少一种。

转发合法外发邮箱邮件的数量信息的获取过程，包括：

单分类模型为oneclass svm分类模型。

分类模型为随机森林分类模型。

上述识别方法步骤具体为：

1、数据准备：

准备至少1周以上的邮件往来数据、外部邮箱的属性标签信息(例如是否客户邮箱、供应商等外部合法的邮箱以及是否私人邮箱)

其中，特征构造：

2、根据特征构建的训练数据，建立分类器进行训练并预测。

3、模型应用

本实施例提供了一种非合法外发邮箱的识别系统，包括：

预测识别单位，配置用于根据预设时段内部邮箱与待识别外发邮箱之间待测往来邮件数据、待识别外发邮箱的属性标签信息提取第二特征信息，并将所述第二特征信息输入至外发邮箱识别模型生成待识别外发邮箱是否合法的识别结果，所述外发邮箱识别模型用于表征第二特征信息与所述识别结果的对应关系；

外发邮箱识别模型生成单元，配置用于将根据预设时段内部邮箱与外发邮箱之间历史往来邮件数据、外发邮箱的属性标签信息提取的第一特征信息输入至预设初始外发邮箱识别模型训练得到外发邮箱识别模型。

预测识别单位、外发邮箱识别模型生成单元均配置用于：

单分类模型为oneclass svm分类模型。

分类模型为随机森林分类模型。

本实施例还提供了一种设备，所述设备包括：

一个或多个处理器；

存储器，用于存储一个或多个程序，

实施例三：

本实施例识别方法的具体步骤中，

2、根据特征构建的训练数据，建立分类器进行训练并预测。

(1)情况一：如正负样本不平衡情况下，已知合法的外发邮箱(客户邮箱、供应商邮箱等)/私人邮箱≥0.7,则采用单分类(例如使用oneclass svm)学习方法学习合法的外发邮箱(客户邮箱、供应商邮箱等)的逻辑；

(2)情况二：如正负样本相对平衡情况下，已知合法的外发邮箱(客户邮箱、供应商邮箱等)/私人邮箱<0.7,则采用分类模型(例如使用随机森林)学习方法学习合法的外发邮箱(客户邮箱、供应商邮箱等)以及私人邮箱逻辑。

3、模型应用

(1)情况一单分类模型的应用：将测试样本使用已训练好的单分类模型中进行预测，如所获得的概率值大于某阀值则为合法邮箱，小于则为私人邮箱。阀值的选择，根据业务情况定义，若业务对误报容忍低，则可以相应选择高阀值例如0.97，若业务对误报容忍高，则可以相应选择高阀值例如0.75。

以上描述仅为本申请的较佳实施例以及对所运用技术原理的说明。本领域技术人员应当理解，本申请中所涉及的发明范围，并不限于上述技术特征的特定组合而成的技术方案，同时也应涵盖在不脱离所述发明构思的情况下，由上述技术特征或其等同特征进行任意组合而形成的其它技术方案。例如上述特征与本申请中公开的(但不限于)具有类似功能。

Claims

1.一种非合法外发邮箱的识别方法，其特征是，包括以下步骤：

其中，外发邮箱识别模型是将根据预设时段内部邮箱与外发邮箱之间历史往来邮件数据、内部邮箱对应用户的岗位信息、外发邮箱的属性标签信息中的至少一项提取的第一特征信息输入至预设初始外发邮箱识别模型训练所得；

2.根据权利要求1所述的非合法外发邮箱的识别方法，其特征是，标题信息包括标题长度信息、包含和/或不包含预设字符和/或字符串长度不超阈值的标题的数量信息。

3.根据权利要求1所述的非合法外发邮箱的识别方法，其特征是，转发合法外发邮箱邮件的数量信息的获取过程，包括：

4.根据权利要求1所述的非合法外发邮箱的识别方法，其特征是，预设初始外发邮箱识别模型及外发邮箱识别模型为单分类模型或分类模型。

5.根据权利要求4所述的非合法外发邮箱的识别方法，其特征是，合法的外发邮箱/非合法外发邮箱超过阈值时，预设初始外发邮箱识别模型及外发邮箱识别模型为单分类模型。

6.根据权利要求5所述的非合法外发邮箱的识别方法，其特征是，单分类模型为oneclass svm分类模型。

7.根据权利要求4所述的非合法外发邮箱的识别方法，其特征是，合法的外发邮箱/非合法外发邮箱小于阈值时，预设初始外发邮箱识别模型及外发邮箱识别模型为分类模型。

8.根据权利要求7所述的非合法外发邮箱的识别方法，其特征是，分类模型为随机森林分类模型。

9.一种非合法外发邮箱的识别系统，其特征是，包括：

外发邮箱识别模型生成单元，配置用于将根据预设时段内部邮箱与外发邮箱之间历史往来邮件数据、内部邮箱对应用户的岗位信息、外发邮箱的属性标签信息中的至少一项提取的第一特征信息输入至预设初始外发邮箱识别模型训练得到外发邮箱识别模型；

10.根据权利要求9所述的非合法外发邮箱的识别系统，其特征是，标题信息包括标题长度信息、包含和/或不包含预设字符和/或字符串长度不超阈值的标题的数量信息。

11.根据权利要求9所述的非合法外发邮箱的识别系统，其特征是，预测识别单位、外发邮箱识别模型生成单元均配置用于：

12.根据权利要求9所述的非合法外发邮箱的识别系统，其特征是，预设初始外发邮箱识别模型及外发邮箱识别模型为单分类模型或分类模型。

13.根据权利要求12所述的非合法外发邮箱的识别系统，其特征是，合法的外发邮箱/非合法外发邮箱超过阈值时，预设初始外发邮箱识别模型及外发邮箱识别模型为单分类模型。

14.根据权利要求13所述的非合法外发邮箱的识别系统，其特征是，单分类模型为oneclass svm分类模型。

15.根据权利要求12所述的非合法外发邮箱的识别系统，其特征是，合法的外发邮箱/非合法外发邮箱小于阈值时，预设初始外发邮箱识别模型及外发邮箱识别模型为分类模型。

16.根据权利要求15所述的非合法外发邮箱的识别系统，其特征是，分类模型为随机森林分类模型。

17.一种设备，其特征是，所述设备包括：

一个或多个处理器；

存储器，用于存储一个或多个程序，

当所述一个或多个程序被所述一个或多个处理器执行时，使得所述一个或多个处理器执行如权利要求1-8中任一项所述的方法。

18.一种存储有计算机程序的计算机可读存储介质，其特征是，该程序被处理器执行时实现如权利要求1-8中任一项所述的方法。