CN109145298B - 一种非合法外发邮箱的识别系统、方法、设备及存储介质 - Google Patents
一种非合法外发邮箱的识别系统、方法、设备及存储介质 Download PDFInfo
- Publication number
- CN109145298B CN109145298B CN201810922011.3A CN201810922011A CN109145298B CN 109145298 B CN109145298 B CN 109145298B CN 201810922011 A CN201810922011 A CN 201810922011A CN 109145298 B CN109145298 B CN 109145298B
- Authority
- CN
- China
- Prior art keywords
- outgoing
- mailbox
- information
- mails
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/258—Heading extraction; Automatic titling; Numbering
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q10/00—Administration; Management
- G06Q10/10—Office automation; Time management
- G06Q10/107—Computer-aided management of electronic mailing [e-mailing]
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Business, Economics & Management (AREA)
- Human Resources & Organizations (AREA)
- General Physics & Mathematics (AREA)
- Physics & Mathematics (AREA)
- Strategic Management (AREA)
- Health & Medical Sciences (AREA)
- General Engineering & Computer Science (AREA)
- General Health & Medical Sciences (AREA)
- Computational Linguistics (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Entrepreneurship & Innovation (AREA)
- Artificial Intelligence (AREA)
- Tourism & Hospitality (AREA)
- Computer Hardware Design (AREA)
- Data Mining & Analysis (AREA)
- General Business, Economics & Management (AREA)
- Economics (AREA)
- Quality & Reliability (AREA)
- Operations Research (AREA)
- Marketing (AREA)
- Data Exchanges In Wide-Area Networks (AREA)
- Information Transfer Between Computers (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本发明涉及一种非合法外发邮箱的识别系统、方法、设备及存储介质。根据预设时段内部邮箱与待识别外发邮箱之间待测往来邮件数据、内部邮箱对应用户的岗位信息、待识别外发邮箱的属性标签信息中的至少一项提取第二特征信息,并将所述第二特征信息输入至外发邮箱识别模型生成待识别外发邮箱是否合法的识别结果。通过上述方法识别出非合法外发邮箱,对企业员工外发邮件至私人邮箱等非合法外发邮箱的行为进行有效的识别监督,且在调查数据泄漏事件时,通过本发明所述方法可将客户邮箱、供应商邮箱等外部合法发送对象的邮箱区分出来,仅对非合法外发邮箱有针对性的调查,不会混淆调查重点,大大缩短了调查时长,提高了调查精度。
Description
技术领域
本发明涉及数据挖掘领域,尤其涉及一种非合法外发邮箱的识别系统、方法、设备及存储介质。
背景技术
企业普遍存在因邮件外发导致的内部数据泄露事件;在调查泄漏事件时,客户邮箱、供应商邮箱等外部合法发送对象的邮箱会混淆调查重点,增加调查时长,降低调查精度;目前尚未存在完善的私人邮箱识别技术。
发明内容
为了解决上述技术问题,本发明的目的在于提供一种用户异常行为检测方法、系统及设备。
根据本发明的一个方面,提供了一种非合法外发邮箱的识别方法,包括以下步骤:
根据预设时段内部邮箱与待识别外发邮箱之间待测往来邮件数据、内部邮箱对应用户的岗位信息、待识别外发邮箱的属性标签信息中的至少一项提取第二特征信息,并将所述第二特征信息输入至外发邮箱识别模型生成待识别外发邮箱是否合法的识别结果,所述外发邮箱识别模型用于表征第二特征信息与所述识别结果的对应关系,
其中,外发邮箱识别模型是将根据预设时段内部邮箱与外发邮箱之间历史往来邮件数据、内部邮箱对应用户的岗位信息、外发邮箱的属性标签信息中的至少一项提取的第一特征信息输入至预设初始外发邮箱识别模型训练所得。
第一特征信息、第二特征信息均包括:往来邮件的数据量信息、往来次数信息、与内部预设岗位用户往来邮件的数据量及往来次数信息、首末往来邮件的时长信息、往来邮件的平均效率及频次信息、往来邮件的高效率及高频次信息、往来邮件的数据量及次数的聚合信息、内部用户的数量及对应的岗位数量信息、往来内部邮箱是否仅为一个、往来邮件的标题信息、转发合法外发邮箱邮件的数量信息的至少一种。
标题信息包括标题长度信息、包含和/或不包含预设字符和/或字符串长度不超阈值的标题的数量信息。
转发合法外发邮箱邮件的数量信息的获取过程,包括:
获取外发邮箱发送至内部邮箱的邮件标题,并去除回复和/或转发字样或等同字样,得第一邮件标题;
获取内部邮箱发送至外发邮箱的邮件标题,筛选出包含转发或等同字样的邮件标题,得第二邮件标题;
将第一邮件标题与第二邮件标题匹配,若匹配度超过阈值,则为内部邮箱转发合法外发邮箱邮件,并统计得转发合法外发邮箱邮件的数量信息。
预设初始外发邮箱识别模型及外发邮箱识别模型为单分类模型或分类模型。
合法的外发邮箱/非合法外发邮箱超过阈值时,预设初始外发邮箱识别模型及外发邮箱识别模型为单分类模型。
单分类模型为oneclass svm分类模型。
合法的外发邮箱/非合法外发邮箱小于阈值时,预设初始外发邮箱识别模型及外发邮箱识别模型为分类模型。
分类模型为随机森林分类模型。
根据本发明的另一个方面,提供了一种非合法外发邮箱的识别系统,包括:
预测识别单位,配置用于根据预设时段内部邮箱与待识别外发邮箱之间待测往来邮件数据、内部邮箱对应用户的岗位信息、待识别外发邮箱的属性标签信息中的至少一项提取第二特征信息,并将所述第二特征信息输入至外发邮箱识别模型生成待识别外发邮箱是否合法的识别结果,所述外发邮箱识别模型用于表征第二特征信息与所述识别结果的对应关系,
外发邮箱识别模型生成单元,配置用于将根据预设时段内部邮箱与外发邮箱之间历史往来邮件数据、内部邮箱对应用户的岗位信息、外发邮箱的属性标签信息中的至少一项提取的第一特征信息输入至预设初始外发邮箱识别模型训练得到外发邮箱识别模型。
第一特征信息、第二特征信息均包括:往来邮件的数据量信息、往来次数信息、与内部预设岗位用户往来邮件的数据量及往来次数信息、首末往来邮件的时长信息、往来邮件的平均效率及频次信息、往来邮件的高效率及高频次信息、往来邮件的数据量及次数的聚合信息、内部用户的数量及对应的岗位数量信息、往来内部邮箱是否仅为一个、往来邮件的标题信息、转发合法外发邮箱邮件的数量信息的至少一种。
标题信息包括标题长度信息、包含和/或不包含预设字符和/或字符串长度不超阈值的标题的数量信息。
预测识别单位、外发邮箱识别模型生成单元均配置用于:
获取外发邮箱发送至内部邮箱的邮件标题,并去除回复和/或转发字样或等同字样,得第一邮件标题;
获取内部邮箱发送至外发邮箱的邮件标题,筛选出包含转发或等同字样的邮件标题,得第二邮件标题;
将第一邮件标题与第二邮件标题匹配,若匹配度超过阈值,则为内部邮箱转发合法外发邮箱邮件,并统计得转发合法外发邮箱邮件的数量信息。
预设初始外发邮箱识别模型及外发邮箱识别模型为单分类模型或分类模型。
合法的外发邮箱/非合法外发邮箱超过阈值时,预设初始外发邮箱识别模型及外发邮箱识别模型为单分类模型。
单分类模型为oneclass svm分类模型。
合法的外发邮箱/非合法外发邮箱小于阈值时,预设初始外发邮箱识别模型及外发邮箱识别模型为分类模型。
分类模型为随机森林分类模型。
根据本发明的另一个方面,提供了一种设备,所述设备包括:
一个或多个处理器;
存储器,用于存储一个或多个程序,
当所述一个或多个程序被所述一个或多个处理器执行时,使得所述一个或多个处理器执行如上任一项所述的方法。
根据本发明的另一个方面,提供了一种存储有计算机程序的计算机可读存储介质,该程序被处理器执行时实现如上任一项所述的方法。
与现有技术相比,本发明具有以下有益效果:
1、本发明示例的非合法外发邮箱的识别方法,本发明根据预设时段内部邮箱与外发邮箱之间历史往来邮件数据、内部邮箱对应用户的岗位信息、外发邮箱的属性标签信息中的至少一项提取的第一特征信息,将第一特征信息输入至预设初始外发邮箱识别模型训练得外发邮箱识别模型,根据预设时段内部邮箱与待识别外发邮箱之间待测往来邮件数据、内部邮箱对应用户的岗位信息、待识别外发邮箱的属性标签信息中的至少一项提取第二特征信息,并将所述第二特征信息输入至外发邮箱识别模型生成待识别外发邮箱是否合法的识别结果,所述外发邮箱识别模型用于表征第二特征信息与所述识别结果的对应关系。通过上述方法识别出非合法外发邮箱,对企业员工外发邮件至私人邮箱等非合法外发邮箱的行为进行有效的识别监督,且在调查数据泄漏事件时,通过本发明所述方法可将客户邮箱、供应商邮箱等外部合法发送对象的邮箱区分出来,仅对非合法外发邮箱有针对性的调查,不会混淆调查重点,大大缩短了调查时长,有效提高了调查精度。
2、本发明示例的非合法外发邮箱的识别系统,通过各个单元的协同合作,可有效识别出非合法外发邮箱,对企业员工外发邮件至私人邮箱等非合法外发邮箱的行为进行有效的识别监督。
3、本发明示例的登录异常检测设备、通过存储有计算机程序的计算机可读介质,便于非合法外发邮箱的识别技术的推广。
附图说明
图1为本发明流程图。
具体实施方式
为了更好的了解本发明的技术方案,下面结合具体实施例、说明书附图对本发明作进一步说明。
实施例一:
本实施例提供了一种非合法外发邮箱的识别方法,包括以下步骤:
S1、将根据预设时段内部邮箱与外发邮箱之间历史往来邮件数据、内部邮箱对应用户的岗位信息、外发邮箱的属性标签信息中的至少一项提取的第一特征信息输入至预设初始外发邮箱识别模型训练得外发邮箱识别模型;
S2、根据预设时段内部邮箱与待识别外发邮箱之间待测往来邮件数据、内部邮箱对应用户的岗位信息、待识别外发邮箱的属性标签信息中的至少一项提取第二特征信息,并将所述第二特征信息输入至外发邮箱识别模型生成待识别外发邮箱是否合法的识别结果,所述外发邮箱识别模型用于表征第二特征信息与所述识别结果的对应关系。
第一特征信息、第二特征信息均包括:往来邮件的数据量信息、往来次数信息、与内部预设岗位用户往来邮件的数据量及往来次数信息、首末往来邮件的时长信息、往来邮件的平均效率及频次信息、往来邮件的高效率及高频次信息、往来邮件的数据量及次数的聚合信息、内部用户的数量及对应的岗位数量信息、往来内部邮箱是否仅为一个、往来邮件的标题信息、转发合法外发邮箱邮件的数量信息的至少一种。
标题信息包括标题长度信息、包含和/或不包含预设字符和/或字符串长度不超阈值的标题的数量信息。
转发合法外发邮箱邮件的数量信息的获取过程,包括:
获取外发邮箱发送至内部邮箱的邮件标题,并去除回复和/或转发字样或等同字样,得第一邮件标题;
获取内部邮箱发送至外发邮箱的邮件标题,筛选出包含转发或等同字样的邮件标题,得第二邮件标题;
将第一邮件标题与第二邮件标题匹配,若匹配度超过阈值,则为内部邮箱转发合法外发邮箱邮件,并统计得转发合法外发邮箱邮件的数量信息。
预设初始外发邮箱识别模型及外发邮箱识别模型为单分类模型或分类模型。
合法的外发邮箱/非合法外发邮箱超过阈值时,预设初始外发邮箱识别模型及外发邮箱识别模型为单分类模型。
单分类模型为oneclass svm分类模型。
合法的外发邮箱/非合法外发邮箱小于阈值时,预设初始外发邮箱识别模型及外发邮箱识别模型为分类模型。
分类模型为随机森林分类模型。
上述识别方法步骤具体为:
1、数据准备:
准备至少1周以上的邮件往来数据、内部邮箱对应的人力岗位信息(如无此部分的信息,则该信息相关的特征可不需要构造)、外部邮箱的属性标签信息(例如是否客户邮箱、供应商等外部合法的邮箱以及是否私人邮箱)。
数据集一般可分为训练集和测试集,训练集用来训练模型,测试集用来测试模型的准确率。此模型的训练集就是非合法外发邮箱的特征数据,让模型自己学习非合法外发邮箱的特征,完成学习后,当输入一个未知的邮箱,模型才会判断这个邮箱的特征是否属于非合法外发邮箱。
其中,特征构造:
2、根据特征构建的训练数据,建立分类器进行训练并预测。
(1)情况一:如正负样本不平衡情况下,已知合法的外发邮箱(客户邮箱、供应商邮箱等)/私人邮箱≥0.8,则采用单分类(例如使用oneclass svm)学习方法学习合法的外发邮箱(客户邮箱、供应商邮箱等)的逻辑;
(2)情况二:如正负样本相对平衡情况下,已知合法的外发邮箱(客户邮箱、供应商邮箱等)/私人邮箱<0.8,则采用分类模型(例如使用随机森林)学习方法学习合法的外发邮箱(客户邮箱、供应商邮箱等)以及私人邮箱逻辑。
模型的建立需要有测试集才能研究。测试集是给到模型的一些真实数据,如私人邮箱数据,则会学习私人邮箱的特征,反之,给予合法邮箱,则会学习合法邮箱的特征。
3、模型应用
(1)情况一单分类模型的应用:将测试样本使用已训练好的单分类模型中进行预测,如所获得的概率值大于某阀值则为合法邮箱,小于则为私人邮箱。阀值的选择,根据业务情况定义,若业务对误报容忍低,则可以相应选择高阀值例如0.95,若业务对误报容忍高,则可以相应选择高阀值例如0.7。
(2)情况二分类模型的应用:将测试样本使用已训练好的分类模型中进行预测,得要模型对该样本的类型的预测结果。
本实施例提供了一种非合法外发邮箱的识别系统,包括:
预测识别单位,配置用于根据预设时段内部邮箱与待识别外发邮箱之间待测往来邮件数据、内部邮箱对应用户的岗位信息、待识别外发邮箱的属性标签信息中的至少一项提取第二特征信息,并将所述第二特征信息输入至外发邮箱识别模型生成待识别外发邮箱是否合法的识别结果,所述外发邮箱识别模型用于表征第二特征信息与所述识别结果的对应关系;
外发邮箱识别模型生成单元,配置用于将根据预设时段内部邮箱与外发邮箱之间历史往来邮件数据、内部邮箱对应用户的岗位信息、外发邮箱的属性标签信息中的至少一项提取的第一特征信息输入至预设初始外发邮箱识别模型训练得到外发邮箱识别模型。
第一特征信息、第二特征信息均包括:往来邮件的数据量信息、往来次数信息、与内部预设岗位用户往来邮件的数据量及往来次数信息、首末往来邮件的时长信息、往来邮件的平均效率及频次信息、往来邮件的高效率及高频次信息、往来邮件的数据量及次数的聚合信息、内部用户的数量及对应的岗位数量信息、往来内部邮箱是否仅为一个、往来邮件的标题信息、转发合法外发邮箱邮件的数量信息的至少一种。
标题信息包括标题长度信息、包含和/或不包含预设字符和/或字符串长度不超阈值的标题的数量信息。
预测识别单位、外发邮箱识别模型生成单元均配置用于:
获取外发邮箱发送至内部邮箱的邮件标题,并去除回复和/或转发字样或等同字样,得第一邮件标题;
获取内部邮箱发送至外发邮箱的邮件标题,筛选出包含转发或等同字样的邮件标题,得第二邮件标题;
将第一邮件标题与第二邮件标题匹配,若匹配度超过阈值,则为内部邮箱转发合法外发邮箱邮件,并统计得转发合法外发邮箱邮件的数量信息。
预设初始外发邮箱识别模型及外发邮箱识别模型为单分类模型或分类模型。
合法的外发邮箱/非合法外发邮箱超过阈值时,预设初始外发邮箱识别模型及外发邮箱识别模型为单分类模型。
单分类模型为oneclass svm分类模型。
合法的外发邮箱/非合法外发邮箱小于阈值时,预设初始外发邮箱识别模型及外发邮箱识别模型为分类模型。
分类模型为随机森林分类模型。
本实施例还提供了一种设备,所述设备包括:
一个或多个处理器;
存储器,用于存储一个或多个程序,
当所述一个或多个程序被所述一个或多个处理器执行时,使得所述一个或多个处理器执行如上任一项所述的方法。
本实施例还提供了一种存储有计算机程序的计算机可读存储介质,该程序被处理器执行时实现如上任一项所述的方法。
实施例二
本实施例与实施例一相同的特征不再赘述,本实施例与实施例一不同的特征在于:
本实施例提供了一种非合法外发邮箱的识别方法,包括以下步骤:
S1、将根据预设时段内部邮箱与外发邮箱之间历史往来邮件数据、外发邮箱的属性标签信息提取的第一特征信息输入至预设初始外发邮箱识别模型训练得外发邮箱识别模型;
S2、根据预设时段内部邮箱与待识别外发邮箱之间待测往来邮件数据、待识别外发邮箱的属性标签信息提取第二特征信息,并将所述第二特征信息输入至外发邮箱识别模型生成待识别外发邮箱是否合法的识别结果,所述外发邮箱识别模型用于表征第二特征信息与所述识别结果的对应关系。
第一特征信息、第二特征信息均包括:往来邮件的数据量信息、往来次数信息、首末往来邮件的时长信息、往来邮件的平均效率及频次信息、往来邮件的高效率及高频次信息、往来邮件的数据量及次数的聚合信息、内部用户的数量信息、往来内部邮箱是否仅为一个、往来邮件的标题信息、转发合法外发邮箱邮件的数量信息的至少一种。
标题信息包括标题长度信息、包含和/或不包含预设字符和/或字符串长度不超阈值的标题的数量信息。
转发合法外发邮箱邮件的数量信息的获取过程,包括:
获取外发邮箱发送至内部邮箱的邮件标题,并去除回复和/或转发字样或等同字样,得第一邮件标题;
获取内部邮箱发送至外发邮箱的邮件标题,筛选出包含转发或等同字样的邮件标题,得第二邮件标题;
将第一邮件标题与第二邮件标题匹配,若匹配度超过阈值,则为内部邮箱转发合法外发邮箱邮件,并统计得转发合法外发邮箱邮件的数量信息。
预设初始外发邮箱识别模型及外发邮箱识别模型为单分类模型或分类模型。
合法的外发邮箱/非合法外发邮箱超过阈值时,预设初始外发邮箱识别模型及外发邮箱识别模型为单分类模型。
单分类模型为oneclass svm分类模型。
合法的外发邮箱/非合法外发邮箱小于阈值时,预设初始外发邮箱识别模型及外发邮箱识别模型为分类模型。
分类模型为随机森林分类模型。
上述识别方法步骤具体为:
1、数据准备:
准备至少1周以上的邮件往来数据、外部邮箱的属性标签信息(例如是否客户邮箱、供应商等外部合法的邮箱以及是否私人邮箱)
其中,特征构造:
2、根据特征构建的训练数据,建立分类器进行训练并预测。
(1)情况一:如正负样本不平衡情况下,已知合法的外发邮箱(客户邮箱、供应商邮箱等)/私人邮箱≥0.8,则采用单分类(例如使用oneclass svm)学习方法学习合法的外发邮箱(客户邮箱、供应商邮箱等)的逻辑;
(2)情况二:如正负样本相对平衡情况下,已知合法的外发邮箱(客户邮箱、供应商邮箱等)/私人邮箱<0.8,则采用分类模型(例如使用随机森林)学习方法学习合法的外发邮箱(客户邮箱、供应商邮箱等)以及私人邮箱逻辑。
3、模型应用
(1)情况一单分类模型的应用:将测试样本使用已训练好的单分类模型中进行预测,如所获得的概率值大于某阀值则为合法邮箱,小于则为私人邮箱。阀值的选择,根据业务情况定义,若业务对误报容忍低,则可以相应选择高阀值例如0.95,若业务对误报容忍高,则可以相应选择高阀值例如0.7。
(2)情况二分类模型的应用:将测试样本使用已训练好的分类模型中进行预测,得要模型对该样本的类型的预测结果。
本实施例提供了一种非合法外发邮箱的识别系统,包括:
预测识别单位,配置用于根据预设时段内部邮箱与待识别外发邮箱之间待测往来邮件数据、待识别外发邮箱的属性标签信息提取第二特征信息,并将所述第二特征信息输入至外发邮箱识别模型生成待识别外发邮箱是否合法的识别结果,所述外发邮箱识别模型用于表征第二特征信息与所述识别结果的对应关系;
外发邮箱识别模型生成单元,配置用于将根据预设时段内部邮箱与外发邮箱之间历史往来邮件数据、外发邮箱的属性标签信息提取的第一特征信息输入至预设初始外发邮箱识别模型训练得到外发邮箱识别模型。
第一特征信息、第二特征信息均包括:往来邮件的数据量信息、往来次数信息、首末往来邮件的时长信息、往来邮件的平均效率及频次信息、往来邮件的高效率及高频次信息、往来邮件的数据量及次数的聚合信息、内部用户的数量信息、往来内部邮箱是否仅为一个、往来邮件的标题信息、转发合法外发邮箱邮件的数量信息的至少一种。
标题信息包括标题长度信息、包含和/或不包含预设字符和/或字符串长度不超阈值的标题的数量信息。
预测识别单位、外发邮箱识别模型生成单元均配置用于:
获取外发邮箱发送至内部邮箱的邮件标题,并去除回复和/或转发字样或等同字样,得第一邮件标题;
获取内部邮箱发送至外发邮箱的邮件标题,筛选出包含转发或等同字样的邮件标题,得第二邮件标题;
将第一邮件标题与第二邮件标题匹配,若匹配度超过阈值,则为内部邮箱转发合法外发邮箱邮件,并统计得转发合法外发邮箱邮件的数量信息。
预设初始外发邮箱识别模型及外发邮箱识别模型为单分类模型或分类模型。
合法的外发邮箱/非合法外发邮箱超过阈值时,预设初始外发邮箱识别模型及外发邮箱识别模型为单分类模型。
单分类模型为oneclass svm分类模型。
合法的外发邮箱/非合法外发邮箱小于阈值时,预设初始外发邮箱识别模型及外发邮箱识别模型为分类模型。
分类模型为随机森林分类模型。
本实施例还提供了一种设备,所述设备包括:
一个或多个处理器;
存储器,用于存储一个或多个程序,
当所述一个或多个程序被所述一个或多个处理器执行时,使得所述一个或多个处理器执行如上任一项所述的方法。
本实施例还提供了一种存储有计算机程序的计算机可读存储介质,该程序被处理器执行时实现如上任一项所述的方法。
实施例三:
本实施例与实施例一相同的特征不再赘述,本实施例与实施例一不同的特征在于:
本实施例识别方法的具体步骤中,
2、根据特征构建的训练数据,建立分类器进行训练并预测。
(1)情况一:如正负样本不平衡情况下,已知合法的外发邮箱(客户邮箱、供应商邮箱等)/私人邮箱≥0.7,则采用单分类(例如使用oneclass svm)学习方法学习合法的外发邮箱(客户邮箱、供应商邮箱等)的逻辑;
(2)情况二:如正负样本相对平衡情况下,已知合法的外发邮箱(客户邮箱、供应商邮箱等)/私人邮箱<0.7,则采用分类模型(例如使用随机森林)学习方法学习合法的外发邮箱(客户邮箱、供应商邮箱等)以及私人邮箱逻辑。
3、模型应用
(1)情况一单分类模型的应用:将测试样本使用已训练好的单分类模型中进行预测,如所获得的概率值大于某阀值则为合法邮箱,小于则为私人邮箱。阀值的选择,根据业务情况定义,若业务对误报容忍低,则可以相应选择高阀值例如0.97,若业务对误报容忍高,则可以相应选择高阀值例如0.75。
(2)情况二分类模型的应用:将测试样本使用已训练好的分类模型中进行预测,得要模型对该样本的类型的预测结果。
以上描述仅为本申请的较佳实施例以及对所运用技术原理的说明。本领域技术人员应当理解,本申请中所涉及的发明范围,并不限于上述技术特征的特定组合而成的技术方案,同时也应涵盖在不脱离所述发明构思的情况下,由上述技术特征或其等同特征进行任意组合而形成的其它技术方案。例如上述特征与本申请中公开的(但不限于)具有类似功能。
Claims (18)
1.一种非合法外发邮箱的识别方法,其特征是,包括以下步骤:
根据预设时段内部邮箱与待识别外发邮箱之间待测往来邮件数据、内部邮箱对应用户的岗位信息、待识别外发邮箱的属性标签信息中的至少一项提取第二特征信息,并将所述第二特征信息输入至外发邮箱识别模型生成待识别外发邮箱是否合法的识别结果,所述外发邮箱识别模型用于表征第二特征信息与所述识别结果的对应关系,
其中,外发邮箱识别模型是将根据预设时段内部邮箱与外发邮箱之间历史往来邮件数据、内部邮箱对应用户的岗位信息、外发邮箱的属性标签信息中的至少一项提取的第一特征信息输入至预设初始外发邮箱识别模型训练所得;
第一特征信息、第二特征信息均包括:往来邮件的数据量信息、往来次数信息、与内部预设岗位用户往来邮件的数据量及往来次数信息、首末往来邮件的时长信息、往来邮件的平均效率及频次信息、往来邮件的高效率及高频次信息、往来邮件的数据量及次数的聚合信息、内部用户的数量及对应的岗位数量信息、往来内部邮箱是否仅为一个、往来邮件的标题信息、转发合法外发邮箱邮件的数量信息的至少一种。
2.根据权利要求1所述的非合法外发邮箱的识别方法,其特征是,标题信息包括标题长度信息、包含和/或不包含预设字符和/或字符串长度不超阈值的标题的数量信息。
3.根据权利要求1所述的非合法外发邮箱的识别方法,其特征是,转发合法外发邮箱邮件的数量信息的获取过程,包括:
获取外发邮箱发送至内部邮箱的邮件标题,并去除回复和/或转发字样或等同字样,得第一邮件标题;
获取内部邮箱发送至外发邮箱的邮件标题,筛选出包含转发或等同字样的邮件标题,得第二邮件标题;
将第一邮件标题与第二邮件标题匹配,若匹配度超过阈值,则为内部邮箱转发合法外发邮箱邮件,并统计得转发合法外发邮箱邮件的数量信息。
4.根据权利要求1所述的非合法外发邮箱的识别方法,其特征是,预设初始外发邮箱识别模型及外发邮箱识别模型为单分类模型或分类模型。
5.根据权利要求4所述的非合法外发邮箱的识别方法,其特征是,合法的外发邮箱/非合法外发邮箱超过阈值时,预设初始外发邮箱识别模型及外发邮箱识别模型为单分类模型。
6.根据权利要求5所述的非合法外发邮箱的识别方法,其特征是,单分类模型为oneclass svm分类模型。
7.根据权利要求4所述的非合法外发邮箱的识别方法,其特征是,合法的外发邮箱/非合法外发邮箱小于阈值时,预设初始外发邮箱识别模型及外发邮箱识别模型为分类模型。
8.根据权利要求7所述的非合法外发邮箱的识别方法,其特征是,分类模型为随机森林分类模型。
9.一种非合法外发邮箱的识别系统,其特征是,包括:
预测识别单位,配置用于根据预设时段内部邮箱与待识别外发邮箱之间待测往来邮件数据、内部邮箱对应用户的岗位信息、待识别外发邮箱的属性标签信息中的至少一项提取第二特征信息,并将所述第二特征信息输入至外发邮箱识别模型生成待识别外发邮箱是否合法的识别结果,所述外发邮箱识别模型用于表征第二特征信息与所述识别结果的对应关系,
外发邮箱识别模型生成单元,配置用于将根据预设时段内部邮箱与外发邮箱之间历史往来邮件数据、内部邮箱对应用户的岗位信息、外发邮箱的属性标签信息中的至少一项提取的第一特征信息输入至预设初始外发邮箱识别模型训练得到外发邮箱识别模型;
第一特征信息、第二特征信息均包括:往来邮件的数据量信息、往来次数信息、与内部预设岗位用户往来邮件的数据量及往来次数信息、首末往来邮件的时长信息、往来邮件的平均效率及频次信息、往来邮件的高效率及高频次信息、往来邮件的数据量及次数的聚合信息、内部用户的数量及对应的岗位数量信息、往来内部邮箱是否仅为一个、往来邮件的标题信息、转发合法外发邮箱邮件的数量信息的至少一种。
10.根据权利要求9所述的非合法外发邮箱的识别系统,其特征是,标题信息包括标题长度信息、包含和/或不包含预设字符和/或字符串长度不超阈值的标题的数量信息。
11.根据权利要求9所述的非合法外发邮箱的识别系统,其特征是,预测识别单位、外发邮箱识别模型生成单元均配置用于:
获取外发邮箱发送至内部邮箱的邮件标题,并去除回复和/或转发字样或等同字样,得第一邮件标题;
获取内部邮箱发送至外发邮箱的邮件标题,筛选出包含转发或等同字样的邮件标题,得第二邮件标题;
将第一邮件标题与第二邮件标题匹配,若匹配度超过阈值,则为内部邮箱转发合法外发邮箱邮件,并统计得转发合法外发邮箱邮件的数量信息。
12.根据权利要求9所述的非合法外发邮箱的识别系统,其特征是,预设初始外发邮箱识别模型及外发邮箱识别模型为单分类模型或分类模型。
13.根据权利要求12所述的非合法外发邮箱的识别系统,其特征是,合法的外发邮箱/非合法外发邮箱超过阈值时,预设初始外发邮箱识别模型及外发邮箱识别模型为单分类模型。
14.根据权利要求13所述的非合法外发邮箱的识别系统,其特征是,单分类模型为oneclass svm分类模型。
15.根据权利要求12所述的非合法外发邮箱的识别系统,其特征是,合法的外发邮箱/非合法外发邮箱小于阈值时,预设初始外发邮箱识别模型及外发邮箱识别模型为分类模型。
16.根据权利要求15所述的非合法外发邮箱的识别系统,其特征是,分类模型为随机森林分类模型。
17.一种设备,其特征是,所述设备包括:
一个或多个处理器;
存储器,用于存储一个或多个程序,
当所述一个或多个程序被所述一个或多个处理器执行时,使得所述一个或多个处理器执行如权利要求1-8中任一项所述的方法。
18.一种存储有计算机程序的计算机可读存储介质,其特征是,该程序被处理器执行时实现如权利要求1-8中任一项所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810922011.3A CN109145298B (zh) | 2018-08-14 | 2018-08-14 | 一种非合法外发邮箱的识别系统、方法、设备及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810922011.3A CN109145298B (zh) | 2018-08-14 | 2018-08-14 | 一种非合法外发邮箱的识别系统、方法、设备及存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN109145298A CN109145298A (zh) | 2019-01-04 |
CN109145298B true CN109145298B (zh) | 2022-12-27 |
Family
ID=64793313
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201810922011.3A Active CN109145298B (zh) | 2018-08-14 | 2018-08-14 | 一种非合法外发邮箱的识别系统、方法、设备及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN109145298B (zh) |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106713126A (zh) * | 2017-02-15 | 2017-05-24 | 湖南长城银河科技有限公司 | 一种内外网间电子邮件信息单向传输方法及系统 |
CN107196844A (zh) * | 2016-11-28 | 2017-09-22 | 北京神州泰岳信息安全技术有限公司 | 异常邮件识别方法及装置 |
CN107408239A (zh) * | 2015-03-09 | 2017-11-28 | 微软技术许可有限责任公司 | 通过多个邮箱在通信应用中进行海量数据管理的架构 |
CN107888484A (zh) * | 2017-11-29 | 2018-04-06 | 北京明朝万达科技股份有限公司 | 一种邮件处理方法及系统 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US8224905B2 (en) * | 2006-12-06 | 2012-07-17 | Microsoft Corporation | Spam filtration utilizing sender activity data |
-
2018
- 2018-08-14 CN CN201810922011.3A patent/CN109145298B/zh active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107408239A (zh) * | 2015-03-09 | 2017-11-28 | 微软技术许可有限责任公司 | 通过多个邮箱在通信应用中进行海量数据管理的架构 |
CN107196844A (zh) * | 2016-11-28 | 2017-09-22 | 北京神州泰岳信息安全技术有限公司 | 异常邮件识别方法及装置 |
CN106713126A (zh) * | 2017-02-15 | 2017-05-24 | 湖南长城银河科技有限公司 | 一种内外网间电子邮件信息单向传输方法及系统 |
CN107888484A (zh) * | 2017-11-29 | 2018-04-06 | 北京明朝万达科技股份有限公司 | 一种邮件处理方法及系统 |
Also Published As
Publication number | Publication date |
---|---|
CN109145298A (zh) | 2019-01-04 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111818198B (zh) | 域名检测方法、域名检测装置和设备以及介质 | |
CN106357618B (zh) | 一种Web异常检测方法和装置 | |
CN110149266B (zh) | 垃圾邮件识别方法及装置 | |
CN108881263B (zh) | 一种网络攻击结果检测方法及系统 | |
CN102098235B (zh) | 一种基于文本特征分析的钓鱼邮件检测方法 | |
CN111917740B (zh) | 一种异常流量告警日志检测方法、装置、设备及介质 | |
CN111460446B (zh) | 基于模型的恶意文件检测方法及装置 | |
CN104067567B (zh) | 用于使用字符直方图进行垃圾邮件检测的系统和方法 | |
RU2018145499A (ru) | Автоматизация проверки достоверности изображения | |
Thieltges et al. | The devil’s triangle: Ethical considerations on developing bot detection methods | |
CN109039875B (zh) | 一种基于链接特征分析的钓鱼邮件检测方法及系统 | |
CN109558792B (zh) | 一种基于样本和特征检测互联网徽标内容的方法和系统 | |
CN114036264B (zh) | 一种基于小样本学习的电子邮件作者身份归属识别方法 | |
CN106878347A (zh) | 信息处理方法、系统、移动终端和服务器 | |
Ali et al. | Identification of inpainted satellite images using evalutionary artificial neural network (EANN) and k-nearest neighbor (KNN) algorithm | |
CN109660621A (zh) | 一种内容推送方法及服务设备 | |
CN111861733B (zh) | 基于地址模糊匹配的欺诈防控系统及方法 | |
CN109145298B (zh) | 一种非合法外发邮箱的识别系统、方法、设备及存储介质 | |
CN110705603B (zh) | 动态判断用户请求数据相似度的方法及系统 | |
CN117371049A (zh) | 基于区块链与生成式对抗网络的机器生成文本检测方法及系统 | |
US9398040B2 (en) | Intrusion detection system false positive detection apparatus and method | |
CN113746814A (zh) | 邮件处理方法、装置、电子设备及存储介质 | |
CN110309312B (zh) | 一种关联事件获取方法及装置 | |
Monarev et al. | Prior classification of stego containers as a new approach for enhancing steganalyzers accuracy | |
CN112529623B (zh) | 恶意用户的识别方法、装置和设备 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |