CN118260685A - 一种邮箱异常数据检测方法、系统和装置 - Google Patents
一种邮箱异常数据检测方法、系统和装置 Download PDFInfo
- Publication number
- CN118260685A CN118260685A CN202211692391.9A CN202211692391A CN118260685A CN 118260685 A CN118260685 A CN 118260685A CN 202211692391 A CN202211692391 A CN 202211692391A CN 118260685 A CN118260685 A CN 118260685A
- Authority
- CN
- China
- Prior art keywords
- data
- mailbox
- abnormal data
- detection
- model
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 230000002159 abnormal effect Effects 0.000 title claims abstract description 195
- 238000001514 detection method Methods 0.000 title claims abstract description 155
- 238000012937 correction Methods 0.000 claims abstract description 41
- 238000000034 method Methods 0.000 claims abstract description 29
- 238000004422 calculation algorithm Methods 0.000 claims abstract description 24
- 238000012549 training Methods 0.000 claims abstract description 17
- 238000012545 processing Methods 0.000 claims description 36
- 230000008859 change Effects 0.000 claims description 16
- 238000004590 computer program Methods 0.000 claims description 13
- 238000012986 modification Methods 0.000 claims description 4
- 230000004048 modification Effects 0.000 claims description 4
- 238000005516 engineering process Methods 0.000 abstract description 4
- 238000004891 communication Methods 0.000 description 11
- 230000008569 process Effects 0.000 description 11
- 238000010586 diagram Methods 0.000 description 9
- 238000012216 screening Methods 0.000 description 7
- 230000006399 behavior Effects 0.000 description 4
- 230000006870 function Effects 0.000 description 4
- 230000003287 optical effect Effects 0.000 description 4
- 230000005856 abnormality Effects 0.000 description 2
- 238000013459 approach Methods 0.000 description 2
- 238000013528 artificial neural network Methods 0.000 description 2
- 238000010276 construction Methods 0.000 description 2
- 238000003066 decision tree Methods 0.000 description 2
- 238000011161 development Methods 0.000 description 2
- 239000000835 fiber Substances 0.000 description 2
- 238000011835 investigation Methods 0.000 description 2
- 230000000644 propagated effect Effects 0.000 description 2
- 238000007637 random forest analysis Methods 0.000 description 2
- 239000004065 semiconductor Substances 0.000 description 2
- 230000007547 defect Effects 0.000 description 1
- 238000000605 extraction Methods 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 238000002372 labelling Methods 0.000 description 1
- 239000004973 liquid crystal related substance Substances 0.000 description 1
- 239000013307 optical fiber Substances 0.000 description 1
Abstract
本申请公开了一种邮箱异常数据检测方法、系统和装置,该方法通过将第一打标异常数据输入自编码算法模型中训练得到检测模型;将待检测的邮箱日志记录数据和第二打标异常数据输入所述检测模型中,计算输入检测模型的数据和检测模型输出的数据之间的均方误差或平均绝对误差的误差值,根据所述误差值确定阈值,将误差值小于阈值的邮箱日志记录数据确定为可疑数据;基于预设的标签修正规则,剔除可疑数据中数据特征满足标签修正规则的可疑数据,得到目标异常数据。解决了相关技术中目前的检测方法难以准确检测异常数据,检测难度较大,效率较低的技术问题,实现邮箱异常数据的准确高效的识别检测。
Description
技术领域
本申请属于计算机技术领域,具体而言,涉及一种邮箱异常数据检测方法、系统和装置。
背景技术
随着信息化的发展,网络安全的异常检测越来越重要。邮箱系统在互联网建立之初就已出现并广泛应用。公司内部以及不同公司之间目前正式的沟通方式依旧是邮箱为主,因此也一直是网络攻击的重点目标。目前的电子邮箱异常检测方法难以有效地检测出与用户行为相似的异常邮箱账号数据。它通常需要专业的人工分析和排查。
相关技术中,目前对邮箱账号的攻击方式,盗取账号密码攻击往往无法检测或者防御,并通常造成严重损失,攻击者可以假冒用户浏览并窃取其邮箱信息,也可以冒充用户向其联系人群发钓鱼邮箱或直接作为傀儡账户等。在电子邮箱的异常检测中,正常账号和被盗账号的日志之间十分相似存在许多混淆。这导致了传统邮箱账号异常检测方法的无效。其次,实际应用中的邮箱日志数据是无标签的数据,并且对于这种攻击没有任何特征总结或定义,加大了检测的难度。因此,目前的检测方法难以准确检测异常数据,检测难度较大,效率较低。
发明内容
因此,本申请实施例在于提供一种邮箱异常数据检测方法、系统和装置,旨在解决上述现有技术存在的至少一个问题。
为实现上述目的,第一方面,本申请提供了一种基于邮箱日志的邮箱异常数据检测方法,包括:
步骤1:将第一打标异常数据输入自编码算法模型中训练得到检测模型;
步骤2:将待检测的邮箱日志记录数据和第二打标异常数据输入所述检测模型中,计算输入检测模型的数据和检测模型输出的数据之间的均方误差或平均绝对误差的误差值,根据所述误差值确定阈值,将误差值小于阈值的邮箱日志记录数据确定为可疑数据;
步骤3:基于预设的标签修正规则,剔除可疑数据中数据特征满足标签修正规则的可疑数据,得到目标异常数据。
在一个实施例中,还包括:步骤4:将所述目标异常数据输入检测模型中再次训练模型以修正模型参数得到更新后的检测模型,用所述目标异常数据替换所述第二打标异常数据,执行步骤2至步骤3,得到新的目标异常数据;步骤5:重复执行步骤4,计算本次迭代得到的目标异常数据和上一次迭代得到的目标异常数据之间的数量变化幅度值,当数量变化幅度值在预设范围内时,将本次得到的目标异常数据确定为最终异常数据。
在一个实施例中,所述数量变化幅度值为本次迭代得到的目标异常数据较上一次迭代得到的目标异常数据的增长率。
在一个实施例中,所述根据所述误差值确定阈值,包括:计算误差值的分位点数值,将分位数点数值确定为所述阈值。
在一个实施例中,在步骤1之前,还包括:调用IP地址查询接口对所述邮箱日志记录数据进行特征扩展,得到所述邮箱日志记录数据的IP扩展特征,IP扩展特征包括国家、省份、城市、经纬度和运营商。
在一个实施例中,所述标签修正规则包括:将数据特征满足以下至少一项的数据剔除:预设时间内频繁登录失败超过预设次数的数据、包含外国IP地址且在该地址的数据中从未登录成功的登录失败日志的数据、包含外地IP地址且在该地址的数据中从未登录成功的登录失败日志的数据。
第二方面,本申请还提供了一种基于邮箱日志的邮箱异常数据检测系统,包括:
模型训练单元,用于将第一打标异常数据输入自编码算法模型中训练得到检测模型;
第一处理单元,用于将待检测的邮箱日志记录数据和第二打标异常数据输入所述检测模型中,计算两组数据之间的均方误差或平均绝对误差的误差值,根据所述误差值确定阈值,将误差值小于阈值的邮箱日志记录数据确定为可疑数据;
第二处理单元,用于基于预设的标签修正规则,剔除可疑数据中数据特征满足标签修正规则的可疑数据,得到目标异常数据。
在一个实施例中,还包括第三处理单元,用于将所述目标异常数据输入检测模型中再次训练模型以修正模型参数得到更新后的检测模型;第四处理单元,用于用所述目标异常数据替换所述第二打标异常数据,执行第一处理单元和第二处理单元的步骤,得到新的目标异常数据;第五处理单元,用于重复执行第三处理单元和第四处理单元的步骤,计算本次迭代得到的目标异常数据和上一次迭代得到的目标异常数据之间的数量变化幅度值,当数量变化幅度值在预设范围内时,将本次得到的目标异常数据确定为最终异常数据。
第三方面,本申请还提供了一种电子设备,包括存储器和处理器,所述存储器中存储有计算机程序,所述计算机程序被所述处理器执行时,使得所述处理器执行所述邮箱异常数据检测方法的步骤。
第四方面,本申请还提供了一种计算机可读存储介质,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时,使得所述处理器执行所述邮箱异常数据检测方法的步骤。
本申请实施例提供的一种邮箱异常数据检测方法、系统、电子设备及存储介质,通过将第一打标异常数据输入自编码算法模型中训练得到检测模型;将待检测的邮箱日志记录数据和第二打标异常数据输入所述检测模型中,计算输入检测模型的数据和检测模型输出的数据之间的均方误差或平均绝对误差的误差值,根据所述误差值确定阈值,将误差值小于阈值的邮箱日志记录数据确定为可疑数据;基于预设的标签修正规则,剔除可疑数据中数据特征满足标签修正规则的可疑数据,得到目标异常数据。解决了相关技术中目前的检测方法难以准确检测异常数据,检测难度较大,效率较低的技术问题,实现邮箱异常数据的准确高效的识别检测。
附图说明
图1为本发明实施例提供的邮箱异常数据检测方法的流程图;
图2为本发明实施例提供的邮箱异常数据检测系统的主要模块图;
图3为本申请实施例提供的可以应用于其中的示例性系统架构图;
图4为适于用来实现本申请实施例的终端设备或服务器的计算机系统的结构示意图。
具体实施方式
为了使本技术领域的人员更好地理解本申请方案,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分的实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都应当属于本申请保护的范围。
需要说明的是,本申请的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本申请的实施例。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
并且,上述部分术语除了可以用于表示方位或位置关系以外,还可能用于表示其他含义,例如术语“上”在某些情况下也可能用于表示某种依附关系或连接关系。对于本领域普通技术人员而言,可以根据具体情况理解这些术语在本申请中的具体含义。
另外,术语“多个”的含义应为两个以及两个以上。
在本申请实施例中,随着信息化的发展,网络安全的异常检测越来越重要。邮箱系统在互联网建立之初就已出现并广泛应用。公司内部以及不同公司之间目前正式的沟通方式依旧是邮箱为主,因此也一直是网络攻击的重点目标。目前的电子邮箱异常检测方法难以有效地检测出与用户行为相似的异常邮箱账号数据。它通常需要专业的人工分析和排查。在目前对邮箱账号的攻击方式中,盗取账号密码攻击往往无法检测或者防御,并通常造成严重损失,攻击者可以假冒用户浏览并窃取其邮箱信息,也可以冒充用户向其联系人群发钓鱼邮箱或直接作为傀儡账户等。
在电子邮箱的异常检测中,正常账号和被盗账号的日志之间十分相似,存在许多混淆。这导致了传统邮箱账号异常检测方法的无效。其次,实际应用中的邮箱日志数据是无标签的数据,并且对于这种攻击没有任何特征总结或定义,加大了检测的难度。在实际异常检测中无法检测被盗邮箱账号的异常数据。在电子邮箱的异常检测中,正常账号和被盗邮箱账号之间数据非常相似。这导致了对传统异常检测的识别无效。实际应用中的电子邮箱系统日志数据是无标签的数据。对于异常攻击或者其特征也没有具体的定义。
需要说明的是,在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互组合。下面将参考附图并结合实施例来详细说明本申请。
根据本申请实施例提供的邮箱异常数据检测方法、系统、电子设备及存储介质,为解决相关技术中邮箱账号异常登录后的异常数据检测难、效率低的技术问题。
图1示出了本申请实施例提供的一种基于邮箱日志的邮箱异常数据检测方法的实现流程,为了便于说明,仅示出与本申请实施例相关的部分,详述如下:
一种基于邮箱日志的邮箱异常数据检测方法,包括:
步骤S101:将第一打标异常数据输入自编码算法模型中训练得到检测模型;
步骤S102:将待检测的邮箱日志记录数据和第二打标异常数据输入所述检测模型中,计算输入检测模型的数据和检测模型输出的数据之间的均方误差或平均绝对误差的误差值,根据所述误差值确定阈值,将误差值小于阈值的邮箱日志记录数据确定为可疑数据;
步骤S103:基于预设的标签修正规则,剔除可疑数据中数据特征满足标签修正规则的可疑数据,得到目标异常数据。
在步骤S101中,将第一打标异常数据输入自编码算法模型中训练得到检测模型。通过将已经打标为异常的数据作为样本数据输入到自编码算法模型中进行模型训练,以训练初步的检测模型。在这里,第一打标异常数据可以为来自威胁情报库或已知的异常数据进行筛选后打有异常标签的邮箱记录数据,威胁情报库为邮件运营商或者第三方的数据库,会公开目前阶段已知的恶意IP地址。
需要说明的是,算法模型还可以选择其他的异常检测算法,只要能够找到与标签数据相似的数据即可。例如有监督算法、神经网络、随机森林、决策树等;或者无监督的算法,例如聚类算法;以及其他方法,例如规则匹配、数据统计等等。
在一个实施例中,在步骤S101之前,还包括:调用IP地址查询接口对所述邮箱日志记录数据进行特征扩展,得到所述邮箱日志记录数据的IP扩展特征,IP扩展特征包括国家、省份、城市、经纬度和运营商。由此,可以根据邮箱日志记录数据的原有IP地址和扩展特征,基于已经训练的检测模型在模型迭代过程中分别计算最终结果的每维特征与输入的数据的均方误差或平均绝对误差。
在一个实施例中,还包括,在检测之前,还可以通过对异常邮箱账户登录失败的日志记录进行分析,并基于扩展出的IP扩展特征总结出其规律,并根据规律制定出异常检测模型的标签修正规则,满足该规则的则属于盗用邮箱账户登录失败的数据。需要说明的是,选择的算法模型不同,总结的标签修正规则可以不同,可以基于实际应用场景根据总结出的规律设定不同的标签修正规则。在本实施例中,标签修正规则可以为:预设时间(比如3s)内频繁登录失败超过预设次数(比如3次)的数据、包含外国IP地址(国家)且在该地址(国家)的所有数据中从未登录成功的登录失败日志的数据、包含外地IP(城市)地址且在该地址(城市)的所有数据中从未登录成功的登录失败日志的数据。由此,后续在检测模型检测出的疑似数据中可以利用该标签修正规则剔除一些干扰数据。
在这里,对异常邮箱账户登录失败的日志记录进行分析的分析过程可以是对登录失败日志的所有特征(包括扩展特征)的贡献度进行排序,贡献度即对具有该特征的日志记录数据影响其邮箱账户登录失败的影响度大小,贡献度越大,影响越大。可以在检测模型迭代训练过程中分别计算最终结果的每维特征与输入的数据的均方误差或平均绝对误差。误差越大贡献度越小,证明在该特征下没有准确预测出结果。
例如,对异常邮箱账户登录失败的日志记录进行分析总结的规律可以包括,失败日志主要有大量非用户常用IP地址,并且尝试登录非常频繁非人所能及的数据记录,失败日志数据基本都源自于用户不常用所在城市甚至国外等等。
在步骤S102中:将待检测的邮箱日志记录数据和第二打标异常数据输入所述检测模型中,计算输入检测模型的数据和检测模型输出的数据之间的均方误差或平均绝对误差的误差值,根据所述误差值确定阈值,将误差值小于阈值的邮箱日志记录数据确定为可疑数据。需要说明的是,第二打标异常数据为来自威胁情报库或已知的异常数据进行筛选后打有异常标签的邮箱记录数据,威胁情报库为邮件运营商或者第三方的数据库,会公开目前阶段已知的恶意IP地址。第二打标异常数据的数据量可以为第一打标异常数据的数据量的五分之一左右,当然,也可以根据具体的场景进行选择适当的比例。
在这里,待检测的邮箱日志记录数据已经进行了IP特征扩展,第一打标异常数据和第二打标异常数据均有对应的IP扩展特征,由此将待检测的邮箱日志记录数据和第二打标异常数据输入所述检测模型中,检测模型可以基于输入的邮箱日志记录数据和第二打标异常数据的IP特征计算检测模型对应输出的数据之间的均方误差或平均绝对误差的误差值,然后根据所述误差值确定一个阈值,将误差值小于该阈值的邮箱日志记录数据确定为可疑数据。即,通过计算检测模型输出的最终结果数据的每维特征与输入的数据之间的均方误差或平均绝对误差,误差越大贡献度越小,证明在该特征下没有准确预测出结果,因此将该特征下的数据判定为非可疑数据,将误差值较小的数据判定为可疑数据,即可能的异常数据。
在一个实施例中,所述根据所述误差值确定阈值,包括:计算误差值的分位点数值,将分位数点数值确定为所述阈值。
在步骤S103中:基于预设的标签修正规则,剔除可疑数据中数据特征满足标签修正规则的可疑数据,得到目标异常数据。即通过分析历史登录失败的邮箱日志记录数据得出的标签修正规则,对可疑数据中的登录失败的日志记录数据进行剔除,得到目标可疑数据,由此剩余的数据即目标可疑数据为登录成功的可疑数据,加大了检测的准确度。因为只有异常邮箱账号登录成功对用户才有威胁,所以本申请实施例的目的为检测出异常邮箱账号登录成功的异常数据。
在一个实施例中,还包括:步骤S104:将所述目标异常数据输入检测模型中再次迭代训练模型以修正模型参数得到更新后的检测模型,用所述目标异常数据替换所述第二打标异常数据,执行步骤S102至步骤S103,得到新的目标异常数据;步骤5:重复执行步骤4,计算本次迭代得到的目标异常数据和上一次迭代得到的目标异常数据之间的数量变化幅度值,当数量变化幅度值在预设范围内时,将本次得到的目标异常数据确定为最终异常数据。需要说明的是,重新执行步骤S102至S103时,是将目标异常数据和待检测的的邮箱日志记录数据输入每次更新后的检测模型,每次迭代时,都用上一次得到的新的目标异常数据替换第二打标数据进行模型迭代检测。由此,当迭代至预测到的异常数据的数据量比较稳定后,说明模型的预测值趋于稳定,模型的检测精度较高,将得到的目标异常数据确定为最终的异常数据,对异常数据进行打标然后输出供用户参考查阅,也可以将打标的异常数据发送至用户终端或服务器。整体上,提高了检测的准确性和检测效率。
在一个实施例中,所述数量变化幅度值为本次迭代得到的目标异常数据较上一次迭代得到的目标异常数据的增长率。例如,检测出的数据量增长率不超过10%。
在一个实施例中,所述标签修正规则包括:将数据特征满足以下至少一项的数据剔除:预设时间内频繁登录失败超过预设次数的数据、包含外国IP地址且在该地址的数据中从未登录成功的登录失败日志的数据、包含外地IP地址且在该地址的数据中从未登录成功的登录失败日志的数据。由此提高检测的准确性和检测效率。
需要说明的是,最终得到的异常数据可以再通过人工验证,剔除不是盗用邮箱账号登录成功的数据,最终得到异常数据。
由此,本申请实施例提供的基于邮箱日志的邮箱异常数据检测方法,使用来自可靠威胁情报库的异常邮箱数据作为初始数据构建模型并进行多轮迭代最终检测出异常邮箱账号登录成功的攻击数据。可以自动化基于邮箱日志的进行异常检测。通过对邮箱日志异常登录失败的特点进行总结,并进行特征分析。根据异常登录失败行为特征的规律制定出异常检测模型的标签修正规则。利用所记录的IP数据进行特征扩展,筛选出有效的特征。使用来自威胁情报库或已知带标签的异常数据进行模型构建找出可疑数据。并对预测出的可疑数据按照制定的规则进行标签修正。将修正后的可疑数据再作为新一轮的输入数据放到模型当中重新进行检测。经过多轮的迭代之后,若检测出的异常日志数量趋近于稳定则不再迭代,并将最后一次检测的结果再次按照规则进行标签修正得到最终的检测结果。异常检测结果再通过人工分析进行检查,最终得到异常数据。通过全方位精准的检测实现被盗邮箱账户的异常登录成功的检测,提高了检测准确性和检测效率。
图2示出了本申请实施例提供的邮箱异常数据检测系统的主要模块图,为了便于说明,仅示出与本申请实施例相关的部分,详述如下:
一种基于邮箱日志的邮箱异常数据检测系统200,包括:
模型训练单元201,用于将第一打标异常数据输入自编码算法模型中训练得到检测模型;
第一处理单元202,用于将待检测的邮箱日志记录数据和第二打标异常数据输入所述检测模型中,计算输入检测模型的数据和检测模型输出的数据之间的均方误差或平均绝对误差的误差值,根据所述误差值确定阈值,将误差值小于阈值的邮箱日志记录数据确定为可疑数据;
第二处理单元203,用于基于预设的标签修正规则,剔除可疑数据中数据特征满足标签修正规则的可疑数据,得到目标异常数据。
对于模型训练单元201,用于将第一打标异常数据输入自编码算法模型中训练得到检测模型。通过将已经打标为异常的数据作为样本数据输入到自编码算法模型中进行模型训练,以训练初步的检测模型。在这里,第一打标异常数据可以为来自威胁情报库或已知的异常数据进行筛选后打有异常标签的邮箱记录数据,威胁情报库为邮件运营商或者第三方的数据库,会公开目前阶段已知的恶意IP地址。
需要说明的是,算法模型还可以选择其他的异常检测算法,只要能够找到与标签数据相似的数据即可。例如有监督算法、神经网络、随机森林、决策树等;或者无监督的算法,例如聚类算法;以及其他方法,例如规则匹配、数据统计等等。
在一个实施例中,还包括扩展单元:用于调用IP地址查询接口对所述邮箱日志记录数据进行特征扩展,得到所述邮箱日志记录数据的IP扩展特征,IP扩展特征包括国家、省份、城市、经纬度和运营商。由此,可以根据邮箱日志记录数据的原有IP地址和扩展特征,基于已经训练的检测模型在模型迭代过程中分别计算最终结果的每维特征与输入的数据的均方误差或平均绝对误差。
在一个实施例中,还可以通过对异常邮箱账户登录失败的日志记录进行分析,并基于扩展出的IP扩展特征总结出其规律,并根据规律制定出异常检测模型的标签修正规则,满足该规则的则属于盗用邮箱账户登录失败的数据。需要说明的是,选择的算法模型不同,总结的标签修正规则可以不同,可以基于实际应用场景根据总结出的规律设定不同的标签修正规则。在本实施例中,标签修正规则可以为:预设时间(比如3s)内频繁登录失败超过预设次数(比如3次)的数据、包含外国IP地址(国家)且在该地址(国家)的所有数据中从未登录成功的登录失败日志的数据、包含外地IP(城市)地址且在该地址(城市)的所有数据中从未登录成功的登录失败日志的数据。由此,后续在检测模型检测出的疑似数据中可以利用该标签修正规则剔除一些干扰数据。
在这里,对异常邮箱账户登录失败的日志记录进行分析的分析过程可以是对登录失败日志的所有特征(包括扩展特征)的贡献度进行排序,贡献度即对具有该特征的日志记录数据影响其邮箱账户登录失败的影响度大小,贡献度越大,影响越大。可以在检测模型迭代训练过程中分别计算最终结果的每维特征与输入的数据的均方误差或平均绝对误差。误差越大贡献度越小,证明在该特征下没有准确预测出结果。
例如,对异常邮箱账户登录失败的日志记录进行分析总结的规律可以包括,失败日志主要有大量非用户常用IP地址,并且尝试登录非常频繁非人所能及的数据记录,失败日志数据基本都源自于用户不常用所在城市甚至国外等等。
对于第一处理单元202,用于将待检测的邮箱日志记录数据和第二打标异常数据输入所述检测模型中,计算输入检测模型的数据和检测模型输出的数据之间的均方误差或平均绝对误差的误差值,根据所述误差值确定阈值,将误差值小于阈值的邮箱日志记录数据确定为可疑数据。需要说明的是,第二打标异常数据为来自威胁情报库或已知的异常数据进行筛选后打有异常标签的邮箱记录数据,威胁情报库为邮件运营商或者第三方的数据库,会公开目前阶段已知的恶意IP地址。第二打标异常数据的数据量可以为第一打标异常数据的数据量的五分之一左右,当然,也可以根据具体的场景进行选择适当的比例。
在这里,待检测的邮箱日志记录数据已经进行了IP特征扩展,第一打标异常数据和第二打标异常数据均有对应的IP扩展特征,由此将待检测的邮箱日志记录数据和第二打标异常数据输入所述检测模型中,检测模型可以基于输入的邮箱日志记录数据和第二打标异常数据的IP特征计算检测模型对应输出的数据之间的均方误差或平均绝对误差的误差值,然后根据所述误差值确定一个阈值,将误差值小于该阈值的邮箱日志记录数据确定为可疑数据。即,通过计算检测模型输出的最终结果数据的每维特征与输入的数据之间的均方误差或平均绝对误差,误差越大贡献度越小,证明在该特征下没有准确预测出结果,因此将该特征下的数据判定为非可疑数据,将误差值较小的数据判定为可疑数据,即可能的异常数据。
在一个实施例中,所述根据所述误差值确定阈值,包括:计算误差值的分位点数值,将分位数点数值确定为所述阈值。
对于第二处理单元203,用于基于预设的标签修正规则,剔除可疑数据中数据特征满足标签修正规则的可疑数据,得到目标异常数据。即通过分析历史登录失败的邮箱日志记录数据得出的标签修正规则,对可疑数据中的登录失败的日志记录数据进行剔除,得到目标可疑数据,由此剩余的数据即目标可疑数据为登录成功的可疑数据,加大了检测的准确度。因为只有异常邮箱账号登录成功对用户才有威胁,所以本申请实施例的目的为检测出异常邮箱账号登录成功的异常数据。
在一个实施例中,还包括第三处理单元,用于将所述目标异常数据输入检测模型中再次训练模型以修正模型参数得到更新后的检测模型;第四处理单元,用于用所述目标异常数据替换所述第二打标异常数据,执行第一处理单元和第二处理单元的步骤,得到新的目标异常数据;第五处理单元,用于重复执行第三处理单元和第四处理单元的步骤,计算本次迭代得到的目标异常数据和上一次迭代得到的目标异常数据之间的数量变化幅度值,当数量变化幅度值在预设范围内时,将本次得到的目标异常数据确定为最终异常数据。
需要说明的是,重复执行第三处理单元和第四处理单元的步骤时,是将目标异常数据和待检测的的邮箱日志记录数据输入每次更新后的检测模型,每次迭代时,都用上一次得到的新的目标异常数据替换第二打标数据进行模型迭代检测。由此,当迭代至预测到的异常数据的数据量比较稳定后,说明模型的预测值趋于稳定,模型的检测精度较高,将得到的目标异常数据确定为最终的异常数据,对异常数据进行打标然后输出供用户参考查阅,也可以将打标的异常数据发送至用户终端或服务器。整体上,提高了检测的准确性和检测效率。
在一个实施例中,所述数量变化幅度值为本次迭代得到的目标异常数据较上一次迭代得到的目标异常数据的增长率。例如,检测出的数据量增长率不超过10%。
在一个实施例中,所述标签修正规则包括:将数据特征满足以下至少一项的数据剔除:预设时间内频繁登录失败超过预设次数的数据、包含外国IP地址且在该地址的数据中从未登录成功的登录失败日志的数据、包含外地IP地址且在该地址的数据中从未登录成功的登录失败日志的数据。由此提高检测的准确性和检测效率。
需要说明的是,最终得到的异常数据可以再通过人工验证,剔除不是盗用邮箱账号登录成功的数据,最终得到异常数据。
由此,本申请实施例提供的基于邮箱日志的邮箱异常数据检测系统,使用来自可靠威胁情报库的异常邮箱数据作为初始数据构建模型并进行多轮迭代最终检测出异常邮箱账号登录成功的攻击数据。可以自动化基于邮箱日志的进行异常检测。通过对邮箱日志异常登录失败的特点进行总结,并进行特征分析。根据异常登录失败行为特征的规律制定出异常检测模型的标签修正规则。利用所记录的IP数据进行特征扩展,筛选出有效的特征。使用来自威胁情报库或已知带标签的异常数据进行模型构建找出可疑数据。并对预测出的可疑数据按照制定的规则进行标签修正。将修正后的可疑数据再作为新一轮的输入数据放到模型当中重新进行检测。经过多轮的迭代之后,若检测出的异常日志数量趋近于稳定则不再迭代,并将最后一次检测的结果再次按照规则进行标签修正得到最终的检测结果。异常检测结果再通过人工分析进行检查,最终得到异常数据。通过全方位精准的检测实现被盗邮箱账户的异常登录成功的检测,提高了检测准确性和检测效率。
图3示出了可以应用本申请实施例的基于邮箱日志的邮箱异常数据检测方法或系统的示例性系统架构300。
如图3所示,系统架构300可以包括终端设备301、302、303,网络304和服务器305。网络304用以在终端设备301、302、303和服务器305之间提供通信链路的介质。网络304可以包括各种连接类型,例如有线、无线通信链路或者光纤电缆等等。
用户可以使用终端设备301、302、303通过网络304与服务器305交互,以接收或发送消息等。终端设备301、302、303上可以安装有各种通讯客户端应用,例如购物类应用、网页浏览器应用、搜索类应用、即时通信工具、邮箱客户端、社交平台软件等。
终端设备301、302、303可以是具有显示屏并且支持网页浏览的各种电子设备,包括但不限于智能手机、平板电脑、膝上型便携计算机和台式计算机等等。
服务器305可以是提供各种服务的服务器,例如对用户利用终端设备301、302、303所发送的往来消息提供支持的后台管理服务器。后台管理服务器可以在接收到终端设备请求后进行分析等处理,并将处理结果反馈给终端设备。
需要说明的是,本申请实施例所提供的基于邮箱日志的邮箱异常数据检测方法一般由终端设备301、302、303或服务器305执行,相应地,基于邮箱日志的邮箱异常数据检测系统一般设置于终端设备301、302、303或服务器305中。
应该理解,图3中的终端设备、网络和服务器的数目仅仅是示意性的。根据实现需要,可以具有任意数目的终端设备、网络和服务器。
下面参考图4,其示出了适于用来实现本申请实施例的电子设备的计算机系统400的结构示意图。图4示出的计算机系统仅仅是一个示例,不应对本申请实施例的功能和使用范围带来任何限制。
如图4所示,计算机系统400包括中央处理单元(CPU)401,其可以根据存储在只读存储器(ROM)402中的程序或者从存储部分408加载到随机访问存储器(RAM)403中的程序而执行各种适当的动作和处理。在RAM 403中,还存储有系统400操作所需的各种程序和数据。CPU 401、ROM 402以及RAM403通过总线404彼此相连。输入/输出(I/O)接口405也连接至总线404。
以下部件连接至I/O接口405:包括键盘、鼠标等的输入部分406;包括诸如阴极射线管(CRT)、液晶显示器(LCD)等以及扬声器等的输出部分407;包括硬盘等的存储部分408;以及包括诸如LAN卡、调制解调器等的网络接口卡的通信部分409。通信部分409经由诸如因特网的网络执行通信处理。驱动器410也根据需要连接至I/O接口405。可拆卸介质411,诸如磁盘、光盘、磁光盘、半导体存储器等等,根据需要安装在驱动器410上,以便于从其上读出的计算机程序根据需要被安装入存储部分408。
特别地,根据本申请公开的实施例,上文参考流程图描述的过程可以被实现为计算机软件程序。例如,本申请公开的实施例包括一种计算机程序产品,其包括承载在计算机可读介质上的计算机程序,该计算机程序包含用于执行流程图所示的方法的程序代码。在这样的实施例中,该计算机程序可以通过通信部分409从网络上被下载和安装,和/或从可拆卸介质411被安装。在该计算机程序被中央处理单元(CPU)401执行时,执行本申请的系统中限定的上述功能。
需要说明的是,本申请所示的计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质或者是上述两者的任意组合。计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的系统、装置或器件,或者任意以上的组合。计算机可读存储介质的更具体的例子可以包括但不限于:具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机访问存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本申请中,计算机可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。而在本申请中,计算机可读的信号介质可以包括在基带中或者作为载波一部分传播的数据信号,其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式,包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是计算机可读存储介质以外的任何计算机可读介质,该计算机可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。计算机可读介质上包含的程序代码可以用任何适当的介质传输,包括但不限于:无线、电线、光缆、RF等等,或者上述的任意合适的组合。
附图中的流程图和框图,图示了按照本申请各种实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分,上述模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意,在有些作为替换的实现中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个接连地表示的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图或流程图中的每个方框、以及框图或流程图中的方框的组合,可以用执行规定的功能或操作的专用的基于硬件的系统来实现,或者可以用专用硬件与计算机指令的组合来实现。
描述于本申请实施例中所涉及到的模块可以通过软件的方式实现,也可以通过硬件的方式来实现。所描述的模块也可以设置在处理器中,例如,可以描述为:一种处理器包括确定模块、提取模块、训练模块和筛选模块。其中,这些模块的名称在某种情况下并不构成对该模块本身的限定,例如,确定模块还可以被描述为“确定候选用户集的模块”。
以上所述实施例仅表达了本申请的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对本申请专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本申请构思的前提下,还可以做出若干变形和改进,这些都属于本申请的保护范围。因此,本申请专利的保护范围应以所附权利要求为准。
以上所述仅为本申请的优选实施例而已,并不用于限制本申请,对于本领域的技术人员来说,本申请可以有各种更改和变化。凡在本申请的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本申请的保护范围之内。
Claims (10)
1.一种基于邮箱日志的邮箱异常数据检测方法,其特征在于,包括:
步骤1:将第一打标异常数据输入自编码算法模型中训练得到检测模型;
步骤2:将待检测的邮箱日志记录数据和第二打标异常数据输入所述检测模型中,计算输入检测模型的数据和检测模型输出的数据之间的均方误差或平均绝对误差的误差值,根据所述误差值确定阈值,将误差值小于阈值的邮箱日志记录数据确定为可疑数据;
步骤3:基于预设的标签修正规则,剔除可疑数据中数据特征满足标签修正规则的可疑数据,得到目标异常数据。
2.根据权利要求1所述的邮箱异常数据检测方法,其特征在于,还包括:步骤4:将所述目标异常数据输入检测模型中再次训练模型以修正模型参数得到更新后的检测模型,用所述目标异常数据替换所述第二打标异常数据,执行步骤2至步骤3,得到新的目标异常数据;步骤5:重复执行步骤4,计算本次迭代得到的目标异常数据和上一次迭代得到的目标异常数据之间的数量变化幅度值,当数量变化幅度值在预设范围内时,将本次得到的目标异常数据确定为最终异常数据。
3.根据权利要求2所述的邮箱异常数据检测方法,其特征在于,所述数量变化幅度值为本次迭代得到的目标异常数据较上一次迭代得到的目标异常数据的增长率。
4.根据权利要求2所述的邮箱异常数据检测方法,其特征在于,所述根据所述误差值确定阈值,包括:计算误差值的分位点数值,将分位数点数值确定为所述阈值。
5.根据权利要求1-4任一项所述的邮箱异常数据检测方法,其特征在于,在步骤1之前,还包括:调用IP地址查询接口对所述邮箱日志记录数据进行特征扩展,得到所述邮箱日志记录数据的IP扩展特征,IP扩展特征包括国家、省份、城市、经纬度和运营商。
6.根据权利要求1-4任一项所述的邮箱异常数据检测方法,其特征在于,所述标签修正规则包括:将数据特征满足以下至少一项的数据剔除:预设时间内频繁登录失败超过预设次数的数据、包含外国IP地址且在该地址的数据中从未登录成功的登录失败日志的数据、包含外地IP地址且在该地址的数据中从未登录成功的登录失败日志的数据。
7.一种基于邮箱日志的邮箱异常数据检测系统,其特征在于,包括:
模型训练单元,用于将第一打标异常数据输入自编码算法模型中训练得到检测模型;
第一处理单元,用于将待检测的邮箱日志记录数据和第二打标异常数据输入所述检测模型中,计算输入检测模型的数据和检测模型输出的数据之间的均方误差或平均绝对误差的误差值,根据所述误差值确定阈值,将误差值小于阈值的邮箱日志记录数据确定为可疑数据;
第二处理单元,用于基于预设的标签修正规则,剔除可疑数据中数据特征满足标签修正规则的可疑数据,得到目标异常数据。
8.根据权利要求7所述的邮箱异常数据检测系统,其特征在于,还包括第三处理单元,用于将所述目标异常数据输入检测模型中再次训练模型以修正模型参数得到更新后的检测模型;第四处理单元,用于用所述目标异常数据替换所述第二打标异常数据,执行第一处理单元和第二处理单元的步骤,得到新的目标异常数据;第五处理单元,用于重复执行第三处理单元和第四处理单元的步骤,计算本次迭代得到的目标异常数据和上一次迭代得到的目标异常数据之间的数量变化幅度值,当数量变化幅度值在预设范围内时,将本次得到的目标异常数据确定为最终异常数据。
9.一种电子设备,其特征在于,包括存储器和处理器,所述存储器中存储有计算机程序,所述计算机程序被所述处理器执行时,使得所述处理器执行权利要求1至6中任一项所述的邮箱异常数据检测方法的步骤。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时,使得所述处理器执行权利要求1至6中任一项所述的邮箱异常数据检测方法的步骤。
Publications (1)
Publication Number | Publication Date |
---|---|
CN118260685A true CN118260685A (zh) | 2024-06-28 |
Family
ID=
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US20200389495A1 (en) | Secure policy-controlled processing and auditing on regulated data sets | |
JP5941163B2 (ja) | キャラクター・ストリングの周波数スペクトルを用いるスパム検出のシステムおよび方法 | |
CN111526119B (zh) | 异常流量检测方法、装置、电子设备和计算机可读介质 | |
CN111400357A (zh) | 一种识别异常登录的方法和装置 | |
US11968162B1 (en) | Message content cleansing | |
CN105404631B (zh) | 图片识别方法和装置 | |
CN110602030A (zh) | 网络入侵阻断方法、服务器及计算机可读介质 | |
CN110737891A (zh) | 一种主机入侵检测方法和装置 | |
CN113704328A (zh) | 基于人工智能的用户行为大数据挖掘方法及系统 | |
CN116389235A (zh) | 一种应用于工业物联网的故障监测方法及系统 | |
CN108804501B (zh) | 一种检测有效信息的方法及装置 | |
CN117609992A (zh) | 一种数据泄密检测方法、装置及存储介质 | |
CN116738369A (zh) | 一种流量数据的分类方法、装置、设备及存储介质 | |
CN115906135A (zh) | 目标数据泄露路径的溯源方法、装置、电子设备和存储介质 | |
CN118260685A (zh) | 一种邮箱异常数据检测方法、系统和装置 | |
CN115767601A (zh) | 一种基于多维数据的5gc网元自动化纳管方法及装置 | |
CN115643044A (zh) | 数据处理方法、装置、服务器及存储介质 | |
CN115495740A (zh) | 一种病毒检测方法和装置 | |
CN111813765A (zh) | 一种异常数据处理的方法、装置、电子设备、计算机可读介质 | |
CN111858782A (zh) | 基于信息安全的数据库构建方法、装置、介质与设备 | |
CN110895564A (zh) | 一种潜在客户数据处理方法和装置 | |
CN113239687B (zh) | 一种数据处理方法和装置 | |
US20240195841A1 (en) | System and method for manipulation of secure data | |
CN114089712B (zh) | 一种数据处理方法和装置 | |
CN109871310B (zh) | 一种版本质量测试的方法和装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication |