CN115603955B - 异常访问对象识别方法、装置、设备和介质 - Google Patents

异常访问对象识别方法、装置、设备和介质 Download PDF

Info

Publication number
CN115603955B
CN115603955B CN202211177212.8A CN202211177212A CN115603955B CN 115603955 B CN115603955 B CN 115603955B CN 202211177212 A CN202211177212 A CN 202211177212A CN 115603955 B CN115603955 B CN 115603955B
Authority
CN
China
Prior art keywords
access
data
feature
preset
characteristic
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202211177212.8A
Other languages
English (en)
Other versions
CN115603955A (zh
Inventor
张丽
杜悦艺
孙亚生
朱欤
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Baidu Netcom Science and Technology Co Ltd
Original Assignee
Beijing Baidu Netcom Science and Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Baidu Netcom Science and Technology Co Ltd filed Critical Beijing Baidu Netcom Science and Technology Co Ltd
Priority to CN202211177212.8A priority Critical patent/CN115603955B/zh
Publication of CN115603955A publication Critical patent/CN115603955A/zh
Application granted granted Critical
Publication of CN115603955B publication Critical patent/CN115603955B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L63/00Network architectures or network communication protocols for network security
    • H04L63/14Network architectures or network communication protocols for network security for detecting or protecting against malicious traffic
    • H04L63/1408Network architectures or network communication protocols for network security for detecting or protecting against malicious traffic by monitoring network traffic

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Security & Cryptography (AREA)
  • Computer Hardware Design (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Signal Processing (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本公开提供了一种异常访问对象识别方法、装置、设备和介质,涉及人工智能技术领域,尤其涉及深度学习和大数据技术,可用于网络安全方面。具体实现方案为:确定待检测对象访问预设网址所产生的目标访问数据;其中,目标访问数据包括目标访问行为数据和账号设备数据;对目标访问行为数据进行特征提取,得到第一预测参考特征;对账号设备数据进行特征提取,得到第二预测参考特征;根据第一预测参考特征和第二预测参考特征,识别待检测对象是否为异常访问对象。根据本公开的技术,提高了异常访问对象识别结果的准确度。

Description

异常访问对象识别方法、装置、设备和介质
技术领域
本公开涉及人工智能技术领域,尤其涉及深度学习和大数据技术,可用于网络安全方面。
背景技术
随着互联网技术的不断发展,网络数据安全变得至关重要。为了保证网络数据的可用性、完整性和保密性,可以通过建立和采用各种技术和管理措施,维护网络系统的正常运行。
发明内容
本公开提供了一种异常访问对象识别方法、装置、设备和介质。
根据本公开的一方面,提供了一种异常访问对象识别方法,包括:
确定待检测对象访问预设网址所产生的目标访问数据;其中,目标访问数据包括目标访问行为数据和账号设备数据;
对目标访问行为数据进行特征提取,得到第一预测参考特征;
对账号设备数据进行特征提取,得到第二预测参考特征;
根据第一预测参考特征和第二预测参考特征,识别待检测对象是否为异常访问对象。
根据本公开的另一方面,还提供了一种电子设备,包括:
至少一个处理器;以及
与至少一个处理器通信连接的存储器;其中,
存储器存储有可被至少一个处理器执行的指令,指令被至少一个处理器执行,以使至少一个处理器能够执行本公开任一实施例提供的异常访问对象识别方法。
根据本公开的另一方面,还提供了一种存储有计算机指令的非瞬时计算机可读存储介质,其中,计算机指令用于使计算机执行本公开任一实施例提供的异常访问对象识别方法。
根据本公开的技术,提高了网址异常访问对象的识别结果准确度,从而有助于提高网络安全。
应当理解,本部分所描述的内容并非旨在标识本公开的实施例的关键或重要特征,也不用于限制本公开的范围。本公开的其它特征将通过以下的说明书而变得容易理解。
附图说明
附图用于更好地理解本方案,不构成对本公开的限定。其中:
图1是本公开实施例提供的一种异常访问对象识别方法的流程图;
图2是本公开实施例提供的另一种异常访问对象识别方法的流程图;
图3是本公开实施例提供的另一种异常访问对象识别方法的流程图;
图4是本公开实施例提供的另一种异常访问对象识别方法的流程图;
图5是本公开实施例提供的一种异常访问对象识别装置的结构图;
图6是用来实现本公开实施例的异常访问对象识别方法的电子设备的框图。
具体实施方式
以下结合附图对本公开的示范性实施例做出说明,其中包括本公开实施例的各种细节以助于理解,应当将它们认为仅仅是示范性的。因此,本领域普通技术人员应当认识到,可以对这里描述的实施例做出各种改变和修改,而不会背离本公开的范围和精神。同样,为了清楚和简明,以下的描述中省略了对公知功能和结构的描述。
本公开实施例提供的异常访问对象识别方法和异常访问对象识别装置,适用于在待检测对象对预设网址进行访问过程中,好似被待检测对象是否为异常访问对象场景中。本公开实施例所提供的各异常访问对象识别方法,可以由异常访问对象识别装置执行,该装置可以采用软件和/或硬件实现,并具体配置于电子设备中,该电子设备可以是具备一定数据处理能力的计算设备,本公开对此不作任何限定。
为了便于理解,首先对异常访问对象识别方法进行详细说明。
参见图1所示的异常访问对象识别方法,包括:
S101、确定待检测对象访问预设网址所产生的目标访问数据;其中,目标访问数据包括目标访问行为数据和账号设备数据。
其中,待检测对象可以是访问预设网址的标识信息,可以是访问账号、访问设备、或访问用户等,用于唯一表征访问者的标识信息。
其中,预设网址为预先设定的供待检测对象进行访问,且访问行为可能会导致至少部分网络数据被窃取的网址。其中,预设网址可以由技术人员根据需要或经验值进行设置或调整。在一个可选实施例中,预设网址可以是内网网址,从而能够有效识别内网访问对象进行网络数据泄露的场景,进而提高内网数据安全性,减少内网数据泄露损失。
其中,访问行为数据可以理解为待检测对象访问预设网址所产生的行为相关数据,用于表征待检测对象的网址访问行为。例如,访问行为数据可以包括UA(User Agent,用户代理)个数、访问网址和不同访问网址下的访问量、访问次数、访问时间、访问间隔和访问成败结果等中的至少一种。其中,目标访问行为数据,可以包括访问行为数据本身,或者还可以包括对访问行为数据按照预设维度进行分类或变形等预处理后,所生成的新的访问行为数据。
其中,账号设备数据可以理解为待检测对象访问预设网址时所采用的账号信息和设备信息等中的至少一种,用于表征待检测对应的网址访问工具。
可选的,可以直接获取待检测对象访问预设网址所产生的原始访问数据作为目标访问数据。或者可选的,获取待检测对象访问预设网址所产生的原始访问数据,对原始访问数据按照预设处理规则进行数据预处理,得到目标访问数据。其中,预设处理规则可以由技术人员根据需要或经验值进行设定或调整,或者通过大量试验进行设置。
在一个可选实施例中,可以获取至少一个待检测对象访问预设网址所产生的目标访问数据;针对目标访问数据中的各访问特征字段,进行特征编码,得到结构化的目标访问数据。
其中,访问特征字段可以理解为目标访问数据中能够作为表征访问是否存在异常的特征字段。其中,访问特征字段的数量为至少一个。为了提高后续异常访问对象识别结果的准确度,访问特征字段的数量通常为多个,从而提高访问特征字段的丰富性和多样性。
S102、对目标访问行为数据进行特征提取,得到第一预测参考特征。
其中,第一预测参考特征用于表征目标访问行为数据中所携带的,能够辅助进行异常访问对象确定的访问行为相关的有效特征。
其中,对目标访问行为数据进行特征提取,可以采用现有技术的至少一种加以实现,本公开对特征提取的具体方式不作任何限定。
示例性的,可以提取目标访问行为数据的有效特征字段,并将所提取有效特征字段对应的特征值;按照第一预设顺序对各特征值进行组合,得到第一预测参考特征。其中,第一预设顺序可以由技术人员根据需要或经验进行设置或调整。
S103、对账号设备数据进行特征提取,得到第二预测参考特征。
其中,第二预测参考特征用于表征账号设备数据中所携带的,能够辅助进行异常访问对象确定的账号设备相关的有效特征。
其中,对账号设备数据进行特征提取,可以采用现有技术的至少一种加以实现,本公开对特征提取的具体方式不作任何限定。
示例性的,可以确定账号设备数据相关的有效特征字段,并根据账号设备数据确定各有效特征字段对应的特征值;按照第二预设顺序组合对所确定的特征值进行顺序组合,得到第二预测参考特征。其中,第二预设顺序可以由技术人员根据需要或经验进行设置或调整。
S104、根据第一预测参考特征和第二预测参考特征,识别待检测对象是否为异常访问对象。
示例性的,可以基于预先训练好的异常检测模型,根据第一预测参考特征和第二预测参考特征,确定待检测对象是否为异常访问对象。
在一个具体实现方式中,可以将第一预测参考特征和第二预测参考特征,输入至训练好的异常检测模型中,并根据模型输出结果,确定待检测对象是否为异常访问对象。其中,异常检测模型采用以样本检测对象的目标访问数据所提取的第一预测参考特征和第二预测参考特征为训练样本,以样本检测对象是否为异常访问对象为标签,对预先构建的深度学习模型进行训练得到。
可以理解的是,由于异常检测模型以第一预测参考特征和第二预测参考特征为输入,能够充分考量待检测对象的访问行为和账号设备对异常检测结果的影响,从而提高了异常访问对象确定过程所参考特征的丰富性和多样性,进而提高了异常访问对象确定结果的准确度。
在另一具体实现方式中,可以将第一预测参考特征和第二预测参考特征分别输入至训练好的不同的异常检测模型中,并根据各模型的输出结果,确定待检测对象是否为异常访问对象。其中,不同异常检测模型分别以样本检测对象的目标访问数据所提取的第一预测参考特征和第二预测参考模特为训练样本,对预先构建的不同的深度学习模型分别进行有监督(可以采用样本能检测对象是否为异常访问对象的标签进行监督)或无监督训练得到。为了提高异常访问对象识别结果准确度,可以采用优势互补的深度学习模型进行异常检测模型的训练。
具体的,可以将第一预测参考特征输入至训练好的第一异常检测模型,得到待检测对象的第一异常概率;将第二预测参考特征输入至训练好的第二异常检测模型,得到待待检对象的第二异常概率;根据第一异常概率和第二异常概率的加权和,确定待检测对象是否为异常访问对象。其中,第一异常检测模型以样本检测对象的目标访问数据所提取的第一预测参考特征为训练样本,对预先构建的第一深度学习模型进行有监督(可以采用样本能检测对象是否为异常访问对象的标签进行监督)或无监督训练得到;第二异常检测模型以样本检测对象的目标访问数据所提取的第二预测参考特征为训练样本,对预先构建的第二深度学习模型进行有监督(可以采用样本能检测对象是否为异常访问对象的标签进行监督)或无监督训练得到。其中,第一异常概率和第二异常概率对应权重可以由技术人员根据需要或经验值进行设置或调整,或通过大量试验反复确定。为了提高异常访问对象识别结果准确度,可以采用优势互补的第一深度学习模型和第二深度学习模型进行异常检测模型的训练。
在又一具体实现方式中,可以将第一预测参考特征和第二预测参考特征,按照预设特征维度,划分为至少三个预测参考特征;将各预测参考特征分别输入至训练好的不同异常检测模型中,得到相应的异常概率;根据不同异常概率的加权和,确定待检测对象是否为异常访问对象。其中,不同异常检测模型以样本检测对象的目标访问数据所提取的不同预测参考特征为训练样本,对预先构建额不同深度学习模型进行有监督(可以采用样本能检测对象是否为异常访问对象的标签进行监督)或无监督训练得到。其中,不同异常概率对应权重可以由技术人员根据需要或经验值进行设置或调整,或通过大量试验反复确定。其中,预设特征维度可以由技术人员根据需要或经验进行设置或调整。为了提高异常访问对象识别结果准确度,可以采用优势互补的深度学习模型进行异常检测模型的训练。
本公开实施例通过引入待检测对象访问预设网址时所产生的目标访问行为数据进行第一预测参考特征提取,引入待检测对象访问预设网址时所产生的账号设备数据进行第二预测参考特征提取,并根据第一预测参考特征和第二预测参考特征,综合识别待检测对象是否为异常访问对象,提高了进行异常访问对象识别时,所参照特征数据的丰富性和多样性,从而提高了异常访问对象识别结果的准确度,进而能够有效避免异常访问预设网址带来的网络数据的丢失或泄露,提高了预设网址对应网络数据的安全性。
在上述各技术方案的基础上,为了提高异常访问对象的识别效率,可以同时进行多待检测对象的识别。由于访问特征字段的字段值存在字符较长的情况,将会导致目标访问数据占用的数据存储空间较大,同时,增加了异常访问对象识别过程的数据运算量。为了克服上述问题,可以引入压缩编码的方式,以减少字段值的字符长度。
在一个可选实施例中,针对任一访问特征字段,可以按照该访问特征字段对应的预设维度对各待检测对象在该访问特征字段的字段值进行排序;根据排序结果,对各待检测对象在该访问特征字段下的字段值进行特征编码。
示例性的,针对任一访问特征字段,可以按照该访问特征字段的预设维度对各待检测对象在该访问特征字段的字段值由大到小进行排序,并将排序序号作为相应字段值的特征编码值。
其中,访问特征字段的预设维度与访问特征字段所关联的数值量化字段相关,可以由技术人员根据需要进行不同访问特征字段对应预设维度的设定或调整。
可以理解的是,由于预设网址对应的访问群体数量有限,特别是在内网场景下,访问群体数量会更少,因此,通过排序的方式,将字符长度较大的访问特征字段的字段值,转化为字符长度较小的排序结果,能够显著减少目标访问数据中相应访问特征字段的字段值的存储空间。同时,能够显著减少后续所生成的预测参考特征的数据大小,进而减少异常访问对象识别的数据运算量。
在一个可选实施例中,为了兼顾编码运算量和异常访问对象识别过程的数据运算量,还可以根据访问特征字段的字段值长度,从目标访问数据的各访问特征字段中,选取需要采用上述排序方式进行编码的访问特征字段。
示例性的,针对各访问特征字段,可以确定该访问特征字段在各待检测对象的字段值的平均字段值长度;若平均字段值长度大于预设长度,则后续对该访问特征字段采用上述排序方式进行压缩编码。其中,预设长度可以由技术人员根据需要或经验值进行设置或调整,或者通过大量试验反复确定。
举例说明,针对目标访问行为数据中的UA,可以按照UA的PV量(Page View,页面浏览量)由大到小进行排序,并将排序第一的UA的字段值对应编码为1,排序第二的UA的字段值对应编码为2,依次类推,直至对全部待检测对象的UV编码完毕。一般情况下,即使是超大公司,其UA数量最多上万级别,因此,UV的最长编码值为5位数。而编码前各UA的字符串长度通常为500位,数据空间占用量大、特征提取效率。因此,通过排序的方式进行UA的压缩编码,显著降低了数据空间占用量,同时提高了特征提取效率,减少了异常访问对象识别的数据量。
由于进行预设网址访问时,工作时段和非工作时段的访问情况差异比较大。而工作时段和非工作时段,均可能产生异常访问行为,也即工作时段的目标访问数据和非工作时段的目标访问数据中,均可能携带有异常访问相关的特征数据,而不同时段的目标访问数据自身固有差异,也将导致不同时段的特征数据对异常访问对象识别结果的贡献方向或贡献程度存在一定差异。
为了进一步提高后续所生成的预测参考特征的丰富性和多样性,为提高异常访问对象识别结果的准确度奠定基础,在一个可选实施例中,还可以对目标访问数据按照工作时段和非工作时段进行划分,从而针对不同时段进行后续预测参考特征的生成。
示例性的,可以获取至少一个待检测对象访问预设网址所产生的目标访问数据;根据目标访问数据中不同访问行为的时间分布情况,确定工作时段和非工作时段;生成包括工作时段的目标访问数据和非工作时段的目标访问数据。
举例说明,可以将每小时平均访客量小于预设时段内(例如14天)每个小时平均访客量的预设百分比(例如30%)的时段,汇总得到非工作时段;将每天中的其他时段,作为工作时段。
可以理解的是,通过对目标访问数据进行工作时段和非工作时段的划分,能够增加目标访问数据中所携带信息的维度,进而在后续对目标访问数据进行特征提取,得到预测参考特征的过程中,丰富所提取特征的特征维度,从而为异常访问对象识别结果准确度的提高,奠定了基础。
针对目标访问数据中的访问行为数据,由于访问行为数据中携带的信息较为丰富,因此,还可以通过对访问行为数据按照不同维度进行划分,从而进一步提高访问行为数据对应第一预测参考特征的丰富性和多样性,为后续异常访问对象识别结果准确度的提高,奠定基础。
在一个可选实施例中,可以获取待检测对象访问预设网址所产生的原始访问行为数据;从原始访问行为数据中选取访问敏感网址所产生的敏感访问行为数据;生成包括原始访问行为数据和敏感访问行为数据的目标访问行为数据。
其中,敏感网址可以理解为相应网页携带敏感信息或者可以从相应网页中获取到敏感信息的网址。
可选的,敏感网址可以由网址提供方根据自身需求进行设定,例如,包含人事信息的组织架构网址、包含工资信息的ERP(Enterprise Resource Planning,企业资源计划)网址等。
或者可选的,敏感网址可以通过对预设网址对应网页的网页内容进行自动化检测得到。例如,可以检测预设网址对应网页的网页内容中,是否携带预设敏感信息;若是,则将该预设网址作为敏感网址。其中,预设敏感信息可以由技术人员根据需要或经验值进行设置或调整。其中,进行网页内容识别可以采用现有的至少一种文本识别技术加以实现,本公开对具体采用的文本识别技术不作任何限定。
可以理解的是,上述技术方案将目标访问行为数据拆分为敏感网址对应的敏感访问行为数据和非敏感网址对应的其他访问行为数据,使得目标访问行为数据能够携带全量网址、敏感网址和非敏感网址中的至少两种对应的访问行为数据,丰富了目标访问行为数据的特征参考维度,从而提高了基于目标访问行为数据所生成第一预测参考特征所携带信息的丰富性和多样性,有助于提高异常访问对象识别结果准确度。
在内网异常访问对象识别的场景中,预设网址通常针对一个集团、企业或公司等组织进行设置。而针对一个组织来说,随着业务的增减和时间的推移,预设网址中必然会存在活跃度相对较差的网址,此类网址对应目标访问行为数据的数据量较少,贸然丢弃这部分目标访问行为数据,必然会存在重要信息遗失的风险。而直接使用这部分目标访问行为数据,将会导致后续所生成的第一预测参考特征较为稀疏,存在超高维度特征爆炸的问题,同时由于特征较为稀疏,将会影响异常访问对象识别结果的准确度。为了达到上述两者兼顾的目的,在对目标访问行为数据进行特征提取之前,还可以从预设网址中选取活跃度相对较差的网址作为待合并网址,并对待合并网址对应数据进行合并,以更新目标访问行为数据,从而达到保证信息全面性的基础上,兼顾异常访问对象识别过程的特征运算量和识别结果准确度。
示例性的,待合并网址可以预设网址的网址提供方根据需要自行设置。
为了实现待合并网址的自动化确定,避免出现待合并网址遗漏或指定错误的情况发生,示例性的,还可以根据对不同预设网址的访问情况,从预设网址中选取待合并网址。其中,访问情况,可以通过对目标访问行为数据中能够反映不同预设网址的活跃度的量化指标进行表征。可选的,量化指标可以包括访客量和访问次数等中的至少一种。
在一个具体实施例中,可以将访客量小于预设数量阈值,且访问次数小于预设次数阈值的预设网址作为待合并网址。其中,预设数量阈值和预设次数阈值可以由技术人员根据需要或经验值进行设置或调整,或通过大量试验反复确定。
在上述各技术方案的基础上,本公开还提供了一个可选实施例,在该实施例中,将第一预测参考特征细化为至少一个行为特征类别下的特征,并将S102的第一预测参考特征确定操作,进一步细化为“按照行为特征类别,对目标访问行为数据进行特征提取,得到相应行为特征类别下的第一预测参考特征”,从而提高第一预测参考特征的丰富性和多样性。需要说明的是,在本公开实施例中未详述部分,可参见其他实施例中的相关表述,在此不再赘述。
进一步参见图2所示的异常访问对象识别方法,包括:
S201、确定待检测对象访问预设网址所产生的目标访问数据;其中,目标访问数据包括目标访问行为数据和账号设备数据。
S202、按照行为特征类别,对目标访问行为数据进行特征提取,得到相应行为特征类别下的第一预测参考特征。
其中,行为特征类别用于对目标访问行为数据中的特征字段进行类别划分,可以由技术人员根据需要或经验进行类别设置。
示例性的,可以提取买不了访问行为数据中的有效特征字段,并将不同行为特征类别对应有效特征字段的特征值分别组合,得到各行为特征类别下的第一预测参考特征。
在一个可选实施例中,行为特征类别可以包括聚合特征类别。相应的,按照行为特征类别,对目标访问行为数据进行特征提取,得到相应行为特征类别下的第一预测参考特征,可以包括:统计目标访问行为数据中待检测对象在预设聚合周期内各特征字段的特征值,得到聚合特征类别下的第一预测参考特征。其中,预设聚合周期可以由技术人员根据需要或经验值进行设置,本公开对预设聚合周期的具体数值不作任何限定。其中,预设聚合周期的数量可以为至少一个,具体可以根据实际需求进行设置。若预设聚合周期的数量为至少两个,则不同预设聚合周期的周期长度不同。
其中,特征字段的特征值可以是该特征字段在目标访问行为数据中对应的字段值,或者对目标访问行为数据中对应的字段值进行特征编码后得到的编码值。
可以理解的是,通过设置预设聚合周期,对相同特征字段的特征值进行统计,达到在相同预设聚合周期内进行特征聚合的目的,从而使得聚合特征类别下的第一预测参考特征,能够携带聚合性、概括性的特征,增强聚合特征类别下的第一预测参考特征之间的协同性。
在一个可选实施方式中,可以通过统计目标访问行为数据中待检测对象在第一预设聚合周期内各特征字段的特征值,得到纵向对比特征。其中,第一预设聚合周期可以由技术人员根据需要或经验值进行设置,例如,第一预设聚合周期可以是一天。
举例说明,可以统计待检测对象每天的UA个数、每天访问每个预设网址的总次数、每天访问每个预设网址的失败总次数、每天访问每个预设网址的成功总次数、每天非工作小时的UA个数、每天工作小时的UA个数、以及每天非工作小时的UA个数与工作小时的UA个数的差值等中的至少一种,得到纵向对比特征。
在另一可选实施方式中,可以统计目标访问行为数据中待检测对象在第二预设聚合周期内各特征字段的特征值,得到第一统计结果;统计目标访问行为数据中待检测对象在第二预设聚合周期的邻近历史周期内各特征字段的特征值,得到第二统计结果;根据各特征字段下的第一统计结果与第二统计结果的差值,确定横向对比特征。其中,第二预设聚合周期的周期长度大于第一预设聚合周期的周期长度。其中,第二预设聚合周期可以由技术人员根据需要或经验值进行设置,例如,第二预设聚合周期可以是一周。
举例说明,可以统计待检测对象本周平均UA个数与上周平均UA个数的差值、本周每个网址的平均访问次数与上周相应网址的平均访问次数的差值、本周每个网址的平均失败访问次数与上周相应网址的平均失败访问次数的差值、本周每个网址的平均成功访问次数与上周相应网址的平均成功访问次数的差值、本周非工作小时的UA个数与上周非工作小时的UA个数的差值、本周工作小时的UA个数与上周工作小时的UA个数的差值、以及本周非工作小时与工作小时的UA差值比上周非工作小时与工作小时的UA差值大对少等中的至少一种,得到横向对比特征。
可以理解的是,通过聚合第一预设聚合周期内的特征值,所得的横向对比特征,能够从相对短周期内,反映不同待检测对象的访问行为数据之间的相对单点性、瞬时性的差异情况;通过聚合周期长度比第一预设聚合周期长的第二预设周期内的特征值,所得的纵向对比特征,能够从相对长的周期内,反映待检测对象的访问行为数据的聚合性、概括性的差异情况,是一种潜移默化的变化。因此,通过横向对比特征和纵向对比特征均可以从短期聚合角度或长期聚合角度,进行概括性的特征的提取,提高了各对比特征自身的聚合性,以及不同对比特征之间的差异性,提高了第一预测参考特征的丰富性和多样性,有助于提高异常访问对象识别结果的准确度。
在另一可选实施例中,行为特征类别可以包括明细特征类别。相应的,按照行为特征类别,对目标访问行为数据进行特征提取,得到相应行为特征类别下的第一预测参考特征,可以包括:统计目标访问行为数据中待检测对象在预设明细周期内各特征字段的特征值;将预设参考时段内不同预设明细周期内各特征字段的特征值统计结果按照时间顺序组合,得到明细特征类别下的第一预测参考特征。
其中,预设明细周期可以由技术人员根据需要或经验值进行设置,预设明细周期的周期长度不长于预设聚合周期。例如,预设明细周期可以是一天。其中,预设参考时段可以由技术人员根据需要或经验值进行设置,预设参考时段包括至少两个预设明细周期。例如,预设参考时段可以是7天。
举例说明,可以统计待检测对象最近7天每天访问每个网址的访问次数、最近7天每天使用UA的个数、最近7天每天访问每个网址的失败总次数、最近7天每天访问每个网址的成功总次数、最近7天每天非工作小时使用的UA个数、最近7天每天工作小时使用的UA个数、以及最近7天每天非工作小时与非工作小时使用的UA个数的差值等中的至少一种,得到明细特征类别下的第一预测参考特征。
可以理解的是,通过设置预设明细周期,对相同特征字段的特征值进行统计,达到在相同预设明细周期内进行特征聚合的目的,同时,将预设参考时段内不同预设明细周期的聚合结果,按照时间顺序进行组合,从而使得到的明细特征类别下的第一预测参考特征,能够从更细粒度和时序性的角度,进行特征描述,进一步提高了第一预测参考特征的丰富性和多样性,从而有助于提高异常访问对象的识别结果的准确度。
S203、对账号设备数据进行特征提取,得到第二预测参考特征。
在一个可选实施例中,可以统计账号设备数据中待检测对象的账号共用情况和/或设备共用情况,并根据统计结果,生成第二预测参考特征。
可选的,可以确定是否存在设备共用行为,也即一个设备有多个账号的行为,并统计设备共用行为出现的次数、一个设备共用账号的数量、工作时段设备共用行为而出现的次数、非工作时段设备共用行为出现的次数、工作时段设备共用的账号的数量、以及非工作时段设备共用的账号的数量等中的至少一种,得到与设备共用相关的第二预测参考特征。
可选的,可以确定是否存在账号共用行为,一个一个账号在多个设备进行登录,并统计账号共用行为出现的次数、一个账号共用设备的数量、工作时段账号共用行为出现的次数、非工作时段账号共用行为出现的次数、工作时段账号共用的设备的数量、以及非工作时段账号共用的设备的数量等中的至少一种,得到与账号共用相关的第二预测参考特征。
可以理解的是,借助挖掘账号共用情况和/或设备共用情况,从账号、设备等维度表征待检测用户的访问行为,提高了进行异常访问对象识别过程所依赖特征的丰富性和多样性,进而有助于提高异常访问对象识别结果的准确度。
S204、根据第一预测参考特征和第二预测参考特征,识别待检测对象是否为异常访问对象。
本公开通过进行不同行为特征类别下的第一预测参考特征的确定,能够充分考量不同行为特征类别下的第一预测参考特征各自对异常访问对象识别过程的差异化影响,同时,增强了相同行为特征类别下的第一预测参考特征之间的协同性,为异常访问对象识别结果准确度的提高,奠定了基础。
在上述各技术方案的基础上,还可以针对异常访问对象,进行归因处理,从而确定因为哪些特征,将待检测对象确定为异常访问对象。
可选的,可以基于训练好的决策树模型,根据异常访问对象的第一预测参考特征、第二预测参考特征和异常访问对象识别结果,确定该异常访问对象的决策路径,并通过决策路径贯穿的各预测参考特征,确定异常原因。其中,可以基于不同样本检测对象的各预测参考特征和异常访问对象识别结果,对预设的决策树模型进行有监督训练得到。
可选的,可以基于SHAP(SHapley Additive exPlanation,模型可解释包)分析法,确定异常访问对象的第一预测参考特征和第二预测参考特征中,不同预测参考特征在识别该待检测对象为异常访问对象时的贡献程度,并根据各预测参考特征的贡献程度,确定异常访问对象的异常原因。
其中,贡献程度可以包括贡献方向,用于表征该预测参考特征在识别该待检测对象时的分类倾向性。例如,若贡献方向为正向,则表明该预测参考特征倾向于该待检测对象为异常访问对象;若贡献方向为负向,则表明预测参考特征倾向于该待检测对象为正常访问对象。
其中,贡献程度还可以包括共现占比,用于表征该预测参考特征在识别该待检测对象时的分类倾向性的倾向程度。例如,若贡献方向为正向,且贡献占比较大,则表明该预测参考特征是识别该待检测对象为异常访问对象的主要参考特征;若贡献方向为正向,且贡献占比较小,则表明该预测参考特征是识别该待检测对象为异常访问对象的次要参考特征;若贡献方向为负向,且贡献占比较大,则表明该预测参考特征是识别该待检测对象为正常访问对象的主要参考特征;若贡献方向为负向,且贡献占比较小,的表明该预测参考特征是识别该待检测对象为正常访问对象的次要参考特征。
由于上述基于决策树和SHAP分析法进行异常归因时,均需要进行相应模型的训练,前期准备工作周期较长,过程繁琐,为了提高异常归因的便捷性,本公开还提供了一个可选实施例,在该可选实施例中,采用数据比对的方式,即可实现对异常访问对象的异常归因。需要说明的是,在本公开实施例中未详述部分,可参见其他实施例中的相关表述,在此不再赘述。
进一步参见图3所示的异常访问对象识别方法,包括:
S301、确定待检测对象访问预设网址所产生的目标访问数据;其中,目标访问数据包括目标访问行为数据和账号设备数据。
S302、对目标访问行为数据进行特征提取,得到第一预测参考特征。
S303、对账号设备数据进行特征提取,得到第二预测参考特征。
S304、根据第一预测参考特征和第二预测参考特征,识别待检测对象是否为异常访问对象。
S305、从目标访问数据中获取不同待检测对象在不同访问特征字段下的字段值。
其中,访问特征字段下的字段值,能够反映待检测对象进行预设网址访问时所生成的真实数据。
示例性的,若在对目标访问数据进行特征提取之前,对目标访问数据中的访问特征字段的字段值进行了特征编码,则可以预先构建各访问特征字段的字段值和特征编码值(也即前述特征值)之间的对象关系,可以通过该对象关系,进行相应访问特征字段的字段值的查找获取。
S306、根据待检测对象中异常访问对象在不同访问特征字段下的字段值,与各待检测对象在相应访问特征字段下的字段值的分布情况,从各访问特征字段中选取异常访问对象的异常访问特征字段。
针对任一访问特征字段,不同待检测对象在该访问特征字段下的字段值的分布情况,能够反映相应待检测对象的数据异常情况。例如,UA个数过高,则可能存在伪造UA的情况,例如通过爬虫从网页爬取数据。
示例性的,可以针对各访问特征字段,确定待检测对象中异常访问对象在该访问特征字段下的字段值,在各待检测对象在该访问特征字段下的字段值的分位数值;若分位数值大于预设分位数阈值,则将该访问特征字段作为异常访问特征字段。其中,预设分位数阈值可以由技术人员根据需要或经验值进行设置或调整,或通过大量试验反复确定。不同访问特征字段对应的预设分位数阈值可以相同或不同,本公开对此不作任何限定。
举例说明,若异常访问对象的某一访问特征字段的字段值,在各待检测对象在该特征字段下的字段值的分位数值为98.5%,由于98.5%大于预设分位数阈值95%,则确定该方案特征字段为异常方位特征字段。
可以理解的是,通过引入分位数值进行异常访问特征字段的确定,提高了了异常访问特征字段确定过程的便捷性,同时无需采用大量数据进行预设模型的训练,减少了前期的准备时间。
可选的,还可以针对各访问特征字段,确定待检测对象中异常访问对象在该访问特征字段下的字段值,在全量待检测对象在该访问特征字段下的字段值的平均值的占比;若占比大于预设占比阈值,则将该访问特征字段作为异常访问特征字段。
S307、根据异常访问特征字段,确定异常访问对象的异常原因。
可选的,可以直接将异常访问特征字段,作为异常访问对象的异常原因。
为了便于非专业人员能够在不知晓异常访问特征字段含义的情况下,能够充分了解异常访问对象的异常原因,提高异常原因的非专业性,还可以预先设置不同访问特征字段出现异常时对应的通俗解释,并将异常访问特征字段的通俗解释,作为异常访问对象的异常原因。
本公开实施例通过在识别异常访问特征字段之后,通过不同待检测对象在访问特征字段下的字段值的分布情况,进行异常访问特征字段的选取,并根据异常访问特征字段,确定异常访问对象的异常原因,增强了异常访问对象识别结果的可解释性。由于异常原因确定过程方便快捷,因此还减少了异常原因确定时计算量小。同时,还可以根据异常原因结合实际情况,确定异常访问对象中的误识别情况,有助于提高异常访问对象识别结果的准确度。
在上述各技术方案的基础上,本公开还提供了一个优选实施例,以实现对内网访问过程中的异常访问对象的精准识别。
参见图4所示的异常访问对象识别方法,包括数据预处理、特征构建、模型训练、模型使用和决策归因五个阶段。
1、数据预处理
1)获取内网访问对象在访问预设内网网址时所生成的原始访问数据,其中,原始访问数据包括访问行为数据和账号设备数据。
其中,访问行为数据可以包括访问时间、访问网页、访问成败结果、cookie(储存在内网访问对象本地终端上的数据)信息和UA信息等;账号设备数据可以包括登录时间、登录账号和登录设备。
2)针对原始访问数据中的各访问特征字段,将该访问特征字段下不同内网访问对象的字段值进行排序,并根据排序结果进行特征编码。
3)针对访问行为数据,根据访问行为数据中不同时间段的访客量分布情况,确定工作时段和非工作时段。
4)针对访问行为数据,根据访问行为数据中不同预设内网网址对反映的访问频次分布和访客量分布,选取待合并网址,并将待合并网址对应数据进行合并,以更新访问行为数据。
5)针对访问行为数据,可以通过预先设置预设内网网址中的敏感网址和/或检测预设内网网址中包含敏感信息的网址作为敏感网址。
2、特征构建
针对全量预设内网网址下的访问行为数据构建第一访问行为特征;针对敏感网址下的访问行为数据,构建第二访问行为特征;以及,基于账号设备数据,构建账号设备特征;生成包括第一访问行为特征、第二访问行为特征和账号设备特征的预测参考特征。
1)针对第一访问行为特征和第二访问行为特征,分别构建纵向对比特征、横线对比特征和明细时序特征。
其中,纵向对比特征可以包括下述至少一种:访问行为数据中内网访问对象每天使用的UA个数、每天访问每个内网网址的总次数、每天访问每个网址的失败总次数、和每天非工作时段与工作时段的UA个数的差值。
其中,横向对比特征可以包括下述至少一种:访问行为数据中内网访问对象本周与上周平均UA个数的差值、每个内网网址的本周与上周平均访问次数的差值、每个内网网址的本周与上周平均失败访问次数的差值、和本周与上周非工作小时与工作小时之间UA个数的差值之差。
其中,明细时序特征可以包括下述至少一种:访问行为数据中内网访问对象最近7天每天访问各内网网址的访问次数、每天访问各内网网址的访问失败次数、每天使用UA的个数、和每天非工作小时与工作小时的UA个数差值。
2)构建账号设备特征。
其中,账号设备特征中可以包括设备共用特征,具体可以包括下述至少一种:是否存在设备共用行为、存在设备共用行为的次数、一个设备的共用账号数、工作时段存在设备共用行为的次数、工作时段一个设备的共用账号数、非工作时段存在设备共用行为的次数、和非工作时段一个设备的共用账号数。
其中,账号设备特征中可以包括账号共用特征,具体可以包括下述至少一种:是否存在账号共用行为、存在账号共用行为的次数、一个账号的共用设备数、工作时段存在账号共用行为的次数、工作时段一个账号的共用设备数、非工作时段存在账号共用行为的次数、和非工作时段一个账号的共用设备数。
3、模型训练
针对不同预测参考特征,分别训练不同的异常检测模型。其中,不同异常检测模型优势互补。
针对第一访问行为特征中的横向对比特征、第一访问行为特征中的纵向对比特征、第二访问行为特征中的横向对比特征、第二访问行为特征中的纵向对比特征、和账号设备特征5类预测参考特征,构建了孤立森林、hbos(Histogram-based Outlier Score,基于直方图的异常点得分)、copod(Copula-Based Outlier Detection,基于Copula概率模型的异常点检测)3种不同的异常检测模型。将经过前述数据预处理和特征构建后得到的上述五种预测参考特征作为训练样本数据,分别输入至相应异常检测模型中,经过多轮迭代更新优化参数,直至收敛,得到(3*5)种异常检测模型。
针对第一访问行为特征中的明细时序特征和第二访问行为特征中的明细时序特征这两类预测参考特征,构建了基于Transformer的自编码模型和kmeans(K均值)聚类模型。经过前述数据预处理和特征构建后得到的上述两种预测参考特征作为训练样本数据分别输入值相应异常检测模型中,经过多轮迭代更新优化参数,直至收敛,得到(2*2)种异常检测模型。其中,kmeans中复用了Transformer的编码模块,以实现特征降维。
4、模型预测
将待检测访问对象访问预设内网网址所生成的原始访问数据,采用前述数据预处理和特征构建后,作为预测参考特征;将各预测参考特征分别输入值对应训练好的异常检测模型,得到异常概率。
针对各异常检测模型的异常概率,经过标准化和归一化处理后,将各异常检测模型的异常概率统一到0-1之间。
其中,异常概率可以按照模型输入特征的类别,划分为三大类。其中,第一类模型包括基于第一访问行为特征训练的8个模型,包括:基于横向对比特征训练的孤立森林、hbos、copod模型;基于纵向对比特征训练的孤立森林、hbos、copod模型;以及,基于明细时序特征训练的Transform、kmeans模型。第二类模型包括基于第二访问行为特征训练的8个模型,包括:基于横向对比特征训练的孤立森林、hbos、copod模型;基于纵向对比特征训练的孤立森林、hbos、copod模型;以及,基于明细时序特征训练的Transform、kmeans模型。第三类模型包括基于账号设备特征训练的3个模型:孤立森林、hbos、copod。
针对各异常检测模型,可以选取概率较高的预设数量(如前5%)的待检测访问对象作为异常访问对象,生成异常对象榜单。
示例性的,可以将相同类别的模型的异常对象榜单中各异常访问对象的异常概率加权求和,得到类别融合异常概率,并生成类别融合异常对象榜单。其中,相同类别的模型对应的权重可以由技术人员根据需要或经验值进行设置或调整,还可以通过大量试验反复确定,本公开对此处权重的具体数值不作任何限定。
示例性的,还可以将各类别融合异常对象榜单中的各异常访问对象的类别融合异常概率进行加权求和,得到全量融合异常概率,并生成全量融合异常对象榜单。其中,不同类别的模型对应的权重可以由技术人员根据需要或经验值进行设置或调整,还可以通过大量试验反复确定,本公开对此处权重的具体数值不作任何限定。
5、决策归因
示例性的,针对各异常检测模型,可以采用决策树还原法,确定各异常检测模型进行异常访问对象识别时的决策路径。
具体的,针对19个异常检测模型,每个模型都会产出5%的异常访问对象,其余则为正常访问对象。对于每个模型,各待检测内网访问对象都会有明确的标签,要么为异常访问对象,要么为正常访问对象。基于各个模型对每个待检测内网访问对象的预测标签(也即异常访问对象识别结果),采用决策树模型针对相应同样特征进行再建模,还原每个模型的决策路径和决策逻辑。比如,针对第一访问行为特征中的纵向对比特征构建的孤立森林模型,通过把这个模型的预测标签作为真实标签,然后使用决策树模型在同样的特征上产出相应的决策树模型,从而得到该模型的决策路径,还可以通过展示决策二叉树的方式,对决策树模型的决策路径进行可视化,从而表征该模型依次使用什么特征什么阈值如何进行分裂,得到最终的预测标签。
示例性的,针对各异常检测模型,可以采用SHAP分析法,确定各异常检测模型进行异常访问对象识别时,不同预测参考特征的贡献程度。
具体的,针对上述19个异常检测模型,采用SHAP分析法对每个模型都会输出一个整体的解释,这个解释主要是说所有预测参考特征里面每个特征对模型的贡献是多少(对应贡献程度中的贡献占比),具体是正向贡献还是负向贡献(对应贡献程度中的贡献方向)。这样即可获知每个模型的决策逻辑是什么,可以清晰看到每个特征在模型决策过程中的作用和重要程度。
可以理解的是,通过引入决策树和SHAP分析法,能够将异常检测模型转化为白盒,便于了解异常检测模型在进行异常访问对象识别的决策路径和决策逻辑。
在上述各技术方案的基础上,还可以基于SHAP分析法确定的贡献程度,选取异常访问对象的贡献方向为正向,且贡献占比大于预设占比阈值的预测参考特征,作为异常特征,并将该异常特征对应的预设解释原因作为该异常访问对象的异常原因。
在上述各技术方案的基础上,还可以针对各预测参考特征,汇总不同待检测内网访问对象在该预测参考特征下的原始访问数据中的字段值,并将各字段值进行排序,若异常访问对象的字段大于各待检测内网访问对象的字段值得95%分位数值,则确定该预测参考特征为异常特征,并将该异常特征对应的预设解释原因作为该异常访问对象的异常原因。
可以理解的是,通过进行异常访问对象的异常原因确定,能够确定待检测内网访问对象的异常原因,可以基于该异常原因,结合实际情况排除误报的情况,有助于提高识别结果准确度。
作为上述各异常访问对象识别方法的实现,本公开还提供了一种实施上述各异常访问对象识别方法的执行装置的可选实施例。
参见图5所示的一种异常访问对象识别装置500,包括:目标访问数据确定模块501、第一预测参考特征得到模块502、第二预测参考特征得到模块503和异常访问对象识别模块504。其中,
目标访问数据确定模块501,用于确定待检测对象访问预设网址所产生的目标访问数据;其中,目标访问数据包括目标访问行为数据和账号设备数据;
第一预测参考特征得到模块502,用于对目标访问行为数据进行特征提取,得到第一预测参考特征;
第二预测参考特征得到模块503,用于对账号设备数据进行特征提取,得到第二预测参考特征;
异常访问对象识别模块504,用于根据第一预测参考特征和第二预测参考特征,识别待检测对象是否为异常访问对象。
本公开实施例通过引入待检测对象访问预设网址时所产生的目标访问行为数据进行第一预测参考特征提取,引入待检测对象访问预设网址时所产生的账号设备数据进行第二预测参考特征提取,并根据第一预测参考特征和第二预测参考特征,综合识别待检测对象是否为异常访问对象,提高了进行异常访问对象识别时,所参照特征数据的丰富性和多样性,从而提高了异常访问对象识别结果的准确度,进而能够有效避免异常访问预设网址带来的网络数据的丢失或泄露,提高了预设网址对应网络数据的安全性。
在一个可选实施例中,第一预测参考特征对应至少一个行为特征类别;
第一预测参考特征得到模块502,具体用于:
按照行为特征类别,对目标访问行为数据进行特征提取,得到相应行为特征类别下的第一预测参考特征。
在一个可选实施例中,行为特征类别包括聚合特征类别和明细特征类别;
第一预测参考特征得到模块502,包括:
聚合特征得到单元,用于统计目标访问行为数据中待检测对象在预设聚合周期内各特征字段的特征值,得到聚合特征类别下的第一预测参考特征;以及,
明细特征得到单元,具体用于:
统计目标访问行为数据中待检测对象在预设明细周期内各特征字段的特征值;
将预设参考时段内不同预设明细周期内各特征字段的特征值统计结果按照时间顺序组合,得到明细特征类别下的第一预测参考特征。
在一个可选实施例中,聚合特征类别下的第一预测参考特征包括纵向对比特征和横向对比特征;
聚合特征得到单元,包括:
纵向对比特征得到子单元,用于统计目标访问行为数据中待检测对象在第一预设聚合周期内各特征字段的特征值,得到纵向对比特征;以及,
横向对比特征得到子单元,具体用于:
统计目标访问行为数据中待检测对象在第二预设聚合周期内各特征字段的特征值,得到第一统计结果;
统计目标访问行为数据中待检测对象在第二预设聚合周期的邻近历史周期内各特征字段的特征值,得到第二统计结果;
根据各特征字段下的第一统计结果与第二统计结果的差值,确定横向对比特征;
其中,第二预设聚合周期的周期长度大于第一预设聚合周期的周期长度。
在一个可选实施例中,第二预测参考特征得到模块503,具体用于:
统计账号设备数据中待检测对象的账号共用情况和/或设备共用情况,并根据统计结果,生成第二预测参考特征。
在一个可选实施例中,目标访问数据确定模块501,包括:
数据获取单元,用于获取至少一个待检测对象访问预设网址所产生的目标访问数据;
排序模块,用于针对目标访问数据中的各访问特征字段,按照该访问特征字段对应的预设维度对各待检测对象在该访问特征字段的字段值进行排序;
特征编码单元,用于根据排序结果,对各待检测对象在该访问特征字段下的字段值进行特征编码,以更新目标访问数据。
在一个可选实施例中,目标访问数据确定模块501,包括:
数据获取单元,用于获取至少一个待检测对象访问预设网址所产生的目标访问数据;
时段划分单元,用于根据目标访问数据中不同访问行为的时间分布情况,确定工作时段和非工作时段;
目标访问数据生成单元,用于生成包括工作时段的目标访问数据和非工作时段的目标访问数据。
在一个可选实施例中,目标访问数据确定模块501包括目标访问行为数据确定单元,具体包括:
原始访问行为数据获取单元,用于获取待检测对象访问预设网址所产生的原始访问行为数据;
敏感访问行为数据生成单元,用于从原始访问行为数据中选取访问敏感网址所产生的敏感访问行为数据;
目标访问行为数据生成单元,用于生成包括原始访问行为数据和敏感访问行为数据的目标访问行为数据。
在一个可选实施例中,该装置500还包括:
待合并网址选取模块,用于在对目标访问行为数据进行特征提取之前,根据对不同预设网址的访问情况,从预设网址中选取待合并网址;
数据合并单元,用于将目标访问行为数据中待合并网址对应数据进行合并,以更新目标访问行为数据。
在一个可选实施例中,该装置500还包括:
字段值获取模块,用于从目标访问数据中获取不同待检测对象在不同访问特征字段下的字段值;
异常字段选取模块,用于根据待检测对象中异常访问对象在不同访问特征字段下的字段值,与各待检测对象在相应访问特征字段下的字段值的分布情况,从各访问特征字段中选取异常访问对象的异常访问特征字段;
异常原因确定模块,用于根据异常访问特征字段,确定异常访问对象的异常原因。
在一个可选实施例中,异常字段选取模块,包括:
分位数值确定单元,用于针对各访问特征字段,确定待检测对象中异常访问对象在该访问特征字段下的字段值,在各待检测对象在该访问特征字段下的字段值的分位数值;
异常字段确定单元,用于若分位数值大于预设分位数阈值,则将该访问特征字段作为异常访问特征字段。
在一个可选实施例中,预设网址为内网网址。
上述异常访问对象识别装置可执行本公开任意实施例所提供的异常访问对象识别方法,具备执行各异常访问对象识别方法相应的功能模块和有益效果。
本公开的技术方案中,所涉及的目标访问数据的收集、存储、使用、加工、传输、提供和公开等处理,均符合相关法律法规的规定,且不违背公序良俗。
根据本公开的实施例,本公开还提供了一种电子设备、一种可读存储介质和一种计算机程序产品。
图6示出了可以用来实施本公开的实施例的示例电子设备600的示意性框图。电子设备旨在表示各种形式的数字计算机,诸如,膝上型计算机、台式计算机、工作台、个人数字助理、服务器、刀片式服务器、大型计算机、和其它适合的计算机。电子设备还可以表示各种形式的移动装置,诸如,个人数字处理、蜂窝电话、智能电话、可穿戴设备和其它类似的计算装置。本文所示的部件、它们的连接和关系、以及它们的功能仅仅作为示例,并且不意在限制本文中描述的和/或者要求的本公开的实现。
如图6所示,设备600包括计算单元601,其可以根据存储在只读存储器(ROM)602中的计算机程序或者从存储单元608加载到随机访问存储器(RAM)603中的计算机程序,来执行各种适当的动作和处理。在RAM 603中,还可存储设备600操作所需的各种程序和数据。计算单元601、ROM 602以及RAM 603通过总线604彼此相连。输入/输出(I/O)接口605也连接至总线604。
设备600中的多个部件连接至I/O接口605,包括:输入单元606,例如键盘、鼠标等;输出单元607,例如各种类型的显示器、扬声器等;存储单元608,例如磁盘、光盘等;以及通信单元609,例如网卡、调制解调器、无线通信收发机等。通信单元609允许设备600通过诸如因特网的计算机网络和/或各种电信网络与其他设备交换信息/数据。
计算单元601可以是各种具有处理和计算能力的通用和/或专用处理组件。计算单元601的一些示例包括但不限于中央处理单元(CPU)、图形处理单元(GPU)、各种专用的人工智能(AI)计算芯片、各种运行机器学习模型算法的计算单元、数字信号处理器(DSP)、以及任何适当的处理器、控制器、微控制器等。计算单元601执行上文所描述的各个方法和处理,例如异常访问对象识别方法。例如,在一些实施例中,异常访问对象识别方法可被实现为计算机软件程序,其被有形地包含于机器可读介质,例如存储单元608。在一些实施例中,计算机程序的部分或者全部可以经由ROM 602和/或通信单元609而被载入和/或安装到设备600上。当计算机程序加载到RAM 603并由计算单元601执行时,可以执行上文描述的异常访问对象识别方法的一个或多个步骤。备选地,在其他实施例中,计算单元601可以通过其他任何适当的方式(例如,借助于固件)而被配置为执行异常访问对象识别方法。
本文中以上描述的系统和技术的各种实施方式可以在数字电子电路系统、集成电路系统、现场可编程门阵列(FPGA)、专用集成电路(ASIC)、专用标准产品(ASSP)、芯片上系统的系统(SOC)、复杂可编程逻辑设备(CPLD)、计算机硬件、固件、软件、和/或它们的组合中实现。这些各种实施方式可以包括:实施在一个或者多个计算机程序中,该一个或者多个计算机程序可在包括至少一个可编程处理器的可编程系统上执行和/或解释,该可编程处理器可以是专用或者通用可编程处理器,可以从存储系统、至少一个输入装置、和至少一个输出装置接收数据和指令,并且将数据和指令传输至该存储系统、该至少一个输入装置、和该至少一个输出装置。
用于实施本公开的方法的程序代码可以采用一个或多个编程语言的任何组合来编写。这些程序代码可以提供给通用计算机、专用计算机或其他可编程数据处理装置的处理器或控制器,使得程序代码当由处理器或控制器执行时使流程图和/或框图中所规定的功能/操作被实施。程序代码可以完全在机器上执行、部分地在机器上执行,作为独立软件包部分地在机器上执行且部分地在远程机器上执行或完全在远程机器或服务器上执行。
在本公开的上下文中,机器可读介质可以是有形的介质,其可以包含或存储以供指令执行系统、装置或设备使用或与指令执行系统、装置或设备结合地使用的程序。机器可读介质可以是机器可读信号介质或机器可读储存介质。机器可读介质可以包括但不限于电子的、磁性的、光学的、电磁的、红外的、或半导体系统、装置或设备,或者上述内容的任何合适组合。机器可读存储介质的更具体示例会包括基于一个或多个线的电气连接、便携式计算机盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦除可编程只读存储器(EPROM或快闪存储器)、光纤、便捷式紧凑盘只读存储器(CD-ROM)、光学储存设备、磁储存设备、或上述内容的任何合适组合。
为了提供与用户的交互,可以在计算机上实施此处描述的系统和技术,该计算机具有:用于向用户显示信息的显示装置(例如,CRT(阴极射线管)或者LCD(液晶显示器)监视器);以及键盘和指向装置(例如,鼠标或者轨迹球),用户可以通过该键盘和该指向装置来将输入提供给计算机。其它种类的装置还可以用于提供与用户的交互;例如,提供给用户的反馈可以是任何形式的传感反馈(例如,视觉反馈、听觉反馈、或者触觉反馈);并且可以用任何形式(包括声输入、语音输入或者、触觉输入)来接收来自用户的输入。
可以将此处描述的系统和技术实施在包括后台部件的计算系统(例如,作为数据服务器)、或者包括中间件部件的计算系统(例如,应用服务器)、或者包括前端部件的计算系统(例如,具有图形用户界面或者网络浏览器的用户计算机,用户可以通过该图形用户界面或者该网络浏览器来与此处描述的系统和技术的实施方式交互)、或者包括这种后台部件、中间件部件、或者前端部件的任何组合的计算系统中。可以通过任何形式或者介质的数字数据通信(例如,通信网络)来将系统的部件相互连接。通信网络的示例包括:局域网(LAN)、广域网(WAN)和互联网。
计算机系统可以包括客户端和服务器。客户端和服务器一般远离彼此并且通常通过通信网络进行交互。通过在相应的计算机上运行并且彼此具有客户端-服务器关系的计算机程序来产生客户端和服务器的关系。服务器可以是云服务器,又称为云计算服务器或云主机,是云计算服务体系中的一项主机产品,以解决了传统物理主机与VPS服务中,存在的管理难度大,业务扩展性弱的缺陷。服务器也可以为分布式系统的服务器,或者是结合了区块链的服务器。
人工智能是研究使计算机来模拟人的某些思维过程和智能行为(如学习、推理、思考、规划等)的学科,既有硬件层面的技术也有软件层面的技术。人工智能硬件技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理等技术;人工智能软件技术主要包括计算机视觉技术、语音识别技术、自然语言处理技术及机器学习/深度学习技术、大数据处理技术、知识图谱技术等几大方向。
云计算(cloud computing),指的是通过网络接入弹性可扩展的共享物理或虚拟资源池,资源可以包括服务器、操作系统、网络、软件、应用和存储设备等,并可以按需、自服务的方式对资源进行部署和管理的技术体系。通过云计算技术,可以为人工智能、区块链等技术应用、模型训练提供高效强大的数据处理能力。
应该理解,可以使用上面所示的各种形式的流程,重新排序、增加或删除步骤。例如,本公开中记载的各步骤可以并行地执行也可以顺序地执行也可以不同的次序执行,只要能够实现本公开提供的技术方案所期望的结果,本文在此不进行限制。
上述具体实施方式,并不构成对本公开保护范围的限制。本领域技术人员应该明白的是,根据设计要求和其他因素,可以进行各种修改、组合、子组合和替代。任何在本公开的精神和原则之内所作的修改、等同替换和改进等,均应包含在本公开保护范围之内。

Claims (22)

1.一种异常访问对象识别方法,包括:
确定待检测对象访问预设网址所产生的目标访问数据;其中,所述目标访问数据包括目标访问行为数据和账号设备数据;其中,所述目标访问行为数据包括访问行为数据本身,以及对所述访问行为数据按照预设维度进行预处理后,所生成的新的访问行为数据;
对所述目标访问行为数据进行特征提取,得到第一预测参考特征;
对所述账号设备数据进行特征提取,得到第二预测参考特征;
将所述第一预测参考特征和所述第二预测参考特征分别输入至训练好的不同的异常检测模型中,并根据各模型的输出结果,确定待检测对象是否为异常访问对象;其中,不同异常检测模型分别以样本检测对象的目标访问数据所提取的所述第一预测参考特征和所述第二预测参考特征为训练样本,对预先构建的不同的深度学习模型分别进行有监督训练得到,其中,采用样本检测对象是否为异常访问对象的标签进行监督;
其中,所述第一预测参考特征对应至少一个行为特征类别;所述行为特征类别包括聚合特征类别;所述聚合特征类别下的第一预测参考特征包括纵向对比特征和横向对比特征;
所述对所述目标访问行为数据进行特征提取,得到相应行为特征类别下的第一预测参考特征,包括:
统计所述目标访问行为数据中所述待检测对象在第一预设聚合周期内各特征字段的特征值,得到所述纵向对比特征;以及,
统计所述目标访问行为数据中所述待检测对象在第二预设聚合周期内各特征字段的特征值,得到第一统计结果;
统计所述目标访问行为数据中所述待检测对象在所述第二预设聚合周期的邻近历史周期内各特征字段的特征值,得到第二统计结果;
根据各特征字段下的所述第一统计结果与所述第二统计结果的差值,确定所述横向对比特征;
其中,所述第二预设聚合周期的周期长度大于所述第一预设聚合周期的周期长度。
2.根据权利要求1所述的方法,其中,所述行为特征类别包括明细特征类别;
所述对所述目标访问行为数据进行特征提取,得到相应行为特征类别下的第一预测参考特征,还包括:
统计所述目标访问行为数据中所述待检测对象在预设明细周期内各特征字段的特征值;
将预设参考时段内不同预设明细周期内各特征字段的特征值统计结果按照时间顺序组合,得到明细特征类别下的第一预测参考特征。
3.根据权利要求1所述的方法,其中,所述对所述账号设备数据进行特征提取,得到第二预测参考特征,包括:
统计所述账号设备数据中所述待检测对象的账号共用情况和/或设备共用情况,并根据统计结果,生成所述第二预测参考特征。
4.根据权利要求1所述的方法,其中,所述确定待检测对象访问预设网址所产生的目标访问数据,包括:
获取至少一个待检测对象访问预设网址所产生的目标访问数据;
针对所述目标访问数据中的各访问特征字段,按照该访问特征字段对应的预设维度对各所述待检测对象在该访问特征字段的字段值进行排序;
根据排序结果,对各所述待检测对象在该访问特征字段下的字段值进行特征编码,以更新所述目标访问数据。
5.根据权利要求1所述的方法,其中,所述确定待检测对象访问预设网址所产生的目标访问数据,包括:
获取至少一个待检测对象访问预设网址所产生的目标访问数据;
根据所述目标访问数据中不同访问行为的时间分布情况,确定工作时段和非工作时段;
生成包括工作时段的目标访问数据和非工作时段的目标访问数据。
6.根据权利要求1所述的方法,其中,确定待检测对象访问预设网址所产生的目标访问行为数据,包括:
获取待检测对象访问预设网址所产生的原始访问行为数据;
从所述原始访问行为数据中选取访问敏感网址所产生的敏感访问行为数据;
生成包括所述原始访问行为数据和所述敏感访问行为数据的所述目标访问行为数据。
7.根据权利要求1所述的方法,其中,在所述对所述目标访问行为数据进行特征提取之前,所述方法还包括:
根据对不同预设网址的访问情况,从所述预设网址中选取待合并网址;
将所述目标访问行为数据中所述待合并网址对应数据进行合并,以更新所述目标访问行为数据。
8.根据权利要求1所述的方法,其中,所述方法还包括:
从所述目标访问数据中获取不同待检测对象在不同访问特征字段下的字段值;
根据所述待检测对象中异常访问对象在不同访问特征字段下的字段值,与各待检测对象在相应访问特征字段下的字段值的分布情况,从各访问特征字段中选取所述异常访问对象的异常访问特征字段;
根据所述异常访问特征字段,确定所述异常访问对象的异常原因。
9.根据权利要求8所述的方法,其中,所述根据所述待检测对象中异常访问对象在不同访问特征字段下的字段值,与各待检测对象在相应访问特征字段下的字段值的分布情况,从各访问特征字段中选取所述异常访问对象的异常访问特征字段,包括:
针对各访问特征字段,确定所述待检测对象中异常访问对象在该访问特征字段下的字段值,在各待检测对象在该访问特征字段下的字段值的分位数值;
若分位数值大于预设分位数阈值,则将该访问特征字段作为异常访问特征字段。
10.根据权利要求1所述的方法,其中,所述预设网址为内网网址。
11.一种异常访问对象识别装置,包括:
目标访问数据确定模块,用于确定待检测对象访问预设网址所产生的目标访问数据;其中,所述目标访问数据包括目标访问行为数据和账号设备数据;其中,所述目标访问行为数据包括访问行为数据本身,以及对所述访问行为数据按照预设维度进行预处理后,所生成的新的访问行为数据;
第一预测参考特征得到模块,用于对所述目标访问行为数据进行特征提取,得到第一预测参考特征;
第二预测参考特征得到模块,用于对所述账号设备数据进行特征提取,得到第二预测参考特征;
异常访问对象识别模块,用于将所述第一预测参考特征和所述第二预测参考特征分别输入至训练好的不同的异常检测模型中,并根据各模型的输出结果,确定待检测对象是否为异常访问对象;其中,不同异常检测模型分别以样本检测对象的目标访问数据所提取的所述第一预测参考特征和所述第二预测参考特征为训练样本,对预先构建的不同的深度学习模型分别进行有监督训练得到,其中,采用样本检测对象是否为异常访问对象的标签进行监督;
其中,所述第一预测参考特征对应至少一个行为特征类别;所述行为特征类别包括聚合特征类别;所述聚合特征类别下的第一预测参考特征包括纵向对比特征和横向对比特征;
所述第一预测参考特征得到模块,包括:
纵向对比特征得到子单元,用于统计所述目标访问行为数据中所述待检测对象在第一预设聚合周期内各特征字段的特征值,得到所述纵向对比特征;以及,
横向对比特征得到子单元,具体用于:
统计所述目标访问行为数据中所述待检测对象在第二预设聚合周期内各特征字段的特征值,得到第一统计结果;
统计所述目标访问行为数据中所述待检测对象在所述第二预设聚合周期的邻近历史周期内各特征字段的特征值,得到第二统计结果;
根据各特征字段下的所述第一统计结果与所述第二统计结果的差值,确定所述横向对比特征;
其中,所述第二预设聚合周期的周期长度大于所述第一预设聚合周期的周期长度。
12.根据权利要求11所述的装置,其中,所述行为特征类别包括明细特征类别;
所述第一预测参考特征得到模块,还包括:
明细特征得到单元,具体用于:
统计所述目标访问行为数据中所述待检测对象在预设明细周期内各特征字段的特征值;
将预设参考时段内不同预设明细周期内各特征字段的特征值统计结果按照时间顺序组合,得到明细特征类别下的第一预测参考特征。
13.根据权利要求11所述的装置,其中,所述第二预测参考特征得到模块,具体用于:
统计所述账号设备数据中所述待检测对象的账号共用情况和/或设备共用情况,并根据统计结果,生成所述第二预测参考特征。
14.根据权利要求11所述的装置,其中,所述目标访问数据确定模块,包括:
数据获取单元,用于获取至少一个待检测对象访问预设网址所产生的目标访问数据;
排序模块,用于针对所述目标访问数据中的各访问特征字段,按照该访问特征字段对应的预设维度对各所述待检测对象在该访问特征字段的字段值进行排序;
特征编码单元,用于根据排序结果,对各所述待检测对象在该访问特征字段下的字段值进行特征编码,以更新所述目标访问数据。
15.根据权利要求11所述的装置,其中,所述目标访问数据确定模块,包括:
数据获取单元,用于获取至少一个待检测对象访问预设网址所产生的目标访问数据;
时段划分单元,用于根据所述目标访问数据中不同访问行为的时间分布情况,确定工作时段和非工作时段;
目标访问数据生成单元,用于生成包括工作时段的目标访问数据和非工作时段的目标访问数据。
16.根据权利要求11所述的装置,其中,所述目标访问数据确定模块包括目标访问行为数据确定单元,具体包括:
原始访问行为数据获取单元,用于获取待检测对象访问预设网址所产生的原始访问行为数据;
敏感访问行为数据生成单元,用于从所述原始访问行为数据中选取访问敏感网址所产生的敏感访问行为数据;
目标访问行为数据生成单元,用于生成包括所述原始访问行为数据和所述敏感访问行为数据的所述目标访问行为数据。
17.根据权利要求11所述的装置,其中,所述装置还包括:
待合并网址选取模块,用于在所述对所述目标访问行为数据进行特征提取之前,根据对不同预设网址的访问情况,从所述预设网址中选取待合并网址;
数据合并单元,用于将所述目标访问行为数据中所述待合并网址对应数据进行合并,以更新所述目标访问行为数据。
18.根据权利要求11所述的装置,其中,所述装置还包括:
字段值获取模块,用于从所述目标访问数据中获取不同待检测对象在不同访问特征字段下的字段值;
异常字段选取模块,用于根据所述待检测对象中异常访问对象在不同访问特征字段下的字段值,与各待检测对象在相应访问特征字段下的字段值的分布情况,从各访问特征字段中选取所述异常访问对象的异常访问特征字段;
异常原因确定模块,用于根据所述异常访问特征字段,确定所述异常访问对象的异常原因。
19.根据权利要求18所述的装置,其中,所述异常字段选取模块,包括:
分位数值确定单元,用于针对各访问特征字段,确定所述待检测对象中异常访问对象在该访问特征字段下的字段值,在各待检测对象在该访问特征字段下的字段值的分位数值;
异常字段确定单元,用于若分位数值大于预设分位数阈值,则将该访问特征字段作为异常访问特征字段。
20.根据权利要求11所述的装置,其中,所述预设网址为内网网址。
21. 一种电子设备,包括:
至少一个处理器;以及
与所述至少一个处理器通信连接的存储器;其中,
所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行权利要求1-10中任一项所述的异常访问对象识别方法。
22.一种存储有计算机指令的非瞬时计算机可读存储介质,其中,所述计算机指令用于使计算机执行根据权利要求1-10中任一项所述的异常访问对象识别方法。
CN202211177212.8A 2022-09-26 2022-09-26 异常访问对象识别方法、装置、设备和介质 Active CN115603955B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202211177212.8A CN115603955B (zh) 2022-09-26 2022-09-26 异常访问对象识别方法、装置、设备和介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202211177212.8A CN115603955B (zh) 2022-09-26 2022-09-26 异常访问对象识别方法、装置、设备和介质

Publications (2)

Publication Number Publication Date
CN115603955A CN115603955A (zh) 2023-01-13
CN115603955B true CN115603955B (zh) 2023-11-07

Family

ID=84845846

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202211177212.8A Active CN115603955B (zh) 2022-09-26 2022-09-26 异常访问对象识别方法、装置、设备和介质

Country Status (1)

Country Link
CN (1) CN115603955B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117076322A (zh) * 2023-08-30 2023-11-17 合芯科技(苏州)有限公司 一种研发技术服务供应商异常工作模式检测方法及系统

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106815255A (zh) * 2015-11-27 2017-06-09 阿里巴巴集团控股有限公司 检测数据访问异常的方法及装置
CN110474871A (zh) * 2019-07-05 2019-11-19 中国平安财产保险股份有限公司 一种异常账号检测方法、装置、计算机设备及存储介质
US10599825B1 (en) * 2019-07-18 2020-03-24 Capital One Services, Llc Authentication based on a physical key
CN110943961A (zh) * 2018-09-21 2020-03-31 阿里巴巴集团控股有限公司 数据处理方法、设备以及存储介质
WO2021012509A1 (zh) * 2019-07-23 2021-01-28 平安科技(深圳)有限公司 一种异常账号检测方法、装置及计算机存储介质
CN113592522A (zh) * 2021-02-23 2021-11-02 腾讯科技(深圳)有限公司 处理流量数据的方法及设备、和计算机可读存储介质
WO2022000398A1 (en) * 2020-07-02 2022-01-06 Microsoft Technology Licensing, Llc Detecting metrics indicative of operational characteristics of network and identifying and controlling based on detected anomalies
EP4075395A2 (en) * 2021-08-25 2022-10-19 Beijing Baidu Netcom Science Technology Co., Ltd. Method and apparatus of training anti-spoofing model, method and apparatus of performing anti-spoofing, and device

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106815255A (zh) * 2015-11-27 2017-06-09 阿里巴巴集团控股有限公司 检测数据访问异常的方法及装置
CN110943961A (zh) * 2018-09-21 2020-03-31 阿里巴巴集团控股有限公司 数据处理方法、设备以及存储介质
CN110474871A (zh) * 2019-07-05 2019-11-19 中国平安财产保险股份有限公司 一种异常账号检测方法、装置、计算机设备及存储介质
US10599825B1 (en) * 2019-07-18 2020-03-24 Capital One Services, Llc Authentication based on a physical key
WO2021012509A1 (zh) * 2019-07-23 2021-01-28 平安科技(深圳)有限公司 一种异常账号检测方法、装置及计算机存储介质
WO2022000398A1 (en) * 2020-07-02 2022-01-06 Microsoft Technology Licensing, Llc Detecting metrics indicative of operational characteristics of network and identifying and controlling based on detected anomalies
CN113592522A (zh) * 2021-02-23 2021-11-02 腾讯科技(深圳)有限公司 处理流量数据的方法及设备、和计算机可读存储介质
EP4075395A2 (en) * 2021-08-25 2022-10-19 Beijing Baidu Netcom Science Technology Co., Ltd. Method and apparatus of training anti-spoofing model, method and apparatus of performing anti-spoofing, and device

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
龚俭等.计算机网络安全导论 第3版.东南大学,2020,第222-227页. *

Also Published As

Publication number Publication date
CN115603955A (zh) 2023-01-13

Similar Documents

Publication Publication Date Title
US20190311114A1 (en) Man-machine identification method and device for captcha
CN113221104B (zh) 用户异常行为的检测方法及用户行为重构模型的训练方法
US11809505B2 (en) Method for pushing information, electronic device
CN113722493A (zh) 文本分类的数据处理方法、设备、存储介质及程序产品
CN112560985A (zh) 神经网络的搜索方法、装置及电子设备
CN115603955B (zh) 异常访问对象识别方法、装置、设备和介质
CN112765452A (zh) 搜索推荐方法、装置及电子设备
CN114494776A (zh) 一种模型训练方法、装置、设备以及存储介质
CN114417118A (zh) 一种异常数据处理方法、装置、设备以及存储介质
CN114090601B (zh) 一种数据筛选方法、装置、设备以及存储介质
CN114037059A (zh) 预训练模型、模型的生成方法、数据处理方法及装置
CN117474091A (zh) 一种知识图谱构建方法、装置、设备及存储介质
US20230052623A1 (en) Word mining method and apparatus, electronic device and readable storage medium
CN116955075A (zh) 一种基于日志的解析语句生成方法、装置、设备及介质
CN116225848A (zh) 日志监测方法、装置、设备和介质
CN111325350B (zh) 可疑组织发现系统和方法
CN114548307A (zh) 分类模型训练方法和装置、分类方法和装置
CN115186738A (zh) 模型训练方法、装置和存储介质
CN116737520B (zh) 一种日志数据的数据编织方法、装置、设备及存储介质
CN117609723A (zh) 一种对象识别方法、装置、电子设备及存储介质
CN117744009A (zh) 异常账号的识别方法、装置、设备及介质
CN117635267A (zh) 金融产品的推荐方法、装置、设备及存储介质
CN117649115A (zh) 一种风险评估方法、装置、电子设备和存储介质
WO2016122537A1 (en) Processing an electronic data stream using a graph data structure
CN116431809A (zh) 基于银行客服场景下的文本标注方法、装置和存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant