CN111343143B - 数据识别方法、装置及存储介质 - Google Patents

数据识别方法、装置及存储介质 Download PDF

Info

Publication number
CN111343143B
CN111343143B CN202010076878.9A CN202010076878A CN111343143B CN 111343143 B CN111343143 B CN 111343143B CN 202010076878 A CN202010076878 A CN 202010076878A CN 111343143 B CN111343143 B CN 111343143B
Authority
CN
China
Prior art keywords
data packet
target
packet
log information
data
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202010076878.9A
Other languages
English (en)
Other versions
CN111343143A (zh
Inventor
郭豪
陈嘉豪
梁玉
洪春华
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tencent Technology Shenzhen Co Ltd
Original Assignee
Tencent Technology Shenzhen Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tencent Technology Shenzhen Co Ltd filed Critical Tencent Technology Shenzhen Co Ltd
Priority to CN202010076878.9A priority Critical patent/CN111343143B/zh
Publication of CN111343143A publication Critical patent/CN111343143A/zh
Application granted granted Critical
Publication of CN111343143B publication Critical patent/CN111343143B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L63/00Network architectures or network communication protocols for network security
    • H04L63/14Network architectures or network communication protocols for network security for detecting or protecting against malicious traffic
    • H04L63/1408Network architectures or network communication protocols for network security for detecting or protecting against malicious traffic by monitoring network traffic
    • H04L63/1425Traffic logging, e.g. anomaly detection

Abstract

本申请实施例公开了一种数据识别方法、装置及存储介质,该方法包括:获取第一网络设备当前所发送的至少一个第一数据包和与该至少一个第一数据包相关联的第一日志信息;根据该第一日志信息中的该发送信息,从该至少一个第一数据包中筛选满足文件发送条件的第一数据包,作为目标数据包;获取该第一网络设备在历史时间段内所发送的第二数据包,该第二数据包被发送的状态为正常状态;根据该目标数据包的大小与该第二数据包的大小确定该目标数据包与该历史数据包之间的偏移度;根据该偏移度确定该目标数据包被发送的状态。采用本申请实施例,可以提高对数据包被发送的状态识别的准确度和效率。

Description

数据识别方法、装置及存储介质
技术领域
本申请涉及人工智能领域,尤其涉及一种数据识别方法、装置及存储介质。
背景技术
随着计算机技术的快速发展,如何侦测且抵御高级持久性威胁攻击(Advan cedPersistent Threat,APT)成为必不可少的研究方向。数据泄漏是APT攻击的最后一个阶段,当攻击者获取到重要数据之后,会将重要数据汇聚到一台失陷主机上进行传输。
目前需要人工对数据包进行分析,才能识别出数据包被发送的状态(即异常发送状态和正常发送状态),异常发送状态可以是指数据包被攻击者所发送的,正常发送状态可以是指数据包被具有发送权限的用户所发送。实践中发现,人工对数据包的分析方式的效率以及准确度均比较低。例如,网络设备每天通常发送成千上万个数据包,需要较长时间才能完成对所有数据包的分析,识别数据包被发送的状态的效率比较低;另外,如果对数据包进行分析的用户不具有与数据泄露相关的知识,容易将正常发送状态的数据包误识别为异常发送状态的数据包;或者,将异常发送状态的数据包误识别为正常状态的数据包,导致识别数据包被发送的状态的准确度比较低。
申请内容
本申请实施例提供了一种数据识别方法、装置及存储介质,可以提高对数据包被发送的状态识别的准确度和效率。
本申请实施例一方面提供了一种数据识别方法,该方法包括:
获取第一网络设备当前所发送的至少一个第一数据包和与该至少一个第一数据包相关联的第一日志信息,该第一数据包包括至少一个子数据包,该第一日志信息包括该第一数据包中的子数据包被发送时所生成的发送信息;
根据该第一日志信息中的该发送信息,从该至少一个第一数据包中筛选满足文件发送条件的第一数据包,作为目标数据包;
获取该第一网络设备在历史时间段内所发送的第二数据包,该第二数据包被发送的状态为正常状态;
根据该目标数据包的大小与该第二数据包的大小确定该目标数据包与该历史数据包之间的偏移度;
根据该偏移度确定该目标数据包被发送的状态。
本申请实施例一方面提供了一种数据识别装置,该装置包括:
第一获取模块,用于获取第一网络设备当前所发送的至少一个第一数据包和与该至少一个第一数据包相关联的第一日志信息,该第一数据包包括至少一个子数据包,该第一日志信息包括该第一数据包中的子数据包被发送时所生成的发送信息;
筛选模块,用于根据该第一日志信息中的该发送信息,从该至少一个第一数据包中筛选满足文件发送条件的第一数据包,作为目标数据包;
第二获取模块,用于获取该第一网络设备在历史时间段内所发送的第二数据包,该第二数据包被发送的状态为正常状态;
第一确定模块,用于根据该目标数据包的大小与该第二数据包的大小确定该目标数据包与该历史数据包之间的偏移度;
第二确定模块,用于根据该偏移度确定该目标数据包被发送的状态。
其中,上述装置还包括:
第三获取模块,用于获取该第一网络设备在当前多个时间段内所发送的M个待选数据包时所生成的第二日志信息;
排序模块,用于根据该当前多个时间段对该第二日志信息进行排序处理,得到该M个待选数据包对应的时间序列;
筛除模块,用于根据该时间序列从该M个待选数据包中筛除异常待选数据包,作为该第一数据包。
其中,上述筛除模块包括:
第一确定单元,用于将该时间序列分解为携带周期时间序列、趋势时间序列以及残差时间序列的待处理时间序列,并将去除该周期时间序列和该趋势时间序列的待处理时间序列,确定为该残差时间序列;
配置单元,用于从该残差时间序列中获取测试分量Ri,将该测试分量Ri的数据状态配置为待确定状态;i为大于0且小于或者等于n的正整数;n为该残差时间序列中的所有测试分量的数量;
第一获取单元,用于获取与该测试分量Ri相关联的第一度量参数,并获取与该测试分量Ri相关联的第二度量参数;该第一度量参数是由该测试分量Ri和该测试分量Ri相关联的均值和方差所确定的;该第二度量参数是由该测试数量n、迭代次数和该测试分量Ri的辅助查表参数所确定的;
第二确定单元,用于在第一度量参数大于该第二度量参数时,则将该测试分量Ri的数据状态由该待确定状态调整为异常状态,从该残差时间序列中去除具有异常状态的测试分量Ri,将去除测试分量Ri后的残差时间序列确定为过渡时间序列,根据该过渡时间序列中的测试分量Rj进行迭代计算,直到该迭代次数达到迭代阈值时,得到该M个待选数据包对应的时间序列中的L个具有异常状态的测试分量;该j为大于i且小于或者等于n的正整数;该L为小于或者等于该迭代阈值的正整数;一个具有异常状态的测试分量对应一个异常待选数据包;
第三确定单元,用于将L个具有异常状态的测试分量对应的异常待选数据包确定为该第一数据包。
其中,上述第三获取模块包括:
第二获取单元,用于获取K个网络设备在该当前多个时间段内所发送数据包时所生成的原始日志信息,一个网络设备对应一个原始日志信息,该K为大于1的正整数,该K个网络设备包括该第一网络设备;
过滤单元,用于根据网络设备发送数据包的过程中所包含的关键字段,对该K个网络设备的原始日志信息进行字段过滤,将字段过滤后的原始日志信息作为该K个网络设备的目标日志信息;
聚类处理单元,用于对该K个网络设备的目标日志信息中具有第一网络设备标识的目标日志信息进行聚类处理,得到该第二日志信息,该第一网络设备在该当前多个时间段内所发送的数据包为待选数据包。
其中,该第一数据包包括基于第一传输协议所发送的第一数据包和基于第二传输协议所发送的第一数据包;
上述筛选模块包括:
第一筛选单元,用于根据该第一日志信息中的该发送信息从基于该第一传输协议所发送的第一数据包中筛选满足文件发送条件的第一数据包,作为第一待选目标数据包;
第二筛选单元,用于根据该第一日志信息中的该发送信息从基于该第二传输协议所发送的第一数据包中筛选满足文件发送条件的第一数据包,作为第二待选目标数据包;
合并单元,用于对该第一待选目标数据包和该第二待选目标数据包进行合并处理,得到该目标数据包。
其中,该发送信息包括该第一数据包的各个子数据包分别被发送的目标时间;
上述筛选模块包括:
第三筛选单元,用于从该第一数据包所包括的子数据包中筛选该目标时间之间的时间间隔小于时间阈值的子数据包,作为目标子数据包;
第四确定单元,用于若该目标子数据包的大小大于第一阈值,则确定该目标子数据包所对应的第一数据包满足文件发送条件,将该目标子数据包所对应的第一数据包作为该目标数据包。
其中,第一确定模块包括:
第五确定单元,用于根据该第二数据包的大小和该历史时间段,确定该第二数据包的大小在该历史时间段内的均值;
第三获取单元,用于获取该目标数据包的大小与该第二数据包的大小在该历史时间段内的均值之间的目标比值;
第六确定单元,用于将该目标比值,确定为该偏移度。
其中,上述第二确定模块包括:
第四获取单元,用于获取该偏移度的第一权重值,以及该目标数据包的大小对应的第二权重值;
加权求和单元,用于根据该第一权重值和该第二权重值对该偏移度和该目标数据包的大小进行加权求和,得到该目标数据包的异常检测度;
第七确定单元,用于若该目标数据包的异常检测度大于异常检测度阈值,则确定该目标数据包被发送的状态为异常状态。
本申请一方面提供了一种计算机设备,包括:处理器、存储器、网络接口;
该处理器与存储器、网络接口相连,其中,网络接口用于提供数据通信功能,该存储器用于存储计算机程序,该处理器用于调用该计算机程序,以执行本申请实施例中上述一方面中的方法。
本申请一方面提供了一种计算机可读存储介质,该计算机可读存储介质存储有计算机程序,该计算机程序包括程序指令,该程序指令当被处理器执行时,执行本申请实施例中上述一方面中的方法。
在本申请实施例中,数据识别终端通过根据该第一日志信息中的该发送信息,从该至少一个第一数据包中筛选满足文件发送条件的第一数据包,此处满足文件发送条件的第一数据包可以指文件数据,即数据识别终端通过第一日志信息中的发送信息能够识别出第一网络设备所发送的文件数据;另外,数据识别终端可以通过分析目标数据包与历史数据包之间的偏移度,可自动地识别出目标数据包被发送的状态,不需要人工参与,可以提高识别文件数据异常外发的效率和准确率。
附图说明
为了更清楚地说明本申请实施例中的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本申请实施例提供的一种网络架构的结构示意图;
图2是本申请实施例提供的一种数据识别的场景示意图;
图3是本申请实施例提供的一种数据识别方法的流程示意图;
图4是本申请实施例提供的一种原始日志信息的示意图;
图5是本申请实施例提供的一种目标日志信息的示意图;
图6是本申请实施例提供的一种目标日志信息的示意图;
图7是本申请实施例提供的一种过渡时间序列的示意图;
图8是本申请实施例提供的一种具有异常状态的测试分量的时间序列的示意图;
图9是本申请实施例提供的一种文件发送条件的示意图;
图10是本申请实施例提供的一种数据识别方法的流程示意图;
图11是本申请实施例提供的一种触发告警事件的示意图;
图12是本申请实施例提供的一种数据识别方法的流程示意图;
图13是本申请实施例提供的一种SOC机器学习平台的示意图;
图14是本申请实施例提供的一种数据识别装置的结构示意图;
图15是本申请实施例提供的一种计算机设备的示意图。
具体实施方式
下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
人工智能(Artificial Intelligence,AI)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能,感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。换句话说,人工智能是计算机科学的一个综合技术,它企图了解智能的实质,并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法,使机器具有感知、推理与决策的功能。
人工智能技术是一门综合学科,涉及领域广泛,既有硬件层面的技术也有软件层面的技术。人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互系统、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。
随着人工智能技术的研究和进步,关于机器学习的研究和应用也更加成熟。机器学习(Machine Learning,ML)是一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为,以获取新的知识或技能,重新组织已有的知识结构使之不断改善自身的性能。机器学习是人工智能的核心,是使计算机具有智能的根本途径,其应用遍及人工智能的各个领域。机器学习和深度学习通常包括人工神经网络、置信网络、强化学习、迁移学习、归纳学习、式教学习等技术。
本申请实施例提供的方案涉及人工智能的机器学习技术,具体通过如下实施例进行说明:
请参见图1,是本申请实施例提供的一种网络架构的结构示意图。如图1所示,该网络架构可以包括服务器2000和终端设备集群,该终端设备集群可以包括多个终端设备,如图1所示,具体可以包括终端设备3000a、终端设备3000b、终端设备3000c、…、终端设备3000n。
如图1所示,终端设备3000a、终端设备3000b、终端设备3000c、…、终端设备3000n可以分别与该服务器2000进行网络连接,以便于该服务器2000获取每个终端设备的日志信息。
其中,为便于理解,本申请实施例可以在图1所示的多个终端设备中选择K个终端设备作为上述K个网络设备,且上述K个网络设备中包含第一网络设备,该终端设备可以包括:桌上型电脑、平板电脑,等等。本申请实施例可以在图1所示的多个终端设备中选择一个终端设备作为第一网络设备,例如,本申请实施例可以将图1所示的终端设备3000c作为该第一网络设备。
可以理解的是,本申请实施例中的数据识别终端以图1所示的服务器2000为例,用以阐述该服务器2000对网络设备的数据包外发异常检测过程,其中,数据包可以指在计算机网络中由协议通信传输中的一种数据单位。上述服务器2000可以获取K个网络设备在当前多个时间段内所发送数据包时所生成的原始日志信息,一个网络设备对应一个原始日志信息,该K为大于1的正整数,该K个网络设备包括该第一网络设备。应当理解,在本申请实施例中,该当前时间段可以指对网络设备发送数据包的状态进行预测前的一段时间。其中,上述原始日志信息可以指未经过关键字段过滤的流量日志信息。比如,该原始日志信息可以指企业内网流量数据信息。其中,关键字段可以指上述原始日志信息中与网络设备发送数据包的过程相关联的字段。
应当理解,该服务器2000可以根据网络设备发送数据包的过程中所包含的关键字段,对该K个网络设备的原始日志信息进行字段过滤,将字段过滤后的原始日志信息作为该K个网络设备的目标日志信息。应当理解,上述目标日志信息可以指对原始日志信息进行关键字段过滤处理后的流量日志信息。
进一步地,该服务器2000可以对该K个网络设备的目标日志信息中具有第一网络设备标识的目标日志信息进行聚类处理,得到该第二日志信息,该第一网络设备在该当前多个时间段内所发送的数据包为待选数据包。应当理解,上述第一网络设备标识可以指唯一确定上述第一网络设备的标识信息。其中,该第一网络设备标识可以指第一网络设备对应的网际协议(Internet Protocol,IP)地址,比如,该第一网络设备标识可以指第一网络设备对应的内网IP地址。其中,聚类处理可以是运用形态学算子在该K个网络设备的目标日志信息中将具有该第一网络设备标识的目标日志信息进行聚类并合并。应当理解,上述第二日志信息可以指上述第一网络设备对应的日志信息。其中,该第二日志信息中可以包括第一网络设备在上述当前多个时间段内所发送的M个待选数据包,其中,上述M个待选数据包中的每个待选数据包与一个当前时间段对应,该M为大于或者等于1的正整数。应当理解,在本申请实施例中,该待选数据包可以指第一网络设备在该当前多个时间段内所发送的待筛选的数据包。
应当理解,该服务器2000可以在获取该第一网络设备在当前多个时间段内所发送的M个待选数据包时所生成的第二日志信息之后,根据该当前多个时间段对该第二日志信息进行排序处理,得到该M个待选数据包对应的时间序列。进一步地,该服务器2000可以根据该时间序列从该M个待选数据包中筛除异常待选数据包,作为该第一数据包。应当理解,该时间序列可以指包括该当前多个时间段和该当前多个时间段对应的M个待选数据包的序列。应当理解,该第一数据包可以指上述M个待选数据包中具有异常状态的待选数据包。
进一步地,该服务器2000可以在获取到上述第一网络设备当前所发送的至少一个第一数据包和与该至少一个第一数据包相关联的第一日志信息,该第一数据包包括至少一个子数据包,该第一日志信息包括该第一数据包中的子数据包被发送时所生成的发送信息。应当理解,该第一日志信息可以指在本申请实施例中包含该第一数据包中的子数据包被发送时所生成的发送信息的日志信息。
进一步地,该服务器2000可以根据该第一日志信息中的该发送信息,从该至少一个第一数据包中筛选满足文件发送条件的第一数据包,作为目标数据包。应当理解,该目标数据包可以指在至少一个第一数据包中满足文件发送条件的第一数据包。
进一步地,该服务器2000可以获取该第一网络设备在历史时间段内所发送的第二数据包,该第二数据包被发送的状态为正常状态。应当理解,历史时间段可以指在上述当前时间段之前的一段时间。其中,该第二数据包可以指第一网络设备在历史时间段内所发送的数据包。可以理解的是,若是该第一网络设备还未发送数据包,可以根据该第一网络设备的业务预测得到该第二数据包。应当理解,上述该第二数据包中可以包括多个子数据包,且该第二数据包中的多个子数据包中的多数子数据包被发送的状态为正常状态。进一步地,该服务器2000可以根据该目标数据包的大小与该第二数据包的大小确定该目标数据包与该历史数据包之间的偏移度。应当理解,该偏移度可以指根据该目标数据包的大小与该第二数据包的大小所确定的参数值。
进一步地,该服务器2000可以根据该偏移度确定该目标数据包被发送的状态。应当理解,该服务器2000可以根据上述偏移度确定该目标数据包被发送的状态为异常状态的异常检测值。其中,该异常检测值可以指该目标数据包被发送的状态为异常状态的异常程度。进一步地,若该服务器2000检测到该目标数据包的异常检测值大于异常检测阈值,则确定该目标数据包被发送的状态为异常状态,其中,该异常状态可以用于指示该目标数据包被发送的状态的异常程度达到需要处理的异常程度。应当理解,若是上述目标数据包与该历史数据包之间的偏移度大,则表明该目标数据包被发送的状态为异常状态的异常程度大;若是上述目标数据包与该历史数据包之间的偏移度小,则表明该目标数据包被发送的状态为异常状态的异常程度小。
为便于理解,进一步地,请参见图2,是本申请实施例提供的一种数据识别的场景示意图。如图2所示,该K个网络设备可以是图1所示的终端设备集群中的一部分,该第一网络设备可以为图1所示的终端设备集群中的任意一个终端设备(例如,终端设备3000c),该服务器可以为上述图1所示的服务器2000。
可以理解的是,该服务器可以获取K个网络设备在当前多个时间段内所发送数据包时所生成的原始日志信息。其中,一个网络设备对应一个原始日志信息,该K为大于1的正整数,该K个网络设备中可以包括该第一网络设备。应当理解,该原始日志信息中可以包括网络设备发送数据包的过程中所包含的关键字段以及无关字段。其中,该无关字段可以指与网络设备发送数据包的过程无关联的字段。比如,第一网络设备可以对应一个原始日志信息,该第一网络设备对应的原始日志信息中可以包括与该第一网络设备在当前多个时间段内所发送的数据包相关联的日志信息。
进一步地,该服务器可以根据网络设备发送数据包的过程中所包含的关键字段,对该K个网络设备的原始日志信息进行字段过滤,将字段过滤后的原始日志信息作为该K个网络设备的目标日志信息。应当理解,一个网络设备可以对应一个目标日志信息,且该K个网络设备的目标日志信息中可以包括该第一网络设备对应的目标日志信息。其中,该关键字段可以包括与当前多个时间段关联的字段。
进一步地,该服务器可以对该K个网络设备的目标日志信息中具有第一网络设备标识的目标日志信息进行聚类处理,得到该第二日志信息,该第一网络设备在该当前多个时间段内所发送的数据包为待选数据包。其中,该第二日志信息中可以包括第一网络设备在上述当前多个时间段内所发送的M个待选数据包,其中,上述M个待选数据包中的每个待选数据包与一个当前时间段对应,该M为大于或者等于1的正整数。应当理解,该服务器可以对该K个网络设备的目标日志信息中具有第一网络设备标识的目标日志信息进行聚类并合并,并将聚类并合并后的具有第一网络设备标识的目标日志信息作为第二日志信息。
进一步地,该服务器可以在获取该第一网络设备在当前多个时间段内所发送的M个待选数据包时所生成的第二日志信息之后,根据该当前多个时间段对该第二日志信息进行排序处理,得到该M个待选数据包对应的时间序列。应当理解,在本申请实施例中,该数据识别终端可以根据该关键字段中的当前多个时间段对该第二日志信息进行升序排序,得到该第一网络设备在当前多个时间段内所发送的M个待选数据包对应的时间序列。进一步地,该服务器可以根据该时间序列从该M个待选数据包中筛除异常待选数据包,作为该第一数据包。
进一步地,该服务器可以在获取到上述第一网络设备当前所发送的至少一个第一数据包和与该至少一个第一数据包相关联的第一日志信息。其中,该第一数据包中可以包括至少一个子数据包,该第一日志信息包括该第一数据包中的子数据包被发送时所生成的发送信息。进一步地,该服务器可以根据该第一日志信息中的该发送信息,从该至少一个第一数据包中筛选满足文件发送条件的第一数据包,作为目标数据包。
进一步地,该服务器可以获取该第一网络设备在历史时间段内所发送的第二数据包,该第二数据包被发送的状态为正常状态。应当理解,历史时间段可以指在上述当前时间段之前的一段时间。其中,该第二数据包可以指第一网络设备在历史时间段内所发送的数据包。应当理解,上述该第二数据包中可以包括多个子数据包,且该第二数据包中的多个子数据包中的多数子数据包被发送的状态为正常状态。进一步地,该服务器可以根据该目标数据包的大小与该第二数据包的大小确定该目标数据包与该历史数据包之间的偏移度。
进一步地,该服务器可以根据该偏移度确定该目标数据包被发送的状态。应当理解,该服务器可以根据上述偏移度确定该目标数据包被发送的状态为异常状态的异常检测值。进一步地,若该服务器检测到该目标数据包的异常检测值大于异常检测阈值,则确定该目标数据包被发送的状态为异常状态。应当理解,该异常状态可以用于指示该目标数据包被发送的状态的异常程度达到需要处理的异常程度。
由此可见,数据识别终端通过根据该第一日志信息中的该发送信息,从该至少一个第一数据包中筛选满足文件发送条件的第一数据包,此处满足文件发送条件的第一数据包可以指文件数据,即数据识别终端通过第一日志信息中的发送信息能够识别出第一网络设备所发送的文件数据;另外,数据识别终端可以通过分析目标数据包与历史数据包之间的偏移度,可自动地识别出目标数据包被发送的状态,不需要人工参与,可以提高识别文件数据异常外发的效率和准确率。
其中,上述数据识别终端对网络设备进行数据外发异常检测的具体实现方式可以参见下述图3-图12所对应的实施例。
进一步地,请参见图3,是本申请实施例提供的一种数据识别方法的流程示意图。如图3所示,该方法可以包括:
S101,获取第一网络设备当前所发送的至少一个第一数据包和与该至少一个第一数据包相关联的第一日志信息。
具体地,数据识别终端可以获取K个网络设备在该当前多个时间段内所发送数据包时所生成的原始日志信息。其中,一个网络设备对应一个原始日志信息,该K为大于1的正整数,该K个网络设备包括该第一网络设备。应当理解,上述K个网络设备的原始日志信息中可以包括该第一网络设备的原始日志信息。其中,该网络设备可以包括但不限于终端设备或者服务器。
为便于理解,请参见图4,是本申请实施例提供的一种原始日志信息的示意图。如图4所示,该原始日志信息40中可以包括K个网络设备(比如,网络设备1,网络设备2,...,网络设备K)在当前多个时间段内的原始日志信息(比如,原始日志信息1,原始日志信息2,...,原始日志信息G),其中,4a可以指网络设备1在当前多个时间段内内的原始日志信息1,且原始日志信息1可以包括关键字段1和无关字段1,4b可以指网络设备2在当前多个时间段内内的原始日志信息2,且原始日志信息2可以包括关键字段2和无关字段2,4c可以指网络设备K在当前多个时间段内内的原始日志信息K,且原始日志信息K可以包括关键字段K和无关字段K。应当理解,原始日志信息40中的关键字段(比如,关键字段1,关键字段2,...,关键字段K)可以包括与网络设备的数据包外发过程相关联的字段。比如,原始日志信息40中的关键字段可以包含与网络设备对应的原地址、网络设备发送至服务器对应的目标地址、发送数据包的时间以及网络设备发送到服务器的数据包的大小相关联的字段,其中,网络设备发送到服务器的数据包的大小可以是字节数。其中,原地址可以指网络设备对应的数字标签。应当理解,上述原地址可以是IP地址。比如,原地址可以指企业内网IP地址。其中,目标地址可以指网络设备将数据发送到服务器对应的数字标签,其中,上述服务器可以包括关系型数据库管理系统(mysql)服务器、类分时操作系统(linux)服务器,等等。应当理解,目标地址可以是IP地址,比如,目标地址可以指外网IP地址(比如,接收第一网络设备所发送的数据包的服务器对应的目标IP)。应当理解,该原始日志信息40中的无关字段可以指与网络设备的数据外发过程无关联的字段。其中,上述无关字段可以包括无关字段1,无关字段2,...,无关字段K,等等。应当理解,上述K个网络设备中可以包括上述第一网络设备。
进一步地,上述数据识别终端可以根据网络设备发送数据包的过程中所包含的关键字段,对该K个网络设备的原始日志信息进行字段过滤,将字段过滤后的原始日志信息作为该K个网络设备的目标日志信息。应当理解,一个网络设备对应一个目标日志信息,其中,上述K个网络设备的目标日志信息中包含第一网络设备对应的目标日志信息。
为便于理解,请参见图5,是本申请实施例提供的一种目标日志信息的示意图。如图5所示,目标日志信息50可以是数据识别终端对原始日志信息(比如,上述图4中的原始日志信息40)进行关键字段过滤处理后得到的,且该目标日志信息50中可以包括K个网络设备(网络设备1,网络设备2,...,网络设备K)的目标日志信息(比如,目标日志信息1,目标日志信息2,...,目标日志信息K)。其中,5a可以指网络设备1的目标日志信息1,且该目标日志信息1可以包括关键字段1,5b可以指网络设备2的目标日志信息2,且该目标日志信息2可以包括关键字段2,5c可以指网络设备K的目标日志信息K,且该目标日志信息K可以包括关键字段K。应当理解,目标日志信息50中的关键字段(比如,关键字段1,关键字段2,...,关键字段K)可以包括:与网络设备对应的原地址、网络设备发送至服务器对应的目标地址、发送数据包的时间以及网络设备发送到服务器的数据包的大小相关联的字段。可以理解的是,数据识别终端将原始日志信息中的无关字段过滤之后,可以得到该目标日志信息50。比如,该第一网络设备的目标日志信息可以是K个网络设备的目标日志信息(比如,目标日志信息1,目标日志信息2,...,目标日志信息K)中的任意一个网络设备对应的目标日志信息。
进一步地,每个网络设备(比如,第一网络设备)的目标日志信息中可以包括第一协议日志信息和第二协议日志信息。应当理解,若上述关键字段中包括第一协议字段和第二协议字段,该数据识别终端可以基于第一协议字段从该K个网络设备的目标日志信息中获取第一协议日志信息,并基于第二协议字段从该K个网络设备的目标日志信息中获取第二协议日志信息,根据上述第一协议日志信息和上述第二协议日志信息,得到上述K个网络设备的目标日志信息。应当理解,上述第一协议字段对应的第一传输协议可以是传输控制协议(Trans mission Control Protocol,TCP),上述第二协议字段对应的第二传输协议可以是用户数据报协议(User Datagram Protocol,UDP)。其中,TCP协议可以包括超文本传输(HyperText Transfer Protocol,HTTP)协议、安全传输层(Transport Layer SecurityProtocol,TLS)协议,等等。应当理解,上述K个网络设备的目标日志信息中包含HTTP协议或者TLS协议的字段的目标日志信息可以是第一协议日志信息。其中,UDP协议可以包括域名系统(Domain Name System,DNS)协议。应当理解,上述K个网络设备的目标日志信息中包含DNS协议的字段的目标日志信息可以是第二协议日志信息。
为便于理解,请参见图6,是本申请实施例提供的一种目标日志信息的示意图。如图6所示,60可以指上述K个网络设备的目标日志信息,且60对应的目标日志信息中可以包括第一协议日志信息(即如6A所示)和第二协议日志信息(即如6B所示)。应当理解,6A可以指上述K个网络设备的第一协议日志信息,6A对应的第一协议日志信息可以包括K个网络设备(网络设备1,网络设备2,...,网络设备K)的第一协议日志信息(比如,第一协议日志信息1,第一协议日志信息2,...,第一协议日志信息K)。可以理解的是,6A对应的第一协议日志信息中可以包括关键字段(比如,关键字段1,关键字段2,...,关键字段K),且该关键字段中包括与上述第一协议相关联的第一协议字段(比如,协议字段1-1,协议字段1-2,...,协议字段1-K)。其中,6a可以指网络设备1的第一协议日志信息1,其中,第一协议日志信息1可以包括关键字段1,且该关键字段1中包括与第一传输协议相关联的协议字段1-1。其中,6b可以指网络设备2的第一协议日志信息2,其中,该第一协议日志信息2可以包括关键字段2,且该关键字段2中包括与第一传输协议相关联的协议字段1-2。其中,6c可以指网络设备K的第一协议日志信息K,其中,该第一协议日志信息K可以包括关键字段K,且该关键字段K中包括与第一传输协议相关联的协议字段1-K。应当理解,6B可以指上述K个网络设备的第二协议日志信息,6B对应的第二协议日志信息可以包括K个网络设备(网络设备1,网络设备2,...,网络设备K)的第二协议日志信息(比如,第二协议日志信息1,第二协议日志信息2,...,第二协议日志信息K)。可以理解的是,6B对应的第二协议日志信息中可以包括关键字段(比如,关键字段1,关键字段2,...,关键字段K),且该关键字段中包括与上述第一传输协议相关联的第一协议字段(比如,协议字段2-1,协议字段2-2,...,协议字段2-K)。其中,6d可以指网络设备1的第二协议日志信息1,其中,第二协议日志信息1可以包括关键字段1,且该关键字段1中包括与第二传输协议相关联的协议字段2-1。其中,6e可以指网络设备2的第二协议日志信息2,其中,该第二协议日志信息2可以包括关键字段2,且该关键字段2中包括与第二传输协议相关联的协议字段2-2。其中,6f可以指网络设备K的第二协议日志信息K,其中,该第二协议日志信息K可以包括关键字段K,且该关键字段K中包括与第二传输协议相关联的协议字段2-K。
进一步地,上述数据识别终端可以对该K个网络设备的目标日志信息中具有第一网络设备标识的目标日志信息进行聚类处理,得到该第二日志信息,该第一网络设备在该当前多个时间段内所发送的数据包为待选数据包。可以理解的是,该第二日志信息中可以包括第一网络设备在上述当前多个时间段内所发送的M个待选数据包,其中,上述M个待选数据包中的每个待选数据包与一个当前时间段对应,该M为大于或者等于1的正整数。应当理解,在本申请实施例中,该待选数据包可以指第一网络设备在该当前多个时间段内所发送的待筛选的数据包。可以理解的是,上述待选数据包中可以包括第一协议待选数据包和第二协议待选数据包,其中,第一协议待选数据包与上述第一传输协议对应,第二协议待选数据包和上述第二传输协议对应。其中,该第一网络设备标识可以指第一网络设备对应的IP地址,比如,该第一网络设备标识可以指第一网络设备对应的内网IP地址。
进一步地,上述数据识别终端可以获取该第一网络设备在当前多个时间段内所发送的M个待选数据包时所生成的第二日志信息。其中,该当前多个时间段均位于该历史时间段后,每个待选数据包与一个当前时间段对应,该M为大于或者等于1的正整数。进一步地,上述数据识别终端可以根据该当前多个时间段对该第二日志信息进行排序处理,得到该M个待选数据包对应的时间序列。应当理解,在本申请实施例中,该数据识别终端可以根据该关键字段中的当前多个时间段对该第二日志信息进行升序排序,得到该第一网络设备在当前多个时间段内所发送的M个待选数据包对应的时间序列。其中,该时间序列中可以包括上述当前多个时间段以及上述当前多个时间段对应的M个待选数据包的大小。具体地,上述M个待选数据包对应的时间序列具体可以如下述表1所示:
表1
当前多个时间段 M个待选数据包的大小
t1~t2 xxxxxx
t2~t3 xxxx
t3~t4 0
t4~t5 xxxxxxxxxx
可以理解的是,如上述表1所示,上述当前多个时间段(比如,t1~t2,t2~t3,t3~t4,t4~t5)和上述当前多个时间段对应的M个待选数据包的大小可以构成上述M个待选数据包对应的时间序列。其中,若是第一网络设备在上述时间段t3~t4内并没有向外网服务器发送数据包,则上述时间段t3~t4对应的数据包的大小为0。比如,上述t1~t2、t2~t3、t3~t4、t4~t5对应的时间可以是1分钟,即上述数据识别终端可以以1分钟为粒度周期,得到上述M个待选数据包的大小,其中,每个待选数据包的大小可以指对该第一网络设备在1分钟内向外网服务器发送数据包的大小应用统计算子进行统计处理所确定的。
进一步地,上述数据识别终端可以根据该时间序列从该M个待选数据包中筛除异常待选数据包,作为该第一数据包。具体地,上述数据识别终端可以将该时间序列分解为携带周期时间序列、趋势时间序列以及残差时间序列的待处理时间序列,并将去除该周期时间序列和该趋势时间序列的待处理时间序列,确定为该残差时间序列。其中,该待处理时间序列可以指未去除该周期时间序列和该趋势时间序列的分解之后的上述时间序列。其中,上述时间序列可以包括上述当前多个时间段以及上述当前多个时间段对应的M个待选数据包的大小。比如,上述时间序列可以是指该第一网络设备在历史Z周内的时间序列。应当理解,该数据识别终端可以通过时间序列分解(Seasonal-Trend decomposition procedurebased on Loess,STL)算法对上述时间序列进行分解,可以得到为携带周期时间序列、趋势时间序列以及残差时间序列的待处理时间序列。进一步地,该数据识别终端可以将去除该周期时间序列和该趋势时间序列的待处理时间序列,确定为该残差时间序列。应当理解,该数据识别终端可以将时间序列中的周期时间序列和该趋势时间序列过滤掉,得到代表随机噪声和真正的异常数据的残差时间序列,提高了识别数据异常外发的效率和准确率。其中,该数据识别终端根据STL算法确定该残差时间序列的表达式如下述公式(1)所示:
RX=X-SX-T, (1)
其中,X可以指上述时间序列,SX可以指周期时间序列,T可以指趋势时间序列,且该趋势时间序列可以是该残差时间序列的中值,RX可以指残差时间序列。
可以理解的是,该数据识别终端可以从该残差时间序列中获取测试分量Ri,将该测试分量Ri的数据状态配置为待确定状态。其中,i为大于0且小于或者等于n的正整数,n为该残差时间序列中的所有测试分量的数量。其中,该测试分量Ri为该残差时间序列中的第i个数据包的大小,且该第i个数据包的大小对应的第i个当前时间段。应当理解,该数据识别终端可以采用异常检测算法对该残差时间序列进行异常检测。其中,在本申请实施例中,该数据识别终端采用高极端学习偏差试验(Extreme Studentized Deviate test,ESD)算法对该残差时间序列进行异常检测。其中,该ESD算法为对格鲁布斯试验(Grubbs'Test)算法进行优化后的算法,该Grubbs'Test算法可以检测出该残差时间序列中的一个具有异常状态的测试分量,该ESD算法可以检测出该残差时间序列中的D个具有异常状态的测试分量。其中,上述D为大于或者等于1且小于或者等于0.002n的正整数,且上述D为下述的迭代阈值。应当理解,该数据识别终端从上述残差时间序列中获取测试分量Ri,将该测试分量Ri的数据状态配置为待确定状态。可以理解的是,上述待确定状态可以指异常状态或者正常状态,若该待确定状态指异常状态,则指示该残差时间序列中有一个具有异常状态的测试分量;若该待确定状态指正常状态,则指示该残差时间序列中没有具有异常状态的测试分量。
进一步地,该数据识别终端可以获取与该测试分量Ri相关联的第一度量参数,并获取与该测试分量Ri相关联的第二度量参数。其中,该第一度量参数是由该测试分量Ri和该测试分量Ri相关联的均值和方差所确定的。其中,该第二度量参数是由该测试数量n、迭代次数和该测试分量Ri的辅助查表参数所确定的。其中,在本申请实施例中根据该测试分量Ri和该测试分量Ri相关联的均值和方差所确定的参数为第一度量参数。应当理解,该数据识别终端可以根据该测试分量Ri和该测试分量Ri对应的测试数量n,确定与该测试分量Ri相关联的均值和方差。进一步地,该数据识别终端可以获取该均值和该测试分量Ri之间的差值的绝对值,从该差值的绝对值中获取最大差值,将该最大差值与该方差之间的比值作为第一度量参数。其中,该数据识别终端根据该ESD算法确定第一度量参数的公式可以如下述公式(2)所示:
Figure BDA0002378701530000171
其中,Ri可以指第i个测试分量,
Figure BDA0002378701530000172
可以指与第i个测试分量相关联的均值,s可以指与第i个测试分量相关联的方差,Ci可以指与第i个测试分量相关联的第i个第一度量参数。
进一步地,该数据识别终端可以将该i的取值作为用于进行迭代计算的迭代次数,根据该测试数量n、迭代次数和该测试分量Ri的辅助查表参数,确定该测试分量Ri的第二度量参数。其中,该迭代次数可以指根据ESD算法进行迭代计算的次数。其中,该辅助查表参数可以是根据测试数量n和迭代次数在t分布临界值表中进行查表得到的测试分量Ri对应的t分布临界值。其中,在本申请实施例中根据测试数量n、迭代次数和该测试分量Ri的辅助查表参数确定的参数为第二度量参数。可以理解的是,在本申请实施例中的第二度量参数可以指测试分量Ri的数据状态为正常状态时的最大临界值。其中,该数据识别终端根据该ESD算法确定第二度量参数的公式可以如下述公式(3)所示:
Figure BDA0002378701530000181
其中,n可以指测试数量,i可以指迭代次数,tp,n-i-1可以指显著度为p,自由度为n-i+1的t分布临界值,λi可以指上述测试分量Ri对应的第二度量参数,其中,在本申请实施例中的显著度(即p)可以为0.02,这里将不对p的具体取值进行限定。
进一步地,该数据识别终端可以在第一度量参数大于该第二度量参数时,则将该测试分量Ri的数据状态由该待确定状态调整为异常状态,从该残差时间序列中去除具有异常状态的测试分量Ri,将去除测试分量Ri后的残差时间序列确定为过渡时间序列,根据该过渡时间序列中的测试分量Rj进行迭代计算,直到该迭代次数达到迭代阈值时,得到该M个待选数据包对应的时间序列中的L个具有异常状态的测试分量。其中,该j为大于i且小于或者等于n的正整数,该L为小于或者等于该迭代阈值的正整数,一个具有异常状态的测试分量对应一个异常待选数据包。其中,该过渡时间序列可以指去除具有异常状态的测试分量Ri之后的残差时间序列。其中,该迭代阈值可以指该数据识别终端根据ESD算法检测出具有异常状态的测试分量Ri的个数的最大值。应当理解,若第一度量参数大于该第二度量参数时,则数据识别终端可以将测试分量Ri的数据状态由该待确定状态调整为异常状态,表明了该测试分量Ri的数据状态为异常状态,此时,可以将具有异常状态的测试分量Ri从该残差时间序列中去除,得到过渡时间序列。进一步地,数据识别终端可以根据该过渡时间序列中的测试分量Rj进行迭代计算,直到该迭代次数达到迭代阈值时,得到该M个待选数据包对应的时间序列中的L个具有异常状态的测试分量。其中,数据识别终端可以根据上述每个异常状态的测试分量确定每个异常状态的测试分量对应的当前时间段,则每个具有异常状态的测试分量可以用于指示该第一网络设备在上述当前时间段上所发送的待选数据包的状态为异常状态。应当理解,若第一度量参数小于或者等于该第二度量参数时,则数据识别终端可以将测试分量Ri的数据状态由该待确定状态调整为正常状态,表明了该测试分量Ri的数据状态为正常状态,此时,可以确定该第一网络设备为正常网络设备。
为便于理解,请参见图7,是本申请实施例提供的一种过渡时间序列的示意图。如图7所示,7a可以指与上述M个待选数据包相关联的残差时间序列,且该残差时间序列中可以包括n个测试分量(比如,测试分量R1,测试分量R2,测试分量R3,…,测试分量Rn)。可以理解的是,数据识别终端可以对该残差时间序列中的测试分量Ri(比如,测试分量R1)进行异常检测,确定该测试分量R1为异常状态的测试分量,并去除上述残差时间序列中具有异常状态的测试分量R1,得到如7b所示的过渡时间序列。进一步地,上述7b所示的过渡时间序列中可以包括n-1个测试分量(比如,测试分量R2,测试分量R3,…,测试分量Rn),此时,数据识别终端可以据需对上述过渡时间序列中的测试分量R2进行迭代计算,直到该迭代次数达到迭代阈值时,得到该M个待选数据包对应的时间序列中的L个具有异常状态的测试分量。
为便于理解,请参见图8,是本申请实施例提供的一种具有异常状态的测试分量的时间序列的示意图。如图8所示,80可以指网络设备(比如,第一网络设备)在当前多个时间段(比如,t1~t2,t2~t3,t3~t4,t4~t5,t5~t6,t6~t7,t7~t8)内的时间序列,上述如80所示的时间序列图的横轴为时间,纵轴为上述待选数据包的大小,且该第一时间序列中上述待选数据包的大小的范围为[N1,N6]。应当理解,上述如80所示的时间序列图的横轴上各个区间(比如,[t1,t2],[t2,t3],等等)的区间长度可以相同,且上述如80所示的时间序列图中的8A、8B以及8C均为具有异常状态的测试分量。应当理解,数据识别终端根据上述STL算法和ESD算法,从上述时间序列中检测出3个具有异常状态的测试分量且上述时间序列中的3个具有异常状态的测试分量可以包括测试分量8A、测试分量8B以及测试分量8C。其中,该测试分量8A、该测试分量8B以及该测试分量8C均在t7~t8时间段内,且该t7~t8时间段可以是最近一小时。应当理解,该最近一小时可以指对网络设备(比如,第一网络设备)所发送的数据包进行异常检测之前的一个小时,比如,数据识别终端每个小时对网络设备所发送的数据包进行一次异常检测,若异常检测时间为8:00时,则最近一小时是指7:00~8:00这一个小时。在本申请实施例中,数据识别终端主要针对网络设备在最近一小时内的所发送的数据包进行异常检测。可以理解的是,上述如80所示的时间序列图对应的时序分解图可以如8a、8b以及8c所示。其中,8a可以指网络设备(比如,第一网络设备)在该当前多个时间段内的周期时间序列对应的时序图。其中,8b可以指网络设备(比如,第一网络设备)在该当前多个时间段内的趋势时间序列对应的时序图。其中,8c可以指网络设备(比如,第一网络设备)在该当前多个时间段内的残差时间序列对应的时序图。应当理解,上述如80所示的时间序列图可以是数据识别终端针对残差时间序列(比如,如8c所示)而确定的。
进一步地,上述数据识别终端可以将L个具有异常状态的测试分量对应的异常待选数据包确定为该第一数据包。可以理解的是,上述L个具有异常状态的测试分量对应的异常待选数据包可以对应有L个第一数据包。
进一步地,数据识别终端可以获取第一网络设备当前所发送的至少一个第一数据包和与该至少一个第一数据包相关联的第一日志信息。其中,该第一数据包包括至少一个子数据包,该第一日志信息包括该第一数据包中的子数据包被发送时所生成的发送信息。
S102,根据该第一日志信息中的该发送信息,从该至少一个第一数据包中筛选满足文件发送条件的第一数据包,作为目标数据包。
具体地,在本申请实施例中,上述第一数据包可以包括基于上述第一传输协议所发送的第一数据包和基于上述第二传输协议所发送的第一数据包。可以理解的是,上述数据识别终端可以根据该第一日志信息中的该发送信息从基于该第一传输协议所发送的第一数据包中筛选满足文件发送条件的第一数据包,作为第一待选目标数据包。进一步地,该数据识别终端可以根据该第一日志信息中的该发送信息从基于该第二传输协议所发送的第一数据包中筛选满足文件发送条件的第一数据包,作为待选目标数据包。
进一步地,该数据识别终端可以对该第一待选目标数据包和该第二待选目标数据包进行合并处理,得到该目标数据包。可以理解的是,该数据识别终端可以获取与该第一待选目标数据包对应的第一时间段以及与该第二待选目标数据包对应的第二时间段,其中,该第一时间段和第二时间段可以相同,或者,该第一时间段和第二时间段可以不同。可以理解的是,该数据识别终端可以根据上述第一时间段和第二时间段,对上述第一待选目标数据包和该第二待选目标数据包进行合并处理,得到该目标数据包。可以理解的是,对上述第一待选目标数据包和该第二待选目标数据包进行合并处理的方式可以入下述表2~表4所示:
其中,如表2所示,表2可以是第一待选目标数据包对应的表格,且该第一待选目标数据包对应的表格中包含第一时间段以及第一时间段对应的第一待选数据包大小。
表2
第一时间段 第一待选目标数据包的大小
t1~t2 Y1
t3~t4 Y2
t7~t8 Y3
表3
第二时间段 第二待选目标数据包的大小
t1~t2 Y4
t2~t3 Y5
t7~t8 Y6
其中,如表3所示,表3可以是第二待选目标数据包对应的表格,且该第二待选目标数据包对应的表格中包含第二时间段以及第二时间段对应的第二待选数据包大小。
表4
第三时间段 目标数据包的大小
t1~t2 Y1+Y4
t2~t3 Y5
t3~t4 Y2
t7~t8 Y3+Y6
其中,如表4所示,表4可以是该目标数据包对应的表格,且上述该目标数据包对应的表格是对上述表2对应的第一待选目标数据包和上述表3对应的该第二待选目标数据包进行合并处理后所得到的。可以理解的是,若是第一时间段中的时间段与第二时间段中的时间段相同,则对第一时间段与第二时间段中相同的时间段的第一待选目标数据包的大小和第二待选目标数据包的大小进行累加,作为第三时间段对应的目标数据包的大小。
可以理解的是,若上述该发送信息包括该第一数据包的各个子数据包分别被发送的目标时间,则该数据识别终端可以从该第一数据包所包括的子数据包中筛选该目标时间之间的时间间隔小于时间阈值的子数据包,作为目标子数据包。应当理解,该时间阈值可以指文件发送条件中关于对子数据包之间的时间间隔而确定的参数。比如,该时间阈值可以是5S。进一步地,若该目标子数据包的大小大于第一阈值,则该数据识别终端可以确定该目标子数据包所对应的第一数据包满足文件发送条件,将该目标子数据包所对应的第一数据包作为该目标数据包。应当理解,该第一阈值可以指上述文件发送条件中关于数据包的大小而确定的参数。比如,该第一阈值可以是1MB。
为便于理解,请参见图9,是本申请实施例提供的一种文件发送条件的示意图。如图9所示,90可以指文件发送条件对应的示意图,9a可以指上述第一数据包中的子数据包1,且该子数据包1的大小为Y1,9a可以指上述第一数据包中的子数据包2,且该子数据包2的大小为Y2,9a可以指上述第一数据包中的子数据包3,且该子数据包3的大小为Y3,9a可以指上述第一数据包中的子数据包4,且该子数据包4的大小为Y4。其中,该子数据包1和子数据包2之间的间断时间为t1,该子数据包2和子数据包3之间的间断时间为t2,该子数据包3和子数据包4之间的间断时间为t3。应当理解,若是t1、t2以及t3均小于时间阈值(比如,5s),则该数据识别终端可以将上述子数据包1、子数据包2、子数据包3以及子数据包4确定为目标子数据包,可以得到该目标子数据包的大小为(Y1+Y2+Y3+Y4),若上述目标子数据包的大小(Y1+Y2+Y3+Y4)大于第一阈值(比如,1MB),则确定该目标子数据包所对应的第一数据包满足文件发送条件,将该目标子数据包所对应的第一数据包作为该目标数据包。其中,该目标数据包可以指一个目标文件数据。可选的,若是t1和t2小于上述时间阈值,且t3大于或者等于时间阈值,则该数据识别终端可以将上述子数据包1、子数据包2、以及子数据包3确定为目标子数据包,可以得到该目标子数据包的大小为(Y1+Y2+Y3)。进一步地,若上述目标子数据包的大小(Y1+Y2+Y3)小于第一阈值,此时,该数据识别终端可以对该目标子数据包的大小为(Y1+Y2+Y3)进行清零并重新统计该目标子数据包的大小为Y4,若该目标子数据包的大小Y4小于第一阈值,则确定该目标子数据包所对应的第一数据包不满足文件发送条件,则不将该目标子数据包所对应的第一数据包作为该目标数据包。可以理解的是,若该目标子数据包的大小Y4大于第一阈值,则确定该目标子数据包所对应的第一数据包满足文件发送条件,则将该目标子数据包所对应的第一数据包作为该目标数据包。
S103,获取该第一网络设备在历史时间段内所发送的第二数据包,该第二数据包被发送的状态为正常状态。
具体地,数据识别终端可以获取该第一网络设备在历史时间段内所发送的第二数据包,该第二数据包被发送的状态为正常状态。应当理解,上述该第二数据包中可以包括多个子数据包,且该第二数据包中的多个子数据包中的多数子数据包被发送的状态为正常状态。可以理解的是,上述第二数据包中的多个子数据包中的少数子数据包被发送的状态为异常状态。比如,该历史时间段可以是历史2周。
S104,根据该目标数据包的大小与该第二数据包的大小确定该目标数据包与该历史数据包之间的偏移度。
具体地,该数据识别终端可以根据该第二数据包的大小和该历史时间段,确定该第二数据包的大小在该历史时间段内的均值。进一步地,该数据识别终端可以获取该目标数据包的大小与该第二数据包的大小在该历史时间段内的均值之间的目标比值。进一步地,该数据识别终端可以将该目标比值,确定为该偏移度。可以理解的是,该目标数据包的大小可以指目标数据包对应的目标数据字节数,该第二数据包的大小可以指第二数据包对应的第二数据字节数。
S105,根据该偏移度确定该目标数据包被发送的状态。
具体地,该数据识别终端可以根据该偏移度确定该目标数据包被发送的状态。应当理解,该数据识别终端可以根据上述偏移度确定该目标数据包被发送的状态为异常状态的异常检测值。其中,该异常检测值可以指该目标数据包被发送的状态为异常状态的异常程度。进一步地,若该数据识别终端检测到该目标数据包的异常检测值大于异常检测阈值,则确定该目标数据包被发送的状态为异常状态,其中,该异常状态可以用于指示该目标数据包被发送的状态的异常程度达到需要处理的异常程度。
由此可见,数据识别终端通过根据该第一日志信息中的该发送信息,从该至少一个第一数据包中筛选满足文件发送条件的第一数据包,此处满足文件发送条件的第一数据包可以指文件数据,即数据识别终端通过第一日志信息中的发送信息能够识别出第一网络设备所发送的文件数据;另外,数据识别终端可以通过分析目标数据包与历史数据包之间的偏移度,可自动地识别出目标数据包被发送的状态,不需要人工参与,可以提高识别文件数据异常外发的效率和准确率。
进一步地,请参见图10,是本申请实施例提供的一种数据识别方法的流程示意图。如图10所示,该方法可以包括:
S201,获取第一网络设备当前所发送的至少一个第一数据包和与该至少一个第一数据包相关联的第一日志信息。
具体地,数据识别终端可以获取K个网络设备在该当前多个时间段内所发送数据包时所生成的原始日志信息。其中,一个网络设备对应一个原始日志信息,该K为大于1的正整数,该K个网络设备包括该第一网络设备。应当理解,上述K个网络设备的原始日志信息中可以包括该第一网络设备的原始日志信息。
S202,根据该第一日志信息中的该发送信息,从该至少一个第一数据包中筛选满足文件发送条件的第一数据包,作为目标数据包。
具体地,若上述该发送信息包括该第一数据包的各个子数据包分别被发送的目标时间,则该数据识别终端可以从该第一数据包所包括的子数据包中筛选该目标时间之间的时间间隔小于时间阈值的子数据包,作为目标子数据包。进一步地,若该目标子数据包的大小大于第一阈值,则该数据识别终端可以确定该目标子数据包所对应的第一数据包满足文件发送条件,将该目标子数据包所对应的第一数据包作为该目标数据包。
S203,获取该第一网络设备在历史时间段内所发送的第二数据包,该第二数据包被发送的状态为正常状态。
具体地,数据识别终端可以获取该第一网络设备在历史时间段内所发送的第二数据包,该第二数据包被发送的状态为正常状态。应当理解,上述该第二数据包中可以包括多个子数据包,且该第二数据包中的多个子数据包中的多数子数据包被发送的状态为正常状态。可以理解的是,上述第二数据包中的多个子数据包中的少数子数据包被发送的状态为异常状态。比如,该历史时间段可以是历史4周。
S204,根据该目标数据包的大小与该第二数据包的大小确定该目标数据包与该历史数据包之间的偏移度。
具体地,该数据识别终端可以根据该第二数据包的大小和该历史时间段,确定该第二数据包的大小在该历史时间段内的均值。进一步地,该数据识别终端可以获取该目标数据包的大小与该第二数据包的大小在该历史时间段内的均值之间的目标比值。进一步地,该数据识别终端可以将该目标比值,确定为该偏移度。
其中,该步骤S201-步骤S204的具体实施方式可参见上述图3所对应实施例中对步骤S101-步骤S104的描述,这里将不再赘述。
S205,获取该偏移度的第一权重值,以及该目标数据包的大小对应的第二权重值。
具体地,该数据识别终端可以获取该偏移度的第一权重值,以及该目标数据包的大小对应的第二权重值。其中,该第一权重值和第二权重值的和为1。比如,该第一权重值可以大于0且小于1,该第二权重值可以大于0且小于1。
S206,根据该第一权重值和该第二权重值对该偏移度和该目标数据包的大小进行加权求和,得到该目标数据包的异常检测度。
具体地,该数据识别终端可以根据该第一权重值和该第二权重值对该偏移度和该目标数据包的大小进行加权求和,得到该目标数据包的异常检测度。
S207,若该目标数据包的异常检测度大于异常检测度阈值,确定该目标数据包被发送的状态为异常状态。
具体地,若该目标数据包的异常检测度大于异常检测度阈值,则该数据识别终端可以确定该目标数据包被发送的状态为异常状态。应当理解,该异常状态可以用于指示该目标数据包被发送的状态的异常程度达到需要处理的异常程度。
进一步地,若上述至少一个第一数据包中存在Q个目标数据包,则该数据识别终端可以确定上述Q个目标数据包对应的偏移度,并获取上述Q个目标数据包对应的偏移度排序以及目标数据包的大小排序。可以理解的是,若是该第二数据包的大小为Y,则上述多个目标数据包对应的偏移度可以如下述表5所示:
其中,如表5所示,目标数据包1对应的偏移度为1,目标数据包2对应的偏移度为5,目标数据包3对应的偏移度为3,上述偏移度排序和目标数据包的大小排序均是按照升序排序。其中,该目标数据包1对应的偏移度排序为3,该目标数据包1的大小排序为3,该目标数据包2对应的偏移度排序为1,该目标数据包2的大小排序为1,该目标数据包3对应的偏移度排序为2,该目标数据包3的大小排序为2。
表5
Figure BDA0002378701530000261
进一步地,该数据识别终端可以根据上述第一权重值、该第二权重值、上述Q个目标数据包对应的偏移度排序以及目标数据包的大小排序,得到上述Q个目标数据包对应的Q个异常检测度。进一步地,该数据识别终端对该Q个异常检测度进行排序处理,从排序处理后的Q个异常检测度中获取V个异常检测度,将该V个异常检测度对应的目标数据包相关联的V个测试分量输出到终端屏幕。其中,上述V个异常检测度可以指异常程度高的异常事件。应当理解,该终端屏幕可以是该数据识别终端的屏幕,其中,该数据识别终端可以是具有安全运营中心(Security Operations Center,SOC)产品的服务器。应当理解,该数据识别终端可以采用topn算法从排序处理后的L个异常检测度中获取V个异常检测度,具体地,该数据识别终端可以对L个异常检测度进行降序处理,并从排序后的L个异常检测度中获取前V个异常检测度,并将前V个异常检测度对应对应的目标数据包相关联的测试分量输出到终端屏幕。可以理解的是,该数据识别终端可以对L个异常检测度进行升序处理,并从排序后的L个异常检测度中获取后V个异常检测度,并将后V个异常检测度对应的目标数据包相关联的V个测试分量输出到终端屏幕。其中,该终端屏幕可以指SOC产品页面。应当理解,该数据识别终端将该V个异常检测度对应的目标数据包相关联的测试分量输出到终端屏幕之后,可以触发告警事件。
为便于理解,请参见图11,是本申请实施例提供的一种触发告警事件的示意图。如图11所示,该数据识别终端触发告警事件之后,会在为安全运营中心的产品页面(即如110所示)上进行显示,此时选中11e(即告警与事件选项),选中11f(即事件列表)之后,显示上述事件列表的具体显示形式(即11g)。其中,11g中的类别为网络行为,上述11g中的子类别为数据外发,11h中的名称为异常数据外发检测,且11g中可以包括原地址(比如,该第一网络设备对应的原IP)和目标地址(比如,接收第一网络设备所发送的数据包的服务器对应的目标IP)。可以理解的是,11i可以是根据上述11g而确定的一种图形显示形式,11i可以指具有异常状态的测试分量的时间序列的示意图,11i中在T4~T5内存在4个具有异常状态的测试分量(比如,11a、11b、11c以及11d)。比如,T4~T5可以指上述最近一小时。应当理解,11h可以是根据上述11g和上述11i而确定的一种表格显示形式,该11h中可以包括上述在上述T4~T5内的4个具有异常状态的测试分量,其中,t1、t2、t3以及t4均在上述T4~T5内。应当理解,登录安全运营中心产品的运营人员可以在该安全运营中心产品页面中对告警事件进行查看,并对网络设备(比如,第一网络设备)的异常数据包外发行为进行处理。
进一步地,请参见图12,是本申请实施例提供的一种数据识别方法的流程示意图。如图12所示,该方法可以包括:
S301,TCP/UDP流量数据预处理。
具体地,上述TCP流量数据可以指网络设备通过TCP协议所传输的流量数据。其中,上述UDP流量数据可以指网络设备通过UDP协议所传输的流量数据。可以理解的是,TCP/UDP流量数据预处理可以指数据识别终端对TCP/UDP流量数据进行关键字段过滤和内到外的流量过滤,得到网络设备(比如,第一网络设备)的目标日志信息,其中,该目标日志信息中可以包括第一协议日志信息和第二协议日志信息,该第一协议日志信息与TCP协议对应,该第二协议日志信息与UDP对应。
S302,TCP特征提取。
具体地,该数据识别终端可以对上述目标日志信息中的第一协议日志信息进行特征提取,得到当前多个时间段以及上述当前多个时间段对应的M个第一待选数据包的大小。
S303,时间序列建模。
具体地,该数据识别终端可以根据当前多个时间段以及上述当前多个时间段对应的M个第一待选数据包的大小,得到M个第一待选数据包对应的第一时间序列。
S304,单维异常检测。
具体地,上述单位异常检测可以指对上述第一待选数据包的大小进行异常检测。可以理解的是,该数据识别终端可以通过STL算法和ESD算法对上述第一时间序列进行异常检测,得到上述第一时间序列中具有异常状态的第一协议数据包。
其中,该步骤S301-步骤S304的具体实施方式可参见上述图3所对应实施例中对步骤S101的描述,这里将不再赘述。
S305,文件策略过滤。
具体地,该数据识别终端可以从该至少一个第一协议数据包中筛选满足文件发送条件的第一协议数据包,作为第一目标数据包。其中,该第一目标数据包为第一目标文件数据。
其中,该步骤S305的具体实施方式可参见上述图3所对应实施例中对步骤S102的描述,这里将不再赘述。
S306,UDP特征提取。
具体地,该数据识别终端可以对上述目标日志信息中的第二协议日志信息进行特征提取,得到当前多个时间段以及上述当前多个时间段对应的M个第二待选数据包的大小。
S307,时间序列建模。
具体地,该数据识别终端可以根据当前多个时间段以及上述当前多个时间段对应的M个第二待选数据包的大小,得到M个第二待选数据包对应的第二时间序列。
S308,单维异常检测。
具体地,上述单位异常检测可以指对上述第二待选数据包的大小进行异常检测。可以理解的是,该数据识别终端可以通过STL算法和ESD算法对上述第二时间序列进行异常检测,得到上述第二时间序列中具有异常状态的第二协议数据包。
其中,该步骤S306-步骤S308的具体实施方式可参见上述图3所对应实施例中对步骤S101的描述,这里将不再赘述。
S309,文件策略过滤。
具体地,该数据识别终端可以从该至少一个第二协议数据包中筛选满足文件发送条件的第二协议数据包,作为第二目标数据包。其中,该第二目标数据包可以为第二目标文件数据。
其中,该步骤S309的具体实施方式可参见上述图3所对应实施例中对步骤S102的描述,这里将不再赘述。
可以理解的是,上述步骤S302-步骤S305与上述步骤S306-步骤S309之间的执行关系为并行执行关系。
S310,综合排序。
具体地,该综合排序可以指根据上述偏移度的大小和目标数据包的大小所确定的。其中,该目标数据包中可以是对上述第一目标数据包和上述第二目标数据包进行合并后得到的。
其中,该步骤S310的具体实施方式可参见上述图10所对应实施例中对步骤S207的描述,这里将不再赘述。
进一步地,请参见图13,是本申请实施例提供的一种SOC机器学习平台的示意图,且该SOC机器学习平台可以运行在该数据识别终端(比如,上述图2中的服务器)上,该机器学习平台可以对网络设备的数据外发行为进行异常检测。
如图13所示,该SOC机器学习平台可以包括数据接入预处理层、特征提取层、算法层、策略层以及归一化输出层。
可以理解的是,该SOC机器学习平台对网络设备(比如,第一网络设备)的数据外发行为进行异常检测时,可以通过数据接入预处理层进行预处理任务调度。应当理解,该SOC机器学习平台可以对获取K个网络设备在该当前多个时间段内所发送数据包时所生成的原始日志信息。进一步地,该SOC机器学习平台可以根据网络设备发送数据包的过程中所包含的关键字段,对该K个网络设备的原始日志信息进行字段过滤,将字段过滤后的原始日志信息作为该K个网络设备的目标日志信息。应当理解,若上述关键字段包括第一协议字段和第二协议字段,该SOC机器学习平台可以基于第一协议字段从该K个网络设备的目标日志信息中获取第一协议日志信息,并基于第二协议字段从该K个网络设备的目标日志信息中获取第二协议日志信息。进一步地,该SOC机器学习平台可以对上述第一协议日志信息和上述第二协议日志信息进行内到外流量过滤,并根据过滤后的第一协议日志信息和第二协议日志信息得到上述K个网络设备的目标日志信息。应当理解,该SOC机器学习平台可以根据内网标识对应的正则表达式对上述第一协议日志信息和上述第二协议日志信息进行内到外流量过滤。可以理解的是,与内网标识对应的正则表达式相匹配的网络设备标识(比如,第一网络设备标识)为内网标识,与内网标识对应的正则表达式不匹配的网络设备标识为外网标识。进一步地,该SOC机器学习平台可以将K个网络设备的目标日志信息输入该特征提取层。
进一步地,该SOC机器学习平台可以通过特征提取层进行特征提取任务调度。应当理解,该SOC机器学习平台可以对该K个网络设备的目标日志信息中具有第一网络设备标识(比如,src_ip内网地址)的目标日志信息进行聚类处理,得到该第二日志信息(比如,该第二日志信息可以包括在在F周内的TCP时间序列和UDP时间序列)。其中,该第二日志信息中可以包括用0补充缺省值的数据包,该第一网络设备在该当前多个时间段(比如,该时间段可以是1分钟为粒度的时间段)内所发送的数据包(比如,数据包的大小可以是字节数)为待选数据包,上述第二日志信息可以包括M个待选数据包。应当理解,一个网络设备标识(比如,第一网络设备标识)可以对应一个异常检测模型。
进一步地,该SOC机器学习平台可以将M个待选数据包(比如,最近一小时内的待选数据包)输入算法层,并根据该算法层进行算法任务调度。应当理解,SOC机器学习平台根据算法层中的多种异常检测算法(比如,STL算法、ESD算法,等等)对上述M个待选数据包进行建模,从M个待选数据包中筛除异常待选数据包,作为第一数据包(比如,第一数据包为最近一小时内的异常数据包)。
进一步地,该SOC机器学习平台可以通过策略层进行策略任务调度。应当理解,该SOC机器学习平台可以获取第一网络设备当前所发送的至少一个第一数据包和与该至少一个第一数据包相关联的第一日志信息。其中,该第一数据包包括至少一个子数据包,该第一日志信息包括该第一数据包中的子数据包被发送时所生成的发送信息。进一步地,该SOC机器学习平台可以根据该第一日志信息中的该发送信息,从该至少一个第一数据包中筛选满足文件发送条件(比如,静态策略)的第一数据包,作为目标数据包。进一步地,该SOC机器学习平台可以获取该第一网络设备在历史时间段内所发送的第二数据包,该第二数据包被发送的状态为正常状态。进一步地,该SOC机器学习平台可以根据该目标数据包的大小与该第二数据包的大小确定该目标数据包与该历史数据包之间的偏移度,并根据该偏移度确定该目标数据包被发送的状态。进一步地,若上述至少一个第一数据包中存在Q个目标数据包,则该SOC机器学习平台可以获取上述Q个目标数据包对应的Q个异常检测度。进一步地,该SOC机器学习平台可以对该Q个异常检测度进行排序处理,从排序处理后的Q个异常检测度中获取V个异常检测度,将该V个异常检测度对应的目标数据包相关联的V个测试分量输出到归一化输出层。
进一步地,该SOC机器学习平台可以通过归一化输出层进行归一化任务调度。应当理解,该SOC机器学习平台可以对V个测试分量(即任务管理数据)进行可视化数据处理和归一化处理,将V个测试分量映射成终端屏幕(即产品页面)进行展示所需要的数据格式。其中,V可以为大于或者等于1且小于或者等于迭代阈值的正整数。其中,终端屏幕(即产品页面)进行展示所需要的数据格式可以是event数据或者可视化数据。其中,举证数据拉取可以指该SOC机器学习平台获取到将V个测试分量。可以理解的是,SOC机器学习平台在获取到将V个测试分量之后,可以对V个测试分量进行可视化数据转换处理和归一化处理,从而得到包含V个测试分量的已处理异常数据,并将该已处理异常数据写入数据库,其中,该数据库可以包括mysql数据库、分布式流平台(kafka)对应的kafka数据库,或者搜索服务器(elasticsearch,es)对应的es数据库,等等。进一步地,该SOC机器学习平台可以将上述已处理异常数据输出至终端屏幕(即产品页面,比如,上述图11中的安全运营中心产品页面)。
进一步地,请参见图14,是本申请实施例提供的一种数据识别装置的结构示意图。该数据识别装置可以是运行于计算机设备中的一个计算机程序(包括程序代码);该数据识别装置可以用于执行本申请实施例提供的方法中的相应步骤。如图14所示,该数据识别装置14可以运行于上述图2中的服务器。其中,该数据识别装置14可以包括:第三获取模块141、排序模块142、筛除模块143、第一获取模块144、筛选模块145、第二获取模块146、第一确定模块147以及第二确定模块148。
该第一获取模块144,用于获取第一网络设备当前所发送的至少一个第一数据包和与该至少一个第一数据包相关联的第一日志信息,该第一数据包包括至少一个子数据包,该第一日志信息包括该第一数据包中的子数据包被发送时所生成的发送信息。
该筛选模块145,用于根据该第一日志信息中的该发送信息,从该至少一个第一数据包中筛选满足文件发送条件的第一数据包,作为目标数据包。
其中,该第一数据包包括基于第一传输协议所发送的第一数据包和基于第二传输协议所发送的第一数据包;
该筛选模块145包括:第一筛选单元1451、第二筛选单元1452以及合并单元1453。
该第一筛选单元1451,用于根据该第一日志信息中的该发送信息从基于该第一传输协议所发送的第一数据包中筛选满足文件发送条件的第一数据包,作为第一待选目标数据包;
该第二筛选单元1452,用于根据该第一日志信息中的该发送信息从基于该第二传输协议所发送的第一数据包中筛选满足文件发送条件的第一数据包,作为第二待选目标数据包;
该合并单元1453,用于对该第一待选目标数据包和该第二待选目标数据包进行合并处理,得到该目标数据包。
其中,该发送信息包括该第一数据包的各个子数据包分别被发送的目标时间;
该筛选模块145包括:第三筛选单元1454和第四确定单元1455。
该第三筛选单元1454,用于从该第一数据包所包括的子数据包中筛选该目标时间之间的时间间隔小于时间阈值的子数据包,作为目标子数据包;
该第四确定单元1455,用于若该目标子数据包的大小大于第一阈值,则确定该目标子数据包所对应的第一数据包满足文件发送条件,将该目标子数据包所对应的第一数据包作为该目标数据包。
其中,该第一筛选单元1451、该第二筛选单元1452、该合并单元1453、该第三筛选单元1454以及该第四确定单元1455的具体实现方式可以参见上述图3所对应实施例中对步骤S102的描述,这里将不再继续进行赘述。
该第二获取模块146,用于获取该第一网络设备在历史时间段内所发送的第二数据包,该第二数据包被发送的状态为正常状态。
该第一确定模块147,用于根据该目标数据包的大小与该第二数据包的大小确定该目标数据包与该历史数据包之间的偏移度。
其中,该第一确定模块147包括:第五确定单元1471、第三获取单元1472以及第六确定单元1473。
该第五确定单元1471,用于根据该第二数据包的大小和该历史时间段,确定该第二数据包的大小在该历史时间段内的均值;
该第三获取单元1472,用于获取该目标数据包的大小与该第二数据包的大小在该历史时间段内的均值之间的目标比值;
该第六确定单元1473,用于将该目标比值,确定为该偏移度。
其中,该第五确定单元1471、该第三获取单元1472以及该第六确定单元1473的具体实现方式可以参见上述图3所对应实施例中对步骤S104的描述,这里将不再继续进行赘述。
该第二确定模块148,用于根据该偏移度确定该目标数据包被发送的状态。
其中,该第二确定模块148包括:第四获取单元1481、加权求和单元1482以及第七确定单元1483。
该第四获取单元1481,用于获取该偏移度的第一权重值,以及该目标数据包的大小对应的第二权重值;
该加权求和单元1482,用于根据该第一权重值和该第二权重值对该偏移度和该目标数据包的大小进行加权求和,得到该目标数据包的异常检测度;
该第七确定单元1483,用于若该目标数据包的异常检测度大于异常检测度阈值,则确定该目标数据包被发送的状态为异常状态。
其中,该第四获取单元1481、该加权求和单元1482以及该第七确定单元1483的具体实现方式可以参见上述图10所对应实施例中对步骤S205-步骤207的描述,这里将不再继续进行赘述。
其中,上述数据识别装置14还包括:
第三获取模块141,用于获取该第一网络设备在当前多个时间段内所发送的M个待选数据包时所生成的第二日志信息。
其中,该第三获取模块141包括:第二获取单元1411、过滤单元1412以及聚类处理单元1413。
该第二获取单元1411,用于获取K个网络设备在该当前多个时间段内所发送数据包时所生成的原始日志信息,一个网络设备对应一个原始日志信息,该K为大于1的正整数,该K个网络设备包括该第一网络设备;
该过滤单元1412,用于根据网络设备发送数据包的过程中所包含的关键字段,对该K个网络设备的原始日志信息进行字段过滤,将字段过滤后的原始日志信息作为该K个网络设备的目标日志信息;
该聚类处理单元1413,用于对该K个网络设备的目标日志信息中具有第一网络设备标识的目标日志信息进行聚类处理,得到该第二日志信息,该第一网络设备在该当前多个时间段内所发送的数据包为待选数据包。
其中,该第二获取单元1411、该过滤单元1412以及该聚类处理单元1413的具体实现方式可以参见上述图3所对应实施例中对步骤S101的描述,这里将不再继续进行赘述。
该排序模块142,用于根据该当前多个时间段对该第二日志信息进行排序处理,得到该M个待选数据包对应的时间序列。
该筛除模块143,用于根据该时间序列从该M个待选数据包中筛除异常待选数据包,作为该第一数据包。
其中,该筛除模块143包括:第一确定单元1431、配置单元1432、第一获取单元1433、第二确定单元1434以及第三确定单元1435。
该第一确定单元1431,用于将该时间序列分解为携带周期时间序列、趋势时间序列以及残差时间序列的待处理时间序列,并将去除该周期时间序列和该趋势时间序列的待处理时间序列,确定为该残差时间序列;
该配置单元1432,用于从该残差时间序列中获取测试分量Ri,将该测试分量Ri的数据状态配置为待确定状态;i为大于0且小于或者等于n的正整数;n为该残差时间序列中的所有测试分量的数量;
该第一获取单元1433,用于获取与该测试分量Ri相关联的第一度量参数,并获取与该测试分量Ri相关联的第二度量参数;该第一度量参数是由该测试分量Ri和该测试分量Ri相关联的均值和方差所确定的;该第二度量参数是由该测试数量n、迭代次数和该测试分量Ri的辅助查表参数所确定的;
该第二确定单元1434,用于在第一度量参数大于该第二度量参数时,则将该测试分量Ri的数据状态由该待确定状态调整为异常状态,从该残差时间序列中去除具有异常状态的测试分量Ri,将去除测试分量Ri后的残差时间序列确定为过渡时间序列,根据该过渡时间序列中的测试分量Rj进行迭代计算,直到该迭代次数达到迭代阈值时,得到该M个待选数据包对应的时间序列中的L个具有异常状态的测试分量;该j为大于i且小于或者等于n的正整数;该L为小于或者等于该迭代阈值的正整数;一个具有异常状态的测试分量对应一个异常待选数据包;
该第三确定单元1435,用于将L个具有异常状态的测试分量对应的异常待选数据包确定为该第一数据包。
其中,该第一确定单元1431、该配置单元1432、该第一获取单元1433、该第二确定单元1434以及该第三确定单元1435的具体实现方式可以参见上述图3所对应的实施例中对步骤S101的描述,这里将不再继续进行赘述。
其中,该第三获取模块141、该排序模块142、该筛除模块143、该第一获取模块144、该筛选模块145、该第二获取模块146、该第一确定模块147以及该第二确定模块148的具体实现方式可以参见上述图3所对应的实施例中对步骤S101-步骤S105的描述和/或图10所对应的实施例中对步骤S201-步骤S207的描述,这里将不再继续进行赘述。另外,对采用相同方法的有益效果描述,也不再进行赘述。
进一步地,请参见图15,是本申请实施例提供的一种计算机设备的示意图。如图15所示,该计算机设备1500可以为上述图2对应实施例中的服务器,该计算机设备1500可以包括:至少一个处理器1501,例如CPU,至少一个网络接口1504,用户接口1503,存储器1505,至少一个通信总线1502。其中,通信总线1502用于实现这些组件之间的连接通信。其中,用户接口1503可以包括显示屏(Display)、键盘(Keyboard),网络接口1504可选地可以包括标准的有线接口、无线接口(如WI-FI接口)。存储器1505可以是高速RAM存储器,也可以是非不稳定的存储器(non-volatile memory),例如至少一个磁盘存储器。存储器1505可选地还可以是至少一个位于远离前述处理器1501的存储装置。如图15所示,作为一种计算机存储介质的存储器1505中可以包括操作系统、网络通信模块、用户接口模块以及设备控制应用程序。
在图15所示的计算机设备1500中,网络接口1504主要用于与用户终端进行网络通信;而用户接口1503主要用于为用户提供输入的接口;而处理器1501可以用于调用存储器1505中存储的设备控制应用程序,以实现:
获取第一网络设备当前所发送的至少一个第一数据包和与该至少一个第一数据包相关联的第一日志信息,该第一数据包包括至少一个子数据包,该第一日志信息包括该第一数据包中的子数据包被发送时所生成的发送信息;
根据该第一日志信息中的该发送信息,从该至少一个第一数据包中筛选满足文件发送条件的第一数据包,作为目标数据包;
获取该第一网络设备在历史时间段内所发送的第二数据包,该第二数据包被发送的状态为正常状态;
根据该目标数据包的大小与该第二数据包的大小确定该目标数据包与该历史数据包之间的偏移度;
根据该偏移度确定该目标数据包被发送的状态。
应当理解,本申请实施例中所描述的计算机设备1500可执行前文图3、图10以及图12所对应实施例中对该数据识别方法的描述,也可执行前文图14所对应实施例中对该数据识别装置14的描述,在此不再赘述。另外,对采用相同方法的有益效果描述,也不再进行赘述。
此外,这里需要指出的是:本申请实施例还提供了一种计算机可读存储介质,且该计算机可读存储介质中存储有前文提及的数据识别装置14所执行的计算机程序,且该计算机程序包括程序指令,当该处理器执行该程序指令时,能够执行前文图3或者图10或者图12所对应实施例中对该数据识别方法的描述,因此,这里将不再进行赘述。另外,对采用相同方法的有益效果描述,也不再进行赘述。对于本申请所涉及的计算机可读存储介质实施例中未披露的技术细节,请参照本申请方法实施例的描述。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,上述程序可存储于一计算机可读取存储介质中,该程序在执行时,可包括如上述各方法的实施例的流程。其中,上述存储介质可为磁碟、光盘、只读存储记忆体(Read-Only Memory,ROM)或随机存储记忆体(Random AccessMemory,RAM)等。
以上所揭露的仅为本申请较佳实施例而已,当然不能以此来限定本申请之权利范围,因此依本申请权利要求所作的等同变化,仍属本申请所涵盖的范围。

Claims (10)

1.一种数据识别方法,其特征在于,包括:
获取第一网络设备当前所发送的至少一个第一数据包和与所述至少一个第一数据包相关联的第一日志信息,所述第一数据包包括至少一个子数据包,所述第一日志信息包括所述第一数据包中的子数据包被发送时所生成的发送信息,其中,所述第一数据包为M个待选数据包中具有异常状态的待选数据包,所述M个待选数据包为所述第一网络设备在当前多个时间段内所发送的数据包;
根据所述第一日志信息中的所述发送信息,从所述至少一个第一数据包中筛选满足文件发送条件的第一数据包,作为目标数据包;
获取所述第一网络设备在历史时间段内所发送的第二数据包,所述第二数据包被发送的状态为正常状态;
根据所述目标数据包的大小与所述第二数据包的大小确定所述目标数据包与所述历史数据包之间的偏移度;
根据所述偏移度确定所述目标数据包被发送的状态。
2.根据权利要求1所述的方法,其特征在于,所述方法还包括:
获取所述第一网络设备在当前多个时间段内所发送的M个待选数据包时所生成的第二日志信息;
根据所述当前多个时间段对所述第二日志信息进行排序处理,得到所述M个待选数据包对应的时间序列;
将所述时间序列分解为携带周期时间序列、趋势时间序列以及残差时间序列的待处理时间序列,并将去除所述周期时间序列和所述趋势时间序列的待处理时间序列,确定为所述残差时间序列;
从所述残差时间序列中获取测试分量Ri,将所述测试分量Ri的数据状态配置为待确定状态;i为大于0且小于或者等于n的正整数;n为所述残差时间序列中的所有测试分量的数量;
获取与所述测试分量Ri相关联的第一度量参数,并获取与所述测试分量Ri相关联的第二度量参数;所述第一度量参数是由所述测试分量Ri和所述测试分量Ri相关联的均值和方差所确定的;所述第二度量参数是由所述测试数量n、迭代次数和所述测试分量Ri的辅助查表参数所确定的;
在第一度量参数大于所述第二度量参数时,则将所述测试分量Ri的数据状态由所述待确定状态调整为异常状态,从所述残差时间序列中去除具有异常状态的测试分量Ri,将去除测试分量Ri后的残差时间序列确定为过渡时间序列,根据所述过渡时间序列中的测试分量Rj进行迭代计算,直到所述迭代次数达到迭代阈值时,得到所述M个待选数据包对应的时间序列中的L个具有异常状态的测试分量;所述j为大于i且小于或者等于n的正整数;所述L为小于或者等于所述迭代阈值的正整数;一个具有异常状态的测试分量对应一个异常待选数据包;
将L个具有异常状态的测试分量对应的异常待选数据包确定为所述第一数据包。
3.根据权利要求2所述的方法,其特征在于,所述获取所述第一网络设备在当前多个时间段内所发送的M个待选数据包时所生成的第二日志信息,包括:
获取K个网络设备在所述当前多个时间段内所发送数据包时所生成的原始日志信息,一个网络设备对应一个原始日志信息,所述K为大于1的正整数,所述K个网络设备包括所述第一网络设备;
根据网络设备发送数据包的过程中所包含的关键字段,对所述K个网络设备的原始日志信息进行字段过滤,将字段过滤后的原始日志信息作为所述K个网络设备的目标日志信息;
对所述K个网络设备的目标日志信息中具有第一网络设备标识的目标日志信息进行聚类处理,得到所述第二日志信息,所述第一网络设备在所述当前多个时间段内所发送的数据包为待选数据包。
4.根据权利要求1所述的方法,其特征在于,所述第一数据包包括基于第一传输协议所发送的第一数据包和基于第二传输协议所发送的第一数据包;
所述根据所述第一日志信息中的所述发送信息从所述至少一个第一数据包筛选满足文件发送条件的第一数据包,作为目标数据包,包括:
根据所述第一日志信息中的所述发送信息从基于所述第一传输协议所发送的第一数据包中筛选满足文件发送条件的第一数据包,作为第一待选目标数据包;
根据所述第一日志信息中的所述发送信息从基于所述第二传输协议所发送的第一数据包中筛选满足文件发送条件的第一数据包,作为第二待选目标数据包;
对所述第一待选目标数据包和所述第二待选目标数据包进行合并处理,得到所述目标数据包。
5.根据权利要求1所述的方法,其特征在于,所述发送信息包括所述第一数据包的各个子数据包分别被发送的目标时间;
所述根据所述第一日志信息中所述第一数据包中的子数据包被发送所生成的发送信息,从所述至少一个第一数据包筛选满足文件发送条件的第一数据包,作为目标数据包,包括:
从所述第一数据包所包括的子数据包中筛选所述目标时间之间的时间间隔小于时间阈值的子数据包,作为目标子数据包;
若所述目标子数据包的大小大于第一阈值,则确定所述目标子数据包所对应的第一数据包满足文件发送条件,将所述目标子数据包所对应的第一数据包作为所述目标数据包。
6.根据权利要求1所述的方法,其特征在于,所述根据所述目标数据包的大小与所述第二数据包的大小确定所述目标数据包与所述历史数据包之间的偏移度,包括:
根据所述第二数据包的大小和所述历史时间段,确定所述第二数据包的大小在所述历史时间段内的均值;
获取所述目标数据包的大小与所述第二数据包的大小在所述历史时间段内的均值之间的目标比值;
将所述目标比值,确定为所述偏移度。
7.根据权利要求1所述的方法,其特征在于,所述根据所述偏移度确定所述目标数据包被发送的状态,包括:
获取所述偏移度的第一权重值,以及所述目标数据包的大小对应的第二权重值;
根据所述第一权重值和所述第二权重值对所述偏移度和所述目标数据包的大小进行加权求和,得到所述目标数据包的异常检测度;
若所述目标数据包的异常检测度大于异常检测度阈值,则确定所述目标数据包被发送的状态为异常状态。
8.一种数据识别装置,其特征在于,包括:
第一获取模块,用于获取第一网络设备当前所发送的至少一个第一数据包和与所述至少一个第一数据包相关联的第一日志信息,所述第一数据包包括至少一个子数据包,所述第一日志信息包括所述第一数据包中的子数据包被发送时所生成的发送信息,其中,所述第一数据包为M个待选数据包中具有异常状态的待选数据包,所述M个待选数据包为所述第一网络设备在当前多个时间段内所发送的数据包;
筛选模块,用于根据所述第一日志信息中的所述发送信息,从所述至少一个第一数据包中筛选满足文件发送条件的第一数据包,作为目标数据包;
第二获取模块,用于获取所述第一网络设备在历史时间段内所发送的第二数据包,所述第二数据包被发送的状态为正常状态;
第一确定模块,用于根据所述目标数据包的大小与所述第二数据包的大小确定所述目标数据包与所述历史数据包之间的偏移度;
第二确定模块,用于根据所述偏移度确定所述目标数据包被发送的状态。
9.一种计算机设备,其特征在于,包括:处理器、存储器、网络接口;
所述处理器与存储器、网络接口相连,其中,网络接口用于提供数据通信功能,所述存储器用于存储计算机程序,所述处理器用于调用所述计算机程序,以执行如权利要求1-7任一项所述的方法。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质存储有计算机程序,所述计算机程序包括程序指令,所述程序指令当被处理器执行时,执行如权利要求1-7任一项所述的方法。
CN202010076878.9A 2020-01-23 2020-01-23 数据识别方法、装置及存储介质 Active CN111343143B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010076878.9A CN111343143B (zh) 2020-01-23 2020-01-23 数据识别方法、装置及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010076878.9A CN111343143B (zh) 2020-01-23 2020-01-23 数据识别方法、装置及存储介质

Publications (2)

Publication Number Publication Date
CN111343143A CN111343143A (zh) 2020-06-26
CN111343143B true CN111343143B (zh) 2021-07-27

Family

ID=71183326

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010076878.9A Active CN111343143B (zh) 2020-01-23 2020-01-23 数据识别方法、装置及存储介质

Country Status (1)

Country Link
CN (1) CN111343143B (zh)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112051969B (zh) * 2020-08-07 2021-10-08 东北大学 一种基于深度强化学习的分级存储数据自适应迁移方法
CN112256428A (zh) * 2020-10-21 2021-01-22 赛尔网络有限公司 数据处理方法、装置、电子设备及存储介质

Family Cites Families (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110730143B (zh) * 2015-11-11 2020-12-04 大唐移动通信设备有限公司 一种分片数据包处理方法及装置
CN106909990A (zh) * 2017-03-01 2017-06-30 腾讯科技(深圳)有限公司 一种基于历史数据的预测方法及装置
CN109428857B (zh) * 2017-08-23 2021-01-05 腾讯科技(深圳)有限公司 一种恶意探测行为的检测方法和装置
CN108737447B (zh) * 2018-06-22 2020-07-17 腾讯科技(深圳)有限公司 用户数据报协议流量过滤方法、装置、服务器及存储介质
CN109582555A (zh) * 2018-12-04 2019-04-05 北京锐安科技有限公司 数据异常检测方法、装置、检测系统及存储介质
CN110198321A (zh) * 2019-06-13 2019-09-03 北京奇艺世纪科技有限公司 一种数据包处理方法、装置、服务器及存储介质

Also Published As

Publication number Publication date
CN111343143A (zh) 2020-06-26

Similar Documents

Publication Publication Date Title
CN111475804B (zh) 一种告警预测方法及系统
US10289841B2 (en) Graph-based attack chain discovery in enterprise security systems
US20210392152A1 (en) Intrusion detection using robust singular value decomposition
US10298607B2 (en) Constructing graph models of event correlation in enterprise security systems
US20110067106A1 (en) Network intrusion detection visualization
CN111885040A (zh) 分布式网络态势感知方法、系统、服务器及节点设备
CN111310139B (zh) 行为数据识别方法、装置及存储介质
CN112468347B (zh) 一种云平台的安全管理方法、装置、电子设备及存储介质
CN108921301A (zh) 一种基于自学习的机器学习模型更新方法及系统
CN111343143B (zh) 数据识别方法、装置及存储介质
CN107003992A (zh) 用于神经语言行为识别系统的感知联想记忆
WO2018071356A1 (en) Graph-based attack chain discovery in enterprise security systems
CN107111609A (zh) 用于神经语言行为识别系统的词法分析器
CN111126820A (zh) 反窃电方法及系统
CN111935134A (zh) 一种复杂网络安全风险监测方法和系统
CN111967011A (zh) 一种基于可解释的内部威胁评估方法
CN113282920B (zh) 日志异常检测方法、装置、计算机设备和存储介质
Lou et al. Classification-based prediction of network connectivity robustness
CN112685272B (zh) 一种具备可解释性的用户行为异常检测方法
Harang et al. Clustering of Snort alerts to identify patterns and reduce analyst workload
Gupta et al. Genetic algorithm technique used to detect intrusion detection
Liao et al. Epidemic modelling by ripple-spreading network and genetic algorithm
CN116523622A (zh) 对象风险预测方法和装置、电子设备及存储介质
CN116545679A (zh) 一种工业情境安全基础框架及网络攻击行为特征分析方法
CN116865994A (zh) 一种基于大数据的网络数据安全预测方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
REG Reference to a national code

Ref country code: HK

Ref legal event code: DE

Ref document number: 40024326

Country of ref document: HK

GR01 Patent grant
GR01 Patent grant