CN114780810A

CN114780810A - 数据处理方法、装置、存储介质及电子设备

Info

Publication number: CN114780810A
Application number: CN202210431306.7A
Authority: CN
Inventors: 谢泳; 汪来富; 邱贤奕
Original assignee: China Telecom Corp Ltd
Current assignee: China Telecom Corp Ltd
Priority date: 2022-04-22
Filing date: 2022-04-22
Publication date: 2022-07-22
Anticipated expiration: 2042-04-22
Also published as: CN114780810B

Abstract

本公开是关于一种数据处理方法、装置、存储介质及电子设备，涉及计算机技术领域，该方法包括：可以先采集目标数据，按照预设规则匹配方式在目标数据中进行筛选，确定目标数据中的疑似威胁事件，根据疑似威胁事件的参数信息，对疑似威胁事件去重，获得目标威胁事件，利用预训练的威胁事件预测模型，对目标威胁事件进行数据处理，确定目标威胁事件在下一时刻出现的预测事件组，基于预测事件组对应的类型，确定针对预测事件组的目标预警方式。这样，无需依赖人工数据处理，直接对数据中的威胁事件进行筛查和去重，简化了数据处理的步骤，避免由于获得重复的威胁事件导致处理资源浪费的问题，从而一定程度上提高了确定预测事件的准确率。

Description

数据处理方法、装置、存储介质及电子设备

技术领域

本公开实施例涉及计算机技术领域，具体而言，涉及一种数据处理方法、装置、存储介质及电子设备。

背景技术

随着人们越来越重视互联网安全，为了避免网络遭到入侵，往往会检测网络传输数据中是否存在传输威胁事件的情况。而在实际应用中，筛查传输数据中存在的威胁事件时，所使用的规则往往是需要人工设置维护的，导致人工工作量较大，处理效率较低。

需要说明的是，在上述背景技术部分发明的信息仅用于加强对本公开的背景的理解，因此可以包括不构成对本领域普通技术人员已知的现有技术的信息。

发明内容

为克服相关技术中存在的问题，本公开提供一种数据处理方法、装置、存储介质及电子设备，以至少解决相关技术中图像在处理过程中丢失原始数据，导致生成的图像失真，以及生成的图像精度较低的问题。

根据本公开的一个方面，提供一种数据处理方法，该方法包括：

采集目标数据；

按照预设规则匹配方式在所述目标数据中进行筛选，确定所述目标数据中的疑似威胁事件；

根据所述疑似威胁事件的参数信息，对所述疑似威胁事件去重，获得目标威胁事件；

利用预训练的威胁事件预测模型，对所述目标威胁事件进行数据处理，确定所述目标威胁事件在下一时刻出现的预测事件组；

基于所述预测事件组对应的类型，确定针对所述预测事件组的目标预警方式。

可选的，所述按照预设规则匹配方式在所述目标数据中进行筛选，确定所述目标数据中的疑似威胁事件，包括：

在所述目标数据中查找与所述预设规则匹配方式相匹配的命中数据；

根据所述命中数据对应的事件数据，确定所述疑似威胁事件。

可选的，所述根据所述疑似威胁事件的参数信息，对所述疑似威胁事件去重，获得目标威胁事件，包括：

获取所述疑似威胁事件对应的传输参数和时间戳；

基于所述传输参数和所述时间戳，按照预设去重条件对所述疑似威胁事件进行去重，得到所述目标威胁事件。

可选的，所述利用预训练的威胁事件预测模型，对所述目标威胁事件进行数据处理，确定所述目标威胁事件在下一时刻出现的预测事件组，包括：

根据所述目标威胁事件的传输参数和所述时间戳，确定所述目标威胁事件对应的输入矩阵；

通过所述预训练的威胁事件预测模型对所述输入矩阵进行数据处理，得到多个元组；

将所述多个元组作为所述目标威胁事件在下一时刻出现的预测事件组。

可选的，所述基于所述预测事件组对应的类型，确定针对所述预测事件组的目标预警方式，包括：

确定所述预测事件组中的指定预测事件；

根据所述指定预测事件的类型，确定对应的目标预警方式。

可选的，所述方法还包括：

获取样本威胁事件以及所述样本威胁事件对应的预测事件；

将正样本与负样本作为一个训练样本对；所述正样本是由所述样本威胁事件与命中的预测事件组成的，所述负样本是由所述样本威胁事件与未命中的预测事件组成的；

利用所述训练样本对对初始威胁事件预测模型进行训练，以获取所述预训练的威胁事件预测模型。

可选的，所述采集目标数据，包括：

在不同数据源上利用预设采集方式获取所述目标数据。

根据本公开的一个方面，提供一种数据处理装置，该装置包括：

采集模块，用于采集目标数据；

筛选模块，用于按照预设规则匹配方式在所述目标数据中进行筛选，确定所述目标数据中的疑似威胁事件；

去重模块，用于根据所述疑似威胁事件的参数信息，对所述疑似威胁事件去重，获得目标威胁事件；

处理模型，用于利用预训练的威胁事件预测模型，对所述目标威胁事件进行数据处理，确定所述目标威胁事件在下一时刻出现的预测事件组；

第一确定模块，用于基于所述预测事件组对应的类型，确定针对所述预测事件组的目标预警方式。

可选的，所述筛选模块，还用于：

可选的，所述去重模块，还用于：

获取所述疑似威胁事件对应的传输参数和时间戳；

可选的，所述处理模型，还用于：

可选的，所述第一确定模块，还用于：

确定所述预测事件组中的指定预测事件；

根据所述指定预测事件的类型，确定对应的目标预警方式。

可选的，所述装置还包括：

获取模块，用于获取样本威胁事件以及所述样本威胁事件对应的预测事件；

第二确定模块，用于将正样本与负样本作为一个训练样本对；所述正样本是由所述样本威胁事件与命中的预测事件组成的，所述负样本是由所述样本威胁事件与未命中的预测事件组成的；

训练模块，用于利用所述训练样本对对初始威胁事件预测模型进行训练，以获取所述预训练的威胁事件预测模型。

可选的，所述采集模块，还用于：

在不同数据源上利用预设采集方式获取所述目标数据。

根据本公开的一个方面，提供一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现上述任意一项所述的数据处理方法。

根据本公开的一个方面，提供一种电子设备，包括：

处理器；以及

存储器，用于存储所述处理器的可执行指令；

其中，所述处理器配置为经由执行所述可执行指令来执行上述任意一项所述的数据处理方法。

综上所述，本发明实施例提供的数据处理方法，可以先采集目标数据，按照预设规则匹配方式在目标数据中进行筛选，确定目标数据中的疑似威胁事件，根据疑似威胁事件的参数信息，对疑似威胁事件去重，获得目标威胁事件，利用预训练的威胁事件预测模型，对目标威胁事件进行数据处理，确定目标威胁事件在下一时刻出现的预测事件组，基于预测事件组对应的类型，确定针对预测事件组的目标预警方式。这样，无需依赖人工数据处理，直接对数据中的威胁事件进行筛查和去重，简化了数据处理的步骤，避免由于获得重复的威胁事件导致处理资源浪费的问题，从而一定程度上提高了确定预测事件的准确率。

应当理解的是，以上的一般描述和后文的细节描述仅是示例性和解释性的，并不能限制本公开。

附图说明

此处的附图被并入说明书中并构成本说明书的一部分，示出了符合本公开的实施例，并与说明书一起用于解释本公开的原理。显而易见地，下面描述中的附图仅仅是本公开的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本公开实施例提供的一种数据处理方法的步骤流程图；

图2是本公开实施例提供的一种确定疑似威胁事件的流程图；

图3是本公开实施例提供的一种确定目标威胁事件的流程图；

图4是本公开实施例提供的一种获取预训练的威胁事件预测模型的流程图；

图5是本公开实施例提供的一种确定预测事件组的流程图；

图6是本公开实施例提供的一个数据处理流程示意图；

图7是本公开实施例提供的一种数据处理装置的框图；

图8是本公开实施例提供的一种用于实现上述数据处理方法的电子设备。

具体实施方式

现在将参考附图更全面地描述示例实施方式。然而，示例实施方式能够以多种形式实施，且不应被理解为限于在此阐述的范例；相反，提供这些实施方式使得本公开将更加全面和完整，并将示例实施方式的构思全面地传达给本领域的技术人员。所描述的特征、结构或特性可以以任何合适的方式结合在一个或更多实施方式中。在下面的描述中，提供许多具体细节从而给出对本公开的实施方式的充分理解。然而，本领域技术人员将意识到，可以实践本公开的技术方案而省略所述特定细节中的一个或更多，或者可以采用其它的方法、组元、装置、步骤等。在其它情况下，不详细示出或描述公知技术方案以避免喧宾夺主而使得本公开的各方面变得模糊。

此外，附图仅为本公开的示意性图解，并非一定是按比例绘制。图中相同的附图标记表示相同或类似的部分，因而将省略对它们的重复描述。附图中所示的一些方框图是功能实体，不一定必须与物理或逻辑上独立的实体相对应。可以采用软件形式来实现这些功能实体，或在一个或多个硬件模块或集成电路中实现这些功能实体，或在不同网络和/或处理器装置和/或微控制器装置中实现这些功能实体。

图1是本公开实施例提供的一种数据处理方法的步骤流程图，如图1所示，该方法可以包括：

步骤S101、采集目标数据。

本公开实施例中，目标数据可以是不同电子设备之间传输的流量数据，也可以是记录电子设备上运行的日志数据，还可以是保存在电子设备上的存储数据，对此本公开实施例不做限制。为了及时发现传输数据中是否出现疑似威胁事件，采集目标数据可以是预先在传输链路上设置用于采集数据的工具，通过该工具来采集传输链路上的目标数据，也可以是在传输数据的端口处预先设置代理端口，利用该代理端口采集端口处的目标数据，还可以是在其他数据传输阶段通过设置爬取程序来采集目标数据。

步骤S102、按照预设规则匹配方式在所述目标数据中进行筛选，确定所述目标数据中的疑似威胁事件。

本公开实施例中，预设规则匹配方式可以是根据实际情况预先设置的，用于筛选威胁数据的规则，该威胁数据可以是导致系统失效、数据丢失或程序遭到破坏等的数据，具体的，预设规则匹配方式可以是各个威胁事件的特征数据，比如，可以是暴力破解程序的特征数据，也可以是恶意IP的特征数据，还可以是其他威胁数据的特征数据，对此本公开实施例不做限制。按照预设规则匹配方式在目标数据中进行筛选确定目标数据中的疑似威胁事件，可以是对目标数据进行筛选，查找目标数据中是否包含有与预设规则匹配方式中的特征数据相匹配的数据，若包含有相匹配的数据，则将该匹配的数据作为疑似威胁数据，将该匹配的数据对应的事件作为疑似威胁事件。

步骤S103、根据所述疑似威胁事件的参数信息，对所述疑似威胁事件去重，获得目标威胁事件。

本公开实施例中，疑似威胁事件的参数信息可以包括数据的传输信息、数据的传输时间以及该事件对应的事件类型，其中，数据的传输信息可以包括数据传输的IP地址、传输调用的端口、存储地址等等。由于采集到的目标数据往往是来自不同的数据源，而针对同一数据传输事件通常会同时记录在不同的数据源上，即，从目标数据中筛选得到的疑似威胁事件，往往会出现多个疑似威胁事件本质上对应的是同一疑似威胁事件的情况，因此，需要对筛选得到的疑似威胁事件进行去重处理。具体的，可以是对比各个疑似威胁事件的参数信息，将参数信息一致或相近的多个疑似威胁事件确定为表征的同一疑似威胁事件，并对表征同一疑似威胁事件的多个疑似威胁事件进行去重处理，最后，将去重后且表征的疑似威胁事件各不相同的疑似威胁事件作为目标威胁事件。

需要说明的是，目标威胁事件可以是用于表征在当前时刻采集到符合威胁数据特征的事件，但一个网络威胁行为往往是连续多个时刻均出现威胁事件，即，可以将前后连续多个时刻检测到针对同一处理任务出现威胁事件，确定为针对该处理任务出现一次网络威胁行为，而连续出现的威胁事件可以是不同类型的威胁事件。因此，在确定应用网络是否遭到网络威胁行为时，可以是先确定当前时刻是否出现威胁事件，且在下一时刻是否继续出现威胁事件，从而可以根据出现的多个威胁事件来确定对应的网络威胁行为，以及确定网络威胁行为对应的攻击类型。

步骤S104、利用预训练的威胁事件预测模型，对所述目标威胁事件进行数据处理，确定所述目标威胁事件在下一时刻出现的预测事件组。

本公开实施例中，预训练的威胁事件预测模型可以是根据样本威胁事件对应的正样本与负样本作为训练样本对，对初始威胁事件预测模型进行迭代训练得到的。通过不断的迭代训练，使得威胁事件预测模型可以学习到根据当前时刻的威胁事件预测下一时刻可能出现的威胁事件的能力。因此，可以利用训练得到的威胁事件预测模型对目标威胁事件进行数据处理，得到该目标威胁事件在下一时刻可能出现的预测事件组，其中，下一时刻的预测事件组可以包含至少一个预测事件。

在实际应用中，为了避免网络遭受到网络威胁行为，往往会根据当前时刻采集到的数据以及之前的历史数据，来预测下一时刻的传输数据中是否出现威胁事件，以此来确定网络是否遭到网络威胁行为的攻击，从而可以实现对网络威胁行为的预警，保障网络安全稳定的运行。本公开实施例中，预测下一时刻的数据传输是否出现威胁事件，可以是通过预训练的威胁事件预测模型对当前时刻出现的目标威胁事件进行数据处理，来预测在下一时刻该目标威胁事件对应的处理任务可能出现的事件，并将该可能出现的事件作为预测事件组，其中，预测事件组中包含的预测事件可以有威胁事件，也可以有非威胁事件，并且，预测事件的威胁事件类型可以与目标威胁事件的类型相同也可以不同，对此本公开不做限制。

步骤S105、基于所述预测事件组对应的类型，确定针对所述预测事件组的目标预警方式。

本公开实施例中，可以是通过确定预测事件组中每一预测事件对应的事件类型，再根据事件类型关联的预警方式确定该预测事件对应的预警方式，作为目标预警方式。需要说明的是，可以根据预测事件对网络安全的危害程度，来确定不同预测事件对应的预警方式，具体的，预测事件类型的危害等级较高，关联的预警方式更为全面且具有实时性，比如，预警方式可以为信息推送、电话通知等，预测事件类型的危害等级较低，关联的预警方式较为单一，比如，预警方式可以是发邮件等。

可选的，本公开实施例中上述采集目标数据的步骤，可以包括：

在不同数据源上利用预设采集方式获取所述目标数据。

本公开实施例中，预设采集方式可以是根据数据源的类型来确定的，比如，数据源为网络链路上的流量数据时，则可以确定预设采集方式为网络链路中部署探针，通过探针来采集流量数据作为目标数据；数据源为电子设备上的日志时，则可以确定预设采集方式为在电子设备上部署代理，通过代理来采集电子设备的日志作为目标数据。

可选的，如图2所示，本公开实施例中上述按照预设规则匹配方式在所述目标数据中进行筛选，确定所述目标数据中的疑似威胁事件的步骤，可以包括：

步骤S1021、在所述目标数据中查找与所述预设规则匹配方式相匹配的命中数据。

本公开实施例中，由于预设规则匹配方式中包含有不同威胁事件的特征数据，因此，在目标数据中查找命中预设规则匹配方式的特征数据，可以是在目标数据中查找是否出现预设规则匹配方式所指示的数据，若出现，则可以将与预设规则匹配方式相匹配的数据作为目标数据中的命中数据。其中，可以是将与预设规则匹配方式中的特征数据相同的数据作为命中数据，也可以是将与预设规则匹配方式中的特征数据相近且在预设阈值范围内的数据作为命中数据。

步骤S1022、根据所述命中数据对应的事件数据，确定所述疑似威胁事件。

本公开实施例中，由于命中数据往往只是数据处理事件中的部分数据，因此，需要根据命中数据确定该命中数据对应的整个事件数据，并将该整个事件数据确定为疑似威胁事件。例如，命中数据可以是目标数据中的第27-34行数据，而该命中数据对应的事件数据可以是目标数据中的第22-68行数据，则可以将目标数据中的第22-68行数据作为疑似威胁事件的数据。

可选的，如图3所示，本公开实施例中上述根据所述疑似威胁事件的参数信息，对所述疑似威胁事件去重，获得目标威胁事件的步骤，可以包括：

步骤S1031、获取所述疑似威胁事件对应的传输参数和时间戳。

本公开实施例中，由于疑似威胁事件往往是从源端向目的端传输的，因此，疑似威胁事件对应的传输参数可以包括用源IP、目的IP、源端口、目的端口以及事件类型，时间戳可以是该疑似威胁事件在该数据源上记录的时间信息。例如，获取的疑似威胁事件对应的传输参数和时间戳可以表示为：eventID＝(srcIP，dstIP，srcPort，dstPort，eventType)，ts，其中，eventID可以表示为疑似威胁事件，srcIP可以表示为该疑似威胁事件的源端IP，dstIP可以表示为该疑似威胁事件的目的端IP，srcPort可以表示为该疑似威胁事件的源端传输端口，dstPort可以表示为该疑似威胁事件的目的端传输端口，eventType可以表示为该疑似威胁事件对应的事件类型，ts可以表示为该疑似威胁事件对应的时间戳。

步骤S1032、基于所述传输参数和所述时间戳，按照预设去重条件对所述疑似威胁事件进行去重，得到所述目标威胁事件。

本公开实施例中，预设去重条件可以是用于确定不同疑似威胁事件是否表征同一事件的条件，具体的，当疑似威胁事件来自同一数据源时，预设去重条件可以是将传输参数与记录时间戳均相同的疑似威胁事件，作为需要执行去重的疑似威胁事件，当疑似威胁事件来自不同数据源时，预设去重条件可以是将传输参数相同，而记录时间戳的差值在预设阈值内的疑似威胁事件，作为需要执行去重的疑似威胁事件。基于传输参数和时间戳，按照预设去重条件对疑似威胁事件进行去重，得到目标威胁事件，可以是根据预设去重条件检测各个疑似威胁事件的传输参数和时间戳，对符合预设去重条件的疑似威胁事件进行去重处理，将去重处理后剩余的疑似威胁事件作为目标威胁事件。

需要说明的是，由于每一数据源在记录传输数据时往往都会存在延迟，而不同数据源之间的延迟时间并不相同，因此，当检测来自不同数据源上的两个疑似威胁事件是否需要去重处理时，预设去重条件可以为下述判定条件一，来确定疑似威胁事件1和疑似威胁事件2是否需要去重处理，该判定条件一具体可以表示为：

I(eventID₁＝eventID₂)×I(|ts₁-ts₂|＜ε)＝1

其中，eventID₁可以表示为疑似威胁事件1对应的传输参数，具体可以表示为eventID₁＝(srcIP₁，dstIP₁，srcPort₁，dstPort₁，eventType₁)，eventID₂可以表示为疑似威胁事件2对应的传输参数，具体可以表示为eventID₂＝(srcIP₂，dstIP₂，srcPort₂，dstPort₂，eventType₂)，ts₁可以表示为记录疑似威胁事件1的时间戳，ts₂可以表示为记录疑似威胁事件2的时间戳，ε可以表示为预设阈值，I可以表示预设判定条件。具体的，只有在eventID₁与eventID₂相等，且ts₁与ts₂的差值小于预设阈值时，该判定条件一可以等于1，即，该判定条件一成立，疑似威胁事件1和疑似威胁事件2需要执行去重处理。当出现两个疑似威胁事件的eventID不相等，或者两个疑似威胁事件ts的差值不小于预设阈值，或者eventID不相等且ts的差值不小于预设阈值的情况时，该判定条件一可以等于0，即，该判定条件一不成立，疑似威胁事件1和疑似威胁事件2不需要执行去重处理。

进一步地，由于在不同数据源上对同一事件记录时所使用的名称以及划分类型可能不同，例如，在数据传输过程中出现多次安全外壳协议(Secure Shell，SSH)登录的情况时，在网络流量分析的数据源上，可以将该事件记录为“暴力破解事件”，而在日志分析的数据源上，可以将该事件记录为“SSH多次登录失败事件”，但是，实际上两个数据源上记录的是同一事件“SSH多次登录”。在一种实现方式中，本公开实施例可以引入预设事件映射关系，该预设事件映射关系可以用于表征一个目标事件类型与不同数据源上的记录事件类型的对应关系，以便通过目标事件类型统一不同数据源上对事件的记录表述，例如，预设事件映射关系可以表示为f’(eventType)，其中，f’(*)可以表示为映射关系，eventType可以表示为映射关系中的目标事件类型。相应地，疑似威胁事件对应的传输参数可以表示为

因此，在确定疑似威胁事件1和疑似威胁事件2是否需要去重处理，判定条件一还可以表示为：

其中，只有在

与

相等，也就是传输参数中疑似威胁事件1和疑似威胁事件2对应的目标事件类型相同，且ts₁与ts₂的差值小于预设阈值时，该判定条件一可以等于1，即，该判定条件一成立，疑似威胁事件1和疑似威胁事件2需要执行去重处理。

需要说明的是，由于同一数据源上采集到的数据，可能会出现同一事件被多次重复记录分析的情况，因此，对来自同一数据源上的两个疑似威胁事件也需要检测是否执行去重处理，预设去重条件可以为下述判定条件二，该判定条件二具体可以表示为：

I(eventID₃＝eventID₄)×I(ts₃＝ts₄)＝1

具体的，可以是只有在eventID₁与eventID₂相等，且ts₁与ts₂也相等时，该判定条件二可以等于1，即，该判定条件二成立，疑似威胁事件3和疑似威胁事件4需要执行去重处理。当出现两个疑似威胁事件的eventID不相等，或者两个疑似威胁事件的ts不相等，或者eventID不相等且ts也不相等的情况时，该判定条件二可以等于0，即，该判定条件二不成立，疑似威胁事件3和疑似威胁事件4不需要执行去重处理。

可选的，如图4所示，本公开实施例中上述数据处理方法还可以包括：

步骤S21、获取样本威胁事件以及所述样本威胁事件对应的预测事件。

本公开实施例中，可以是将已确定命中预测事件的目标威胁事件作为样本威胁事件，并确定该样本威胁事件对应的预测事件，该预测事件可以是通过威胁事件预测模型计算得到，也可以是人工填写的预测事件。

步骤S22、将正样本与负样本作为一个训练样本对；所述正样本是由所述样本威胁事件与命中的预测事件组成的，所述负样本是由所述样本威胁事件与未命中的预测事件组成的。

本公开实施例中，可以是将样本威胁事件与命中的预测事件作为正样本，将样本威胁事件与未命中的预测事件作为负样本，由正样本与负样本组成一个训练样本对。

步骤S23、利用所述训练样本对对初始威胁事件预测模型进行训练，以获取所述预训练的威胁事件预测模型。

本公开实施例中，初始威胁事件预测模型可以是循环神经网络(RecurrentNeural Network,RNN)，也可以是时间循环神经网络(Long-Short Term Memory，LSTM)，对此本公开不做限制。具体的，可以是将正样本与负样本输入到初始威胁事件预测模型中，根据当前时刻的样本威胁事件，来计算下一时刻可能出现各个事件的概率。例如，对初始威胁事件预测模型进行训练时，计算下一时刻可能出现各个事件的概率可以表示为：

其中，p(E)可以是表征样本威胁事件E对应的处理任务在下一时刻t+1出现各威胁事件的联合概率，由于影响下一时刻出现威胁事件的因素往往是该处理任务在前一时刻已出现的事件，且随着时间间隔越长，该已出现的事件对下一时刻出现威胁事件的影响越弱，因此，p(E)可以统计样本威胁事件对应的时间戳t以及历史时刻(t-1，t-m-1)出现的事件，对下一时刻t+1出现各威胁事件的概率。E可以表示为样本威胁事件对应的IP传输参数，即，可以包括源端IP和目的端IP。t可以表示为样本威胁事件对应的时间戳，e_t可以表示为在时间戳t时出现的样本威胁事件，d_t可以表示为在时间戳t时出现的目的端，s_t可以表示为在时间戳t时出现的源端，et_t可以表示为在时间戳t时出现的事件类型，{E_t-1，...，E_t-m-1}可以表示为在t-1至t-m-1之间出现的样本威胁事件。p(d_t|s_t，et_t，{E_t-1，...，E_t-m-1})可以表示为在目的端d_t一定时，不同的源端s_t、事件类型et_t以及样本威胁事件下预测事件的出现概率，p(s_t，et_t|{E_t-1，...，E_t-m-1})可以表示为在源端s_t、事件类型et_t一定时，不同时间的样本威胁事件下预测事件的出现概率，D_t-1(s_t)可以表示为在t-1时与源端s_t有关的样本威胁事件集合，p(d_t|s_t，et_t，{D_t-1(s_t)，...，D_t-m-1(s_t)})可以表示为在目的端d_t一定时，不同的源端s_t、事件类型et_t以及有关的样本威胁事件集合下预测事件的出现概率。f(*)可以为循环神经网络(RNN)，用于学习计算出现各个事件的概率，h_t-1(s_t，et_t)可以表示为在时间戳t时出现的源端和事件类型下出现各个事件的概率，h(*)可以具体表示为：

h_t(s，et)＝F(s，et，g(O_t(s))，h_t-1(s，et))

F(*)可以为递归函数，g(*)可以表示为同时刻与源端s相关的其他传输参数信息，O_t(s)可以是与源端s相关的一个或多个传输参数。需要说明的是，在对循环神经网络进行训练时，所使用的损失函数可以是交叉熵函数。

可选的，如图5所示，本公开实施例中上述利用预训练的威胁事件预测模型，对所述目标威胁事件进行数据处理，确定所述目标威胁事件在下一时刻出现的预测事件组的步骤，可以包括：

步骤S1041、根据所述目标威胁事件的传输参数和所述时间戳，确定所述目标威胁事件对应的输入矩阵。

本公开实施例中，目标威胁事件对应的输入矩阵可以是根据威胁事件预测模型对输入数据的形式确定的。根据目标威胁事件的传输参数和时间戳，确定目标威胁事件对应的输入矩阵，可以是对目标威胁事件的传输参数和时间戳进行数据转换整理，得到四元组可以表示为：e_i＝(srcIP_i，dstIP_i，eventType_i，ts_i)，并将该得到的四元组作为目标威胁事件对应的输入矩阵。

步骤S1042、通过所述预训练的威胁事件预测模型对所述输入矩阵进行数据处理，得到多个元组。

本公开实施例中，可以是将输入矩阵作为预训练的威胁事件预测模型的输入量，通过预训练的威胁事件预测模型的数据处理，得到输出结果为多个元组。

步骤S1043、将所述多个元组作为所述目标威胁事件在下一时刻出现的预测事件组。

本公开实施例中，可以是将每一元组作为一个预测事件，从而多个元组可以作为目标威胁事件在下一时刻出现的预测事件组。示例的，利用威胁事件预测模型来预测在下一时刻被源端IP实施事件类型为eventType的目的端IP，目的端IP的出现概率y可以表示为：

y＝p(d_t|s,et,{D_t-1(s_t),…,D_t-m-1(s_t)})

其中，p(d_t|s,et,{D_t-1(s_t),…,D_t-m-1(s_t)})可以表示为在目的端d_t一定时，不同的源端s、事件类型t以及有关的样本威胁事件集合下预测事件的出现概率。

可选的，本公开实施例中上述基于所述预测事件组对应的类型，确定针对所述预测事件组的目标预警方式的步骤，可以包括：

确定所述预测事件组中的指定预测事件；根据所述指定预测事件的类型，确定对应的目标预警方式。

本公开实施例中，确定预测事件组中的指定预测事件，可以是在预设界面上显示得到的所有预测事件组，将用户选定的预测事件作为预测事件组中的指定预测事件。

本公开实施例中，根据指定预测事件的类型确定对应的目标预警方式，可以是确定指定预测事件的类型关联的预警方式，将该预警方式作为目标预警方式。示例的，一种实现方式可以是安全人员列出需要关注的事件类型列表，系统遍历列表中的每个类别，查询得到的预测事件组是否包含关注的事件类型，若包含则对该预测事件进行预警，其中，预警方式可以是向安全人员发送通知信息。另一种实现方式可以是在预设交互界面上，操作人员可以选择需要预警的IP和事件类型，以便威胁事件预测模型根据该IP和事件类型计算预测结果，并将预测结果对应的事件作为预测事件。

需要说明的是，相较于相关技术，本公开实施例通过对筛选得到的事件按照传输参数进行分类分析，可以一定程度上提高事件的横向扩展性，可以更清楚描述实际威胁事件之间的复杂联系。其次，通过获取不同数据源上的目标数据，可以融合多源数据的信息，从而可以充分利用该信息来考虑威胁事件之间的关联，同时解耦了各数据源分析模块的开发流程。进一步地，基于威胁事件预测模型的预测，可以提高分析信息的泛化能力，以便于得到的预测结果可以与安全人员给定的规则相匹配，从而可以提高对威胁事件预警的效率。

示例的，图6是本公开实施例提供的一个数据处理流程示意图，如图6所示，01、从不同数据源上采集目标数据，不同数据源包括网络流量和系统日志，02、从网络流量上采集的目标数据中确定疑似威胁事件1，03、从系统日志上采集的目标数据中确定疑似威胁事件2，04、疑似威胁事件1包括暴力破解事件、恶意IP通信事件、数据库异常IP登录事件、……，05、疑似威胁事件2包括暴力破解事件、异常登录事件、异常操作命令事件、……，06、根据疑似威胁事件1确定目标威胁事件，07、根据疑似威胁事件2确定目标威胁事件，08、得到目标威胁事件包括暴力破解事件、恶意IP通信事件、数据库异常IP登录事件、异常登录事件、异常操作命令事件、……，09、将目标威胁事件输入到预训练的威胁事件预测模型中，10、确定目标威胁事件在下一时刻出现的预测事件组，11、确定针对预测事件组的目标预警方式，12、在下一时刻根据命中的预测事件将目标威胁事件作为样本威胁事件。

图7是本公开实施例提供的一种数据处理装置，如图7所示，该装置30可以包括：

采集模块301，用于采集目标数据；

筛选模块302，用于按照预设规则匹配方式在所述目标数据中进行筛选，确定所述目标数据中的疑似威胁事件；

去重模块303，用于根据所述疑似威胁事件的参数信息，对所述疑似威胁事件去重，获得目标威胁事件；

处理模型304，用于利用预训练的威胁事件预测模型，对所述目标威胁事件进行数据处理，确定所述目标威胁事件在下一时刻出现的预测事件组；

第一确定模块305，用于基于所述预测事件组对应的类型，确定针对所述预测事件组的目标预警方式。

综上所述，本发明实施例提供的数据处理装置，可以先采集目标数据，按照预设规则匹配方式在目标数据中进行筛选，确定目标数据中的疑似威胁事件，根据疑似威胁事件的参数信息，对疑似威胁事件去重，获得目标威胁事件，利用预训练的威胁事件预测模型，对目标威胁事件进行数据处理，确定目标威胁事件在下一时刻出现的预测事件组，基于预测事件组对应的类型，确定针对预测事件组的目标预警方式。这样，无需依赖人工数据处理，直接对数据中的威胁事件进行筛查和去重，简化了数据处理的步骤，避免由于获得重复的威胁事件导致处理资源浪费的问题，从而一定程度上提高了确定预测事件的准确率。

可选的，所述筛选模块302，还用于：

可选的，所述去重模块303，还用于：

获取所述疑似威胁事件对应的传输参数和时间戳；

可选的，所述处理模型304，还用于：

可选的，所述第一确定模块305，还用于：

确定所述预测事件组中的指定预测事件；

根据所述指定预测事件的类型，确定对应的目标预警方式。

可选的，所述装置30还包括：

可选的，所述采集模块301，还用于：

在不同数据源上利用预设采集方式获取所述目标数据。

上述数据处理装置中各模块的具体细节已经在对应的数据处理方法中进行了详细的描述，因此此处不再赘述。

应当注意，尽管在上文详细描述中提及了用于动作执行的设备的若干模块或者单元，但是这种划分并非强制性的。实际上，根据本公开的实施方式，上文描述的两个或更多模块或者单元的特征和功能可以在一个模块或者单元中具体化。反之，上文描述的一个模块或者单元的特征和功能可以进一步划分为由多个模块或者单元来具体化。

此外，尽管在附图中以特定顺序描述了本公开中方法的各个步骤，但是，这并非要求或者暗示必须按照该特定顺序来执行这些步骤，或是必须执行全部所示的步骤才能实现期望的结果。附加的或备选的，可以省略某些步骤，将多个步骤合并为一个步骤执行，以及/或者将一个步骤分解为多个步骤执行等。

在本公开的示例性实施例中，还提供了一种能够实现上述方法的电子设备。

所属技术领域的技术人员能够理解，本公开的各个方面可以实现为系统、方法或程序产品。因此，本公开的各个方面可以具体实现为以下形式，即：完全的硬件实施方式、完全的软件实施方式(包括固件、微代码等)，或硬件和软件方面结合的实施方式，这里可以统称为“电路”、“模块”或“系统”。

下面参照图8来描述根据本公开的这种实施方式的电子设备400。图8显示的电子设备400仅仅是一个示例，不应对本公开实施例的功能和使用范围带来任何限制。

如图8所示，电子设备400以通用计算设备的形式表现。电子设备400的组件可以包括但不限于：上述至少一个处理单元410、上述至少一个存储单元420、连接不同系统组件(包括存储单元420和处理单元410)的总线430以及显示单元440。

其中，所述存储单元存储有程序代码，所述程序代码可以被所述处理单元410执行，使得所述处理单元410执行本说明书上述“示例性方法”部分中描述的根据本公开各种示例性实施方式的步骤。例如，所述处理单元410可以执行如图1中所示的步骤101：采集目标数据；步骤102：按照预设规则匹配方式在所述目标数据中进行筛选，确定所述目标数据中的疑似威胁事件；步骤103：根据所述疑似威胁事件的参数信息，对所述疑似威胁事件去重，获得目标威胁事件；步骤104：利用预训练的威胁事件预测模型，对所述目标威胁事件进行数据处理，确定所述目标威胁事件在下一时刻出现的预测事件组；步骤105：基于所述预测事件组对应的类型，确定针对所述预测事件组的目标预警方式。

存储单元420可以包括易失性存储单元形式的可读介质，例如随机存取存储单元(RAM)4201和/或高速缓存存储单元4202，还可以进一步包括只读存储单元(ROM)4203。

存储单元420还可以包括具有一组(至少一个)程序模块4205的程序/实用工具4204，这样的程序模块4205包括但不限于：操作系统、一个或者多个应用程序、其它程序模块以及程序数据，这些示例中的每一个或某种组合中可能包括网络环境的实现。

总线430可以为表示几类总线结构中的一种或多种，包括存储单元总线或者存储单元控制器、外围总线、图形加速端口、处理单元或者使用多种总线结构中的任意总线结构的局域总线。

电子设备400也可以与一个或多个外部设备500(例如键盘、指向设备、蓝牙设备等)通信，还可与一个或者多个使得用户能与该电子设备400交互的设备通信，和/或与使得该电子设备400能与一个或多个其它计算设备进行通信的任何设备(例如路由器、调制解调器等等)通信。这种通信可以通过输入/输出(I/O)接口450进行。并且，电子设备400还可以通过网络适配器460与一个或者多个网络(例如局域网(LAN)，广域网(WAN)和/或公共网络，例如因特网)通信。如图所示，网络适配器460通过总线430与电子设备400的其它模块通信。应当明白，尽管图中未示出，可以结合电子设备400使用其它硬件和/或软件模块，包括但不限于：微代码、设备驱动器、冗余处理单元、外部磁盘驱动阵列、RAID系统、磁带驱动器以及数据备份存储系统等。

通过以上的实施方式的描述，本领域的技术人员易于理解，这里描述的示例实施方式可以通过软件实现，也可以通过软件结合必要的硬件的方式来实现。因此，根据本公开实施方式的技术方案可以以软件产品的形式体现出来，该软件产品可以存储在一个非易失性存储介质(可以是CD-ROM，U盘，移动硬盘等)中或网络上，包括若干指令以使得一台计算设备(可以是个人计算机、服务器、终端装置、或者网络设备等)执行根据本公开实施方式的方法。

在本公开的示例性实施例中，还提供了一种计算机可读存储介质，其上存储有能够实现本说明书上述方法的程序产品。在一些可能的实施方式中，本公开的各个方面还可以实现为一种程序产品的形式，其包括程序代码，当所述程序产品在终端设备上运行时，所述程序代码用于使所述终端设备执行本说明书上述“示例性方法”部分中描述的根据本公开各种示例性实施方式的步骤。

根据本公开的实施方式的用于实现上述方法的程序产品，其可以采用便携式紧凑盘只读存储器(CD-ROM)并包括程序代码，并可以在终端设备，例如个人电脑上运行。然而，本公开的程序产品不限于此，在本文件中，可读存储介质可以是任何包含或存储程序的有形介质，该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。

所述程序产品可以采用一个或多个可读介质的任意组合。可读介质可以是可读信号介质或者可读存储介质。可读存储介质例如可以为但不限于电、磁、光、电磁、红外线、或半导体的系统、装置或器件，或者任意以上的组合。可读存储介质的更具体的例子(非穷举的列表)包括：具有一个或多个导线的电连接、便携式盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。

计算机可读信号介质可以包括在基带中或者作为载波一部分传播的数据信号，其中承载了可读程序代码。这种传播的数据信号可以采用多种形式，包括但不限于电磁信号、光信号或上述的任意合适的组合。可读信号介质还可以是可读存储介质以外的任何可读介质，该可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。

可读介质上包含的程序代码可以用任何适当的介质传输，包括但不限于无线、有线、光缆、RF等等，或者上述的任意合适的组合。

可以以一种或多种程序设计语言的任意组合来编写用于执行本公开操作的程序代码，所述程序设计语言包括面向对象的程序设计语言—诸如Java、C++等，还包括常规的过程式程序设计语言—诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算设备上执行、部分地在用户设备上执行、作为一个独立的软件包执行、部分在用户计算设备上部分在远程计算设备上执行、或者完全在远程计算设备或服务器上执行。在涉及远程计算设备的情形中，远程计算设备可以通过任意种类的网络，包括局域网(LAN)或广域网(WAN)，连接到用户计算设备，或者，可以连接到外部计算设备(例如利用因特网服务提供商来通过因特网连接)。

此外，上述附图仅是根据本公开示例性实施例的方法所包括的处理的示意性说明，而不是限制目的。易于理解，上述附图所示的处理并不表明或限制这些处理的时间顺序。另外，也易于理解，这些处理可以是例如在多个模块中同步或异步执行的。

本领域技术人员在考虑说明书及实践这里发明的发明后，将容易想到本公开的其他实施例。本申请旨在涵盖本公开的任何变型、用途或者适应性变化，这些变型、用途或者适应性变化遵循本公开的一般性原理并包括本公开未发明的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的，本公开的真正范围和精神由权利要求指出。

Claims

1.一种数据处理方法，其特征在于，所述方法包括：

采集目标数据；

2.根据权利要求1所述的方法，其特征在于，所述按照预设规则匹配方式在所述目标数据中进行筛选，确定所述目标数据中的疑似威胁事件，包括：

3.根据权利要求1所述的方法，其特征在于，所述根据所述疑似威胁事件的参数信息，对所述疑似威胁事件去重，获得目标威胁事件，包括：

获取所述疑似威胁事件对应的传输参数和时间戳；

4.根据权利要求3所述的方法，其特征在于，所述利用预训练的威胁事件预测模型，对所述目标威胁事件进行数据处理，确定所述目标威胁事件在下一时刻出现的预测事件组，包括：

5.根据权利要求1所述的方法，其特征在于，所述基于所述预测事件组对应的类型，确定针对所述预测事件组的目标预警方式，包括：

确定所述预测事件组中的指定预测事件；

根据所述指定预测事件的类型，确定对应的目标预警方式。

6.根据权利要求1至5中任一项所述的方法，其特征在于，所述方法还包括：

获取样本威胁事件以及所述样本威胁事件对应的预测事件；

7.根据权利要求1所述的方法，其特征在于，所述采集目标数据，包括：

在不同数据源上利用预设采集方式获取所述目标数据。

8.一种数据处理装置，其特征在于，所述装置包括：

采集模块，用于采集目标数据；

9.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现权利要求1-7任一项所述的数据处理方法。

10.一种电子设备，其特征在于，包括：

处理器；以及

存储器，用于存储所述处理器的可执行指令；

其中，所述处理器配置为经由执行所述可执行指令来执行权利要求1-7任一项所述的数据处

理方法。